你的电脑能跑本地AI吗 3分钟自检 · 本地 AI 橙皮书

3.1 先纠正三个常见误区

很多人一听"在本地跑 AI"就吓到，心想：是不是要装 4090 才行？是不是要 64 GB 内存？是不是 Mac 跑不了？

下面这三个误区，先一并清零：

不需要顶级显卡。3B–8B 的中等模型，在 8 GB 显存或 16 GB 内存的机器上都能跑。
Mac 比你想象的强很多。Apple Silicon 的统一内存等同于"既是内存又是显存"，一台 16 GB 的 M1 MacBook 跑 8B 模型比同价位 PC 流畅。
CPU 也能跑，只是慢。一台四五年前的台式机，没有独显，照样能跑 1B–3B 模型。

明白这一点，你就知道：本地 AI 不挑机，挑的是"你愿意接受多慢的速度，去换多大的模型"。

3.2 决定本地 AI 体验的 5 个硬件指标

你不需要全部精通，但这 5 个数字必须知道在哪查：

指标 1：内存（RAM）

最关键的指标。决定了你能加载多大的模型。

8 GB：能跑 1B–3B 量化模型（如 Llama 3.2 3B Q4）。聊天可用，做复杂任务吃力。
16 GB：能跑 7B–8B 量化模型（如 Qwen 3 8B Q4）。主流甜点。
24 GB：能跑 14B 量化模型（如 Phi-4 14B Q4）。
32 GB：能跑 32B 量化模型（如 Qwen 2.5 Coder 32B Q4）。
48–64 GB：能跑 70B 量化模型（如 Llama 3.3 70B Q4）。
128 GB+：能跑 100B+ 模型（如 Llama 4 Scout、DeepSeek-V3 部分量化）。

指标 2：显存（VRAM，仅 Windows/Linux 独显用户关心）

如果你是 Mac，请跳到指标 3。

4–6 GB（GTX 1660、RTX 3050）：跑 3B–7B Q4 模型，速度可接受。
8 GB（RTX 3060/3060 Ti、RTX 4060）：跑 7B Q5 或 8B Q4 模型很流畅。
12 GB（RTX 3060 12G、RTX 4070、RTX 5070）：跑 13B–14B Q4，速度好。
16 GB（RTX 4060 Ti 16G、RTX 4080）：跑 14B Q5 或 32B Q3，体验良好。
24 GB（RTX 3090、RTX 4090、RTX 5090）：跑 32B Q4 或 70B Q2，已经是个人极致。
多卡 / 48 GB+：能跑 70B Q5 甚至 100B+ 模型。

指标 3：芯片型号

这一项主要面向 Mac 用户。Apple Silicon 的"统一内存带宽"决定了 token 生成速度（也就是 AI 答字快慢）。

芯片	内存带宽	7B 模型速度感受	70B 模型可行性
M1/M2/M3/M4 基础版	68–120 GB/s	流畅（约 25–35 tok/s）	不推荐
M1/M2/M3/M4 Pro	150–273 GB/s	很流畅（30–40 tok/s）	勉强（需 36 GB+）
M1/M2/M3/M4 Max	300–546 GB/s	极流畅（50–70 tok/s）	可以（需 64 GB+）
M Ultra 系列	400–800 GB/s	极致（70–100 tok/s）	完美（需 128 GB+）

注意一个反直觉的事实：M3 Max（400 GB/s）比 M4 Pro（273 GB/s）跑大模型更快。带宽决定速度，不是芯片代数。

指标 4：硬盘空间

一个 8B 量化模型 ≈ 5 GB
一个 32B 量化模型 ≈ 20 GB
一个 70B 量化模型 ≈ 40 GB

建议预留至少 50 GB 空闲硬盘。如果想多收集几个模型对比，留 200 GB 更舒服。

指标 5：网速（仅首次下载）

模型文件普遍 5–40 GB。

100 Mbps 家庭宽带：8B 模型约 8 分钟下完。
1 Gbps 千兆宽带：8B 模型约 1 分钟下完。
国内用户常因网络问题下不动 Hugging Face——第四章会教你用国内镜像（魔搭社区、Ollama 国内代理）。

3.3 3 分钟硬件自检：实操步骤

Mac 用户

屏幕左上角苹果菜单 → "关于本机"。
看 "芯片"（M1 / M2 / M3 / M4 / Pro / Max / Ultra）。
看 "内存"（8 GB / 16 GB / 24 GB / 32 GB / 64 GB / 128 GB / 192 GB）。
点 "更多信息" → "储存空间"，看可用空间。

把这三项记下来，比照 3.2 节查档位。

Windows 用户

按 Win + I 打开"设置" → "系统" → "关于"。
看 "已安装的内存（RAM）"。
桌面右键 → "显示设置" → 拉到底 → "高级显示设置"，看显卡型号。
按 Win + E 打开资源管理器 → 看 C 盘 / D 盘剩余空间。

如果看显卡更精确，下载并打开 GPU-Z（免费工具），看 "Memory Size"，就是显存大小。

Linux 用户

终端里输入：

free -h          # 查看内存
nvidia-smi       # 查看 NVIDIA 显存（无独显的会报错，正常）
df -h            # 查看硬盘空间
lscpu            # 查看 CPU

把输出的内存、显存、硬盘三项记下来。

3.4 按机器档位选模型：速查图

第一步：找到你电脑所属的档位。

第二步：选这个档位推荐的"主力模型 + 备用模型"。

┌─────────────────────────────────────────────────────────────┐
│ 档位 1：8 GB 内存（无独显或 4 GB 显存以下）                   │
├─────────────────────────────────────────────────────────────┤
│ 主力：Qwen 3 1.7B Q4_K_M     (体积 ~1.2 GB，纯聊天可用)        │
│ 备用：Llama 3.2 3B Q4_K_M    (体积 ~2 GB，英文略好)            │
│ 备用：Gemma 3 4B Q4_K_M      (体积 ~2.8 GB，多语言好)          │
│ 不推荐：7B 以上               (会卡，每秒 1–3 字)               │
│ 适合任务：简单问答、翻译、文本润色                              │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 2：16 GB 内存 / 8 GB 显存（甜点档）                      │
├─────────────────────────────────────────────────────────────┤
│ 主力：Qwen 3 8B Q4_K_M       (体积 ~5 GB，中文最佳)            │
│ 备用：Llama 3.1 8B Q4_K_M    (体积 ~5 GB，英文最佳)            │
│ 备用：DeepSeek-R1 7B Q4_K_M  (体积 ~4.7 GB，推理强)            │
│ 编程专用：Qwen 2.5 Coder 7B  (体积 ~4.7 GB，代码强)            │
│ 适合任务：日常写作、文档总结、翻译、轻度编程、本地知识库         │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 3：24 GB 内存 / 12 GB 显存                                │
├─────────────────────────────────────────────────────────────┤
│ 主力：Qwen 3 14B Q4_K_M      (体积 ~9 GB，综合强)              │
│ 备用：Phi-4 14B Q4_K_M       (体积 ~8.5 GB，推理与代码均衡)    │
│ 备用：Gemma 3 12B Q5_K_M     (体积 ~8 GB，多语言)              │
│ 视觉：Qwen 2.5-VL 7B Q4      (体积 ~5 GB，加上面 8B 文本)       │
│ 适合任务：上述全部 + 复杂推理、长文档总结、视觉理解            │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 4：32 GB 内存 / 16–24 GB 显存                             │
├─────────────────────────────────────────────────────────────┤
│ 主力：Qwen 3 32B Q4_K_M      (体积 ~20 GB，接近顶级)           │
│ 编程：Qwen 2.5 Coder 32B Q4  (体积 ~20 GB，代码顶级)           │
│ 推理：DeepSeek-R1 32B Q4     (体积 ~20 GB，数学逻辑顶级)       │
│ 视觉：Llama 3.2 11B Vision   (体积 ~7.5 GB)                    │
│ 适合任务：本地写作工作站、本地编程主力、复杂多步推理            │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 5：64 GB+ 内存 / Mac M-Max 或多卡                         │
├─────────────────────────────────────────────────────────────┤
│ 主力：Llama 3.3 70B Q4_K_M   (体积 ~40 GB，几乎不输云端)       │
│ 多模态：Qwen 2.5-VL 72B Q4   (体积 ~40 GB)                     │
│ 旗舰：DeepSeek-R1 70B Q4     (体积 ~40 GB)                     │
│ 适合任务：替代 ChatGPT Plus 的日常使用                         │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 6：128 GB+ 内存 / Mac Studio Ultra / 多卡服务器           │
├─────────────────────────────────────────────────────────────┤
│ 主力：Llama 4 Scout 109B Q4  (10M 上下文窗口)                  │
│ 旗舰：Qwen 3 235B-A22B Q4    (Apache 2.0, 接近 GPT-4o)         │
│ 旗舰：DeepSeek-V3 671B Q2    (671B 总参，37B 激活)             │
│ 适合任务：完全替代云端旗舰，跑企业级 RAG / Agent              │
└─────────────────────────────────────────────────────────────┘

找到自己所在的档，照这一档的"主力 + 备用"下载即可。

3.5 Mac vs Windows 怎么看

这是新人最容易迷糊的一点：同样标 "16 GB"，Mac 和 Windows 不是一回事。

Mac（Apple Silicon）：统一内存

16 GB 统一内存 = 同时给 CPU、GPU、神经引擎用。
跑 8B 模型时，模型占 5 GB 内存（这部分相当于"显存"），剩下 11 GB 给系统和其他 App。
优点：不用区分内存和显存，配置简单；带宽高，速度快。
缺点：不能升级，买的时候选大点。

Mac 选购建议：

用途	推荐配置	大约价格（2026 年）
试水玩玩	Mac mini M4 16 GB	5000–6000 元
主力日常	Mac mini M4 24 GB	7000–8000 元
重度使用	Mac mini M4 Pro 48 GB	12000–14000 元
跑 70B	Mac Studio M4 Max 64 GB	20000–25000 元
跑 100B+	Mac Studio M4 Ultra 128 GB	40000+ 元

Windows / Linux：内存 + 显存分开

跑模型时，模型主要加载到显存里。
显存不够时，会"溢出"到内存，再溢出到硬盘——速度直线下降。
优点：显卡可以单独升级；同等价位算力上限更高。
缺点：装机门槛高，电源、散热、噪音都是事。

PC 装机建议：

用途	推荐配置	大约价格
试水	RTX 4060 8 GB + 32 GB 内存	8000 元
主力	RTX 4070 12 GB + 32 GB 内存	12000 元
重度	RTX 4090 24 GB + 64 GB 内存	25000 元
极致	双 RTX 4090 / RTX 5090 + 128 GB	50000+ 元

3.6 不达标怎么办：4 条出路

如果你电脑配置不够，不要立刻去买新机。先看看这 4 条路：

出路 1：跑小一档的模型

8 GB 也能跑 Qwen 3 1.7B、Llama 3.2 3B、Phi-3.5 mini。日常写作、翻译、问答都够用，只是不能让它做太复杂的推理。

出路 2：用云租 GPU 学习，回头再上本地

国内的 AutoDL、矩池云、揽睿星舟，海外的 RunPod、vast.ai，按小时计费。

一台 RTX 4090 大约 1.5–3 元/小时。
一台 H100 大约 5–10 元/小时。

你可以花几十块，先在云上把本地 AI 流程跑通，看看自己是否真的需要本地——如果是，再花钱买硬件不晚。

出路 3：买二手机

2026 年很多 2021–2022 年的机型已经掉到很合理的价格：

二手 M1 Mac mini 16 GB：3000–4000 元，跑 8B 模型很流畅。
二手 ThinkStation P350 工作站 + 二手 RTX 3090 24G：6000–8000 元，跑 32B 模型。
二手 Mac Studio M1 Max 32 GB：10000 元左右，跑 14B 流畅、跑 32B 可用。

特别提醒：买二手 GPU 一定要测试显存稳定性，矿卡常见。

出路 4：先用云端 AI 学方法，硬件以后再说

这本书的所有"提示词模板"、"工作流思路"、"Agent 设计"，都是和具体硬件无关的——你今天先在云端 AI 上把方法学会，明年换电脑了直接迁移到本地，无缝衔接。

3.7 一个真实案例：作者自己的配置

以本书作者为例，目前的本地 AI 工作流跑在两台机器上：

主力：Mac Studio M2 Ultra 128 GB（2023 年购入），跑 Llama 3.3 70B + Qwen 3 32B 视觉版。
备用：Mac mini M4 24 GB（2024 年购入），跑 Qwen 3 8B + Cherry Studio 知识库，给家人用。
手机：iPhone 16 Pro，用 Apple Intelligence + Tailscale 远程连家里的 Mac，作为"本地 AI 移动端"。

总投入：约 6 万元。每月 AI 订阅成本：从原来的每月 200 美元降到 0，回本周期约 18 个月。

你不需要一上来就照搬这个配置——绝大多数读者从一台 Mac mini M4 16 GB（5000 元）起步就够了。

3.8 本章小练习

练习 1：填一张你自己的"电脑画像表"

项目	数值
我的电脑型号	例：Mac mini M2 Pro
内存	例：16 GB
显存（如果有独显）	例：N/A（Mac）
可用硬盘	例：220 GB
我所属的档位	例：档位 2
我应该下载的主力模型	例：Qwen 3 8B Q4_K_M

练习 2：上 Hugging Face 看看"5 GB 长啥样"

打开 https://huggingface.co/Qwen/Qwen3-8B-GGUF ，往下翻，看到"qwen3-8b-q4_k_m.gguf 4.92 GB"——这就是你即将下载的"AI 大脑"。

下章我们就会真的把它请下来。

练习 3：判断要不要换电脑

如果你目前是 8 GB 内存：

若你只想试试，先不换。
若你确定要长期用、且工作敏感，建议换 16 GB 或更高。

如果你目前是 16 GB+ 内存：直接进入第四章动手。

3.9 一句话记住

看你电脑的内存和显存，找到自己的档位，挑这个档位的主力模型——本地 AI 的全部硬件准备工作就完成了。

下一章第四章 · 五分钟跑起你的第一个本地AI，我们打开终端或者图形界面，让 AI 第一次在你的电脑里说话。