3.1 先纠正三个常见误区
很多人一听"在本地跑 AI"就吓到,心想:是不是要装 4090 才行?是不是要 64 GB 内存?是不是 Mac 跑不了?
下面这三个误区,先一并清零:
- 不需要顶级显卡。3B–8B 的中等模型,在 8 GB 显存或 16 GB 内存的机器上都能跑。
- Mac 比你想象的强很多。Apple Silicon 的统一内存等同于"既是内存又是显存",一台 16 GB 的 M1 MacBook 跑 8B 模型比同价位 PC 流畅。
- CPU 也能跑,只是慢。一台四五年前的台式机,没有独显,照样能跑 1B–3B 模型。
明白这一点,你就知道:本地 AI 不挑机,挑的是"你愿意接受多慢的速度,去换多大的模型"。
3.2 决定本地 AI 体验的 5 个硬件指标
你不需要全部精通,但这 5 个数字必须知道在哪查:
指标 1:内存(RAM)
最关键的指标。决定了你能加载多大的模型。
- 8 GB:能跑 1B–3B 量化模型(如 Llama 3.2 3B Q4)。聊天可用,做复杂任务吃力。
- 16 GB:能跑 7B–8B 量化模型(如 Qwen 3 8B Q4)。主流甜点。
- 24 GB:能跑 14B 量化模型(如 Phi-4 14B Q4)。
- 32 GB:能跑 32B 量化模型(如 Qwen 2.5 Coder 32B Q4)。
- 48–64 GB:能跑 70B 量化模型(如 Llama 3.3 70B Q4)。
- 128 GB+:能跑 100B+ 模型(如 Llama 4 Scout、DeepSeek-V3 部分量化)。
指标 2:显存(VRAM,仅 Windows/Linux 独显用户关心)
如果你是 Mac,请跳到指标 3。
- 4–6 GB(GTX 1660、RTX 3050):跑 3B–7B Q4 模型,速度可接受。
- 8 GB(RTX 3060/3060 Ti、RTX 4060):跑 7B Q5 或 8B Q4 模型很流畅。
- 12 GB(RTX 3060 12G、RTX 4070、RTX 5070):跑 13B–14B Q4,速度好。
- 16 GB(RTX 4060 Ti 16G、RTX 4080):跑 14B Q5 或 32B Q3,体验良好。
- 24 GB(RTX 3090、RTX 4090、RTX 5090):跑 32B Q4 或 70B Q2,已经是个人极致。
- 多卡 / 48 GB+:能跑 70B Q5 甚至 100B+ 模型。
指标 3:芯片型号
这一项主要面向 Mac 用户。Apple Silicon 的"统一内存带宽"决定了 token 生成速度(也就是 AI 答字快慢)。
| 芯片 | 内存带宽 | 7B 模型速度感受 | 70B 模型可行性 |
|---|---|---|---|
| M1/M2/M3/M4 基础版 | 68–120 GB/s | 流畅(约 25–35 tok/s) | 不推荐 |
| M1/M2/M3/M4 Pro | 150–273 GB/s | 很流畅(30–40 tok/s) | 勉强(需 36 GB+) |
| M1/M2/M3/M4 Max | 300–546 GB/s | 极流畅(50–70 tok/s) | 可以(需 64 GB+) |
| M Ultra 系列 | 400–800 GB/s | 极致(70–100 tok/s) | 完美(需 128 GB+) |
注意一个反直觉的事实:M3 Max(400 GB/s)比 M4 Pro(273 GB/s)跑大模型更快。带宽决定速度,不是芯片代数。
指标 4:硬盘空间
- 一个 8B 量化模型 ≈ 5 GB
- 一个 32B 量化模型 ≈ 20 GB
- 一个 70B 量化模型 ≈ 40 GB
建议预留至少 50 GB 空闲硬盘。如果想多收集几个模型对比,留 200 GB 更舒服。
指标 5:网速(仅首次下载)
模型文件普遍 5–40 GB。
- 100 Mbps 家庭宽带:8B 模型约 8 分钟下完。
- 1 Gbps 千兆宽带:8B 模型约 1 分钟下完。
- 国内用户常因网络问题下不动 Hugging Face——第四章会教你用国内镜像(魔搭社区、Ollama 国内代理)。
3.3 3 分钟硬件自检:实操步骤
Mac 用户
- 屏幕左上角苹果菜单 → "关于本机"。
- 看 "芯片"(M1 / M2 / M3 / M4 / Pro / Max / Ultra)。
- 看 "内存"(8 GB / 16 GB / 24 GB / 32 GB / 64 GB / 128 GB / 192 GB)。
- 点 "更多信息" → "储存空间",看可用空间。
把这三项记下来,比照 3.2 节查档位。
Windows 用户
- 按
Win + I打开"设置" → "系统" → "关于"。 - 看 "已安装的内存(RAM)"。
- 桌面右键 → "显示设置" → 拉到底 → "高级显示设置",看显卡型号。
- 按
Win + E打开资源管理器 → 看 C 盘 / D 盘剩余空间。
如果看显卡更精确,下载并打开 GPU-Z(免费工具),看 "Memory Size",就是显存大小。
Linux 用户
终端里输入:
free -h # 查看内存
nvidia-smi # 查看 NVIDIA 显存(无独显的会报错,正常)
df -h # 查看硬盘空间
lscpu # 查看 CPU
把输出的内存、显存、硬盘三项记下来。
3.4 按机器档位选模型:速查图
第一步:找到你电脑所属的档位。
第二步:选这个档位推荐的"主力模型 + 备用模型"。
┌─────────────────────────────────────────────────────────────┐
│ 档位 1:8 GB 内存(无独显或 4 GB 显存以下) │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 1.7B Q4_K_M (体积 ~1.2 GB,纯聊天可用) │
│ 备用:Llama 3.2 3B Q4_K_M (体积 ~2 GB,英文略好) │
│ 备用:Gemma 3 4B Q4_K_M (体积 ~2.8 GB,多语言好) │
│ 不推荐:7B 以上 (会卡,每秒 1–3 字) │
│ 适合任务:简单问答、翻译、文本润色 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 档位 2:16 GB 内存 / 8 GB 显存(甜点档) │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 8B Q4_K_M (体积 ~5 GB,中文最佳) │
│ 备用:Llama 3.1 8B Q4_K_M (体积 ~5 GB,英文最佳) │
│ 备用:DeepSeek-R1 7B Q4_K_M (体积 ~4.7 GB,推理强) │
│ 编程专用:Qwen 2.5 Coder 7B (体积 ~4.7 GB,代码强) │
│ 适合任务:日常写作、文档总结、翻译、轻度编程、本地知识库 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 档位 3:24 GB 内存 / 12 GB 显存 │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 14B Q4_K_M (体积 ~9 GB,综合强) │
│ 备用:Phi-4 14B Q4_K_M (体积 ~8.5 GB,推理与代码均衡) │
│ 备用:Gemma 3 12B Q5_K_M (体积 ~8 GB,多语言) │
│ 视觉:Qwen 2.5-VL 7B Q4 (体积 ~5 GB,加上面 8B 文本) │
│ 适合任务:上述全部 + 复杂推理、长文档总结、视觉理解 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 档位 4:32 GB 内存 / 16–24 GB 显存 │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 32B Q4_K_M (体积 ~20 GB,接近顶级) │
│ 编程:Qwen 2.5 Coder 32B Q4 (体积 ~20 GB,代码顶级) │
│ 推理:DeepSeek-R1 32B Q4 (体积 ~20 GB,数学逻辑顶级) │
│ 视觉:Llama 3.2 11B Vision (体积 ~7.5 GB) │
│ 适合任务:本地写作工作站、本地编程主力、复杂多步推理 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 档位 5:64 GB+ 内存 / Mac M-Max 或多卡 │
├─────────────────────────────────────────────────────────────┤
│ 主力:Llama 3.3 70B Q4_K_M (体积 ~40 GB,几乎不输云端) │
│ 多模态:Qwen 2.5-VL 72B Q4 (体积 ~40 GB) │
│ 旗舰:DeepSeek-R1 70B Q4 (体积 ~40 GB) │
│ 适合任务:替代 ChatGPT Plus 的日常使用 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 档位 6:128 GB+ 内存 / Mac Studio Ultra / 多卡服务器 │
├─────────────────────────────────────────────────────────────┤
│ 主力:Llama 4 Scout 109B Q4 (10M 上下文窗口) │
│ 旗舰:Qwen 3 235B-A22B Q4 (Apache 2.0, 接近 GPT-4o) │
│ 旗舰:DeepSeek-V3 671B Q2 (671B 总参,37B 激活) │
│ 适合任务:完全替代云端旗舰,跑企业级 RAG / Agent │
└─────────────────────────────────────────────────────────────┘
找到自己所在的档,照这一档的"主力 + 备用"下载即可。
3.5 Mac vs Windows 怎么看
这是新人最容易迷糊的一点:同样标 "16 GB",Mac 和 Windows 不是一回事。
Mac(Apple Silicon):统一内存
- 16 GB 统一内存 = 同时给 CPU、GPU、神经引擎用。
- 跑 8B 模型时,模型占 5 GB 内存(这部分相当于"显存"),剩下 11 GB 给系统和其他 App。
- 优点:不用区分内存和显存,配置简单;带宽高,速度快。
- 缺点:不能升级,买的时候选大点。
Mac 选购建议:
| 用途 | 推荐配置 | 大约价格(2026 年) |
|---|---|---|
| 试水玩玩 | Mac mini M4 16 GB | 5000–6000 元 |
| 主力日常 | Mac mini M4 24 GB | 7000–8000 元 |
| 重度使用 | Mac mini M4 Pro 48 GB | 12000–14000 元 |
| 跑 70B | Mac Studio M4 Max 64 GB | 20000–25000 元 |
| 跑 100B+ | Mac Studio M4 Ultra 128 GB | 40000+ 元 |
Windows / Linux:内存 + 显存分开
- 跑模型时,模型主要加载到显存里。
- 显存不够时,会"溢出"到内存,再溢出到硬盘——速度直线下降。
- 优点:显卡可以单独升级;同等价位算力上限更高。
- 缺点:装机门槛高,电源、散热、噪音都是事。
PC 装机建议:
| 用途 | 推荐配置 | 大约价格 |
|---|---|---|
| 试水 | RTX 4060 8 GB + 32 GB 内存 | 8000 元 |
| 主力 | RTX 4070 12 GB + 32 GB 内存 | 12000 元 |
| 重度 | RTX 4090 24 GB + 64 GB 内存 | 25000 元 |
| 极致 | 双 RTX 4090 / RTX 5090 + 128 GB | 50000+ 元 |
3.6 不达标怎么办:4 条出路
如果你电脑配置不够,不要立刻去买新机。先看看这 4 条路:
出路 1:跑小一档的模型
8 GB 也能跑 Qwen 3 1.7B、Llama 3.2 3B、Phi-3.5 mini。 日常写作、翻译、问答都够用,只是不能让它做太复杂的推理。
出路 2:用云租 GPU 学习,回头再上本地
国内的 AutoDL、矩池云、揽睿星舟,海外的 RunPod、vast.ai,按小时计费。
- 一台 RTX 4090 大约 1.5–3 元/小时。
- 一台 H100 大约 5–10 元/小时。
你可以花几十块,先在云上把本地 AI 流程跑通,看看自己是否真的需要本地——如果是,再花钱买硬件不晚。
出路 3:买二手机
2026 年很多 2021–2022 年的机型已经掉到很合理的价格:
- 二手 M1 Mac mini 16 GB:3000–4000 元,跑 8B 模型很流畅。
- 二手 ThinkStation P350 工作站 + 二手 RTX 3090 24G:6000–8000 元,跑 32B 模型。
- 二手 Mac Studio M1 Max 32 GB:10000 元左右,跑 14B 流畅、跑 32B 可用。
特别提醒:买二手 GPU 一定要测试显存稳定性,矿卡常见。
出路 4:先用云端 AI 学方法,硬件以后再说
这本书的所有"提示词模板"、"工作流思路"、"Agent 设计",都是和具体硬件无关的——你今天先在云端 AI 上把方法学会,明年换电脑了直接迁移到本地,无缝衔接。
3.7 一个真实案例:作者自己的配置
以本书作者为例,目前的本地 AI 工作流跑在两台机器上:
- 主力:Mac Studio M2 Ultra 128 GB(2023 年购入),跑 Llama 3.3 70B + Qwen 3 32B 视觉版。
- 备用:Mac mini M4 24 GB(2024 年购入),跑 Qwen 3 8B + Cherry Studio 知识库,给家人用。
- 手机:iPhone 16 Pro,用 Apple Intelligence + Tailscale 远程连家里的 Mac,作为"本地 AI 移动端"。
总投入:约 6 万元。每月 AI 订阅成本:从原来的每月 200 美元降到 0,回本周期约 18 个月。
你不需要一上来就照搬这个配置——绝大多数读者从一台 Mac mini M4 16 GB(5000 元)起步就够了。
3.8 本章小练习
练习 1:填一张你自己的"电脑画像表"
| 项目 | 数值 |
|---|---|
| 我的电脑型号 | 例:Mac mini M2 Pro |
| 内存 | 例:16 GB |
| 显存(如果有独显) | 例:N/A(Mac) |
| 可用硬盘 | 例:220 GB |
| 我所属的档位 | 例:档位 2 |
| 我应该下载的主力模型 | 例:Qwen 3 8B Q4_K_M |
练习 2:上 Hugging Face 看看"5 GB 长啥样"
打开 https://huggingface.co/Qwen/Qwen3-8B-GGUF ,往下翻,看到"qwen3-8b-q4_k_m.gguf 4.92 GB"——这就是你即将下载的"AI 大脑"。
下章我们就会真的把它请下来。
练习 3:判断要不要换电脑
如果你目前是 8 GB 内存:
- 若你只想试试,先不换。
- 若你确定要长期用、且工作敏感,建议换 16 GB 或更高。
如果你目前是 16 GB+ 内存:直接进入第四章动手。
3.9 一句话记住
看你电脑的内存和显存,找到自己的档位,挑这个档位的主力模型——本地 AI 的全部硬件准备工作就完成了。
下一章 第四章 · 五分钟跑起你的第一个本地AI,我们打开终端或者图形界面,让 AI 第一次在你的电脑里说话。