ORANGE BOOK · LOCAL AI

第三章 你的电脑能跑本地 AI 吗——3 分钟自检

3.1 先纠正三个常见误区

很多人一听"在本地跑 AI"就吓到,心想:是不是要装 4090 才行?是不是要 64 GB 内存?是不是 Mac 跑不了?

下面这三个误区,先一并清零:

  1. 不需要顶级显卡。3B–8B 的中等模型,在 8 GB 显存或 16 GB 内存的机器上都能跑。
  2. Mac 比你想象的强很多。Apple Silicon 的统一内存等同于"既是内存又是显存",一台 16 GB 的 M1 MacBook 跑 8B 模型比同价位 PC 流畅。
  3. CPU 也能跑,只是慢。一台四五年前的台式机,没有独显,照样能跑 1B–3B 模型。

明白这一点,你就知道:本地 AI 不挑机,挑的是"你愿意接受多慢的速度,去换多大的模型"

3.2 决定本地 AI 体验的 5 个硬件指标

你不需要全部精通,但这 5 个数字必须知道在哪查:

指标 1:内存(RAM)

最关键的指标。决定了你能加载多大的模型。

  • 8 GB:能跑 1B–3B 量化模型(如 Llama 3.2 3B Q4)。聊天可用,做复杂任务吃力。
  • 16 GB:能跑 7B–8B 量化模型(如 Qwen 3 8B Q4)。主流甜点
  • 24 GB:能跑 14B 量化模型(如 Phi-4 14B Q4)。
  • 32 GB:能跑 32B 量化模型(如 Qwen 2.5 Coder 32B Q4)。
  • 48–64 GB:能跑 70B 量化模型(如 Llama 3.3 70B Q4)。
  • 128 GB+:能跑 100B+ 模型(如 Llama 4 Scout、DeepSeek-V3 部分量化)。

指标 2:显存(VRAM,仅 Windows/Linux 独显用户关心)

如果你是 Mac,请跳到指标 3。

  • 4–6 GB(GTX 1660、RTX 3050):跑 3B–7B Q4 模型,速度可接受。
  • 8 GB(RTX 3060/3060 Ti、RTX 4060):跑 7B Q5 或 8B Q4 模型很流畅。
  • 12 GB(RTX 3060 12G、RTX 4070、RTX 5070):跑 13B–14B Q4,速度好。
  • 16 GB(RTX 4060 Ti 16G、RTX 4080):跑 14B Q5 或 32B Q3,体验良好。
  • 24 GB(RTX 3090、RTX 4090、RTX 5090):跑 32B Q4 或 70B Q2,已经是个人极致。
  • 多卡 / 48 GB+:能跑 70B Q5 甚至 100B+ 模型。

指标 3:芯片型号

这一项主要面向 Mac 用户。Apple Silicon 的"统一内存带宽"决定了 token 生成速度(也就是 AI 答字快慢)。

芯片 内存带宽 7B 模型速度感受 70B 模型可行性
M1/M2/M3/M4 基础版 68–120 GB/s 流畅(约 25–35 tok/s) 不推荐
M1/M2/M3/M4 Pro 150–273 GB/s 很流畅(30–40 tok/s) 勉强(需 36 GB+)
M1/M2/M3/M4 Max 300–546 GB/s 极流畅(50–70 tok/s) 可以(需 64 GB+)
M Ultra 系列 400–800 GB/s 极致(70–100 tok/s) 完美(需 128 GB+)

注意一个反直觉的事实:M3 Max(400 GB/s)比 M4 Pro(273 GB/s)跑大模型更快。带宽决定速度,不是芯片代数。

指标 4:硬盘空间

  • 一个 8B 量化模型 ≈ 5 GB
  • 一个 32B 量化模型 ≈ 20 GB
  • 一个 70B 量化模型 ≈ 40 GB

建议预留至少 50 GB 空闲硬盘。如果想多收集几个模型对比,留 200 GB 更舒服。

指标 5:网速(仅首次下载)

模型文件普遍 5–40 GB。

  • 100 Mbps 家庭宽带:8B 模型约 8 分钟下完。
  • 1 Gbps 千兆宽带:8B 模型约 1 分钟下完。
  • 国内用户常因网络问题下不动 Hugging Face——第四章会教你用国内镜像(魔搭社区、Ollama 国内代理)。

3.3 3 分钟硬件自检:实操步骤

Mac 用户

  1. 屏幕左上角苹果菜单 → "关于本机"。
  2. 看 "芯片"(M1 / M2 / M3 / M4 / Pro / Max / Ultra)。
  3. 看 "内存"(8 GB / 16 GB / 24 GB / 32 GB / 64 GB / 128 GB / 192 GB)。
  4. 点 "更多信息" → "储存空间",看可用空间。

把这三项记下来,比照 3.2 节查档位。

Windows 用户

  1. Win + I 打开"设置" → "系统" → "关于"。
  2. 看 "已安装的内存(RAM)"。
  3. 桌面右键 → "显示设置" → 拉到底 → "高级显示设置",看显卡型号。
  4. Win + E 打开资源管理器 → 看 C 盘 / D 盘剩余空间。

如果看显卡更精确,下载并打开 GPU-Z(免费工具),看 "Memory Size",就是显存大小。

Linux 用户

终端里输入:

free -h          # 查看内存
nvidia-smi       # 查看 NVIDIA 显存(无独显的会报错,正常)
df -h            # 查看硬盘空间
lscpu            # 查看 CPU

把输出的内存、显存、硬盘三项记下来。

3.4 按机器档位选模型:速查图

第一步:找到你电脑所属的档位。

第二步:选这个档位推荐的"主力模型 + 备用模型"。

┌─────────────────────────────────────────────────────────────┐
│ 档位 1:8 GB 内存(无独显或 4 GB 显存以下)                   │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 1.7B Q4_K_M     (体积 ~1.2 GB,纯聊天可用)        │
│ 备用:Llama 3.2 3B Q4_K_M    (体积 ~2 GB,英文略好)            │
│ 备用:Gemma 3 4B Q4_K_M      (体积 ~2.8 GB,多语言好)          │
│ 不推荐:7B 以上               (会卡,每秒 1–3 字)               │
│ 适合任务:简单问答、翻译、文本润色                              │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 2:16 GB 内存 / 8 GB 显存(甜点档)                      │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 8B Q4_K_M       (体积 ~5 GB,中文最佳)            │
│ 备用:Llama 3.1 8B Q4_K_M    (体积 ~5 GB,英文最佳)            │
│ 备用:DeepSeek-R1 7B Q4_K_M  (体积 ~4.7 GB,推理强)            │
│ 编程专用:Qwen 2.5 Coder 7B  (体积 ~4.7 GB,代码强)            │
│ 适合任务:日常写作、文档总结、翻译、轻度编程、本地知识库         │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 3:24 GB 内存 / 12 GB 显存                                │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 14B Q4_K_M      (体积 ~9 GB,综合强)              │
│ 备用:Phi-4 14B Q4_K_M       (体积 ~8.5 GB,推理与代码均衡)    │
│ 备用:Gemma 3 12B Q5_K_M     (体积 ~8 GB,多语言)              │
│ 视觉:Qwen 2.5-VL 7B Q4      (体积 ~5 GB,加上面 8B 文本)       │
│ 适合任务:上述全部 + 复杂推理、长文档总结、视觉理解            │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 4:32 GB 内存 / 16–24 GB 显存                             │
├─────────────────────────────────────────────────────────────┤
│ 主力:Qwen 3 32B Q4_K_M      (体积 ~20 GB,接近顶级)           │
│ 编程:Qwen 2.5 Coder 32B Q4  (体积 ~20 GB,代码顶级)           │
│ 推理:DeepSeek-R1 32B Q4     (体积 ~20 GB,数学逻辑顶级)       │
│ 视觉:Llama 3.2 11B Vision   (体积 ~7.5 GB)                    │
│ 适合任务:本地写作工作站、本地编程主力、复杂多步推理            │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 5:64 GB+ 内存 / Mac M-Max 或多卡                         │
├─────────────────────────────────────────────────────────────┤
│ 主力:Llama 3.3 70B Q4_K_M   (体积 ~40 GB,几乎不输云端)       │
│ 多模态:Qwen 2.5-VL 72B Q4   (体积 ~40 GB)                     │
│ 旗舰:DeepSeek-R1 70B Q4     (体积 ~40 GB)                     │
│ 适合任务:替代 ChatGPT Plus 的日常使用                         │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│ 档位 6:128 GB+ 内存 / Mac Studio Ultra / 多卡服务器           │
├─────────────────────────────────────────────────────────────┤
│ 主力:Llama 4 Scout 109B Q4  (10M 上下文窗口)                  │
│ 旗舰:Qwen 3 235B-A22B Q4    (Apache 2.0, 接近 GPT-4o)         │
│ 旗舰:DeepSeek-V3 671B Q2    (671B 总参,37B 激活)             │
│ 适合任务:完全替代云端旗舰,跑企业级 RAG / Agent              │
└─────────────────────────────────────────────────────────────┘

找到自己所在的档,照这一档的"主力 + 备用"下载即可。

3.5 Mac vs Windows 怎么看

这是新人最容易迷糊的一点:同样标 "16 GB",Mac 和 Windows 不是一回事。

Mac(Apple Silicon):统一内存

  • 16 GB 统一内存 = 同时给 CPU、GPU、神经引擎用。
  • 跑 8B 模型时,模型占 5 GB 内存(这部分相当于"显存"),剩下 11 GB 给系统和其他 App。
  • 优点:不用区分内存和显存,配置简单;带宽高,速度快。
  • 缺点:不能升级,买的时候选大点。

Mac 选购建议

用途 推荐配置 大约价格(2026 年)
试水玩玩 Mac mini M4 16 GB 5000–6000 元
主力日常 Mac mini M4 24 GB 7000–8000 元
重度使用 Mac mini M4 Pro 48 GB 12000–14000 元
跑 70B Mac Studio M4 Max 64 GB 20000–25000 元
跑 100B+ Mac Studio M4 Ultra 128 GB 40000+ 元

Windows / Linux:内存 + 显存分开

  • 跑模型时,模型主要加载到显存里。
  • 显存不够时,会"溢出"到内存,再溢出到硬盘——速度直线下降。
  • 优点:显卡可以单独升级;同等价位算力上限更高。
  • 缺点:装机门槛高,电源、散热、噪音都是事。

PC 装机建议

用途 推荐配置 大约价格
试水 RTX 4060 8 GB + 32 GB 内存 8000 元
主力 RTX 4070 12 GB + 32 GB 内存 12000 元
重度 RTX 4090 24 GB + 64 GB 内存 25000 元
极致 双 RTX 4090 / RTX 5090 + 128 GB 50000+ 元

3.6 不达标怎么办:4 条出路

如果你电脑配置不够,不要立刻去买新机。先看看这 4 条路:

出路 1:跑小一档的模型

8 GB 也能跑 Qwen 3 1.7B、Llama 3.2 3B、Phi-3.5 mini。 日常写作、翻译、问答都够用,只是不能让它做太复杂的推理。

出路 2:用云租 GPU 学习,回头再上本地

国内的 AutoDL、矩池云、揽睿星舟,海外的 RunPod、vast.ai,按小时计费。

  • 一台 RTX 4090 大约 1.5–3 元/小时。
  • 一台 H100 大约 5–10 元/小时。

你可以花几十块,先在云上把本地 AI 流程跑通,看看自己是否真的需要本地——如果是,再花钱买硬件不晚。

出路 3:买二手机

2026 年很多 2021–2022 年的机型已经掉到很合理的价格:

  • 二手 M1 Mac mini 16 GB:3000–4000 元,跑 8B 模型很流畅。
  • 二手 ThinkStation P350 工作站 + 二手 RTX 3090 24G:6000–8000 元,跑 32B 模型。
  • 二手 Mac Studio M1 Max 32 GB:10000 元左右,跑 14B 流畅、跑 32B 可用。

特别提醒:买二手 GPU 一定要测试显存稳定性,矿卡常见。

出路 4:先用云端 AI 学方法,硬件以后再说

这本书的所有"提示词模板"、"工作流思路"、"Agent 设计",都是和具体硬件无关的——你今天先在云端 AI 上把方法学会,明年换电脑了直接迁移到本地,无缝衔接。

3.7 一个真实案例:作者自己的配置

以本书作者为例,目前的本地 AI 工作流跑在两台机器上:

  • 主力:Mac Studio M2 Ultra 128 GB(2023 年购入),跑 Llama 3.3 70B + Qwen 3 32B 视觉版。
  • 备用:Mac mini M4 24 GB(2024 年购入),跑 Qwen 3 8B + Cherry Studio 知识库,给家人用。
  • 手机:iPhone 16 Pro,用 Apple Intelligence + Tailscale 远程连家里的 Mac,作为"本地 AI 移动端"。

总投入:约 6 万元。每月 AI 订阅成本:从原来的每月 200 美元降到 0,回本周期约 18 个月。

你不需要一上来就照搬这个配置——绝大多数读者从一台 Mac mini M4 16 GB(5000 元)起步就够了。

3.8 本章小练习

练习 1:填一张你自己的"电脑画像表"

项目 数值
我的电脑型号 例:Mac mini M2 Pro
内存 例:16 GB
显存(如果有独显) 例:N/A(Mac)
可用硬盘 例:220 GB
我所属的档位 例:档位 2
我应该下载的主力模型 例:Qwen 3 8B Q4_K_M

练习 2:上 Hugging Face 看看"5 GB 长啥样"

打开 https://huggingface.co/Qwen/Qwen3-8B-GGUF ,往下翻,看到"qwen3-8b-q4_k_m.gguf 4.92 GB"——这就是你即将下载的"AI 大脑"。

下章我们就会真的把它请下来。

练习 3:判断要不要换电脑

如果你目前是 8 GB 内存:

  • 若你只想试试,先不换。
  • 若你确定要长期用、且工作敏感,建议换 16 GB 或更高。

如果你目前是 16 GB+ 内存:直接进入第四章动手。

3.9 一句话记住

看你电脑的内存和显存,找到自己的档位,挑这个档位的主力模型——本地 AI 的全部硬件准备工作就完成了。

下一章 第四章 · 五分钟跑起你的第一个本地AI,我们打开终端或者图形界面,让 AI 第一次在你的电脑里说话。