模型大小与量化 · 本地 AI 橙皮书

6.1 一个比喻就够了：模型大小是"大脑容量"，量化是"压缩录音"

1B / 3B / 7B / 14B / 70B —— 大脑里有多少"神经元"

模型名字后面的 B 代表 Billion（十亿）。

1B = 10 亿参数 ≈ 一只受过训练的导盲犬，认字、能问简单问题
3B = 30 亿参数 ≈ 一个小学三年级学生
7B / 8B = 70/80 亿参数 ≈ 一个高中毕业生
14B = 140 亿参数 ≈ 一个二本大学毕业生
32B = 320 亿参数 ≈ 一个名校毕业生
70B = 700 亿参数 ≈ 一个有 5 年工作经验的资深员工
235B / 671B = 接近 GPT-4o / Claude 4.5 这种顶级云端旗舰

参数越多，模型理解越深、回答越靠谱、能解决越复杂的问题。但占用内存和速度也成倍上升。

Q2 / Q4 / Q5 / Q8 —— 把每个神经元的"精度"压缩到几位

模型原始权重每个数字是 16 位浮点（FP16）或 32 位（FP32），精度高，但占内存大。

量化就是把每个数字"压缩"成更少的位数：

Q8 = 8 位整数 ≈ 把 CD 音质压缩到 320 kbps MP3，几乎听不出区别
Q6 = 6 位 ≈ 192 kbps MP3，依然好听
Q5 = 5 位 ≈ 128 kbps MP3，能听
Q4 = 4 位 ≈ 96 kbps MP3，明显有损但能用
Q3 = 3 位 ≈ 64 kbps MP3，已经能听出问题
Q2 = 2 位 ≈ 32 kbps，几乎不能用

核心权衡：

量化越低，文件越小、跑得越快、占内存越少。
量化越低，回答质量越差、越容易胡言乱语。

6.2 一张表看完所有量化等级

下面这张表是 7B 模型的具体数字（其他大小按比例缩放）：

量化等级	7B 文件大小	7B 所需内存	质量损失	推荐场景
FP16 / 原始	~14 GB	~16 GB	0	研究、训练
Q8_0	~7.2 GB	~8.5 GB	几乎 0	显存够时首选
Q6_K	~5.5 GB	~6.8 GB	<1%	平衡之王
Q5_K_M	~4.8 GB	~6 GB	2%	较佳品质日常用
Q4_K_M	~4.3 GB	~5.5 GB	3–5%	大多数人最优解
Q4_K_S	~4.0 GB	~5.2 GB	5–7%	内存紧时退路
Q3_K_M	~3.5 GB	~4.5 GB	10–15%	不推荐
Q2_K	~2.7 GB	~3.6 GB	20%+	不推荐

结论：除非内存极其紧张，永远优先选 Q4_K_M。

6.3 量化字母后缀的含义

你会看到 Q4_K_M 后面还有一些字母，它们的意思是：

_K：使用了 K-quants（更新的量化算法，比老的 Q4_0 质量好得多）
_M (Medium)：复杂版本，质量优先
_S (Small)：简化版本，速度优先
_L (Large)：在 K-quants 上质量再加强一档（更大文件）

口诀：

看到 K 就放心（新算法）
看到 M 选它（平衡）
内存紧再降到 S
内存巨剩，可以试 L

还会偶尔看到：

IQ4_XS、IQ3_M：使用 Importance Matrix 的更高级量化，比同等 Q 还要好一点。新工具下载源（如 unsloth、bartowski 出的）经常是 IQ 系列。
BF16 / F16：未量化的原始版本。

6.4 不同档位电脑的"大小 + 量化"组合速查

下面这张表已经把所有计算做完了。找你这一档，按表抓药：

8 GB 内存（4 GB 可用给模型）

模型	量化	大小	速度（CPU）	备注
Qwen 3 1.7B	Q4_K_M	1.2 GB	流畅	主力
Llama 3.2 3B	Q4_K_M	2 GB	流畅	备选
Gemma 3 4B	Q4_K_M	2.8 GB	较慢	多语言
Phi-3.5 3.8B	Q4_K_M	2.4 GB	流畅	STEM 强

16 GB 内存（8 GB 可用给模型）

模型	量化	大小	速度（M2 Air）	备注
Qwen 3 8B	Q4_K_M	5 GB	30 tok/s	主力
DeepSeek-R1 7B	Q4_K_M	4.7 GB	35 tok/s	推理
Qwen 2.5 Coder 7B	Q4_K_M	4.7 GB	32 tok/s	编程
Llama 3.1 8B	Q5_K_M	5.7 GB	25 tok/s	英文
Phi-4 14B	Q3_K_M	6.5 GB	20 tok/s	推理（极限）

24 GB 内存（12 GB 可用给模型）

模型	量化	大小	速度
Qwen 3 14B	Q4_K_M	9 GB	25 tok/s
Phi-4 14B	Q5_K_M	10 GB	20 tok/s
Gemma 3 12B	Q5_K_M	8.5 GB	25 tok/s
Qwen 3 32B	Q3_K_M	14 GB	12 tok/s（极限）

32 GB 内存（20 GB 可用给模型）

模型	量化	大小	备注
Qwen 3 32B	Q4_K_M	20 GB	主力
Qwen 2.5 Coder 32B	Q4_K_M	20 GB	编程主力
DeepSeek-R1 32B	Q4_K_M	20 GB	推理主力
Llama 3.3 70B	IQ2_XXS	19 GB	极限尝试

64 GB 内存（48 GB 可用给模型）

模型	量化	大小	备注
Llama 3.3 70B	Q4_K_M	40 GB	接近顶级云端
Qwen 3 32B	Q8_0	35 GB	顶级质量
Qwen 2.5-VL 72B	Q4_K_M	40 GB	视觉旗舰

6.5 GGUF / safetensors 文件格式快速辨识

你下载模型时会看到两种主流格式：

GGUF —— 给"个人电脑跑推理"用的

全名 GPT-Generated Unified Format
一个文件，自包含所有权重 + 元数据
llama.cpp、Ollama、LM Studio、Jan、GPT4All 等本地工具的标准格式
普通用户 99% 的时间只接触这个
文件名特征：xxx-q4_k_m.gguf

safetensors —— 给"训练和高级推理"用的

由 Hugging Face 推出，安全（不像 pickle 可执行任意代码）
主流框架（PyTorch、Transformers、vLLM、SGLang）使用
通常是多个文件（model-00001-of-00004.safetensors）
普通用户基本不用关心

简单来说：你看到一个模型只有 .safetensors 没有 .gguf，那它暂时不能在 Ollama / LM Studio 里直接用。要么等社区把它转成 GGUF，要么换工具（如 vLLM）。

6.6 上下文长度（Context Length）—— 容易被忽略的第三维

除了"大小"和"量化"，上下文长度是第三个会显著影响内存的维度。

什么是上下文长度

模型一次能"读进去"的总文字量上限。单位是 token（约等于 0.5–1 个汉字 / 1 个英文单词）。

4K context = 约 3000 字
8K context = 约 6000 字
32K context = 约 24000 字
128K context = 约 10 万字（一部短篇小说）
1M context = 约 80 万字（一整套哈利波特）
10M context = 约 800 万字（Llama 4 Scout 的最大值）

为什么它影响内存

模型每多读 1 个 token，都会在内存里产生一份 "KV Cache"（键值缓存），用来记住前面说过什么。

KV Cache 的大小约等于：

KV Cache ≈ 上下文长度 × 模型层数 × 隐藏维度 × 2

简单口诀：上下文每翻一倍，内存占用大约多 1–3 GB。

一张速查表

以 Qwen 3 8B Q4_K_M（基础占用 5 GB）为例：

上下文长度	额外 KV Cache	总内存占用
2K	0.2 GB	~5.2 GB
8K	1 GB	~6 GB
32K	3 GB	~8 GB
128K	12 GB	~17 GB
1M	80+ GB	个人电脑别想

新人坑：你设了 32K 上下文，但只用 1K，内存依然按 32K 占用。

怎么调

Ollama：默认 2048。要改：

ollama run qwen3:8b
>>> /set parameter num_ctx 8192

或者写在 Modelfile 里（高级用法，第十三章会讲）。

LM Studio：右侧 "Context Length" 拖动条直接拉。
Cherry Studio：会话设置里 "最大上下文"。

建议：日常聊天 4K–8K 够用；总结长文档时再升到 32K；不要无脑拉到最大。

6.7 KV Cache 量化 —— 2026 年的新福利

Ollama 0.17 起支持 KV Cache 量化：

--kv-cache-type q8_0（推荐）：KV Cache 内存占用减半，质量几乎无损
--kv-cache-type q4_0：减少更多，但中文场景慎用

具体怎么开（Ollama）：

OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve

效果：原来 32K 上下文要 8 GB，现在只要 4 GB。32 GB 内存的 Mac 终于能跑 70B 模型 + 32K 上下文了。

6.8 "MoE 模型"是另一个概念

你会看到 Qwen 3 235B-A22B、Llama 4 Scout 109B-A17B、DeepSeek-V3 671B-A37B 这样的命名。

A22B 是 Active 22B（"激活"的参数量）的意思。

MoE（Mixture of Experts，专家混合）模型 的玩法：

总参数很大（235B / 671B），但每次只激活其中一部分（22B / 37B）。
占用内存按总参数算（235B 量化后约 130 GB，671B 量化后约 250 GB）。
速度按激活参数算（跑起来速度接近 22B / 37B 模型）。

适合什么人：

Mac Studio M Ultra 128 GB / 192 GB 用户
多卡 GPU 服务器用户

普通笔记本用户可以暂时忽略 MoE 模型。

6.9 7 个新人最常踩的"大小/量化"坑

坑 1：盲目追求 Q8

"Q8 不是最好吗，我就要 Q8"——结果模型加载不进去、机器卡死。真相：Q4_K_M 和 Q8 的实际质量差距在 5% 以内，但内存差 2 倍。

坑 2：盲目追求大模型

"32B 一定比 8B 强"——结果机器内存爆了。真相：跑不动的 32B 不如跑得动的 8B。

坑 3：上下文拉满

"我要总结 100 页 PDF，所以拉到 128K"——结果模型加载报错。真相：先看自己的 KV Cache 内存有没有空间。

坑 4：买之前没算过总占用

总占用 = 模型基础占用 + KV Cache + 系统占用 + 其他 App。 16 GB Mac 的"模型可用内存"通常只有 8–10 GB，剩下要给 macOS、浏览器、IDE 等。

坑 5：用 Q3 期待 Q4 的质量

"反正都是量化，我用 Q3 省点空间"——结果模型胡说八道。 质量曲线在 Q3 以下断崖式下降。建议永远不要用低于 Q4_K_M 的版本（除非纯学术尝试）。

坑 6：不知道 IQ 量化更优

老教程都说 Q4_K_M，但 2026 年新主流是 IQ4_XS、IQ4_NL，质量更好且文件更小。建议在 Hugging Face 找模型时，优先看 unsloth、bartowski 这两位作者的 IQ 系列。

坑 7：模型混用工具搞错版本

不是所有 GGUF 都能在所有版本的 Ollama / LM Studio 上跑。

新模型出来后等 1–2 周，等工具更新到支持的版本。
报错"unknown model architecture"通常就是工具版本太老。

6.10 实战推演：3 个用户怎么决策

用户 1：小李，MacBook Air M2 16 GB

目标：日常写作 + 偶尔翻译。

决策：

主力：qwen3:8b（Q4_K_M）—— 5 GB
备用：gemma3:4b（Q4_K_M）—— 2.8 GB
上下文：默认 4K，总结长文章时改 16K
总硬盘占用：约 8 GB
总内存占用：约 6 GB（运行时）
体验：30 tok/s 流畅

用户 2：老王，台式机 RTX 4070 12 GB + 32 GB 内存

目标：写代码 + 做技术调研。

决策：

主力：qwen2.5-coder:14b（Q5_K_M）—— 11 GB
备用：deepseek-r1:14b（Q4_K_M）—— 9 GB
上下文：32K
总硬盘占用：约 20 GB
GPU 显存：基本占满，速度极佳
体验：50 tok/s 飞快

用户 3：张姐，Mac Studio M2 Max 64 GB

目标：替代 ChatGPT Plus，搭家庭知识库 + 给孩子做学习助手。

决策：

旗舰：llama3.3:70b（Q4_K_M）—— 40 GB
中文：qwen3:32b（Q5_K_M）—— 25 GB
视觉：qwen2.5-vl:7b（Q4_K_M）—— 5 GB
嵌入：bge-m3（用于知识库）—— 2.3 GB
上下文：64K
总硬盘占用：约 75 GB
运行时：旗舰和中文模型不同时加载，按需切换
体验：70B 模型 60 tok/s（已经跟云端 ChatGPT 4o 的速度类似）

6.11 本章小练习

练习 1：算自己的"模型预算"

按下面公式算：

你的模型预算 = 总内存 - 系统占用（Mac 4 GB / Win 6 GB）- 浏览器/IDE 占用（4 GB） - KV Cache 预留（2 GB）

例如 16 GB Mac：16 - 4 - 4 - 2 = 6 GB。

照这个数字回 6.4 节找你能跑的最大模型。

练习 2：同模型不同量化对比

下两个版本：

ollama pull qwen3:8b-q4_K_M
ollama pull qwen3:8b-q8_0

让它们都回答同一个题目，亲自感受差距：

请帮我写一封给中学班主任的家长信，告知孩子最近因为奶奶生病情绪低落，请老师多关心。语气要真诚但不卑微。300 字以内。

你会发现 Q4_K_M 和 Q8 几乎看不出差别。这就是"为什么不直接用 Q8"的答案——用 Q4 给你的内存留出更多余地。

练习 3：算一笔上下文账

打开 LM Studio，加载 8B 模型，把上下文从 4K 拉到 32K，观察内存占用变化。

亲自感受 KV Cache 是怎么吃内存的。

6.12 一句话记住

Q4_K_M 是默认答案，模型大小看你内存，上下文长度别拉满——三件事记住，9 成的"模型挑选"问题就解决了。

下一章第七章 · 本地写作与日记真正私密的创作伙伴，我们终于不再讲"装"，开始讲"用"——把本地 AI 变成你最私密的写作伙伴。