6.1 一个比喻就够了:模型大小是"大脑容量",量化是"压缩录音"
1B / 3B / 7B / 14B / 70B —— 大脑里有多少"神经元"
模型名字后面的 B 代表 Billion(十亿)。
- 1B = 10 亿参数 ≈ 一只受过训练的导盲犬,认字、能问简单问题
- 3B = 30 亿参数 ≈ 一个小学三年级学生
- 7B / 8B = 70/80 亿参数 ≈ 一个高中毕业生
- 14B = 140 亿参数 ≈ 一个二本大学毕业生
- 32B = 320 亿参数 ≈ 一个名校毕业生
- 70B = 700 亿参数 ≈ 一个有 5 年工作经验的资深员工
- 235B / 671B = 接近 GPT-4o / Claude 4.5 这种顶级云端旗舰
参数越多,模型理解越深、回答越靠谱、能解决越复杂的问题。但占用内存和速度也成倍上升。
Q2 / Q4 / Q5 / Q8 —— 把每个神经元的"精度"压缩到几位
模型原始权重每个数字是 16 位浮点(FP16)或 32 位(FP32),精度高,但占内存大。
量化就是把每个数字"压缩"成更少的位数:
Q8= 8 位整数 ≈ 把 CD 音质压缩到 320 kbps MP3,几乎听不出区别Q6= 6 位 ≈ 192 kbps MP3,依然好听Q5= 5 位 ≈ 128 kbps MP3,能听Q4= 4 位 ≈ 96 kbps MP3,明显有损但能用Q3= 3 位 ≈ 64 kbps MP3,已经能听出问题Q2= 2 位 ≈ 32 kbps,几乎不能用
核心权衡:
- 量化越低,文件越小、跑得越快、占内存越少。
- 量化越低,回答质量越差、越容易胡言乱语。
6.2 一张表看完所有量化等级
下面这张表是 7B 模型的具体数字(其他大小按比例缩放):
| 量化等级 | 7B 文件大小 | 7B 所需内存 | 质量损失 | 推荐场景 |
|---|---|---|---|---|
| FP16 / 原始 | ~14 GB | ~16 GB | 0 | 研究、训练 |
| Q8_0 | ~7.2 GB | ~8.5 GB | 几乎 0 | 显存够时首选 |
| Q6_K | ~5.5 GB | ~6.8 GB | <1% | 平衡之王 |
| Q5_K_M | ~4.8 GB | ~6 GB | 2% | 较佳品质日常用 |
| Q4_K_M | ~4.3 GB | ~5.5 GB | 3–5% | 大多数人最优解 |
| Q4_K_S | ~4.0 GB | ~5.2 GB | 5–7% | 内存紧时退路 |
| Q3_K_M | ~3.5 GB | ~4.5 GB | 10–15% | 不推荐 |
| Q2_K | ~2.7 GB | ~3.6 GB | 20%+ | 不推荐 |
结论:除非内存极其紧张,永远优先选 Q4_K_M。
6.3 量化字母后缀的含义
你会看到 Q4_K_M 后面还有一些字母,它们的意思是:
_K:使用了 K-quants(更新的量化算法,比老的Q4_0质量好得多)_M(Medium):复杂版本,质量优先_S(Small):简化版本,速度优先_L(Large):在 K-quants 上质量再加强一档(更大文件)
口诀:
- 看到
K就放心(新算法) - 看到
M选它(平衡) - 内存紧再降到
S - 内存巨剩,可以试
L
还会偶尔看到:
IQ4_XS、IQ3_M:使用 Importance Matrix 的更高级量化,比同等 Q 还要好一点。新工具下载源(如 unsloth、bartowski 出的)经常是 IQ 系列。BF16/F16:未量化的原始版本。
6.4 不同档位电脑的"大小 + 量化"组合速查
下面这张表已经把所有计算做完了。找你这一档,按表抓药:
8 GB 内存(4 GB 可用给模型)
| 模型 | 量化 | 大小 | 速度(CPU) | 备注 |
|---|---|---|---|---|
| Qwen 3 1.7B | Q4_K_M | 1.2 GB | 流畅 | 主力 |
| Llama 3.2 3B | Q4_K_M | 2 GB | 流畅 | 备选 |
| Gemma 3 4B | Q4_K_M | 2.8 GB | 较慢 | 多语言 |
| Phi-3.5 3.8B | Q4_K_M | 2.4 GB | 流畅 | STEM 强 |
16 GB 内存(8 GB 可用给模型)
| 模型 | 量化 | 大小 | 速度(M2 Air) | 备注 |
|---|---|---|---|---|
| Qwen 3 8B | Q4_K_M | 5 GB | 30 tok/s | 主力 |
| DeepSeek-R1 7B | Q4_K_M | 4.7 GB | 35 tok/s | 推理 |
| Qwen 2.5 Coder 7B | Q4_K_M | 4.7 GB | 32 tok/s | 编程 |
| Llama 3.1 8B | Q5_K_M | 5.7 GB | 25 tok/s | 英文 |
| Phi-4 14B | Q3_K_M | 6.5 GB | 20 tok/s | 推理(极限) |
24 GB 内存(12 GB 可用给模型)
| 模型 | 量化 | 大小 | 速度 |
|---|---|---|---|
| Qwen 3 14B | Q4_K_M | 9 GB | 25 tok/s |
| Phi-4 14B | Q5_K_M | 10 GB | 20 tok/s |
| Gemma 3 12B | Q5_K_M | 8.5 GB | 25 tok/s |
| Qwen 3 32B | Q3_K_M | 14 GB | 12 tok/s(极限) |
32 GB 内存(20 GB 可用给模型)
| 模型 | 量化 | 大小 | 备注 |
|---|---|---|---|
| Qwen 3 32B | Q4_K_M | 20 GB | 主力 |
| Qwen 2.5 Coder 32B | Q4_K_M | 20 GB | 编程主力 |
| DeepSeek-R1 32B | Q4_K_M | 20 GB | 推理主力 |
| Llama 3.3 70B | IQ2_XXS | 19 GB | 极限尝试 |
64 GB 内存(48 GB 可用给模型)
| 模型 | 量化 | 大小 | 备注 |
|---|---|---|---|
| Llama 3.3 70B | Q4_K_M | 40 GB | 接近顶级云端 |
| Qwen 3 32B | Q8_0 | 35 GB | 顶级质量 |
| Qwen 2.5-VL 72B | Q4_K_M | 40 GB | 视觉旗舰 |
6.5 GGUF / safetensors 文件格式快速辨识
你下载模型时会看到两种主流格式:
GGUF —— 给"个人电脑跑推理"用的
- 全名 GPT-Generated Unified Format
- 一个文件,自包含所有权重 + 元数据
- llama.cpp、Ollama、LM Studio、Jan、GPT4All 等本地工具的标准格式
- 普通用户 99% 的时间只接触这个
- 文件名特征:
xxx-q4_k_m.gguf
safetensors —— 给"训练和高级推理"用的
- 由 Hugging Face 推出,安全(不像 pickle 可执行任意代码)
- 主流框架(PyTorch、Transformers、vLLM、SGLang)使用
- 通常是多个文件(
model-00001-of-00004.safetensors) - 普通用户基本不用关心
简单来说:你看到一个模型只有
.safetensors没有.gguf,那它暂时不能在 Ollama / LM Studio 里直接用。要么等社区把它转成 GGUF,要么换工具(如 vLLM)。
6.6 上下文长度(Context Length)—— 容易被忽略的第三维
除了"大小"和"量化",上下文长度是第三个会显著影响内存的维度。
什么是上下文长度
模型一次能"读进去"的总文字量上限。单位是 token(约等于 0.5–1 个汉字 / 1 个英文单词)。
- 4K context = 约 3000 字
- 8K context = 约 6000 字
- 32K context = 约 24000 字
- 128K context = 约 10 万字(一部短篇小说)
- 1M context = 约 80 万字(一整套哈利波特)
- 10M context = 约 800 万字(Llama 4 Scout 的最大值)
为什么它影响内存
模型每多读 1 个 token,都会在内存里产生一份 "KV Cache"(键值缓存),用来记住前面说过什么。
KV Cache 的大小约等于:
KV Cache ≈ 上下文长度 × 模型层数 × 隐藏维度 × 2
简单口诀:上下文每翻一倍,内存占用大约多 1–3 GB。
一张速查表
以 Qwen 3 8B Q4_K_M(基础占用 5 GB)为例:
| 上下文长度 | 额外 KV Cache | 总内存占用 |
|---|---|---|
| 2K | 0.2 GB | ~5.2 GB |
| 8K | 1 GB | ~6 GB |
| 32K | 3 GB | ~8 GB |
| 128K | 12 GB | ~17 GB |
| 1M | 80+ GB | 个人电脑别想 |
新人坑:你设了 32K 上下文,但只用 1K,内存依然按 32K 占用。
怎么调
- Ollama:默认 2048。要改:
ollama run qwen3:8b
>>> /set parameter num_ctx 8192
或者写在 Modelfile 里(高级用法,第十三章会讲)。
- LM Studio:右侧 "Context Length" 拖动条直接拉。
- Cherry Studio:会话设置里 "最大上下文"。
建议:日常聊天 4K–8K 够用;总结长文档时再升到 32K;不要无脑拉到最大。
6.7 KV Cache 量化 —— 2026 年的新福利
Ollama 0.17 起支持 KV Cache 量化:
--kv-cache-type q8_0(推荐):KV Cache 内存占用减半,质量几乎无损--kv-cache-type q4_0:减少更多,但中文场景慎用
具体怎么开(Ollama):
OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
效果:原来 32K 上下文要 8 GB,现在只要 4 GB。32 GB 内存的 Mac 终于能跑 70B 模型 + 32K 上下文了。
6.8 "MoE 模型"是另一个概念
你会看到 Qwen 3 235B-A22B、Llama 4 Scout 109B-A17B、DeepSeek-V3 671B-A37B 这样的命名。
A22B 是 Active 22B("激活"的参数量)的意思。
MoE(Mixture of Experts,专家混合)模型 的玩法:
- 总参数很大(235B / 671B),但每次只激活其中一部分(22B / 37B)。
- 占用内存按总参数算(235B 量化后约 130 GB,671B 量化后约 250 GB)。
- 速度按激活参数算(跑起来速度接近 22B / 37B 模型)。
适合什么人:
- Mac Studio M Ultra 128 GB / 192 GB 用户
- 多卡 GPU 服务器用户
普通笔记本用户可以暂时忽略 MoE 模型。
6.9 7 个新人最常踩的"大小/量化"坑
坑 1:盲目追求 Q8
"Q8 不是最好吗,我就要 Q8"——结果模型加载不进去、机器卡死。 真相:Q4_K_M 和 Q8 的实际质量差距在 5% 以内,但内存差 2 倍。
坑 2:盲目追求大模型
"32B 一定比 8B 强"——结果机器内存爆了。 真相:跑不动的 32B 不如跑得动的 8B。
坑 3:上下文拉满
"我要总结 100 页 PDF,所以拉到 128K"——结果模型加载报错。 真相:先看自己的 KV Cache 内存有没有空间。
坑 4:买之前没算过总占用
总占用 = 模型基础占用 + KV Cache + 系统占用 + 其他 App。 16 GB Mac 的"模型可用内存"通常只有 8–10 GB,剩下要给 macOS、浏览器、IDE 等。
坑 5:用 Q3 期待 Q4 的质量
"反正都是量化,我用 Q3 省点空间"——结果模型胡说八道。 质量曲线在 Q3 以下断崖式下降。建议永远不要用低于 Q4_K_M 的版本(除非纯学术尝试)。
坑 6:不知道 IQ 量化更优
老教程都说 Q4_K_M,但 2026 年新主流是 IQ4_XS、IQ4_NL,质量更好且文件更小。 建议在 Hugging Face 找模型时,优先看 unsloth、bartowski 这两位作者的 IQ 系列。
坑 7:模型混用工具搞错版本
不是所有 GGUF 都能在所有版本的 Ollama / LM Studio 上跑。
- 新模型出来后等 1–2 周,等工具更新到支持的版本。
- 报错"unknown model architecture"通常就是工具版本太老。
6.10 实战推演:3 个用户怎么决策
用户 1:小李,MacBook Air M2 16 GB
目标:日常写作 + 偶尔翻译。
决策:
- 主力:
qwen3:8b(Q4_K_M)—— 5 GB - 备用:
gemma3:4b(Q4_K_M)—— 2.8 GB - 上下文:默认 4K,总结长文章时改 16K
- 总硬盘占用:约 8 GB
- 总内存占用:约 6 GB(运行时)
- 体验:30 tok/s 流畅
用户 2:老王,台式机 RTX 4070 12 GB + 32 GB 内存
目标:写代码 + 做技术调研。
决策:
- 主力:
qwen2.5-coder:14b(Q5_K_M)—— 11 GB - 备用:
deepseek-r1:14b(Q4_K_M)—— 9 GB - 上下文:32K
- 总硬盘占用:约 20 GB
- GPU 显存:基本占满,速度极佳
- 体验:50 tok/s 飞快
用户 3:张姐,Mac Studio M2 Max 64 GB
目标:替代 ChatGPT Plus,搭家庭知识库 + 给孩子做学习助手。
决策:
- 旗舰:
llama3.3:70b(Q4_K_M)—— 40 GB - 中文:
qwen3:32b(Q5_K_M)—— 25 GB - 视觉:
qwen2.5-vl:7b(Q4_K_M)—— 5 GB - 嵌入:
bge-m3(用于知识库)—— 2.3 GB - 上下文:64K
- 总硬盘占用:约 75 GB
- 运行时:旗舰和中文模型不同时加载,按需切换
- 体验:70B 模型 60 tok/s(已经跟云端 ChatGPT 4o 的速度类似)
6.11 本章小练习
练习 1:算自己的"模型预算"
按下面公式算:
你的模型预算 = 总内存 - 系统占用(Mac 4 GB / Win 6 GB)- 浏览器/IDE 占用(4 GB) - KV Cache 预留(2 GB)
例如 16 GB Mac:16 - 4 - 4 - 2 = 6 GB。
照这个数字回 6.4 节找你能跑的最大模型。
练习 2:同模型不同量化对比
下两个版本:
ollama pull qwen3:8b-q4_K_M
ollama pull qwen3:8b-q8_0
让它们都回答同一个题目,亲自感受差距:
请帮我写一封给中学班主任的家长信,告知孩子最近因为奶奶生病情绪低落,请老师多关心。语气要真诚但不卑微。300 字以内。
你会发现 Q4_K_M 和 Q8 几乎看不出差别。这就是"为什么不直接用 Q8"的答案——用 Q4 给你的内存留出更多余地。
练习 3:算一笔上下文账
打开 LM Studio,加载 8B 模型,把上下文从 4K 拉到 32K,观察内存占用变化。
亲自感受 KV Cache 是怎么吃内存的。
6.12 一句话记住
Q4_K_M 是默认答案,模型大小看你内存,上下文长度别拉满——三件事记住,9 成的"模型挑选"问题就解决了。
下一章 第七章 · 本地写作与日记 真正私密的创作伙伴,我们终于不再讲"装",开始讲"用"——把本地 AI 变成你最私密的写作伙伴。