ORANGE BOOK · LOCAL AI

第六章 模型大小与量化——7B、13B、Q4、Q5 到底是什么

6.1 一个比喻就够了:模型大小是"大脑容量",量化是"压缩录音"

1B / 3B / 7B / 14B / 70B —— 大脑里有多少"神经元"

模型名字后面的 B 代表 Billion(十亿)。

  • 1B = 10 亿参数 ≈ 一只受过训练的导盲犬,认字、能问简单问题
  • 3B = 30 亿参数 ≈ 一个小学三年级学生
  • 7B / 8B = 70/80 亿参数 ≈ 一个高中毕业生
  • 14B = 140 亿参数 ≈ 一个二本大学毕业生
  • 32B = 320 亿参数 ≈ 一个名校毕业生
  • 70B = 700 亿参数 ≈ 一个有 5 年工作经验的资深员工
  • 235B / 671B = 接近 GPT-4o / Claude 4.5 这种顶级云端旗舰

参数越多,模型理解越深、回答越靠谱、能解决越复杂的问题。但占用内存和速度也成倍上升

Q2 / Q4 / Q5 / Q8 —— 把每个神经元的"精度"压缩到几位

模型原始权重每个数字是 16 位浮点(FP16)或 32 位(FP32),精度高,但占内存大。

量化就是把每个数字"压缩"成更少的位数:

  • Q8 = 8 位整数 ≈ 把 CD 音质压缩到 320 kbps MP3,几乎听不出区别
  • Q6 = 6 位 ≈ 192 kbps MP3,依然好听
  • Q5 = 5 位 ≈ 128 kbps MP3,能听
  • Q4 = 4 位 ≈ 96 kbps MP3,明显有损但能用
  • Q3 = 3 位 ≈ 64 kbps MP3,已经能听出问题
  • Q2 = 2 位 ≈ 32 kbps,几乎不能用

核心权衡

  • 量化越低,文件越小、跑得越快、占内存越少。
  • 量化越低,回答质量越差、越容易胡言乱语。

6.2 一张表看完所有量化等级

下面这张表是 7B 模型的具体数字(其他大小按比例缩放):

量化等级 7B 文件大小 7B 所需内存 质量损失 推荐场景
FP16 / 原始 ~14 GB ~16 GB 0 研究、训练
Q8_0 ~7.2 GB ~8.5 GB 几乎 0 显存够时首选
Q6_K ~5.5 GB ~6.8 GB <1% 平衡之王
Q5_K_M ~4.8 GB ~6 GB 2% 较佳品质日常用
Q4_K_M ~4.3 GB ~5.5 GB 3–5% 大多数人最优解
Q4_K_S ~4.0 GB ~5.2 GB 5–7% 内存紧时退路
Q3_K_M ~3.5 GB ~4.5 GB 10–15% 不推荐
Q2_K ~2.7 GB ~3.6 GB 20%+ 不推荐

结论:除非内存极其紧张,永远优先选 Q4_K_M

6.3 量化字母后缀的含义

你会看到 Q4_K_M 后面还有一些字母,它们的意思是:

  • _K:使用了 K-quants(更新的量化算法,比老的 Q4_0 质量好得多)
  • _M (Medium):复杂版本,质量优先
  • _S (Small):简化版本,速度优先
  • _L (Large):在 K-quants 上质量再加强一档(更大文件)

口诀

  • 看到 K 就放心(新算法)
  • 看到 M 选它(平衡)
  • 内存紧再降到 S
  • 内存巨剩,可以试 L

还会偶尔看到:

  • IQ4_XSIQ3_M:使用 Importance Matrix 的更高级量化,比同等 Q 还要好一点。新工具下载源(如 unsloth、bartowski 出的)经常是 IQ 系列。
  • BF16 / F16:未量化的原始版本。

6.4 不同档位电脑的"大小 + 量化"组合速查

下面这张表已经把所有计算做完了。找你这一档,按表抓药

8 GB 内存(4 GB 可用给模型)

模型 量化 大小 速度(CPU) 备注
Qwen 3 1.7B Q4_K_M 1.2 GB 流畅 主力
Llama 3.2 3B Q4_K_M 2 GB 流畅 备选
Gemma 3 4B Q4_K_M 2.8 GB 较慢 多语言
Phi-3.5 3.8B Q4_K_M 2.4 GB 流畅 STEM 强

16 GB 内存(8 GB 可用给模型)

模型 量化 大小 速度(M2 Air) 备注
Qwen 3 8B Q4_K_M 5 GB 30 tok/s 主力
DeepSeek-R1 7B Q4_K_M 4.7 GB 35 tok/s 推理
Qwen 2.5 Coder 7B Q4_K_M 4.7 GB 32 tok/s 编程
Llama 3.1 8B Q5_K_M 5.7 GB 25 tok/s 英文
Phi-4 14B Q3_K_M 6.5 GB 20 tok/s 推理(极限)

24 GB 内存(12 GB 可用给模型)

模型 量化 大小 速度
Qwen 3 14B Q4_K_M 9 GB 25 tok/s
Phi-4 14B Q5_K_M 10 GB 20 tok/s
Gemma 3 12B Q5_K_M 8.5 GB 25 tok/s
Qwen 3 32B Q3_K_M 14 GB 12 tok/s(极限)

32 GB 内存(20 GB 可用给模型)

模型 量化 大小 备注
Qwen 3 32B Q4_K_M 20 GB 主力
Qwen 2.5 Coder 32B Q4_K_M 20 GB 编程主力
DeepSeek-R1 32B Q4_K_M 20 GB 推理主力
Llama 3.3 70B IQ2_XXS 19 GB 极限尝试

64 GB 内存(48 GB 可用给模型)

模型 量化 大小 备注
Llama 3.3 70B Q4_K_M 40 GB 接近顶级云端
Qwen 3 32B Q8_0 35 GB 顶级质量
Qwen 2.5-VL 72B Q4_K_M 40 GB 视觉旗舰

6.5 GGUF / safetensors 文件格式快速辨识

你下载模型时会看到两种主流格式:

GGUF —— 给"个人电脑跑推理"用的

  • 全名 GPT-Generated Unified Format
  • 一个文件,自包含所有权重 + 元数据
  • llama.cpp、Ollama、LM Studio、Jan、GPT4All 等本地工具的标准格式
  • 普通用户 99% 的时间只接触这个
  • 文件名特征:xxx-q4_k_m.gguf

safetensors —— 给"训练和高级推理"用的

  • 由 Hugging Face 推出,安全(不像 pickle 可执行任意代码)
  • 主流框架(PyTorch、Transformers、vLLM、SGLang)使用
  • 通常是多个文件(model-00001-of-00004.safetensors
  • 普通用户基本不用关心

简单来说:你看到一个模型只有 .safetensors 没有 .gguf,那它暂时不能在 Ollama / LM Studio 里直接用。要么等社区把它转成 GGUF,要么换工具(如 vLLM)。

6.6 上下文长度(Context Length)—— 容易被忽略的第三维

除了"大小"和"量化",上下文长度是第三个会显著影响内存的维度。

什么是上下文长度

模型一次能"读进去"的总文字量上限。单位是 token(约等于 0.5–1 个汉字 / 1 个英文单词)。

  • 4K context = 约 3000 字
  • 8K context = 约 6000 字
  • 32K context = 约 24000 字
  • 128K context = 约 10 万字(一部短篇小说)
  • 1M context = 约 80 万字(一整套哈利波特)
  • 10M context = 约 800 万字(Llama 4 Scout 的最大值)

为什么它影响内存

模型每多读 1 个 token,都会在内存里产生一份 "KV Cache"(键值缓存),用来记住前面说过什么。

KV Cache 的大小约等于:

KV Cache ≈ 上下文长度 × 模型层数 × 隐藏维度 × 2

简单口诀:上下文每翻一倍,内存占用大约多 1–3 GB

一张速查表

以 Qwen 3 8B Q4_K_M(基础占用 5 GB)为例:

上下文长度 额外 KV Cache 总内存占用
2K 0.2 GB ~5.2 GB
8K 1 GB ~6 GB
32K 3 GB ~8 GB
128K 12 GB ~17 GB
1M 80+ GB 个人电脑别想

新人坑:你设了 32K 上下文,但只用 1K,内存依然按 32K 占用。

怎么调

  • Ollama:默认 2048。要改:
ollama run qwen3:8b
>>> /set parameter num_ctx 8192

或者写在 Modelfile 里(高级用法,第十三章会讲)。

  • LM Studio:右侧 "Context Length" 拖动条直接拉。
  • Cherry Studio:会话设置里 "最大上下文"。

建议:日常聊天 4K–8K 够用;总结长文档时再升到 32K;不要无脑拉到最大。

6.7 KV Cache 量化 —— 2026 年的新福利

Ollama 0.17 起支持 KV Cache 量化

  • --kv-cache-type q8_0(推荐):KV Cache 内存占用减半,质量几乎无损
  • --kv-cache-type q4_0:减少更多,但中文场景慎用

具体怎么开(Ollama):

OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve

效果:原来 32K 上下文要 8 GB,现在只要 4 GB。32 GB 内存的 Mac 终于能跑 70B 模型 + 32K 上下文了

6.8 "MoE 模型"是另一个概念

你会看到 Qwen 3 235B-A22BLlama 4 Scout 109B-A17BDeepSeek-V3 671B-A37B 这样的命名。

A22BActive 22B("激活"的参数量)的意思。

MoE(Mixture of Experts,专家混合)模型 的玩法:

  • 总参数很大(235B / 671B),但每次只激活其中一部分(22B / 37B)。
  • 占用内存按总参数算(235B 量化后约 130 GB,671B 量化后约 250 GB)。
  • 速度按激活参数算(跑起来速度接近 22B / 37B 模型)。

适合什么人

  • Mac Studio M Ultra 128 GB / 192 GB 用户
  • 多卡 GPU 服务器用户

普通笔记本用户可以暂时忽略 MoE 模型。

6.9 7 个新人最常踩的"大小/量化"坑

坑 1:盲目追求 Q8

"Q8 不是最好吗,我就要 Q8"——结果模型加载不进去、机器卡死。 真相:Q4_K_M 和 Q8 的实际质量差距在 5% 以内,但内存差 2 倍。

坑 2:盲目追求大模型

"32B 一定比 8B 强"——结果机器内存爆了。 真相:跑不动的 32B 不如跑得动的 8B。

坑 3:上下文拉满

"我要总结 100 页 PDF,所以拉到 128K"——结果模型加载报错。 真相:先看自己的 KV Cache 内存有没有空间。

坑 4:买之前没算过总占用

总占用 = 模型基础占用 + KV Cache + 系统占用 + 其他 App。 16 GB Mac 的"模型可用内存"通常只有 8–10 GB,剩下要给 macOS、浏览器、IDE 等。

坑 5:用 Q3 期待 Q4 的质量

"反正都是量化,我用 Q3 省点空间"——结果模型胡说八道。 质量曲线在 Q3 以下断崖式下降。建议永远不要用低于 Q4_K_M 的版本(除非纯学术尝试)。

坑 6:不知道 IQ 量化更优

老教程都说 Q4_K_M,但 2026 年新主流是 IQ4_XS、IQ4_NL,质量更好且文件更小。 建议在 Hugging Face 找模型时,优先看 unsloth、bartowski 这两位作者的 IQ 系列。

坑 7:模型混用工具搞错版本

不是所有 GGUF 都能在所有版本的 Ollama / LM Studio 上跑。

  • 新模型出来后等 1–2 周,等工具更新到支持的版本。
  • 报错"unknown model architecture"通常就是工具版本太老。

6.10 实战推演:3 个用户怎么决策

用户 1:小李,MacBook Air M2 16 GB

目标:日常写作 + 偶尔翻译。

决策

  • 主力:qwen3:8b(Q4_K_M)—— 5 GB
  • 备用:gemma3:4b(Q4_K_M)—— 2.8 GB
  • 上下文:默认 4K,总结长文章时改 16K
  • 总硬盘占用:约 8 GB
  • 总内存占用:约 6 GB(运行时)
  • 体验:30 tok/s 流畅

用户 2:老王,台式机 RTX 4070 12 GB + 32 GB 内存

目标:写代码 + 做技术调研。

决策

  • 主力:qwen2.5-coder:14b(Q5_K_M)—— 11 GB
  • 备用:deepseek-r1:14b(Q4_K_M)—— 9 GB
  • 上下文:32K
  • 总硬盘占用:约 20 GB
  • GPU 显存:基本占满,速度极佳
  • 体验:50 tok/s 飞快

用户 3:张姐,Mac Studio M2 Max 64 GB

目标:替代 ChatGPT Plus,搭家庭知识库 + 给孩子做学习助手。

决策

  • 旗舰:llama3.3:70b(Q4_K_M)—— 40 GB
  • 中文:qwen3:32b(Q5_K_M)—— 25 GB
  • 视觉:qwen2.5-vl:7b(Q4_K_M)—— 5 GB
  • 嵌入:bge-m3(用于知识库)—— 2.3 GB
  • 上下文:64K
  • 总硬盘占用:约 75 GB
  • 运行时:旗舰和中文模型不同时加载,按需切换
  • 体验:70B 模型 60 tok/s(已经跟云端 ChatGPT 4o 的速度类似)

6.11 本章小练习

练习 1:算自己的"模型预算"

按下面公式算:

你的模型预算 = 总内存 - 系统占用(Mac 4 GB / Win 6 GB)- 浏览器/IDE 占用(4 GB) - KV Cache 预留(2 GB)

例如 16 GB Mac:16 - 4 - 4 - 2 = 6 GB

照这个数字回 6.4 节找你能跑的最大模型。

练习 2:同模型不同量化对比

下两个版本:

ollama pull qwen3:8b-q4_K_M
ollama pull qwen3:8b-q8_0

让它们都回答同一个题目,亲自感受差距:

请帮我写一封给中学班主任的家长信,告知孩子最近因为奶奶生病情绪低落,请老师多关心。语气要真诚但不卑微。300 字以内。

你会发现 Q4_K_M 和 Q8 几乎看不出差别。这就是"为什么不直接用 Q8"的答案——用 Q4 给你的内存留出更多余地

练习 3:算一笔上下文账

打开 LM Studio,加载 8B 模型,把上下文从 4K 拉到 32K,观察内存占用变化。

亲自感受 KV Cache 是怎么吃内存的。

6.12 一句话记住

Q4_K_M 是默认答案,模型大小看你内存,上下文长度别拉满——三件事记住,9 成的"模型挑选"问题就解决了。

下一章 第七章 · 本地写作与日记 真正私密的创作伙伴,我们终于不再讲"装",开始讲"用"——把本地 AI 变成你最私密的写作伙伴。