选模型 Llama Qwen · 本地 AI 橙皮书

5.1 选模型，不是找"最强"，而是找"最适合"

打开 Hugging Face 或 Ollama 模型库，你会看到几百个名字：Qwen、Llama、DeepSeek、Gemma、Phi、Mistral、Yi、GLM、Falcon、StableLM、SOLAR、Aya、Nemotron……新人很容易陷入"到底哪个最好"的选择障碍。

记住一个核心原则：

每个模型都有自己的人设和擅长。选模型不是选第一名，是选"和你最合得来"的那一个。

就像选朋友。有的人聊文学最爽（Qwen），有的人写代码最厉害（Qwen Coder），有的人逻辑最严密（DeepSeek-R1），有的人英文最地道（Llama），有的人特别简洁（Gemma），有的人出厂就懂中文成语典故（Yi）。

你最终需要的，不是 1 个"全能选手"，而是 2–3 个互补的"队友"。

5.2 2026 年开源模型全家福

下面是 2026 年 4 月最值得普通用户关注的 12 个模型家族。我会先讲"是谁出的、有什么人设"，再讲"什么版本最值得下载"。

5.2.1 Qwen（通义千问）系列 —— 阿里巴巴

来源：阿里巴巴达摩院 / 通义实验室
人设：中文能力的天花板，2026 年最适合中国用户的开源模型
许可：Apache 2.0（商用、改造、分发都自由）
最新版本：
- Qwen 3 系列（旗舰）：1.7B / 4B / 8B / 14B / 32B / 235B-A22B（MoE）
- Qwen 2.5 Coder 系列（编程专用）：1.5B / 7B / 14B / 32B
- Qwen 2.5-VL 系列（视觉）：7B / 32B / 72B
- Qwen Audio 系列（语音）

适合你下载的版本：

你的电脑档位	推荐
8 GB 内存	`qwen3:1.7b`
16 GB 内存	`qwen3:8b`（主推）
24 GB 内存	`qwen3:14b`
32 GB+ 内存	`qwen3:32b` 或 `qwen2.5-coder:32b`（编程用）
64 GB+ Mac/双卡 PC	235B MoE 量化版

为什么主推 Qwen：

中文写作（公文、文案、小说、邮件）综合表现 2026 年第一梯队。
思维链 + 快速模式双切换，复杂问题"思考"，简单问题"快答"。
中国大陆有官方 ModelScope 镜像，下载速度快。
完全 Apache 2.0，公司商用零顾虑。

5.2.2 Llama 系列 —— Meta（原 Facebook）

人设：开源社区的元老，英文最强
许可：Meta 自定义（普通用户和小公司随便用，月活超过 7 亿用户的公司需要单独申请）
最新版本：
- Llama 3.3 70B（2024 年底 / 2025 年初的主力）
- Llama 4 Scout 109B-A17B（MoE，10M 上下文）
- Llama 4 Maverick 400B-A17B（MoE，多模态）
- Llama 3.2 系列：1B / 3B（小型，适合移动端）
- Llama 3.2-Vision 11B / 90B（视觉）

适合你下载的版本：

档位	推荐
8 GB	`llama3.2:3b`
16 GB	`llama3.1:8b`
32 GB+	`llama3.3:70b`（量化）
64 GB+ Mac/多卡	`llama4:scout`（10M 上下文极赞）

什么时候选 Llama 而不是 Qwen：

你主要任务是英文写作、英文邮件、英文文案。
你需要超长上下文（Llama 4 Scout 的 10M token 是目前所有开源模型最强）。
你需要稳定的多模态视觉理解（Llama 3.2-Vision）。

5.2.3 DeepSeek 系列 —— 深度求索

人设：推理王者，数学和复杂逻辑题的专家
许可：MIT（最宽松）
最新版本：
- DeepSeek-R1（推理王，671B MoE，37B 激活）
- DeepSeek-R1 蒸馏系列：1.5B / 7B / 8B / 14B / 32B / 70B
- DeepSeek-V3（通用，671B MoE）

适合你下载的版本：

档位	推荐
8 GB	`deepseek-r1:1.5b`
16 GB	`deepseek-r1:7b`（适合做数学/编程辅助）
24 GB	`deepseek-r1:14b`
32 GB+	`deepseek-r1:32b`
64 GB+	`deepseek-r1:70b`

亮点：

DeepSeek-R1 7B 在 GSM8K 数学基准上得分 91.2%，超过 GPT-4o（83%）。
它会"显示思考过程"——回答前会有一段 <think>...</think> 标签里的推理过程，让你看清它怎么想。
适合用作"算账小能手"、"解题助手"、"逻辑校对器"。

注意：DeepSeek-R1 的"思考"会让回答变慢（多说几倍的话）。日常聊天不必用它，留给数学题、代码 bug、合同条款核查这种任务。

5.2.4 Gemma 系列 —— Google DeepMind

人设：小巧精悍，多语言均衡，适合资源受限的设备
许可：Gemma 自定义（接近 Apache 2.0，几乎全开放）
最新版本：
- Gemma 3 系列：1B / 4B / 12B / 27B
- Gemma 3-Vision（多模态）

适合你下载的版本：

档位	推荐
8 GB	`gemma3:4b`
16 GB	`gemma3:12b`
32 GB+	`gemma3:27b`

什么时候选 Gemma：

你想在小内存机器上跑一个综合表现不差的模型。
你需要多语言支持（西班牙语、法语、德语、阿拉伯语、印地语）。
你的应用场景对"输出风格清淡、不啰嗦"有偏好。

5.2.5 Phi 系列 —— Microsoft

人设："小而美"的代表，参数小但能打
许可：MIT
最新版本：
- Phi-4 14B（2025 年发布）
- Phi-3.5 mini 3.8B

适合你下载的版本：

档位	推荐
8 GB	`phi3.5:3.8b`
16 GB	`phi-4:14b`（推荐！综合 STEM 任务接近 32B 模型）

亮点：

Phi-4 14B 在数学、编程、STEM 综合基准上接近 GPT-4o。
体积只有 8.5 GB（Q4），16 GB 内存的笔记本可以丝滑跑。
对"教育、辅导、解题"场景特别合适。

注意：中文表现一般，不要让它替代 Qwen。

5.2.6 Mistral 系列 —— Mistral AI（法国）

人设：欧洲学院派，纯净不啰嗦，长上下文友好
许可：Apache 2.0（部分版本）
最新版本：
- Mistral Large 3（旗舰）
- Mixtral 8x22B（MoE）
- Mistral Small 3 24B

适合你下载的版本：

档位	推荐
16 GB	`mistral:7b`
32 GB	`mistral-small:24b`
64 GB+	`mixtral:8x22b`

什么时候选 Mistral：

你需要写"商业、合规、说明书"类风格简洁的内容。
你做欧洲多语言（法语、德语、意大利语）。

5.2.7 GLM 系列 —— 智谱 AI（清华系）

人设：国产中文老牌，工具调用能力强
许可：Apache 2.0（GLM-4 之后）
最新版本：
- GLM-4 9B
- GLM-4-Plus（部分开源）

适合你下载的版本：

档位	推荐
16 GB	`glm4:9b`

亮点：中文工具调用（Function Calling）、Agent 流程稳定性比 Qwen 略强。

5.2.8 Yi 系列 —— 零一万物（李开复创办）

人设：双语水平极佳，中英文切换无压力
最新版本：Yi-1.5 9B / 34B
适合下载：yi:9b、yi:34b

5.2.9 视觉模型专项

如果你有"看图说话"的需求：

模型	大小	中文支持	备注
Qwen 2.5-VL 7B	5 GB	极好	首选
Llama 3.2-Vision 11B	7.5 GB	一般	英文场景好
Gemma 3-Vision 12B	8 GB	好	学术分析强
MiniCPM-V 2.6	5 GB	好	国产小钢炮

5.2.10 编程模型专项

模型	大小	备注
Qwen 2.5 Coder 7B	4.7 GB	16 GB 机器主力
Qwen 2.5 Coder 32B	20 GB	HumanEval 92%，最强
DeepSeek Coder V2 16B	9 GB	长上下文友好
StarCoder2 15B	9 GB	BigCode 出品，许可宽松
CodeGemma 7B	4.7 GB	Google 出品，体积小

5.2.11 嵌入模型（用于知识库）

知识库（RAG）需要一个专门"把文字变成向量"的模型：

模型	大小	备注
BAAI/bge-m3	2.3 GB	中文 + 多语言首选
nomic-embed-text	0.3 GB	英文场景轻量
jina-embeddings-v3	2 GB	多语言，长文本

第十一章会专门讲怎么用它。

5.2.12 语音模型专项

模型	用途	备注
Whisper Large v3	语音转文字	OpenAI 开源，多语言极强
MLX-Whisper	同上	苹果优化版，M 系列 Mac 飞快
FunASR / SenseVoice	语音转文字	阿里出品，中文场景准
Piper	文字转语音	轻量好用，本地秒生成
OpenVoice	文字转语音	可克隆音色

第十二章会用到。

5.3 7 个使用场景的模型推荐表

下面是本章最重要的一张表。找你最常做的事，照表抓药。

场景	8–16 GB 内存推荐	24–32 GB 推荐	64 GB+ 推荐
中文日常聊天/写作	Qwen 3 8B	Qwen 3 14B	Qwen 3 32B
英文写作/邮件	Llama 3.1 8B	Llama 3.3 70B（轻量化）	Llama 3.3 70B
代码补全/解释	Qwen 2.5 Coder 7B	Qwen 2.5 Coder 32B	DeepSeek Coder V2 / Qwen Coder 32B
数学/逻辑推理	DeepSeek-R1 7B	DeepSeek-R1 32B	DeepSeek-R1 70B
多模态（看图说话）	Qwen 2.5-VL 7B	Qwen 2.5-VL 32B	Qwen 2.5-VL 72B
长文档（超过 100K token）	（此档难胜任）	Llama 4 Scout（如硬件支持）	Llama 4 Scout 109B
角色扮演/小说创作	Qwen 3 8B	MythoMax 13B / Qwen 3 14B	Behemoth 70B

5.4 怎么"装哪 3 个就够"

如果你只想要一个简洁结论，下面是本书作者的建议——装 3 个模型就能覆盖 95% 普通用户的需求：

配置 A：标准三件套（适合 16 GB 内存用户）

qwen3:8b —— 中文日常主力（5 GB）
qwen2.5-coder:7b —— 编程辅助（4.7 GB）
qwen2.5-vl:7b —— 看图（5 GB）

总占用：约 15 GB。足够你完成 90% 的本地 AI 任务。

配置 B：均衡三件套（适合 24–32 GB 内存用户）

qwen3:14b —— 中文主力（9 GB）
qwen2.5-coder:32b —— 编程主力（20 GB）
deepseek-r1:14b —— 推理强化（9 GB）

总占用：约 38 GB。覆盖中度专业用户。

配置 C：旗舰三件套（适合 64 GB+ Mac 或多卡 PC）

llama3.3:70b —— 综合主力（40 GB）
qwen2.5-coder:32b —— 编程（20 GB）
qwen2.5-vl:72b —— 视觉（40 GB）

总占用：约 100 GB。接近云端旗舰体验。

重要提醒：你不需要一次下完。先装 1 个用一周，发现哪里不够再装第 2、3 个。模型不嫌多，硬盘不嫌大，但"没用过的模型"是浪费。

5.5 许可证速查（重要！）

如果你打算"自己用着玩"，下面这一节可以略读。但如果你打算"装在公司里用"或"做产品对外卖"，必须看清楚：

模型家族	许可证	商用	改造再分发	注意事项
Qwen 3 / Qwen 2.5	Apache 2.0	✓ 自由	✓ 自由	注明出处
Llama 3.x / 4.x	Meta 自定义	✓ 大多数公司可用	✓ 但不能用 Llama 输出训竞品模型	月活超 7 亿需申请
DeepSeek-R1 / V3	MIT	✓ 完全自由	✓ 完全自由	无
Gemma 3	Gemma 自定义	✓ 大多数可用	✓ 可改	不可用于禁止用途清单
Phi-4	MIT	✓ 自由	✓ 自由	无
Mistral	Apache 2.0 / 自定义	视版本而定	视版本而定	看具体版本
GLM-4	Apache 2.0（部分）	✓	✓	看具体版本
Yi-1.5	Apache 2.0	✓	✓	无

简单口诀：

完全自由：DeepSeek、Phi、Qwen、Yi
几乎自由：Llama、Gemma、Mistral、GLM
没有任何一个 2026 年主流开源模型禁止个人使用

5.6 怎么从 Ollama / Hugging Face 找新模型

在 Ollama 找

打开 https://ollama.com/library

搜索框输入模型名（如 qwen）
看右下角下载量（数字越大越主流）
点进去看 "Tags"，每个 tag 对应一个版本（如 qwen3:8b、qwen3:14b、qwen3:32b）

在 Hugging Face 找

打开 https://huggingface.co/models

左侧 Filter 选 Text Generation + GGUF
排序按 "Most Downloads"
看模型卡片上的 "Quantizations" 段落

怎么知道一个新模型靠谱

看四件事：

作者是谁：大公司 / 知名实验室 / 主流个人发布者（如 unsloth、TheBloke、bartowski）
下载量：超过 10 万 / 月就是主流
基准分数：模型卡片上的 MMLU、HumanEval、MT-Bench
Reddit / r/LocalLLaMA / X 的真实用户口碑：搜模型名 + "review"

5.7 本章小练习

练习 1：用 5.3 表格匹配自己

照"7 个场景的模型推荐表"，给你自己最常做的 3 件事各挑一个模型。下载它们。

练习 2：同问比较

让你下载的 2–3 个模型回答同一个问题。比如：

请用 100 字写一首关于"老房子"的现代诗。

我有 5 个鸡蛋、2 个西红柿、3 把面条、半瓶老干妈。给我一份 30 分钟搞定的晚饭菜单，要求三人份。

请帮我把这段中文翻译成英文，同时保留"婉转拒绝"的语气：
"老板，我下周三可能没法加班，因为家里有点急事。"

亲身感受不同模型的"人设"差异。这是培养"模型嗅觉"的最快路径。

练习 3：留下 1 个，删掉 1 个

一周以后，看看你装的 3 个模型里，哪个用得最多、哪个几乎没动。把没动的删掉。

你的硬盘是有限的，你的注意力更是有限的。每月做一次模型整理，比每月装新模型更重要。

5.8 一句话记住

中文用 Qwen，英文用 Llama，推理用 DeepSeek，编程用 Qwen Coder——其余都是补充。

下一章第六章 · 模型大小与量化，我们破解最后一个新人最容易卡住的概念："7B 是什么意思？Q4 又是什么意思？"

第五章 选模型——Llama / Qwen / DeepSeek / Gemma 怎么挑

5.1 选模型，不是找"最强"，而是找"最适合"

5.2 2026 年开源模型全家福

5.2.1 Qwen（通义千问）系列 —— 阿里巴巴

5.2.2 Llama 系列 —— Meta（原 Facebook）

5.2.3 DeepSeek 系列 —— 深度求索

5.2.4 Gemma 系列 —— Google DeepMind

5.2.5 Phi 系列 —— Microsoft

5.2.6 Mistral 系列 —— Mistral AI（法国）

5.2.7 GLM 系列 —— 智谱 AI（清华系）

5.2.8 Yi 系列 —— 零一万物（李开复创办）

5.2.9 视觉模型专项

5.2.10 编程模型专项

5.2.11 嵌入模型（用于知识库）

5.2.12 语音模型专项

5.3 7 个使用场景的模型推荐表

5.4 怎么"装哪 3 个就够"

配置 A：标准三件套（适合 16 GB 内存用户）

配置 B：均衡三件套（适合 24–32 GB 内存用户）

配置 C：旗舰三件套（适合 64 GB+ Mac 或多卡 PC）

5.5 许可证速查（重要！）

5.6 怎么从 Ollama / Hugging Face 找新模型

在 Ollama 找

在 Hugging Face 找

怎么知道一个新模型靠谱

5.7 本章小练习

练习 1：用 5.3 表格匹配自己

练习 2：同问比较

练习 3：留下 1 个，删掉 1 个

5.8 一句话记住

第五章选模型——Llama / Qwen / DeepSeek / Gemma 怎么挑