5.1 选模型,不是找"最强",而是找"最适合"
打开 Hugging Face 或 Ollama 模型库,你会看到几百个名字:Qwen、Llama、DeepSeek、Gemma、Phi、Mistral、Yi、GLM、Falcon、StableLM、SOLAR、Aya、Nemotron……新人很容易陷入"到底哪个最好"的选择障碍。
记住一个核心原则:
每个模型都有自己的人设和擅长。选模型不是选第一名,是选"和你最合得来"的那一个。
就像选朋友。有的人聊文学最爽(Qwen),有的人写代码最厉害(Qwen Coder),有的人逻辑最严密(DeepSeek-R1),有的人英文最地道(Llama),有的人特别简洁(Gemma),有的人出厂就懂中文成语典故(Yi)。
你最终需要的,不是 1 个"全能选手",而是 2–3 个互补的"队友"。
5.2 2026 年开源模型全家福
下面是 2026 年 4 月最值得普通用户关注的 12 个模型家族。我会先讲"是谁出的、有什么人设",再讲"什么版本最值得下载"。
5.2.1 Qwen(通义千问)系列 —— 阿里巴巴
- 来源:阿里巴巴达摩院 / 通义实验室
- 人设:中文能力的天花板,2026 年最适合中国用户的开源模型
- 许可:Apache 2.0(商用、改造、分发都自由)
- 最新版本:
- Qwen 3 系列(旗舰):1.7B / 4B / 8B / 14B / 32B / 235B-A22B(MoE)
- Qwen 2.5 Coder 系列(编程专用):1.5B / 7B / 14B / 32B
- Qwen 2.5-VL 系列(视觉):7B / 32B / 72B
- Qwen Audio 系列(语音)
适合你下载的版本:
| 你的电脑档位 | 推荐 |
|---|---|
| 8 GB 内存 | qwen3:1.7b |
| 16 GB 内存 | qwen3:8b(主推) |
| 24 GB 内存 | qwen3:14b |
| 32 GB+ 内存 | qwen3:32b 或 qwen2.5-coder:32b(编程用) |
| 64 GB+ Mac/双卡 PC | 235B MoE 量化版 |
为什么主推 Qwen:
- 中文写作(公文、文案、小说、邮件)综合表现 2026 年第一梯队。
- 思维链 + 快速模式双切换,复杂问题"思考",简单问题"快答"。
- 中国大陆有官方 ModelScope 镜像,下载速度快。
- 完全 Apache 2.0,公司商用零顾虑。
5.2.2 Llama 系列 —— Meta(原 Facebook)
- 人设:开源社区的元老,英文最强
- 许可:Meta 自定义(普通用户和小公司随便用,月活超过 7 亿用户的公司需要单独申请)
- 最新版本:
- Llama 3.3 70B(2024 年底 / 2025 年初的主力)
- Llama 4 Scout 109B-A17B(MoE,10M 上下文)
- Llama 4 Maverick 400B-A17B(MoE,多模态)
- Llama 3.2 系列:1B / 3B(小型,适合移动端)
- Llama 3.2-Vision 11B / 90B(视觉)
适合你下载的版本:
| 档位 | 推荐 |
|---|---|
| 8 GB | llama3.2:3b |
| 16 GB | llama3.1:8b |
| 32 GB+ | llama3.3:70b(量化) |
| 64 GB+ Mac/多卡 | llama4:scout(10M 上下文极赞) |
什么时候选 Llama 而不是 Qwen:
- 你主要任务是英文写作、英文邮件、英文文案。
- 你需要超长上下文(Llama 4 Scout 的 10M token 是目前所有开源模型最强)。
- 你需要稳定的多模态视觉理解(Llama 3.2-Vision)。
5.2.3 DeepSeek 系列 —— 深度求索
- 人设:推理王者,数学和复杂逻辑题的专家
- 许可:MIT(最宽松)
- 最新版本:
- DeepSeek-R1(推理王,671B MoE,37B 激活)
- DeepSeek-R1 蒸馏系列:1.5B / 7B / 8B / 14B / 32B / 70B
- DeepSeek-V3(通用,671B MoE)
适合你下载的版本:
| 档位 | 推荐 |
|---|---|
| 8 GB | deepseek-r1:1.5b |
| 16 GB | deepseek-r1:7b(适合做数学/编程辅助) |
| 24 GB | deepseek-r1:14b |
| 32 GB+ | deepseek-r1:32b |
| 64 GB+ | deepseek-r1:70b |
亮点:
- DeepSeek-R1 7B 在 GSM8K 数学基准上得分 91.2%,超过 GPT-4o(83%)。
- 它会"显示思考过程"——回答前会有一段
<think>...</think>标签里的推理过程,让你看清它怎么想。 - 适合用作"算账小能手"、"解题助手"、"逻辑校对器"。
注意:DeepSeek-R1 的"思考"会让回答变慢(多说几倍的话)。日常聊天不必用它,留给数学题、代码 bug、合同条款核查这种任务。
5.2.4 Gemma 系列 —— Google DeepMind
- 人设:小巧精悍,多语言均衡,适合资源受限的设备
- 许可:Gemma 自定义(接近 Apache 2.0,几乎全开放)
- 最新版本:
- Gemma 3 系列:1B / 4B / 12B / 27B
- Gemma 3-Vision(多模态)
适合你下载的版本:
| 档位 | 推荐 |
|---|---|
| 8 GB | gemma3:4b |
| 16 GB | gemma3:12b |
| 32 GB+ | gemma3:27b |
什么时候选 Gemma:
- 你想在小内存机器上跑一个综合表现不差的模型。
- 你需要多语言支持(西班牙语、法语、德语、阿拉伯语、印地语)。
- 你的应用场景对"输出风格清淡、不啰嗦"有偏好。
5.2.5 Phi 系列 —— Microsoft
- 人设:"小而美"的代表,参数小但能打
- 许可:MIT
- 最新版本:
- Phi-4 14B(2025 年发布)
- Phi-3.5 mini 3.8B
适合你下载的版本:
| 档位 | 推荐 |
|---|---|
| 8 GB | phi3.5:3.8b |
| 16 GB | phi-4:14b(推荐!综合 STEM 任务接近 32B 模型) |
亮点:
- Phi-4 14B 在数学、编程、STEM 综合基准上接近 GPT-4o。
- 体积只有 8.5 GB(Q4),16 GB 内存的笔记本可以丝滑跑。
- 对"教育、辅导、解题"场景特别合适。
注意:中文表现一般,不要让它替代 Qwen。
5.2.6 Mistral 系列 —— Mistral AI(法国)
- 人设:欧洲学院派,纯净不啰嗦,长上下文友好
- 许可:Apache 2.0(部分版本)
- 最新版本:
- Mistral Large 3(旗舰)
- Mixtral 8x22B(MoE)
- Mistral Small 3 24B
适合你下载的版本:
| 档位 | 推荐 |
|---|---|
| 16 GB | mistral:7b |
| 32 GB | mistral-small:24b |
| 64 GB+ | mixtral:8x22b |
什么时候选 Mistral:
- 你需要写"商业、合规、说明书"类风格简洁的内容。
- 你做欧洲多语言(法语、德语、意大利语)。
5.2.7 GLM 系列 —— 智谱 AI(清华系)
- 人设:国产中文老牌,工具调用能力强
- 许可:Apache 2.0(GLM-4 之后)
- 最新版本:
- GLM-4 9B
- GLM-4-Plus(部分开源)
适合你下载的版本:
| 档位 | 推荐 |
|---|---|
| 16 GB | glm4:9b |
亮点:中文工具调用(Function Calling)、Agent 流程稳定性比 Qwen 略强。
5.2.8 Yi 系列 —— 零一万物(李开复创办)
- 人设:双语水平极佳,中英文切换无压力
- 最新版本:Yi-1.5 9B / 34B
- 适合下载:
yi:9b、yi:34b
5.2.9 视觉模型专项
如果你有"看图说话"的需求:
| 模型 | 大小 | 中文支持 | 备注 |
|---|---|---|---|
| Qwen 2.5-VL 7B | 5 GB | 极好 | 首选 |
| Llama 3.2-Vision 11B | 7.5 GB | 一般 | 英文场景好 |
| Gemma 3-Vision 12B | 8 GB | 好 | 学术分析强 |
| MiniCPM-V 2.6 | 5 GB | 好 | 国产小钢炮 |
5.2.10 编程模型专项
| 模型 | 大小 | 备注 |
|---|---|---|
| Qwen 2.5 Coder 7B | 4.7 GB | 16 GB 机器主力 |
| Qwen 2.5 Coder 32B | 20 GB | HumanEval 92%,最强 |
| DeepSeek Coder V2 16B | 9 GB | 长上下文友好 |
| StarCoder2 15B | 9 GB | BigCode 出品,许可宽松 |
| CodeGemma 7B | 4.7 GB | Google 出品,体积小 |
5.2.11 嵌入模型(用于知识库)
知识库(RAG)需要一个专门"把文字变成向量"的模型:
| 模型 | 大小 | 备注 |
|---|---|---|
| BAAI/bge-m3 | 2.3 GB | 中文 + 多语言首选 |
| nomic-embed-text | 0.3 GB | 英文场景轻量 |
| jina-embeddings-v3 | 2 GB | 多语言,长文本 |
第十一章会专门讲怎么用它。
5.2.12 语音模型专项
| 模型 | 用途 | 备注 |
|---|---|---|
| Whisper Large v3 | 语音转文字 | OpenAI 开源,多语言极强 |
| MLX-Whisper | 同上 | 苹果优化版,M 系列 Mac 飞快 |
| FunASR / SenseVoice | 语音转文字 | 阿里出品,中文场景准 |
| Piper | 文字转语音 | 轻量好用,本地秒生成 |
| OpenVoice | 文字转语音 | 可克隆音色 |
第十二章会用到。
5.3 7 个使用场景的模型推荐表
下面是本章最重要的一张表。找你最常做的事,照表抓药。
| 场景 | 8–16 GB 内存推荐 | 24–32 GB 推荐 | 64 GB+ 推荐 |
|---|---|---|---|
| 中文日常聊天/写作 | Qwen 3 8B | Qwen 3 14B | Qwen 3 32B |
| 英文写作/邮件 | Llama 3.1 8B | Llama 3.3 70B(轻量化) | Llama 3.3 70B |
| 代码补全/解释 | Qwen 2.5 Coder 7B | Qwen 2.5 Coder 32B | DeepSeek Coder V2 / Qwen Coder 32B |
| 数学/逻辑推理 | DeepSeek-R1 7B | DeepSeek-R1 32B | DeepSeek-R1 70B |
| 多模态(看图说话) | Qwen 2.5-VL 7B | Qwen 2.5-VL 32B | Qwen 2.5-VL 72B |
| 长文档(超过 100K token) | (此档难胜任) | Llama 4 Scout(如硬件支持) | Llama 4 Scout 109B |
| 角色扮演/小说创作 | Qwen 3 8B | MythoMax 13B / Qwen 3 14B | Behemoth 70B |
5.4 怎么"装哪 3 个就够"
如果你只想要一个简洁结论,下面是本书作者的建议——装 3 个模型就能覆盖 95% 普通用户的需求:
配置 A:标准三件套(适合 16 GB 内存用户)
qwen3:8b—— 中文日常主力(5 GB)qwen2.5-coder:7b—— 编程辅助(4.7 GB)qwen2.5-vl:7b—— 看图(5 GB)
总占用:约 15 GB。足够你完成 90% 的本地 AI 任务。
配置 B:均衡三件套(适合 24–32 GB 内存用户)
qwen3:14b—— 中文主力(9 GB)qwen2.5-coder:32b—— 编程主力(20 GB)deepseek-r1:14b—— 推理强化(9 GB)
总占用:约 38 GB。覆盖中度专业用户。
配置 C:旗舰三件套(适合 64 GB+ Mac 或多卡 PC)
llama3.3:70b—— 综合主力(40 GB)qwen2.5-coder:32b—— 编程(20 GB)qwen2.5-vl:72b—— 视觉(40 GB)
总占用:约 100 GB。接近云端旗舰体验。
重要提醒:你不需要一次下完。先装 1 个用一周,发现哪里不够再装第 2、3 个。模型不嫌多,硬盘不嫌大,但"没用过的模型"是浪费。
5.5 许可证速查(重要!)
如果你打算"自己用着玩",下面这一节可以略读。 但如果你打算"装在公司里用"或"做产品对外卖",必须看清楚:
| 模型家族 | 许可证 | 商用 | 改造再分发 | 注意事项 |
|---|---|---|---|---|
| Qwen 3 / Qwen 2.5 | Apache 2.0 | ✓ 自由 | ✓ 自由 | 注明出处 |
| Llama 3.x / 4.x | Meta 自定义 | ✓ 大多数公司可用 | ✓ 但不能用 Llama 输出训竞品模型 | 月活超 7 亿需申请 |
| DeepSeek-R1 / V3 | MIT | ✓ 完全自由 | ✓ 完全自由 | 无 |
| Gemma 3 | Gemma 自定义 | ✓ 大多数可用 | ✓ 可改 | 不可用于禁止用途清单 |
| Phi-4 | MIT | ✓ 自由 | ✓ 自由 | 无 |
| Mistral | Apache 2.0 / 自定义 | 视版本而定 | 视版本而定 | 看具体版本 |
| GLM-4 | Apache 2.0(部分) | ✓ | ✓ | 看具体版本 |
| Yi-1.5 | Apache 2.0 | ✓ | ✓ | 无 |
简单口诀:
- 完全自由:DeepSeek、Phi、Qwen、Yi
- 几乎自由:Llama、Gemma、Mistral、GLM
- 没有任何一个 2026 年主流开源模型禁止个人使用
5.6 怎么从 Ollama / Hugging Face 找新模型
在 Ollama 找
打开 https://ollama.com/library
- 搜索框输入模型名(如
qwen) - 看右下角下载量(数字越大越主流)
- 点进去看 "Tags",每个 tag 对应一个版本(如
qwen3:8b、qwen3:14b、qwen3:32b)
在 Hugging Face 找
打开 https://huggingface.co/models
- 左侧 Filter 选
Text Generation+GGUF - 排序按 "Most Downloads"
- 看模型卡片上的 "Quantizations" 段落
怎么知道一个新模型靠谱
看四件事:
- 作者是谁:大公司 / 知名实验室 / 主流个人发布者(如 unsloth、TheBloke、bartowski)
- 下载量:超过 10 万 / 月就是主流
- 基准分数:模型卡片上的 MMLU、HumanEval、MT-Bench
- Reddit / r/LocalLLaMA / X 的真实用户口碑:搜模型名 + "review"
5.7 本章小练习
练习 1:用 5.3 表格匹配自己
照"7 个场景的模型推荐表",给你自己最常做的 3 件事各挑一个模型。下载它们。
练习 2:同问比较
让你下载的 2–3 个模型回答同一个问题。比如:
请用 100 字写一首关于"老房子"的现代诗。
我有 5 个鸡蛋、2 个西红柿、3 把面条、半瓶老干妈。给我一份 30 分钟搞定的晚饭菜单,要求三人份。
请帮我把这段中文翻译成英文,同时保留"婉转拒绝"的语气:
"老板,我下周三可能没法加班,因为家里有点急事。"
亲身感受不同模型的"人设"差异。这是培养"模型嗅觉"的最快路径。
练习 3:留下 1 个,删掉 1 个
一周以后,看看你装的 3 个模型里,哪个用得最多、哪个几乎没动。把没动的删掉。
你的硬盘是有限的,你的注意力更是有限的。每月做一次模型整理,比每月装新模型更重要。
5.8 一句话记住
中文用 Qwen,英文用 Llama,推理用 DeepSeek,编程用 Qwen Coder——其余都是补充。
下一章 第六章 · 模型大小与量化,我们破解最后一个新人最容易卡住的概念:"7B 是什么意思?Q4 又是什么意思?"