ORANGE BOOK · LOCAL AI

第五章 选模型——Llama / Qwen / DeepSeek / Gemma 怎么挑

5.1 选模型,不是找"最强",而是找"最适合"

打开 Hugging Face 或 Ollama 模型库,你会看到几百个名字:Qwen、Llama、DeepSeek、Gemma、Phi、Mistral、Yi、GLM、Falcon、StableLM、SOLAR、Aya、Nemotron……新人很容易陷入"到底哪个最好"的选择障碍。

记住一个核心原则

每个模型都有自己的人设和擅长。选模型不是选第一名,是选"和你最合得来"的那一个。

就像选朋友。有的人聊文学最爽(Qwen),有的人写代码最厉害(Qwen Coder),有的人逻辑最严密(DeepSeek-R1),有的人英文最地道(Llama),有的人特别简洁(Gemma),有的人出厂就懂中文成语典故(Yi)。

你最终需要的,不是 1 个"全能选手",而是 2–3 个互补的"队友"

5.2 2026 年开源模型全家福

下面是 2026 年 4 月最值得普通用户关注的 12 个模型家族。我会先讲"是谁出的、有什么人设",再讲"什么版本最值得下载"。

5.2.1 Qwen(通义千问)系列 —— 阿里巴巴

  • 来源:阿里巴巴达摩院 / 通义实验室
  • 人设中文能力的天花板,2026 年最适合中国用户的开源模型
  • 许可:Apache 2.0(商用、改造、分发都自由)
  • 最新版本
    • Qwen 3 系列(旗舰):1.7B / 4B / 8B / 14B / 32B / 235B-A22B(MoE)
    • Qwen 2.5 Coder 系列(编程专用):1.5B / 7B / 14B / 32B
    • Qwen 2.5-VL 系列(视觉):7B / 32B / 72B
    • Qwen Audio 系列(语音)

适合你下载的版本

你的电脑档位 推荐
8 GB 内存 qwen3:1.7b
16 GB 内存 qwen3:8b主推
24 GB 内存 qwen3:14b
32 GB+ 内存 qwen3:32bqwen2.5-coder:32b(编程用)
64 GB+ Mac/双卡 PC 235B MoE 量化版

为什么主推 Qwen

  • 中文写作(公文、文案、小说、邮件)综合表现 2026 年第一梯队。
  • 思维链 + 快速模式双切换,复杂问题"思考",简单问题"快答"。
  • 中国大陆有官方 ModelScope 镜像,下载速度快。
  • 完全 Apache 2.0,公司商用零顾虑。

5.2.2 Llama 系列 —— Meta(原 Facebook)

  • 人设开源社区的元老,英文最强
  • 许可:Meta 自定义(普通用户和小公司随便用,月活超过 7 亿用户的公司需要单独申请)
  • 最新版本
    • Llama 3.3 70B(2024 年底 / 2025 年初的主力)
    • Llama 4 Scout 109B-A17B(MoE,10M 上下文)
    • Llama 4 Maverick 400B-A17B(MoE,多模态)
    • Llama 3.2 系列:1B / 3B(小型,适合移动端)
    • Llama 3.2-Vision 11B / 90B(视觉)

适合你下载的版本

档位 推荐
8 GB llama3.2:3b
16 GB llama3.1:8b
32 GB+ llama3.3:70b(量化)
64 GB+ Mac/多卡 llama4:scout(10M 上下文极赞)

什么时候选 Llama 而不是 Qwen

  • 你主要任务是英文写作、英文邮件、英文文案。
  • 你需要超长上下文(Llama 4 Scout 的 10M token 是目前所有开源模型最强)。
  • 你需要稳定的多模态视觉理解(Llama 3.2-Vision)。

5.2.3 DeepSeek 系列 —— 深度求索

  • 人设推理王者,数学和复杂逻辑题的专家
  • 许可:MIT(最宽松)
  • 最新版本
    • DeepSeek-R1(推理王,671B MoE,37B 激活)
    • DeepSeek-R1 蒸馏系列:1.5B / 7B / 8B / 14B / 32B / 70B
    • DeepSeek-V3(通用,671B MoE)

适合你下载的版本

档位 推荐
8 GB deepseek-r1:1.5b
16 GB deepseek-r1:7b适合做数学/编程辅助
24 GB deepseek-r1:14b
32 GB+ deepseek-r1:32b
64 GB+ deepseek-r1:70b

亮点

  • DeepSeek-R1 7B 在 GSM8K 数学基准上得分 91.2%,超过 GPT-4o(83%)。
  • 它会"显示思考过程"——回答前会有一段 <think>...</think> 标签里的推理过程,让你看清它怎么想。
  • 适合用作"算账小能手"、"解题助手"、"逻辑校对器"。

注意:DeepSeek-R1 的"思考"会让回答变慢(多说几倍的话)。日常聊天不必用它,留给数学题、代码 bug、合同条款核查这种任务。

5.2.4 Gemma 系列 —— Google DeepMind

  • 人设小巧精悍,多语言均衡,适合资源受限的设备
  • 许可:Gemma 自定义(接近 Apache 2.0,几乎全开放)
  • 最新版本
    • Gemma 3 系列:1B / 4B / 12B / 27B
    • Gemma 3-Vision(多模态)

适合你下载的版本

档位 推荐
8 GB gemma3:4b
16 GB gemma3:12b
32 GB+ gemma3:27b

什么时候选 Gemma

  • 你想在小内存机器上跑一个综合表现不差的模型。
  • 你需要多语言支持(西班牙语、法语、德语、阿拉伯语、印地语)。
  • 你的应用场景对"输出风格清淡、不啰嗦"有偏好。

5.2.5 Phi 系列 —— Microsoft

  • 人设"小而美"的代表,参数小但能打
  • 许可:MIT
  • 最新版本
    • Phi-4 14B(2025 年发布)
    • Phi-3.5 mini 3.8B

适合你下载的版本

档位 推荐
8 GB phi3.5:3.8b
16 GB phi-4:14b(推荐!综合 STEM 任务接近 32B 模型)

亮点

  • Phi-4 14B 在数学、编程、STEM 综合基准上接近 GPT-4o。
  • 体积只有 8.5 GB(Q4),16 GB 内存的笔记本可以丝滑跑。
  • 对"教育、辅导、解题"场景特别合适。

注意:中文表现一般,不要让它替代 Qwen。

5.2.6 Mistral 系列 —— Mistral AI(法国)

  • 人设欧洲学院派,纯净不啰嗦,长上下文友好
  • 许可:Apache 2.0(部分版本)
  • 最新版本
    • Mistral Large 3(旗舰)
    • Mixtral 8x22B(MoE)
    • Mistral Small 3 24B

适合你下载的版本

档位 推荐
16 GB mistral:7b
32 GB mistral-small:24b
64 GB+ mixtral:8x22b

什么时候选 Mistral

  • 你需要写"商业、合规、说明书"类风格简洁的内容。
  • 你做欧洲多语言(法语、德语、意大利语)。

5.2.7 GLM 系列 —— 智谱 AI(清华系)

  • 人设国产中文老牌,工具调用能力强
  • 许可:Apache 2.0(GLM-4 之后)
  • 最新版本
    • GLM-4 9B
    • GLM-4-Plus(部分开源)

适合你下载的版本

档位 推荐
16 GB glm4:9b

亮点:中文工具调用(Function Calling)、Agent 流程稳定性比 Qwen 略强。

5.2.8 Yi 系列 —— 零一万物(李开复创办)

  • 人设双语水平极佳,中英文切换无压力
  • 最新版本:Yi-1.5 9B / 34B
  • 适合下载yi:9byi:34b

5.2.9 视觉模型专项

如果你有"看图说话"的需求:

模型 大小 中文支持 备注
Qwen 2.5-VL 7B 5 GB 极好 首选
Llama 3.2-Vision 11B 7.5 GB 一般 英文场景好
Gemma 3-Vision 12B 8 GB 学术分析强
MiniCPM-V 2.6 5 GB 国产小钢炮

5.2.10 编程模型专项

模型 大小 备注
Qwen 2.5 Coder 7B 4.7 GB 16 GB 机器主力
Qwen 2.5 Coder 32B 20 GB HumanEval 92%,最强
DeepSeek Coder V2 16B 9 GB 长上下文友好
StarCoder2 15B 9 GB BigCode 出品,许可宽松
CodeGemma 7B 4.7 GB Google 出品,体积小

5.2.11 嵌入模型(用于知识库)

知识库(RAG)需要一个专门"把文字变成向量"的模型:

模型 大小 备注
BAAI/bge-m3 2.3 GB 中文 + 多语言首选
nomic-embed-text 0.3 GB 英文场景轻量
jina-embeddings-v3 2 GB 多语言,长文本

第十一章会专门讲怎么用它。

5.2.12 语音模型专项

模型 用途 备注
Whisper Large v3 语音转文字 OpenAI 开源,多语言极强
MLX-Whisper 同上 苹果优化版,M 系列 Mac 飞快
FunASR / SenseVoice 语音转文字 阿里出品,中文场景准
Piper 文字转语音 轻量好用,本地秒生成
OpenVoice 文字转语音 可克隆音色

第十二章会用到。

5.3 7 个使用场景的模型推荐表

下面是本章最重要的一张表。找你最常做的事,照表抓药

场景 8–16 GB 内存推荐 24–32 GB 推荐 64 GB+ 推荐
中文日常聊天/写作 Qwen 3 8B Qwen 3 14B Qwen 3 32B
英文写作/邮件 Llama 3.1 8B Llama 3.3 70B(轻量化) Llama 3.3 70B
代码补全/解释 Qwen 2.5 Coder 7B Qwen 2.5 Coder 32B DeepSeek Coder V2 / Qwen Coder 32B
数学/逻辑推理 DeepSeek-R1 7B DeepSeek-R1 32B DeepSeek-R1 70B
多模态(看图说话) Qwen 2.5-VL 7B Qwen 2.5-VL 32B Qwen 2.5-VL 72B
长文档(超过 100K token) (此档难胜任) Llama 4 Scout(如硬件支持) Llama 4 Scout 109B
角色扮演/小说创作 Qwen 3 8B MythoMax 13B / Qwen 3 14B Behemoth 70B

5.4 怎么"装哪 3 个就够"

如果你只想要一个简洁结论,下面是本书作者的建议——装 3 个模型就能覆盖 95% 普通用户的需求

配置 A:标准三件套(适合 16 GB 内存用户)

  1. qwen3:8b —— 中文日常主力(5 GB)
  2. qwen2.5-coder:7b —— 编程辅助(4.7 GB)
  3. qwen2.5-vl:7b —— 看图(5 GB)

总占用:约 15 GB。足够你完成 90% 的本地 AI 任务

配置 B:均衡三件套(适合 24–32 GB 内存用户)

  1. qwen3:14b —— 中文主力(9 GB)
  2. qwen2.5-coder:32b —— 编程主力(20 GB)
  3. deepseek-r1:14b —— 推理强化(9 GB)

总占用:约 38 GB。覆盖中度专业用户

配置 C:旗舰三件套(适合 64 GB+ Mac 或多卡 PC)

  1. llama3.3:70b —— 综合主力(40 GB)
  2. qwen2.5-coder:32b —— 编程(20 GB)
  3. qwen2.5-vl:72b —— 视觉(40 GB)

总占用:约 100 GB。接近云端旗舰体验

重要提醒:你不需要一次下完。先装 1 个用一周,发现哪里不够再装第 2、3 个。模型不嫌多,硬盘不嫌大,但"没用过的模型"是浪费。

5.5 许可证速查(重要!)

如果你打算"自己用着玩",下面这一节可以略读。 但如果你打算"装在公司里用"或"做产品对外卖",必须看清楚

模型家族 许可证 商用 改造再分发 注意事项
Qwen 3 / Qwen 2.5 Apache 2.0 ✓ 自由 ✓ 自由 注明出处
Llama 3.x / 4.x Meta 自定义 ✓ 大多数公司可用 ✓ 但不能用 Llama 输出训竞品模型 月活超 7 亿需申请
DeepSeek-R1 / V3 MIT ✓ 完全自由 ✓ 完全自由
Gemma 3 Gemma 自定义 ✓ 大多数可用 ✓ 可改 不可用于禁止用途清单
Phi-4 MIT ✓ 自由 ✓ 自由
Mistral Apache 2.0 / 自定义 视版本而定 视版本而定 看具体版本
GLM-4 Apache 2.0(部分) 看具体版本
Yi-1.5 Apache 2.0

简单口诀

  • 完全自由:DeepSeek、Phi、Qwen、Yi
  • 几乎自由:Llama、Gemma、Mistral、GLM
  • 没有任何一个 2026 年主流开源模型禁止个人使用

5.6 怎么从 Ollama / Hugging Face 找新模型

在 Ollama 找

打开 https://ollama.com/library

  • 搜索框输入模型名(如 qwen
  • 看右下角下载量(数字越大越主流)
  • 点进去看 "Tags",每个 tag 对应一个版本(如 qwen3:8bqwen3:14bqwen3:32b

在 Hugging Face 找

打开 https://huggingface.co/models

  • 左侧 Filter 选 Text Generation + GGUF
  • 排序按 "Most Downloads"
  • 看模型卡片上的 "Quantizations" 段落

怎么知道一个新模型靠谱

看四件事:

  1. 作者是谁:大公司 / 知名实验室 / 主流个人发布者(如 unsloth、TheBloke、bartowski)
  2. 下载量:超过 10 万 / 月就是主流
  3. 基准分数:模型卡片上的 MMLU、HumanEval、MT-Bench
  4. Reddit / r/LocalLLaMA / X 的真实用户口碑:搜模型名 + "review"

5.7 本章小练习

练习 1:用 5.3 表格匹配自己

照"7 个场景的模型推荐表",给你自己最常做的 3 件事各挑一个模型。下载它们。

练习 2:同问比较

让你下载的 2–3 个模型回答同一个问题。比如:

请用 100 字写一首关于"老房子"的现代诗。
我有 5 个鸡蛋、2 个西红柿、3 把面条、半瓶老干妈。给我一份 30 分钟搞定的晚饭菜单,要求三人份。
请帮我把这段中文翻译成英文,同时保留"婉转拒绝"的语气:
"老板,我下周三可能没法加班,因为家里有点急事。"

亲身感受不同模型的"人设"差异。这是培养"模型嗅觉"的最快路径

练习 3:留下 1 个,删掉 1 个

一周以后,看看你装的 3 个模型里,哪个用得最多、哪个几乎没动。把没动的删掉。

你的硬盘是有限的,你的注意力更是有限的。每月做一次模型整理,比每月装新模型更重要。

5.8 一句话记住

中文用 Qwen,英文用 Llama,推理用 DeepSeek,编程用 Qwen Coder——其余都是补充。

下一章 第六章 · 模型大小与量化,我们破解最后一个新人最容易卡住的概念:"7B 是什么意思?Q4 又是什么意思?"