一、为什么模型选错会很惨
真实案例:林姐的"翻车"
林姐做的"客服分拣员"上线第一周用的是豆包 Lite,效果挺好。第二周公司说"上 DeepSeek-R1,听说更聪明",她换上去——结果:
- 单次响应从 1.5 秒变成 18 秒(用户等到把页面关了);
- Token 消耗翻了 7 倍(财务部门发邮件来问);
- 准确率反而下降了(因为 R1 会"想太多",把简单分类问题当成了哲学题)。
她又换回 Lite,问题瞬间解决。
这就是模型选错的代价:慢、贵、还不一定准。
一句话原理
模型不是越贵越好,是越合适越好。
选模型的核心问题不是"它有多聪明",而是"它有没有比你需要的更聪明"——多出的那部分聪明,全是你为它付的钱和等的时间。
二、扣子(国内版)目前能用的模型清单
截至 2026 年 4 月,扣子里的主流模型大致分这几类(Coze 的模型列表会随时更新,但下面这几个家族会长期存在):
1. 豆包系列(字节自家,本书首推)
| 模型 | 定位 | 特长 | 速度 | 价格 |
|---|---|---|---|---|
| 豆包·1.5·Pro | 旗舰版 | 综合最强、中文最自然 | 中 | 中 |
| 豆包·1.5·Lite | 极速版 | 快、便宜 | 极快 | 极低 |
| 豆包·1.5·Vision | 多模态 | 看图、读截图、解析图表 | 中 | 中高 |
| 豆包·1.5·Thinking | 深度思考 | 推理、数学、逻辑链 | 慢 | 高 |
| 豆包·function-call | 工具调用专版 | 调用插件最稳、JSON 输出最准 | 中 | 中 |
记忆口诀:
Pro 全能,Lite 极速,Vision 看图,Thinking 推理,function-call 调工具。
2. DeepSeek 系列(Coze 已深度集成)
DeepSeek 在 2025 年初横空出世,扣子里也接入了全家桶,并且独家支持 DeepSeek 的工具调用(就是说在扣子里 DeepSeek 也能用插件,这在其他平台还做不到)。
| 模型 | 定位 | 特长 | 速度 | 价格 |
|---|---|---|---|---|
| DeepSeek-V3 | 综合版 | 通用对话、写作、代码 | 快 | 低 |
| DeepSeek-R1 | 深度推理 | 数学、逻辑、复杂决策 | 慢 | 中 |
R1 的特点是会思考再回答——你能看到它的"思考过程"。但缺点是慢、贵、容易"想太多"。
3. 通义千问系列(阿里)
扣子里也有,但不是首推。在以下场景才用:
- 你团队已经在用阿里云生态(钉钉、阿里云文档),需要打通。
- 你做的是面向企业的 SaaS,企业指定用千问。
4. Kimi(月之暗面)
主打超长上下文(128K/200K)。如果你要让 Bot 一次读完一本 200 页的 PDF,Kimi 是最佳选择之一。
5. 国际版(coze.com)独占
| 模型 | 定位 | 备注 |
|---|---|---|
| GPT-4o | OpenAI 旗舰多模态 | 综合能力第一梯队 |
| GPT-4o-mini | 极速便宜版 | 性价比极高 |
| Claude 3.5 Sonnet / Haiku | Anthropic 旗下 | 写作、长文、代码强 |
| Gemini 1.5 Pro / Flash | Google 旗下 | 长上下文 + 多模态 |
⚠️ 国内版(coze.cn)用不了 GPT/Claude/Gemini。如果业务必须,请用国际版(需要科学上网)。
三、按场景选模型——8 个最常见场景
下面是普通人最常遇到的 8 个 Coze 使用场景,直接抄作业。
场景 1:闲聊 / 客服回复 / FAQ 问答
首选:豆包 Lite
理由:响应快、便宜、对话自然。FAQ 这种重复性高的场景完全不需要旗舰模型。
场景 2:内容创作(标题、文案、口播稿)
首选:豆包 1.5 Pro
理由:豆包训练数据里中文社交媒体内容多,"语感"更接地气。比 DeepSeek 写出来的文案更"小红书"。
场景 3:写代码 / 写正则 / 写 SQL
首选:DeepSeek-V3
理由:DeepSeek 的代码训练量大,且开源版口碑好。写 Python、SQL、正则比豆包稳。
场景 4:复杂推理 / 数学 / 多步逻辑
首选:DeepSeek-R1 或 豆包 1.5 Thinking
理由:这两款都是"推理增强型",会先输出思考过程再给答案。适合"有 5 个客户、3 种产品、按规则匹配最优方案"这种题。
场景 5:读图、读截图、读 PPT 截屏、看流程图
首选:豆包 1.5 Vision
理由:国内版 Vision 模型里,豆包对中文图片的识别(图表、截屏、表格)表现最好。
场景 6:调用插件(工作流里的 LLM 节点要调用工具)
首选:豆包 function-call 版本,或 DeepSeek-V3
理由:function-call 是"专门训练过调用工具"的版本,输出 JSON 更稳;DeepSeek-V3 在扣子里也调用得很顺。
场景 7:超长文档(一次读 100 页 PDF)
首选:Kimi(如果可用),其次 豆包 Pro 长上下文版
理由:Kimi 200K 上下文是为这个场景生的。豆包 Pro 也支持 32K-128K,但价格更高。
场景 8:海外业务、英文创作、调用国际 API
首选(必选国际版):GPT-4o(综合)/ Claude 3.5 Sonnet(长文)/ Gemini 1.5 Flash(极速)
理由:英文场景下,豆包/DeepSeek 不如 GPT/Claude 自然。
四、按预算选——三套省钱组合
普通人最关心的是"会不会一不小心烧很多钱"。Coze 国内版普通使用基本免费,但如果你做了一个流量比较大的 Bot,下面三套组合能帮你省 60% 以上。
组合 A:完全免费党(个人玩、给家人朋友用)
意图分类节点 → 豆包 Lite
内容生成节点 → 豆包 Lite
插件调用节点 → 豆包 Lite
月成本:通常 0 元(个人免费额度足够)。 适合:< 100 人/天的低频 Bot。
组合 B:性价比党(轻量副业 / 小红书账号助手)
意图分类节点 → 豆包 Lite (快+省)
内容生成节点 → 豆包 1.5 Pro (好)
长文摘要节点 → DeepSeek-V3 (好+稳)
月成本:30–200 元(取决于流量)。 适合:100–5000 人/天的小型副业 Bot。
组合 C:质量优先党(企业内部用 / 客户付费 SaaS)
意图分类节点 → 豆包 Lite (快+省)
推理决策节点 → DeepSeek-R1 (强逻辑)
内容生成节点 → 豆包 1.5 Pro (高质量)
看图节点 → 豆包 1.5 Vision (多模态)
月成本:300–3000 元,按需扩缩。 适合:客户付费场景、对质量敏感。
核心原则:便宜模型负责"分流和判断",贵模型负责"最终输出"。一个工作流里同时用 2-4 个不同模型是常态。
五、模型参数怎么调(新手只调这一个)
每个模型在 Coze 里都有 3 个参数:
| 参数 | 中文名 | 默认 | 调高会怎样 | 调低会怎样 |
|---|---|---|---|---|
| Temperature | 回复多样性 | 1.0 | 更有创意,但也更不稳定 | 更稳定保守,但容易重复 |
| Top P | 核采样 | 0.7 | 候选词更多,更"放飞" | 候选词更少,更"保守" |
| Max Tokens | 最大回复长度 | 4096 | 输出更长 | 输出更短,省钱 |
新手建议:
- 创作类(标题、文案、故事):Temperature 调到 1.0–1.3。
- 客服 / 分类 / 决策类:Temperature 调到 0.2–0.5(要稳定)。
- 代码 / 逻辑类:Temperature 调到 0.0–0.3(要确定)。
- Top P 和 Max Tokens 一律保持默认,不需要动。
只调 Temperature 一个参数,能解决你 80% 的"输出不稳定"问题。
六、模型对比小测试(5 分钟自己跑)
挑一个你最常用的场景,用同一个提示词,分别在 3 个模型上跑一次,自己看哪个好。
举例:
提示词:用 100 字以内介绍"什么是 Coze",给一个完全不懂的小白看。
分别在豆包 Pro / DeepSeek-V3 / Kimi 上跑,对比:
- 哪个用词最易懂?
- 哪个最贴近小白视角?
- 哪个 Token 最少(看右下角的 Token 计数)?
- 哪个响应最快?
跑完你会有一个"自己的模型偏好",比看任何评测都靠谱。
七、模型升级 / 切换时的 3 条铁律
模型每个月都会更新。在 Coze 里换模型时,记住三条:
铁律 1:先复制 Bot 再换模型
不要直接在线上 Bot 上换。先复制一份测试版,新版跑稳定了再替换线上版。
铁律 2:换模型后必须重测
不同模型对同一个提示词的"理解角度"不同。换完一定要把"调试样例库"跑一遍。
铁律 3:旧模型至少多保留 7 天
万一新模型不稳定,能立刻回滚。Coze 历史版本会保留,但保险起见自己也存一份提示词到本地。
八、模型相关的 8 个常见问题
Q1:豆包 Pro 和 DeepSeek-V3 到底哪个更聪明?
没有谁绝对更聪明。豆包语感更"接地气",DeepSeek 在数学、代码、英文上略胜一筹。中文创作选豆包 Pro,逻辑代码选 DeepSeek。
Q2:DeepSeek-R1 比 V3 强多少?
R1 强在"复杂推理"——它会先思考再回答。但慢 5–10 倍、贵 2–3 倍。只在必要时用。日常对话用 V3 就够。
Q3:豆包 Lite 是不是垃圾,不该用?
完全不是。Lite 在 90% 的"分类、判断、简短回复"场景下都够用,而且便宜 10 倍、快 5 倍。它是工作流的"幕后英雄"。
Q4:扣子免费额度够用吗?
个人玩完全够。一般个人账户每月有几十万 Token 的免费额度,重度玩一两个月才会用完。如果做的 Bot 用户量大,就要充值或开企业版。
Q5:换模型时,Bot 的对话历史会丢吗?
不会。模型只是"大脑替换",知识库、提示词、工作流、对话上下文都保留。
Q6:能不能让一个 Bot 同时用多个模型?
能! 在工作流里,每个 LLM 节点都能选不同模型。"分类节点用 Lite,生成节点用 Pro" 就是这么实现的。
Q7:国际版的 GPT 真的比国内版更聪明吗?
英文场景:是的,GPT 还有微弱优势。 中文场景:豆包 Pro 已经追平甚至反超 GPT-4o。中文用户没必要为了"GPT 光环"折腾科学上网。
Q8:Coze 模型会不会突然下架 / 收费?
平台会给至少 30 天通知。建议关注扣子官方公众号"扣子 Coze"。
九、一图选型表(请截图保存)
┌──────────────────────────────────────────────────────────────┐
│ 我的场景是… │
├──────────────────────────────────────────────────────────────┤
│ 闲聊 / 客服回复 / FAQ → 豆包 Lite │
│ 写文案 / 标题 / 文章 → 豆包 1.5 Pro │
│ 写代码 / SQL / 正则 → DeepSeek-V3 │
│ 复杂推理 / 数学 / 多步决策 → DeepSeek-R1 / 豆包 Thinking │
│ 看图 / 截图 / PPT 解析 → 豆包 1.5 Vision │
│ 工作流里调用插件 → 豆包 function-call / DeepSeek │
│ 一次读 100 页 PDF → Kimi(200K 上下文) │
│ 海外业务 / 英文写作 / 国际 API → GPT-4o / Claude 3.5(国际版) │
├──────────────────────────────────────────────────────────────┤
│ 我的预算是… │
├──────────────────────────────────────────────────────────────┤
│ 0 元 / 个人玩 → 全部用 豆包 Lite │
│ 200 元/月以内 → Lite + Pro 组合 │
│ 不限预算 / 客户付费 → Lite + R1 + Pro + Vision │
└──────────────────────────────────────────────────────────────┘
十、本章一图回顾
"模型不是越贵越好,是越合适越好"
→ 分类 / 判断 → 用便宜模型(豆包 Lite)
→ 生成 / 创意 → 用旗舰模型(豆包 Pro / DeepSeek-V3)
→ 推理 / 决策 → 用推理模型(DeepSeek-R1 / 豆包 Thinking)
→ 看图 / 多模态 → 用 Vision(豆包 Vision)
→ 长文档 → 用 Kimi
→ 国际 → 用国际版(GPT / Claude)
工作流里:便宜模型分流 + 贵模型生成 = 最佳组合
十一、避坑清单
- ❌ 别盲目追新。新模型不一定适合你的场景,先测再换。
- ❌ 别一个 Bot 全用旗舰模型。85% 节点用 Lite 也不会变差,但能省 70% 钱。
- ❌ 别忘了关注 Token 消耗。在工作流"试运行"窗口能看到每次的 Token 数,心中要有数。
- ❌ 别在创作场景调低 Temperature。低 T 会让所有标题/文案变得一模一样。
- ❌ 别为了"用 GPT" 而去翻墙。国内中文场景豆包已经够用,且免费。
十二、下一步
模型选好了,但模型再聪明,也只能听懂你说的话。下一章我们就要学如何"和模型好好说话"——也就是提示词工程(Prompt Engineering)。
请翻 第四章 写好提示词。