选对大模型 · Coze 橙皮书

一、为什么模型选错会很惨

真实案例：林姐的"翻车"

林姐做的"客服分拣员"上线第一周用的是豆包 Lite，效果挺好。第二周公司说"上 DeepSeek-R1，听说更聪明"，她换上去——结果：

单次响应从 1.5 秒变成 18 秒（用户等到把页面关了）；
Token 消耗翻了 7 倍（财务部门发邮件来问）；
准确率反而下降了（因为 R1 会"想太多"，把简单分类问题当成了哲学题）。

她又换回 Lite，问题瞬间解决。

这就是模型选错的代价：慢、贵、还不一定准。

一句话原理

模型不是越贵越好，是越合适越好。

选模型的核心问题不是"它有多聪明"，而是"它有没有比你需要的更聪明"——多出的那部分聪明，全是你为它付的钱和等的时间。

二、扣子（国内版）目前能用的模型清单

截至 2026 年 4 月，扣子里的主流模型大致分这几类（Coze 的模型列表会随时更新，但下面这几个家族会长期存在）：

1. 豆包系列（字节自家，本书首推）

模型	定位	特长	速度	价格
豆包·1.5·Pro	旗舰版	综合最强、中文最自然	中	中
豆包·1.5·Lite	极速版	快、便宜	极快	极低
豆包·1.5·Vision	多模态	看图、读截图、解析图表	中	中高
豆包·1.5·Thinking	深度思考	推理、数学、逻辑链	慢	高
豆包·function-call	工具调用专版	调用插件最稳、JSON 输出最准	中	中

记忆口诀：

Pro 全能，Lite 极速，Vision 看图，Thinking 推理，function-call 调工具。

2. DeepSeek 系列（Coze 已深度集成）

DeepSeek 在 2025 年初横空出世，扣子里也接入了全家桶，并且独家支持 DeepSeek 的工具调用（就是说在扣子里 DeepSeek 也能用插件，这在其他平台还做不到）。

模型	定位	特长	速度	价格
DeepSeek-V3	综合版	通用对话、写作、代码	快	低
DeepSeek-R1	深度推理	数学、逻辑、复杂决策	慢	中

R1 的特点是会思考再回答——你能看到它的"思考过程"。但缺点是慢、贵、容易"想太多"。

3. 通义千问系列（阿里）

扣子里也有，但不是首推。在以下场景才用：

你团队已经在用阿里云生态（钉钉、阿里云文档），需要打通。
你做的是面向企业的 SaaS，企业指定用千问。

4. Kimi（月之暗面）

主打超长上下文（128K/200K）。如果你要让 Bot 一次读完一本 200 页的 PDF，Kimi 是最佳选择之一。

5. 国际版（coze.com）独占

模型	定位	备注
GPT-4o	OpenAI 旗舰多模态	综合能力第一梯队
GPT-4o-mini	极速便宜版	性价比极高
Claude 3.5 Sonnet / Haiku	Anthropic 旗下	写作、长文、代码强
Gemini 1.5 Pro / Flash	Google 旗下	长上下文 + 多模态

⚠️ 国内版（coze.cn）用不了 GPT/Claude/Gemini。如果业务必须，请用国际版（需要科学上网）。

三、按场景选模型——8 个最常见场景

下面是普通人最常遇到的 8 个 Coze 使用场景，直接抄作业。

场景 1：闲聊 / 客服回复 / FAQ 问答

首选：豆包 Lite

理由：响应快、便宜、对话自然。FAQ 这种重复性高的场景完全不需要旗舰模型。

场景 2：内容创作（标题、文案、口播稿）

首选：豆包 1.5 Pro

理由：豆包训练数据里中文社交媒体内容多，"语感"更接地气。比 DeepSeek 写出来的文案更"小红书"。

场景 3：写代码 / 写正则 / 写 SQL

首选：DeepSeek-V3

理由：DeepSeek 的代码训练量大，且开源版口碑好。写 Python、SQL、正则比豆包稳。

场景 4：复杂推理 / 数学 / 多步逻辑

首选：DeepSeek-R1 或豆包 1.5 Thinking

理由：这两款都是"推理增强型"，会先输出思考过程再给答案。适合"有 5 个客户、3 种产品、按规则匹配最优方案"这种题。

场景 5：读图、读截图、读 PPT 截屏、看流程图

首选：豆包 1.5 Vision

理由：国内版 Vision 模型里，豆包对中文图片的识别（图表、截屏、表格）表现最好。

场景 6：调用插件（工作流里的 LLM 节点要调用工具）

首选：豆包 function-call 版本，或 DeepSeek-V3

理由：function-call 是"专门训练过调用工具"的版本，输出 JSON 更稳；DeepSeek-V3 在扣子里也调用得很顺。

场景 7：超长文档（一次读 100 页 PDF）

首选：Kimi（如果可用），其次豆包 Pro 长上下文版

理由：Kimi 200K 上下文是为这个场景生的。豆包 Pro 也支持 32K-128K，但价格更高。

场景 8：海外业务、英文创作、调用国际 API

首选（必选国际版）：GPT-4o（综合）/ Claude 3.5 Sonnet（长文）/ Gemini 1.5 Flash（极速）

理由：英文场景下，豆包/DeepSeek 不如 GPT/Claude 自然。

四、按预算选——三套省钱组合

普通人最关心的是"会不会一不小心烧很多钱"。Coze 国内版普通使用基本免费，但如果你做了一个流量比较大的 Bot，下面三套组合能帮你省 60% 以上。

组合 A：完全免费党（个人玩、给家人朋友用）

意图分类节点 → 豆包 Lite
内容生成节点 → 豆包 Lite
插件调用节点 → 豆包 Lite

月成本：通常 0 元（个人免费额度足够）。适合：< 100 人/天的低频 Bot。

组合 B：性价比党（轻量副业 / 小红书账号助手）

意图分类节点 → 豆包 Lite      （快+省）
内容生成节点 → 豆包 1.5 Pro   （好）
长文摘要节点 → DeepSeek-V3    （好+稳）

月成本：30–200 元（取决于流量）。适合：100–5000 人/天的小型副业 Bot。

组合 C：质量优先党（企业内部用 / 客户付费 SaaS）

意图分类节点 → 豆包 Lite        （快+省）
推理决策节点 → DeepSeek-R1      （强逻辑）
内容生成节点 → 豆包 1.5 Pro     （高质量）
看图节点    → 豆包 1.5 Vision  （多模态）

月成本：300–3000 元，按需扩缩。适合：客户付费场景、对质量敏感。

核心原则：便宜模型负责"分流和判断"，贵模型负责"最终输出"。一个工作流里同时用 2-4 个不同模型是常态。

五、模型参数怎么调（新手只调这一个）

每个模型在 Coze 里都有 3 个参数：

参数	中文名	默认	调高会怎样	调低会怎样
Temperature	回复多样性	1.0	更有创意，但也更不稳定	更稳定保守，但容易重复
Top P	核采样	0.7	候选词更多，更"放飞"	候选词更少，更"保守"
Max Tokens	最大回复长度	4096	输出更长	输出更短，省钱

新手建议：

创作类（标题、文案、故事）：Temperature 调到 1.0–1.3。
客服 / 分类 / 决策类：Temperature 调到 0.2–0.5（要稳定）。
代码 / 逻辑类：Temperature 调到 0.0–0.3（要确定）。
Top P 和 Max Tokens 一律保持默认，不需要动。

只调 Temperature 一个参数，能解决你 80% 的"输出不稳定"问题。

六、模型对比小测试（5 分钟自己跑）

挑一个你最常用的场景，用同一个提示词，分别在 3 个模型上跑一次，自己看哪个好。

举例：

提示词：用 100 字以内介绍"什么是 Coze"，给一个完全不懂的小白看。

分别在豆包 Pro / DeepSeek-V3 / Kimi 上跑，对比：

哪个用词最易懂？
哪个最贴近小白视角？
哪个 Token 最少（看右下角的 Token 计数）？
哪个响应最快？

跑完你会有一个"自己的模型偏好"，比看任何评测都靠谱。

七、模型升级 / 切换时的 3 条铁律

模型每个月都会更新。在 Coze 里换模型时，记住三条：

铁律 1：先复制 Bot 再换模型

不要直接在线上 Bot 上换。先复制一份测试版，新版跑稳定了再替换线上版。

铁律 2：换模型后必须重测

不同模型对同一个提示词的"理解角度"不同。换完一定要把"调试样例库"跑一遍。

铁律 3：旧模型至少多保留 7 天

万一新模型不稳定，能立刻回滚。Coze 历史版本会保留，但保险起见自己也存一份提示词到本地。

八、模型相关的 8 个常见问题

Q1：豆包 Pro 和 DeepSeek-V3 到底哪个更聪明？

没有谁绝对更聪明。豆包语感更"接地气"，DeepSeek 在数学、代码、英文上略胜一筹。中文创作选豆包 Pro，逻辑代码选 DeepSeek。

Q2：DeepSeek-R1 比 V3 强多少？

R1 强在"复杂推理"——它会先思考再回答。但慢 5–10 倍、贵 2–3 倍。只在必要时用。日常对话用 V3 就够。

Q3：豆包 Lite 是不是垃圾，不该用？

完全不是。Lite 在 90% 的"分类、判断、简短回复"场景下都够用，而且便宜 10 倍、快 5 倍。它是工作流的"幕后英雄"。

Q4：扣子免费额度够用吗？

个人玩完全够。一般个人账户每月有几十万 Token 的免费额度，重度玩一两个月才会用完。如果做的 Bot 用户量大，就要充值或开企业版。

Q5：换模型时，Bot 的对话历史会丢吗？

不会。模型只是"大脑替换"，知识库、提示词、工作流、对话上下文都保留。

Q6：能不能让一个 Bot 同时用多个模型？

能！在工作流里，每个 LLM 节点都能选不同模型。"分类节点用 Lite，生成节点用 Pro" 就是这么实现的。

Q7：国际版的 GPT 真的比国内版更聪明吗？

英文场景：是的，GPT 还有微弱优势。 中文场景：豆包 Pro 已经追平甚至反超 GPT-4o。中文用户没必要为了"GPT 光环"折腾科学上网。

Q8：Coze 模型会不会突然下架 / 收费？

平台会给至少 30 天通知。建议关注扣子官方公众号"扣子 Coze"。

九、一图选型表（请截图保存）

┌──────────────────────────────────────────────────────────────┐
│                    我的场景是…                                  │
├──────────────────────────────────────────────────────────────┤
│ 闲聊 / 客服回复 / FAQ          → 豆包 Lite                     │
│ 写文案 / 标题 / 文章           → 豆包 1.5 Pro                  │
│ 写代码 / SQL / 正则            → DeepSeek-V3                   │
│ 复杂推理 / 数学 / 多步决策      → DeepSeek-R1 / 豆包 Thinking   │
│ 看图 / 截图 / PPT 解析          → 豆包 1.5 Vision               │
│ 工作流里调用插件                → 豆包 function-call / DeepSeek │
│ 一次读 100 页 PDF              → Kimi（200K 上下文）            │
│ 海外业务 / 英文写作 / 国际 API  → GPT-4o / Claude 3.5（国际版）  │
├──────────────────────────────────────────────────────────────┤
│                    我的预算是…                                  │
├──────────────────────────────────────────────────────────────┤
│ 0 元 / 个人玩                  → 全部用 豆包 Lite              │
│ 200 元/月以内                   → Lite + Pro 组合              │
│ 不限预算 / 客户付费             → Lite + R1 + Pro + Vision     │
└──────────────────────────────────────────────────────────────┘

十、本章一图回顾

"模型不是越贵越好，是越合适越好"

→  分类 / 判断 → 用便宜模型（豆包 Lite）
→  生成 / 创意 → 用旗舰模型（豆包 Pro / DeepSeek-V3）
→  推理 / 决策 → 用推理模型（DeepSeek-R1 / 豆包 Thinking）
→  看图 / 多模态 → 用 Vision（豆包 Vision）
→  长文档 → 用 Kimi
→  国际 → 用国际版（GPT / Claude）

工作流里：便宜模型分流 + 贵模型生成 = 最佳组合

十一、避坑清单

❌ 别盲目追新。新模型不一定适合你的场景，先测再换。
❌ 别一个 Bot 全用旗舰模型。85% 节点用 Lite 也不会变差，但能省 70% 钱。
❌ 别忘了关注 Token 消耗。在工作流"试运行"窗口能看到每次的 Token 数，心中要有数。
❌ 别在创作场景调低 Temperature。低 T 会让所有标题/文案变得一模一样。
❌ 别为了"用 GPT" 而去翻墙。国内中文场景豆包已经够用，且免费。

十二、下一步

模型选好了，但模型再聪明，也只能听懂你说的话。下一章我们就要学如何"和模型好好说话"——也就是提示词工程（Prompt Engineering）。

请翻第四章写好提示词。