ORANGE BOOK · COZE

第三章 选对大模型

一、为什么模型选错会很惨

真实案例:林姐的"翻车"

林姐做的"客服分拣员"上线第一周用的是豆包 Lite,效果挺好。第二周公司说"上 DeepSeek-R1,听说更聪明",她换上去——结果:

  • 单次响应从 1.5 秒变成 18 秒(用户等到把页面关了);
  • Token 消耗翻了 7 倍(财务部门发邮件来问);
  • 准确率反而下降了(因为 R1 会"想太多",把简单分类问题当成了哲学题)。

她又换回 Lite,问题瞬间解决。

这就是模型选错的代价:慢、贵、还不一定准。

一句话原理

模型不是越贵越好,是越合适越好。

选模型的核心问题不是"它有多聪明",而是"它有没有比你需要的更聪明"——多出的那部分聪明,全是你为它付的钱和等的时间。

二、扣子(国内版)目前能用的模型清单

截至 2026 年 4 月,扣子里的主流模型大致分这几类(Coze 的模型列表会随时更新,但下面这几个家族会长期存在):

1. 豆包系列(字节自家,本书首推)

模型 定位 特长 速度 价格
豆包·1.5·Pro 旗舰版 综合最强、中文最自然
豆包·1.5·Lite 极速版 快、便宜 极快 极低
豆包·1.5·Vision 多模态 看图、读截图、解析图表 中高
豆包·1.5·Thinking 深度思考 推理、数学、逻辑链
豆包·function-call 工具调用专版 调用插件最稳、JSON 输出最准

记忆口诀:

Pro 全能,Lite 极速,Vision 看图,Thinking 推理,function-call 调工具。

2. DeepSeek 系列(Coze 已深度集成)

DeepSeek 在 2025 年初横空出世,扣子里也接入了全家桶,并且独家支持 DeepSeek 的工具调用(就是说在扣子里 DeepSeek 也能用插件,这在其他平台还做不到)。

模型 定位 特长 速度 价格
DeepSeek-V3 综合版 通用对话、写作、代码
DeepSeek-R1 深度推理 数学、逻辑、复杂决策

R1 的特点是会思考再回答——你能看到它的"思考过程"。但缺点是慢、贵、容易"想太多"。

3. 通义千问系列(阿里)

扣子里也有,但不是首推。在以下场景才用:

  • 你团队已经在用阿里云生态(钉钉、阿里云文档),需要打通。
  • 你做的是面向企业的 SaaS,企业指定用千问。

4. Kimi(月之暗面)

主打超长上下文(128K/200K)。如果你要让 Bot 一次读完一本 200 页的 PDF,Kimi 是最佳选择之一。

5. 国际版(coze.com)独占

模型 定位 备注
GPT-4o OpenAI 旗舰多模态 综合能力第一梯队
GPT-4o-mini 极速便宜版 性价比极高
Claude 3.5 Sonnet / Haiku Anthropic 旗下 写作、长文、代码强
Gemini 1.5 Pro / Flash Google 旗下 长上下文 + 多模态

⚠️ 国内版(coze.cn)用不了 GPT/Claude/Gemini。如果业务必须,请用国际版(需要科学上网)。

三、按场景选模型——8 个最常见场景

下面是普通人最常遇到的 8 个 Coze 使用场景,直接抄作业

场景 1:闲聊 / 客服回复 / FAQ 问答

首选:豆包 Lite

理由:响应快、便宜、对话自然。FAQ 这种重复性高的场景完全不需要旗舰模型

场景 2:内容创作(标题、文案、口播稿)

首选:豆包 1.5 Pro

理由:豆包训练数据里中文社交媒体内容多,"语感"更接地气。比 DeepSeek 写出来的文案更"小红书"。

场景 3:写代码 / 写正则 / 写 SQL

首选:DeepSeek-V3

理由:DeepSeek 的代码训练量大,且开源版口碑好。写 Python、SQL、正则比豆包稳。

场景 4:复杂推理 / 数学 / 多步逻辑

首选:DeepSeek-R1 或 豆包 1.5 Thinking

理由:这两款都是"推理增强型",会先输出思考过程再给答案。适合"有 5 个客户、3 种产品、按规则匹配最优方案"这种题。

场景 5:读图、读截图、读 PPT 截屏、看流程图

首选:豆包 1.5 Vision

理由:国内版 Vision 模型里,豆包对中文图片的识别(图表、截屏、表格)表现最好。

场景 6:调用插件(工作流里的 LLM 节点要调用工具)

首选:豆包 function-call 版本,或 DeepSeek-V3

理由:function-call 是"专门训练过调用工具"的版本,输出 JSON 更稳;DeepSeek-V3 在扣子里也调用得很顺。

场景 7:超长文档(一次读 100 页 PDF)

首选:Kimi(如果可用),其次 豆包 Pro 长上下文版

理由:Kimi 200K 上下文是为这个场景生的。豆包 Pro 也支持 32K-128K,但价格更高。

场景 8:海外业务、英文创作、调用国际 API

首选(必选国际版):GPT-4o(综合)/ Claude 3.5 Sonnet(长文)/ Gemini 1.5 Flash(极速)

理由:英文场景下,豆包/DeepSeek 不如 GPT/Claude 自然。

四、按预算选——三套省钱组合

普通人最关心的是"会不会一不小心烧很多钱"。Coze 国内版普通使用基本免费,但如果你做了一个流量比较大的 Bot,下面三套组合能帮你省 60% 以上。

组合 A:完全免费党(个人玩、给家人朋友用)

意图分类节点 → 豆包 Lite
内容生成节点 → 豆包 Lite
插件调用节点 → 豆包 Lite

月成本:通常 0 元(个人免费额度足够)。 适合:< 100 人/天的低频 Bot。

组合 B:性价比党(轻量副业 / 小红书账号助手)

意图分类节点 → 豆包 Lite      (快+省)
内容生成节点 → 豆包 1.5 Pro   (好)
长文摘要节点 → DeepSeek-V3    (好+稳)

月成本:30–200 元(取决于流量)。 适合:100–5000 人/天的小型副业 Bot。

组合 C:质量优先党(企业内部用 / 客户付费 SaaS)

意图分类节点 → 豆包 Lite        (快+省)
推理决策节点 → DeepSeek-R1      (强逻辑)
内容生成节点 → 豆包 1.5 Pro     (高质量)
看图节点    → 豆包 1.5 Vision  (多模态)

月成本:300–3000 元,按需扩缩。 适合:客户付费场景、对质量敏感。

核心原则便宜模型负责"分流和判断",贵模型负责"最终输出"。一个工作流里同时用 2-4 个不同模型是常态。

五、模型参数怎么调(新手只调这一个)

每个模型在 Coze 里都有 3 个参数:

参数 中文名 默认 调高会怎样 调低会怎样
Temperature 回复多样性 1.0 更有创意,但也更不稳定 更稳定保守,但容易重复
Top P 核采样 0.7 候选词更多,更"放飞" 候选词更少,更"保守"
Max Tokens 最大回复长度 4096 输出更长 输出更短,省钱

新手建议

  • 创作类(标题、文案、故事):Temperature 调到 1.0–1.3。
  • 客服 / 分类 / 决策类:Temperature 调到 0.2–0.5(要稳定)。
  • 代码 / 逻辑类:Temperature 调到 0.0–0.3(要确定)。
  • Top PMax Tokens 一律保持默认,不需要动。

只调 Temperature 一个参数,能解决你 80% 的"输出不稳定"问题。

六、模型对比小测试(5 分钟自己跑)

挑一个你最常用的场景,用同一个提示词,分别在 3 个模型上跑一次,自己看哪个好。

举例:

提示词:用 100 字以内介绍"什么是 Coze",给一个完全不懂的小白看。

分别在豆包 Pro / DeepSeek-V3 / Kimi 上跑,对比:

  1. 哪个用词最易懂?
  2. 哪个最贴近小白视角?
  3. 哪个 Token 最少(看右下角的 Token 计数)?
  4. 哪个响应最快?

跑完你会有一个"自己的模型偏好",比看任何评测都靠谱。

七、模型升级 / 切换时的 3 条铁律

模型每个月都会更新。在 Coze 里换模型时,记住三条:

铁律 1:先复制 Bot 再换模型

不要直接在线上 Bot 上换。先复制一份测试版,新版跑稳定了再替换线上版。

铁律 2:换模型后必须重测

不同模型对同一个提示词的"理解角度"不同。换完一定要把"调试样例库"跑一遍。

铁律 3:旧模型至少多保留 7 天

万一新模型不稳定,能立刻回滚。Coze 历史版本会保留,但保险起见自己也存一份提示词到本地。

八、模型相关的 8 个常见问题

Q1:豆包 Pro 和 DeepSeek-V3 到底哪个更聪明?

没有谁绝对更聪明。豆包语感更"接地气",DeepSeek 在数学、代码、英文上略胜一筹。中文创作选豆包 Pro,逻辑代码选 DeepSeek。

Q2:DeepSeek-R1 比 V3 强多少?

R1 强在"复杂推理"——它会先思考再回答。但慢 5–10 倍、贵 2–3 倍。只在必要时用。日常对话用 V3 就够。

Q3:豆包 Lite 是不是垃圾,不该用?

完全不是。Lite 在 90% 的"分类、判断、简短回复"场景下都够用,而且便宜 10 倍、快 5 倍。它是工作流的"幕后英雄"。

Q4:扣子免费额度够用吗?

个人玩完全够。一般个人账户每月有几十万 Token 的免费额度,重度玩一两个月才会用完。如果做的 Bot 用户量大,就要充值或开企业版。

Q5:换模型时,Bot 的对话历史会丢吗?

不会。模型只是"大脑替换",知识库、提示词、工作流、对话上下文都保留。

Q6:能不能让一个 Bot 同时用多个模型?

能! 在工作流里,每个 LLM 节点都能选不同模型。"分类节点用 Lite,生成节点用 Pro" 就是这么实现的。

Q7:国际版的 GPT 真的比国内版更聪明吗?

英文场景:是的,GPT 还有微弱优势。 中文场景:豆包 Pro 已经追平甚至反超 GPT-4o。中文用户没必要为了"GPT 光环"折腾科学上网。

Q8:Coze 模型会不会突然下架 / 收费?

平台会给至少 30 天通知。建议关注扣子官方公众号"扣子 Coze"。

九、一图选型表(请截图保存)

┌──────────────────────────────────────────────────────────────┐
│                    我的场景是…                                  │
├──────────────────────────────────────────────────────────────┤
│ 闲聊 / 客服回复 / FAQ          → 豆包 Lite                     │
│ 写文案 / 标题 / 文章           → 豆包 1.5 Pro                  │
│ 写代码 / SQL / 正则            → DeepSeek-V3                   │
│ 复杂推理 / 数学 / 多步决策      → DeepSeek-R1 / 豆包 Thinking   │
│ 看图 / 截图 / PPT 解析          → 豆包 1.5 Vision               │
│ 工作流里调用插件                → 豆包 function-call / DeepSeek │
│ 一次读 100 页 PDF              → Kimi(200K 上下文)            │
│ 海外业务 / 英文写作 / 国际 API  → GPT-4o / Claude 3.5(国际版)  │
├──────────────────────────────────────────────────────────────┤
│                    我的预算是…                                  │
├──────────────────────────────────────────────────────────────┤
│ 0 元 / 个人玩                  → 全部用 豆包 Lite              │
│ 200 元/月以内                   → Lite + Pro 组合              │
│ 不限预算 / 客户付费             → Lite + R1 + Pro + Vision     │
└──────────────────────────────────────────────────────────────┘

十、本章一图回顾

"模型不是越贵越好,是越合适越好"

→  分类 / 判断 → 用便宜模型(豆包 Lite)
→  生成 / 创意 → 用旗舰模型(豆包 Pro / DeepSeek-V3)
→  推理 / 决策 → 用推理模型(DeepSeek-R1 / 豆包 Thinking)
→  看图 / 多模态 → 用 Vision(豆包 Vision)
→  长文档 → 用 Kimi
→  国际 → 用国际版(GPT / Claude)

工作流里:便宜模型分流 + 贵模型生成 = 最佳组合

十一、避坑清单

  • ❌ 别盲目追新。新模型不一定适合你的场景,先测再换。
  • ❌ 别一个 Bot 全用旗舰模型。85% 节点用 Lite 也不会变差,但能省 70% 钱。
  • ❌ 别忘了关注 Token 消耗。在工作流"试运行"窗口能看到每次的 Token 数,心中要有数
  • ❌ 别在创作场景调低 Temperature。低 T 会让所有标题/文案变得一模一样。
  • ❌ 别为了"用 GPT" 而去翻墙。国内中文场景豆包已经够用,且免费

十二、下一步

模型选好了,但模型再聪明,也只能听懂你说的话。下一章我们就要学如何"和模型好好说话"——也就是提示词工程(Prompt Engineering)

请翻 第四章 写好提示词