ORANGE BOOK · COZE

第五章 知识库让 Bot 有专属大脑

一、为什么需要知识库

一个真实困境

你做了一个客服 Bot,问它:"我们的 7 天无理由退货政策是什么?"

它回答:

"通常电商平台的 7 天无理由退货是指……"

它根本不知道"我们公司"的政策! 它在用通用知识应付你。

如果你公司其实是 15 天无理由,规则还有 3 条特殊条款,模型不会凭空知道。给客户错答案,损失就大了。

解决方案:把私域知识"喂"给 Bot

        ┌──────────────────┐
        │  你的私域知识     │
        │  - 产品手册       │
        │  - 客服 SOP       │
        │  - 公司政策       │
        │  - 个人笔记       │
        │  - FAQ           │
        └────────┬─────────┘
                 ↓ 上传到 Coze
        ┌──────────────────┐
        │     知识库        │
        └────────┬─────────┘
                 ↓ 绑定到 Bot
        ┌──────────────────┐
        │  Bot 回答前先查    │
        │  知识库           │
        └──────────────────┘
                 ↓
        基于"你的"知识回答,准确率飙升

这套机制有个洋气的名字叫 RAG(Retrieval-Augmented Generation,检索增强生成)。你不需要懂这个词,记住"知识库"三个字就够了。

二、Coze 知识库的 4 种类型

打开 Coze 工作空间,左侧菜单 → 「资源库」→「知识库」→「+ 创建知识库」,会看到 4 种类型:

类型 1:文本(最常用)

适合:

  • PDF(产品手册、合同、论文)
  • Word / TXT / MD(公司 SOP、个人笔记)
  • 网页 URL(在线文档、博客)

特点:上传后会被切成"片段"(chunk),按语义检索。

类型 2:表格

适合:

  • Excel / CSV
  • 商品价目表、员工通讯录、订单数据

特点:按字段精确查询。例如可以问"客户 ID 12345 的下单时间"。

类型 3:图片

适合:

  • 产品图(带文字说明)
  • 截图归档

特点:能用 Vision 模型识别图片内容并检索。

类型 4:FAQ(结构化问答对)

适合:

  • 客服常见问题
  • 产品 Q&A

特点:每条是 "问题 + 答案" 的结构化对,召回准确率最高。

三、5 分钟做一个"产品知识库 Bot"(手把手)

我们做一个例子:给一款"小米空气净化器"做客服 Bot

第 1 步:准备知识源(30 秒)

随便找一份 PDF(不一定要真实产品手册,做演练用)。或者你也可以直接用本章末尾"附赠"的样例文本。

第 2 步:创建知识库(1 分钟)

  1. 左侧菜单 →「资源库」→「知识库」→「+ 创建知识库」。
  2. 类型选 「文本」
  3. 名称填:小米净化器知识库
  4. 描述填:包含产品规格、使用方法、保修政策、常见问题
  5. "创建"

第 3 步:上传文档(1 分钟)

  1. 进入刚创建的知识库,点 "+ 添加内容"
  2. "本地文档""在线网页"
  3. 把 PDF 拖进去,等上传完成。
  4. 等待"切片"完成(一般几十秒到几分钟,取决于文档大小)。

第 4 步:调切片参数(1 分钟,新手可跳过)

切片完成后,Coze 会按"段落 + 标点"自动切片,每片 500-800 字。新手保持默认即可

如果想精细调整:

  • 切片长度:500-1500 字之间。技术文档建议短一点,故事叙述类长一点。
  • 切片重叠:默认 50 字。重叠是为了让"切片边界处的语义不丢"。
  • 切片规则:默认按段落,可改成"按标题"或"自定义分隔符"。

第 5 步:绑定到 Bot(1 分钟)

  1. 进入你的客服 Bot 编辑页。
  2. 在右侧(或左侧)「技能」面板找到 「知识库」→「+ 添加」
  3. 勾选 小米净化器知识库,点 "确认"
  4. 在提示词里加一句强约束
# 知识库使用规则
- 用户问产品、保修、使用方法、规格相关问题时,必须先查知识库。
- 知识库里没有的内容,回答"我没找到相关信息,建议联系人工客服 400-xxx",不要瞎编。

第 6 步:测试

在右侧调试窗口问:

  • "请问 HEPA 滤芯多久换一次?"
  • "1 级能效是什么意思?"

如果 Bot 能给出准确答案 + 引用知识库片段,配置成功

四、不同类型知识库的实操技巧

技巧 1:文本知识库——结构化你的源文档

垃圾进,垃圾出(Garbage in, garbage out)。源文档质量决定 80% 的检索效果

好的源文档

  • 一篇文章只讲一个主题。
  • 用清晰的层级(H1 / H2 / H3)。
  • 每段不超过 500 字。
  • 有明确的术语定义。

坏的源文档

  • 一份 100 页的杂烩 PDF。
  • 全是图片没有文字(OCR 识别错误率高)。
  • 包含大量"对话记录"(聊天截图、群讨论)。
  • 包含敏感个人信息。

优化方法:花 30 分钟把源文档重新排版——加标题、删冗余、统一术语,召回效果立刻翻倍。

技巧 2:表格知识库——字段命名要清晰

如果你上传 Excel,列名一定要清晰

A, B, C订单编号, 客户姓名, 下单时间, 金额

清晰的列名让模型"看一眼就知道这个字段是干嘛的"。

技巧 3:FAQ 知识库——召回率最高的格式

FAQ 是 4 种里召回率最高的类型。如果你的场景是"客服 Q&A",强烈推荐用 FAQ。

格式:

Q: 物流多久能到?
A: 全国主要城市 3-5 个工作日,偏远地区 5-7 个工作日。

Q: 怎么申请退货?
A: 在订单详情页点"申请退货"按钮,按提示填写。

FAQ 的诀窍:把同一个问题用多种问法列出来。

Q: 物流多久能到?
Q: 几天能收到货?
Q: 发货后多久到?
A: 全国主要城市 3-5 个工作日……

这样无论用户怎么问,都能召回。

技巧 4:图片知识库——加好"图说"

图片知识库不是把图扔进去就完事。每张图必须配一段"文字描述"。模型靠文字描述检索,靠图片本身回答。

例如上传一张"产品包装图":

  • 图说:"小米米家空气净化器 4 包装实物图,正面为白色机身,顶部有 OLED 屏幕。"

五、召回调优:让 Bot 真的能"找对资料"

召回是什么?

召回(Recall)= Bot 在收到用户提问时,从知识库里"挑出"几条最相关片段,喂给模型作参考。

用户提问 → Coze 用语义匹配查知识库 → 返回 Top K 个片段 → 喂给模型 → 模型基于片段回答

调召回的核心参数有 3 个:

参数 1:召回数量(Top K)

默认 3 条。

  • 少(1-2):精准但可能漏。
  • 多(5-10):覆盖广但可能"信息过载"。

建议:FAQ 类用 2-3,文档类用 4-6。

参数 2:召回阈值(Score Threshold)

默认 0.5。

  • 高(0.7+):只召回非常相关的,宁可"找不到"也不"找错"。
  • 低(0.3):召回更多,宁可多也不漏。

建议:客服类用 0.6(要准),创意类用 0.4(要广)。

参数 3:召回方式(混合检索)

Coze 知识库支持 3 种检索方式:

  • 语义检索:理解意思(默认,最常用)。
  • 关键词检索:找精确匹配的词。
  • 混合检索:两个都用,加权融合(最准,但稍慢)。

建议:能用"混合检索"就用"混合",效果稳定。

调优 5 步法

  1. 先用默认参数跑 10 个测试问题,记录答对几个。
  2. 找出"答错的那几个",看是没召回到,还是召回到了但模型没用上。
  3. 没召回到 → 降低阈值 / 增加 Top K
  4. 召回到了但模型没用 → 提示词里强约束"必须基于知识库回答"
  5. 全部正确后再上线。

六、知识库的 6 种典型应用场景

场景 知识源示例 类型 推荐 Bot
企业客服 FAQ + 产品手册 FAQ + 文本 智能客服
个人笔记 AI 助手 飞书/Notion 笔记 文本 第二大脑
HR 政策问答 员工手册 文本 + FAQ HR 小助手
法律咨询 法条 + 案例库 文本 法律小助手(仅参考)
菜谱助手 家传菜谱 / 网络菜谱 文本 私房菜大厨
学习辅导 教科书 / 笔记 文本 学科辅导员

每一种我们都会在 第九章 生活场景实战第十章 工作场景实战 里有完整案例。

七、知识库的限制(必须知道)

限制 说明
单文档大小 一般 < 200 MB(按账号等级而定)
单知识库容量 个人版几百 MB ~ 几 GB
支持格式 PDF、DOC、TXT、MD、Excel、CSV、HTML、URL
不支持 视频、音频(要先转文字)、加密 PDF
更新频率 自动同步无(除非用 API 重新上传),需要手动更新
检索速度 通常 < 1 秒,超大知识库 1-3 秒

八、私域数据安全:5 条铁律

知识库里上传的可能是公司机密、个人隐私,安全比功能更重要。请遵守:

铁律 1:脱敏后再上传

  • 把员工身份证号、手机号、银行卡号删掉再上传。
  • 客户姓名可以保留首字 + 星号("张**")。

铁律 2:分级管理

  • 公开内容(产品介绍)→ 公共知识库。
  • 敏感内容(薪资、合同)→ 仅授权人可访问的知识库。

铁律 3:定期审计

每月看一次知识库里有没有"不该在那儿的内容"。

铁律 4:发布权限

发布到"扣子商店"前,必须确认知识库里没有任何内部信息。商店里的 Bot 可能被陌生人查询。

铁律 5:遇到要传"客户数据"的需求

  • 优先用"表格知识库" + 字段权限。
  • 数据量大、隐私强,建议走 API 接入企业内部数据库,而不是上传整张表。
  • 极端敏感场景,不要用云版 Coze,考虑自部署的 Dify 或本地大模型。

九、本章一图回顾

知识库 = 给 Bot 灌私域知识 = RAG(检索增强生成)

4 种类型:
   📄 文本   → PDF / Word / 网页(最常用)
   📊 表格   → Excel / CSV(精准查询)
   🖼️ 图片   → 带说明的图(多模态场景)
   ❓ FAQ   → 问答对(客服首选)

5 分钟流程:
   建知识库 → 上传文档 → 切片 → 绑 Bot → 提示词强约束 → 测试

调优 3 参数:
   Top K(召回数量)
   阈值(相关度)
   检索方式(语义 / 关键词 / 混合)

私域安全 5 铁律:
   脱敏 / 分级 / 审计 / 发布前清查 / 极敏感数据走 API

十、避坑清单

  • ❌ 别把"垃圾文档"直接扔进来——结构化的源文档是召回率的根本。
  • ❌ 别只上传不测试——10 个真实问题不跑通就别上线。
  • ❌ 别在提示词里漏掉"必须基于知识库"约束,AI 会偷懒"用通用知识回答"。
  • ❌ 别上传含个人隐私 / 客户数据的原始 Excel——先脱敏。
  • ❌ 别期望知识库"实时同步"——上传后不会自动更新源文件改动。

十一、实战附赠:5 个高质量知识库源建议

下面 5 个免费资源你可以直接抓来做"练手知识库":

  1. 国家政策:中国政府网(https://www.gov.cn)的政策文件。
  2. 法律法规:国家法律法规数据库(https://flk.npc.gov.cn)。
  3. 企业开源 SOP:GitHub 搜 "company-handbook"。
  4. 菜谱:下厨房(https://www.xiachufang.com)。
  5. 个人知识管理:你自己的 Notion / 飞书 / 印象笔记导出。

十二、下一步

知识库给了 Bot "记忆"。但 Bot 还不会主动去外面查信息、调外部接口、做实时操作——这些事得靠插件

请翻 第六章 插件让 Bot 长出手脚