一、为什么需要知识库
一个真实困境
你做了一个客服 Bot,问它:"我们的 7 天无理由退货政策是什么?"
它回答:
"通常电商平台的 7 天无理由退货是指……"
它根本不知道"我们公司"的政策! 它在用通用知识应付你。
如果你公司其实是 15 天无理由,规则还有 3 条特殊条款,模型不会凭空知道。给客户错答案,损失就大了。
解决方案:把私域知识"喂"给 Bot
┌──────────────────┐
│ 你的私域知识 │
│ - 产品手册 │
│ - 客服 SOP │
│ - 公司政策 │
│ - 个人笔记 │
│ - FAQ │
└────────┬─────────┘
↓ 上传到 Coze
┌──────────────────┐
│ 知识库 │
└────────┬─────────┘
↓ 绑定到 Bot
┌──────────────────┐
│ Bot 回答前先查 │
│ 知识库 │
└──────────────────┘
↓
基于"你的"知识回答,准确率飙升
这套机制有个洋气的名字叫 RAG(Retrieval-Augmented Generation,检索增强生成)。你不需要懂这个词,记住"知识库"三个字就够了。
二、Coze 知识库的 4 种类型
打开 Coze 工作空间,左侧菜单 → 「资源库」→「知识库」→「+ 创建知识库」,会看到 4 种类型:
类型 1:文本(最常用)
适合:
- PDF(产品手册、合同、论文)
- Word / TXT / MD(公司 SOP、个人笔记)
- 网页 URL(在线文档、博客)
特点:上传后会被切成"片段"(chunk),按语义检索。
类型 2:表格
适合:
- Excel / CSV
- 商品价目表、员工通讯录、订单数据
特点:按字段精确查询。例如可以问"客户 ID 12345 的下单时间"。
类型 3:图片
适合:
- 产品图(带文字说明)
- 截图归档
特点:能用 Vision 模型识别图片内容并检索。
类型 4:FAQ(结构化问答对)
适合:
- 客服常见问题
- 产品 Q&A
特点:每条是 "问题 + 答案" 的结构化对,召回准确率最高。
三、5 分钟做一个"产品知识库 Bot"(手把手)
我们做一个例子:给一款"小米空气净化器"做客服 Bot。
第 1 步:准备知识源(30 秒)
随便找一份 PDF(不一定要真实产品手册,做演练用)。或者你也可以直接用本章末尾"附赠"的样例文本。
第 2 步:创建知识库(1 分钟)
- 左侧菜单 →「资源库」→「知识库」→「+ 创建知识库」。
- 类型选 「文本」。
- 名称填:
小米净化器知识库。 - 描述填:
包含产品规格、使用方法、保修政策、常见问题。 - 点 "创建"。
第 3 步:上传文档(1 分钟)
- 进入刚创建的知识库,点 "+ 添加内容"。
- 选 "本地文档" 或 "在线网页"。
- 把 PDF 拖进去,等上传完成。
- 等待"切片"完成(一般几十秒到几分钟,取决于文档大小)。
第 4 步:调切片参数(1 分钟,新手可跳过)
切片完成后,Coze 会按"段落 + 标点"自动切片,每片 500-800 字。新手保持默认即可。
如果想精细调整:
- 切片长度:500-1500 字之间。技术文档建议短一点,故事叙述类长一点。
- 切片重叠:默认 50 字。重叠是为了让"切片边界处的语义不丢"。
- 切片规则:默认按段落,可改成"按标题"或"自定义分隔符"。
第 5 步:绑定到 Bot(1 分钟)
- 进入你的客服 Bot 编辑页。
- 在右侧(或左侧)「技能」面板找到 「知识库」→「+ 添加」。
- 勾选
小米净化器知识库,点 "确认"。 - 在提示词里加一句强约束:
# 知识库使用规则
- 用户问产品、保修、使用方法、规格相关问题时,必须先查知识库。
- 知识库里没有的内容,回答"我没找到相关信息,建议联系人工客服 400-xxx",不要瞎编。
第 6 步:测试
在右侧调试窗口问:
- "请问 HEPA 滤芯多久换一次?"
- "1 级能效是什么意思?"
如果 Bot 能给出准确答案 + 引用知识库片段,配置成功。
四、不同类型知识库的实操技巧
技巧 1:文本知识库——结构化你的源文档
垃圾进,垃圾出(Garbage in, garbage out)。源文档质量决定 80% 的检索效果。
好的源文档:
- 一篇文章只讲一个主题。
- 用清晰的层级(H1 / H2 / H3)。
- 每段不超过 500 字。
- 有明确的术语定义。
坏的源文档:
- 一份 100 页的杂烩 PDF。
- 全是图片没有文字(OCR 识别错误率高)。
- 包含大量"对话记录"(聊天截图、群讨论)。
- 包含敏感个人信息。
优化方法:花 30 分钟把源文档重新排版——加标题、删冗余、统一术语,召回效果立刻翻倍。
技巧 2:表格知识库——字段命名要清晰
如果你上传 Excel,列名一定要清晰。
❌ A, B, C
✅ 订单编号, 客户姓名, 下单时间, 金额
清晰的列名让模型"看一眼就知道这个字段是干嘛的"。
技巧 3:FAQ 知识库——召回率最高的格式
FAQ 是 4 种里召回率最高的类型。如果你的场景是"客服 Q&A",强烈推荐用 FAQ。
格式:
Q: 物流多久能到?
A: 全国主要城市 3-5 个工作日,偏远地区 5-7 个工作日。
Q: 怎么申请退货?
A: 在订单详情页点"申请退货"按钮,按提示填写。
FAQ 的诀窍:把同一个问题用多种问法列出来。
Q: 物流多久能到?
Q: 几天能收到货?
Q: 发货后多久到?
A: 全国主要城市 3-5 个工作日……
这样无论用户怎么问,都能召回。
技巧 4:图片知识库——加好"图说"
图片知识库不是把图扔进去就完事。每张图必须配一段"文字描述"。模型靠文字描述检索,靠图片本身回答。
例如上传一张"产品包装图":
- 图说:"小米米家空气净化器 4 包装实物图,正面为白色机身,顶部有 OLED 屏幕。"
五、召回调优:让 Bot 真的能"找对资料"
召回是什么?
召回(Recall)= Bot 在收到用户提问时,从知识库里"挑出"几条最相关片段,喂给模型作参考。
用户提问 → Coze 用语义匹配查知识库 → 返回 Top K 个片段 → 喂给模型 → 模型基于片段回答
调召回的核心参数有 3 个:
参数 1:召回数量(Top K)
默认 3 条。
- 少(1-2):精准但可能漏。
- 多(5-10):覆盖广但可能"信息过载"。
建议:FAQ 类用 2-3,文档类用 4-6。
参数 2:召回阈值(Score Threshold)
默认 0.5。
- 高(0.7+):只召回非常相关的,宁可"找不到"也不"找错"。
- 低(0.3):召回更多,宁可多也不漏。
建议:客服类用 0.6(要准),创意类用 0.4(要广)。
参数 3:召回方式(混合检索)
Coze 知识库支持 3 种检索方式:
- 语义检索:理解意思(默认,最常用)。
- 关键词检索:找精确匹配的词。
- 混合检索:两个都用,加权融合(最准,但稍慢)。
建议:能用"混合检索"就用"混合",效果稳定。
调优 5 步法
- 先用默认参数跑 10 个测试问题,记录答对几个。
- 找出"答错的那几个",看是没召回到,还是召回到了但模型没用上。
- 没召回到 → 降低阈值 / 增加 Top K。
- 召回到了但模型没用 → 提示词里强约束"必须基于知识库回答"。
- 全部正确后再上线。
六、知识库的 6 种典型应用场景
| 场景 | 知识源示例 | 类型 | 推荐 Bot |
|---|---|---|---|
| 企业客服 | FAQ + 产品手册 | FAQ + 文本 | 智能客服 |
| 个人笔记 AI 助手 | 飞书/Notion 笔记 | 文本 | 第二大脑 |
| HR 政策问答 | 员工手册 | 文本 + FAQ | HR 小助手 |
| 法律咨询 | 法条 + 案例库 | 文本 | 法律小助手(仅参考) |
| 菜谱助手 | 家传菜谱 / 网络菜谱 | 文本 | 私房菜大厨 |
| 学习辅导 | 教科书 / 笔记 | 文本 | 学科辅导员 |
每一种我们都会在 第九章 生活场景实战 和 第十章 工作场景实战 里有完整案例。
七、知识库的限制(必须知道)
| 限制 | 说明 |
|---|---|
| 单文档大小 | 一般 < 200 MB(按账号等级而定) |
| 单知识库容量 | 个人版几百 MB ~ 几 GB |
| 支持格式 | PDF、DOC、TXT、MD、Excel、CSV、HTML、URL |
| 不支持 | 视频、音频(要先转文字)、加密 PDF |
| 更新频率 | 自动同步无(除非用 API 重新上传),需要手动更新 |
| 检索速度 | 通常 < 1 秒,超大知识库 1-3 秒 |
八、私域数据安全:5 条铁律
知识库里上传的可能是公司机密、个人隐私,安全比功能更重要。请遵守:
铁律 1:脱敏后再上传
- 把员工身份证号、手机号、银行卡号删掉再上传。
- 客户姓名可以保留首字 + 星号("张**")。
铁律 2:分级管理
- 公开内容(产品介绍)→ 公共知识库。
- 敏感内容(薪资、合同)→ 仅授权人可访问的知识库。
铁律 3:定期审计
每月看一次知识库里有没有"不该在那儿的内容"。
铁律 4:发布权限
发布到"扣子商店"前,必须确认知识库里没有任何内部信息。商店里的 Bot 可能被陌生人查询。
铁律 5:遇到要传"客户数据"的需求
- 优先用"表格知识库" + 字段权限。
- 数据量大、隐私强,建议走 API 接入企业内部数据库,而不是上传整张表。
- 极端敏感场景,不要用云版 Coze,考虑自部署的 Dify 或本地大模型。
九、本章一图回顾
知识库 = 给 Bot 灌私域知识 = RAG(检索增强生成)
4 种类型:
📄 文本 → PDF / Word / 网页(最常用)
📊 表格 → Excel / CSV(精准查询)
🖼️ 图片 → 带说明的图(多模态场景)
❓ FAQ → 问答对(客服首选)
5 分钟流程:
建知识库 → 上传文档 → 切片 → 绑 Bot → 提示词强约束 → 测试
调优 3 参数:
Top K(召回数量)
阈值(相关度)
检索方式(语义 / 关键词 / 混合)
私域安全 5 铁律:
脱敏 / 分级 / 审计 / 发布前清查 / 极敏感数据走 API
十、避坑清单
- ❌ 别把"垃圾文档"直接扔进来——结构化的源文档是召回率的根本。
- ❌ 别只上传不测试——10 个真实问题不跑通就别上线。
- ❌ 别在提示词里漏掉"必须基于知识库"约束,AI 会偷懒"用通用知识回答"。
- ❌ 别上传含个人隐私 / 客户数据的原始 Excel——先脱敏。
- ❌ 别期望知识库"实时同步"——上传后不会自动更新源文件改动。
十一、实战附赠:5 个高质量知识库源建议
下面 5 个免费资源你可以直接抓来做"练手知识库":
- 国家政策:中国政府网(https://www.gov.cn)的政策文件。
- 法律法规:国家法律法规数据库(https://flk.npc.gov.cn)。
- 企业开源 SOP:GitHub 搜 "company-handbook"。
- 菜谱:下厨房(https://www.xiachufang.com)。
- 个人知识管理:你自己的 Notion / 飞书 / 印象笔记导出。
十二、下一步
知识库给了 Bot "记忆"。但 Bot 还不会主动去外面查信息、调外部接口、做实时操作——这些事得靠插件。
请翻 第六章 插件让 Bot 长出手脚。