ORANGE BOOK · RAG

第五章 五分钟搭建你的第一个知识库


5.1 这一章我们要做什么

我们要给你"亲手"搭出来一个能用的 AI 知识库。

具体目标:

  • 场景:假设你是个销售/法务/HR/打杂的人,想做一个"合同问答助手"——把你过去看过的所有合同丢进去,以后任何关于合同的问题,AI 都能基于真实合同回答。
  • 数据:5-20 份 PDF 合同(如果你没有真实合同,本章会教你"怎么找练习用的开放数据")。
  • 工具:3 选 1:
    • NotebookLM——能翻墙首选;
    • ima——国内首选;
    • Cherry Studio + DeepSeek——隐私首选(数据完全本地)。
  • 结果:你能用一句话问"过去三年我们公司违约金条款怎么变化的",AI 给你一份带原文引用的答案。

整个过程不会让你写一行代码


5.2 第一步:先准备好你的"练手资料"

如果你有真实的工作合同——直接用真的,效果最震撼。

如果你只是想练手没有真合同,我们给你 4 个开源数据集,免费下载、合法使用:

5.2.1 合同练手数据集(免费)

来源 类型 数量 链接
CUAD(Contract Understanding Atticus Dataset) 英文商业合同 510 份 huggingface.co/datasets/theatticusproject/cuad
国家法律法规库 中文法律法规 数万份 flk.npc.gov.cn
裁判文书网(公开案例) 中文判例 数百万份 wenshu.court.gov.cn
GitHub 开源 SaaS 服务条款合集 中英文服务条款 几百份 github.com/搜索 "Terms of Service"

强烈推荐第一次先用 5-10 份——别贪多,能跑通比能跑大重要。

5.2.2 收集资料的"5 个动作"

不管你用真实合同还是练手数据,做这 5 个动作:

  1. 新建一个文件夹我的合同知识库 v1
  2. 把所有 PDF 拖进去——不要重命名,保持原始文件名(这样引用时能看出来源);
  3. 删掉重复——文件名相同的、明显重复的删掉;
  4. 检查一下能不能复制文字——用 PDF 阅读器打开,试着选中一段文字 Ctrl+C。能复制说明是"文本型 PDF",不能复制说明是"扫描型 PDF",需要后续 OCR;
  5. 大小做个心理准备——总和别超过 100 MB 太多(云端工具一般有上限)。

做完这 5 个动作,你就有了一个**"准备好被吃进 RAG"的资料包**。


5.3 路线 A:用 NotebookLM 搭(5 分钟,能翻墙的人)

5.3.1 注册

  1. 打开 notebooklm.google.com
  2. 用任意 Google 账号登录(不需要付费);
  3. 第一次会有个"用户协议"——直接同意。

整个过程 30 秒。

5.3.2 创建第一个 Notebook

  1. 主页右上角点 "Create new" 或左上角 "+ New notebook"
  2. 弹出一个 "Add sources" 窗口;
  3. 把你刚才文件夹里的 5-10 份 PDF 直接拖进去
  4. NotebookLM 会显示"Uploading",几秒到几分钟(看文件大小);
  5. 上传完成后左侧会显示所有 source 的列表,每个文件名后面有个绿色勾。

整个过程 1-3 分钟。

5.3.3 给 Notebook 起个名字

左上角会有个"Untitled notebook"——点一下,改成 我的合同知识库 v1

5.3.4 第一次问问题

主界面下方有个对话框,输入:

请帮我列出当前知识库里所有合同的:合同编号、签订日期、甲乙双方、合同金额。用表格输出。

回车。

10-30 秒后,NotebookLM 会输出一份漂亮的表格。

每行末尾会有 小数字 [1] [2] [3]——这就是引用,点进去能看到对应原文

恭喜,你的第一个 RAG 知识库已经在工作了

5.3.5 第二轮:体验"AI 真的懂你的资料"

试这几个进阶问题:

1. 上述合同里,违约金条款是怎么约定的?请列出每份合同的违约金条款原文。

2. 哪些合同的付款方式是"分期付款"?分期金额和时间分别是什么?

3. 找出所有提到"知识产权归属"的条款,告诉我归甲方的有哪几份、归乙方的有哪几份。

4. 如果我现在要起草一份新合同,对方提出"违约金不超过 30%",请基于我们公司过去的合同,告诉我历史上有没有妥协过这一条,如果妥协过,最终金额是多少。

每个问题,NotebookLM 都会基于你上传的合同回答,每条都标引用

如果它说"我在已有资料中未找到 XX"——说明你上传的资料里确实没有。这时候它不会编

5.3.6 一键听播客(NotebookLM 杀手锏)

试一下右侧的 "Audio Overview" 按钮。

NotebookLM 会基于你的资料生成一段两个主播对谈风格的英文音频(中文版 2025 末已上线,2026 进一步优化)。

听 5 分钟,相当于有人给你"讲了"你这堆合同的全貌——开车通勤、做饭洗碗都能听。

这是 NotebookLM 至今没有对手的功能。

5.3.7 把 Notebook 分享给同事

  1. 右上角 "Share" 按钮;
  2. 输入同事的 Google 邮箱;
  3. 选权限:Viewer(只读)/ Editor(可改);
  4. 同事收到邮件,点进去就能用同一个知识库提问。

所有人共享同一个"事实库"——这就是企业小团队最朴素的"内部 GPT"。


5.4 路线 B:用 ima 搭(5 分钟,国内首选)

5.4.1 安装

  1. 浏览器打开 ima.qq.com
  2. 下载客户端(Windows / Mac),或直接用 Web 版;
  3. 用微信扫码登录。

5.4.2 新建知识库

  1. 左侧 "知识库" 标签 → "新建知识库"
  2. 命名 我的合同知识库 v1
  3. 选择"个人知识库"或"团队知识库"。

5.4.3 导入资料

ima 的强项是支持的资料类型超多

  • 本地 PDF / Word / Excel / PPT / 图片 / 视频;
  • 微信收藏——一键导入你过去几年的所有微信收藏;
  • 微信文章 URL——粘贴公众号链接直接导入;
  • 网页 URL——任意网页;
  • 音频——自动转写。

第一次跑通,就先拖 5-10 份合同 PDF 进去。

5.4.4 第一次问问题

ima 的对话框比 NotebookLM 简单,直接输入:

请帮我列出当前知识库里所有合同的:合同编号、签订日期、甲乙双方、合同金额。用表格输出。

ima 会基于"混元"或"DeepSeek"模型回答(可在右上角切换),并标引用。

5.4.5 ima 独有:把知识库变成微信群机器人

ima 有一个杀手功能:把你的知识库一键变成微信公众号问答机器人

  1. 知识库设置页 → "机器人""接入微信公众号"
  2. 跟着引导授权你的公众号;
  3. 完成后,任何人在你公众号留言,都会用你的知识库回答

这是 NotebookLM 做不到的。

5.4.6 ima 适合做什么

  • 家庭知识库:家人病历、孩子成长记录、家庭账本;
  • 个人收藏整理:把过去 3 年的微信收藏一键导入,从此再也找得到;
  • 团队 FAQ 机器人:把公司 FAQ 装进去,发到客户微信群里。

5.5 路线 C:用 Cherry Studio 搭(隐私优先,本地存)

如果你的合同绝对不能上云(比如商业秘密、客户隐私、医疗数据)——选这一条路。

5.5.1 安装 Cherry Studio

  1. 打开 cherry-ai.com
  2. 下载对应平台版本(Mac / Windows / Linux);
  3. 一直下一步装完,启动。

5.5.2 配置一个 LLM API(推荐 DeepSeek,便宜)

Cherry Studio 本身没有大模型,需要你给它一个 API Key。

最便宜的方案是 DeepSeek

  1. 注册 platform.deepseek.com
  2. 充值 10 元(够用一两个月);
  3. 创建 API Key,复制;
  4. Cherry Studio 设置 → "模型服务" → "DeepSeek" → 粘贴 API Key → 保存。

也可以用免费的本地模型——见 5.5.5。

5.5.3 配置嵌入模型(重要!)

知识库的核心是嵌入模型。Cherry Studio 默认让你选:

  • 云端嵌入:OpenAI、智谱、阿里云的嵌入服务(按量付费);
  • 本地嵌入:BGE-M3、Qwen-Embed(完全免费,但需要本地 Ollama)。

第一次跑通建议用云端嵌入——简单:

  1. 设置 → "模型服务" → "硅基流动 SiliconFlow"(最便宜)→ 注册账号 → 拿 API Key;
  2. 选嵌入模型:BAAI/bge-m3(免费!);
  3. 重排模型:BAAI/bge-reranker-v2-m3(也免费)。

硅基流动对很多模型有免费配额,知识库这种场景一两年都用不完。

5.5.4 创建知识库

  1. 左侧 "知识库" 图标 → "新建知识库"
  2. 命名 合同库 v1
  3. 选嵌入模型 bge-m3
  4. 选重排模型 bge-reranker-v2-m3
  5. 创建。

然后把你的 5-10 份 PDF 拖进去。

Cherry Studio 会自动:

  • OCR 识别(如果是扫描件);
  • 切片(默认 1000 字 + 200 字 overlap);
  • 嵌入;
  • 入库。

整个过程 1-5 分钟,你能看到进度条。

5.5.5 第一次问问题

回到主聊天界面:

  1. 选一个对话;
  2. 在输入框上方点击"知识库"图标,勾选你刚建的"合同库 v1"
  3. 输入:
请帮我列出当前知识库里所有合同的:合同编号、签订日期、甲乙双方、合同金额。用表格输出。
  1. 发送。

DeepSeek 收到的是"你的合同片段 + 你的问题",它给的回答完全基于你的合同——但 DeepSeek 不会保存你的合同原文(按隐私协议它只看不存)。

如果你连"看一眼"都不想让外人看——下一步,纯本地。

5.5.6 完全本地化(数据零上传)

如果你想所有数据 100% 本地——把 LLM 也换成本地的:

  1. 安装 Ollamabrew install ollama(Mac)或 ollama.com 下载(Win);
  2. 拉一个中文模型:
ollama pull qwen2.5:14b

或者 8B 更小:

ollama pull qwen2.5:7b
  1. Cherry Studio 设置 → "模型服务" → "Ollama" → 自动检测 → 选 qwen2.5;
  2. 知识库的嵌入模型也换成本地的:ollama pull bge-m3 → 在 Cherry Studio 选;
  3. 关掉网络试一下——完全离线,知识库照样工作

这是律师、医生、家庭隐私党最爱的玩法。


5.6 三条路线的横向对比

维度 NotebookLM ima Cherry Studio
注册难度 要 Google 账号 微信扫码 下载客户端
国内可用 要翻墙
数据上云 Google 云 腾讯云 看你怎么配
本地完全离线
引用质量 ★★★★★ ★★★★ ★★★★
多人共享 ✓(Editor) ✓(团队库) ✗(个人为主)
一键播客
微信公众号机器人
多模型切换 限定 100+
价格(个人) 免费够用 免费够用 免费 + API 几元/月
学习曲线 ★★

第一次推荐

  • 能翻墙,要体验最佳——选 NotebookLM;
  • 不想折腾、要中文好——选 ima;
  • 有隐私需求 / 想多模型——选 Cherry Studio。

三条路你都走一遍最好——一两个小时就能体验完。


5.7 一些"第一次"会遇到的小问题

Q1:上传后等了很久没反应?

  • 是不是 PDF 太大(>50 MB)?拆开成小份;
  • 是不是扫描件 PDF?需要工具做 OCR,可能慢一点;
  • 是不是网速慢?换好网络。

Q2:AI 答得不准、答非所问?

99% 是这两个原因之一:

  1. 资料里确实没有这个信息——它没编算诚实;
  2. 问题问得太模糊——下章我们专门讲"提问技巧"。

Q3:扫描件读不出来怎么办?

  • NotebookLM、ima 自带 OCR,应该能读;
  • Cherry Studio 早期版本 OCR 一般,建议先用专门工具(如 PaperEar、TextIn、白描)做 OCR 转成可搜索 PDF,再上传。

Q4:我能不能让它回答时"只引用一份合同"?

  • NotebookLM:左侧 sources 列表,点亮一个文件——AI 就只读那个;
  • ima:在对话时 @ 文件名;
  • Cherry Studio:知识库切换/筛选。

Q5:能不能"持续追加"新合同?

可以。所有工具都支持"已建的库继续加文件"——会自动增量索引。

Q6:Token 烧多少钱?

  • NotebookLM、ima 免费档:0;
  • Cherry Studio + DeepSeek:一次问答约 0.01-0.05 元;
  • Cherry Studio + 本地 Ollama:电费忽略不计。

5.8 进阶动作:让你的知识库再"准"一截

第一次跑通之后,做这 4 个调整,准确率立刻提升:

5.8.1 给每份合同加"标题前缀"

把文件名改成"标准化"格式:

[2024-04-15][甲方-乙方][合同金额][分类标签].pdf

例如:

[2024-04-15][腾讯-字节跳动][500W][技术服务合同].pdf

这样 AI 在引用时显示的来源就非常清晰——一眼能看出"这条结论来自 2024-04 跟字节签的那份"。

5.8.2 给知识库加"使用说明"(System Prompt)

NotebookLM 没法改 System Prompt,但 ima 和 Cherry Studio 都可以。

设置一个"严格基于资料回答 + 标引用"的指令:

你是一个严谨的合同分析助手。请严格按以下要求作答:

1. 只基于知识库回答,不要使用资料外的信息;
2. 每条结论必须标注来源:[文件名 P页码];
3. 如果资料里没有答案,请明确说"我在已有资料中未找到相关信息";
4. 如果有时间维度的问题,请按时间倒序排列;
5. 如果输出表格,第一列必须是"合同编号"。

把这段放进 System Prompt,AI 的回答风格立刻"职业化"。

5.8.3 用"分组"管理大量资料

合同多了之后,按"分组"管理:

  • NotebookLM:每个 Notebook 是一个分组(如"销售合同""采购合同""劳动合同");
  • ima:每个知识库是一个分组;
  • Cherry Studio:知识库下面再分子文件夹。

提问时可以只针对一个分组——避免"销售合同的答案跑进采购的"。

5.8.4 定期清洗

每个月做一次"知识库体检":

  • 删除过期合同(注明"已归档",不删除);
  • 更新法律法规版本;
  • 修正错误标签;
  • 备份知识库(导出 JSON / 加 Git 版本管理)。

5.9 小成就:把"我的合同助手"用进真实工作

跑通了之后,立刻把它用进真实工作:

你是 把它用在
销售 写新合同前先问"对方公司过去签过什么条款"
法务 审稿前问"我们公司类似条款的标准表述是什么"
HR 起草劳动合同前问"过去 3 年这一岗位的薪资区间"
财务 计算开票时问"上次给这家客户的发票内容是什么"
行政 找历史合同模板时直接问"找一份 XX 类合同的范本"

第一周用下来,你会有这种感觉:

"我以前每天有 1-2 小时在'找合同',现在变成了'问合同'——节省的时间够我多睡半小时。"


5.10 把这本"合同助手"复制成你的其他知识库

跑通了"合同库",你下一步可以"复制粘贴"地建出来——

5.10.1 建议建立的"个人 5 大知识库"

  1. 个人知识库:所有读过的书的笔记、收藏的文章、写过的日记;
  2. 工作知识库:所有的工作文档、会议纪要、邮件归档;
  3. 家庭知识库:家人病历、家电说明书、家庭账本;
  4. 学习知识库:课件、笔记、真题、错题本;
  5. 副业知识库:你副业相关的所有客户聊天、案例、报价。

每一个的搭建过程,和合同库完全一样——就是改换数据。

5.10.2 建议建立的"团队 3 大知识库"

  1. 团队 SOP 库:所有内部流程、操作手册;
  2. 客户案例库:所有签过的客户、做过的项目;
  3. 会议决议库:所有会议纪要、决策、复盘。

有了这 3 个库,新人入职第一周不再需要"老员工带"——AI 能解答 80% 的问题

5.10.3 建议建立的"家庭 3 大知识库"

  1. 家庭健康库:每个家人的病历、用药、复诊;
  2. 家庭财务库:账本、保险、贷款;
  3. 家庭日常库:菜谱、家电说明书、维修记录。

有了这 3 个库,照护父母 / 育儿 / 家务一夜变轻


5.11 一个常见疑问:我能不能"把所有资料合并成一个超大知识库"?

技术上能,但强烈不推荐

原因:

  1. 内容太杂,AI 容易跑题——你问合同的事,它可能引用菜谱;
  2. 召回噪音多,准确率下降
  3. 隐私混乱——团队库不能跟个人库混;
  4. 维护困难——一处错误影响全局。

更好的做法是:

按"用途"建多个小而专的知识库,提问时主动选库。

每个库 50-500 份文件最佳。超过这个数量考虑拆分。


5.12 本章一图回顾

flowchart LR
    A[准备资料 5-10 份合同] --> B[选工具]
    B --> C1[NotebookLM 翻墙]
    B --> C2[ima 国内]
    B --> C3[Cherry Studio 本地]
    C1 --> D[拖拽上传]
    C2 --> D
    C3 --> D
    D --> E[等 1-3 分钟自动建库]
    E --> F[第一次提问 + 看引用]
    F --> G[调优: 改文件名 + 加 System Prompt]
    G --> H[复制方法搭其他库]

记住三件事:

  1. 第一次跑通"5-10 份"足够——别贪多;
  2. 三条路线各有用,建议都试一遍
  3. 跑通之后立刻用进真实工作/生活——不用就忘。

5.13 下一章预告

跑通了第一个知识库,你会发现:资料的质量直接决定 AI 的回答质量

下一章我们就专门讲——怎么准备数据

我们会讲 6 大资料源(PDF / 网页 / 微信收藏 / 语音 / 视频 / 图片)的处理技巧、7 步清洗法、命名规范、元数据打标——把你的"原始资料"变成"AI 一看就懂的高质量知识"。

读完下一章,你的知识库准确率能再提升 30%。