五分钟搭建你的第一个知识库 · RAG 橙皮书

5.1 这一章我们要做什么

我们要给你"亲手"搭出来一个能用的 AI 知识库。

具体目标：

场景：假设你是个销售/法务/HR/打杂的人，想做一个"合同问答助手"——把你过去看过的所有合同丢进去，以后任何关于合同的问题，AI 都能基于真实合同回答。
数据：5-20 份 PDF 合同（如果你没有真实合同，本章会教你"怎么找练习用的开放数据"）。
工具：3 选 1：
- NotebookLM——能翻墙首选；
- ima——国内首选；
- Cherry Studio + DeepSeek——隐私首选（数据完全本地）。
结果：你能用一句话问"过去三年我们公司违约金条款怎么变化的"，AI 给你一份带原文引用的答案。

整个过程不会让你写一行代码。

5.2 第一步：先准备好你的"练手资料"

如果你有真实的工作合同——直接用真的，效果最震撼。

如果你只是想练手没有真合同，我们给你 4 个开源数据集，免费下载、合法使用：

5.2.1 合同练手数据集（免费）

来源	类型	数量	链接
CUAD（Contract Understanding Atticus Dataset）	英文商业合同	510 份	huggingface.co/datasets/theatticusproject/cuad
国家法律法规库	中文法律法规	数万份	flk.npc.gov.cn
裁判文书网（公开案例）	中文判例	数百万份	wenshu.court.gov.cn
GitHub 开源 SaaS 服务条款合集	中英文服务条款	几百份	github.com/搜索 "Terms of Service"

强烈推荐第一次先用 5-10 份——别贪多，能跑通比能跑大重要。

5.2.2 收集资料的"5 个动作"

不管你用真实合同还是练手数据，做这 5 个动作：

新建一个文件夹：我的合同知识库 v1；
把所有 PDF 拖进去——不要重命名，保持原始文件名（这样引用时能看出来源）；
删掉重复——文件名相同的、明显重复的删掉；
检查一下能不能复制文字——用 PDF 阅读器打开，试着选中一段文字 Ctrl+C。能复制说明是"文本型 PDF"，不能复制说明是"扫描型 PDF"，需要后续 OCR；
大小做个心理准备——总和别超过 100 MB 太多（云端工具一般有上限）。

做完这 5 个动作，你就有了一个**"准备好被吃进 RAG"的资料包**。

5.3 路线 A：用 NotebookLM 搭（5 分钟，能翻墙的人）

5.3.1 注册

打开 notebooklm.google.com；
用任意 Google 账号登录（不需要付费）；
第一次会有个"用户协议"——直接同意。

整个过程 30 秒。

5.3.2 创建第一个 Notebook

主页右上角点 "Create new" 或左上角 "+ New notebook"；
弹出一个 "Add sources" 窗口；
把你刚才文件夹里的 5-10 份 PDF 直接拖进去；
NotebookLM 会显示"Uploading"，几秒到几分钟（看文件大小）；
上传完成后左侧会显示所有 source 的列表，每个文件名后面有个绿色勾。

整个过程 1-3 分钟。

5.3.3 给 Notebook 起个名字

左上角会有个"Untitled notebook"——点一下，改成 我的合同知识库 v1。

5.3.4 第一次问问题

主界面下方有个对话框，输入：

请帮我列出当前知识库里所有合同的：合同编号、签订日期、甲乙双方、合同金额。用表格输出。

回车。

10-30 秒后，NotebookLM 会输出一份漂亮的表格。

每行末尾会有 小数字 [1] [2] [3]——这就是引用，点进去能看到对应原文。

恭喜，你的第一个 RAG 知识库已经在工作了。

5.3.5 第二轮：体验"AI 真的懂你的资料"

试这几个进阶问题：

1. 上述合同里，违约金条款是怎么约定的？请列出每份合同的违约金条款原文。

2. 哪些合同的付款方式是"分期付款"？分期金额和时间分别是什么？

3. 找出所有提到"知识产权归属"的条款，告诉我归甲方的有哪几份、归乙方的有哪几份。

4. 如果我现在要起草一份新合同，对方提出"违约金不超过 30%"，请基于我们公司过去的合同，告诉我历史上有没有妥协过这一条，如果妥协过，最终金额是多少。

每个问题，NotebookLM 都会基于你上传的合同回答，每条都标引用。

如果它说"我在已有资料中未找到 XX"——说明你上传的资料里确实没有。这时候它不会编。

5.3.6 一键听播客（NotebookLM 杀手锏）

试一下右侧的 "Audio Overview" 按钮。

NotebookLM 会基于你的资料生成一段两个主播对谈风格的英文音频（中文版 2025 末已上线，2026 进一步优化）。

听 5 分钟，相当于有人给你"讲了"你这堆合同的全貌——开车通勤、做饭洗碗都能听。

这是 NotebookLM 至今没有对手的功能。

5.3.7 把 Notebook 分享给同事

右上角 "Share" 按钮；
输入同事的 Google 邮箱；
选权限：Viewer（只读）/ Editor（可改）；
同事收到邮件，点进去就能用同一个知识库提问。

所有人共享同一个"事实库"——这就是企业小团队最朴素的"内部 GPT"。

5.4 路线 B：用 ima 搭（5 分钟，国内首选）

5.4.1 安装

浏览器打开 ima.qq.com；
下载客户端（Windows / Mac），或直接用 Web 版；
用微信扫码登录。

5.4.2 新建知识库

左侧 "知识库" 标签 → "新建知识库"；
命名 我的合同知识库 v1；
选择"个人知识库"或"团队知识库"。

5.4.3 导入资料

ima 的强项是支持的资料类型超多：

本地 PDF / Word / Excel / PPT / 图片 / 视频；
微信收藏——一键导入你过去几年的所有微信收藏；
微信文章 URL——粘贴公众号链接直接导入；
网页 URL——任意网页；
音频——自动转写。

第一次跑通，就先拖 5-10 份合同 PDF 进去。

5.4.4 第一次问问题

ima 的对话框比 NotebookLM 简单，直接输入：

请帮我列出当前知识库里所有合同的：合同编号、签订日期、甲乙双方、合同金额。用表格输出。

ima 会基于"混元"或"DeepSeek"模型回答（可在右上角切换），并标引用。

5.4.5 ima 独有：把知识库变成微信群机器人

ima 有一个杀手功能：把你的知识库一键变成微信公众号问答机器人。

知识库设置页 → "机器人" → "接入微信公众号"；
跟着引导授权你的公众号；
完成后，任何人在你公众号留言，都会用你的知识库回答。

这是 NotebookLM 做不到的。

5.4.6 ima 适合做什么

家庭知识库：家人病历、孩子成长记录、家庭账本；
个人收藏整理：把过去 3 年的微信收藏一键导入，从此再也找得到；
团队 FAQ 机器人：把公司 FAQ 装进去，发到客户微信群里。

5.5 路线 C：用 Cherry Studio 搭（隐私优先，本地存）

如果你的合同绝对不能上云（比如商业秘密、客户隐私、医疗数据）——选这一条路。

5.5.1 安装 Cherry Studio

打开 cherry-ai.com；
下载对应平台版本（Mac / Windows / Linux）；
一直下一步装完，启动。

5.5.2 配置一个 LLM API（推荐 DeepSeek，便宜）

Cherry Studio 本身没有大模型，需要你给它一个 API Key。

最便宜的方案是 DeepSeek：

注册 platform.deepseek.com；
充值 10 元（够用一两个月）；
创建 API Key，复制；
Cherry Studio 设置 → "模型服务" → "DeepSeek" → 粘贴 API Key → 保存。

也可以用免费的本地模型——见 5.5.5。

5.5.3 配置嵌入模型（重要！）

知识库的核心是嵌入模型。Cherry Studio 默认让你选：

云端嵌入：OpenAI、智谱、阿里云的嵌入服务（按量付费）；
本地嵌入：BGE-M3、Qwen-Embed（完全免费，但需要本地 Ollama）。

第一次跑通建议用云端嵌入——简单：

设置 → "模型服务" → "硅基流动 SiliconFlow"（最便宜）→ 注册账号 → 拿 API Key；
选嵌入模型：BAAI/bge-m3（免费！）；
重排模型：BAAI/bge-reranker-v2-m3（也免费）。

硅基流动对很多模型有免费配额，知识库这种场景一两年都用不完。

5.5.4 创建知识库

左侧 "知识库" 图标 → "新建知识库"；
命名 合同库 v1；
选嵌入模型 bge-m3；
选重排模型 bge-reranker-v2-m3；
创建。

然后把你的 5-10 份 PDF 拖进去。

Cherry Studio 会自动：

OCR 识别（如果是扫描件）；
切片（默认 1000 字 + 200 字 overlap）；
嵌入；
入库。

整个过程 1-5 分钟，你能看到进度条。

5.5.5 第一次问问题

回到主聊天界面：

选一个对话；
在输入框上方点击"知识库"图标，勾选你刚建的"合同库 v1"；
输入：

请帮我列出当前知识库里所有合同的：合同编号、签订日期、甲乙双方、合同金额。用表格输出。

发送。

DeepSeek 收到的是"你的合同片段 + 你的问题"，它给的回答完全基于你的合同——但 DeepSeek 不会保存你的合同原文（按隐私协议它只看不存）。

如果你连"看一眼"都不想让外人看——下一步，纯本地。

5.5.6 完全本地化（数据零上传）

如果你想所有数据 100% 本地——把 LLM 也换成本地的：

安装 Ollama：brew install ollama（Mac）或 ollama.com 下载（Win）；
拉一个中文模型：

ollama pull qwen2.5:14b

或者 8B 更小：

ollama pull qwen2.5:7b

Cherry Studio 设置 → "模型服务" → "Ollama" → 自动检测 → 选 qwen2.5；
知识库的嵌入模型也换成本地的：ollama pull bge-m3 → 在 Cherry Studio 选；
关掉网络试一下——完全离线，知识库照样工作。

这是律师、医生、家庭隐私党最爱的玩法。

5.6 三条路线的横向对比

维度	NotebookLM	ima	Cherry Studio
注册难度	要 Google 账号	微信扫码	下载客户端
国内可用	要翻墙	✓	✓
数据上云	Google 云	腾讯云	看你怎么配
本地完全离线	✗	✗	✓
引用质量	★★★★★	★★★★	★★★★
多人共享	✓（Editor）	✓（团队库）	✗（个人为主）
一键播客	✓	✗	✗
微信公众号机器人	✗	✓	✗
多模型切换	✗	限定	100+
价格（个人）	免费够用	免费够用	免费 + API 几元/月
学习曲线	★	★	★★

第一次推荐：

能翻墙，要体验最佳——选 NotebookLM；
不想折腾、要中文好——选 ima；
有隐私需求 / 想多模型——选 Cherry Studio。

三条路你都走一遍最好——一两个小时就能体验完。

5.7 一些"第一次"会遇到的小问题

Q1：上传后等了很久没反应？

是不是 PDF 太大（>50 MB）？拆开成小份；
是不是扫描件 PDF？需要工具做 OCR，可能慢一点；
是不是网速慢？换好网络。

Q2：AI 答得不准、答非所问？

99% 是这两个原因之一：

资料里确实没有这个信息——它没编算诚实；
问题问得太模糊——下章我们专门讲"提问技巧"。

Q3：扫描件读不出来怎么办？

NotebookLM、ima 自带 OCR，应该能读；
Cherry Studio 早期版本 OCR 一般，建议先用专门工具（如 PaperEar、TextIn、白描）做 OCR 转成可搜索 PDF，再上传。

Q4：我能不能让它回答时"只引用一份合同"？

NotebookLM：左侧 sources 列表，点亮一个文件——AI 就只读那个；
ima：在对话时 @ 文件名；
Cherry Studio：知识库切换/筛选。

Q5：能不能"持续追加"新合同？

可以。所有工具都支持"已建的库继续加文件"——会自动增量索引。

Q6：Token 烧多少钱？

NotebookLM、ima 免费档：0；
Cherry Studio + DeepSeek：一次问答约 0.01-0.05 元；
Cherry Studio + 本地 Ollama：电费忽略不计。

5.8 进阶动作：让你的知识库再"准"一截

第一次跑通之后，做这 4 个调整，准确率立刻提升：

5.8.1 给每份合同加"标题前缀"

把文件名改成"标准化"格式：

[2024-04-15][甲方-乙方][合同金额][分类标签].pdf

例如：

[2024-04-15][腾讯-字节跳动][500W][技术服务合同].pdf

这样 AI 在引用时显示的来源就非常清晰——一眼能看出"这条结论来自 2024-04 跟字节签的那份"。

5.8.2 给知识库加"使用说明"（System Prompt）

NotebookLM 没法改 System Prompt，但 ima 和 Cherry Studio 都可以。

设置一个"严格基于资料回答 + 标引用"的指令：

你是一个严谨的合同分析助手。请严格按以下要求作答：

1. 只基于知识库回答，不要使用资料外的信息；
2. 每条结论必须标注来源：[文件名 P页码]；
3. 如果资料里没有答案，请明确说"我在已有资料中未找到相关信息"；
4. 如果有时间维度的问题，请按时间倒序排列；
5. 如果输出表格，第一列必须是"合同编号"。

把这段放进 System Prompt，AI 的回答风格立刻"职业化"。

5.8.3 用"分组"管理大量资料

合同多了之后，按"分组"管理：

NotebookLM：每个 Notebook 是一个分组（如"销售合同""采购合同""劳动合同"）；
ima：每个知识库是一个分组；
Cherry Studio：知识库下面再分子文件夹。

提问时可以只针对一个分组——避免"销售合同的答案跑进采购的"。

5.8.4 定期清洗

每个月做一次"知识库体检"：

删除过期合同（注明"已归档"，不删除）；
更新法律法规版本；
修正错误标签；
备份知识库（导出 JSON / 加 Git 版本管理）。

5.9 小成就：把"我的合同助手"用进真实工作

跑通了之后，立刻把它用进真实工作：

你是	把它用在
销售	写新合同前先问"对方公司过去签过什么条款"
法务	审稿前问"我们公司类似条款的标准表述是什么"
HR	起草劳动合同前问"过去 3 年这一岗位的薪资区间"
财务	计算开票时问"上次给这家客户的发票内容是什么"
行政	找历史合同模板时直接问"找一份 XX 类合同的范本"

第一周用下来，你会有这种感觉：

"我以前每天有 1-2 小时在'找合同'，现在变成了'问合同'——节省的时间够我多睡半小时。"

5.10 把这本"合同助手"复制成你的其他知识库

跑通了"合同库"，你下一步可以"复制粘贴"地建出来——

5.10.1 建议建立的"个人 5 大知识库"

个人知识库：所有读过的书的笔记、收藏的文章、写过的日记；
工作知识库：所有的工作文档、会议纪要、邮件归档；
家庭知识库：家人病历、家电说明书、家庭账本；
学习知识库：课件、笔记、真题、错题本；
副业知识库：你副业相关的所有客户聊天、案例、报价。

每一个的搭建过程，和合同库完全一样——就是改换数据。

5.10.2 建议建立的"团队 3 大知识库"

团队 SOP 库：所有内部流程、操作手册；
客户案例库：所有签过的客户、做过的项目；
会议决议库：所有会议纪要、决策、复盘。

有了这 3 个库，新人入职第一周不再需要"老员工带"——AI 能解答 80% 的问题。

5.10.3 建议建立的"家庭 3 大知识库"

家庭健康库：每个家人的病历、用药、复诊；
家庭财务库：账本、保险、贷款；
家庭日常库：菜谱、家电说明书、维修记录。

有了这 3 个库，照护父母 / 育儿 / 家务一夜变轻。

5.11 一个常见疑问：我能不能"把所有资料合并成一个超大知识库"？

技术上能，但强烈不推荐。

原因：

内容太杂，AI 容易跑题——你问合同的事，它可能引用菜谱；
召回噪音多，准确率下降；
隐私混乱——团队库不能跟个人库混；
维护困难——一处错误影响全局。

更好的做法是：

按"用途"建多个小而专的知识库，提问时主动选库。

每个库 50-500 份文件最佳。超过这个数量考虑拆分。

5.12 本章一图回顾

flowchart LR
    A[准备资料 5-10 份合同] --> B[选工具]
    B --> C1[NotebookLM 翻墙]
    B --> C2[ima 国内]
    B --> C3[Cherry Studio 本地]
    C1 --> D[拖拽上传]
    C2 --> D
    C3 --> D
    D --> E[等 1-3 分钟自动建库]
    E --> F[第一次提问 + 看引用]
    F --> G[调优: 改文件名 + 加 System Prompt]
    G --> H[复制方法搭其他库]

记住三件事：

第一次跑通"5-10 份"足够——别贪多；
三条路线各有用，建议都试一遍；
跑通之后立刻用进真实工作/生活——不用就忘。

5.13 下一章预告

跑通了第一个知识库，你会发现：资料的质量直接决定 AI 的回答质量。

下一章我们就专门讲——怎么准备数据。

我们会讲 6 大资料源（PDF / 网页 / 微信收藏 / 语音 / 视频 / 图片）的处理技巧、7 步清洗法、命名规范、元数据打标——把你的"原始资料"变成"AI 一看就懂的高质量知识"。

读完下一章，你的知识库准确率能再提升 30%。