5.1 这一章我们要做什么
我们要给你"亲手"搭出来一个能用的 AI 知识库。
具体目标:
- 场景:假设你是个销售/法务/HR/打杂的人,想做一个"合同问答助手"——把你过去看过的所有合同丢进去,以后任何关于合同的问题,AI 都能基于真实合同回答。
- 数据:5-20 份 PDF 合同(如果你没有真实合同,本章会教你"怎么找练习用的开放数据")。
- 工具:3 选 1:
- NotebookLM——能翻墙首选;
- ima——国内首选;
- Cherry Studio + DeepSeek——隐私首选(数据完全本地)。
- 结果:你能用一句话问"过去三年我们公司违约金条款怎么变化的",AI 给你一份带原文引用的答案。
整个过程不会让你写一行代码。
5.2 第一步:先准备好你的"练手资料"
如果你有真实的工作合同——直接用真的,效果最震撼。
如果你只是想练手没有真合同,我们给你 4 个开源数据集,免费下载、合法使用:
5.2.1 合同练手数据集(免费)
| 来源 | 类型 | 数量 | 链接 |
|---|---|---|---|
| CUAD(Contract Understanding Atticus Dataset) | 英文商业合同 | 510 份 | huggingface.co/datasets/theatticusproject/cuad |
| 国家法律法规库 | 中文法律法规 | 数万份 | flk.npc.gov.cn |
| 裁判文书网(公开案例) | 中文判例 | 数百万份 | wenshu.court.gov.cn |
| GitHub 开源 SaaS 服务条款合集 | 中英文服务条款 | 几百份 | github.com/搜索 "Terms of Service" |
强烈推荐第一次先用 5-10 份——别贪多,能跑通比能跑大重要。
5.2.2 收集资料的"5 个动作"
不管你用真实合同还是练手数据,做这 5 个动作:
- 新建一个文件夹:
我的合同知识库 v1; - 把所有 PDF 拖进去——不要重命名,保持原始文件名(这样引用时能看出来源);
- 删掉重复——文件名相同的、明显重复的删掉;
- 检查一下能不能复制文字——用 PDF 阅读器打开,试着选中一段文字 Ctrl+C。能复制说明是"文本型 PDF",不能复制说明是"扫描型 PDF",需要后续 OCR;
- 大小做个心理准备——总和别超过 100 MB 太多(云端工具一般有上限)。
做完这 5 个动作,你就有了一个**"准备好被吃进 RAG"的资料包**。
5.3 路线 A:用 NotebookLM 搭(5 分钟,能翻墙的人)
5.3.1 注册
- 打开 notebooklm.google.com;
- 用任意 Google 账号登录(不需要付费);
- 第一次会有个"用户协议"——直接同意。
整个过程 30 秒。
5.3.2 创建第一个 Notebook
- 主页右上角点 "Create new" 或左上角 "+ New notebook";
- 弹出一个 "Add sources" 窗口;
- 把你刚才文件夹里的 5-10 份 PDF 直接拖进去;
- NotebookLM 会显示"Uploading",几秒到几分钟(看文件大小);
- 上传完成后左侧会显示所有 source 的列表,每个文件名后面有个绿色勾。
整个过程 1-3 分钟。
5.3.3 给 Notebook 起个名字
左上角会有个"Untitled notebook"——点一下,改成 我的合同知识库 v1。
5.3.4 第一次问问题
主界面下方有个对话框,输入:
请帮我列出当前知识库里所有合同的:合同编号、签订日期、甲乙双方、合同金额。用表格输出。
回车。
10-30 秒后,NotebookLM 会输出一份漂亮的表格。
每行末尾会有 小数字 [1] [2] [3]——这就是引用,点进去能看到对应原文。
恭喜,你的第一个 RAG 知识库已经在工作了。
5.3.5 第二轮:体验"AI 真的懂你的资料"
试这几个进阶问题:
1. 上述合同里,违约金条款是怎么约定的?请列出每份合同的违约金条款原文。
2. 哪些合同的付款方式是"分期付款"?分期金额和时间分别是什么?
3. 找出所有提到"知识产权归属"的条款,告诉我归甲方的有哪几份、归乙方的有哪几份。
4. 如果我现在要起草一份新合同,对方提出"违约金不超过 30%",请基于我们公司过去的合同,告诉我历史上有没有妥协过这一条,如果妥协过,最终金额是多少。
每个问题,NotebookLM 都会基于你上传的合同回答,每条都标引用。
如果它说"我在已有资料中未找到 XX"——说明你上传的资料里确实没有。这时候它不会编。
5.3.6 一键听播客(NotebookLM 杀手锏)
试一下右侧的 "Audio Overview" 按钮。
NotebookLM 会基于你的资料生成一段两个主播对谈风格的英文音频(中文版 2025 末已上线,2026 进一步优化)。
听 5 分钟,相当于有人给你"讲了"你这堆合同的全貌——开车通勤、做饭洗碗都能听。
这是 NotebookLM 至今没有对手的功能。
5.3.7 把 Notebook 分享给同事
- 右上角 "Share" 按钮;
- 输入同事的 Google 邮箱;
- 选权限:Viewer(只读)/ Editor(可改);
- 同事收到邮件,点进去就能用同一个知识库提问。
所有人共享同一个"事实库"——这就是企业小团队最朴素的"内部 GPT"。
5.4 路线 B:用 ima 搭(5 分钟,国内首选)
5.4.1 安装
- 浏览器打开 ima.qq.com;
- 下载客户端(Windows / Mac),或直接用 Web 版;
- 用微信扫码登录。
5.4.2 新建知识库
- 左侧 "知识库" 标签 → "新建知识库";
- 命名
我的合同知识库 v1; - 选择"个人知识库"或"团队知识库"。
5.4.3 导入资料
ima 的强项是支持的资料类型超多:
- 本地 PDF / Word / Excel / PPT / 图片 / 视频;
- 微信收藏——一键导入你过去几年的所有微信收藏;
- 微信文章 URL——粘贴公众号链接直接导入;
- 网页 URL——任意网页;
- 音频——自动转写。
第一次跑通,就先拖 5-10 份合同 PDF 进去。
5.4.4 第一次问问题
ima 的对话框比 NotebookLM 简单,直接输入:
请帮我列出当前知识库里所有合同的:合同编号、签订日期、甲乙双方、合同金额。用表格输出。
ima 会基于"混元"或"DeepSeek"模型回答(可在右上角切换),并标引用。
5.4.5 ima 独有:把知识库变成微信群机器人
ima 有一个杀手功能:把你的知识库一键变成微信公众号问答机器人。
- 知识库设置页 → "机器人" → "接入微信公众号";
- 跟着引导授权你的公众号;
- 完成后,任何人在你公众号留言,都会用你的知识库回答。
这是 NotebookLM 做不到的。
5.4.6 ima 适合做什么
- 家庭知识库:家人病历、孩子成长记录、家庭账本;
- 个人收藏整理:把过去 3 年的微信收藏一键导入,从此再也找得到;
- 团队 FAQ 机器人:把公司 FAQ 装进去,发到客户微信群里。
5.5 路线 C:用 Cherry Studio 搭(隐私优先,本地存)
如果你的合同绝对不能上云(比如商业秘密、客户隐私、医疗数据)——选这一条路。
5.5.1 安装 Cherry Studio
- 打开 cherry-ai.com;
- 下载对应平台版本(Mac / Windows / Linux);
- 一直下一步装完,启动。
5.5.2 配置一个 LLM API(推荐 DeepSeek,便宜)
Cherry Studio 本身没有大模型,需要你给它一个 API Key。
最便宜的方案是 DeepSeek:
- 注册 platform.deepseek.com;
- 充值 10 元(够用一两个月);
- 创建 API Key,复制;
- Cherry Studio 设置 → "模型服务" → "DeepSeek" → 粘贴 API Key → 保存。
也可以用免费的本地模型——见 5.5.5。
5.5.3 配置嵌入模型(重要!)
知识库的核心是嵌入模型。Cherry Studio 默认让你选:
- 云端嵌入:OpenAI、智谱、阿里云的嵌入服务(按量付费);
- 本地嵌入:BGE-M3、Qwen-Embed(完全免费,但需要本地 Ollama)。
第一次跑通建议用云端嵌入——简单:
- 设置 → "模型服务" → "硅基流动 SiliconFlow"(最便宜)→ 注册账号 → 拿 API Key;
- 选嵌入模型:
BAAI/bge-m3(免费!); - 重排模型:
BAAI/bge-reranker-v2-m3(也免费)。
硅基流动对很多模型有免费配额,知识库这种场景一两年都用不完。
5.5.4 创建知识库
- 左侧 "知识库" 图标 → "新建知识库";
- 命名
合同库 v1; - 选嵌入模型
bge-m3; - 选重排模型
bge-reranker-v2-m3; - 创建。
然后把你的 5-10 份 PDF 拖进去。
Cherry Studio 会自动:
- OCR 识别(如果是扫描件);
- 切片(默认 1000 字 + 200 字 overlap);
- 嵌入;
- 入库。
整个过程 1-5 分钟,你能看到进度条。
5.5.5 第一次问问题
回到主聊天界面:
- 选一个对话;
- 在输入框上方点击"知识库"图标,勾选你刚建的"合同库 v1";
- 输入:
请帮我列出当前知识库里所有合同的:合同编号、签订日期、甲乙双方、合同金额。用表格输出。
- 发送。
DeepSeek 收到的是"你的合同片段 + 你的问题",它给的回答完全基于你的合同——但 DeepSeek 不会保存你的合同原文(按隐私协议它只看不存)。
如果你连"看一眼"都不想让外人看——下一步,纯本地。
5.5.6 完全本地化(数据零上传)
如果你想所有数据 100% 本地——把 LLM 也换成本地的:
- 安装 Ollama:
brew install ollama(Mac)或 ollama.com 下载(Win); - 拉一个中文模型:
ollama pull qwen2.5:14b
或者 8B 更小:
ollama pull qwen2.5:7b
- Cherry Studio 设置 → "模型服务" → "Ollama" → 自动检测 → 选 qwen2.5;
- 知识库的嵌入模型也换成本地的:
ollama pull bge-m3→ 在 Cherry Studio 选; - 关掉网络试一下——完全离线,知识库照样工作。
这是律师、医生、家庭隐私党最爱的玩法。
5.6 三条路线的横向对比
| 维度 | NotebookLM | ima | Cherry Studio |
|---|---|---|---|
| 注册难度 | 要 Google 账号 | 微信扫码 | 下载客户端 |
| 国内可用 | 要翻墙 | ✓ | ✓ |
| 数据上云 | Google 云 | 腾讯云 | 看你怎么配 |
| 本地完全离线 | ✗ | ✗ | ✓ |
| 引用质量 | ★★★★★ | ★★★★ | ★★★★ |
| 多人共享 | ✓(Editor) | ✓(团队库) | ✗(个人为主) |
| 一键播客 | ✓ | ✗ | ✗ |
| 微信公众号机器人 | ✗ | ✓ | ✗ |
| 多模型切换 | ✗ | 限定 | 100+ |
| 价格(个人) | 免费够用 | 免费够用 | 免费 + API 几元/月 |
| 学习曲线 | ★ | ★ | ★★ |
第一次推荐:
- 能翻墙,要体验最佳——选 NotebookLM;
- 不想折腾、要中文好——选 ima;
- 有隐私需求 / 想多模型——选 Cherry Studio。
三条路你都走一遍最好——一两个小时就能体验完。
5.7 一些"第一次"会遇到的小问题
Q1:上传后等了很久没反应?
- 是不是 PDF 太大(>50 MB)?拆开成小份;
- 是不是扫描件 PDF?需要工具做 OCR,可能慢一点;
- 是不是网速慢?换好网络。
Q2:AI 答得不准、答非所问?
99% 是这两个原因之一:
- 资料里确实没有这个信息——它没编算诚实;
- 问题问得太模糊——下章我们专门讲"提问技巧"。
Q3:扫描件读不出来怎么办?
- NotebookLM、ima 自带 OCR,应该能读;
- Cherry Studio 早期版本 OCR 一般,建议先用专门工具(如 PaperEar、TextIn、白描)做 OCR 转成可搜索 PDF,再上传。
Q4:我能不能让它回答时"只引用一份合同"?
- NotebookLM:左侧 sources 列表,点亮一个文件——AI 就只读那个;
- ima:在对话时 @ 文件名;
- Cherry Studio:知识库切换/筛选。
Q5:能不能"持续追加"新合同?
可以。所有工具都支持"已建的库继续加文件"——会自动增量索引。
Q6:Token 烧多少钱?
- NotebookLM、ima 免费档:0;
- Cherry Studio + DeepSeek:一次问答约 0.01-0.05 元;
- Cherry Studio + 本地 Ollama:电费忽略不计。
5.8 进阶动作:让你的知识库再"准"一截
第一次跑通之后,做这 4 个调整,准确率立刻提升:
5.8.1 给每份合同加"标题前缀"
把文件名改成"标准化"格式:
[2024-04-15][甲方-乙方][合同金额][分类标签].pdf
例如:
[2024-04-15][腾讯-字节跳动][500W][技术服务合同].pdf
这样 AI 在引用时显示的来源就非常清晰——一眼能看出"这条结论来自 2024-04 跟字节签的那份"。
5.8.2 给知识库加"使用说明"(System Prompt)
NotebookLM 没法改 System Prompt,但 ima 和 Cherry Studio 都可以。
设置一个"严格基于资料回答 + 标引用"的指令:
你是一个严谨的合同分析助手。请严格按以下要求作答:
1. 只基于知识库回答,不要使用资料外的信息;
2. 每条结论必须标注来源:[文件名 P页码];
3. 如果资料里没有答案,请明确说"我在已有资料中未找到相关信息";
4. 如果有时间维度的问题,请按时间倒序排列;
5. 如果输出表格,第一列必须是"合同编号"。
把这段放进 System Prompt,AI 的回答风格立刻"职业化"。
5.8.3 用"分组"管理大量资料
合同多了之后,按"分组"管理:
- NotebookLM:每个 Notebook 是一个分组(如"销售合同""采购合同""劳动合同");
- ima:每个知识库是一个分组;
- Cherry Studio:知识库下面再分子文件夹。
提问时可以只针对一个分组——避免"销售合同的答案跑进采购的"。
5.8.4 定期清洗
每个月做一次"知识库体检":
- 删除过期合同(注明"已归档",不删除);
- 更新法律法规版本;
- 修正错误标签;
- 备份知识库(导出 JSON / 加 Git 版本管理)。
5.9 小成就:把"我的合同助手"用进真实工作
跑通了之后,立刻把它用进真实工作:
| 你是 | 把它用在 |
|---|---|
| 销售 | 写新合同前先问"对方公司过去签过什么条款" |
| 法务 | 审稿前问"我们公司类似条款的标准表述是什么" |
| HR | 起草劳动合同前问"过去 3 年这一岗位的薪资区间" |
| 财务 | 计算开票时问"上次给这家客户的发票内容是什么" |
| 行政 | 找历史合同模板时直接问"找一份 XX 类合同的范本" |
第一周用下来,你会有这种感觉:
"我以前每天有 1-2 小时在'找合同',现在变成了'问合同'——节省的时间够我多睡半小时。"
5.10 把这本"合同助手"复制成你的其他知识库
跑通了"合同库",你下一步可以"复制粘贴"地建出来——
5.10.1 建议建立的"个人 5 大知识库"
- 个人知识库:所有读过的书的笔记、收藏的文章、写过的日记;
- 工作知识库:所有的工作文档、会议纪要、邮件归档;
- 家庭知识库:家人病历、家电说明书、家庭账本;
- 学习知识库:课件、笔记、真题、错题本;
- 副业知识库:你副业相关的所有客户聊天、案例、报价。
每一个的搭建过程,和合同库完全一样——就是改换数据。
5.10.2 建议建立的"团队 3 大知识库"
- 团队 SOP 库:所有内部流程、操作手册;
- 客户案例库:所有签过的客户、做过的项目;
- 会议决议库:所有会议纪要、决策、复盘。
有了这 3 个库,新人入职第一周不再需要"老员工带"——AI 能解答 80% 的问题。
5.10.3 建议建立的"家庭 3 大知识库"
- 家庭健康库:每个家人的病历、用药、复诊;
- 家庭财务库:账本、保险、贷款;
- 家庭日常库:菜谱、家电说明书、维修记录。
有了这 3 个库,照护父母 / 育儿 / 家务一夜变轻。
5.11 一个常见疑问:我能不能"把所有资料合并成一个超大知识库"?
技术上能,但强烈不推荐。
原因:
- 内容太杂,AI 容易跑题——你问合同的事,它可能引用菜谱;
- 召回噪音多,准确率下降;
- 隐私混乱——团队库不能跟个人库混;
- 维护困难——一处错误影响全局。
更好的做法是:
按"用途"建多个小而专的知识库,提问时主动选库。
每个库 50-500 份文件最佳。超过这个数量考虑拆分。
5.12 本章一图回顾
flowchart LR
A[准备资料 5-10 份合同] --> B[选工具]
B --> C1[NotebookLM 翻墙]
B --> C2[ima 国内]
B --> C3[Cherry Studio 本地]
C1 --> D[拖拽上传]
C2 --> D
C3 --> D
D --> E[等 1-3 分钟自动建库]
E --> F[第一次提问 + 看引用]
F --> G[调优: 改文件名 + 加 System Prompt]
G --> H[复制方法搭其他库]
记住三件事:
- 第一次跑通"5-10 份"足够——别贪多;
- 三条路线各有用,建议都试一遍;
- 跑通之后立刻用进真实工作/生活——不用就忘。
5.13 下一章预告
跑通了第一个知识库,你会发现:资料的质量直接决定 AI 的回答质量。
下一章我们就专门讲——怎么准备数据。
我们会讲 6 大资料源(PDF / 网页 / 微信收藏 / 语音 / 视频 / 图片)的处理技巧、7 步清洗法、命名规范、元数据打标——把你的"原始资料"变成"AI 一看就懂的高质量知识"。
读完下一章,你的知识库准确率能再提升 30%。