ORANGE BOOK · RAG

第一章 AI 知识库到底是什么——用大白话讲清楚 RAG


1.1 一句话讲清楚:RAG 就是"先翻书再回答"

我们先把这本书最重要的一句话甩出来。

AI 知识库(RAG)= 让 AI 在回答你之前,先翻一翻你给它的资料,然后基于资料作答。

就这一句。

英文叫 Retrieval-Augmented Generation,三个词分别是:

  • Retrieval(检索):先去找资料;
  • Augmented(增强):用找到的资料"增强"提示词;
  • Generation(生成):再让大模型生成回答。

听起来很高深,本质上就是把"考试模式"从闭卷改成开卷

模式 谁在答题 答题前能做什么 答题质量
闭卷 ChatGPT 直接答 只能凭记忆 看记忆好坏,不知道的就编
开卷(RAG) ChatGPT 答,但先翻书 可以翻你给它的资料 资料里有的它就准,没有的它会说"不知道"

仅此而已。不是新算法,不是新模型,不是新协议。它只是一个让 AI 先翻书再回答的"工作流"。

这件事看起来朴素,但它是 AI 真正能"嵌入你的生活和工作"的唯一办法。


1.2 比喻一:AI 知识库是"外挂大脑"

想象你脑子里装着两块硬盘:

  • 第一块:你出生到现在,自己亲身经历的、亲眼看的、亲耳听的、亲口学的所有东西。比如你爸妈是谁、你家在哪、你上次吃饭点了什么、你公司的客户是谁。
  • 第二块:人类历史上所有的"公开知识"——百科、新闻、教科书、网页、维基、知乎……

ChatGPT、Claude、Gemini 这些大模型,只装着你脑子里的第二块硬盘。它们读了海量的公开知识,但它们完全没有你的第一块硬盘

所以你问 ChatGPT:"请帮我总结一下我们公司去年的销售数据。"它没法回答——因为你公司去年的销售数据不在公开互联网上。

RAG 干的事,就是把你的"第一块硬盘"插进 ChatGPT 的脑子里——它叫"外挂",因为它不是改造大模型本身,而是给大模型多挂一块硬盘。

具体怎么挂?

  1. 你把"自己的资料"丢进一个数据库;
  2. 大模型回答之前,先去这个数据库里翻一翻;
  3. 把翻到的内容塞进自己的"短期记忆"(提示词上下文)里;
  4. 然后基于这块短期记忆作答。

整个过程,大模型本身一个字都没改变。只是它身边多了一个"私人书柜"。

这就是为什么 RAG 这么受欢迎:

  • 它不用动大模型——你今天用 GPT,明天换成 Claude、DeepSeek,知识库都不用动;
  • 它支持随时更新——你昨天写的笔记,今天就能让 AI 读到;
  • 它不会"忘记"——大模型会健忘,但数据库不会;
  • 它可以本地部署——你的资料一个字都不用上传到云端。

记住这一句:

大模型是 AI 的"通用大脑",知识库是 AI 的"私人外脑"。RAG 就是把它们连起来的那根"USB 线"。


1.3 比喻二:AI 知识库是"24 小时不睡觉的图书管理员"

这个比喻是本书最重要的一个,第三章会详细展开。这里先种个种子。

想象你家附近有一个超大的图书馆。

里面有:

  • 你自己的所有藏书(你买的书、你的笔记、你的日记);
  • 你公司的所有档案(合同、政策、会议纪要、客户资料);
  • 你爸妈的所有医疗资料(病历、化验单、CT 片);
  • 你这 10 年所有的微信收藏、知乎收藏、B 站收藏;
  • 你这 5 年所有的工作邮件、聊天记录;
  • ……

这个图书馆里只有"对你重要"的资料,没有人类公开知识——因为公开知识不归你管,谁都能在网上搜。

这个图书馆24 小时开门,里面有一个永远不睡觉的图书管理员

你不管什么时候去,提任何问题,他都能:

  1. 听懂你说的话(哪怕你说得很口语化);
  2. 几秒钟之内翻到相关的书页;
  3. 把书页摊开摆在你面前,告诉你"答案就在这几页里";
  4. 顺便用大白话给你总结一下,并标明出处。

这个图书管理员,就是 RAG。

那个图书馆里的所有书,就是你的"知识库"。

为什么要有这个比喻?因为它会帮你建立两个非常重要的直觉:

直觉 1:图书馆里有什么,决定了你能问到什么

如果你的图书馆只有"中文古籍",你问"如何用 Python 写爬虫",管理员肯定答不上来。

同样的,如果你的知识库里只有"销售合同",你问"我家小孩对什么过敏",AI 也答不上来。

资料的范围 = 你能问的问题的范围。 这是为什么第六章我们要花一整章讲"数据准备"。

直觉 2:管理员的"找书速度"决定了体验

如果管理员翻书慢、翻错位置、记错索引,你问 100 个问题他答错 80 个,你下次就再也不会去这个图书馆。

RAG 系统的核心难点,就是怎么让管理员"找得准、找得快、找得全"。这是为什么第三章我们要讲清楚"切片、向量、Top-K、重排"这些概念。

记住一句话:

RAG 的世界里,"图书馆里有什么"和"管理员怎么找",决定了你的 AI 助手有多聪明。


1.4 比喻三:开卷考试 vs 闭卷考试

这是你向你爸妈、你伴侣、你孩子解释 RAG 时,最容易听懂的版本。

闭卷考试(直接问 ChatGPT)

你坐在一个大教室里。

考官出了一道题:"请问我家王阿姨上次复查血压是多少?"

你只能凭记忆答。但你根本不认识王阿姨。

你可能会说:

  • "正常成人血压一般在 90/60 到 120/80 之间……"(开始讲教科书);
  • "如果王阿姨有高血压病史,可能会偏高一点……"(开始猜);
  • "建议王阿姨咨询专业医生……"(开始打太极)。

考官看完只能给你 0 分。因为你根本就不知道王阿姨是谁,你只会编"看起来很专业的话"。

这就是 ChatGPT 直接回答你"我家事"时的状态——它在一本正经地胡说八道

开卷考试(带着知识库回答)

考官给你的不止是题目,还有一个专门为你准备的资料袋。资料袋里装着:

  • 王阿姨过去 5 年的所有体检报告;
  • 王阿姨主治医生开的所有病历记录;
  • 王阿姨自己每天测血压的小本本(你拍成了 PDF)。

你拿到题目,先去翻资料袋。

5 秒钟之后你找到了:

「2026-04-15 王阿姨在 XX 医院复查,血压 142/88 mmHg,张医生建议氯沙坦 25mg 早晚各一次。」

你直接抄给考官:

"王阿姨上次(2026-04-15)在 XX 医院复查血压为 142/88 mmHg,主治张医生建议氯沙坦 25mg 早晚各一次。资料来源:王阿姨复查病历 P3。"

满分。

而且这个答案,不是你编的,是从资料里"抄"出来的,每一个字都对得上原文。

这就是 RAG。

它做的就是把"AI 答题"从闭卷改成开卷——让 AI 在答题之前,能"翻书"。

而你的知识库,就是那个资料袋。

记住这一句:

没有知识库的 AI 是闭卷考试,凭记忆答;有了知识库的 AI 是开卷考试,凭你给的资料答。


1.5 比喻四:私人顾问 vs 网红主播

最后一个比喻,更接近 RAG 在工作场景的价值。

想象你要做一个重大决策——比如换工作、买房、做手术、签合同。

你有两种选择:

选择 A:去刷一晚上短视频

你打开抖音、刷小红书、看 B 站。

10 个网红 10 个观点,每个都讲得头头是道。

每个观点都"看起来挺有道理",但你完全不知道:

  • 这个网红是谁?专业吗?
  • 他说的"统计数据"是哪来的?
  • 他的建议适不适合"你"这个具体的人?
  • 他会不会其实是某个品牌的代言?

你看了一晚上,更焦虑了。

选择 B:约一个私人顾问

这位私人顾问不是泛泛的"专家",他专门为你服务

他的桌子上摆着:

  • 你过去 10 年的所有工资单和银行流水;
  • 你公司过去 5 年的财报和股权结构;
  • 你这次想跳的公司的招股书和员工评价;
  • 你这个城市过去 20 年的房价和人口数据;
  • 你这次要做的手术的同类病人 5 年随访数据;
  • 你这次要签的合同的所有以前签过的同类条款。

他会基于这些专属于你的资料,告诉你:

  • "根据你的现金流,建议你跳槽时把签字费谈到至少 X 万。"
  • "根据你公司过去 3 年的合同模板,这个客户在这一条上历来比较强势,建议你做最坏打算。"
  • "根据你妈妈过去 5 年的化验单趋势,这次手术后她需要重点关注 XXX 指标。"

每一句话都有出处。每一个建议都是"为你这个人"定制的。

这位私人顾问,就是 RAG 给你的"AI 顾问"。

而那 10 个网红主播,就是 ChatGPT 没装知识库时的样子——它们的建议看起来很专业,但和你这个"具体的人"没有任何关系

记住这一句:

没有知识库的 AI 是网红主播,给你"通用建议";装了知识库的 AI 是私人顾问,给你"为你定制的建议"。


1.6 RAG 不是什么:和这 4 个东西画清边界

只讲"是什么"还不够,我们再讲清楚"不是什么"。

普通人最容易把 RAG 和这 4 件事搞混:

  1. ChatGPT 直接问;
  2. 把 PDF 上传给 ChatGPT;
  3. 长上下文窗口;
  4. 微调(Fine-tune);
  5. MCP(模型协议)。

我们一个一个看。

1.6.1 RAG vs 直接问 ChatGPT

对比维度 直接问 ChatGPT RAG(AI 知识库)
AI 的回答依据 它训练时读过的公开知识 你自己提供的资料 + 公开知识
是否知道你的事 不知道 知道
是否会编(幻觉) 会,特别是不确定时 几乎不会,不知道就说不知道
是否能给出处 不能 ,每条答案都标引用
是否能跟着你的资料更新 不能 ,加文档就更新
适合做什么 写通用文章、查公开知识、头脑风暴 基于你的资料做问答、对比、总结

一句话:你问"今年诺贝尔奖谁拿了"用 ChatGPT;你问"我们公司去年同期销售额"用 RAG。

1.6.2 RAG vs 把 PDF 上传给 ChatGPT

很多人说:"我直接把 PDF 拖进 ChatGPT 不就行了?"

这其实是 RAG 的"原始版本",但有 5 个致命限制:

维度 直接上传 PDF RAG(知识库)
一次能放多少 几 MB / 几十页 几 GB / 几万页
跨多个文件问答 不行(每次只能问 1-3 个) ,几千个文件一起问
是否会"忘" 关掉窗口就忘 持久保存,下次还在
引用是否精确 模糊的"PDF 里说" 精确到第几页第几行
是否能持续追加 不行 ,加新文档自动索引
多人是否能共享 不行 (看工具)

一句话:临时分析一两份文档,直接拖给 ChatGPT;要积累、要持续问、要跨多文档,就用 RAG。

1.6.3 RAG vs 长上下文窗口

2025 年开始,Claude / Gemini / GPT 都支持 100 万 token、甚至 1000 万 token 的上下文窗口。

听起来"我把所有资料一次塞进去不就够了?"——RAG 是不是没用了?

不是。原因有 3 个:

第一,钱包不答应。 长上下文是按 token 计费的。100 万 token 进进出出一次,OpenAI 大概要 5-10 块人民币。如果你每天问 100 次,一个月就是 1.5 万-3 万。RAG 是只把"相关那几页"塞进去,一次只要 1 分钱。

第二,效果不答应。 长上下文有个著名的"Lost in the Middle"问题——大模型会"忘"掉中间部分的内容。1000 页的 PDF 全塞进去,它可能只记得开头和结尾。RAG 因为只塞"相关那几页",反而准确率更高。

第三,速度不答应。 长上下文一次推理可能要等 30 秒到 2 分钟。RAG 因为只处理少量文本,几秒钟就出答案。

一句话:长上下文是"大教室一次塞 1000 个学生",RAG 是"小班一次只来 5 个最相关的学生"——又快又准还便宜。

它们不互斥。事实上 2026 年的最佳实践是 "RAG + 长上下文"组合拳:用 RAG 把范围缩到最相关的 50 页,再用长上下文把这 50 页一次塞进大模型。

1.6.4 RAG vs 微调(Fine-tune)

微调(Fine-tune)是把你的资料"训进"大模型本身,让它学会"你的风格"。

听起来比 RAG 更彻底——为什么不全用微调?

因为微调是给"风格"用的,不是给"事实"用的。

维度 微调 RAG
能让 AI 学会"你的写作风格"吗 部分能(用样本提示)
能让 AI 记住"事实"吗 不能(容易忘、容易编)
数据更新成本 每次都要重新训练(贵) 加文档即可(几乎免费)
引用出处 不能
个人能搞吗 不能(要 GPU、要数据集、要算法)

一句话:要 AI 学"你的风格"用微调,要 AI 记"你的事实"用 RAG。99% 的普通人需要的是 RAG,不是微调。

1.6.5 RAG vs MCP(模型协议)

MCP(Model Context Protocol,模型上下文协议)是 2024 年底 Anthropic 推出的"AI 工具接口标准"。它让 AI 能调用外部工具——发邮件、查数据库、读文件。

很多人会问:MCP 可以让 AI"读我自己的文件",这跟 RAG 有什么区别?

维度 MCP RAG
本质 工具协议(让 AI 调用外部工具) 检索方法(让 AI 基于资料回答)
是否需要预先索引 不需要 需要(先把资料切片建索引)
适合的场景 实时操作(发邮件、改文件、查 API) 大量资料的问答(合同、病历、笔记)
速度 取决于外部工具 几秒内
资料量 几个到几十个文件 几千到几百万个

它们是互补关系:

  • 你要"让 AI 把会议纪要发到飞书"——用 MCP;
  • 你要"让 AI 在 3000 份会议纪要里找 X 公司提过几次"——用 RAG;
  • 你要"让 AI 在 3000 份会议纪要里找 X 公司,再把找到的发到飞书"——MCP + RAG 组合

一句话:MCP 是 AI 的"双手",RAG 是 AI 的"外脑"。一个动手做事,一个动脑找事。


1.7 RAG 能干什么——20 件普通人能做的事

听完这么多原理,举一些具体的例子让你知道 RAG 能改变你的什么生活。

家庭场景(5 件)

  1. 家庭健康档案:把全家人 5 年的体检报告、病历、用药记录丢进去,一句"我妈这次复查的血糖比上次高吗?"得到带原文引用的答案。
  2. 家庭账本问答:把这一年的银行流水、信用卡账单、记账 APP 导出丢进去,问"上个月外卖花了多少?最贵的一单是哪天?"。
  3. 育儿百科:把孩子的疫苗本、生长发育记录、过敏史、喂养笔记丢进去,问"我家娃下次打的是什么疫苗?什么时候打?"。
  4. 家电说明书:家里所有电器的说明书拍照丢进去,问"洗衣机怎么洗羽绒服?空调外机滴水怎么办?"。
  5. 菜谱与采购助手:把你常做的 200 道菜谱、家人的过敏食材、常买的超市清单丢进去,问"今晚有番茄、鸡蛋、土豆,做什么省事?"。

工作场景(5 件)

  1. 销售合同库:把 5 年所有签过的合同丢进去,问"上次签 X 公司时,他们对违约金条款的反应是什么?"。
  2. 客服 FAQ:把所有用户问过的问题、客服回答、产品手册丢进去,问"用户问押金能不能退,应该怎么回?"。
  3. 会议纪要库:把所有的会议纪要丢进去,问"X 项目上次拍板的负责人是谁?什么时候交付?"。
  4. 政策法规库:把所有的国家、行业、公司政策丢进去,问"这次客户要求延迟付款 60 天,违反了我们哪条政策?"。
  5. 招聘候选人库:把所有的简历和面试评价丢进去,问"找一个 25-30 岁、懂医疗、会一点 SQL 的候选人。"。

学习场景(5 件)

  1. 考研真题库:把过去 10 年所有真题、答案、自己的笔记丢进去,问"这个知识点在历年真题里出过几次?最难的一次是哪年?"。
  2. 论文文献库:把读过的 200 篇论文丢进去,问"哪些论文支持 X 假设?哪些反对?"。
  3. 课件笔记库:把所有的课件、笔记、网课字幕丢进去,问"上学期老师讲过的『傅里叶变换』在哪节课?"。
  4. 读书卡片库:把读过的所有书的笔记和金句丢进去,问"关于『复利』,哪些书有最深入的论述?"。
  5. 写作素材库:把自己平时收藏的所有金句、案例、数据丢进去,问"我写过的关于『教育焦虑』的素材有哪些?"。

生活进阶场景(5 件)

  1. 旅行助手:把目的地的攻略、自己的偏好、签证材料丢进去,问"3 月去东京 5 天,预算 1 万,怎么安排?"。
  2. 法律小助理:把劳动合同、租房合同、消费纠纷类法律条文丢进去,问"我老板让我写离职申请书,但说不给赔偿,我该怎么办?"。
  3. 写作风格教练:把自己写过的所有文章丢进去,问"基于我的过往风格,帮我写一篇关于 X 的开头。"。
  4. 个人日记知识库:把过去 10 年的日记丢进去,问"我上次提到失眠是什么时候?最近这次和上次相比有什么变化?"。
  5. 副业积累器:把自己做副业 3 年的所有客户聊天、报价、案例丢进去,问"我这种类型的客户,平均成交价是多少?最容易掉单的环节在哪?"。

1.8 一张总览图:RAG 在 AI 世界里的位置

flowchart TB
    subgraph Brain[AI 的能力来源]
        A[大模型本身的训练知识]
        B[实时调用外部工具 MCP]
        C[查阅你的私人资料 RAG]
        D[长上下文一次塞进去]
        E[微调改造模型本身]
    end
    User[你] --> Brain
    Brain --> Answer[最终回答]

    style C stroke:#f60,stroke-width:3px

橙色框就是 RAG 的位置——它专门负责"查阅你的私人资料"

不要把它和 MCP(执行工具)、长上下文(一次塞进去)、微调(改造模型)混淆。

它们 5 个可以同时存在——一个真正强大的 AI 助手,会同时用上好几个。


1.9 一个简单自检:你需不需要 RAG?

读到这里,你可能在问自己:"我到底需不需要搭一个 RAG?"

下面 10 道题,你只要有 3 道及以上"是",就值得花一个周末看完这本书。

  1. 你有超过 50 份重要文件(合同/笔记/论文/病历/说明书)经常需要"找某一句话"。
  2. 你曾经因为"想不起来某份文件在哪"而焦虑超过 30 分钟。
  3. 你试过用 ChatGPT 处理"自己的资料",结果它编了你看不懂的话。
  4. 你试过把 PDF 拖进 ChatGPT,但发现"换个问题就要重新拖一次"。
  5. 你的工作里有"重复回答同样的问题"的环节(客服、销售支持、内部 FAQ)。
  6. 你有家人需要长期照护,要追踪用药/化验/复诊。
  7. 你是学生/教师/研究者,有大量论文/课件/笔记需要持续检索。
  8. 你是创作者,希望 AI 能基于"你自己写过的东西"风格化输出。
  9. 你担心隐私,希望 AI 处理你的资料时不要上传云端
  10. 你想给爸妈/伴侣/孩子一个"为他们定制"的 AI 助手。

如果你勾了 5 条以上——这本书是为你量身写的


1.10 几个最常见的疑问

Q1:搭一个 RAG 需要多少钱?

  • 零成本起步:NotebookLM、ima、Coze 都有免费档,能放 50-100 份文档。
  • 进阶:用 Cherry Studio + DeepSeek API,平均一次问答成本约 0.01-0.05 元,一个月一两百块够用。
  • 企业级:自建 Dify / RAGFlow,硬件 + 模型 API 一年 1 万-10 万不等。

普通人 80% 的需求都能用免费档解决。

Q2:搭一个 RAG 需要多长时间?

  • 第一个能跑的版本:5-15 分钟(NotebookLM 拖文件就行);
  • 能用得顺手的版本:1-2 个晚上(学会数据准备、提问技巧);
  • 能服务全家人的版本:1 个周末;
  • 能服务公司团队的版本:1-2 周(含权限、安全、运维)。

Q3:我的资料会不会泄露?

  • 用 NotebookLM、ima 等云端工具:资料上传到云端,但厂商一般承诺"不用于训练"。
  • 用 Cherry Studio + 本地模型 / Dify 自托管 / RAGFlow:资料一个字都不会上传云端
  • 第十二章会专门讲"隐私与安全清单"。

Q4:我不会写代码,能搭吗?

100% 能。

本书的所有"实战章节",都不要求你会编程。第五章用 NotebookLM 拖文件搭知识库,连命令行都不用碰。第十一章讲的本地部署,用 Cherry Studio 也是图形界面。

Q5:会不会过几年这个东西就过时了?

短期内不会。原因:

  1. 大模型再聪明,也永远不知道"你自己的私事"——这是物理定律,不是技术问题。
  2. 2026 年发布的所有"AI 助手"产品,本质都是 RAG 的变种——NotebookLM、ima、Coze、Dify 都是。学会原理就一通百通。
  3. 2030 年之后可能会出现更好的范式(比如"持续学习"),但即使那样,RAG 学到的"数据准备""提问技巧"也都是迁移有效的。

1.11 本章一图回顾

flowchart LR
    Q[你的问题] --> R[RAG 系统]
    R --> S1[第一步: 去你的知识库里翻]
    S1 --> S2[第二步: 找到最相关的几段]
    S2 --> S3[第三步: 把这几段塞进 AI 的提示词]
    S3 --> S4[第四步: AI 基于这几段作答]
    S4 --> A[带原文引用的答案]

记住三个关键点:

  1. RAG = 给 AI 装一块"私人外脑"——不是新算法,是新工作流;
  2. 本质是"开卷考试"——AI 答之前先翻你给的资料;
  3. 它不是为了取代 ChatGPT/MCP/长上下文/微调,而是和它们组合使用

1.12 下一章预告

下一章我们会反过来讲——没有知识库的 AI,到底有多"瘸"?

我们会用 5 个真实痛点(不知道你的资料、一本正经胡说、不知道近期事、不会算公司数据、不会读你的 PDF)让你彻底感受到:"为什么 RAG 不是锦上添花,而是雪中送炭。"

读完下一章,你会明白:你这两年用 ChatGPT 时遇到的"它就是不行"的所有时刻,本质上都是因为它没有知识库