ORANGE BOOK · RAG

第二章 没有知识库的 AI 有多"瘸"——5 个真实痛点


2.1 为什么我们要先讲"AI 不行的时候"

绝大多数 AI 入门书都在讲"AI 多厉害"。

这本书反过来——我们先讲"AI 不行的时候"。

为什么?因为:

  1. 你只有先看清"AI 不行",才知道 RAG 救的是哪部分——不然你会过度依赖 AI,把不该交给它的事也交给它。
  2. 你只有体会过"它装作很懂但其实在编"的尴尬,才会真正在乎"答案有没有引用、引用准不准"。
  3. 你只有知道"哪些场景必须 RAG",才不会浪费时间——比如"今天天气怎么样"用 RAG 是大材小用。

所以这一章我们会用 5 个真实痛点,把没有知识库的 AI 的"瘸腿之处",扒得干干净净。

每个痛点都按这个结构讲:

  1. 故事场景:一个具体的人、具体的需求;
  2. 没有 RAG 时:AI 是怎么尴尬的;
  3. 加上 RAG 后:AI 是怎么变利索的;
  4. 底层原因:为什么没有 RAG 就一定会出这个问题。

2.2 痛点一:AI 完全不知道"你的事"

故事:刚换工作的小赵

小赵刚跳槽到一家做医疗器械的销售公司。

入职第一天,老板甩给他一句话:"这个月底之前给 X 医院的张主任出一份方案,模仿我们去年给 Y 医院出的那一版。"

小赵打开 ChatGPT,问:

"请按照我们公司给 Y 医院出过的方案模板,给 X 医院张主任出一份采购方案。"

ChatGPT 说:

"您好!我无法访问您公司给 Y 医院的具体方案模板。不过基于一般的医疗器械采购方案常用结构,建议包含以下 8 个部分:1. 项目概述 2. 需求分析 3. 产品方案……"

它给了一份通用模板——和小赵公司的真实模板可能毫无关系。

小赵交上去之后,老板看了 5 秒钟说:

"这是 ChatGPT 写的吧?我们公司从来不写'项目概述',开头一律写'尊敬的 X 主任'。这种格式我们 5 年前就不用了。"

小赵当场尴尬。

加上 RAG 之后

小赵把公司过去 5 年所有的"医院采购方案"丢进知识库(用 NotebookLM)。

他再问:

"请按照我们公司给 Y 医院出过的方案,套用同样的格式、同样的话术、同样的报价区间,给 X 医院张主任写一份采购方案。"

知识库 2 秒钟翻出了"Y 医院 2023 方案.pdf",并基于它生成了一份格式、话术、报价都贴着公司风格的方案——每一段都标注了引用自原方案的哪一页哪一段

老板看完只改了 2 个字。

为什么会这样

ChatGPT、Claude、Gemini、DeepSeek……这些大模型的训练数据来自:

  • 维基百科、网页、新闻、论文、书籍;
  • GitHub 公开代码;
  • 部分公开的对话语料。

它们的训练数据里,没有"小赵公司的内部方案"——这是物理事实,不是技术问题。

哪怕是 GPT-100、Claude-50,也永远不可能知道你公司的内部方案——因为这些方案根本没出现在它的训练数据里。

这就是 RAG 存在的根本原因——把"AI 不可能知道的事",告诉它

一句话总结:AI 的"通用聪明"和"懂你的事"是两件完全不同的事。前者靠模型,后者靠 RAG。


2.3 痛点二:AI 会一本正经地"胡说八道"

故事:写论文的研究生小钱

小钱在读硕士第二年,要写一篇关于"中国新能源车出海现状"的综述论文。

她打开 ChatGPT,问:

"请帮我列出 2024-2025 年关于中国新能源车出海的 5 篇核心学术论文,包括标题、作者、期刊、发表时间、核心观点。"

ChatGPT 给了她一份漂亮的列表:

  1. 《中国新能源汽车出海战略研究》,张明等,《管理世界》,2024(7),提出"三步走"战略……
  2. 《BYD 在欧洲市场的渠道下沉路径》,李华等,《国际贸易问题》,2024(12),认为渠道是核心壁垒……
  3. 《中欧电动车贸易摩擦的政策应对》,王刚等,《国际经贸探索》,2025(3),建议建立预警机制…… ……

5 篇论文,每一篇看起来都像是"真的"——有标题、有作者、有期刊、有期号、有页码。

小钱兴奋地把这 5 篇加到论文参考文献里,准备引用。

她导师审稿时,当场把论文摔在桌子上

"钱同学,你这 5 篇参考文献,我去知网、维普、中国学术期刊网,一篇都查不到。你是不是用 ChatGPT 编的?"

小钱后背发凉。

她回去查证——果然,5 篇论文里 4 篇是 ChatGPT 编的。作者名是真的(这些教授确实存在),期刊是真的(《管理世界》确实是核心期刊),但**"这两个东西的组合"是 ChatGPT 自己拼凑出来的——根本没这篇论文**。

这种情况在 AI 圈有个专门的词,叫 Hallucination(幻觉)——AI 在不知道答案的时候,会"编"一个看起来很真实的答案。

更要命的是:它编的时候非常自信,不会主动告诉你"我猜的",反而会说得言之凿凿。

加上 RAG 之后

小钱跑了一个简单的 RAG——把"中国知网"的论文检索 API 接进去,让 AI 回答时只能引用知识库里真实存在的论文

她再问同样的问题。

这一次 AI 给她的列表里,每一篇都标了知网的 DOI 链接。点进去,每一篇都真实存在。

她又问:"给我列 30 篇。"

AI 这次说:

"知识库里关于这个主题的核心论文目前只有 18 篇。是否需要我列出全部 18 篇?"

不会再编了。它知道就是知道,不知道就说不知道。

为什么会这样

大模型本质上是一个"猜下一个字"的程序(这一点在我们 《AI 橙皮书》第一章 里讲过)。

它不知道"什么是真什么是假",它只知道"在这种语境下,下一个字最像什么"。

所以当你问"请列出 5 篇论文"——

  • 它的训练数据里,"列出 X 篇论文"后面通常跟着 像论文标题 的字符串;
  • 它就开始生成一些"看起来像论文标题"的字符串
  • 它不知道这些"标题"是不是真存在;
  • 它也没法去知网查证。

它在做的事情,是"模仿一个像样的回答",而不是"找一个真实的答案"。

只要它的"训练里没读过具体的事实",它就会用编造来填补

而 RAG 的设计哲学就是:

不要让 AI 自己想。让它从"已经存在的资料里"找答案。找不到就老实说找不到。

一句话总结:AI 编出来的答案像真的,是因为它的工作就是"让答案像真的"。RAG 强迫它"找出处",编不下去就说不知道。


2.4 痛点三:AI 不知道"最近的事"

故事:做投资的孙阿姨

孙阿姨 56 岁,退休前是一家国企的财务,现在自己在家炒股。

2026 年 4 月某天,她打开 ChatGPT,问:

"请帮我分析一下宁德时代最近一个季度的财务表现,还有最近一个月有什么重大新闻。"

ChatGPT 说:

"宁德时代是中国领先的动力电池生产商。根据 2024 年第三季度财报,公司实现营收 XX 亿元,同比增长 XX%……(巴拉巴拉一大堆)"

孙阿姨愣住了——今天是 2026 年 4 月,怎么 ChatGPT 给的还是 2024 年第三季度的数据?

她追问:"最新的一个季度的财报呢?"

ChatGPT 说:

"我的训练数据截至 2024 年 X 月,无法提供之后的财报数据。建议您查阅公司官网或巨潮资讯网。"

孙阿姨翻了一个白眼。

她想看的就是"最近"啊。如果要她自己去巨潮资讯网翻,那她要 ChatGPT 干什么?

加上 RAG 之后

孙阿姨用了一个内置了"实时财经数据"的 AI 工具(比如 ima、文心一言、豆包都有类似的"实时检索"功能,本质上就是一种 RAG)。

她再问:

"请帮我分析一下宁德时代最近一个季度的财务表现,还有最近一个月有什么重大新闻。"

AI 这次给她:

  • 2025 年第四季度财报数据(2026 年 3 月刚发布);
  • 2026 年 4 月的 5 条重大新闻(带原文链接);
  • 一份基于这些数据的"快速分析"。

每一条数据都有出处。每一条新闻都点得开。

孙阿姨满意了。

为什么会这样

大模型有一个"知识截止日期"(Knowledge Cutoff)——就是它训练时读到的最新数据是哪天。

模型 当前(2026-04)的训练截止时间
GPT-5 2025 年 10 月
Claude 4 2025 年 12 月
Gemini 3 2025 年 11 月
DeepSeek V3 2025 年 6 月
文心 5 2025 年 9 月
通义 3 2025 年 8 月

这意味着:今天发生的所有事,AI 的"内置大脑"完全不知道

它要么不回答(正常情况),要么瞎回答(糟糕情况)。

而 RAG 是怎么解决的?

它把实时检索(如 Bing 搜索、Google 搜索、企业内网搜索)接进 AI——AI 答题前先"实时翻一下"互联网或数据库。

这种"实时 RAG"是 2026 年所有主流 AI 助手的标配——

  • ChatGPT 的"Browse with Bing";
  • Claude 的"Web Search";
  • Gemini 的"Google Search Grounding";
  • 文心、通义、豆包、Kimi 的"联网搜索"开关;
  • ima 的"实时网页"。

它们本质上都是 "实时网页 RAG":把"今天的新闻"当成知识库来检索。

一句话总结:AI 的内置大脑停在去年某天。要让它知道"今天的事",必须给它接一个"实时检索"——这也是 RAG。


2.5 痛点四:AI 不会"算"你的私有数据

故事:做电商的周老板

周老板开了一家淘宝店,主营宠物用品。

2026 年 4 月,他想做季度复盘——他下载了 Q1(1-3 月)的所有订单数据,一个 Excel,8 万多行

他打开 ChatGPT,把 Excel 拖了进去,问:

"请帮我分析这份订单数据,告诉我:

  1. Q1 哪个 SKU 卖得最好?
  2. 客单价最高的 10 个客户是谁?
  3. 退货率最高的 SKU 是哪个?
  4. 复购率最高的客户类型是什么?
  5. 周末和工作日的销售差异有多大?"

ChatGPT 思考了一会儿,说:

"感谢您提供数据。基于您上传的 Excel 文件分析(请注意:由于文件较大,部分数据可能未完全加载),结果如下……"

它给了一份"分析报告"。

但周老板细看,发现:

  • "卖得最好的 SKU 是 S001 — 猫粮 5kg 装"——但他根本没有 S001 这个 SKU
  • "客单价最高的客户是张三,平均 800 元"——他打开 Excel 一查,张三客单价才 200 元
  • "复购率 23%"——他自己算了一下,实际是 17%

数据全错。

为什么?

因为 ChatGPT 根本就没"看完"那 8 万行——它只随便读了几百行就开始"猜"。

更要命的是它装作看完了

加上 RAG 和"代码执行"之后

周老板换了一个工具——Code Interpreter(GPT 的代码解释器) / Claude 的 Analysis 工具 / 通义的"高级数据分析",这些工具的本质是 "用 RAG + 代码执行"组合处理大数据

他再上传同样的 Excel,问同样的 5 个问题。

这次 AI 不再"假装看完",而是:

  1. 第一步:写一段 Python 代码,用 pandas 读 Excel;
  2. 第二步:运行代码,统计每个 SKU 的销售额;
  3. 第三步:把统计结果(真实数据)作为答案;
  4. 第四步:附上代码,让你自己也能复算。

每个问题的答案都对得上。

为什么会这样

大模型在"看大段文本"和"算大段数据"上的能力是完全不一样的

  • 看文本:它擅长(这是它的本职工作);
  • 算数据:它很差(它本质上是个"猜下一个字"的程序,不是"算下一个数"的程序)。

所以当你直接把一个 8 万行的 Excel 丢给它,它会:

  • "读"前几百行;
  • "猜"剩下的;
  • "编"一个看起来合理的统计结果。

要让 AI 真的"算对"你的私有数据,正确的方式是:

  1. 把大段数据存到一个数据库或表格里(你的"知识库");
  2. 让 AI 写代码去查询数据库(而不是自己心算);
  3. 数据库返回真实结果,AI 基于真实结果作答。

这套组合,就叫 Text-to-SQL RAG / Tabular RAG

它是 RAG 的一种特化形式——专门给"表格数据"用的 RAG

一句话总结:AI 自己心算大数据 = 编结果。让 AI 写代码查数据库 = 真结果。后者就是 RAG 的另一种形态。


2.6 痛点五:AI 不会"读"你的扫描件 / 图片 / 视频

故事:要打官司的吴律师

吴律师在帮一个客户打劳动仲裁。

客户提供了 100 多张证据:

  • 30 张"工资条"——是公司打印出来又签字的纸质件,扫成了 PDF;
  • 20 张"考勤记录"——是公司打卡机导出的 PDF(带表格);
  • 50 张"微信聊天截图"——是 PNG 图片;
  • 5 段"录音"——是 .m4a 文件,每段 30 分钟。

吴律师打开 ChatGPT 4o(号称"多模态",能看图),把第一张工资条扔进去:

"请帮我提取这张工资条上的所有数据,包括基本工资、绩效、社保、个税、实发金额。"

ChatGPT 看了一眼,说:

"我看到这是一张工资条,包含基本工资、绩效奖金等项目。具体金额请您查阅图片确认。"

它没读出具体金额。它只是"看见了图片,描述了一下表面结构"。

吴律师试了 3 张,全是这种"看是看见了,但读不出数据"的回答。

他绝望地问 ChatGPT:"你不是号称能看图吗?为什么读不出工资条上的数字?"

ChatGPT 说:"为了保护用户隐私,我不直接读取财务凭证上的具体金额,建议您手动输入。"

——纯粹推卸责任的话。实际上是"它真读不出来"。

加上专业 RAG 之后

吴律师换了一套带 OCR(光学字符识别)的 RAG 系统——比如 MinerU + Cherry Studio,或者直接用 NotebookLM(自带 OCR)。

他把 30 张工资条全部上传。

工具自动:

  1. OCR 识别:把图片里的文字转成可搜索的文本;
  2. 表格识别:把工资条的表格结构识别出来;
  3. 切片建索引:每张工资条作为一个文档片段;
  4. 向量化:把文本转成向量存入数据库。

3 分钟后,他问:

"请把过去 30 个月的实发工资列成表格,并指出哪个月扣了五险一金、哪个月没扣。"

工具给他一份完整的表格——每一行都标着引用自第几张工资条

他对着客户原件复核,100% 正确

后来他对录音做了同样的事——用一个带"语音转文字 + RAG"的工具(如 Notta、飞书妙记 + 上传 NotebookLM),把 5 段录音转成文字,再问"对方在录音里有没有承认强制加班"。

工具引用了第 3 段录音 14:32 的原话:"我们这周末必须来加班,不来扣绩效。"

吴律师赢了官司。

为什么会这样

大模型的"多模态"能力分两种:

  1. 图片描述能力:能"看见"图,描述大致内容(这个 GPT-4o、Claude 4、Gemini 3 都很强);
  2. 图片精确读取能力(OCR):能精确读取图上的每一个字符(这个通用大模型很弱)。

为什么 ChatGPT 读工资条会拒绝?因为:

  • 它的多模态训练侧重"自然图片描述"(猫狗、风景、艺术品);
  • 它对结构化文档(工资条、表格、扫描件)的精确识别能力远不如专业 OCR
  • 它"读不准"的时候,会本能地说"建议您手动输入"——其实是 "我读不出来,但又不能直接说我不行"

而 RAG 的解决方案是:

  1. 用专业的 OCR 工具(PaddleOCR、Tesseract、MinerU、TextIn)先把图片"翻译"成文本;
  2. 把文本喂进 RAG
  3. 大模型就能精准回答

这一类"先 OCR 再 RAG"的工具,2026 年已经非常成熟。NotebookLM、ima、Cherry Studio、AnythingLLM 全部内置了高质量 OCR——你不用自己装,拖文件就能用

一句话总结:通用大模型"看图"≠"读图"。要让 AI 真正读懂扫描件、图片、视频,必须经过 OCR / ASR 把它们变成文字,再让 RAG 接管。


2.7 5 大痛点的本质——AI 的"五个先天缺陷"

我们把这 5 个痛点放在一张表里,你会看到一个清晰的图景:

痛点 AI 的先天缺陷 RAG 是怎么补的
1. 不知道"你的事" 训练数据里没有你的私人/公司资料 把你的资料挂载成"外部知识源"
2. 一本正经胡说 不知道答案时会"编",且很自信 强制基于"找到的资料"回答,没找到就承认
3. 不知道"最近的事" 训练有截止日期 实时检索网页 / 数据库
4. 算不对私有数据 不会精确数值计算 让 AI 写代码查数据库
5. 读不懂扫描件 OCR / ASR 能力弱 先用专业工具识别再 RAG

这 5 个缺陷不是哪个模型独有的,是所有大语言模型的共性

GPT-5、Claude 4、Gemini 3、DeepSeek V3、文心 5、通义 3、豆包 1.6——全部都有

它们之间只是"程度"差别——比如 Claude 4 的幻觉比 GPT-5 少一些,但都还会有

要彻底解决,必须靠 RAG。


2.8 一个反例:什么时候你不需要 RAG

为了避免你"过度推销 RAG",我们也讲一个反例——

当你只是想"通用聊天"时,你不需要 RAG。

具体来说:

  • "今天写一首关于春天的诗" → 不需要 RAG(这是创作题);
  • "帮我把这段话翻译成英文" → 不需要 RAG(这是通用能力);
  • "Python 的 for 循环怎么写" → 不需要 RAG(这是公开知识);
  • "推荐一些好看的科幻电影" → 不需要 RAG(这是泛化推荐);
  • "今天天气怎么样" → 不需要 RAG(这是实时检索,不是知识库)。

什么时候需要 RAG?

当你的问题答案"必须基于某份特定资料"时,就需要 RAG。

  • "帮我对照公司去年的合同模板写新合同" → 需要 RAG
  • "我妈这次复查血糖比上次高吗" → 需要 RAG
  • "我们 Q1 哪个 SKU 卖得最好" → 需要 RAG
  • "我的客户上次邮件说什么" → 需要 RAG
  • "给我列出这本书第三章的核心观点" → 需要 RAG

判断标准很简单——问"如果不给资料,AI 能不能答对?",答不对的就需要 RAG


2.9 RAG 还能解决的"隐藏痛点"

除了上面 5 个最显眼的痛点,RAG 还能顺手解决一些很多人没意识到的"隐藏痛点"。

隐藏痛点 1:每次都要"重新告诉 AI 我是谁"

不用 RAG 的时候——你每次开新对话,都要从头介绍:

"我是一家做医疗器械销售的,公司主营 B2B 业务,主要客户是 X 类医院……"

用 RAG——你把"公司介绍.md"放进知识库,所有对话都自动调用。AI 一上来就知道你是谁。

隐藏痛点 2:长对话窗口里 AI 会"忘"

不用 RAG 的时候——一个对话超过 50 轮,AI 就开始忘记前面的内容。

用 RAG——把"重要信息"沉淀到知识库,AI 永远能查到,永远不会忘

隐藏痛点 3:换模型就得"重新教一次"

不用 RAG 的时候——你今天用 GPT-5,明天换 Claude 4,所有对你的"了解"都没了。

用 RAG——知识库与模型解耦,换模型不影响知识库。今天 GPT,明天 Claude,知识库还是那个知识库。

隐藏痛点 4:没法多人共享"AI 对我的理解"

不用 RAG 的时候——你和 AI 的对话历史只有你能看到。

用 RAG——团队共享一个知识库,全公司的 AI 都基于同一个"事实库"回答。客服小赵和小钱回答"押金能退吗"用的是同一个 SOP。

隐藏痛点 5:AI 给的建议不会"随你成长"

不用 RAG 的时候——AI 永远给"通用建议",因为它不知道你过去做过什么、效果如何。

用 RAG——把你过去 3 年的"决策日志"丢进去,AI 能给"贴着你的经验"的建议——它知道你做 A 类决策的成功率、做 B 类决策时常踩什么坑。


2.10 一个有点扎心的真相

讲完 5 个痛点 + 5 个隐藏痛点,我们说一句可能让人难以接受的真相:

2024-2025 年,绝大多数普通人对 AI 的失望,本质上不是因为"AI 太傻",而是因为"用法不对"。

具体来说——

  • 你失望"AI 不懂你的事",是因为你没给它你的事
  • 你失望"AI 在编",是因为你没强迫它基于资料答
  • 你失望"AI 不知道最新消息",是因为你没开它的联网检索
  • 你失望"AI 算不对数据",是因为你没让它用代码工具
  • 你失望"AI 读不懂扫描件",是因为你没让它先 OCR

所有这些,本质上都是"你没用 RAG"。

学会 RAG 之后,你会重新认识 AI——你会发现它一直可以"很懂你",只是过去没人告诉你怎么"教它"。


2.11 本章一图回顾

flowchart TB
    AI[大模型自己]
    AI --> P1[痛点1: 不知道你的事]
    AI --> P2[痛点2: 不知道就编]
    AI --> P3[痛点3: 不知道近期事]
    AI --> P4[痛点4: 算不对私有数据]
    AI --> P5[痛点5: 读不懂扫描件]

    R[RAG 知识库]
    R --> S1[挂外部资料]
    R --> S2[强制基于资料答]
    R --> S3[实时检索网页]
    R --> S4[让 AI 写代码查数据库]
    R --> S5[OCR/ASR 后接管]

    P1 -.补.-> S1
    P2 -.补.-> S2
    P3 -.补.-> S3
    P4 -.补.-> S4
    P5 -.补.-> S5

记住三句话:

  1. AI 的 5 大缺陷是"先天的"——再聪明的模型也有;
  2. RAG 是这 5 大缺陷的"统一解药"——它不是优化模型,而是补上模型的盲区;
  3. 不用 RAG 的 AI 有 80% 的潜力是浪费的

2.12 下一章预告

知道了"为什么需要 RAG",下一章我们就要讲"它到底是怎么工作的"。

下一章我们会用一个贯穿全程的"图书馆比喻"——从"切书签"到"建索引"到"听问题"到"抽相关页"——5 分钟让你彻底看懂 RAG 的内部流程,零数学讲清 chunk / embedding / 向量库 / Top-K / 重排序这 5 个核心概念。

读完下一章,你就能理解市面上几乎所有 RAG 工具的"工作原理"——再也不会被任何术语吓到。