术语表 · RAG 橙皮书

A

Agent（智能代理 / 智能体）

黑话：能自主调用工具、规划任务、执行多步操作的 AI。

白话：一个"会自己想 → 自己干"的 AI 小机器人——不只回答你问题，还能"帮你订票、查邮件、操作软件"。

Agentic RAG

黑话：AI 代理 + RAG 的结合，AI 主动决定"要不要查、查什么、查几次"。

白话：让 AI 像你一样思考——"嗯，这个问题我得先查一下""第一次查得不够，再查一次"。

Anthropic Contextual Retrieval

黑话：Anthropic 提出的检索增强方法，给每个切片"加上整个文档的上下文摘要"。

白话：每个切片不只装"这一段内容"，还装"这一段属于哪一章、整个文档说什么"——召回精度大幅提升。

B

BM25

黑话：经典关键词检索算法，基于词频统计。

白话：传统的"按字面找"——你搜"押金"，找出所有出现"押金"的段落。

BGE（BAAI General Embedding）

黑话：智源研究院出的开源中英文嵌入模型系列。

白话：把中文（或英文）"翻译"成数字向量的最好开源工具——免费、效果很好。

BGE-M3

黑话：BGE 系列里支持中英文 + 长文本 + 多种检索模式的全能嵌入。

白话：2026 年中文 RAG 默认嵌入模型——不知道选啥就选它。

BGE-Reranker

黑话：BGE 系列的重排序模型。

白话：检索出 100 段后，再"精排一次"挑最好的 5-10 段——免费替代 Cohere。

C

Chunking（切片 / 分块）

黑话：把长文档切成小段。

白话：把一本书撕成 100 张小卡片——AI 一次只读几张相关的，而不是整本。

Chunk Size（切片大小）

黑话：每个切片的字符数 / Token 数。

白话：每张小卡片"装多少字"——一般 300-1000 字，太小没上下文，太大挑不准。

Chunk Overlap（切片重叠）

黑话：相邻切片重复的字数。

白话：第 1 张卡片末尾 + 第 2 张卡片开头重复 100 字——避免"重要信息正好被切到接缝处"。

Citation（引用）

黑话：AI 回答里指向资料原文的标注。

白话：[1][2][3] 这种小角标——告诉你"这句话是从哪里抄的"——可点击查原文。

Cohere Rerank

黑话：Cohere 公司提供的商用重排序 API。

白话：业界最早做"重排"的 SaaS——准确度高，按次收费。

Context Window（上下文窗口）

黑话：模型一次能处理的最大 Token 数。

白话：AI 一次最多能"读多少字"——GPT-4 Turbo 是 128K，Gemini 是 200 万。

Contextual Compression（上下文压缩）

黑话：检索后压缩冗余内容，只保留与查询最相关的部分。

白话：召回了 5 段——但每段只取"跟你问题最相关的两句话"——节省 token，提升精度。

D

Dense Retrieval（密集检索 / 向量检索）

黑话：基于向量相似度的检索。

白话：跟你"意思最像"的——不一定字面一样。

Dimension（维度）

黑话：向量的长度。

白话：用多少个数字描述一段话——一般 768、1024、1536 维。维度越高越准但越慢。

E

Embedding（嵌入 / 向量化）

黑话：把文本转成数字向量。

白话：把每段话翻译成"AI 能理解的密码"（一串数字），意思像的密码也像。

Embedding Model（嵌入模型）

黑话：执行嵌入的模型。

白话：上面的"翻译机"——常见的有 OpenAI text-embedding-3、BGE-M3、Cohere Embed。

ETL（Extract / Transform / Load）

黑话：抽取 / 转换 / 加载——数据处理流程。

白话：把"原始资料 → 清洗 → 装入数据库"的全流程。

F

Few-shot Prompting

黑话：在 Prompt 里给几个示例。

白话：跟 AI 说"你看，我想要这种风格的回答 [示例 1][示例 2]——现在帮我做一个新的"。

Fine-tune（微调）

黑话：用特定数据继续训练模型。

白话：让 AI"专门进修一次"——学会某领域的知识或风格。注意：不是教它新事实，而是教它"怎么说"。

G

GraphRAG（图谱 RAG）

黑话：基于知识图谱的 RAG，理解实体之间的关系。

白话：普通 RAG 找"片段"，GraphRAG 找"关系"——能回答"涉及 X 客户的所有合同 + 责任人 + 金额变化"这种"链式问题"。

Generation（生成）

黑话：LLM 基于检索结果生成回答的步骤。

白话：AI 看了相关资料后，"组织语言"写出最终回答的过程。

H

Hallucination（幻觉）

黑话：模型编造不存在的事实。

白话：AI"看起来很专业地胡说"——编人名、编法条、编数据。RAG 就是为了减少幻觉而生。

HNSW（Hierarchical Navigable Small World）

黑话：向量数据库常用的近似最近邻索引算法。

白话：让"在亿级向量里找最像的"快到毫秒级——大多数向量库默认用这个。

Hybrid Search（混合检索）

黑话：向量检索 + 关键词检索（BM25）的组合。

白话：既要"意思相近"也要"字面对得上"——召回率比单一检索高 30%+。

HyDE（Hypothetical Document Embeddings）

黑话：让 AI 先"假装回答"，把假答案当成查询去检索。

白话：你问"X 是什么"——AI 先编一个"X 大概是这样的回答"——然后用这个假答案去找相似的真答案——往往比直接搜你的问题准。

I

In-context Learning

黑话：模型从上下文里学习新模式，不需重新训练。

白话：你在对话里给几个示例，AI 就立刻"模仿"——不需要 fine-tune。

Indexing（索引化）

黑话：把文档建成可快速检索的结构。

白话：给图书馆里每本书做"目录卡片"——查的时候快。

K

Knowledge Base（知识库）

黑话：为 RAG 提供检索资料的数据库。

白话：你给 AI 准备的"参考资料库"——可以是 PDF、Markdown、数据库。

Knowledge Graph（知识图谱）

黑话：用"实体 + 关系"组织知识的图结构。

白话：不是文档列表，是"X 是 Y 的儿子，Y 在 Z 公司工作，Z 公司投资了 W..." 这种关系网。

L

LangChain

黑话：最流行的 LLM 应用开发框架之一。

白话：搭 RAG 的"乐高积木"——免费、组件多、生态广，但也"过于灵活"导致复杂。

LlamaIndex

黑话：专注 RAG 的开发框架。

白话：比 LangChain 更"RAG 专一"的工具——文档解析、索引功能更专。

LLM（Large Language Model）

黑话：大型语言模型。

白话：GPT-5、Claude 4.5、Gemini 3、DeepSeek-R1、Qwen3——这些"巨型 AI 大脑"。

Long Context（长上下文）

黑话：模型支持很长的输入（10 万 token+）。

白话：AI 一次能"读"很多内容。但不等于"记得清楚"——超过一定长度，中间内容会被忽略。

Lost in the Middle

黑话：长上下文场景下，模型对中间位置内容的注意力下降。

白话：AI 读 20 万字时——"开头记得、结尾记得、中间忘了"——所以哪怕长上下文便宜了，RAG 仍然有用。

M

MCP（Model Context Protocol）

黑话：模型上下文协议——让 AI 调用外部工具的标准。

白话：让 AI"长出手"——能发邮件、查数据库、操作软件。和 RAG（让 AI 长"外脑"）互补。

Metadata（元数据）

黑话：描述文档属性的额外信息（标题、作者、日期、标签）。

白话：每份文档的"标签"——查询时可以"按标签过滤"——准确度大幅提升。

Modular RAG

黑话：模块化 RAG——把 RAG 各步骤拆成可插拔组件。

白话：不是"一套死流程"，是"积木式可换"——切片用 A、嵌入用 B、Reranker 用 C。

Multi-Query Retrieval

黑话：把一个用户问题改写成多个查询，分别检索后合并。

白话：你问 1 个问题，AI 帮你拆成 5 个角度，分别去查——召回更全。

Multi-Vector Retrieval

黑话：每个 chunk 关联多个向量（文本、摘要、问题）。

白话：每段资料"准备多张身份证"——按摘要找、按例题找、按反义词找——增加被命中机会。

Multi-Modal RAG（多模态 RAG）

黑话：支持图片、音频、视频等非文本资料的 RAG。

白话：不只文档，还能"看懂图片、听懂音频"——你贴一张医院化验单图，AI 也能 RAG 出来。

N

Naive RAG

黑话：最基础的 RAG——切片 + 嵌入 + 检索 + 生成。

白话：1.0 版的"教科书 RAG"——简单但效果有限。

NLP（Natural Language Processing）

黑话：自然语言处理——AI 处理人类语言的学科。

白话：让 AI"懂人话、说人话"的所有技术总称。

O

OCR（Optical Character Recognition）

黑话：光学字符识别——从图片提文字。

白话：把"扫描件 PDF / 照片"里的文字"抠出来"变成可搜索文本——常用工具：MinerU、TextIn、ABBYY、PaddleOCR。

Ollama

黑话：本地运行 LLM 的开源工具。

白话：在你电脑上跑大模型的"启动器"——不用懂代码，命令行 1 句话就能跑 DeepSeek。

P

Parent-Child Chunking（父子切片）

黑话：检索小切片，生成时返回大父块。

白话：用"小卡片"找得准，但给 AI"大段上下文"答得全——精度 + 完整性兼顾。

PDF Parser（PDF 解析器）

黑话：从 PDF 提取文本 / 表格 / 图片的工具。

白话：把 PDF"拆开"看里面是啥——常用：PyPDF、pdfplumber、Marker、MinerU。

Pinecone

黑话：知名的商用向量数据库。

白话：最早做"专门的向量库"的公司——按使用量收费，企业级。

Prompt Engineering（提示词工程）

黑话：设计 AI 输入的方法学。

白话：研究"怎么问 AI 才能拿到好答案"——本书第七章和附录 B 全在讲这个。

Q

Qdrant

黑话：开源向量数据库。

白话：免费、好用、可自托管的向量库——可云端可本地。

Query（查询）

黑话：用户输入的问题。

白话：你打字问的"那个问题"。

Query Rewriting（查询改写）

黑话：把用户的问题改写得更适合检索。

白话：你问"上次那个怎么样了"——AI 先改成"X 项目的进度状态"——再去查。

R

RAG（Retrieval-Augmented Generation）

黑话：检索增强生成。

白话：让 AI 答之前先翻你的资料——本书的核心概念。

Reranker（重排序模型）

黑话：对初步召回结果重新排序的模型。

白话：第一轮挑了 100 段，第二轮"精挑细选"出最好的 5-10 段——精度大幅提升。

Retrieval（检索 / 召回）

黑话：从知识库找出最相关的片段。

白话：AI"找资料"的过程——这一步好坏决定 RAG 的命脉。

RetrievalQA

黑话：LangChain 等框架里的"检索式问答"组件。

白话：把"检索 + 生成"打包成一个组件——一行代码搞定 RAG。

S

Self-RAG

黑话：能"自我反思 + 自我决定要不要检索"的 RAG。

白话：AI 自己判断——"这个问题我已经会了，不用查"或"我需要查"或"答完后再核对"。

Semantic Chunking（语义切片）

黑话：根据语义边界（不是固定字数）切分文档。

白话：不是"500 字一段"，是"按段落、按主题"切——更自然。

Semantic Search（语义搜索）

黑话：基于含义而非关键词的搜索。

白话：你搜"开心"——能找到"高兴""愉悦""喜悦"——传统搜索做不到。

Sentence Window Retrieval

黑话：检索单句，扩展到周围窗口（前后 N 句）。

白话：找到"最相关的那句"，但同时把"前后 5 句"一起返回——既准又全。

SOTA（State of the Art）

黑话：当前业界最佳水平。

白话："这玩意是目前最好的"——一个 RAG 评测分数榜上的常用词。

Sparse Retrieval（稀疏检索）

黑话：基于关键词的传统检索。

白话：跟 BM25 一类——按字面找。

System Prompt（系统提示词）

黑话：给 AI 设定"角色 + 行为规则"的开场白。

白话：跟 AI 说"你是一名 X 助手，请遵守 Y 规则"——决定 AI 的"人格 + 边界"。

T

Token

黑话：模型处理文本的最小单位（通常 1 个汉字 ≈ 1.5-2 token，1 个英文单词 ≈ 1-1.5 token）。

白话：AI 算账用的"字数单位"——10K Token ≈ 7K 汉字。

Top-K

黑话：检索时返回的最相关 K 个结果。

白话：从知识库挑出"最相关的 K 个片段"——一般 5-20。

Top-P / Nucleus Sampling

黑话：生成时按累积概率采样的策略。

白话：AI 生成时"随机性"的控制——值越高越发散，越低越保守。

V

Vector（向量）

黑话：一组浮点数，用于表示文本的语义。

白话：每段话翻译成的"密码"——一串数字。

Vector Database（向量数据库）

黑话：专门存储和检索向量的数据库。

白话：装"密码"的图书馆——能快速找出"密码最相似的那几个"。常见：Pinecone、Qdrant、Milvus、Chroma、Weaviate。

Vector Index（向量索引）

黑话：向量库里的索引结构（如 HNSW、IVF）。

白话：图书馆的"找书目录"——决定查询多快。

W

Weaviate

黑话：开源向量数据库 + 内置 RAG 功能。

白话：比 Qdrant 更"全栈"的向量库——内置很多高级功能。

X

XML Tags in Prompt

黑话：用 XML 标签结构化 Prompt（Anthropic 推荐）。

白话：写 Prompt 时用 <context>...</context> <question>...</question> 等包裹——AI 更不容易混淆。

数字 / 缩写

7B / 14B / 32B / 70B

黑话：模型参数量，B = Billion（十亿）。

白话：模型大小——7B = 70 亿参数。一般来说越大越聪明，但越大越慢越吃内存。

1.5B / 3B / 7B / 14B / 32B 蒸馏模型

黑话：从大模型"蒸馏"出来的小模型——效果接近大模型但更小。

白话：DeepSeek-R1 7B 蒸馏 = "小身材但接近大脑"——适合本地部署。

TPS（Tokens Per Second）

黑话：模型生成速度，每秒多少 Token。

白话：AI"打字速度"——一般 30+ TPS 用户感觉流畅，10 TPS 以下感觉卡。

我们没列入但你可能听到的

词	一句话
CRAG	Corrective RAG，能纠正自己错误检索的 RAG
MoE	混合专家模型，模型内部"分工"
Quantization	量化，把模型变小（INT8 / INT4）以本地跑
vLLM	高性能 LLM 推理框架
xinference	跨模型类型的推理服务
Function Calling	LLM 调函数能力，是 MCP 前身
Tool Use	同上，更通用说法
Memory	AI 的"长期记忆"，配合 RAG 实现"记得你"
Persona	AI 的"人设"——通过 System Prompt 设定
Guardrails	护栏——AI 输出的安全限制

一句话总结

RAG 黑话虽多——但核心就 5 个词：

Chunking：切片
Embedding：嵌入（变向量）
Vector DB：向量库
Retrieval：召回
Reranker + Generation：精排 + 生成

记住这 5 个，剩下都是装饰。

← 附录 B：30 个开箱即用的知识库提示词 | → 附录 D：资源与社区