A
Agent(智能代理 / 智能体)
黑话:能自主调用工具、规划任务、执行多步操作的 AI。
白话:一个"会自己想 → 自己干"的 AI 小机器人——不只回答你问题,还能"帮你订票、查邮件、操作软件"。
Agentic RAG
黑话:AI 代理 + RAG 的结合,AI 主动决定"要不要查、查什么、查几次"。
白话:让 AI 像你一样思考——"嗯,这个问题我得先查一下""第一次查得不够,再查一次"。
Anthropic Contextual Retrieval
黑话:Anthropic 提出的检索增强方法,给每个切片"加上整个文档的上下文摘要"。
白话:每个切片不只装"这一段内容",还装"这一段属于哪一章、整个文档说什么"——召回精度大幅提升。
B
BM25
黑话:经典关键词检索算法,基于词频统计。
白话:传统的"按字面找"——你搜"押金",找出所有出现"押金"的段落。
BGE(BAAI General Embedding)
黑话:智源研究院出的开源中英文嵌入模型系列。
白话:把中文(或英文)"翻译"成数字向量的最好开源工具——免费、效果很好。
BGE-M3
黑话:BGE 系列里支持中英文 + 长文本 + 多种检索模式的全能嵌入。
白话:2026 年中文 RAG 默认嵌入模型——不知道选啥就选它。
BGE-Reranker
黑话:BGE 系列的重排序模型。
白话:检索出 100 段后,再"精排一次"挑最好的 5-10 段——免费替代 Cohere。
C
Chunking(切片 / 分块)
黑话:把长文档切成小段。
白话:把一本书撕成 100 张小卡片——AI 一次只读几张相关的,而不是整本。
Chunk Size(切片大小)
黑话:每个切片的字符数 / Token 数。
白话:每张小卡片"装多少字"——一般 300-1000 字,太小没上下文,太大挑不准。
Chunk Overlap(切片重叠)
黑话:相邻切片重复的字数。
白话:第 1 张卡片末尾 + 第 2 张卡片开头 重复 100 字——避免"重要信息正好被切到接缝处"。
Citation(引用)
黑话:AI 回答里指向资料原文的标注。
白话:[1][2][3] 这种小角标——告诉你"这句话是从哪里抄的"——可点击查原文。
Cohere Rerank
黑话:Cohere 公司提供的商用重排序 API。
白话:业界最早做"重排"的 SaaS——准确度高,按次收费。
Context Window(上下文窗口)
黑话:模型一次能处理的最大 Token 数。
白话:AI 一次最多能"读多少字"——GPT-4 Turbo 是 128K,Gemini 是 200 万。
Contextual Compression(上下文压缩)
黑话:检索后压缩冗余内容,只保留与查询最相关的部分。
白话:召回了 5 段——但每段只取"跟你问题最相关的两句话"——节省 token,提升精度。
D
Dense Retrieval(密集检索 / 向量检索)
黑话:基于向量相似度的检索。
白话:跟你"意思最像"的——不一定字面一样。
Dimension(维度)
黑话:向量的长度。
白话:用多少个数字描述一段话——一般 768、1024、1536 维。维度越高越准但越慢。
E
Embedding(嵌入 / 向量化)
黑话:把文本转成数字向量。
白话:把每段话翻译成"AI 能理解的密码"(一串数字),意思像的密码也像。
Embedding Model(嵌入模型)
黑话:执行嵌入的模型。
白话:上面的"翻译机"——常见的有 OpenAI text-embedding-3、BGE-M3、Cohere Embed。
ETL(Extract / Transform / Load)
黑话:抽取 / 转换 / 加载——数据处理流程。
白话:把"原始资料 → 清洗 → 装入数据库"的全流程。
F
Few-shot Prompting
黑话:在 Prompt 里给几个示例。
白话:跟 AI 说"你看,我想要这种风格的回答 [示例 1][示例 2]——现在帮我做一个新的"。
Fine-tune(微调)
黑话:用特定数据继续训练模型。
白话:让 AI"专门进修一次"——学会某领域的知识或风格。注意:不是教它新事实,而是教它"怎么说"。
G
GraphRAG(图谱 RAG)
黑话:基于知识图谱的 RAG,理解实体之间的关系。
白话:普通 RAG 找"片段",GraphRAG 找"关系"——能回答"涉及 X 客户的所有合同 + 责任人 + 金额变化"这种"链式问题"。
Generation(生成)
黑话:LLM 基于检索结果生成回答的步骤。
白话:AI 看了相关资料后,"组织语言"写出最终回答的过程。
H
Hallucination(幻觉)
黑话:模型编造不存在的事实。
白话:AI"看起来很专业地胡说"——编人名、编法条、编数据。RAG 就是为了减少幻觉而生。
HNSW(Hierarchical Navigable Small World)
黑话:向量数据库常用的近似最近邻索引算法。
白话:让"在亿级向量里找最像的"快到毫秒级——大多数向量库默认用这个。
Hybrid Search(混合检索)
黑话:向量检索 + 关键词检索(BM25)的组合。
白话:既要"意思相近"也要"字面对得上"——召回率比单一检索高 30%+。
HyDE(Hypothetical Document Embeddings)
黑话:让 AI 先"假装回答",把假答案当成查询去检索。
白话:你问"X 是什么"——AI 先编一个"X 大概是这样的回答"——然后用这个假答案去找相似的真答案——往往比直接搜你的问题准。
I
In-context Learning
黑话:模型从上下文里学习新模式,不需重新训练。
白话:你在对话里给几个示例,AI 就立刻"模仿"——不需要 fine-tune。
Indexing(索引化)
黑话:把文档建成可快速检索的结构。
白话:给图书馆里每本书做"目录卡片"——查的时候快。
K
Knowledge Base(知识库)
黑话:为 RAG 提供检索资料的数据库。
白话:你给 AI 准备的"参考资料库"——可以是 PDF、Markdown、数据库。
Knowledge Graph(知识图谱)
黑话:用"实体 + 关系"组织知识的图结构。
白话:不是文档列表,是"X 是 Y 的儿子,Y 在 Z 公司工作,Z 公司投资了 W..." 这种关系网。
L
LangChain
黑话:最流行的 LLM 应用开发框架之一。
白话:搭 RAG 的"乐高积木"——免费、组件多、生态广,但也"过于灵活"导致复杂。
LlamaIndex
黑话:专注 RAG 的开发框架。
白话:比 LangChain 更"RAG 专一"的工具——文档解析、索引功能更专。
LLM(Large Language Model)
黑话:大型语言模型。
白话:GPT-5、Claude 4.5、Gemini 3、DeepSeek-R1、Qwen3——这些"巨型 AI 大脑"。
Long Context(长上下文)
黑话:模型支持很长的输入(10 万 token+)。
白话:AI 一次能"读"很多内容。但不等于"记得清楚"——超过一定长度,中间内容会被忽略。
Lost in the Middle
黑话:长上下文场景下,模型对中间位置内容的注意力下降。
白话:AI 读 20 万字时——"开头记得、结尾记得、中间忘了"——所以哪怕长上下文便宜了,RAG 仍然有用。
M
MCP(Model Context Protocol)
黑话:模型上下文协议——让 AI 调用外部工具的标准。
白话:让 AI"长出手"——能发邮件、查数据库、操作软件。和 RAG(让 AI 长"外脑")互补。
Metadata(元数据)
黑话:描述文档属性的额外信息(标题、作者、日期、标签)。
白话:每份文档的"标签"——查询时可以"按标签过滤"——准确度大幅提升。
Modular RAG
黑话:模块化 RAG——把 RAG 各步骤拆成可插拔组件。
白话:不是"一套死流程",是"积木式可换"——切片用 A、嵌入用 B、Reranker 用 C。
Multi-Query Retrieval
黑话:把一个用户问题改写成多个查询,分别检索后合并。
白话:你问 1 个问题,AI 帮你拆成 5 个角度,分别去查——召回更全。
Multi-Vector Retrieval
黑话:每个 chunk 关联多个向量(文本、摘要、问题)。
白话:每段资料"准备多张身份证"——按摘要找、按例题找、按反义词找——增加被命中机会。
Multi-Modal RAG(多模态 RAG)
黑话:支持图片、音频、视频等非文本资料的 RAG。
白话:不只文档,还能"看懂图片、听懂音频"——你贴一张医院化验单图,AI 也能 RAG 出来。
N
Naive RAG
黑话:最基础的 RAG——切片 + 嵌入 + 检索 + 生成。
白话:1.0 版的"教科书 RAG"——简单但效果有限。
NLP(Natural Language Processing)
黑话:自然语言处理——AI 处理人类语言的学科。
白话:让 AI"懂人话、说人话"的所有技术总称。
O
OCR(Optical Character Recognition)
黑话:光学字符识别——从图片提文字。
白话:把"扫描件 PDF / 照片"里的文字"抠出来"变成可搜索文本——常用工具:MinerU、TextIn、ABBYY、PaddleOCR。
Ollama
黑话:本地运行 LLM 的开源工具。
白话:在你电脑上跑大模型的"启动器"——不用懂代码,命令行 1 句话就能跑 DeepSeek。
P
Parent-Child Chunking(父子切片)
黑话:检索小切片,生成时返回大父块。
白话:用"小卡片"找得准,但给 AI"大段上下文"答得全——精度 + 完整性兼顾。
PDF Parser(PDF 解析器)
黑话:从 PDF 提取文本 / 表格 / 图片的工具。
白话:把 PDF"拆开"看里面是啥——常用:PyPDF、pdfplumber、Marker、MinerU。
Pinecone
黑话:知名的商用向量数据库。
白话:最早做"专门的向量库"的公司——按使用量收费,企业级。
Prompt Engineering(提示词工程)
黑话:设计 AI 输入的方法学。
白话:研究"怎么问 AI 才能拿到好答案"——本书第七章和附录 B 全在讲这个。
Q
Qdrant
黑话:开源向量数据库。
白话:免费、好用、可自托管的向量库——可云端可本地。
Query(查询)
黑话:用户输入的问题。
白话:你打字问的"那个问题"。
Query Rewriting(查询改写)
黑话:把用户的问题改写得更适合检索。
白话:你问"上次那个怎么样了"——AI 先改成"X 项目的进度状态"——再去查。
R
RAG(Retrieval-Augmented Generation)
黑话:检索增强生成。
白话:让 AI 答之前先翻你的资料——本书的核心概念。
Reranker(重排序模型)
黑话:对初步召回结果重新排序的模型。
白话:第一轮挑了 100 段,第二轮"精挑细选"出最好的 5-10 段——精度大幅提升。
Retrieval(检索 / 召回)
黑话:从知识库找出最相关的片段。
白话:AI"找资料"的过程——这一步好坏决定 RAG 的命脉。
RetrievalQA
黑话:LangChain 等框架里的"检索式问答"组件。
白话:把"检索 + 生成"打包成一个组件——一行代码搞定 RAG。
S
Self-RAG
黑话:能"自我反思 + 自我决定要不要检索"的 RAG。
白话:AI 自己判断——"这个问题我已经会了,不用查"或"我需要查"或"答完后再核对"。
Semantic Chunking(语义切片)
黑话:根据语义边界(不是固定字数)切分文档。
白话:不是"500 字一段",是"按段落、按主题"切——更自然。
Semantic Search(语义搜索)
黑话:基于含义而非关键词的搜索。
白话:你搜"开心"——能找到"高兴""愉悦""喜悦"——传统搜索做不到。
Sentence Window Retrieval
黑话:检索单句,扩展到周围窗口(前后 N 句)。
白话:找到"最相关的那句",但同时把"前后 5 句"一起返回——既准又全。
SOTA(State of the Art)
黑话:当前业界最佳水平。
白话:"这玩意是目前最好的"——一个 RAG 评测分数榜上的常用词。
Sparse Retrieval(稀疏检索)
黑话:基于关键词的传统检索。
白话:跟 BM25 一类——按字面找。
System Prompt(系统提示词)
黑话:给 AI 设定"角色 + 行为规则"的开场白。
白话:跟 AI 说"你是一名 X 助手,请遵守 Y 规则"——决定 AI 的"人格 + 边界"。
T
Token
黑话:模型处理文本的最小单位(通常 1 个汉字 ≈ 1.5-2 token,1 个英文单词 ≈ 1-1.5 token)。
白话:AI 算账用的"字数单位"——10K Token ≈ 7K 汉字。
Top-K
黑话:检索时返回的最相关 K 个结果。
白话:从知识库挑出"最相关的 K 个片段"——一般 5-20。
Top-P / Nucleus Sampling
黑话:生成时按累积概率采样的策略。
白话:AI 生成时"随机性"的控制——值越高越发散,越低越保守。
V
Vector(向量)
黑话:一组浮点数,用于表示文本的语义。
白话:每段话翻译成的"密码"——一串数字。
Vector Database(向量数据库)
黑话:专门存储和检索向量的数据库。
白话:装"密码"的图书馆——能快速找出"密码最相似的那几个"。常见:Pinecone、Qdrant、Milvus、Chroma、Weaviate。
Vector Index(向量索引)
黑话:向量库里的索引结构(如 HNSW、IVF)。
白话:图书馆的"找书目录"——决定查询多快。
W
Weaviate
黑话:开源向量数据库 + 内置 RAG 功能。
白话:比 Qdrant 更"全栈"的向量库——内置很多高级功能。
X
XML Tags in Prompt
黑话:用 XML 标签结构化 Prompt(Anthropic 推荐)。
白话:写 Prompt 时用 <context>...</context> <question>...</question> 等包裹——AI 更不容易混淆。
数字 / 缩写
7B / 14B / 32B / 70B
黑话:模型参数量,B = Billion(十亿)。
白话:模型大小——7B = 70 亿参数。一般来说越大越聪明,但越大越慢越吃内存。
1.5B / 3B / 7B / 14B / 32B 蒸馏模型
黑话:从大模型"蒸馏"出来的小模型——效果接近大模型但更小。
白话:DeepSeek-R1 7B 蒸馏 = "小身材但接近大脑"——适合本地部署。
TPS(Tokens Per Second)
黑话:模型生成速度,每秒多少 Token。
白话:AI"打字速度"——一般 30+ TPS 用户感觉流畅,10 TPS 以下感觉卡。
我们没列入但你可能听到的
| 词 | 一句话 |
|---|---|
| CRAG | Corrective RAG,能纠正自己错误检索的 RAG |
| MoE | 混合专家模型,模型内部"分工" |
| Quantization | 量化,把模型变小(INT8 / INT4)以本地跑 |
| vLLM | 高性能 LLM 推理框架 |
| xinference | 跨模型类型的推理服务 |
| Function Calling | LLM 调函数能力,是 MCP 前身 |
| Tool Use | 同上,更通用说法 |
| Memory | AI 的"长期记忆",配合 RAG 实现"记得你" |
| Persona | AI 的"人设"——通过 System Prompt 设定 |
| Guardrails | 护栏——AI 输出的安全限制 |
一句话总结
RAG 黑话虽多——但核心就 5 个词:
- Chunking:切片
- Embedding:嵌入(变向量)
- Vector DB:向量库
- Retrieval:召回
- Reranker + Generation:精排 + 生成
记住这 5 个,剩下都是装饰。