ORANGE BOOK · DEEPSEEK

附录 D:术语表(30 个)


一、基础概念(10 个)

1. AI(人工智能)

让计算机模仿"人的思考"做事。比如识别图片里有什么、回答你的问题、写文章、画画。不等于"机器人"——更准确地说,AI 是一种"软件能力",可以被装进各种设备里(手机、电脑、汽车、机器人)。

2. AGI(通用人工智能)

理论上"什么都能做"的 AI——不只是会下棋、不只是会写文章,而是像人一样能学习任何新东西。目前所有 AI(包括 DeepSeek、ChatGPT、Claude、Gemini)都还不是 AGI。距离 AGI 还有多远?业内分歧很大,从"几年内"到"永远不可能"都有人说。

3. LLM(大语言模型)

Large Language Model。一种通过"读了几乎整个互联网的文字"学会"说话"的 AI。它本质是在做"接龙"——你给一段文字,它预测"下一个词最可能是什么"。听起来简单,但当模型大到一定程度,会涌现出推理、写作、翻译等能力。DeepSeek、ChatGPT、Claude、文心一言、Kimi 都是 LLM。

4. GPT

Generative Pre-trained Transformer——"预训练生成式 Transformer 模型"。最早由 OpenAI 提出。今天我们说"GPT-4 / GPT-5",特指 OpenAI 的模型。但**"GPT"也常被泛指为"类似的大语言模型"**——比如有人会笼统地说"DeepSeek 也是 GPT 类模型",虽然技术上不严格。

5. Token(词元)

AI 处理文字的"最小单位"。1 个汉字 ≈ 1.5-2 token,1 个英文单词 ≈ 1-2 token。比如"我爱北京天安门" ≈ 10 个 token 左右。Token 重要在于:

  • 模型有"上下文长度"限制,按 token 算(DeepSeek 一般 64K-128K token)
  • API 按 token 收费

6. 提示词(Prompt)

你发给 AI 的"那段话"。简单的问答是提示词,复杂的"角色 + 背景 + 任务 + 要求"也是提示词。好的提示词是 AI 给好回答的最重要前提。本书第四章和附录 A 都在讲这个。

7. 上下文(Context)

AI 能"记住"的对话长度。比如 DeepSeek 的 128K 上下文,意思是:在同一个对话里,AI 能"看到"最近的 12 万字左右。超过这个长度,最早的内容会"被遗忘"。所以:"对话太长就开新对话"。

8. 推理(Inference / Reasoning)

两层意思:

  • 窄义(Inference):AI 跑一次、给一个回答的过程。"运行 AI 模型"。
  • 广义(Reasoning):AI"思考"的能力。一步一步推导,得出结论。R1 是为推理优化的模型

9. 多模态(Multimodal)

模型不只能处理"文字",还能处理图片、音频、视频、表格等多种"模态"。DeepSeek 已支持文字 + 图片,未来还会扩展。

10. 涌现(Emergent Abilities)

模型变大到一定程度,会突然出现"小模型没有"的能力——比如思维链、写诗、翻译、做数学题。涌现是 LLM 最神奇的现象之一,也是为什么"模型大小重要"的原因。


二、模型架构(6 个)

11. Transformer

LLM 的"骨架"。2017 年由 Google 提出。它最大的创新是"注意力机制"(Attention)——让模型在读一句话时,能"同时关注"多个词的关系,而不是逐字读。今天几乎所有 LLM 都用 Transformer。

12. 参数(Parameters)

模型的"内部数字",决定了模型的"知识 + 能力"。常说的"7B / 70B / 671B"就是参数数量(B = billion = 10 亿)。DeepSeek-V3 是 671B 总参数,但不是越大越好——还要看激活、训练数据、架构。

13. MoE(Mixture of Experts,混合专家)

DeepSeek 用的核心架构。比喻:模型里有很多个"专家",每次只激活其中几个最相关的来回答。好处:模型很大(DeepSeek-V3 是 671B),但每次只用其中 37B,速度快、成本低。这是 DeepSeek 比同体量模型便宜的关键技术之一。

14. MLA(Multi-Head Latent Attention)

DeepSeek 提出的"注意力机制改进版"。简化讲:让模型记住长上下文时占内存更少。这是 DeepSeek 能做到 128K 上下文还跑得动的原因之一。普通用户不必懂细节。

15. FP8(8 位浮点数训练)

DeepSeek 训练时用的"低精度"技术。比喻:用更少的小数位训练模型——精度略损,但训练成本大幅降低。这也是 DeepSeek "小成本训练大模型"的秘诀之一。

16. 蒸馏(Distillation)

把一个"大模型"的能力"教"给一个"小模型"。比喻:大模型当老师,小模型当学生。学生没那么聪明,但小巧便宜。DeepSeek 也开源了"蒸馏版"小模型,可以在自己电脑上跑。


三、使用相关(10 个)

17. 思维链(CoT,Chain of Thought)

让 AI"一步步说出思考过程",而不是直接给答案。比如解一道数学题,普通问法 AI 可能答错,加一句"请一步一步思考",正确率大幅提高。R1 模型自带"思维链"——你能看到它"思考中..."的过程。

18. 自我反思(Self-Reflection)

让 AI对自己刚给的回答打分、找错、改进。一句魔法:"请你对刚才的回答进行自我复盘,找出 3 个最大的问题。"——这是提升回答质量最有效的"魔法句子"之一。

19. RAG(Retrieval-Augmented Generation,检索增强生成)

先"搜资料",再"基于资料回答"——而不是凭"模型脑子里的旧知识"答。本质上,"联网搜索"功能就是 RAG 的简化版。RAG 是降低幻觉、回答最新问题的关键技术。

20. Agent(智能体)

AI 不只"回答你的问题",还能自主完成多步任务——比如"帮我订一张机票",它会自己查航班、比价、下单。Agent 是 AI 的下一个浪潮,DeepSeek 也在朝这个方向发展。

21. 角色扮演(Role-Playing)

让 AI 扮演某个人 / 角色 / 职业。例如:你扮演"严厉的论文导师",请审阅我的文章。这是激活 AI"特定能力 + 风格"的常用技巧,本书第十章详细讲。

22. Few-Shot(少样本提示)

先给几个例子,再让 AI 模仿。比如想让 AI 仿照特定格式写邮件,先粘 2-3 个示范邮件,再说"请按这个风格写一封新的"。是提升输出准确度的好方法。

23. 元提示词(Meta-Prompt)

让 AI 帮你"写问 AI 的提示词"。当你不知道怎么问得好时,可以问:"我想问你 X,但不知道怎么问得最好,请帮我把问题重写成一份完整的提示词。"

24. 温度(Temperature)

API 参数。控制回答的"随机性"

  • 温度 0:每次回答都几乎一样(适合数学、代码、翻译)
  • 温度 1:每次回答略有不同(适合创作、闲聊)
  • 温度 >1.5:开始"胡言乱语"

普通用户在网页 / APP 不需要调,开发者用 API 才会用到。

25. API(Application Programming Interface)

"程序员能用代码调用 DeepSeek"的接口。普通用户不必懂,但如果你想让 Excel 自动调 AI、做一个客服机器人、给自己的网站接 AI——就要用 API。本书第十二章 §4 给了入门指引。

26. 微调(Fine-tuning)

给基础模型"再训练",让它特别擅长某个领域。比如医院给 DeepSeek 微调专门看 CT 报告。普通用户用不到,企业 / 开发者会用。


四、风险与伦理(4 个)

27. 幻觉(Hallucination)

AI"信誓旦旦地说错话"——给出"看似对、实际错"的信息。最常见在"具体数字 / 引用 / 网址 / 法条"上。所有 LLM 都有幻觉,没有例外。本书第十二章 §1 给了"6 招识别"。

28. 偏见(Bias)

模型学的是"互联网上的文字",互联网上有的偏见,模型也会学到——性别、地域、种族等。负责任的开发者会做"对齐"减少偏见,但无法完全消除。所以重要决策不能完全交给 AI。

29. 对齐(Alignment)

让 AI"符合人类价值观和指令"的工程。比如:不教用户做炸药、不歧视某群体、不说谎。对齐是一门复杂的工程,也是为什么 AI 有时会"拒绝回答看似无害的问题"——它怕"被骗着做坏事"。

30. 隐私 / 数据安全

你和 AI 说的话,可能被服务商保存、用于改进模型(除非你关闭"训练数据收集"开关)。所以:

  • 不要传"5 不传"信息(参第十二章 §2)
  • 重要场景考虑"本地部署版"
  • 仔细看《用户协议》和《隐私政策》

附:缩写速查

缩写 全称 中文
AI Artificial Intelligence 人工智能
AGI Artificial General Intelligence 通用人工智能
LLM Large Language Model 大语言模型
GPT Generative Pre-trained Transformer 生成式预训练 Transformer
MoE Mixture of Experts 混合专家
MLA Multi-Head Latent Attention 多头潜在注意力
CoT Chain of Thought 思维链
RAG Retrieval-Augmented Generation 检索增强生成
API Application Programming Interface 应用编程接口
SFT Supervised Fine-Tuning 监督微调
RLHF Reinforcement Learning from Human Feedback 人类反馈强化学习
FP8 8-bit Floating Point 8 位浮点

一句话哲学

"懂术语,是为了不被术语吓住。"

你不需要"掌握"这些术语,能在听到时知道它大概是什么意思就够了。

真正决定你能不能用好 AI 的,从来都不是技术词汇,而是——

你愿不愿意亲自上手。