一、基础概念(10 个)
1. AI(人工智能)
让计算机模仿"人的思考"做事。比如识别图片里有什么、回答你的问题、写文章、画画。不等于"机器人"——更准确地说,AI 是一种"软件能力",可以被装进各种设备里(手机、电脑、汽车、机器人)。
2. AGI(通用人工智能)
理论上"什么都能做"的 AI——不只是会下棋、不只是会写文章,而是像人一样能学习任何新东西。目前所有 AI(包括 DeepSeek、ChatGPT、Claude、Gemini)都还不是 AGI。距离 AGI 还有多远?业内分歧很大,从"几年内"到"永远不可能"都有人说。
3. LLM(大语言模型)
Large Language Model。一种通过"读了几乎整个互联网的文字"学会"说话"的 AI。它本质是在做"接龙"——你给一段文字,它预测"下一个词最可能是什么"。听起来简单,但当模型大到一定程度,会涌现出推理、写作、翻译等能力。DeepSeek、ChatGPT、Claude、文心一言、Kimi 都是 LLM。
4. GPT
Generative Pre-trained Transformer——"预训练生成式 Transformer 模型"。最早由 OpenAI 提出。今天我们说"GPT-4 / GPT-5",特指 OpenAI 的模型。但**"GPT"也常被泛指为"类似的大语言模型"**——比如有人会笼统地说"DeepSeek 也是 GPT 类模型",虽然技术上不严格。
5. Token(词元)
AI 处理文字的"最小单位"。1 个汉字 ≈ 1.5-2 token,1 个英文单词 ≈ 1-2 token。比如"我爱北京天安门" ≈ 10 个 token 左右。Token 重要在于:
- 模型有"上下文长度"限制,按 token 算(DeepSeek 一般 64K-128K token)
- API 按 token 收费
6. 提示词(Prompt)
你发给 AI 的"那段话"。简单的问答是提示词,复杂的"角色 + 背景 + 任务 + 要求"也是提示词。好的提示词是 AI 给好回答的最重要前提。本书第四章和附录 A 都在讲这个。
7. 上下文(Context)
AI 能"记住"的对话长度。比如 DeepSeek 的 128K 上下文,意思是:在同一个对话里,AI 能"看到"最近的 12 万字左右。超过这个长度,最早的内容会"被遗忘"。所以:"对话太长就开新对话"。
8. 推理(Inference / Reasoning)
两层意思:
- 窄义(Inference):AI 跑一次、给一个回答的过程。"运行 AI 模型"。
- 广义(Reasoning):AI"思考"的能力。一步一步推导,得出结论。R1 是为推理优化的模型。
9. 多模态(Multimodal)
模型不只能处理"文字",还能处理图片、音频、视频、表格等多种"模态"。DeepSeek 已支持文字 + 图片,未来还会扩展。
10. 涌现(Emergent Abilities)
模型变大到一定程度,会突然出现"小模型没有"的能力——比如思维链、写诗、翻译、做数学题。涌现是 LLM 最神奇的现象之一,也是为什么"模型大小重要"的原因。
二、模型架构(6 个)
11. Transformer
LLM 的"骨架"。2017 年由 Google 提出。它最大的创新是"注意力机制"(Attention)——让模型在读一句话时,能"同时关注"多个词的关系,而不是逐字读。今天几乎所有 LLM 都用 Transformer。
12. 参数(Parameters)
模型的"内部数字",决定了模型的"知识 + 能力"。常说的"7B / 70B / 671B"就是参数数量(B = billion = 10 亿)。DeepSeek-V3 是 671B 总参数,但不是越大越好——还要看激活、训练数据、架构。
13. MoE(Mixture of Experts,混合专家)
DeepSeek 用的核心架构。比喻:模型里有很多个"专家",每次只激活其中几个最相关的来回答。好处:模型很大(DeepSeek-V3 是 671B),但每次只用其中 37B,速度快、成本低。这是 DeepSeek 比同体量模型便宜的关键技术之一。
14. MLA(Multi-Head Latent Attention)
DeepSeek 提出的"注意力机制改进版"。简化讲:让模型记住长上下文时占内存更少。这是 DeepSeek 能做到 128K 上下文还跑得动的原因之一。普通用户不必懂细节。
15. FP8(8 位浮点数训练)
DeepSeek 训练时用的"低精度"技术。比喻:用更少的小数位训练模型——精度略损,但训练成本大幅降低。这也是 DeepSeek "小成本训练大模型"的秘诀之一。
16. 蒸馏(Distillation)
把一个"大模型"的能力"教"给一个"小模型"。比喻:大模型当老师,小模型当学生。学生没那么聪明,但小巧便宜。DeepSeek 也开源了"蒸馏版"小模型,可以在自己电脑上跑。
三、使用相关(10 个)
17. 思维链(CoT,Chain of Thought)
让 AI"一步步说出思考过程",而不是直接给答案。比如解一道数学题,普通问法 AI 可能答错,加一句"请一步一步思考",正确率大幅提高。R1 模型自带"思维链"——你能看到它"思考中..."的过程。
18. 自我反思(Self-Reflection)
让 AI对自己刚给的回答打分、找错、改进。一句魔法:"请你对刚才的回答进行自我复盘,找出 3 个最大的问题。"——这是提升回答质量最有效的"魔法句子"之一。
19. RAG(Retrieval-Augmented Generation,检索增强生成)
先"搜资料",再"基于资料回答"——而不是凭"模型脑子里的旧知识"答。本质上,"联网搜索"功能就是 RAG 的简化版。RAG 是降低幻觉、回答最新问题的关键技术。
20. Agent(智能体)
AI 不只"回答你的问题",还能自主完成多步任务——比如"帮我订一张机票",它会自己查航班、比价、下单。Agent 是 AI 的下一个浪潮,DeepSeek 也在朝这个方向发展。
21. 角色扮演(Role-Playing)
让 AI 扮演某个人 / 角色 / 职业。例如:你扮演"严厉的论文导师",请审阅我的文章。这是激活 AI"特定能力 + 风格"的常用技巧,本书第十章详细讲。
22. Few-Shot(少样本提示)
先给几个例子,再让 AI 模仿。比如想让 AI 仿照特定格式写邮件,先粘 2-3 个示范邮件,再说"请按这个风格写一封新的"。是提升输出准确度的好方法。
23. 元提示词(Meta-Prompt)
让 AI 帮你"写问 AI 的提示词"。当你不知道怎么问得好时,可以问:"我想问你 X,但不知道怎么问得最好,请帮我把问题重写成一份完整的提示词。"
24. 温度(Temperature)
API 参数。控制回答的"随机性"。
- 温度 0:每次回答都几乎一样(适合数学、代码、翻译)
- 温度 1:每次回答略有不同(适合创作、闲聊)
- 温度 >1.5:开始"胡言乱语"
普通用户在网页 / APP 不需要调,开发者用 API 才会用到。
25. API(Application Programming Interface)
"程序员能用代码调用 DeepSeek"的接口。普通用户不必懂,但如果你想让 Excel 自动调 AI、做一个客服机器人、给自己的网站接 AI——就要用 API。本书第十二章 §4 给了入门指引。
26. 微调(Fine-tuning)
给基础模型"再训练",让它特别擅长某个领域。比如医院给 DeepSeek 微调专门看 CT 报告。普通用户用不到,企业 / 开发者会用。
四、风险与伦理(4 个)
27. 幻觉(Hallucination)
AI"信誓旦旦地说错话"——给出"看似对、实际错"的信息。最常见在"具体数字 / 引用 / 网址 / 法条"上。所有 LLM 都有幻觉,没有例外。本书第十二章 §1 给了"6 招识别"。
28. 偏见(Bias)
模型学的是"互联网上的文字",互联网上有的偏见,模型也会学到——性别、地域、种族等。负责任的开发者会做"对齐"减少偏见,但无法完全消除。所以重要决策不能完全交给 AI。
29. 对齐(Alignment)
让 AI"符合人类价值观和指令"的工程。比如:不教用户做炸药、不歧视某群体、不说谎。对齐是一门复杂的工程,也是为什么 AI 有时会"拒绝回答看似无害的问题"——它怕"被骗着做坏事"。
30. 隐私 / 数据安全
你和 AI 说的话,可能被服务商保存、用于改进模型(除非你关闭"训练数据收集"开关)。所以:
- 不要传"5 不传"信息(参第十二章 §2)
- 重要场景考虑"本地部署版"
- 仔细看《用户协议》和《隐私政策》
附:缩写速查
| 缩写 | 全称 | 中文 |
|---|---|---|
| AI | Artificial Intelligence | 人工智能 |
| AGI | Artificial General Intelligence | 通用人工智能 |
| LLM | Large Language Model | 大语言模型 |
| GPT | Generative Pre-trained Transformer | 生成式预训练 Transformer |
| MoE | Mixture of Experts | 混合专家 |
| MLA | Multi-Head Latent Attention | 多头潜在注意力 |
| CoT | Chain of Thought | 思维链 |
| RAG | Retrieval-Augmented Generation | 检索增强生成 |
| API | Application Programming Interface | 应用编程接口 |
| SFT | Supervised Fine-Tuning | 监督微调 |
| RLHF | Reinforcement Learning from Human Feedback | 人类反馈强化学习 |
| FP8 | 8-bit Floating Point | 8 位浮点 |
一句话哲学
"懂术语,是为了不被术语吓住。"
你不需要"掌握"这些术语,能在听到时知道它大概是什么意思就够了。
真正决定你能不能用好 AI 的,从来都不是技术词汇,而是——
你愿不愿意亲自上手。