A
Agent(智能体)
能"自己想步骤、调用工具、看结果、再继续"的 AI。 例:你说"整理桌面",Agent 自动列文件 → 分类 → 移动 → 报告完成。 (详见第十三章)
AGI(通用人工智能)
全能的 AI,能在所有领域达到人类水平。 目前还没有。本地 AI 也不是。本书讲的是"专用 AI"。
Alignment(对齐)
让 AI 的回答符合人类期望(不说脏话、不教犯罪、保持礼貌)。 对齐过强:本地 AI 拒答正常问题。对齐过弱:可能输出不当内容。
API(应用程序接口)
让两个软件互相"说话"的协议。
例:Ollama 暴露 API 在 localhost:11434,让 Cherry Studio 调用它。
Apple Silicon
苹果自研的 ARM 芯片(M1、M2、M3、M4 系列)。 优势:CPU/GPU/NPU 共享内存,跑本地 AI 极适合。
ASR(自动语音识别)
把"声音"变成"文字"的技术。 例:Whisper、SenseVoice。
B
Batch(批处理)
一次处理多条任务,比一条一条快。 例:让 AI 同时翻译 100 个句子。
Benchmark(基准测试)
评测 AI 性能的标准化考试。 例:MMLU、HumanEval、MT-Bench。
bge-m3
2024 年北京智源出品的最强中文嵌入模型之一。 用途:知识库的核心引擎。
C
Chunk(块)
把一篇长文档切成的一个个小段。 典型大小:500–1500 字符一块。 作用:方便检索、避免一次塞太多给 AI。 (详见第十一章)
CLIP
OpenAI 出的"看图说话"模型,能把图片和文字映射到同一空间。 用途:以图搜图、以文搜图。
Code Interpreter
让 AI 能"执行代码"的功能。 云端有(ChatGPT、Claude),本地相对弱,可以用 Open Interpreter 替代。
ComfyUI
2025 年最流行的本地图像生成 UI,节点式工作流。
Context Length(上下文长度)
AI 一次能"看到"的文字长度,单位是 token。 8K:约 5000 字中文。 128K:约 10 万字中文。 (详见第六章)
CoT(Chain of Thought,思维链)
让 AI 先"一步一步想",再给最终答案。提高复杂问题的准确率。 例:让 AI 算数时加一句"请逐步推理"。
CPU 推理
不用 GPU,只用 CPU 跑 AI。 慢,但门槛低。8 GB 内存的老电脑只能这么跑。
CUDA
NVIDIA 显卡跑 AI 的底层技术。 安装本地 AI 时常需要。
D
DeepSeek
深度求索公司,中国 AI 公司,旗下 DeepSeek-R1 / V3 是 2025 年开源界明星。
Distillation(蒸馏)
把"大模型"的能力"浓缩"到"小模型"里。 例:DeepSeek-R1 Distill Qwen 7B = 把 R1 的推理能力蒸馏到 Qwen 7B。
Dify
开源的 LLM 应用开发平台,支持节点式 Agent 编排。
E
Embedding(嵌入)
把"文字"变成"一串数字",让计算机能比较语义相似度。 用途:知识库的基础。 (详见第十一章)
Endpoint(端点)
API 的具体访问地址。
例:http://localhost:11434/v1/chat/completions。
F
F5-TTS
2025 年最强的本地语音合成模型,能克隆任何人的声音。
Few-shot(少样本)
在 prompt 里给 AI 看几个例子,让它依样画葫芦。 例:给 AI 看 3 个"标题样例",它就能模仿你的标题风格。
Fine-tuning(微调)
用你自己的数据训练已有模型,让它"个性化"。 例:用 100 段你的写作样本微调 Qwen,得到"你的写作分身"。
FlashAttention
一个让 AI 推理更快、更省内存的算法。 对你:Ollama 自动开启,你不用管。
Flux
2024 年开源的最强文生图模型之一,由 Black Forest Labs 出品。
FP16 / FP32 / BF16
浮点数精度。 FP32:32 位,最准但最大。 FP16:16 位,省一半空间。 BF16:另一种 16 位格式。 普通用户用量化(Q4/Q5)就够,不用纠结这些。
Function Calling(函数调用)
让 AI 能"调用工具"的能力。 例:你问"北京天气",AI 调用"weather()"函数,返回结果。
G
Gemma
Google 出的开源模型家族(Gemma 1/2/3)。
GGUF
本地推理用的模型格式(llama.cpp 出的)。 特点:量化后小、加载快、跨平台。
GLM
智谱 AI 的模型家族(GLM-4 等)。
GPU
显卡,跑 AI 推理的"加速器"。 典型:NVIDIA RTX 系列、Apple Silicon GPU。
GPT
广义:OpenAI 的 GPT 系列模型。 狭义:"Generative Pre-trained Transformer",一种 AI 架构。
H
Hugging Face
全球最大的 AI 模型分发平台。 别名:HF。
HUGGING_FACE_HUB_TOKEN
访问 HF 私有仓库或加速下载的 token。
I
Instruct Model(指令微调模型)
专门为"对话 / 听指令"训练过的模型。 对应:Base Model(基础模型)。
Inference(推理)
AI"思考 + 给答案"的过程。
iGPU(集成显卡)
集成在 CPU 里的显卡。 典型:Apple Silicon、Intel HD Graphics、AMD Radeon。
J
JSON Mode
让 AI 强制输出 JSON 格式的功能。 Ollama / LM Studio 都支持。
K
Kerberos / KV Cache
KV Cache:AI 推理时缓存的"键值对",让多轮对话变快。 对你:上下文越长 KV Cache 越大,吃内存。
KV Cache Quantization
把 KV Cache 也量化(如 q8_0),省内存。 Ollama 0.17+ 支持。
L
LangChain / LangGraph
最流行的 LLM 应用开发框架(Python)。
Llama
Meta 出的开源模型家族(Llama 1/2/3/4)。
llama.cpp
C++ 写的本地 AI 推理引擎,Ollama 的"亲爹"。
LLM
Large Language Model,大语言模型。 例:Qwen 3、Llama 4、GPT-4、Claude。
LM Studio
最流行的本地 AI 桌面 App 之一,全 GUI。
LoRA
Low-Rank Adaptation,一种"低成本"微调技术。 优势:单卡几小时就能微调一个 7B 模型。
M
MCP(Model Context Protocol)
Anthropic 推的"AI 工具协议",让任何 AI 用统一方式调用任何工具。 (详见第十三章)
Mistral
法国 AI 公司 Mistral AI 的模型家族。
MLX
Apple 出的 M 芯片专用机器学习框架。 优势:M 芯片上比通用方案快 30–50%。
MMLU
一个评测 AI 知识广度的考试,57 个学科。
MoE(Mixture of Experts)
"专家混合"架构。 特点:总参数大,但每次只激活一部分"专家"。 例:DeepSeek-V3 = 671B 总参 / 37B 激活。 (详见第六章)
N
n8n
开源的工作流自动化工具,类似国际版 Zapier。
Nginx
反向代理服务器,常用来给本地服务加 HTTPS / 鉴权。
nomic-embed-text
英文嵌入模型,轻量但效果好。
NPU
Neural Processing Unit,专门跑 AI 的芯片。 例:Apple Neural Engine、Intel Core Ultra NPU。
num_ctx
Ollama 设置上下文长度的参数。
例:PARAMETER num_ctx 32768 = 32K 上下文。
O
Ollama
最流行的本地 AI 推理引擎之一,命令行 + REST API。
Open WebUI
最流行的本地 AI Web UI,自带多用户、知识库。
OpenAI Compatible API
模仿 OpenAI 接口规范的 API。 优势:能让"本来只支持 OpenAI"的工具用上本地模型。
P
Parameter(参数)
AI 模型的"权重"。 单位:B = 十亿。 例:Qwen 3 8B = 80 亿参数。
Phi
Microsoft 出的"小钢炮"模型家族(Phi-1/2/3/4)。
Piper
轻量本地 TTS 工具。
Prompt(提示词)
你给 AI 的指令。
Prompt Engineering(提示词工程)
设计"好的提示词"的学问。
Prompt Injection(提示词注入)
攻击者在文档 / 网页里藏指令,让 AI 执行恶意操作。 (详见第十六章)
PyTorch
最主流的深度学习框架。
Q
Q2 / Q3 / Q4 / Q5 / Q6 / Q8
量化级别,数字越小压缩越狠。 Q4_K_M = 默认推荐。 (详见第六章)
Quantization(量化)
把模型权重从高精度(FP16)压缩到低精度(Q4)。 好处:文件小、内存小、速度快。 代价:略微质量损失。
Qwen(通义千问)
阿里巴巴出的开源模型家族(Qwen 1/2/2.5/3)。 中文场景首选。
R
RAG(Retrieval-Augmented Generation)
"先检索资料,再生成答案"的技术。 用途:让 AI 基于你的私人资料回答。 (详见第十一章)
Raycast
Mac 上的"超级启动器",社区生态丰富。
Reasoning Model(推理模型)
专门为"复杂推理"训练的模型。 例:DeepSeek-R1、OpenAI o1/o3。 特点:回答前先"思考一会儿",准确率高但慢。
ReRank(重排)
检索回 N 块后,用一个小模型再筛出最相关的几块。 作用:大幅提升知识库准确率。
REST API
最常见的 Web 接口形式。
Ollama 默认在 http://localhost:11434 提供。
RTX
NVIDIA 消费级显卡品牌(RTX 30/40/50 系列)。
S
safetensors
HuggingFace 出的安全模型格式(不能执行任意代码)。 对应:pickle(不安全)。
Sampling(采样)
AI 选下一个词时的策略。 关键参数:temperature、top_p、top_k。
SD(Stable Diffusion)
最知名的开源文生图模型家族。
Shotcuts(快捷指令)
Apple 自家的自动化工具。
SLM(Small Language Model)
小语言模型,通常 1–7B。 特点:能在手机 / 老电脑跑。
SOTA(State Of The Art)
"当前最强"。 例:DeepSeek-R1 是开源推理 SOTA。
System Prompt(系统提示词)
对话最开始给 AI 的"角色设定"。
例:你是一个严谨的法律顾问。
T
Temperature(温度)
控制 AI 回答的"随机性"。 0 = 每次都一样(确定)。 1+ = 充满变化(创意)。
Token
AI 处理文字的最小单位。 英文:约 1 token = 4 字符。 中文:约 1 token = 1.5 个字。
TPS(Tokens Per Second)
AI 出字速度。 > 15 = 流畅。 > 30 = 飞快。 < 5 = 让人想砸键盘。
TTS(Text To Speech)
"文字转语音"。 例:Piper、F5-TTS、CosyVoice。
U
UI(User Interface)
用户界面。 例:Cherry Studio 是个 UI,Ollama 是个引擎。
Unsloth
高效微调框架,速度快、省显存。
URL Schemes
Mac/iOS 的 URL 调用机制。
例:raycast:// 直接打开 Raycast。
V
Vector DB(向量数据库)
存"文字向量"的数据库。 例:ChromaDB、Qdrant、Milvus。
vLLM
Berkeley 出的高性能本地推理引擎,多卡 / 高并发场景首选。
Vision Model / VLM
能"看图"的多模态模型。 例:Qwen 2.5-VL、Llama 3.2-Vision。
VRAM(显存)
显卡上的内存。 对 AI:模型加上 KV Cache 都得装这里面。
W
Whisper
OpenAI 的语音识别模型。 本地版本:whisper.cpp、MLX-Whisper、Faster-Whisper。
Workflow(工作流)
"一系列步骤组合的自动化"。 例:录音 → 转文字 → AI 总结 → 发邮件。
X / Y / Z
Yi
零一万物(01.AI)的模型家族(Yi-1.5)。
Zero-shot(零样本)
不给例子,直接让 AI 做。 对应:Few-shot(给几个例子)。
💡 还想查什么?
如果你看本书 / 看教程时遇到不懂的术语,建议:
- 先到本附录搜索
- 用本地 AI 自己问(Qwen 3 8B 都能解释)
- GitHub Issues 搜
术语只是壳——理解背后的概念才是关键。