本地AI术语表用大白话解释黑话 · 本地 AI 橙皮书

A

Agent（智能体）

能"自己想步骤、调用工具、看结果、再继续"的 AI。例：你说"整理桌面"，Agent 自动列文件 → 分类 → 移动 → 报告完成。（详见第十三章）

AGI（通用人工智能）

全能的 AI，能在所有领域达到人类水平。 目前还没有。本地 AI 也不是。本书讲的是"专用 AI"。

Alignment（对齐）

让 AI 的回答符合人类期望（不说脏话、不教犯罪、保持礼貌）。 对齐过强：本地 AI 拒答正常问题。对齐过弱：可能输出不当内容。

API（应用程序接口）

让两个软件互相"说话"的协议。例：Ollama 暴露 API 在 localhost:11434，让 Cherry Studio 调用它。

Apple Silicon

苹果自研的 ARM 芯片（M1、M2、M3、M4 系列）。优势：CPU/GPU/NPU 共享内存，跑本地 AI 极适合。

ASR（自动语音识别）

把"声音"变成"文字"的技术。例：Whisper、SenseVoice。

B

Batch（批处理）

一次处理多条任务，比一条一条快。例：让 AI 同时翻译 100 个句子。

Benchmark（基准测试）

评测 AI 性能的标准化考试。例：MMLU、HumanEval、MT-Bench。

bge-m3

2024 年北京智源出品的最强中文嵌入模型之一。用途：知识库的核心引擎。

C

Chunk（块）

把一篇长文档切成的一个个小段。 典型大小：500–1500 字符一块。作用：方便检索、避免一次塞太多给 AI。（详见第十一章）

CLIP

OpenAI 出的"看图说话"模型，能把图片和文字映射到同一空间。用途：以图搜图、以文搜图。

Code Interpreter

让 AI 能"执行代码"的功能。 云端有（ChatGPT、Claude），本地相对弱，可以用 Open Interpreter 替代。

ComfyUI

2025 年最流行的本地图像生成 UI，节点式工作流。

Context Length（上下文长度）

AI 一次能"看到"的文字长度，单位是 token。 8K：约 5000 字中文。 128K：约 10 万字中文。（详见第六章）

CoT（Chain of Thought，思维链）

让 AI 先"一步一步想"，再给最终答案。提高复杂问题的准确率。例：让 AI 算数时加一句"请逐步推理"。

CPU 推理

不用 GPU，只用 CPU 跑 AI。慢，但门槛低。8 GB 内存的老电脑只能这么跑。

CUDA

NVIDIA 显卡跑 AI 的底层技术。 安装本地 AI 时常需要。

D

DeepSeek

深度求索公司，中国 AI 公司，旗下 DeepSeek-R1 / V3 是 2025 年开源界明星。

Distillation（蒸馏）

把"大模型"的能力"浓缩"到"小模型"里。例：DeepSeek-R1 Distill Qwen 7B = 把 R1 的推理能力蒸馏到 Qwen 7B。

Dify

开源的 LLM 应用开发平台，支持节点式 Agent 编排。

E

Embedding（嵌入）

把"文字"变成"一串数字"，让计算机能比较语义相似度。用途：知识库的基础。（详见第十一章）

Endpoint（端点）

API 的具体访问地址。例：http://localhost:11434/v1/chat/completions。

F

F5-TTS

2025 年最强的本地语音合成模型，能克隆任何人的声音。

Few-shot（少样本）

在 prompt 里给 AI 看几个例子，让它依样画葫芦。例：给 AI 看 3 个"标题样例"，它就能模仿你的标题风格。

Fine-tuning（微调）

用你自己的数据训练已有模型，让它"个性化"。例：用 100 段你的写作样本微调 Qwen，得到"你的写作分身"。

FlashAttention

一个让 AI 推理更快、更省内存的算法。对你：Ollama 自动开启，你不用管。

Flux

2024 年开源的最强文生图模型之一，由 Black Forest Labs 出品。

FP16 / FP32 / BF16

浮点数精度。 FP32：32 位，最准但最大。 FP16：16 位，省一半空间。 BF16：另一种 16 位格式。 普通用户用量化（Q4/Q5）就够，不用纠结这些。

Function Calling（函数调用）

让 AI 能"调用工具"的能力。例：你问"北京天气"，AI 调用"weather()"函数，返回结果。

G

Gemma

Google 出的开源模型家族（Gemma 1/2/3）。

GGUF

本地推理用的模型格式（llama.cpp 出的）。特点：量化后小、加载快、跨平台。

GLM

智谱 AI 的模型家族（GLM-4 等）。

GPU

显卡，跑 AI 推理的"加速器"。典型：NVIDIA RTX 系列、Apple Silicon GPU。

GPT

广义：OpenAI 的 GPT 系列模型。狭义："Generative Pre-trained Transformer"，一种 AI 架构。

H

Hugging Face

全球最大的 AI 模型分发平台。别名：HF。

HUGGING_FACE_HUB_TOKEN

访问 HF 私有仓库或加速下载的 token。

I

Instruct Model（指令微调模型）

专门为"对话 / 听指令"训练过的模型。对应：Base Model（基础模型）。

Inference（推理）

AI"思考 + 给答案"的过程。

iGPU（集成显卡）

集成在 CPU 里的显卡。典型：Apple Silicon、Intel HD Graphics、AMD Radeon。

J

JSON Mode

让 AI 强制输出 JSON 格式的功能。 Ollama / LM Studio 都支持。

K

Kerberos / KV Cache

KV Cache：AI 推理时缓存的"键值对"，让多轮对话变快。对你：上下文越长 KV Cache 越大，吃内存。

KV Cache Quantization

把 KV Cache 也量化（如 q8_0），省内存。 Ollama 0.17+ 支持。

L

LangChain / LangGraph

最流行的 LLM 应用开发框架（Python）。

Llama

Meta 出的开源模型家族（Llama 1/2/3/4）。

llama.cpp

C++ 写的本地 AI 推理引擎，Ollama 的"亲爹"。

LLM

Large Language Model，大语言模型。例：Qwen 3、Llama 4、GPT-4、Claude。

LM Studio

最流行的本地 AI 桌面 App 之一，全 GUI。

LoRA

Low-Rank Adaptation，一种"低成本"微调技术。优势：单卡几小时就能微调一个 7B 模型。

M

MCP（Model Context Protocol）

Anthropic 推的"AI 工具协议"，让任何 AI 用统一方式调用任何工具。（详见第十三章）

Mistral

法国 AI 公司 Mistral AI 的模型家族。

MLX

Apple 出的 M 芯片专用机器学习框架。优势：M 芯片上比通用方案快 30–50%。

MMLU

一个评测 AI 知识广度的考试，57 个学科。

MoE（Mixture of Experts）

"专家混合"架构。特点：总参数大，但每次只激活一部分"专家"。例：DeepSeek-V3 = 671B 总参 / 37B 激活。（详见第六章）

N

n8n

开源的工作流自动化工具，类似国际版 Zapier。

Nginx

反向代理服务器，常用来给本地服务加 HTTPS / 鉴权。

nomic-embed-text

英文嵌入模型，轻量但效果好。

NPU

Neural Processing Unit，专门跑 AI 的芯片。例：Apple Neural Engine、Intel Core Ultra NPU。

num_ctx

Ollama 设置上下文长度的参数。例：PARAMETER num_ctx 32768 = 32K 上下文。

O

Ollama

最流行的本地 AI 推理引擎之一，命令行 + REST API。

Open WebUI

最流行的本地 AI Web UI，自带多用户、知识库。

OpenAI Compatible API

模仿 OpenAI 接口规范的 API。优势：能让"本来只支持 OpenAI"的工具用上本地模型。

P

Parameter（参数）

AI 模型的"权重"。单位：B = 十亿。例：Qwen 3 8B = 80 亿参数。

Phi

Microsoft 出的"小钢炮"模型家族（Phi-1/2/3/4）。

Piper

轻量本地 TTS 工具。

Prompt（提示词）

你给 AI 的指令。

Prompt Engineering（提示词工程）

设计"好的提示词"的学问。

Prompt Injection（提示词注入）

攻击者在文档 / 网页里藏指令，让 AI 执行恶意操作。（详见第十六章）

PyTorch

最主流的深度学习框架。

Q

Q2 / Q3 / Q4 / Q5 / Q6 / Q8

量化级别，数字越小压缩越狠。 Q4_K_M = 默认推荐。（详见第六章）

Quantization（量化）

把模型权重从高精度（FP16）压缩到低精度（Q4）。好处：文件小、内存小、速度快。代价：略微质量损失。

Qwen（通义千问）

阿里巴巴出的开源模型家族（Qwen 1/2/2.5/3）。 中文场景首选。

R

RAG（Retrieval-Augmented Generation）

"先检索资料，再生成答案"的技术。用途：让 AI 基于你的私人资料回答。（详见第十一章）

Raycast

Mac 上的"超级启动器"，社区生态丰富。

Reasoning Model（推理模型）

专门为"复杂推理"训练的模型。例：DeepSeek-R1、OpenAI o1/o3。特点：回答前先"思考一会儿"，准确率高但慢。

ReRank（重排）

检索回 N 块后，用一个小模型再筛出最相关的几块。作用：大幅提升知识库准确率。

REST API

最常见的 Web 接口形式。 Ollama 默认在 http://localhost:11434 提供。

RTX

NVIDIA 消费级显卡品牌（RTX 30/40/50 系列）。

S

safetensors

HuggingFace 出的安全模型格式（不能执行任意代码）。对应：pickle（不安全）。

Sampling（采样）

AI 选下一个词时的策略。 关键参数：temperature、top_p、top_k。

SD（Stable Diffusion）

最知名的开源文生图模型家族。

Shotcuts（快捷指令）

Apple 自家的自动化工具。

SLM（Small Language Model）

小语言模型，通常 1–7B。特点：能在手机 / 老电脑跑。

SOTA（State Of The Art）

"当前最强"。例：DeepSeek-R1 是开源推理 SOTA。

System Prompt（系统提示词）

对话最开始给 AI 的"角色设定"。例：你是一个严谨的法律顾问。

T

Temperature（温度）

控制 AI 回答的"随机性"。 0 = 每次都一样（确定）。 1+ = 充满变化（创意）。

Token

AI 处理文字的最小单位。英文：约 1 token = 4 字符。中文：约 1 token = 1.5 个字。

TPS（Tokens Per Second）

AI 出字速度。 > 15 = 流畅。 > 30 = 飞快。 < 5 = 让人想砸键盘。

TTS（Text To Speech）

"文字转语音"。例：Piper、F5-TTS、CosyVoice。

U

UI（User Interface）

用户界面。例：Cherry Studio 是个 UI，Ollama 是个引擎。

Unsloth

高效微调框架，速度快、省显存。

URL Schemes

Mac/iOS 的 URL 调用机制。例：raycast:// 直接打开 Raycast。

V

Vector DB（向量数据库）

存"文字向量"的数据库。例：ChromaDB、Qdrant、Milvus。

vLLM

Berkeley 出的高性能本地推理引擎，多卡 / 高并发场景首选。

Vision Model / VLM

能"看图"的多模态模型。例：Qwen 2.5-VL、Llama 3.2-Vision。

VRAM（显存）

显卡上的内存。 对 AI：模型加上 KV Cache 都得装这里面。

W

Whisper

OpenAI 的语音识别模型。 本地版本：whisper.cpp、MLX-Whisper、Faster-Whisper。

Workflow（工作流）

"一系列步骤组合的自动化"。例：录音 → 转文字 → AI 总结 → 发邮件。

X / Y / Z

Yi

零一万物（01.AI）的模型家族（Yi-1.5）。

Zero-shot（零样本）

不给例子，直接让 AI 做。对应：Few-shot（给几个例子）。

💡 还想查什么？

如果你看本书 / 看教程时遇到不懂的术语，建议：

先到本附录搜索
用本地 AI 自己问（Qwen 3 8B 都能解释）
GitHub Issues 搜

术语只是壳——理解背后的概念才是关键。

返回目录 | 上一篇附录 C | 下一篇附录 E