本地 AI 是什么 · 本地 AI 橙皮书

1.1 一句话定义

本地 AI 就是：一个完全装在你自己电脑里、断网也能跟你聊天和干活的 AI。

把这句话拆成三个词：

"装在你自己电脑里"——不是网页打开就用的，不是 App Store 下一个就完事的"壳"。它的"大脑"（也就是模型权重文件）真真切切地下载到了你硬盘上，常常占好几个 GB。
"断网也能用"——你拔了网线、开飞行模式、断了 Wi-Fi，它依然能跟你对话、写邮件、改代码、总结文档。
"跟你聊天和干活"——它的体验和你在网页上用 ChatGPT、DeepSeek、豆包是几乎一样的：你打字它回答，你给它文档它总结，你给它图它看图。

只要这三条同时满足，它就是本地 AI。少一条，就不是。

1.2 一个生活类比：本地 AI 像什么

如果你听不懂"模型"、"推理"、"权重"这些词，那么用一个生活里的类比就够了：

云端 AI 是外卖。本地 AI 是你家厨房。

维度	外卖（云端 AI）	自己厨房（本地 AI）
第一次开始用	0 成本，下个 App 就开吃	要装锅、买调料、学几道菜
速度	一般要 30 分钟	你愿意，10 分钟出锅
隐私	店家知道你点了什么、什么时候点	你今晚吃什么没人知道
食材安全	你不知道他们用什么	你买什么放什么自己决定
上限	米其林后厨级别	看你练到什么水平
长期成本	每天 30 元，一年 1 万	一次 5000 块买齐工具，往后只买菜
断电断网	没了	燃气还在，照常做
最适合谁	上班族、独居、应急	家里有娃、想吃健康、想省钱、想有掌控感

注意：这个表格不是要否定外卖。事实上 80% 的人 80% 的时间会一直叫外卖，这没毛病。

但当你开始重视"我吃进去的东西，到底是什么、是谁在做、有没有被加什么"，你就会想要一个自己的厨房。

本地 AI 之于云端 AI，就是这个关系。

1.3 本地 AI 的三块拼图

每一个能跑起来的本地 AI，必须同时凑齐三块拼图：

┌─────────────────────────────────────────────────┐
│  本地 AI = ① 模型文件 + ② 推理引擎 + ③ 用户界面  │
└─────────────────────────────────────────────────┘

拼图 ① ：模型文件（也叫"权重文件"）

这是 AI 的"大脑"。

它本质上是一个或几个非常大的文件，扩展名常见的有 .gguf、.safetensors、.bin。一个 8B（80 亿参数）的模型，量化压缩之后大概是 4–5 GB；一个 70B 的，量化之后 30–40 GB。

你可以理解为：这个文件就是一颗"已经训练完毕的大脑"，被冻结成了一个文件，谁都可以下载、谁都可以加载到自己电脑里使用。

主流的模型来自这些"开源团队"：

Meta（Facebook）：Llama 系列（如 Llama 3.3、Llama 4 Scout/Maverick）
阿里巴巴：Qwen 系列（如 Qwen 3、Qwen 2.5 Coder）
DeepSeek：DeepSeek-R1、DeepSeek-V3
Google：Gemma 系列（如 Gemma 3）
Microsoft：Phi 系列（如 Phi-4）
Mistral AI：Mistral 系列
零一万物、智谱、面壁、上海 AI Lab 等等更多

这些团队把训练好的模型权重免费放出来，任何人都可以下载——这就是"开源大模型"。本地 AI 之所以能存在，根本原因是这些公司把"大脑"开源了。

第一次看到"开源大模型"这个词，记住它：就是一颗免费下载的 AI 大脑。

拼图 ② ：推理引擎（也叫"运行时"）

光有大脑文件没用——你需要一个"东西"把这个大脑加载进电脑内存，然后让它真正"思考"起来。

这个"东西"就叫推理引擎。它的工作是：

把硬盘上的 5 GB 大文件读进内存。
把你输入的文字转成数字（叫"分词"）。
让 GPU / CPU 一层层算出回答的下一个字。
把数字再转回文字给你。

听起来复杂，但作为普通用户你完全不用懂这一步是怎么发生的。你只需要知道：你装的那个软件（Ollama、LM Studio、llama.cpp 等等），就是推理引擎本体。

主流的推理引擎：

llama.cpp：底层鼻祖，纯 C++ 写的，支持几乎所有平台。Ollama、LM Studio 内部都用它。
Ollama：把 llama.cpp 包了一层，配上"一行命令拉模型、一行命令跑模型"的体验，是命令行用户的最爱。
LM Studio：把 llama.cpp 包了一层 GUI（图形界面），是 Windows 小白和大多数 Mac 用户的最爱。
vLLM / TGI / SGLang / MLC：偏服务器、偏开发者的选择，普通用户用不到。
MLX：苹果家的，专门优化 Apple Silicon。Ollama 0.17 之后已经原生集成。

关键点：模型文件是"大脑"，推理引擎是"身体"。两者必须配套。

拼图 ③ ：用户界面（UI）

光有大脑和身体还不够——你需要一张"嘴和耳朵"，让你能跟它对话。

这一块就是 用户界面。它可以是：

命令行：你打字它回答，最朴素也最稳定。Ollama 自带。
桌面 App：像微信一样的对话窗口。LM Studio、Cherry Studio、Jan、GPT4All 都是这种。
网页 / Web UI：在浏览器里打开一个聊天窗。Open WebUI、AnythingLLM 是代表。
嵌入到别的软件里：Obsidian、VS Code、Raycast、Apple 快捷指令——这些软件都可以"接上"你本地的推理引擎，让它在你日常工具里直接出现。

很多人第一次接触本地 AI 觉得难，根本原因是：他们以为本地 AI 是一个东西，结果发现需要装好几个东西。其实那好几个东西就是"模型 + 引擎 + UI"这三块拼图，缺一不可。

好消息是，2026 年的工具已经把这三步合并到了一两个软件里。比如装一个 LM Studio，三块拼图一次就齐了。

1.4 本地 AI 不是什么

为了让"本地 AI"这个概念更清晰，我们必须把它和几个长得很像、但完全不是同一个东西的概念分开：

它不是"AI 助手 App"

你手机里的豆包、文小言、秘塔、Kimi 是 App，但它们都是云端 AI 的"壳"——你输入的内容会发到厂商服务器去算，再把结果返回给你。

判断一个 AI App 是不是本地 AI 的最快方法：把手机切到飞行模式。如果它还能正常对话，那才是本地的。

到 2026 年 4 月为止，绝大多数手机端的 AI App 都不是纯本地的。即便是苹果的 Apple Intelligence，也只有一小部分（如自动改写、邮件整理）跑在本地，复杂任务依然走云端。

它不是浏览器插件

沉浸式翻译、Bob、Bob Plus、Monica、橙篇——这些都是浏览器插件或桌面助手。它们本身不带 AI 大脑，只是一个"搬运工"，把你选中的内容发到某个 AI（云端或本地）那里，再把结果显示给你。

但有趣的是：这些插件可以接到你的本地 AI 上。这是本地 AI 用户的常见玩法——前端用顺手的插件，后端连自己电脑里的模型。

它不是"AI 一体机"

你可能在网上看到那种"国产 AI 一体机，3.99 万元，开箱即用"。它本质上是：一台普通服务器 + 预装好 Ollama 之类的软件 + 装好几个开源模型 + 套一个外壳。

如果你愿意花一个周末，自己用 1 万块买台 Mac mini 或装一台带 4090 的台式机，能做到完全一样的效果。这本书会教你怎么自己搭，给你省下 2 万块。

它不是"私有云大模型"

公司里的 IT 部门可能跟你说："我们部署了私有大模型"。这种通常是：在公司机房里搭一台服务器，让全公司的人通过内网访问。

它和本地 AI 的区别在于：本地 AI 是"装在你个人电脑里"，私有云是"装在你公司机房里"。前者数据完全不出你这台机器，后者数据不出公司局域网。

两者在隐私上都比公网云端 AI 强得多，但只有前者能给你"我家里、我自己掌控"的安心感。

1.5 6 个最常见的误解，一一拆穿

误解 1："本地 AI 一定不如云端 AI 智能"

部分对，部分错。

部分对：在 2026 年，最强的封闭模型（如 GPT-5、Claude 4.5、Gemini 2.5）在很多评测上确实比能在你电脑上跑的最大开源模型（Llama 3.3 70B、Qwen 3 235B-A22B、DeepSeek-R1）强一些。

部分错：差距已经远没有 2023–2024 年那么大了。2026 年初，DeepSeek-R1 在数学推理上的得分已经超过 GPT-4o；Qwen 3 在中文写作上甚至比某些云端模型更好；Qwen 2.5 Coder 32B 在编程基准上接近 90% 的 HumanEval。

更重要的是：对普通用户的 90% 日常需求（写邮件、写日记、读 PDF、改简历、翻译），开源模型已经完全够用。剩下那 10% 你再去用云端 AI 不迟。

误解 2："本地 AI 必须有顶级显卡才能跑"

错。

2026 年一个 M1 8GB 的 MacBook Air、一个 16GB 内存的轻薄本，就能很流畅地跑 3B 到 8B 的模型。这些模型已经能完成绝大多数日常任务。

只有当你想跑 70B 这种"接近顶级云模型"的大家伙，才需要 32 GB 或 64 GB 内存。

误解 3："本地 AI 部署起来要写代码"

错（2025 年起就错了）。

LM Studio、Cherry Studio、AnythingLLM、Jan 这些桌面 App 全部是图形界面：装好之后，鼠标点一点，模型自己下载、自己加载，第一次对话不超过 5 分钟。

第四章会一步步带你做完。

误解 4："本地 AI 装好以后就再不用更新了"

错。

模型每隔几个月会有新版本（Qwen 出了 3.5、Llama 出了 4），你的工具也会更新（Ollama 半年迭代了 5 个版本）。本地 AI 的"维护成本"比云端高，这是它的真实代价之一。

不过对普通用户，"半年看一次有没有新模型可以替换"就够了，不需要追着每周更新跑。

误解 5："本地 AI 完全不需要联网"

部分错。

第一次使用要联网：你需要从网上下载模型文件（一个 8B 模型大约 5 GB）。

之后使用不需要联网：模型在本地了，你就可以拔网线、上飞机、出国漫游随便用。

部分场景仍需要联网：比如本地 AI 想搜实时新闻、看今天的股价、调用某个在线 API——这些功能本身就要走外网，本地模型只是"大脑"，数据接入还是需要走外面。

误解 6："只要是本地 AI，就一定安全"

这是最危险的一个误解。

本地 AI 比云端 AI 在隐私上先天有优势，但不等于绝对安全。具体威胁有：

模型本身被植入恶意指令（投毒）：你下载的模型可能在特定关键词下会输出恶意内容。
本地 Web UI 端口暴露在公网：你装的 Open WebUI 默认监听 0.0.0.0，被外网扫到就完了。
第三方插件偷偷上传：你装的某个"翻译插件"号称走本地，实际把数据传到自己的服务器。
模型权重文件本身可能很大、很难校验：你以为下了 Qwen 3，其实下了一个被改过的版本。

第十六章会专门讲这一块。这里只先记住："本地"是一种倾向，不是一道铁墙。

1.6 一张图看完三种 AI 的数据流向

┌──────────────┐                ┌──────────────┐
│   云端 AI     │   你的输入  → │ 厂商服务器    │  → 回答
│  (ChatGPT 等) │                │ (训练 / 留存) │
└──────────────┘                └──────────────┘

┌──────────────┐                ┌──────────────┐
│   私有云 AI   │   你的输入  → │ 公司机房      │  → 回答
│   (公司部署)  │                │ (内网, 不出公司) │
└──────────────┘                └──────────────┘

┌──────────────┐
│   本地 AI     │   你的输入  → 你的硬盘 / 内存 / GPU  → 回答
│ (本书重点)    │                (数据完全不出本机)
└──────────────┘

这张图建议你截下来，下次跟家人或同事解释时直接拿出来。

1.7 一个最小可工作的本地 AI 长什么样

为了让你有最直观的印象，下面是一个"最小可工作"的本地 AI 全貌（你看完后面章节就会自己跑起来）：

你的 Mac mini
├── /Applications/Ollama.app                  (推理引擎，约 200 MB)
├── ~/.ollama/models/qwen3-8b-q4_K_M.gguf     (模型权重，约 5 GB)
└── /Applications/Cherry Studio.app            (用户界面，约 300 MB)

总占用：约 5.5 GB。

每天耗电：几乎可以忽略不计（不对话时模型不在内存中）。

每月成本：0 元（电费另算）。

它能做的：写文章、读 PDF、翻译、改简历、写代码、搭知识库、跟你的 Obsidian 笔记联动……基本上，云端 ChatGPT Plus 一个月 20 美元能做的事，它都能做八九成。

1.8 本章小练习

练习 1：向爸妈解释什么是本地 AI

试着用 1.2 节的"外卖 vs 厨房"类比，给你不懂技术的爸妈、配偶、孩子讲一遍什么是本地 AI。如果他们能复述出来，说明你真的懂了。

练习 2：判断你目前用的 AI 是哪一种

打开你手机或电脑里所有正在用的 AI 工具，逐一判断：

它是云端 AI 吗？（关 Wi-Fi 试试还能不能用）
它是壳 + 云端 AI 吗？（看看它的服务条款里有没有"内容会用于训练"）
它是本地 AI 吗？（看看它有没有让你下过 GB 级别的"模型文件"）

把结果记在笔记里。下一章我们会把它们一个个对号入座。

练习 3：观察你电脑的硬件

打开你电脑的"关于本机"或"系统信息"，记下三个数字：

总内存（GB）
GPU 显存（如果是独显，单位 GB；Mac 用户跳过）
可用硬盘空间（GB）

把这三个数字记下来，第三章我们会用到。

1.9 一句话记住

本地 AI = 装在你电脑里、不上传你数据的开源 AI 大脑 + 推理引擎 + 一个聊天窗口。

下一章第二章 · 本地AI对比云端AI 到底该选哪个，我们用 13 个维度把"本地"和"云端"放到天平上称一称，看看你属于哪一类用户。