1.1 一句话定义
本地 AI 就是:一个完全装在你自己电脑里、断网也能跟你聊天和干活的 AI。
把这句话拆成三个词:
- "装在你自己电脑里"——不是网页打开就用的,不是 App Store 下一个就完事的"壳"。它的"大脑"(也就是模型权重文件)真真切切地下载到了你硬盘上,常常占好几个 GB。
- "断网也能用"——你拔了网线、开飞行模式、断了 Wi-Fi,它依然能跟你对话、写邮件、改代码、总结文档。
- "跟你聊天和干活"——它的体验和你在网页上用 ChatGPT、DeepSeek、豆包是几乎一样的:你打字它回答,你给它文档它总结,你给它图它看图。
只要这三条同时满足,它就是本地 AI。少一条,就不是。
1.2 一个生活类比:本地 AI 像什么
如果你听不懂"模型"、"推理"、"权重"这些词,那么用一个生活里的类比就够了:
云端 AI 是外卖。本地 AI 是你家厨房。
| 维度 | 外卖(云端 AI) | 自己厨房(本地 AI) |
|---|---|---|
| 第一次开始用 | 0 成本,下个 App 就开吃 | 要装锅、买调料、学几道菜 |
| 速度 | 一般要 30 分钟 | 你愿意,10 分钟出锅 |
| 隐私 | 店家知道你点了什么、什么时候点 | 你今晚吃什么没人知道 |
| 食材安全 | 你不知道他们用什么 | 你买什么放什么自己决定 |
| 上限 | 米其林后厨级别 | 看你练到什么水平 |
| 长期成本 | 每天 30 元,一年 1 万 | 一次 5000 块买齐工具,往后只买菜 |
| 断电断网 | 没了 | 燃气还在,照常做 |
| 最适合谁 | 上班族、独居、应急 | 家里有娃、想吃健康、想省钱、想有掌控感 |
注意:这个表格不是要否定外卖。事实上 80% 的人 80% 的时间会一直叫外卖,这没毛病。
但当你开始重视"我吃进去的东西,到底是什么、是谁在做、有没有被加什么",你就会想要一个自己的厨房。
本地 AI 之于云端 AI,就是这个关系。
1.3 本地 AI 的三块拼图
每一个能跑起来的本地 AI,必须同时凑齐三块拼图:
┌─────────────────────────────────────────────────┐
│ 本地 AI = ① 模型文件 + ② 推理引擎 + ③ 用户界面 │
└─────────────────────────────────────────────────┘
拼图 ① :模型文件(也叫"权重文件")
这是 AI 的"大脑"。
它本质上是一个或几个非常大的文件,扩展名常见的有 .gguf、.safetensors、.bin。一个 8B(80 亿参数)的模型,量化压缩之后大概是 4–5 GB;一个 70B 的,量化之后 30–40 GB。
你可以理解为:这个文件就是一颗"已经训练完毕的大脑",被冻结成了一个文件,谁都可以下载、谁都可以加载到自己电脑里使用。
主流的模型来自这些"开源团队":
- Meta(Facebook):Llama 系列(如 Llama 3.3、Llama 4 Scout/Maverick)
- 阿里巴巴:Qwen 系列(如 Qwen 3、Qwen 2.5 Coder)
- DeepSeek:DeepSeek-R1、DeepSeek-V3
- Google:Gemma 系列(如 Gemma 3)
- Microsoft:Phi 系列(如 Phi-4)
- Mistral AI:Mistral 系列
- 零一万物、智谱、面壁、上海 AI Lab 等等更多
这些团队把训练好的模型权重免费放出来,任何人都可以下载——这就是"开源大模型"。本地 AI 之所以能存在,根本原因是这些公司把"大脑"开源了。
第一次看到"开源大模型"这个词,记住它:就是一颗免费下载的 AI 大脑。
拼图 ② :推理引擎(也叫"运行时")
光有大脑文件没用——你需要一个"东西"把这个大脑加载进电脑内存,然后让它真正"思考"起来。
这个"东西"就叫推理引擎。它的工作是:
- 把硬盘上的 5 GB 大文件读进内存。
- 把你输入的文字转成数字(叫"分词")。
- 让 GPU / CPU 一层层算出回答的下一个字。
- 把数字再转回文字给你。
听起来复杂,但作为普通用户你完全不用懂这一步是怎么发生的。你只需要知道:你装的那个软件(Ollama、LM Studio、llama.cpp 等等),就是推理引擎本体。
主流的推理引擎:
- llama.cpp:底层鼻祖,纯 C++ 写的,支持几乎所有平台。Ollama、LM Studio 内部都用它。
- Ollama:把 llama.cpp 包了一层,配上"一行命令拉模型、一行命令跑模型"的体验,是命令行用户的最爱。
- LM Studio:把 llama.cpp 包了一层 GUI(图形界面),是 Windows 小白和大多数 Mac 用户的最爱。
- vLLM / TGI / SGLang / MLC:偏服务器、偏开发者的选择,普通用户用不到。
- MLX:苹果家的,专门优化 Apple Silicon。Ollama 0.17 之后已经原生集成。
关键点:模型文件是"大脑",推理引擎是"身体"。两者必须配套。
拼图 ③ :用户界面(UI)
光有大脑和身体还不够——你需要一张"嘴和耳朵",让你能跟它对话。
这一块就是 用户界面。它可以是:
- 命令行:你打字它回答,最朴素也最稳定。Ollama 自带。
- 桌面 App:像微信一样的对话窗口。LM Studio、Cherry Studio、Jan、GPT4All 都是这种。
- 网页 / Web UI:在浏览器里打开一个聊天窗。Open WebUI、AnythingLLM 是代表。
- 嵌入到别的软件里:Obsidian、VS Code、Raycast、Apple 快捷指令——这些软件都可以"接上"你本地的推理引擎,让它在你日常工具里直接出现。
很多人第一次接触本地 AI 觉得难,根本原因是:他们以为本地 AI 是一个东西,结果发现需要装好几个东西。其实那好几个东西就是"模型 + 引擎 + UI"这三块拼图,缺一不可。
好消息是,2026 年的工具已经把这三步合并到了一两个软件里。比如装一个 LM Studio,三块拼图一次就齐了。
1.4 本地 AI 不是什么
为了让"本地 AI"这个概念更清晰,我们必须把它和几个长得很像、但完全不是同一个东西的概念分开:
它不是"AI 助手 App"
你手机里的豆包、文小言、秘塔、Kimi 是 App,但它们都是云端 AI 的"壳"——你输入的内容会发到厂商服务器去算,再把结果返回给你。
判断一个 AI App 是不是本地 AI 的最快方法:把手机切到飞行模式。如果它还能正常对话,那才是本地的。
到 2026 年 4 月为止,绝大多数手机端的 AI App 都不是纯本地的。即便是苹果的 Apple Intelligence,也只有一小部分(如自动改写、邮件整理)跑在本地,复杂任务依然走云端。
它不是浏览器插件
沉浸式翻译、Bob、Bob Plus、Monica、橙篇——这些都是浏览器插件或桌面助手。它们本身不带 AI 大脑,只是一个"搬运工",把你选中的内容发到某个 AI(云端或本地)那里,再把结果显示给你。
但有趣的是:这些插件可以接到你的本地 AI 上。这是本地 AI 用户的常见玩法——前端用顺手的插件,后端连自己电脑里的模型。
它不是"AI 一体机"
你可能在网上看到那种"国产 AI 一体机,3.99 万元,开箱即用"。它本质上是:一台普通服务器 + 预装好 Ollama 之类的软件 + 装好几个开源模型 + 套一个外壳。
如果你愿意花一个周末,自己用 1 万块买台 Mac mini 或装一台带 4090 的台式机,能做到完全一样的效果。这本书会教你怎么自己搭,给你省下 2 万块。
它不是"私有云大模型"
公司里的 IT 部门可能跟你说:"我们部署了私有大模型"。这种通常是:在公司机房里搭一台服务器,让全公司的人通过内网访问。
它和本地 AI 的区别在于:本地 AI 是"装在你个人电脑里",私有云是"装在你公司机房里"。前者数据完全不出你这台机器,后者数据不出公司局域网。
两者在隐私上都比公网云端 AI 强得多,但只有前者能给你"我家里、我自己掌控"的安心感。
1.5 6 个最常见的误解,一一拆穿
误解 1:"本地 AI 一定不如云端 AI 智能"
部分对,部分错。
部分对:在 2026 年,最强的封闭模型(如 GPT-5、Claude 4.5、Gemini 2.5)在很多评测上确实比能在你电脑上跑的最大开源模型(Llama 3.3 70B、Qwen 3 235B-A22B、DeepSeek-R1)强一些。
部分错:差距已经远没有 2023–2024 年那么大了。2026 年初,DeepSeek-R1 在数学推理上的得分已经超过 GPT-4o;Qwen 3 在中文写作上甚至比某些云端模型更好;Qwen 2.5 Coder 32B 在编程基准上接近 90% 的 HumanEval。
更重要的是:对普通用户的 90% 日常需求(写邮件、写日记、读 PDF、改简历、翻译),开源模型已经完全够用。剩下那 10% 你再去用云端 AI 不迟。
误解 2:"本地 AI 必须有顶级显卡才能跑"
错。
2026 年一个 M1 8GB 的 MacBook Air、一个 16GB 内存的轻薄本,就能很流畅地跑 3B 到 8B 的模型。这些模型已经能完成绝大多数日常任务。
只有当你想跑 70B 这种"接近顶级云模型"的大家伙,才需要 32 GB 或 64 GB 内存。
误解 3:"本地 AI 部署起来要写代码"
错(2025 年起就错了)。
LM Studio、Cherry Studio、AnythingLLM、Jan 这些桌面 App 全部是图形界面:装好之后,鼠标点一点,模型自己下载、自己加载,第一次对话不超过 5 分钟。
第四章会一步步带你做完。
误解 4:"本地 AI 装好以后就再不用更新了"
错。
模型每隔几个月会有新版本(Qwen 出了 3.5、Llama 出了 4),你的工具也会更新(Ollama 半年迭代了 5 个版本)。本地 AI 的"维护成本"比云端高,这是它的真实代价之一。
不过对普通用户,"半年看一次有没有新模型可以替换"就够了,不需要追着每周更新跑。
误解 5:"本地 AI 完全不需要联网"
部分错。
第一次使用要联网:你需要从网上下载模型文件(一个 8B 模型大约 5 GB)。
之后使用不需要联网:模型在本地了,你就可以拔网线、上飞机、出国漫游随便用。
部分场景仍需要联网:比如本地 AI 想搜实时新闻、看今天的股价、调用某个在线 API——这些功能本身就要走外网,本地模型只是"大脑",数据接入还是需要走外面。
误解 6:"只要是本地 AI,就一定安全"
这是最危险的一个误解。
本地 AI 比云端 AI 在隐私上先天有优势,但不等于绝对安全。具体威胁有:
- 模型本身被植入恶意指令(投毒):你下载的模型可能在特定关键词下会输出恶意内容。
- 本地 Web UI 端口暴露在公网:你装的 Open WebUI 默认监听 0.0.0.0,被外网扫到就完了。
- 第三方插件偷偷上传:你装的某个"翻译插件"号称走本地,实际把数据传到自己的服务器。
- 模型权重文件本身可能很大、很难校验:你以为下了 Qwen 3,其实下了一个被改过的版本。
第十六章会专门讲这一块。这里只先记住:"本地"是一种倾向,不是一道铁墙。
1.6 一张图看完三种 AI 的数据流向
┌──────────────┐ ┌──────────────┐
│ 云端 AI │ 你的输入 → │ 厂商服务器 │ → 回答
│ (ChatGPT 等) │ │ (训练 / 留存) │
└──────────────┘ └──────────────┘
┌──────────────┐ ┌──────────────┐
│ 私有云 AI │ 你的输入 → │ 公司机房 │ → 回答
│ (公司部署) │ │ (内网, 不出公司) │
└──────────────┘ └──────────────┘
┌──────────────┐
│ 本地 AI │ 你的输入 → 你的硬盘 / 内存 / GPU → 回答
│ (本书重点) │ (数据完全不出本机)
└──────────────┘
这张图建议你截下来,下次跟家人或同事解释时直接拿出来。
1.7 一个最小可工作的本地 AI 长什么样
为了让你有最直观的印象,下面是一个"最小可工作"的本地 AI 全貌(你看完后面章节就会自己跑起来):
你的 Mac mini
├── /Applications/Ollama.app (推理引擎,约 200 MB)
├── ~/.ollama/models/qwen3-8b-q4_K_M.gguf (模型权重,约 5 GB)
└── /Applications/Cherry Studio.app (用户界面,约 300 MB)
总占用:约 5.5 GB。
每天耗电:几乎可以忽略不计(不对话时模型不在内存中)。
每月成本:0 元(电费另算)。
它能做的:写文章、读 PDF、翻译、改简历、写代码、搭知识库、跟你的 Obsidian 笔记联动……基本上,云端 ChatGPT Plus 一个月 20 美元能做的事,它都能做八九成。
1.8 本章小练习
练习 1:向爸妈解释什么是本地 AI
试着用 1.2 节的"外卖 vs 厨房"类比,给你不懂技术的爸妈、配偶、孩子讲一遍什么是本地 AI。如果他们能复述出来,说明你真的懂了。
练习 2:判断你目前用的 AI 是哪一种
打开你手机或电脑里所有正在用的 AI 工具,逐一判断:
- 它是云端 AI 吗?(关 Wi-Fi 试试还能不能用)
- 它是壳 + 云端 AI 吗?(看看它的服务条款里有没有"内容会用于训练")
- 它是本地 AI 吗?(看看它有没有让你下过 GB 级别的"模型文件")
把结果记在笔记里。下一章我们会把它们一个个对号入座。
练习 3:观察你电脑的硬件
打开你电脑的"关于本机"或"系统信息",记下三个数字:
- 总内存(GB)
- GPU 显存(如果是独显,单位 GB;Mac 用户跳过)
- 可用硬盘空间(GB)
把这三个数字记下来,第三章我们会用到。
1.9 一句话记住
本地 AI = 装在你电脑里、不上传你数据的开源 AI 大脑 + 推理引擎 + 一个聊天窗口。
下一章 第二章 · 本地AI对比云端AI 到底该选哪个,我们用 13 个维度把"本地"和"云端"放到天平上称一称,看看你属于哪一类用户。