ORANGE BOOK · LOCAL AI

第一章 本地 AI 到底是什么——用大白话讲清楚

1.1 一句话定义

本地 AI 就是:一个完全装在你自己电脑里、断网也能跟你聊天和干活的 AI。

把这句话拆成三个词:

  • "装在你自己电脑里"——不是网页打开就用的,不是 App Store 下一个就完事的"壳"。它的"大脑"(也就是模型权重文件)真真切切地下载到了你硬盘上,常常占好几个 GB。
  • "断网也能用"——你拔了网线、开飞行模式、断了 Wi-Fi,它依然能跟你对话、写邮件、改代码、总结文档。
  • "跟你聊天和干活"——它的体验和你在网页上用 ChatGPT、DeepSeek、豆包是几乎一样的:你打字它回答,你给它文档它总结,你给它图它看图。

只要这三条同时满足,它就是本地 AI。少一条,就不是。

1.2 一个生活类比:本地 AI 像什么

如果你听不懂"模型"、"推理"、"权重"这些词,那么用一个生活里的类比就够了:

云端 AI 是外卖。本地 AI 是你家厨房。

维度 外卖(云端 AI) 自己厨房(本地 AI)
第一次开始用 0 成本,下个 App 就开吃 要装锅、买调料、学几道菜
速度 一般要 30 分钟 你愿意,10 分钟出锅
隐私 店家知道你点了什么、什么时候点 你今晚吃什么没人知道
食材安全 你不知道他们用什么 你买什么放什么自己决定
上限 米其林后厨级别 看你练到什么水平
长期成本 每天 30 元,一年 1 万 一次 5000 块买齐工具,往后只买菜
断电断网 没了 燃气还在,照常做
最适合谁 上班族、独居、应急 家里有娃、想吃健康、想省钱、想有掌控感

注意:这个表格不是要否定外卖。事实上 80% 的人 80% 的时间会一直叫外卖,这没毛病。

但当你开始重视"我吃进去的东西,到底是什么、是谁在做、有没有被加什么",你就会想要一个自己的厨房。

本地 AI 之于云端 AI,就是这个关系。

1.3 本地 AI 的三块拼图

每一个能跑起来的本地 AI,必须同时凑齐三块拼图:

┌─────────────────────────────────────────────────┐
│  本地 AI = ① 模型文件 + ② 推理引擎 + ③ 用户界面  │
└─────────────────────────────────────────────────┘

拼图 ① :模型文件(也叫"权重文件")

这是 AI 的"大脑"。

它本质上是一个或几个非常大的文件,扩展名常见的有 .gguf.safetensors.bin。一个 8B(80 亿参数)的模型,量化压缩之后大概是 4–5 GB;一个 70B 的,量化之后 30–40 GB。

你可以理解为:这个文件就是一颗"已经训练完毕的大脑",被冻结成了一个文件,谁都可以下载、谁都可以加载到自己电脑里使用。

主流的模型来自这些"开源团队":

  • Meta(Facebook):Llama 系列(如 Llama 3.3、Llama 4 Scout/Maverick)
  • 阿里巴巴:Qwen 系列(如 Qwen 3、Qwen 2.5 Coder)
  • DeepSeek:DeepSeek-R1、DeepSeek-V3
  • Google:Gemma 系列(如 Gemma 3)
  • Microsoft:Phi 系列(如 Phi-4)
  • Mistral AI:Mistral 系列
  • 零一万物、智谱、面壁、上海 AI Lab 等等更多

这些团队把训练好的模型权重免费放出来,任何人都可以下载——这就是"开源大模型"。本地 AI 之所以能存在,根本原因是这些公司把"大脑"开源了。

第一次看到"开源大模型"这个词,记住它:就是一颗免费下载的 AI 大脑

拼图 ② :推理引擎(也叫"运行时")

光有大脑文件没用——你需要一个"东西"把这个大脑加载进电脑内存,然后让它真正"思考"起来。

这个"东西"就叫推理引擎。它的工作是:

  1. 把硬盘上的 5 GB 大文件读进内存。
  2. 把你输入的文字转成数字(叫"分词")。
  3. 让 GPU / CPU 一层层算出回答的下一个字。
  4. 把数字再转回文字给你。

听起来复杂,但作为普通用户你完全不用懂这一步是怎么发生的。你只需要知道:你装的那个软件(Ollama、LM Studio、llama.cpp 等等),就是推理引擎本体。

主流的推理引擎:

  • llama.cpp:底层鼻祖,纯 C++ 写的,支持几乎所有平台。Ollama、LM Studio 内部都用它。
  • Ollama:把 llama.cpp 包了一层,配上"一行命令拉模型、一行命令跑模型"的体验,是命令行用户的最爱。
  • LM Studio:把 llama.cpp 包了一层 GUI(图形界面),是 Windows 小白和大多数 Mac 用户的最爱。
  • vLLM / TGI / SGLang / MLC:偏服务器、偏开发者的选择,普通用户用不到。
  • MLX:苹果家的,专门优化 Apple Silicon。Ollama 0.17 之后已经原生集成。

关键点:模型文件是"大脑",推理引擎是"身体"。两者必须配套。

拼图 ③ :用户界面(UI)

光有大脑和身体还不够——你需要一张"嘴和耳朵",让你能跟它对话。

这一块就是 用户界面。它可以是:

  • 命令行:你打字它回答,最朴素也最稳定。Ollama 自带。
  • 桌面 App:像微信一样的对话窗口。LM Studio、Cherry Studio、Jan、GPT4All 都是这种。
  • 网页 / Web UI:在浏览器里打开一个聊天窗。Open WebUI、AnythingLLM 是代表。
  • 嵌入到别的软件里:Obsidian、VS Code、Raycast、Apple 快捷指令——这些软件都可以"接上"你本地的推理引擎,让它在你日常工具里直接出现。

很多人第一次接触本地 AI 觉得难,根本原因是:他们以为本地 AI 是一个东西,结果发现需要装好几个东西。其实那好几个东西就是"模型 + 引擎 + UI"这三块拼图,缺一不可。

好消息是,2026 年的工具已经把这三步合并到了一两个软件里。比如装一个 LM Studio,三块拼图一次就齐了。

1.4 本地 AI 不是什么

为了让"本地 AI"这个概念更清晰,我们必须把它和几个长得很像、但完全不是同一个东西的概念分开:

它不是"AI 助手 App"

你手机里的豆包、文小言、秘塔、Kimi 是 App,但它们都是云端 AI 的"壳"——你输入的内容会发到厂商服务器去算,再把结果返回给你。

判断一个 AI App 是不是本地 AI 的最快方法:把手机切到飞行模式。如果它还能正常对话,那才是本地的。

到 2026 年 4 月为止,绝大多数手机端的 AI App 都不是纯本地的。即便是苹果的 Apple Intelligence,也只有一小部分(如自动改写、邮件整理)跑在本地,复杂任务依然走云端。

它不是浏览器插件

沉浸式翻译、Bob、Bob Plus、Monica、橙篇——这些都是浏览器插件或桌面助手。它们本身不带 AI 大脑,只是一个"搬运工",把你选中的内容发到某个 AI(云端或本地)那里,再把结果显示给你。

但有趣的是:这些插件可以接到你的本地 AI 上。这是本地 AI 用户的常见玩法——前端用顺手的插件,后端连自己电脑里的模型。

它不是"AI 一体机"

你可能在网上看到那种"国产 AI 一体机,3.99 万元,开箱即用"。它本质上是:一台普通服务器 + 预装好 Ollama 之类的软件 + 装好几个开源模型 + 套一个外壳。

如果你愿意花一个周末,自己用 1 万块买台 Mac mini 或装一台带 4090 的台式机,能做到完全一样的效果。这本书会教你怎么自己搭,给你省下 2 万块

它不是"私有云大模型"

公司里的 IT 部门可能跟你说:"我们部署了私有大模型"。这种通常是:在公司机房里搭一台服务器,让全公司的人通过内网访问。

它和本地 AI 的区别在于:本地 AI 是"装在你个人电脑里",私有云是"装在你公司机房里"。前者数据完全不出你这台机器,后者数据不出公司局域网。

两者在隐私上都比公网云端 AI 强得多,但只有前者能给你"我家里、我自己掌控"的安心感。

1.5 6 个最常见的误解,一一拆穿

误解 1:"本地 AI 一定不如云端 AI 智能"

部分对,部分错。

部分对:在 2026 年,最强的封闭模型(如 GPT-5、Claude 4.5、Gemini 2.5)在很多评测上确实比能在你电脑上跑的最大开源模型(Llama 3.3 70B、Qwen 3 235B-A22B、DeepSeek-R1)强一些。

部分错:差距已经远没有 2023–2024 年那么大了。2026 年初,DeepSeek-R1 在数学推理上的得分已经超过 GPT-4o;Qwen 3 在中文写作上甚至比某些云端模型更好;Qwen 2.5 Coder 32B 在编程基准上接近 90% 的 HumanEval。

更重要的是:对普通用户的 90% 日常需求(写邮件、写日记、读 PDF、改简历、翻译),开源模型已经完全够用。剩下那 10% 你再去用云端 AI 不迟

误解 2:"本地 AI 必须有顶级显卡才能跑"

错。

2026 年一个 M1 8GB 的 MacBook Air、一个 16GB 内存的轻薄本,就能很流畅地跑 3B 到 8B 的模型。这些模型已经能完成绝大多数日常任务。

只有当你想跑 70B 这种"接近顶级云模型"的大家伙,才需要 32 GB 或 64 GB 内存。

误解 3:"本地 AI 部署起来要写代码"

错(2025 年起就错了)。

LM Studio、Cherry Studio、AnythingLLM、Jan 这些桌面 App 全部是图形界面:装好之后,鼠标点一点,模型自己下载、自己加载,第一次对话不超过 5 分钟。

第四章会一步步带你做完。

误解 4:"本地 AI 装好以后就再不用更新了"

错。

模型每隔几个月会有新版本(Qwen 出了 3.5、Llama 出了 4),你的工具也会更新(Ollama 半年迭代了 5 个版本)。本地 AI 的"维护成本"比云端高,这是它的真实代价之一。

不过对普通用户,"半年看一次有没有新模型可以替换"就够了,不需要追着每周更新跑。

误解 5:"本地 AI 完全不需要联网"

部分错。

第一次使用要联网:你需要从网上下载模型文件(一个 8B 模型大约 5 GB)。

之后使用不需要联网:模型在本地了,你就可以拔网线、上飞机、出国漫游随便用。

部分场景仍需要联网:比如本地 AI 想搜实时新闻、看今天的股价、调用某个在线 API——这些功能本身就要走外网,本地模型只是"大脑",数据接入还是需要走外面。

误解 6:"只要是本地 AI,就一定安全"

这是最危险的一个误解

本地 AI 比云端 AI 在隐私上先天有优势,但不等于绝对安全。具体威胁有:

  • 模型本身被植入恶意指令(投毒):你下载的模型可能在特定关键词下会输出恶意内容。
  • 本地 Web UI 端口暴露在公网:你装的 Open WebUI 默认监听 0.0.0.0,被外网扫到就完了。
  • 第三方插件偷偷上传:你装的某个"翻译插件"号称走本地,实际把数据传到自己的服务器。
  • 模型权重文件本身可能很大、很难校验:你以为下了 Qwen 3,其实下了一个被改过的版本。

第十六章会专门讲这一块。这里只先记住:"本地"是一种倾向,不是一道铁墙

1.6 一张图看完三种 AI 的数据流向

┌──────────────┐                ┌──────────────┐
│   云端 AI     │   你的输入  → │ 厂商服务器    │  → 回答
│  (ChatGPT 等) │                │ (训练 / 留存) │
└──────────────┘                └──────────────┘

┌──────────────┐                ┌──────────────┐
│   私有云 AI   │   你的输入  → │ 公司机房      │  → 回答
│   (公司部署)  │                │ (内网, 不出公司) │
└──────────────┘                └──────────────┘

┌──────────────┐
│   本地 AI     │   你的输入  → 你的硬盘 / 内存 / GPU  → 回答
│ (本书重点)    │                (数据完全不出本机)
└──────────────┘

这张图建议你截下来,下次跟家人或同事解释时直接拿出来。

1.7 一个最小可工作的本地 AI 长什么样

为了让你有最直观的印象,下面是一个"最小可工作"的本地 AI 全貌(你看完后面章节就会自己跑起来):

你的 Mac mini
├── /Applications/Ollama.app                  (推理引擎,约 200 MB)
├── ~/.ollama/models/qwen3-8b-q4_K_M.gguf     (模型权重,约 5 GB)
└── /Applications/Cherry Studio.app            (用户界面,约 300 MB)

总占用:约 5.5 GB

每天耗电:几乎可以忽略不计(不对话时模型不在内存中)。

每月成本:0 元(电费另算)。

它能做的:写文章、读 PDF、翻译、改简历、写代码、搭知识库、跟你的 Obsidian 笔记联动……基本上,云端 ChatGPT Plus 一个月 20 美元能做的事,它都能做八九成

1.8 本章小练习

练习 1:向爸妈解释什么是本地 AI

试着用 1.2 节的"外卖 vs 厨房"类比,给你不懂技术的爸妈、配偶、孩子讲一遍什么是本地 AI。如果他们能复述出来,说明你真的懂了。

练习 2:判断你目前用的 AI 是哪一种

打开你手机或电脑里所有正在用的 AI 工具,逐一判断:

  • 它是云端 AI 吗?(关 Wi-Fi 试试还能不能用)
  • 它是壳 + 云端 AI 吗?(看看它的服务条款里有没有"内容会用于训练")
  • 它是本地 AI 吗?(看看它有没有让你下过 GB 级别的"模型文件")

把结果记在笔记里。下一章我们会把它们一个个对号入座。

练习 3:观察你电脑的硬件

打开你电脑的"关于本机"或"系统信息",记下三个数字:

  1. 总内存(GB)
  2. GPU 显存(如果是独显,单位 GB;Mac 用户跳过)
  3. 可用硬盘空间(GB)

把这三个数字记下来,第三章我们会用到。

1.9 一句话记住

本地 AI = 装在你电脑里、不上传你数据的开源 AI 大脑 + 推理引擎 + 一个聊天窗口

下一章 第二章 · 本地AI对比云端AI 到底该选哪个,我们用 13 个维度把"本地"和"云端"放到天平上称一称,看看你属于哪一类用户。