五分钟跑起你的第一个本地AI · 本地 AI 橙皮书

4.1 你将选择哪条路

本章给你两条平行路线，任选一条做完就够了：

路线 A：Ollama（命令行 + 极简 GUI）。适合 Mac、Linux、Windows 11 高级用户。30 秒装好，1 分钟跑通，速度最快、坑最少。
路线 B：LM Studio（纯图形界面）。适合 Windows 全部用户、Mac 不爱开终端的用户、家人。鼠标点点就行，所有操作在窗口里完成。

新手强烈建议先做完路线 B（LM Studio），因为它最像微信/QQ 的体验，第一次跑通的成就感最强。

之后再回头补路线 A，因为后续章节（自动化、Agent、接入软件）大量需要用到 Ollama 命令行。

无论哪条路，最终都会跑出第一段对话。这是本章的唯一目标。

4.2 路线 A：Ollama 5 分钟跑通

4.2.1 第 1 步：安装 Ollama

Mac 用户

打开终端（按 Cmd + 空格，输入 "terminal"，回车），然后输入：

brew install ollama

如果提示 brew: command not found，请先去 https://brew.sh 安装 Homebrew。

或者更简单：直接到 https://ollama.com/download 下载 Ollama-darwin.zip，解压后把 Ollama.app 拖到"应用程序"。

Windows 用户

到 https://ollama.com/download 下载 OllamaSetup.exe，双击安装。

安装完后，在右下角任务栏会看到一只小羊驼图标——这说明 Ollama 服务已经在后台跑了。

Linux 用户

终端里一行命令：

curl -fsSL https://ollama.com/install.sh | sh

4.2.2 第 2 步：启动 Ollama 服务

Mac/Windows 装好之后，Ollama 会自动开机自启动，你不需要手动启动。

要验证它真的在跑，打开终端（Windows 是 PowerShell 或 cmd），输入：

ollama --version

应该会看到类似：

ollama version is 0.17.x

如果有输出，说明你成功了第一步。

4.2.3 第 3 步：下载并跑一个模型

接下来这一行命令是本书最重要的一行：

ollama run qwen3:8b

按下回车，发生什么：

Ollama 会先检查你本地有没有 qwen3:8b（没有）。
自动开始下载，约 5 GB，进度条一路飞奔。
下载完成后，自动加载到内存。
出现一个等你输入的提示符 >>>。

首次下载需要 5–15 分钟（看你的网速）。之后每次启动只需要 3–5 秒。

国内用户下不动怎么办？

如果 Hugging Face 或 ollama.com 太慢，可以用国内镜像：
OLLAMA_HOST=https://ollama-proxy.cnb.cool ollama run qwen3:8b
或者直接换魔搭社区的模型（详见第 4.5 节）。

4.2.4 第 4 步：你的第一次对话

下载完成后，你会看到一个 >>> 提示符。试着输入：

你好，请用一句话介绍你自己。

按回车。几秒之内，你会看到 Qwen 3 的回答从光标位置一字一字飘出来：

你好！我是阿里云开发的Qwen，一个能与你对话、协助你思考与创作的本地大型语言模型。

恭喜你——你刚刚完成了人生中第一次完全本地化的 AI 对话。这一刻你的网络可以直接拔掉，它依然会工作。

4.2.5 第 5 步：试着多聊几句

试试下面这些问题：

帮我用三句话总结《百年孤独》的故事主线。

我是程序员，今天和老板拍桌子吵架了，帮我写一封既保留尊严又不撕破脸的辞职邮件。

请你扮演一位上海弄堂里 70 岁的奶奶，用上海话给我讲一个你年轻时遇到的爱情故事。

要退出对话，输入 /bye 然后回车。

要查看你已经下载的模型列表：

ollama list

要删除某个模型（释放硬盘）：

ollama rm qwen3:8b

4.2.6 Ollama 5 个最常用命令

命令	作用
`ollama run <模型名>`	拉取（如未下载）并启动对话
`ollama list`	列出本地已有模型
`ollama pull <模型名>`	只下载，不启动
`ollama rm <模型名>`	删除某个模型
`ollama ps`	查看当前在内存中运行的模型

记住这五个命令，Ollama 90% 的日常操作就掌握了。

4.3 路线 B：LM Studio 5 分钟跑通

如果你完全不想碰命令行，下面这条路适合你。

4.3.1 第 1 步：下载并安装 LM Studio

打开浏览器，访问 https://lmstudio.ai

点 "Download for Mac/Windows/Linux"，下载安装包。

Mac：拖入"应用程序"文件夹。
Windows：双击 .exe，一路下一步。
Linux：下载 .AppImage，赋予执行权限后双击。

4.3.2 第 2 步：第一次启动

打开 LM Studio。第一次进入会有引导：

选语言（建议简体中文）。
选硬件偏好（自动检测，无需改）。
点 "Continue"。

进入主界面后，你会看到左侧有四个图标：

💬 Chat：聊天窗口
🔍 Discover：模型市场
📂 My Models：本地已下载的模型
⚙ Developer：开发者模式（暂时不用）

4.3.3 第 3 步：找一个模型下载

点左侧 🔍 Discover。你会进入"模型市场"。

在搜索框输入：qwen3-8b

你会看到一堆候选项。怎么选？

看 "Recommended"（系统推荐的）那一行，通常是 GGUF 格式 + Q4_K_M 量化。
看右侧的"Estimated VRAM"，如果数字小于你电脑内存，绿色对勾就会亮——表示能跑。
文件大小通常 4.5–5.5 GB。

点 "Download" 按钮，开始下载。等待 5–15 分钟（看网速）。

4.3.4 第 4 步：开始对话

下载完成后：

点左侧 💬 Chat。
顶部下拉框选刚下好的 Qwen3 8B。
等几秒（首次加载需要把模型读进内存）。
顶部出现绿色的 "Loaded" 字样后，下方输入框就可用了。

输入：

你好，请用一句话介绍你自己。

按回车。第一段回答会在几秒内一字一字流出来。

4.3.5 第 5 步：调整聊天体验

LM Studio 右侧有一栏参数面板，几个值得改的设置：

Temperature（温度）：0.7–0.8 适合日常对话；0.3–0.5 适合代码、严谨任务；1.0 以上适合创意写作。
Context Length（上下文长度）：默认 4096 够用；要总结长 PDF 时改到 8192 或更多（吃更多内存）。
System Prompt（系统提示词）：可以让模型扮演特定角色，比如：

你是一个尖锐但温柔的写作教练。我每发一段话给你，请你先指出最大的一个问题，再给一条具体的修改建议。不要客套。

试试看，效果会立刻不一样。

4.3.6 LM Studio 隐藏好功能

LM Studio 不只是聊天界面，它还内置了一个OpenAI 兼容的本地 API——意味着任何能接 ChatGPT API 的工具，都能直接接它。

启用方法：

左侧切到 ⚙ Developer。
顶部下拉选一个模型。
点 "Start Server" 按钮。
看到 http://localhost:1234 字样后，这个地址就能被任何 OpenAI 兼容的客户端使用。

这一步先记住有这个能力，后续第九章接 Continue、第十四章接 Raycast/Obsidian 都会用到。

4.4 第三条路：Cherry Studio（针对中文用户的最佳新手选择）

如果上面两条都觉得有点麻烦，这里隆重介绍中文用户最友好的第三条路：Cherry Studio。

4.4.1 为什么单独说它

完全中文界面（包括所有菜单、提示）
同时内置"接 Ollama / 接 LM Studio / 接云端 API / 内置知识库"四种能力
macOS、Windows、Linux、iOS 多端齐全
完全免费、开源（AGPL-3.0）
配合 Ollama 使用，对小白最丝滑

4.4.2 5 步上手

到 https://cherry-ai.com 下载安装。
第一次打开，进入"模型设置"。
在"模型服务"里选 "Ollama"——它会自动检测你电脑上跑着的 Ollama 服务（前提是你已经按 4.2 节装了 Ollama 并下了 qwen3:8b）。
回到主界面，点左下角"新建对话"，选 qwen3:8b。
开始聊天。

整个过程不超过 3 分钟，比微信还简单。

后面所有"日常使用"章节，本书会以 Cherry Studio + Ollama 的组合作为主推方案。如果你这一章只想跑通一个工作流，建议直接照这条做。

4.5 国内网络环境的特殊处理

如果你在国内，可能会遇到下面三个问题：

问题 1：Ollama 官方镜像下载慢

解法：用国内镜像。

修改环境变量（Mac/Linux）：

export OLLAMA_HOST=https://ollama-proxy.cnb.cool
ollama pull qwen3:8b

Windows 用户：在系统变量里新增 OLLAMA_HOST=https://ollama-proxy.cnb.cool，重启 Ollama。

问题 2：Hugging Face 上不去

解法：用国内镜像 hf-mirror.com。

LM Studio 设置里有"Download Source" 选项，可以换成 hf-mirror.com。

或者直接到魔搭社区（modelscope.cn）下载 GGUF 格式模型，本地手动导入到 LM Studio。

问题 3：DeepSeek-R1 / Qwen 3 这些国产模型，国内有更快的下载渠道

是的：直接到模型作者的官方仓库下载。

DeepSeek 官方：https://huggingface.co/deepseek-ai （国内用 hf-mirror）
Qwen 官方：https://modelscope.cn/organization/qwen
智谱（GLM）：https://modelscope.cn/organization/ZhipuAI

魔搭社区国内速度最快，建议优先用。

4.6 5 个新手最常见的报错与解法

报错 1：`Error: model 'qwen3:8b' not found`

原因：你还没下载这个模型，或者模型名拼错了。

解法：先 ollama pull qwen3:8b，再 ollama run qwen3:8b。或检查官方模型库 https://ollama.com/library 看正确名字。

报错 2：`out of memory` 或 LM Studio 提示"无法加载模型"

原因：你选的模型太大，超过你的内存/显存。

解法：

换更小的量化版本（Q5 → Q4 → Q3）。
换更小的模型（8B → 4B → 3B）。
关闭其他大型应用（浏览器、剪辑软件、虚拟机）。
在 LM Studio 中减小 Context Length 到 2048。

报错 3：模型回答很慢，每秒 1–2 个字

原因：模型没用到 GPU 加速，全在 CPU 上跑。

Mac 解法：

升级 Ollama 到最新（Ollama 0.17 起支持 Apple MLX 加速）。
验证：ollama ps 看是否显示 100% GPU。

Windows 解法：

确认你装了正确版本的 NVIDIA 驱动。
LM Studio 设置里勾选 "Use GPU" 或 "CUDA"。
把 GPU offload layers 拉到最大。

报错 4：模型答得很奇怪，中文不流畅

原因：你用的模型对中文支持差（如某些 Llama 版本）。

解法：换中文好的模型。首选 Qwen 3 系列，备选 DeepSeek、GLM、Yi 系列。

报错 5：Ollama 启动后端口被占用 `127.0.0.1:11434`

原因：你已经有一个 Ollama 实例在跑（可能是后台），或者别的应用占用了 11434 端口。

Mac 解法：

ps aux | grep ollama
kill -9 <进程号>

Windows 解法：任务管理器找到 ollama.exe 结束进程，然后重新启动。

4.7 第一次成功后，做这三件事

跑通对话只是开始。接下来这三件事能让你的本地 AI"长在你电脑里"：

事 1：设一个开机自启

让 Ollama 或 LM Studio 在开机时自动运行（Mac/Windows 都支持），这样你下次打开电脑就能立刻用。

事 2：建一个"我的提示词"文件夹

在 Mac 的"备忘录"或 Windows 的"记事本"里，新建一个叫 本地AI提示词 的笔记。每次你写出一个用得顺的提示词，就丢进去——三个月后这个文件会成为你最值钱的资产。

事 3：测一下你的极限

试着跑一次比你电脑档位"大半档"的模型——

你 16 GB 内存，试试 14B Q4。
你 24 GB 内存，试试 32B Q3。

不是为了长期用，而是亲自感受"卡到几乎不能用"是什么样子。这样你就知道自己电脑的上限在哪。

4.8 本章小练习

练习 1：跑通"自我介绍"

选 4.2 或 4.3 任一条路，跑通"你好，请用一句话介绍你自己"。截图发给一个朋友——你已经是他朋友圈里"会本地 AI 的人"。

练习 2：装第二个模型

第一个模型跑完，再装一个 3B 小模型（如 llama3.2:3b 或 gemma3:4b），对比两者回答速度和质量。亲身感受"模型大小"对体验的影响。

练习 3：拔网线对话

模型加载完成后，断开你电脑的所有网络（Wi-Fi 关掉、网线拔了、移动网络断开），再让它写一首关于"上海的春天"的诗。

完整体验"完全离线"的本地 AI 是什么感觉。这是你日后所有"在飞机上、在隧道里、在客户内网里"自由的预演。

4.9 一句话记住

Mac/Linux 装 Ollama，Windows 装 LM Studio，中文用户加装 Cherry Studio——本地 AI 的入门套装就齐了。

下一章第五章 · 选模型 Llama Qwen，我们打开模型仓库，挑出真正适合你日常的 1–3 个模型。