ORANGE BOOK · LOCAL AI

第四章 五分钟跑起你的第一个本地 AI

4.1 你将选择哪条路

本章给你两条平行路线,任选一条做完就够了

  • 路线 A:Ollama(命令行 + 极简 GUI)。适合 Mac、Linux、Windows 11 高级用户。30 秒装好,1 分钟跑通,速度最快、坑最少。
  • 路线 B:LM Studio(纯图形界面)。适合 Windows 全部用户、Mac 不爱开终端的用户、家人。鼠标点点就行,所有操作在窗口里完成。

新手强烈建议先做完路线 B(LM Studio),因为它最像微信/QQ 的体验,第一次跑通的成就感最强。

之后再回头补路线 A,因为后续章节(自动化、Agent、接入软件)大量需要用到 Ollama 命令行。

无论哪条路,最终都会跑出第一段对话。这是本章的唯一目标。


4.2 路线 A:Ollama 5 分钟跑通

4.2.1 第 1 步:安装 Ollama

Mac 用户

打开终端(按 Cmd + 空格,输入 "terminal",回车),然后输入:

brew install ollama

如果提示 brew: command not found,请先去 https://brew.sh 安装 Homebrew。

或者更简单:直接到 https://ollama.com/download 下载 Ollama-darwin.zip,解压后把 Ollama.app 拖到"应用程序"。

Windows 用户

到 https://ollama.com/download 下载 OllamaSetup.exe,双击安装。

安装完后,在右下角任务栏会看到一只小羊驼图标——这说明 Ollama 服务已经在后台跑了。

Linux 用户

终端里一行命令:

curl -fsSL https://ollama.com/install.sh | sh

4.2.2 第 2 步:启动 Ollama 服务

Mac/Windows 装好之后,Ollama 会自动开机自启动,你不需要手动启动。

要验证它真的在跑,打开终端(Windows 是 PowerShell 或 cmd),输入:

ollama --version

应该会看到类似:

ollama version is 0.17.x

如果有输出,说明你成功了第一步。

4.2.3 第 3 步:下载并跑一个模型

接下来这一行命令是本书最重要的一行:

ollama run qwen3:8b

按下回车,发生什么:

  1. Ollama 会先检查你本地有没有 qwen3:8b(没有)。
  2. 自动开始下载,约 5 GB,进度条一路飞奔。
  3. 下载完成后,自动加载到内存。
  4. 出现一个等你输入的提示符 >>>

首次下载需要 5–15 分钟(看你的网速)。之后每次启动只需要 3–5 秒

国内用户下不动怎么办?

如果 Hugging Face 或 ollama.com 太慢,可以用国内镜像:

OLLAMA_HOST=https://ollama-proxy.cnb.cool ollama run qwen3:8b

或者直接换魔搭社区的模型(详见第 4.5 节)。

4.2.4 第 4 步:你的第一次对话

下载完成后,你会看到一个 >>> 提示符。试着输入:

你好,请用一句话介绍你自己。

按回车。几秒之内,你会看到 Qwen 3 的回答从光标位置一字一字飘出来:

你好!我是阿里云开发的Qwen,一个能与你对话、协助你思考与创作的本地大型语言模型。

恭喜你——你刚刚完成了人生中第一次完全本地化的 AI 对话。这一刻你的网络可以直接拔掉,它依然会工作。

4.2.5 第 5 步:试着多聊几句

试试下面这些问题:

帮我用三句话总结《百年孤独》的故事主线。
我是程序员,今天和老板拍桌子吵架了,帮我写一封既保留尊严又不撕破脸的辞职邮件。
请你扮演一位上海弄堂里 70 岁的奶奶,用上海话给我讲一个你年轻时遇到的爱情故事。

要退出对话,输入 /bye 然后回车。

要查看你已经下载的模型列表:

ollama list

要删除某个模型(释放硬盘):

ollama rm qwen3:8b

4.2.6 Ollama 5 个最常用命令

命令 作用
ollama run <模型名> 拉取(如未下载)并启动对话
ollama list 列出本地已有模型
ollama pull <模型名> 只下载,不启动
ollama rm <模型名> 删除某个模型
ollama ps 查看当前在内存中运行的模型

记住这五个命令,Ollama 90% 的日常操作就掌握了


4.3 路线 B:LM Studio 5 分钟跑通

如果你完全不想碰命令行,下面这条路适合你。

4.3.1 第 1 步:下载并安装 LM Studio

打开浏览器,访问 https://lmstudio.ai

点 "Download for Mac/Windows/Linux",下载安装包。

  • Mac:拖入"应用程序"文件夹。
  • Windows:双击 .exe,一路下一步。
  • Linux:下载 .AppImage,赋予执行权限后双击。

4.3.2 第 2 步:第一次启动

打开 LM Studio。第一次进入会有引导:

  1. 选语言(建议简体中文)。
  2. 选硬件偏好(自动检测,无需改)。
  3. 点 "Continue"。

进入主界面后,你会看到左侧有四个图标:

  • 💬 Chat:聊天窗口
  • 🔍 Discover:模型市场
  • 📂 My Models:本地已下载的模型
  • Developer:开发者模式(暂时不用)

4.3.3 第 3 步:找一个模型下载

点左侧 🔍 Discover。你会进入"模型市场"。

在搜索框输入:qwen3-8b

你会看到一堆候选项。怎么选?

  • 看 "Recommended"(系统推荐的)那一行,通常是 GGUF 格式 + Q4_K_M 量化。
  • 看右侧的"Estimated VRAM",如果数字小于你电脑内存,绿色对勾就会亮——表示能跑。
  • 文件大小通常 4.5–5.5 GB。

点 "Download" 按钮,开始下载。等待 5–15 分钟(看网速)。

4.3.4 第 4 步:开始对话

下载完成后:

  1. 点左侧 💬 Chat
  2. 顶部下拉框选刚下好的 Qwen3 8B
  3. 等几秒(首次加载需要把模型读进内存)。
  4. 顶部出现绿色的 "Loaded" 字样后,下方输入框就可用了。

输入:

你好,请用一句话介绍你自己。

按回车。第一段回答会在几秒内一字一字流出来

4.3.5 第 5 步:调整聊天体验

LM Studio 右侧有一栏参数面板,几个值得改的设置:

  • Temperature(温度):0.7–0.8 适合日常对话;0.3–0.5 适合代码、严谨任务;1.0 以上适合创意写作。
  • Context Length(上下文长度):默认 4096 够用;要总结长 PDF 时改到 8192 或更多(吃更多内存)。
  • System Prompt(系统提示词):可以让模型扮演特定角色,比如:
你是一个尖锐但温柔的写作教练。我每发一段话给你,请你先指出最大的一个问题,再给一条具体的修改建议。不要客套。

试试看,效果会立刻不一样。

4.3.6 LM Studio 隐藏好功能

LM Studio 不只是聊天界面,它还内置了一个OpenAI 兼容的本地 API——意味着任何能接 ChatGPT API 的工具,都能直接接它。

启用方法:

  1. 左侧切到 ⚙ Developer
  2. 顶部下拉选一个模型。
  3. 点 "Start Server" 按钮。
  4. 看到 http://localhost:1234 字样后,这个地址就能被任何 OpenAI 兼容的客户端使用。

这一步先记住有这个能力,后续第九章接 Continue、第十四章接 Raycast/Obsidian 都会用到。


4.4 第三条路:Cherry Studio(针对中文用户的最佳新手选择)

如果上面两条都觉得有点麻烦,这里隆重介绍中文用户最友好的第三条路:Cherry Studio。

4.4.1 为什么单独说它

  • 完全中文界面(包括所有菜单、提示)
  • 同时内置"接 Ollama / 接 LM Studio / 接云端 API / 内置知识库"四种能力
  • macOS、Windows、Linux、iOS 多端齐全
  • 完全免费、开源(AGPL-3.0)
  • 配合 Ollama 使用,对小白最丝滑

4.4.2 5 步上手

  1. 到 https://cherry-ai.com 下载安装。
  2. 第一次打开,进入"模型设置"。
  3. 在"模型服务"里选 "Ollama"——它会自动检测你电脑上跑着的 Ollama 服务(前提是你已经按 4.2 节装了 Ollama 并下了 qwen3:8b)。
  4. 回到主界面,点左下角"新建对话",选 qwen3:8b。
  5. 开始聊天。

整个过程不超过 3 分钟,比微信还简单

后面所有"日常使用"章节,本书会以 Cherry Studio + Ollama 的组合作为主推方案。如果你这一章只想跑通一个工作流,建议直接照这条做。


4.5 国内网络环境的特殊处理

如果你在国内,可能会遇到下面三个问题:

问题 1:Ollama 官方镜像下载慢

解法:用国内镜像。

修改环境变量(Mac/Linux):

export OLLAMA_HOST=https://ollama-proxy.cnb.cool
ollama pull qwen3:8b

Windows 用户:在系统变量里新增 OLLAMA_HOST=https://ollama-proxy.cnb.cool,重启 Ollama。

问题 2:Hugging Face 上不去

解法:用国内镜像 hf-mirror.com。

LM Studio 设置里有"Download Source" 选项,可以换成 hf-mirror.com。

或者直接到魔搭社区(modelscope.cn)下载 GGUF 格式模型,本地手动导入到 LM Studio。

问题 3:DeepSeek-R1 / Qwen 3 这些国产模型,国内有更快的下载渠道

是的:直接到模型作者的官方仓库下载

  • DeepSeek 官方:https://huggingface.co/deepseek-ai (国内用 hf-mirror)
  • Qwen 官方:https://modelscope.cn/organization/qwen
  • 智谱(GLM):https://modelscope.cn/organization/ZhipuAI

魔搭社区国内速度最快,建议优先用。


4.6 5 个新手最常见的报错与解法

报错 1:Error: model 'qwen3:8b' not found

原因:你还没下载这个模型,或者模型名拼错了。

解法:先 ollama pull qwen3:8b,再 ollama run qwen3:8b。或检查官方模型库 https://ollama.com/library 看正确名字。

报错 2:out of memory 或 LM Studio 提示"无法加载模型"

原因:你选的模型太大,超过你的内存/显存。

解法

  • 换更小的量化版本(Q5 → Q4 → Q3)。
  • 换更小的模型(8B → 4B → 3B)。
  • 关闭其他大型应用(浏览器、剪辑软件、虚拟机)。
  • 在 LM Studio 中减小 Context Length 到 2048。

报错 3:模型回答很慢,每秒 1–2 个字

原因:模型没用到 GPU 加速,全在 CPU 上跑。

Mac 解法

  • 升级 Ollama 到最新(Ollama 0.17 起支持 Apple MLX 加速)。
  • 验证:ollama ps 看是否显示 100% GPU

Windows 解法

  • 确认你装了正确版本的 NVIDIA 驱动。
  • LM Studio 设置里勾选 "Use GPU" 或 "CUDA"。
  • 把 GPU offload layers 拉到最大。

报错 4:模型答得很奇怪,中文不流畅

原因:你用的模型对中文支持差(如某些 Llama 版本)。

解法:换中文好的模型。首选 Qwen 3 系列,备选 DeepSeek、GLM、Yi 系列。

报错 5:Ollama 启动后端口被占用 127.0.0.1:11434

原因:你已经有一个 Ollama 实例在跑(可能是后台),或者别的应用占用了 11434 端口。

Mac 解法

ps aux | grep ollama
kill -9 <进程号>

Windows 解法:任务管理器找到 ollama.exe 结束进程,然后重新启动。


4.7 第一次成功后,做这三件事

跑通对话只是开始。接下来这三件事能让你的本地 AI"长在你电脑里":

事 1:设一个开机自启

让 Ollama 或 LM Studio 在开机时自动运行(Mac/Windows 都支持),这样你下次打开电脑就能立刻用。

事 2:建一个"我的提示词"文件夹

在 Mac 的"备忘录"或 Windows 的"记事本"里,新建一个叫 本地AI提示词 的笔记。每次你写出一个用得顺的提示词,就丢进去——三个月后这个文件会成为你最值钱的资产。

事 3:测一下你的极限

试着跑一次比你电脑档位"大半档"的模型——

  • 你 16 GB 内存,试试 14B Q4。
  • 你 24 GB 内存,试试 32B Q3。

不是为了长期用,而是亲自感受"卡到几乎不能用"是什么样子。这样你就知道自己电脑的上限在哪。


4.8 本章小练习

练习 1:跑通"自我介绍"

选 4.2 或 4.3 任一条路,跑通"你好,请用一句话介绍你自己"。截图发给一个朋友——你已经是他朋友圈里"会本地 AI 的人"。

练习 2:装第二个模型

第一个模型跑完,再装一个 3B 小模型(如 llama3.2:3bgemma3:4b),对比两者回答速度和质量。亲身感受"模型大小"对体验的影响。

练习 3:拔网线对话

模型加载完成后,断开你电脑的所有网络(Wi-Fi 关掉、网线拔了、移动网络断开),再让它写一首关于"上海的春天"的诗。

完整体验"完全离线"的本地 AI 是什么感觉。这是你日后所有"在飞机上、在隧道里、在客户内网里"自由的预演。


4.9 一句话记住

Mac/Linux 装 Ollama,Windows 装 LM Studio,中文用户加装 Cherry Studio——本地 AI 的入门套装就齐了。

下一章 第五章 · 选模型 Llama Qwen,我们打开模型仓库,挑出真正适合你日常的 1–3 个模型。