4.1 你将选择哪条路
本章给你两条平行路线,任选一条做完就够了:
- 路线 A:Ollama(命令行 + 极简 GUI)。适合 Mac、Linux、Windows 11 高级用户。30 秒装好,1 分钟跑通,速度最快、坑最少。
- 路线 B:LM Studio(纯图形界面)。适合 Windows 全部用户、Mac 不爱开终端的用户、家人。鼠标点点就行,所有操作在窗口里完成。
新手强烈建议先做完路线 B(LM Studio),因为它最像微信/QQ 的体验,第一次跑通的成就感最强。
之后再回头补路线 A,因为后续章节(自动化、Agent、接入软件)大量需要用到 Ollama 命令行。
无论哪条路,最终都会跑出第一段对话。这是本章的唯一目标。
4.2 路线 A:Ollama 5 分钟跑通
4.2.1 第 1 步:安装 Ollama
Mac 用户
打开终端(按 Cmd + 空格,输入 "terminal",回车),然后输入:
brew install ollama
如果提示 brew: command not found,请先去 https://brew.sh 安装 Homebrew。
或者更简单:直接到 https://ollama.com/download 下载 Ollama-darwin.zip,解压后把 Ollama.app 拖到"应用程序"。
Windows 用户
到 https://ollama.com/download 下载 OllamaSetup.exe,双击安装。
安装完后,在右下角任务栏会看到一只小羊驼图标——这说明 Ollama 服务已经在后台跑了。
Linux 用户
终端里一行命令:
curl -fsSL https://ollama.com/install.sh | sh
4.2.2 第 2 步:启动 Ollama 服务
Mac/Windows 装好之后,Ollama 会自动开机自启动,你不需要手动启动。
要验证它真的在跑,打开终端(Windows 是 PowerShell 或 cmd),输入:
ollama --version
应该会看到类似:
ollama version is 0.17.x
如果有输出,说明你成功了第一步。
4.2.3 第 3 步:下载并跑一个模型
接下来这一行命令是本书最重要的一行:
ollama run qwen3:8b
按下回车,发生什么:
- Ollama 会先检查你本地有没有
qwen3:8b(没有)。 - 自动开始下载,约 5 GB,进度条一路飞奔。
- 下载完成后,自动加载到内存。
- 出现一个等你输入的提示符
>>>。
首次下载需要 5–15 分钟(看你的网速)。之后每次启动只需要 3–5 秒。
国内用户下不动怎么办?
如果 Hugging Face 或 ollama.com 太慢,可以用国内镜像:
OLLAMA_HOST=https://ollama-proxy.cnb.cool ollama run qwen3:8b或者直接换魔搭社区的模型(详见第 4.5 节)。
4.2.4 第 4 步:你的第一次对话
下载完成后,你会看到一个 >>> 提示符。试着输入:
你好,请用一句话介绍你自己。
按回车。几秒之内,你会看到 Qwen 3 的回答从光标位置一字一字飘出来:
你好!我是阿里云开发的Qwen,一个能与你对话、协助你思考与创作的本地大型语言模型。
恭喜你——你刚刚完成了人生中第一次完全本地化的 AI 对话。这一刻你的网络可以直接拔掉,它依然会工作。
4.2.5 第 5 步:试着多聊几句
试试下面这些问题:
帮我用三句话总结《百年孤独》的故事主线。
我是程序员,今天和老板拍桌子吵架了,帮我写一封既保留尊严又不撕破脸的辞职邮件。
请你扮演一位上海弄堂里 70 岁的奶奶,用上海话给我讲一个你年轻时遇到的爱情故事。
要退出对话,输入 /bye 然后回车。
要查看你已经下载的模型列表:
ollama list
要删除某个模型(释放硬盘):
ollama rm qwen3:8b
4.2.6 Ollama 5 个最常用命令
| 命令 | 作用 |
|---|---|
ollama run <模型名> |
拉取(如未下载)并启动对话 |
ollama list |
列出本地已有模型 |
ollama pull <模型名> |
只下载,不启动 |
ollama rm <模型名> |
删除某个模型 |
ollama ps |
查看当前在内存中运行的模型 |
记住这五个命令,Ollama 90% 的日常操作就掌握了。
4.3 路线 B:LM Studio 5 分钟跑通
如果你完全不想碰命令行,下面这条路适合你。
4.3.1 第 1 步:下载并安装 LM Studio
打开浏览器,访问 https://lmstudio.ai
点 "Download for Mac/Windows/Linux",下载安装包。
- Mac:拖入"应用程序"文件夹。
- Windows:双击 .exe,一路下一步。
- Linux:下载 .AppImage,赋予执行权限后双击。
4.3.2 第 2 步:第一次启动
打开 LM Studio。第一次进入会有引导:
- 选语言(建议简体中文)。
- 选硬件偏好(自动检测,无需改)。
- 点 "Continue"。
进入主界面后,你会看到左侧有四个图标:
- 💬 Chat:聊天窗口
- 🔍 Discover:模型市场
- 📂 My Models:本地已下载的模型
- ⚙ Developer:开发者模式(暂时不用)
4.3.3 第 3 步:找一个模型下载
点左侧 🔍 Discover。你会进入"模型市场"。
在搜索框输入:qwen3-8b
你会看到一堆候选项。怎么选?
- 看 "Recommended"(系统推荐的)那一行,通常是 GGUF 格式 + Q4_K_M 量化。
- 看右侧的"Estimated VRAM",如果数字小于你电脑内存,绿色对勾就会亮——表示能跑。
- 文件大小通常 4.5–5.5 GB。
点 "Download" 按钮,开始下载。等待 5–15 分钟(看网速)。
4.3.4 第 4 步:开始对话
下载完成后:
- 点左侧 💬 Chat。
- 顶部下拉框选刚下好的
Qwen3 8B。 - 等几秒(首次加载需要把模型读进内存)。
- 顶部出现绿色的 "Loaded" 字样后,下方输入框就可用了。
输入:
你好,请用一句话介绍你自己。
按回车。第一段回答会在几秒内一字一字流出来。
4.3.5 第 5 步:调整聊天体验
LM Studio 右侧有一栏参数面板,几个值得改的设置:
- Temperature(温度):0.7–0.8 适合日常对话;0.3–0.5 适合代码、严谨任务;1.0 以上适合创意写作。
- Context Length(上下文长度):默认 4096 够用;要总结长 PDF 时改到 8192 或更多(吃更多内存)。
- System Prompt(系统提示词):可以让模型扮演特定角色,比如:
你是一个尖锐但温柔的写作教练。我每发一段话给你,请你先指出最大的一个问题,再给一条具体的修改建议。不要客套。
试试看,效果会立刻不一样。
4.3.6 LM Studio 隐藏好功能
LM Studio 不只是聊天界面,它还内置了一个OpenAI 兼容的本地 API——意味着任何能接 ChatGPT API 的工具,都能直接接它。
启用方法:
- 左侧切到 ⚙ Developer。
- 顶部下拉选一个模型。
- 点 "Start Server" 按钮。
- 看到
http://localhost:1234字样后,这个地址就能被任何 OpenAI 兼容的客户端使用。
这一步先记住有这个能力,后续第九章接 Continue、第十四章接 Raycast/Obsidian 都会用到。
4.4 第三条路:Cherry Studio(针对中文用户的最佳新手选择)
如果上面两条都觉得有点麻烦,这里隆重介绍中文用户最友好的第三条路:Cherry Studio。
4.4.1 为什么单独说它
- 完全中文界面(包括所有菜单、提示)
- 同时内置"接 Ollama / 接 LM Studio / 接云端 API / 内置知识库"四种能力
- macOS、Windows、Linux、iOS 多端齐全
- 完全免费、开源(AGPL-3.0)
- 配合 Ollama 使用,对小白最丝滑
4.4.2 5 步上手
- 到 https://cherry-ai.com 下载安装。
- 第一次打开,进入"模型设置"。
- 在"模型服务"里选 "Ollama"——它会自动检测你电脑上跑着的 Ollama 服务(前提是你已经按 4.2 节装了 Ollama 并下了 qwen3:8b)。
- 回到主界面,点左下角"新建对话",选 qwen3:8b。
- 开始聊天。
整个过程不超过 3 分钟,比微信还简单。
后面所有"日常使用"章节,本书会以 Cherry Studio + Ollama 的组合作为主推方案。如果你这一章只想跑通一个工作流,建议直接照这条做。
4.5 国内网络环境的特殊处理
如果你在国内,可能会遇到下面三个问题:
问题 1:Ollama 官方镜像下载慢
解法:用国内镜像。
修改环境变量(Mac/Linux):
export OLLAMA_HOST=https://ollama-proxy.cnb.cool
ollama pull qwen3:8b
Windows 用户:在系统变量里新增 OLLAMA_HOST=https://ollama-proxy.cnb.cool,重启 Ollama。
问题 2:Hugging Face 上不去
解法:用国内镜像 hf-mirror.com。
LM Studio 设置里有"Download Source" 选项,可以换成 hf-mirror.com。
或者直接到魔搭社区(modelscope.cn)下载 GGUF 格式模型,本地手动导入到 LM Studio。
问题 3:DeepSeek-R1 / Qwen 3 这些国产模型,国内有更快的下载渠道
是的:直接到模型作者的官方仓库下载。
- DeepSeek 官方:https://huggingface.co/deepseek-ai (国内用 hf-mirror)
- Qwen 官方:https://modelscope.cn/organization/qwen
- 智谱(GLM):https://modelscope.cn/organization/ZhipuAI
魔搭社区国内速度最快,建议优先用。
4.6 5 个新手最常见的报错与解法
报错 1:Error: model 'qwen3:8b' not found
原因:你还没下载这个模型,或者模型名拼错了。
解法:先 ollama pull qwen3:8b,再 ollama run qwen3:8b。或检查官方模型库 https://ollama.com/library 看正确名字。
报错 2:out of memory 或 LM Studio 提示"无法加载模型"
原因:你选的模型太大,超过你的内存/显存。
解法:
- 换更小的量化版本(Q5 → Q4 → Q3)。
- 换更小的模型(8B → 4B → 3B)。
- 关闭其他大型应用(浏览器、剪辑软件、虚拟机)。
- 在 LM Studio 中减小 Context Length 到 2048。
报错 3:模型回答很慢,每秒 1–2 个字
原因:模型没用到 GPU 加速,全在 CPU 上跑。
Mac 解法:
- 升级 Ollama 到最新(Ollama 0.17 起支持 Apple MLX 加速)。
- 验证:
ollama ps看是否显示100% GPU。
Windows 解法:
- 确认你装了正确版本的 NVIDIA 驱动。
- LM Studio 设置里勾选 "Use GPU" 或 "CUDA"。
- 把 GPU offload layers 拉到最大。
报错 4:模型答得很奇怪,中文不流畅
原因:你用的模型对中文支持差(如某些 Llama 版本)。
解法:换中文好的模型。首选 Qwen 3 系列,备选 DeepSeek、GLM、Yi 系列。
报错 5:Ollama 启动后端口被占用 127.0.0.1:11434
原因:你已经有一个 Ollama 实例在跑(可能是后台),或者别的应用占用了 11434 端口。
Mac 解法:
ps aux | grep ollama
kill -9 <进程号>
Windows 解法:任务管理器找到 ollama.exe 结束进程,然后重新启动。
4.7 第一次成功后,做这三件事
跑通对话只是开始。接下来这三件事能让你的本地 AI"长在你电脑里":
事 1:设一个开机自启
让 Ollama 或 LM Studio 在开机时自动运行(Mac/Windows 都支持),这样你下次打开电脑就能立刻用。
事 2:建一个"我的提示词"文件夹
在 Mac 的"备忘录"或 Windows 的"记事本"里,新建一个叫 本地AI提示词 的笔记。每次你写出一个用得顺的提示词,就丢进去——三个月后这个文件会成为你最值钱的资产。
事 3:测一下你的极限
试着跑一次比你电脑档位"大半档"的模型——
- 你 16 GB 内存,试试 14B Q4。
- 你 24 GB 内存,试试 32B Q3。
不是为了长期用,而是亲自感受"卡到几乎不能用"是什么样子。这样你就知道自己电脑的上限在哪。
4.8 本章小练习
练习 1:跑通"自我介绍"
选 4.2 或 4.3 任一条路,跑通"你好,请用一句话介绍你自己"。截图发给一个朋友——你已经是他朋友圈里"会本地 AI 的人"。
练习 2:装第二个模型
第一个模型跑完,再装一个 3B 小模型(如 llama3.2:3b 或 gemma3:4b),对比两者回答速度和质量。亲身感受"模型大小"对体验的影响。
练习 3:拔网线对话
模型加载完成后,断开你电脑的所有网络(Wi-Fi 关掉、网线拔了、移动网络断开),再让它写一首关于"上海的春天"的诗。
完整体验"完全离线"的本地 AI 是什么感觉。这是你日后所有"在飞机上、在隧道里、在客户内网里"自由的预演。
4.9 一句话记住
Mac/Linux 装 Ollama,Windows 装 LM Studio,中文用户加装 Cherry Studio——本地 AI 的入门套装就齐了。
下一章 第五章 · 选模型 Llama Qwen,我们打开模型仓库,挑出真正适合你日常的 1–3 个模型。