常见问题与避坑 · 本地 AI 橙皮书

15.1 一张速查表：你的症状属于哪一类

症状	翻到哪节
模型回答太慢、每秒 1–3 个字	15.2 速度问题
加载模型时报"out of memory"或电脑卡死	15.3 内存 / 显存问题
AI 说的内容是假的、编造的、不准确	15.4 幻觉问题
中文回答总是"翻译腔"、不自然	15.5 中文质量问题
模型下载下不动、卡 0%	15.6 下载与镜像
Ollama / LM Studio 装好但运行报错	15.7 平台特定问题

15.2 速度问题（卡顿 / 慢）

问题 1：Mac 上跑 8B 模型每秒只有 5 token

原因 99% 都是没用上 GPU。

Mac 验证：

ollama ps

应该看到 100% GPU 字样。如果显示 100% CPU 或 50%/50%：

解法：

升级 Ollama 到 0.17+（原生 MLX 支持）
重启 Ollama（brew services restart ollama 或退出后台再开）
macOS 系统设置中确认没有"低功耗模式"
关掉吃显存的应用（Final Cut Pro、Photoshop、Chrome 大量标签）

问题 2：Windows 跑模型不调用 NVIDIA GPU

Ollama 验证：

ollama ps

如果不是 100% GPU：

解法：

安装最新 NVIDIA 驱动（>= 555 版本，2024 年 5 月以后）
装 CUDA Toolkit 12.x
重启电脑（不是只重启 Ollama）
LM Studio：设置里勾选 "GPU Offload"，把 layers 拉到最大

问题 3：模型大了之后慢得让人想哭

例：32 GB Mac 跑 70B 模型，每秒 3 token。

真相：你已经"溢出"到内存或硬盘了。

判断方法：

用活动监视器（Mac）/ 任务管理器（Win）看
如果"内存压力"飘红、磁盘读写飙高 → 溢出了

解法：

换更小的模型（70B → 32B 或 14B）
换更狠的量化（Q4 → Q3）
减小上下文长度（32K → 8K）
加内存条（PC 用户福音）

问题 4：第一次回答超慢，之后正常

原因：模型从磁盘载入到内存需要几秒到几十秒。

解法：保持模型常驻内存。Ollama 默认 5 分钟无对话会卸载，可以改：

OLLAMA_KEEP_ALIVE=24h ollama serve

模型 24 小时不卸载——速度永远是"已加载"状态。

问题 5：本地 AI 比云端 AI 慢 3 倍

真相：单卡本地永远不可能比云端"几千张 H100 并行 + 推理优化"快。

正确预期：

个人用：能跟得上你的阅读速度（>15 tok/s）就够了
别拿"和云端比速度"作为标准——本地的优势是隐私、离线、定制，不是速度

问题 6：流式响应卡顿，一段一段往外蹦

原因：UI 客户端的渲染问题，不是模型问题。

解法：换更顺滑的 UI（Cherry Studio 0.9+、LM Studio 0.3+ 渲染都很流畅）。

15.3 内存 / 显存问题（爆显存 / 加载失败）

问题 7：`Error loading model: out of memory`

原因：模型 + KV Cache + 系统 + 其他 App 总占用超出可用内存。

Mac 解法：

关掉 Chrome（最大杀手）
减小上下文（4K 而不是 32K）
用更小的量化（Q4_K_S 而不是 Q4_K_M）
用更小的模型

Windows 解法：

显存不够时勾选 "Allow CPU Offload"——慢但能跑
关掉视频游戏后台进程
调整 Windows 虚拟内存到 30 GB+

问题 8：电脑突然卡死、必须重启

原因：Mac/Windows 把内存挤光了，系统失去响应。

预防：

永远不要满载跑模型，留 4 GB 给系统
跑大模型前关掉所有不必要的 App

急救：

Mac：Cmd + Option + Esc 强制退出 Ollama
Windows：Ctrl + Alt + Del → 任务管理器 → 结束 Ollama

问题 9：上下文越聊越长，越来越慢

原因：KV Cache 随对话增长。

解法：

定期"开新对话"清除上下文
启用 KV Cache 量化（第六章 6.7 节）：
```
OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
```

问题 10：Mac 用了 16 GB 但只能跑 4 GB 模型

原因：macOS 系统占 4 GB + Chrome 4 GB + Spotlight 索引 1 GB + 其他 1 GB = 10 GB 没了，只剩 6 GB 给模型，留出 KV Cache 后只够 4–5 GB 模型。

解法：

换更小的应用（Safari 替代 Chrome）
关闭"更新中"的索引
16 GB Mac 老老实实用 7B Q4 就够了；要跑 14B+ 至少升 24 GB

15.4 幻觉问题（AI 胡说八道）

问题 11：AI 编造不存在的人名、书名、URL

原因：模型为了"回答你"，会编一个看起来合理的答案。

解法（按效果排序）：

挂知识库（RAG）：让 AI 基于你提供的资料回答（第十一章）
明确说"不知道就说不知道"：

你回答时必须遵守：
- 不确定的事情明确说"我不确定"
- 不要编造引用、数字、人名、URL
- 拒绝回答你不知道的事情

让它显式标注信心度：

每个论点后加 [信心度: 高/中/低]

降低温度（temperature）：从 0.7 降到 0.3，回答更"保守"

问题 12：AI 答完后立刻就忘

原因：你新开了对话，或者上下文超出了模型的窗口。

解法：

同一个对话里继续问（不要新开）
重要信息放在 system prompt 里（每次对话都会带上）
用知识库存"长期记忆"

问题 13：AI 会"过度道歉"或"过度奉承"

原因：很多模型被微调成"有礼貌"，结果变成讨好。

解法：在 system prompt 里写：

你不需要客套、不需要道歉、不需要奉承。
直接给答案。如果我错了，直接告诉我我错了，不用绕弯。

问题 14：AI 拒绝回答正常问题

原因：模型被"安全微调"得过于敏感。比如让它写"如何打开生锈的瓶盖"，它说"为安全起见我不能教你"。

解法：

换"对齐较弱"的模型（如 Qwen 3 / Phi-4 比 Llama 默认对齐弱）
用 abliterated 版本（社区"去对齐"模型，去掉了不必要拒绝）
在 prompt 里说明合法用途

问题 15：AI 回答总是"翻译腔"

详见 15.5 节。

问题 16：AI 总是"列 5 点 + 总结"，写不出连续段落

原因：模型被微调成"答案要结构化"。

解法：

请用连续段落回答，不要列点。
段落之间用空行分开。
每段 3–5 句话。

15.5 中文质量问题

问题 17：用 Llama 写中文，怪怪的

原因：Llama 是英文优化的模型，中文是次要语言。

解法：

中文场景必用 Qwen 3 / DeepSeek / GLM / Yi 系列
不要用 Llama / Mistral 写中文

问题 18：Qwen 3 8B 写公文，"AI 味"重

解法：

系统提示词里给样例：

我写过的公文样例：
"经研究，决定 [XXX]。请各部门配合落实。"

请用同样的风格写。不要用"我们要"、"让我们"、"携手"等口语词。

用更大的模型（Qwen 3 14B / 32B）
提示词里加"直接写正文，不要解释，不要前言"

问题 19：本地翻译"敢翻但翻得糙"

原因：本地翻译没有云端翻译"反复优化"的精修。

解法：

用更大模型（14B+）
重要文档让模型"翻译两次"，第二次让它"挑毛病并修正"
关键术语提前在 prompt 里给词典

问题 20：模型把繁体字混在简体里

原因：训练数据里有繁体内容，量化后偶发"漂移"。

解法：

请用简体中文回答，不要混入任何繁体字。

明确告知，绝大多数 8B+ 模型都能修正。

15.6 下载与镜像问题

问题 21：Ollama 下载模型卡 0%

原因：网络问题（国内常见）。

解法：

# Mac/Linux
export OLLAMA_HOST=https://ollama-proxy.cnb.cool
ollama pull qwen3:8b

或换 LM Studio 直接到 hf-mirror.com / 魔搭社区下 GGUF。

问题 22：Hugging Face 完全打不开

解法：

用 hf-mirror.com（中文社区维护的镜像）
设环境变量 HF_ENDPOINT=https://hf-mirror.com
国产模型直接到 modelscope.cn 下

问题 23：下了一半断了，要重头来

Ollama：直接重新 ollama pull，会断点续传。

手动下载（curl/wget）：

wget -c https://huggingface.co/.../qwen3-8b.gguf
# -c 是断点续传

问题 24：下完模型校验失败

原因：网络途中字节出错。

解法：

删了重下
换镜像源
校验 SHA256（Hugging Face 模型卡上有）

shasum -a 256 qwen3-8b-q4_k_m.gguf

问题 25：modelscope 上找不到 GGUF 格式

真相：很多 ModelScope 上的官方仓库只有 safetensors。

解法：

找 unsloth / bartowski 的"二次发布"仓库
或自己用 llama.cpp 转：

python convert.py path/to/safetensors --outtype q4_k_m

15.7 平台特定问题

Mac 特定问题

问题 26：M1/M2/M3 跑某模型报错 "Metal not supported"

解法：升级 macOS 到 14+，升级 Ollama / LM Studio 到最新。

问题 27：Mac 风扇狂转、机身烫

真相：模型推理就是吃 CPU/GPU 的，正常。

解法：

用更小模型
抬高散热（Mac mini / 笔记本垫高）
长时间跑大模型考虑外置散热

问题 28：MacOS 升级后 Ollama 不工作

解法：

brew uninstall ollama
brew install ollama

或者重新下载安装。

Windows 特定问题

问题 29：CUDA 报错 "no kernel image is available for execution"

原因：CUDA 版本和 GPU 不匹配。

解法：

老 GPU（10 系、20 系）装 CUDA 11.x
新 GPU（30 系、40 系、50 系）装 CUDA 12.x

问题 30：Ollama 启动后没反应

解法：

任务管理器看 ollama.exe 是否在跑
卸载重装到非中文路径
关闭杀毒软件试试（Norton 等会误杀）

问题 31：WSL 跑 Ollama 慢

真相：WSL 调用 GPU 有性能损失。

解法：直接用 Windows 原生 Ollama，不要走 WSL。

Linux 特定问题

问题 32：systemd 启动 Ollama 找不到 GPU

解法：在 service 文件里加：

[Service]
Environment="CUDA_VISIBLE_DEVICES=0"
Environment="HOME=/home/user"
Environment="OLLAMA_KEEP_ALIVE=24h"

问题 33：多 GPU 不均衡

解法：

CUDA_VISIBLE_DEVICES=0,1 ollama serve

或在配置里手动指定每张卡上多少层。

15.8 模型相关的"软问题"

问题 34：装了模型不知道哪个最适合自己

解法：

回第五章 5.3 节"7 个使用场景的模型推荐表"
实测：同一个真实任务，让 3 个模型回答，自己感受

问题 35：装了一堆模型，硬盘满了

解法：

ollama list                # 看有什么
ollama rm <模型名>         # 删

或者直接删模型文件（位置一般在 ~/.ollama/models/）。

法则：超过 30 天没用过的模型，删掉。新模型来了重下也只要 10 分钟。

15.9 跑不动？这些"曲线救国"方案

方案 1：用更小的"专精"模型替大模型

写代码不用 32B，用 Qwen Coder 7B 就够
写日记不用 70B，用 Qwen 3 8B 就够
翻译不用 14B，用 8B 就够

方案 2：本地 + 云端混合

本地处理隐私 / 离线场景
复杂任务调云端 API（如 OpenAI、Claude、DeepSeek）

方案 3：远程访问别人的本地

朋友 / 公司有 Mac Studio Ultra？通过 Tailscale 远程访问他的 Ollama
你出钱合资买一台共享

方案 4：买二手机

二手 Mac Studio M1 Max 32 GB 才 1 万元出头
二手 RTX 3090 24G 才 5000 元
比新机性价比高得多

15.10 一份"自检清单"

每次本地 AI 出问题，按下面流程过一遍：

[1] 速度慢？
  ├── 检查 ollama ps 是否 100% GPU
  ├── 检查活动监视器看内存压力
  └── 减小模型 / 量化 / 上下文

[2] 报错？
  ├── 截图错误日志
  ├── 搜索 GitHub Issue（90% 别人遇到过）
  └── 换最新版本工具试试

[3] 答得不好？
  ├── 检查模型是否选对（Qwen vs Llama）
  ├── 检查 system prompt 是否清晰
  ├── 检查温度参数
  └── 换更大模型或挂知识库

[4] 下不动？
  ├── 换镜像源
  ├── 用 ModelScope
  └── 找朋友拷贝 .gguf 文件

15.11 求助通道

实在搞不定？这些社区能帮你：

中文社区

Linux.do（综合中文 AI 社区，本地 AI 板块活跃）
V2EX /local-ai 节点
知乎"本地大模型"话题
B 站很多 UP 主有详细教程视频

英文社区

r/LocalLLaMA（最大本地 AI 社区）
HuggingFace Forum
Ollama Discord
LM Studio Discord

各项目 GitHub Issue

任何工具出错，先到该工具 GitHub 的 Issues 里搜你的报错——大概率别人遇过

15.12 一句话记住

本地 AI 跟养花一样——它会出问题，会闹脾气，需要你了解它。耐心一点，回报巨大。

下一章第十六章 · 本地AI的安全隐私与合规，我们终于讨论那个让人不寒而栗的话题——"本地 AI 真的就完全安全吗？"