ORANGE BOOK · LOCAL AI

第十五章 常见问题与避坑——慢、爆显存、胡说八道

15.1 一张速查表:你的症状属于哪一类

症状 翻到哪节
模型回答太慢、每秒 1–3 个字 15.2 速度问题
加载模型时报"out of memory"或电脑卡死 15.3 内存 / 显存问题
AI 说的内容是假的、编造的、不准确 15.4 幻觉问题
中文回答总是"翻译腔"、不自然 15.5 中文质量问题
模型下载下不动、卡 0% 15.6 下载与镜像
Ollama / LM Studio 装好但运行报错 15.7 平台特定问题

15.2 速度问题(卡顿 / 慢)

问题 1:Mac 上跑 8B 模型每秒只有 5 token

原因 99% 都是没用上 GPU

Mac 验证

ollama ps

应该看到 100% GPU 字样。如果显示 100% CPU50%/50%

解法

  1. 升级 Ollama 到 0.17+(原生 MLX 支持)
  2. 重启 Ollama(brew services restart ollama 或退出后台再开)
  3. macOS 系统设置中确认没有"低功耗模式"
  4. 关掉吃显存的应用(Final Cut Pro、Photoshop、Chrome 大量标签)

问题 2:Windows 跑模型不调用 NVIDIA GPU

Ollama 验证

ollama ps

如果不是 100% GPU:

解法

  1. 安装最新 NVIDIA 驱动(>= 555 版本,2024 年 5 月以后)
  2. 装 CUDA Toolkit 12.x
  3. 重启电脑(不是只重启 Ollama)
  4. LM Studio:设置里勾选 "GPU Offload",把 layers 拉到最大

问题 3:模型大了之后慢得让人想哭

例:32 GB Mac 跑 70B 模型,每秒 3 token。

真相:你已经"溢出"到内存或硬盘了。

判断方法

  • 用活动监视器(Mac)/ 任务管理器(Win)看
  • 如果"内存压力"飘红、磁盘读写飙高 → 溢出了

解法

  • 换更小的模型(70B → 32B 或 14B)
  • 换更狠的量化(Q4 → Q3)
  • 减小上下文长度(32K → 8K)
  • 加内存条(PC 用户福音)

问题 4:第一次回答超慢,之后正常

原因:模型从磁盘载入到内存需要几秒到几十秒。

解法:保持模型常驻内存。Ollama 默认 5 分钟无对话会卸载,可以改:

OLLAMA_KEEP_ALIVE=24h ollama serve

模型 24 小时不卸载——速度永远是"已加载"状态。

问题 5:本地 AI 比云端 AI 慢 3 倍

真相:单卡本地永远不可能比云端"几千张 H100 并行 + 推理优化"快。

正确预期

  • 个人用:能跟得上你的阅读速度(>15 tok/s)就够了
  • 别拿"和云端比速度"作为标准——本地的优势是隐私、离线、定制,不是速度

问题 6:流式响应卡顿,一段一段往外蹦

原因:UI 客户端的渲染问题,不是模型问题。

解法:换更顺滑的 UI(Cherry Studio 0.9+、LM Studio 0.3+ 渲染都很流畅)。

15.3 内存 / 显存问题(爆显存 / 加载失败)

问题 7:Error loading model: out of memory

原因:模型 + KV Cache + 系统 + 其他 App 总占用超出可用内存。

Mac 解法

  • 关掉 Chrome(最大杀手)
  • 减小上下文(4K 而不是 32K)
  • 用更小的量化(Q4_K_S 而不是 Q4_K_M)
  • 用更小的模型

Windows 解法

  • 显存不够时勾选 "Allow CPU Offload"——慢但能跑
  • 关掉视频游戏后台进程
  • 调整 Windows 虚拟内存到 30 GB+

问题 8:电脑突然卡死、必须重启

原因:Mac/Windows 把内存挤光了,系统失去响应。

预防

  • 永远不要满载跑模型,留 4 GB 给系统
  • 跑大模型前关掉所有不必要的 App

急救

  • Mac:Cmd + Option + Esc 强制退出 Ollama
  • Windows:Ctrl + Alt + Del → 任务管理器 → 结束 Ollama

问题 9:上下文越聊越长,越来越慢

原因:KV Cache 随对话增长。

解法

  • 定期"开新对话"清除上下文
  • 启用 KV Cache 量化(第六章 6.7 节):
    OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
    

问题 10:Mac 用了 16 GB 但只能跑 4 GB 模型

原因:macOS 系统占 4 GB + Chrome 4 GB + Spotlight 索引 1 GB + 其他 1 GB = 10 GB 没了,只剩 6 GB 给模型,留出 KV Cache 后只够 4–5 GB 模型。

解法

  • 换更小的应用(Safari 替代 Chrome)
  • 关闭"更新中"的索引
  • 16 GB Mac 老老实实用 7B Q4 就够了;要跑 14B+ 至少升 24 GB

15.4 幻觉问题(AI 胡说八道)

问题 11:AI 编造不存在的人名、书名、URL

原因:模型为了"回答你",会编一个看起来合理的答案。

解法(按效果排序)

  1. 挂知识库(RAG):让 AI 基于你提供的资料回答(第十一章)
  2. 明确说"不知道就说不知道"
你回答时必须遵守:
- 不确定的事情明确说"我不确定"
- 不要编造引用、数字、人名、URL
- 拒绝回答你不知道的事情
  1. 让它显式标注信心度
每个论点后加 [信心度: 高/中/低]
  1. 降低温度(temperature):从 0.7 降到 0.3,回答更"保守"

问题 12:AI 答完后立刻就忘

原因:你新开了对话,或者上下文超出了模型的窗口。

解法

  • 同一个对话里继续问(不要新开)
  • 重要信息放在 system prompt 里(每次对话都会带上)
  • 用知识库存"长期记忆"

问题 13:AI 会"过度道歉"或"过度奉承"

原因:很多模型被微调成"有礼貌",结果变成讨好。

解法:在 system prompt 里写:

你不需要客套、不需要道歉、不需要奉承。
直接给答案。如果我错了,直接告诉我我错了,不用绕弯。

问题 14:AI 拒绝回答正常问题

原因:模型被"安全微调"得过于敏感。比如让它写"如何打开生锈的瓶盖",它说"为安全起见我不能教你"。

解法

  • 换"对齐较弱"的模型(如 Qwen 3 / Phi-4 比 Llama 默认对齐弱)
  • 用 abliterated 版本(社区"去对齐"模型,去掉了不必要拒绝)
  • 在 prompt 里说明合法用途

问题 15:AI 回答总是"翻译腔"

详见 15.5 节。

问题 16:AI 总是"列 5 点 + 总结",写不出连续段落

原因:模型被微调成"答案要结构化"。

解法

请用连续段落回答,不要列点。
段落之间用空行分开。
每段 3–5 句话。

15.5 中文质量问题

问题 17:用 Llama 写中文,怪怪的

原因:Llama 是英文优化的模型,中文是次要语言。

解法

  • 中文场景必用 Qwen 3 / DeepSeek / GLM / Yi 系列
  • 不要用 Llama / Mistral 写中文

问题 18:Qwen 3 8B 写公文,"AI 味"重

解法

  1. 系统提示词里给样例:
我写过的公文样例:
"经研究,决定 [XXX]。请各部门配合落实。"

请用同样的风格写。不要用"我们要"、"让我们"、"携手"等口语词。
  1. 用更大的模型(Qwen 3 14B / 32B)
  2. 提示词里加"直接写正文,不要解释,不要前言"

问题 19:本地翻译"敢翻但翻得糙"

原因:本地翻译没有云端翻译"反复优化"的精修。

解法

  • 用更大模型(14B+)
  • 重要文档让模型"翻译两次",第二次让它"挑毛病并修正"
  • 关键术语提前在 prompt 里给词典

问题 20:模型把繁体字混在简体里

原因:训练数据里有繁体内容,量化后偶发"漂移"。

解法

请用简体中文回答,不要混入任何繁体字。

明确告知,绝大多数 8B+ 模型都能修正。

15.6 下载与镜像问题

问题 21:Ollama 下载模型卡 0%

原因:网络问题(国内常见)。

解法

# Mac/Linux
export OLLAMA_HOST=https://ollama-proxy.cnb.cool
ollama pull qwen3:8b

或换 LM Studio 直接到 hf-mirror.com / 魔搭社区下 GGUF。

问题 22:Hugging Face 完全打不开

解法

  • 用 hf-mirror.com(中文社区维护的镜像)
  • 设环境变量 HF_ENDPOINT=https://hf-mirror.com
  • 国产模型直接到 modelscope.cn 下

问题 23:下了一半断了,要重头来

Ollama:直接重新 ollama pull,会断点续传。

手动下载(curl/wget)

wget -c https://huggingface.co/.../qwen3-8b.gguf
# -c 是断点续传

问题 24:下完模型校验失败

原因:网络途中字节出错。

解法

  • 删了重下
  • 换镜像源
  • 校验 SHA256(Hugging Face 模型卡上有)
shasum -a 256 qwen3-8b-q4_k_m.gguf

问题 25:modelscope 上找不到 GGUF 格式

真相:很多 ModelScope 上的官方仓库只有 safetensors。

解法

  • 找 unsloth / bartowski 的"二次发布"仓库
  • 或自己用 llama.cpp 转:
python convert.py path/to/safetensors --outtype q4_k_m

15.7 平台特定问题

Mac 特定问题

问题 26:M1/M2/M3 跑某模型报错 "Metal not supported"

解法:升级 macOS 到 14+,升级 Ollama / LM Studio 到最新。

问题 27:Mac 风扇狂转、机身烫

真相:模型推理就是吃 CPU/GPU 的,正常。

解法

  • 用更小模型
  • 抬高散热(Mac mini / 笔记本垫高)
  • 长时间跑大模型考虑外置散热

问题 28:MacOS 升级后 Ollama 不工作

解法

brew uninstall ollama
brew install ollama

或者重新下载安装。

Windows 特定问题

问题 29:CUDA 报错 "no kernel image is available for execution"

原因:CUDA 版本和 GPU 不匹配。

解法

  • 老 GPU(10 系、20 系)装 CUDA 11.x
  • 新 GPU(30 系、40 系、50 系)装 CUDA 12.x

问题 30:Ollama 启动后没反应

解法

  • 任务管理器看 ollama.exe 是否在跑
  • 卸载重装到非中文路径
  • 关闭杀毒软件试试(Norton 等会误杀)

问题 31:WSL 跑 Ollama 慢

真相:WSL 调用 GPU 有性能损失。

解法:直接用 Windows 原生 Ollama,不要走 WSL。

Linux 特定问题

问题 32:systemd 启动 Ollama 找不到 GPU

解法:在 service 文件里加:

[Service]
Environment="CUDA_VISIBLE_DEVICES=0"
Environment="HOME=/home/user"
Environment="OLLAMA_KEEP_ALIVE=24h"

问题 33:多 GPU 不均衡

解法

CUDA_VISIBLE_DEVICES=0,1 ollama serve

或在配置里手动指定每张卡上多少层。

15.8 模型相关的"软问题"

问题 34:装了模型不知道哪个最适合自己

解法

  • 回第五章 5.3 节"7 个使用场景的模型推荐表"
  • 实测:同一个真实任务,让 3 个模型回答,自己感受

问题 35:装了一堆模型,硬盘满了

解法

ollama list                # 看有什么
ollama rm <模型名>         # 删

或者直接删模型文件(位置一般在 ~/.ollama/models/)。

法则:超过 30 天没用过的模型,删掉。新模型来了重下也只要 10 分钟。

15.9 跑不动?这些"曲线救国"方案

方案 1:用更小的"专精"模型替大模型

  • 写代码不用 32B,用 Qwen Coder 7B 就够
  • 写日记不用 70B,用 Qwen 3 8B 就够
  • 翻译不用 14B,用 8B 就够

方案 2:本地 + 云端混合

  • 本地处理隐私 / 离线场景
  • 复杂任务调云端 API(如 OpenAI、Claude、DeepSeek)

方案 3:远程访问别人的本地

  • 朋友 / 公司有 Mac Studio Ultra?通过 Tailscale 远程访问他的 Ollama
  • 你出钱合资买一台共享

方案 4:买二手机

  • 二手 Mac Studio M1 Max 32 GB 才 1 万元出头
  • 二手 RTX 3090 24G 才 5000 元
  • 比新机性价比高得多

15.10 一份"自检清单"

每次本地 AI 出问题,按下面流程过一遍:

[1] 速度慢?
  ├── 检查 ollama ps 是否 100% GPU
  ├── 检查活动监视器看内存压力
  └── 减小模型 / 量化 / 上下文

[2] 报错?
  ├── 截图错误日志
  ├── 搜索 GitHub Issue(90% 别人遇到过)
  └── 换最新版本工具试试

[3] 答得不好?
  ├── 检查模型是否选对(Qwen vs Llama)
  ├── 检查 system prompt 是否清晰
  ├── 检查温度参数
  └── 换更大模型或挂知识库

[4] 下不动?
  ├── 换镜像源
  ├── 用 ModelScope
  └── 找朋友拷贝 .gguf 文件

15.11 求助通道

实在搞不定?这些社区能帮你:

中文社区

  • Linux.do(综合中文 AI 社区,本地 AI 板块活跃)
  • V2EX /local-ai 节点
  • 知乎"本地大模型"话题
  • B 站很多 UP 主有详细教程视频

英文社区

  • r/LocalLLaMA(最大本地 AI 社区)
  • HuggingFace Forum
  • Ollama Discord
  • LM Studio Discord

各项目 GitHub Issue

  • 任何工具出错,先到该工具 GitHub 的 Issues 里搜你的报错——大概率别人遇过

15.12 一句话记住

本地 AI 跟养花一样——它会出问题,会闹脾气,需要你了解它。耐心一点,回报巨大。

下一章 第十六章 · 本地AI的安全 隐私与合规,我们终于讨论那个让人不寒而栗的话题——"本地 AI 真的就完全安全吗?"