15.1 一张速查表:你的症状属于哪一类
| 症状 | 翻到哪节 |
|---|---|
| 模型回答太慢、每秒 1–3 个字 | 15.2 速度问题 |
| 加载模型时报"out of memory"或电脑卡死 | 15.3 内存 / 显存问题 |
| AI 说的内容是假的、编造的、不准确 | 15.4 幻觉问题 |
| 中文回答总是"翻译腔"、不自然 | 15.5 中文质量问题 |
| 模型下载下不动、卡 0% | 15.6 下载与镜像 |
| Ollama / LM Studio 装好但运行报错 | 15.7 平台特定问题 |
15.2 速度问题(卡顿 / 慢)
问题 1:Mac 上跑 8B 模型每秒只有 5 token
原因 99% 都是没用上 GPU。
Mac 验证:
ollama ps
应该看到 100% GPU 字样。如果显示 100% CPU 或 50%/50%:
解法:
- 升级 Ollama 到 0.17+(原生 MLX 支持)
- 重启 Ollama(
brew services restart ollama或退出后台再开) - macOS 系统设置中确认没有"低功耗模式"
- 关掉吃显存的应用(Final Cut Pro、Photoshop、Chrome 大量标签)
问题 2:Windows 跑模型不调用 NVIDIA GPU
Ollama 验证:
ollama ps
如果不是 100% GPU:
解法:
- 安装最新 NVIDIA 驱动(>= 555 版本,2024 年 5 月以后)
- 装 CUDA Toolkit 12.x
- 重启电脑(不是只重启 Ollama)
- LM Studio:设置里勾选 "GPU Offload",把 layers 拉到最大
问题 3:模型大了之后慢得让人想哭
例:32 GB Mac 跑 70B 模型,每秒 3 token。
真相:你已经"溢出"到内存或硬盘了。
判断方法:
- 用活动监视器(Mac)/ 任务管理器(Win)看
- 如果"内存压力"飘红、磁盘读写飙高 → 溢出了
解法:
- 换更小的模型(70B → 32B 或 14B)
- 换更狠的量化(Q4 → Q3)
- 减小上下文长度(32K → 8K)
- 加内存条(PC 用户福音)
问题 4:第一次回答超慢,之后正常
原因:模型从磁盘载入到内存需要几秒到几十秒。
解法:保持模型常驻内存。Ollama 默认 5 分钟无对话会卸载,可以改:
OLLAMA_KEEP_ALIVE=24h ollama serve
模型 24 小时不卸载——速度永远是"已加载"状态。
问题 5:本地 AI 比云端 AI 慢 3 倍
真相:单卡本地永远不可能比云端"几千张 H100 并行 + 推理优化"快。
正确预期:
- 个人用:能跟得上你的阅读速度(>15 tok/s)就够了
- 别拿"和云端比速度"作为标准——本地的优势是隐私、离线、定制,不是速度
问题 6:流式响应卡顿,一段一段往外蹦
原因:UI 客户端的渲染问题,不是模型问题。
解法:换更顺滑的 UI(Cherry Studio 0.9+、LM Studio 0.3+ 渲染都很流畅)。
15.3 内存 / 显存问题(爆显存 / 加载失败)
问题 7:Error loading model: out of memory
原因:模型 + KV Cache + 系统 + 其他 App 总占用超出可用内存。
Mac 解法:
- 关掉 Chrome(最大杀手)
- 减小上下文(4K 而不是 32K)
- 用更小的量化(Q4_K_S 而不是 Q4_K_M)
- 用更小的模型
Windows 解法:
- 显存不够时勾选 "Allow CPU Offload"——慢但能跑
- 关掉视频游戏后台进程
- 调整 Windows 虚拟内存到 30 GB+
问题 8:电脑突然卡死、必须重启
原因:Mac/Windows 把内存挤光了,系统失去响应。
预防:
- 永远不要满载跑模型,留 4 GB 给系统
- 跑大模型前关掉所有不必要的 App
急救:
- Mac:
Cmd + Option + Esc强制退出 Ollama - Windows:
Ctrl + Alt + Del→ 任务管理器 → 结束 Ollama
问题 9:上下文越聊越长,越来越慢
原因:KV Cache 随对话增长。
解法:
- 定期"开新对话"清除上下文
- 启用 KV Cache 量化(第六章 6.7 节):
OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
问题 10:Mac 用了 16 GB 但只能跑 4 GB 模型
原因:macOS 系统占 4 GB + Chrome 4 GB + Spotlight 索引 1 GB + 其他 1 GB = 10 GB 没了,只剩 6 GB 给模型,留出 KV Cache 后只够 4–5 GB 模型。
解法:
- 换更小的应用(Safari 替代 Chrome)
- 关闭"更新中"的索引
- 16 GB Mac 老老实实用 7B Q4 就够了;要跑 14B+ 至少升 24 GB
15.4 幻觉问题(AI 胡说八道)
问题 11:AI 编造不存在的人名、书名、URL
原因:模型为了"回答你",会编一个看起来合理的答案。
解法(按效果排序):
- 挂知识库(RAG):让 AI 基于你提供的资料回答(第十一章)
- 明确说"不知道就说不知道":
你回答时必须遵守:
- 不确定的事情明确说"我不确定"
- 不要编造引用、数字、人名、URL
- 拒绝回答你不知道的事情
- 让它显式标注信心度:
每个论点后加 [信心度: 高/中/低]
- 降低温度(temperature):从 0.7 降到 0.3,回答更"保守"
问题 12:AI 答完后立刻就忘
原因:你新开了对话,或者上下文超出了模型的窗口。
解法:
- 同一个对话里继续问(不要新开)
- 重要信息放在 system prompt 里(每次对话都会带上)
- 用知识库存"长期记忆"
问题 13:AI 会"过度道歉"或"过度奉承"
原因:很多模型被微调成"有礼貌",结果变成讨好。
解法:在 system prompt 里写:
你不需要客套、不需要道歉、不需要奉承。
直接给答案。如果我错了,直接告诉我我错了,不用绕弯。
问题 14:AI 拒绝回答正常问题
原因:模型被"安全微调"得过于敏感。比如让它写"如何打开生锈的瓶盖",它说"为安全起见我不能教你"。
解法:
- 换"对齐较弱"的模型(如 Qwen 3 / Phi-4 比 Llama 默认对齐弱)
- 用 abliterated 版本(社区"去对齐"模型,去掉了不必要拒绝)
- 在 prompt 里说明合法用途
问题 15:AI 回答总是"翻译腔"
详见 15.5 节。
问题 16:AI 总是"列 5 点 + 总结",写不出连续段落
原因:模型被微调成"答案要结构化"。
解法:
请用连续段落回答,不要列点。
段落之间用空行分开。
每段 3–5 句话。
15.5 中文质量问题
问题 17:用 Llama 写中文,怪怪的
原因:Llama 是英文优化的模型,中文是次要语言。
解法:
- 中文场景必用 Qwen 3 / DeepSeek / GLM / Yi 系列
- 不要用 Llama / Mistral 写中文
问题 18:Qwen 3 8B 写公文,"AI 味"重
解法:
- 系统提示词里给样例:
我写过的公文样例:
"经研究,决定 [XXX]。请各部门配合落实。"
请用同样的风格写。不要用"我们要"、"让我们"、"携手"等口语词。
- 用更大的模型(Qwen 3 14B / 32B)
- 提示词里加"直接写正文,不要解释,不要前言"
问题 19:本地翻译"敢翻但翻得糙"
原因:本地翻译没有云端翻译"反复优化"的精修。
解法:
- 用更大模型(14B+)
- 重要文档让模型"翻译两次",第二次让它"挑毛病并修正"
- 关键术语提前在 prompt 里给词典
问题 20:模型把繁体字混在简体里
原因:训练数据里有繁体内容,量化后偶发"漂移"。
解法:
请用简体中文回答,不要混入任何繁体字。
明确告知,绝大多数 8B+ 模型都能修正。
15.6 下载与镜像问题
问题 21:Ollama 下载模型卡 0%
原因:网络问题(国内常见)。
解法:
# Mac/Linux
export OLLAMA_HOST=https://ollama-proxy.cnb.cool
ollama pull qwen3:8b
或换 LM Studio 直接到 hf-mirror.com / 魔搭社区下 GGUF。
问题 22:Hugging Face 完全打不开
解法:
- 用 hf-mirror.com(中文社区维护的镜像)
- 设环境变量
HF_ENDPOINT=https://hf-mirror.com - 国产模型直接到 modelscope.cn 下
问题 23:下了一半断了,要重头来
Ollama:直接重新 ollama pull,会断点续传。
手动下载(curl/wget):
wget -c https://huggingface.co/.../qwen3-8b.gguf
# -c 是断点续传
问题 24:下完模型校验失败
原因:网络途中字节出错。
解法:
- 删了重下
- 换镜像源
- 校验 SHA256(Hugging Face 模型卡上有)
shasum -a 256 qwen3-8b-q4_k_m.gguf
问题 25:modelscope 上找不到 GGUF 格式
真相:很多 ModelScope 上的官方仓库只有 safetensors。
解法:
- 找 unsloth / bartowski 的"二次发布"仓库
- 或自己用 llama.cpp 转:
python convert.py path/to/safetensors --outtype q4_k_m
15.7 平台特定问题
Mac 特定问题
问题 26:M1/M2/M3 跑某模型报错 "Metal not supported"
解法:升级 macOS 到 14+,升级 Ollama / LM Studio 到最新。
问题 27:Mac 风扇狂转、机身烫
真相:模型推理就是吃 CPU/GPU 的,正常。
解法:
- 用更小模型
- 抬高散热(Mac mini / 笔记本垫高)
- 长时间跑大模型考虑外置散热
问题 28:MacOS 升级后 Ollama 不工作
解法:
brew uninstall ollama
brew install ollama
或者重新下载安装。
Windows 特定问题
问题 29:CUDA 报错 "no kernel image is available for execution"
原因:CUDA 版本和 GPU 不匹配。
解法:
- 老 GPU(10 系、20 系)装 CUDA 11.x
- 新 GPU(30 系、40 系、50 系)装 CUDA 12.x
问题 30:Ollama 启动后没反应
解法:
- 任务管理器看 ollama.exe 是否在跑
- 卸载重装到非中文路径
- 关闭杀毒软件试试(Norton 等会误杀)
问题 31:WSL 跑 Ollama 慢
真相:WSL 调用 GPU 有性能损失。
解法:直接用 Windows 原生 Ollama,不要走 WSL。
Linux 特定问题
问题 32:systemd 启动 Ollama 找不到 GPU
解法:在 service 文件里加:
[Service]
Environment="CUDA_VISIBLE_DEVICES=0"
Environment="HOME=/home/user"
Environment="OLLAMA_KEEP_ALIVE=24h"
问题 33:多 GPU 不均衡
解法:
CUDA_VISIBLE_DEVICES=0,1 ollama serve
或在配置里手动指定每张卡上多少层。
15.8 模型相关的"软问题"
问题 34:装了模型不知道哪个最适合自己
解法:
- 回第五章 5.3 节"7 个使用场景的模型推荐表"
- 实测:同一个真实任务,让 3 个模型回答,自己感受
问题 35:装了一堆模型,硬盘满了
解法:
ollama list # 看有什么
ollama rm <模型名> # 删
或者直接删模型文件(位置一般在 ~/.ollama/models/)。
法则:超过 30 天没用过的模型,删掉。新模型来了重下也只要 10 分钟。
15.9 跑不动?这些"曲线救国"方案
方案 1:用更小的"专精"模型替大模型
- 写代码不用 32B,用 Qwen Coder 7B 就够
- 写日记不用 70B,用 Qwen 3 8B 就够
- 翻译不用 14B,用 8B 就够
方案 2:本地 + 云端混合
- 本地处理隐私 / 离线场景
- 复杂任务调云端 API(如 OpenAI、Claude、DeepSeek)
方案 3:远程访问别人的本地
- 朋友 / 公司有 Mac Studio Ultra?通过 Tailscale 远程访问他的 Ollama
- 你出钱合资买一台共享
方案 4:买二手机
- 二手 Mac Studio M1 Max 32 GB 才 1 万元出头
- 二手 RTX 3090 24G 才 5000 元
- 比新机性价比高得多
15.10 一份"自检清单"
每次本地 AI 出问题,按下面流程过一遍:
[1] 速度慢?
├── 检查 ollama ps 是否 100% GPU
├── 检查活动监视器看内存压力
└── 减小模型 / 量化 / 上下文
[2] 报错?
├── 截图错误日志
├── 搜索 GitHub Issue(90% 别人遇到过)
└── 换最新版本工具试试
[3] 答得不好?
├── 检查模型是否选对(Qwen vs Llama)
├── 检查 system prompt 是否清晰
├── 检查温度参数
└── 换更大模型或挂知识库
[4] 下不动?
├── 换镜像源
├── 用 ModelScope
└── 找朋友拷贝 .gguf 文件
15.11 求助通道
实在搞不定?这些社区能帮你:
中文社区
- Linux.do(综合中文 AI 社区,本地 AI 板块活跃)
- V2EX
/local-ai节点 - 知乎"本地大模型"话题
- B 站很多 UP 主有详细教程视频
英文社区
- r/LocalLLaMA(最大本地 AI 社区)
- HuggingFace Forum
- Ollama Discord
- LM Studio Discord
各项目 GitHub Issue
- 任何工具出错,先到该工具 GitHub 的 Issues 里搜你的报错——大概率别人遇过
15.12 一句话记住
本地 AI 跟养花一样——它会出问题,会闹脾气,需要你了解它。耐心一点,回报巨大。
下一章 第十六章 · 本地AI的安全 隐私与合规,我们终于讨论那个让人不寒而栗的话题——"本地 AI 真的就完全安全吗?"