本地AI常见问题FAQ · 本地 AI 橙皮书

C.1 决策类（10 问）

Q1：本地 AI 真的有必要吗？我现在用 ChatGPT 不是挺好？

A：取决于你处理的内容。

如果你只用 AI 翻译公开文章、查百科——云端 AI 完全够
如果你用 AI 处理任何"不希望陌生人看到"的东西（日记、合同、客户资料、医疗信息）——本地 AI 是唯一安全选择

很多人是"两者并用"——本地 + 云端各占一半，按场景切换。

Q2：我电脑配置一般，本地 AI 能跑吗？

A：能。

8 GB 内存：能跑 1B–3B 模型（够日常翻译、改文字、写日记）
16 GB：能跑 7B–8B 模型（够大多数场景）
32 GB：能跑 14B 模型，体验明显跃迁
64 GB+：能跑 32B–70B，已接近 GPT-4o 级别

先把本地 AI 跑起来，再决定要不要升级。

Q3：本地 AI 比云端 AI 笨多少？

A：比 2024 年差距大，但 2026 年差距小很多。

简单任务（翻译、总结、改写）：本地 8B 已 90% 够用
中等任务（写文章、做规划）：本地 14B 接近云端
复杂任务（多步推理、长文档）：本地仍弱于 GPT-5 / Claude

但很多任务不需要"最强"——够用就好。

Q4：买云端订阅 vs 升级硬件跑本地，哪个划算？

A：算数：

ChatGPT Plus：约 150 元/月 = 1800 元/年 = 5 年 9000 元
Mac mini M4 32 GB：约 12000 元，跑 5 年成本 2400 元/年（折旧）
升级电脑还能换电脑用——AI 只是"附带功能"

长期看本地更便宜，且数据完全自己掌控。

Q5：本地 AI 适合什么样的人？

A：

✅ 数据隐私敏感：律师、医生、记者、心理咨询师、企业高管
✅ 重度使用者：每天 ChatGPT 用 3 小时以上的人
✅ 离线场景多：经常出差 / 飞机 / 偏远地区
✅ 技术好奇心：喜欢折腾 + 学新东西
✅ 教育人群：老师 / 家长想给孩子用又怕隐私问题
❌ 偶尔用一下：建议用云端免费版

Q6：本地 AI 适合企业吗？

A：极适合。

数据合规（特别是医疗、金融、政务、法律）
长期成本远低于按 API 调用付费
可以做行业微调，比通用云端更精准
不依赖外网，断网也工作

中大型企业建议混合：通用任务走云端，敏感任务走本地。

Q7：本地 AI 会让我看起来"古怪"吗？

A：2024 年算古怪。2026 年是"懂行"。就像 2010 年用智能手机，2015 年所有人都用——领先 1–2 年的认知，是最好的红利窗口。

Q8：现在跟还是再等等？

A：现在跟。理由：

工具已经成熟（Ollama + Cherry Studio 上手 5 分钟）
模型已经够用（Qwen 3 8B 接近 GPT-3.5+）
学习成本最低就是现在（生态稳定但还不卷）
等 2 年硬件便宜，但你已落后 2 年

Q9：买 Mac 还是 PC 玩本地 AI？

A：

完全新手 / 只跑本地 AI：Mac mini M4 24/32 GB 性价比最高
打游戏 + 跑 AI：PC + RTX 4070 Ti Super 16G 或 RTX 5070 Ti
极致性能 + 不在乎钱：Mac Studio M4 Ultra 或 PC + RTX 5090
公司部署：服务器 + 多张 RTX A6000 或 H100

Q10：本地 AI 能赚钱吗？

A：能。常见路径：

企业部署服务：帮中小企业搭本地 AI 系统（10000–50000 元/单）
教育培训：开"本地 AI 教程"课
垂直应用：基于开源模型做行业小工具
内容创作：写本地 AI 教程、做视频、写公众号

C.2 硬件类（10 问）

Q11：M1 Mac 还能用吗？

A：能。M1 8 GB 跑 3B 模型流畅，跑 7B Q4 慢但可用。 M1 16 GB 是甜蜜点——跑 7B–8B 完全够日常。 M1 Pro/Max 32 GB 跑 14B 流畅。

M1 还能用 3 年没问题。

Q12：4090 / 5090 vs Mac Studio，哪个跑大模型强？

A：

4090 24GB：跑 14B 模型最快（带宽 1008 GB/s）
5090 32GB：能跑 32B 模型，速度第一
Mac Studio M4 Max 64GB：能跑 70B 模型（带宽 546 GB/s）
Mac Studio M4 Ultra 192GB：能跑 405B（带宽 819 GB/s）

总结：

想跑超大模型 → Mac Studio Ultra
想跑 13B–32B 最快 → RTX 5090
性价比 → Mac mini M4 24/32 GB

Q13：32 GB 内存够吗？

A：

Mac 32 GB：跑 14B 流畅，跑 32B 紧张可用
Win/Linux 32 GB（DDR5 + 12 GB 显存）：跑 7B 流畅，14B 慢

对 80% 普通人，32 GB 是甜蜜点。

Q14：双显卡能加速吗？

A：

同卡型双显卡：Ollama / vLLM 支持，把模型分到两张卡上
不同卡型：常常出问题
不如单张大显存：双 RTX 4080 16GB 不如单张 RTX 4090 24GB 灵活

Q15：用集成显卡能跑吗？

A：

Intel HD / AMD Radeon 集显：基本不能（速度太慢）
Apple Silicon 集成 GPU：能！Apple 的统一内存架构非常适合
AMD Ryzen AI Max+ 395：能！128 GB 统一内存，未来很猛
Intel Core Ultra：可以但慢

Q16：手机能跑本地 AI 吗？

A：能跑小模型。

iPhone 15 Pro+：跑 3B 模型流畅（用 PocketPal AI / LLM Farm）
Android 旗舰（骁龙 8 Gen 3+）：跑 3B 模型
2027 年起：7B 模型在手机上常态化

Q17：iPad 能跑吗？

A：iPad Pro M2 / M4 能跑 7B 模型。推荐 App：LLMFarm（开源）、Private LLM（付费但易用）。

Q18：树莓派能跑吗？

A：能跑超小模型（< 1B）。 用 Pi 5 + 16 GB RAM 跑 3B 模型勉强能用。适合做"家庭 AI 玩具"+ 学习项目。

Q19：服务器跑本地 AI 推荐什么配置？

A：

入门：1 台 PC + RTX 4070 Ti Super 16GB（10000 元）
中型：1 台服务器 + 2 张 RTX 4090 24GB（30000 元）
大型：服务器 + RTX A6000 / RTX PRO（100000+ 元）
企业级：H100 / B200 集群（百万级）

Q20：买二手硬件跑本地 AI 划算吗？

A：极划算。

二手 Mac Studio M1 Ultra 64GB：约 1.5 万元（新机原 4 万元）
二手 RTX 3090 24GB：约 5000 元（新机原 1.2 万元）
二手 Mac mini M2 Pro 32GB：约 6000 元
注意：买正规渠道、看通电时长。

C.3 软件类（10 问）

Q21：Ollama 和 LM Studio 选哪个？

A：

Ollama：命令行 + REST API，灵活、生态大、二次开发友好
LM Studio：全 GUI，零命令行，新手友好

结论：

想"装上就能用"：LM Studio
想"接到其他工具 / 写脚本"：Ollama
两者都装也没问题——它们不冲突，模型可以共用

Q22：Cherry Studio vs AnythingLLM vs Open WebUI 选哪个？

A：

Cherry Studio：日常对话 + 知识库 + MCP 全能，国人首选
AnythingLLM：知识库 / 工作区强，团队首选
Open WebUI：Web 端 + 多用户管理，部署到家庭服务器首选

结论：单人用 Cherry Studio，团队用 AnythingLLM，家庭服务器用 Open WebUI。

Q23：Cherry Studio 必须配合 Ollama 吗？

A：不必。Cherry Studio 支持：

任何 OpenAI 兼容 API（Ollama / LM Studio / vLLM / 云端）
内置嵌入服务
直接调用 Hugging Face 模型

最常见组合：Cherry Studio + Ollama。

Q24：Mac 上 LM Studio 不显示 GPU 信息

A：LM Studio 0.3+ 自动检测 Apple Silicon。如果没显示，重装最新版即可。

Q25：Open WebUI 怎么装？

A：最简方式（Docker）：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

打开 http://localhost:3000，设置里连 Ollama。

Q26：能用云端模型 + 本地模型混合吗？

A：能。Cherry Studio / AnythingLLM 都支持"对话中切换模型"。 典型混合策略：

翻译公开文档 → 用 GPT-4o（云端，更精准）
翻译合同 → 用 Qwen 3 14B（本地，安全）
编程 → 用本地 Qwen Coder（隐私）
复杂推理 → 偶尔用 Claude（最强）

Q27：Continue 插件可以接哪些本地引擎？

A：Ollama、LM Studio、llama.cpp、vLLM、TensorRT-LLM、TGI——基本所有主流引擎都支持。配置在 ~/.continue/config.json。

Q28：我能自己写一个本地 AI App 吗？

A：能。最简框架：

后端：调用 Ollama API（HTTP POST 到 11434）
前端：HTML + JavaScript 或任意 Web 框架
部署：本地跑就行

50 行代码可以做一个最简 ChatGPT 替代品。

Q29：本地 AI 能集成到 Excel / Word 吗？

A：能。

Excel：装 LocalAI for Excel 插件 / 写 VBA 调 Ollama
Word：装 LibreOffice + LocalAI 插件
Google Sheets：用 Apps Script 调 Ollama（需公网映射）

Q30：能用本地 AI 自动回复邮件吗？

A：能但要小心。

用 IMAP/SMTP 库（如 Python 的 imaplib）拉邮件
让 Ollama 起草回复
绝对不要让 AI 自动发——必须人工确认

C.4 模型类（10 问）

Q31：Qwen 3 vs Llama 4 vs DeepSeek，2026 年怎么选？

A：

中文场景：Qwen 3 系列（无悬念）
英文场景：Llama 4 Scout / Mistral Small 3
复杂推理 / 数学 / 编程：DeepSeek R1 / Qwen 2.5 Coder
多语言：Gemma 3 / Mistral

新人就选 Qwen 3——错不了。

Q32：模型有"100B"和"100B-MoE"，区别是什么？

A：

100B 稠密：每次都用全部 100B 参数，慢但稳
100B MoE：每次只用其中一部分（如激活 10B），快但不稳

对个人：MoE 模型 → 显存够用前提下速度更快。例：Llama 4 Scout 17Bx16 = 总参 109B，激活 17B，跑起来像 17B 速度，质量像 60B。

Q33：模型版本号怎么理解？比如 "Qwen3-8B-Instruct-Q4_K_M"

A：

Qwen3：模型家族名
8B：80 亿参数
Instruct：经过指令微调（适合对话）
Q4_K_M：4 bit 量化，K 是优化算法，M 是中等版本

记法：

没 Instruct 后缀的是"基础模型"，不适合对话
Base / Pretrain 也是基础模型

Q34：量化版本怎么选？

A：

Q4_K_M：默认推荐，质量损失小，文件小
Q5_K_M：质量稍好，文件大 25%
Q8_0：接近无损，文件大 100%
Q3_K_M：极小空间，质量明显下降
Q2_K：紧急情况才用

90% 场景用 Q4_K_M。

Q35：safetensors 和 gguf 区别？

A：

safetensors：HuggingFace 格式，全精度，体积大，给训练用
gguf：llama.cpp 格式，量化后小，给推理用

普通人下 gguf 就够——除非你要微调。

Q36：模型要 root / sudo 才能装吗？

A：不要。

Ollama：用户目录下的 ~/.ollama/models
LM Studio：用户目录下
HuggingFace 模型：~/.cache/huggingface

完全不需要管理员权限。

Q37：模型卡上"context length 128K"是什么意思？

A：模型一次最多能"看到"128K 个 token 的文字（约 10 万字中文）。 实际能用多少取决于你的内存——KV Cache 会随上下文长度线性增长。

Q38：怎么让模型记住"我之前说过的话"？

A：4 个层次：

同一对话内：自动记住（限制是上下文长度）
跨对话记忆：用 Cherry Studio / Open WebUI 的"Memory"功能
结构化记忆：用知识库存"个人资料卡"
完全个性化：微调模型（高级玩法）

Q39：模型怎么从英文优先变中文优先？

A：3 个办法：

选中文优秀的模型（Qwen / DeepSeek / GLM / Yi）
system prompt 强制：

你是一个中文 AI 助手。请始终用简体中文回答，除非我明确要求其他语言。

Modelfile 定义（Ollama）：

FROM qwen3:8b
SYSTEM """你只用简体中文回答。"""

Q40：如何评估一个新模型好不好？

A：3 步：

看权威评测：Open LLM Leaderboard、Chinese LLM Leaderboard
跑你"自己的题"：准备 5–10 道你工作中真实场景的题
盲测对比：同样的提示词在新模型 vs 旧模型上各测 5 次

不要只看官方宣传的"超越 GPT-4"——榜单都是优化过的。

C.5 使用类（10 问）

Q41：本地 AI 第一次回答慢，之后快，正常吗？

A：正常。

第一次：模型从硬盘加载到内存（5–30 秒）
之后：常驻内存，立即响应

设置 OLLAMA_KEEP_ALIVE=24h 让模型 24 小时不卸载。

Q42：温度（temperature）参数怎么调？

A：

0.0：确定性最高，每次答案一样（适合代码、翻译、提取）
0.3–0.5：略有变化（适合公文、报告）
0.7：默认值（日常对话）
0.9–1.2：发散（适合创意写作、头脑风暴）
> 1.5：太疯，常常胡说

Q43：top_p / top_k 是什么？

A：控制模型从多少个候选词中选下一个词。

top_k=40：从前 40 个候选词中选
top_p=0.9：累计概率到 90% 的候选词中选

普通用户不用调——默认就好。

Q44：上下文超长时，模型只记得开头还是结尾？

A：典型情况：

模型记得开头和结尾，忘记中间（"中间消失"现象）
100K 上下文实际有效的可能只有 40K

对策：

重要信息放开头或结尾
重要内容用 markdown 标题强调
用知识库（RAG）替代"全部塞进上下文"

Q45：怎么让 AI 输出 JSON？

A：3 个层次：

Prompt 强制：

只返回 JSON，不要任何解释。格式：{"key": "value"}

JSON Mode：Ollama / LM Studio 都支持，开启后强制 JSON 输出
Schema 约束：Outlines / Guidance 库，按 JSON Schema 强制结构

Q46：怎么让 AI 简短回答？

A：

请直接给答案，1 句话以内。不要解释、不要前言、不要"我建议"。

或在 Modelfile 里设：

PARAMETER num_predict 50

最多输出 50 token。

Q47：模型胡说我怎么办？

A：详见第 15.4 节。简版 4 招：

挂 RAG（让它基于真实资料）
system prompt 强制"不知道就说不知道"
降温度
换更大模型

Q48：本地 AI 能联网吗？

A：默认不能。但可以：

Cherry Studio + 联网搜索 MCP：手动调用搜索工具
AnythingLLM + Web Browse 工具：内置浏览
自己写 Agent：用 SearXNG / Brave Search API + Ollama

Q49：本地 AI 能训练 / 微调吗？

A：能。

小规模微调：用 LLaMA-Factory / unsloth，单卡 24GB 能微调 7B 模型
LoRA / QLoRA：低秩适配，几小时跑完
完整训练：需要多卡，对个人困难

普通人用不上微调——好的提示词 + 知识库已经能解决 90% 问题。

Q50：能让本地 AI"个性化"吗？

A：3 层办法：

System Prompt：每次对话都加上"你的设定"
知识库：把你的喜好 / 资料存进去
微调：用你的写作样本训练专属模型

最简单是第 1 + 2。

C.6 安全类（5 问）

Q51：本地 AI 真的不联网吗？

A：模型本身不联网。但要注意：

工具更新会联网（关掉自动更新可以阻止）
有些 UI 默认开启"使用统计上报"——设置里关掉
浏览器插件可能联网——单独检查

验证方法：用 Little Snitch（Mac）/ GlassWire（Win）监控网络。

Q52：模型本身有后门吗？

A：主流模型权重本身没问题。但要小心：

第三方"优化版"（来源不明）
含可执行代码的格式（pickle）→ 用 safetensors / gguf 替代
训练数据里可能植入"触发关键词"（罕见但有学术研究）

对策：只用主流仓库（HuggingFace 官方、Ollama 官方）的模型。

Q53：家庭多人共享 AI，怎么保护隐私？

A：详见第 16.5 节。简版：

每人独立账户（Open WebUI 内置）
知识库分级（私密 / 共享）
重要对话不要在共享账户做

Q54：公司能监控员工用本地 AI 吗？

A：技术上能，但麻烦：

设备所有权属于公司 → 公司有权监控
部署集中式服务（如全公司用一个 Open WebUI）→ 管理员可见
员工自己装的本地 Ollama → 公司不容易监控

实务：明确写在员工手册里，避免事后争议。

Q55：用本地 AI 处理违法内容会被追责吗？

A：会。

"本地"不等于"匿名"——你的 ISP、电力账单、网购记录都能定位你
即使不联网生成的内容，传播了同样违法
不要相信"本地就没人管"——法律不区分本地 / 云端

合规使用是底线。

C.7 商业类（5 问）

Q56：开源模型可以商用吗？

A：看许可证。

Apache 2.0（Qwen 大部分、Mistral 部分、GLM）：完全可商用
MIT（DeepSeek、Phi）：完全可商用
Llama 自定义协议：月活 < 7 亿可商用，超过要单独申请
Gemma 自定义协议：基本可商用，但限制较多

详细见第五章 5.7 节。

Q57：用本地 AI 给客户做项目，知识产权归谁？

A：合同里明确约定。常见做法：

项目交付物的著作权：归客户
你写的提示词 / 工作流：归你（除非合同另有约定）
用的开源模型：归原作者，但允许商用

Q58：能基于本地 AI 做付费产品吗？

A：能。已经有大量先例：

LM Studio 自身免费但有付费企业版
Cherry Studio 免费 + 高级订阅
桌面 App（如 Private LLM）按月订阅
行业 SaaS（如本地 AI 法律助手）

注意许可证 + 数据合规。

Q59：能基于本地 AI 做对外服务吗？

A：能但要合规。

中国：可能需要"生成式人工智能服务备案"
欧盟：需要符合 AI Act
美国：相对宽松

合规最佳实践：先做企业内用，后做对外服务。

Q60：本地 AI 接下来 3 年的商业机会在哪？

A：5 个方向最有潜力：

企业部署服务：帮中小企业搭一套（10000–100000 元/单）
行业垂直应用：法律、医疗、财税等强监管行业
本地 AI 培训：B 端 / C 端教育
专属硬件：家庭 AI 中枢、AI Mini PC
隐私即卖点的 SaaS：替代云端 SaaS 的本地版

C.8 没找到答案？

如果你的问题不在这 60 个里，建议按以下流程：

第十五章常见问题与避坑 → 先翻
GitHub Issues → 搜你用的工具仓库的 Issues
r/LocalLLaMA → 全球最活跃社区
Linux.do / V2EX → 中文社区
官方 Discord → 问开发者

别着急——本地 AI 的问题，99% 都有人遇到过 + 解决过。

返回目录 | 上一篇附录 B | 下一篇附录 D

附录 C 本地 AI 常见问题 FAQ

C.1 决策类（10 问）

Q1：本地 AI 真的有必要吗？我现在用 ChatGPT 不是挺好？

Q2：我电脑配置一般，本地 AI 能跑吗？

Q3：本地 AI 比云端 AI 笨多少？

Q4：买云端订阅 vs 升级硬件跑本地，哪个划算？

Q5：本地 AI 适合什么样的人？

Q6：本地 AI 适合企业吗？

Q7：本地 AI 会让我看起来"古怪"吗？

Q8：现在跟还是再等等？

Q9：买 Mac 还是 PC 玩本地 AI？

Q10：本地 AI 能赚钱吗？

C.2 硬件类（10 问）

Q11：M1 Mac 还能用吗？

Q12：4090 / 5090 vs Mac Studio，哪个跑大模型强？

Q13：32 GB 内存够吗？

Q14：双显卡能加速吗？

Q15：用集成显卡能跑吗？

Q16：手机能跑本地 AI 吗？

Q17：iPad 能跑吗？

Q18：树莓派能跑吗？

Q19：服务器跑本地 AI 推荐什么配置？

Q20：买二手硬件跑本地 AI 划算吗？

C.3 软件类（10 问）

Q21：Ollama 和 LM Studio 选哪个？

Q22：Cherry Studio vs AnythingLLM vs Open WebUI 选哪个？

Q23：Cherry Studio 必须配合 Ollama 吗？

Q24：Mac 上 LM Studio 不显示 GPU 信息

Q25：Open WebUI 怎么装？

Q26：能用云端模型 + 本地模型混合吗？

Q27：Continue 插件可以接哪些本地引擎？

Q28：我能自己写一个本地 AI App 吗？

Q29：本地 AI 能集成到 Excel / Word 吗？

Q30：能用本地 AI 自动回复邮件吗？

C.4 模型类（10 问）

Q31：Qwen 3 vs Llama 4 vs DeepSeek，2026 年怎么选？

Q32：模型有"100B"和"100B-MoE"，区别是什么？

Q33：模型版本号怎么理解？比如 "Qwen3-8B-Instruct-Q4_K_M"

Q34：量化版本怎么选？

Q35：safetensors 和 gguf 区别？

Q36：模型要 root / sudo 才能装吗？

Q37：模型卡上"context length 128K"是什么意思？

Q38：怎么让模型记住"我之前说过的话"？

Q39：模型怎么从英文优先变中文优先？

Q40：如何评估一个新模型好不好？

C.5 使用类（10 问）

Q41：本地 AI 第一次回答慢，之后快，正常吗？

Q42：温度（temperature）参数怎么调？

Q43：top_p / top_k 是什么？

Q44：上下文超长时，模型只记得开头还是结尾？

Q45：怎么让 AI 输出 JSON？

Q46：怎么让 AI 简短回答？

Q47：模型胡说我怎么办？

Q48：本地 AI 能联网吗？

Q49：本地 AI 能训练 / 微调吗？

Q50：能让本地 AI"个性化"吗？

C.6 安全类（5 问）

Q51：本地 AI 真的不联网吗？

Q52：模型本身有后门吗？

Q53：家庭多人共享 AI，怎么保护隐私？

Q54：公司能监控员工用本地 AI 吗？

Q55：用本地 AI 处理违法内容会被追责吗？

C.7 商业类（5 问）

Q56：开源模型可以商用吗？

Q57：用本地 AI 给客户做项目，知识产权归谁？

Q58：能基于本地 AI 做付费产品吗？

Q59：能基于本地 AI 做对外服务吗？

Q60：本地 AI 接下来 3 年的商业机会在哪？

C.8 没找到答案？