ORANGE BOOK · LOCAL AI

附录 C 本地 AI 常见问题 FAQ

C.1 决策类(10 问)

Q1:本地 AI 真的有必要吗?我现在用 ChatGPT 不是挺好?

A:取决于你处理的内容。

  • 如果你只用 AI 翻译公开文章、查百科——云端 AI 完全够
  • 如果你用 AI 处理任何"不希望陌生人看到"的东西(日记、合同、客户资料、医疗信息)——本地 AI 是唯一安全选择

很多人是"两者并用"——本地 + 云端各占一半,按场景切换。

Q2:我电脑配置一般,本地 AI 能跑吗?

A:能。

  • 8 GB 内存:能跑 1B–3B 模型(够日常翻译、改文字、写日记)
  • 16 GB:能跑 7B–8B 模型(够大多数场景)
  • 32 GB:能跑 14B 模型,体验明显跃迁
  • 64 GB+:能跑 32B–70B,已接近 GPT-4o 级别

先把本地 AI 跑起来,再决定要不要升级

Q3:本地 AI 比云端 AI 笨多少?

A:比 2024 年差距大,但 2026 年差距小很多。

  • 简单任务(翻译、总结、改写):本地 8B 已 90% 够用
  • 中等任务(写文章、做规划):本地 14B 接近云端
  • 复杂任务(多步推理、长文档):本地仍弱于 GPT-5 / Claude

很多任务不需要"最强"——够用就好

Q4:买云端订阅 vs 升级硬件跑本地,哪个划算?

A:算数:

  • ChatGPT Plus:约 150 元/月 = 1800 元/年 = 5 年 9000 元
  • Mac mini M4 32 GB:约 12000 元,跑 5 年成本 2400 元/年(折旧)
  • 升级电脑还能换电脑用——AI 只是"附带功能"

长期看本地更便宜,且数据完全自己掌控

Q5:本地 AI 适合什么样的人?

A

  • 数据隐私敏感:律师、医生、记者、心理咨询师、企业高管
  • 重度使用者:每天 ChatGPT 用 3 小时以上的人
  • 离线场景多:经常出差 / 飞机 / 偏远地区
  • 技术好奇心:喜欢折腾 + 学新东西
  • 教育人群:老师 / 家长想给孩子用又怕隐私问题
  • 偶尔用一下:建议用云端免费版

Q6:本地 AI 适合企业吗?

A:极适合。

  • 数据合规(特别是医疗、金融、政务、法律)
  • 长期成本远低于按 API 调用付费
  • 可以做行业微调,比通用云端更精准
  • 不依赖外网,断网也工作

中大型企业建议混合:通用任务走云端,敏感任务走本地。

Q7:本地 AI 会让我看起来"古怪"吗?

A:2024 年算古怪。2026 年是"懂行"。 就像 2010 年用智能手机,2015 年所有人都用——领先 1–2 年的认知,是最好的红利窗口。

Q8:现在跟还是再等等?

A:现在跟。理由:

  • 工具已经成熟(Ollama + Cherry Studio 上手 5 分钟)
  • 模型已经够用(Qwen 3 8B 接近 GPT-3.5+)
  • 学习成本最低就是现在(生态稳定但还不卷)
  • 等 2 年硬件便宜,但你已落后 2 年

Q9:买 Mac 还是 PC 玩本地 AI?

A

  • 完全新手 / 只跑本地 AI:Mac mini M4 24/32 GB 性价比最高
  • 打游戏 + 跑 AI:PC + RTX 4070 Ti Super 16G 或 RTX 5070 Ti
  • 极致性能 + 不在乎钱:Mac Studio M4 Ultra 或 PC + RTX 5090
  • 公司部署:服务器 + 多张 RTX A6000 或 H100

Q10:本地 AI 能赚钱吗?

A:能。常见路径:

  • 企业部署服务:帮中小企业搭本地 AI 系统(10000–50000 元/单)
  • 教育培训:开"本地 AI 教程"课
  • 垂直应用:基于开源模型做行业小工具
  • 内容创作:写本地 AI 教程、做视频、写公众号

C.2 硬件类(10 问)

Q11:M1 Mac 还能用吗?

A:能。M1 8 GB 跑 3B 模型流畅,跑 7B Q4 慢但可用。 M1 16 GB 是甜蜜点——跑 7B–8B 完全够日常。 M1 Pro/Max 32 GB 跑 14B 流畅。

M1 还能用 3 年没问题

Q12:4090 / 5090 vs Mac Studio,哪个跑大模型强?

A

  • 4090 24GB:跑 14B 模型最快(带宽 1008 GB/s)
  • 5090 32GB:能跑 32B 模型,速度第一
  • Mac Studio M4 Max 64GB:能跑 70B 模型(带宽 546 GB/s)
  • Mac Studio M4 Ultra 192GB:能跑 405B(带宽 819 GB/s)

总结

  • 想跑超大模型 → Mac Studio Ultra
  • 想跑 13B–32B 最快 → RTX 5090
  • 性价比 → Mac mini M4 24/32 GB

Q13:32 GB 内存够吗?

A

  • Mac 32 GB:跑 14B 流畅,跑 32B 紧张可用
  • Win/Linux 32 GB(DDR5 + 12 GB 显存):跑 7B 流畅,14B 慢

对 80% 普通人,32 GB 是甜蜜点

Q14:双显卡能加速吗?

A

  • 同卡型双显卡:Ollama / vLLM 支持,把模型分到两张卡上
  • 不同卡型:常常出问题
  • 不如单张大显存:双 RTX 4080 16GB 不如单张 RTX 4090 24GB 灵活

Q15:用集成显卡能跑吗?

A

  • Intel HD / AMD Radeon 集显:基本不能(速度太慢)
  • Apple Silicon 集成 GPU:能!Apple 的统一内存架构非常适合
  • AMD Ryzen AI Max+ 395:能!128 GB 统一内存,未来很猛
  • Intel Core Ultra:可以但慢

Q16:手机能跑本地 AI 吗?

A:能跑小模型。

  • iPhone 15 Pro+:跑 3B 模型流畅(用 PocketPal AI / LLM Farm)
  • Android 旗舰(骁龙 8 Gen 3+):跑 3B 模型
  • 2027 年起:7B 模型在手机上常态化

Q17:iPad 能跑吗?

A:iPad Pro M2 / M4 能跑 7B 模型。 推荐 App:LLMFarm(开源)、Private LLM(付费但易用)。

Q18:树莓派能跑吗?

A:能跑超小模型(< 1B)。 用 Pi 5 + 16 GB RAM 跑 3B 模型勉强能用。 适合做"家庭 AI 玩具"+ 学习项目。

Q19:服务器跑本地 AI 推荐什么配置?

A

  • 入门:1 台 PC + RTX 4070 Ti Super 16GB(10000 元)
  • 中型:1 台服务器 + 2 张 RTX 4090 24GB(30000 元)
  • 大型:服务器 + RTX A6000 / RTX PRO(100000+ 元)
  • 企业级:H100 / B200 集群(百万级)

Q20:买二手硬件跑本地 AI 划算吗?

A:极划算。

  • 二手 Mac Studio M1 Ultra 64GB:约 1.5 万元(新机原 4 万元)
  • 二手 RTX 3090 24GB:约 5000 元(新机原 1.2 万元)
  • 二手 Mac mini M2 Pro 32GB:约 6000 元
  • 注意:买正规渠道、看通电时长。

C.3 软件类(10 问)

Q21:Ollama 和 LM Studio 选哪个?

A

  • Ollama:命令行 + REST API,灵活、生态大、二次开发友好
  • LM Studio:全 GUI,零命令行,新手友好

结论

  • 想"装上就能用":LM Studio
  • 想"接到其他工具 / 写脚本":Ollama
  • 两者都装也没问题——它们不冲突,模型可以共用

Q22:Cherry Studio vs AnythingLLM vs Open WebUI 选哪个?

A

  • Cherry Studio:日常对话 + 知识库 + MCP 全能,国人首选
  • AnythingLLM:知识库 / 工作区强,团队首选
  • Open WebUI:Web 端 + 多用户管理,部署到家庭服务器首选

结论:单人用 Cherry Studio,团队用 AnythingLLM,家庭服务器用 Open WebUI。

Q23:Cherry Studio 必须配合 Ollama 吗?

A:不必。Cherry Studio 支持:

  • 任何 OpenAI 兼容 API(Ollama / LM Studio / vLLM / 云端)
  • 内置嵌入服务
  • 直接调用 Hugging Face 模型

最常见组合:Cherry Studio + Ollama。

Q24:Mac 上 LM Studio 不显示 GPU 信息

A:LM Studio 0.3+ 自动检测 Apple Silicon。 如果没显示,重装最新版即可。

Q25:Open WebUI 怎么装?

A:最简方式(Docker):

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

打开 http://localhost:3000,设置里连 Ollama。

Q26:能用云端模型 + 本地模型混合吗?

A:能。Cherry Studio / AnythingLLM 都支持"对话中切换模型"。 典型混合策略

  • 翻译公开文档 → 用 GPT-4o(云端,更精准)
  • 翻译合同 → 用 Qwen 3 14B(本地,安全)
  • 编程 → 用本地 Qwen Coder(隐私)
  • 复杂推理 → 偶尔用 Claude(最强)

Q27:Continue 插件可以接哪些本地引擎?

A:Ollama、LM Studio、llama.cpp、vLLM、TensorRT-LLM、TGI——基本所有主流引擎都支持。 配置在 ~/.continue/config.json

Q28:我能自己写一个本地 AI App 吗?

A:能。最简框架:

  • 后端:调用 Ollama API(HTTP POST 到 11434)
  • 前端:HTML + JavaScript 或任意 Web 框架
  • 部署:本地跑就行

50 行代码可以做一个最简 ChatGPT 替代品。

Q29:本地 AI 能集成到 Excel / Word 吗?

A:能。

  • Excel:装 LocalAI for Excel 插件 / 写 VBA 调 Ollama
  • Word:装 LibreOffice + LocalAI 插件
  • Google Sheets:用 Apps Script 调 Ollama(需公网映射)

Q30:能用本地 AI 自动回复邮件吗?

A:能但要小心。

  • 用 IMAP/SMTP 库(如 Python 的 imaplib)拉邮件
  • 让 Ollama 起草回复
  • 绝对不要让 AI 自动发——必须人工确认

C.4 模型类(10 问)

Q31:Qwen 3 vs Llama 4 vs DeepSeek,2026 年怎么选?

A

  • 中文场景:Qwen 3 系列(无悬念)
  • 英文场景:Llama 4 Scout / Mistral Small 3
  • 复杂推理 / 数学 / 编程:DeepSeek R1 / Qwen 2.5 Coder
  • 多语言:Gemma 3 / Mistral

新人就选 Qwen 3——错不了。

Q32:模型有"100B"和"100B-MoE",区别是什么?

A

  • 100B 稠密:每次都用全部 100B 参数,慢但稳
  • 100B MoE:每次只用其中一部分(如激活 10B),快但不稳

对个人:MoE 模型 → 显存够用前提下速度更快。 :Llama 4 Scout 17Bx16 = 总参 109B,激活 17B,跑起来像 17B 速度,质量像 60B。

Q33:模型版本号怎么理解?比如 "Qwen3-8B-Instruct-Q4_K_M"

A

  • Qwen3:模型家族名
  • 8B:80 亿参数
  • Instruct:经过指令微调(适合对话)
  • Q4_K_M:4 bit 量化,K 是优化算法,M 是中等版本

记法

  • 没 Instruct 后缀的是"基础模型",不适合对话
  • Base / Pretrain 也是基础模型

Q34:量化版本怎么选?

A

  • Q4_K_M:默认推荐,质量损失小,文件小
  • Q5_K_M:质量稍好,文件大 25%
  • Q8_0:接近无损,文件大 100%
  • Q3_K_M:极小空间,质量明显下降
  • Q2_K:紧急情况才用

90% 场景用 Q4_K_M

Q35:safetensors 和 gguf 区别?

A

  • safetensors:HuggingFace 格式,全精度,体积大,给训练用
  • gguf:llama.cpp 格式,量化后小,给推理用

普通人下 gguf 就够——除非你要微调。

Q36:模型要 root / sudo 才能装吗?

A:不要。

  • Ollama:用户目录下的 ~/.ollama/models
  • LM Studio:用户目录下
  • HuggingFace 模型:~/.cache/huggingface

完全不需要管理员权限。

Q37:模型卡上"context length 128K"是什么意思?

A:模型一次最多能"看到"128K 个 token 的文字(约 10 万字中文)。 实际能用多少取决于你的内存——KV Cache 会随上下文长度线性增长。

Q38:怎么让模型记住"我之前说过的话"?

A:4 个层次:

  1. 同一对话内:自动记住(限制是上下文长度)
  2. 跨对话记忆:用 Cherry Studio / Open WebUI 的"Memory"功能
  3. 结构化记忆:用知识库存"个人资料卡"
  4. 完全个性化:微调模型(高级玩法)

Q39:模型怎么从英文优先变中文优先?

A:3 个办法:

  1. 选中文优秀的模型(Qwen / DeepSeek / GLM / Yi)
  2. system prompt 强制
你是一个中文 AI 助手。请始终用简体中文回答,除非我明确要求其他语言。
  1. Modelfile 定义(Ollama):
FROM qwen3:8b
SYSTEM """你只用简体中文回答。"""

Q40:如何评估一个新模型好不好?

A:3 步:

  1. 看权威评测:Open LLM Leaderboard、Chinese LLM Leaderboard
  2. 跑你"自己的题":准备 5–10 道你工作中真实场景的题
  3. 盲测对比:同样的提示词在新模型 vs 旧模型上各测 5 次

不要只看官方宣传的"超越 GPT-4"——榜单都是优化过的。

C.5 使用类(10 问)

Q41:本地 AI 第一次回答慢,之后快,正常吗?

A:正常。

  • 第一次:模型从硬盘加载到内存(5–30 秒)
  • 之后:常驻内存,立即响应

设置 OLLAMA_KEEP_ALIVE=24h 让模型 24 小时不卸载。

Q42:温度(temperature)参数怎么调?

A

  • 0.0:确定性最高,每次答案一样(适合代码、翻译、提取)
  • 0.3–0.5:略有变化(适合公文、报告)
  • 0.7:默认值(日常对话)
  • 0.9–1.2:发散(适合创意写作、头脑风暴)
  • > 1.5:太疯,常常胡说

Q43:top_p / top_k 是什么?

A:控制模型从多少个候选词中选下一个词。

  • top_k=40:从前 40 个候选词中选
  • top_p=0.9:累计概率到 90% 的候选词中选

普通用户不用调——默认就好。

Q44:上下文超长时,模型只记得开头还是结尾?

A:典型情况:

  • 模型记得开头和结尾,忘记中间("中间消失"现象)
  • 100K 上下文实际有效的可能只有 40K

对策

  • 重要信息放开头或结尾
  • 重要内容用 markdown 标题强调
  • 用知识库(RAG)替代"全部塞进上下文"

Q45:怎么让 AI 输出 JSON?

A:3 个层次:

  1. Prompt 强制
只返回 JSON,不要任何解释。格式:{"key": "value"}
  1. JSON Mode:Ollama / LM Studio 都支持,开启后强制 JSON 输出
  2. Schema 约束:Outlines / Guidance 库,按 JSON Schema 强制结构

Q46:怎么让 AI 简短回答?

A

请直接给答案,1 句话以内。不要解释、不要前言、不要"我建议"。

或在 Modelfile 里设:

PARAMETER num_predict 50

最多输出 50 token。

Q47:模型胡说我怎么办?

A:详见第 15.4 节。简版 4 招:

  1. 挂 RAG(让它基于真实资料)
  2. system prompt 强制"不知道就说不知道"
  3. 降温度
  4. 换更大模型

Q48:本地 AI 能联网吗?

A:默认不能。但可以:

  • Cherry Studio + 联网搜索 MCP:手动调用搜索工具
  • AnythingLLM + Web Browse 工具:内置浏览
  • 自己写 Agent:用 SearXNG / Brave Search API + Ollama

Q49:本地 AI 能训练 / 微调吗?

A:能。

  • 小规模微调:用 LLaMA-Factory / unsloth,单卡 24GB 能微调 7B 模型
  • LoRA / QLoRA:低秩适配,几小时跑完
  • 完整训练:需要多卡,对个人困难

普通人用不上微调——好的提示词 + 知识库已经能解决 90% 问题。

Q50:能让本地 AI"个性化"吗?

A:3 层办法:

  1. System Prompt:每次对话都加上"你的设定"
  2. 知识库:把你的喜好 / 资料存进去
  3. 微调:用你的写作样本训练专属模型

最简单是第 1 + 2。

C.6 安全类(5 问)

Q51:本地 AI 真的不联网吗?

A:模型本身不联网。但要注意:

  • 工具更新会联网(关掉自动更新可以阻止)
  • 有些 UI 默认开启"使用统计上报"——设置里关掉
  • 浏览器插件可能联网——单独检查

验证方法:用 Little Snitch(Mac)/ GlassWire(Win)监控网络。

Q52:模型本身有后门吗?

A:主流模型权重本身没问题。但要小心:

  • 第三方"优化版"(来源不明)
  • 含可执行代码的格式(pickle)→ 用 safetensors / gguf 替代
  • 训练数据里可能植入"触发关键词"(罕见但有学术研究)

对策:只用主流仓库(HuggingFace 官方、Ollama 官方)的模型。

Q53:家庭多人共享 AI,怎么保护隐私?

A:详见第 16.5 节。简版:

  • 每人独立账户(Open WebUI 内置)
  • 知识库分级(私密 / 共享)
  • 重要对话不要在共享账户做

Q54:公司能监控员工用本地 AI 吗?

A:技术上能,但麻烦:

  • 设备所有权属于公司 → 公司有权监控
  • 部署集中式服务(如全公司用一个 Open WebUI)→ 管理员可见
  • 员工自己装的本地 Ollama → 公司不容易监控

实务:明确写在员工手册里,避免事后争议。

Q55:用本地 AI 处理违法内容会被追责吗?

A:会。

  • "本地"不等于"匿名"——你的 ISP、电力账单、网购记录都能定位你
  • 即使不联网生成的内容,传播了同样违法
  • 不要相信"本地就没人管"——法律不区分本地 / 云端

合规使用是底线。

C.7 商业类(5 问)

Q56:开源模型可以商用吗?

A:看许可证。

  • Apache 2.0(Qwen 大部分、Mistral 部分、GLM):完全可商用
  • MIT(DeepSeek、Phi):完全可商用
  • Llama 自定义协议:月活 < 7 亿可商用,超过要单独申请
  • Gemma 自定义协议:基本可商用,但限制较多

详细见第五章 5.7 节

Q57:用本地 AI 给客户做项目,知识产权归谁?

A:合同里明确约定。常见做法:

  • 项目交付物的著作权:归客户
  • 你写的提示词 / 工作流:归你(除非合同另有约定)
  • 用的开源模型:归原作者,但允许商用

Q58:能基于本地 AI 做付费产品吗?

A:能。已经有大量先例:

  • LM Studio 自身免费但有付费企业版
  • Cherry Studio 免费 + 高级订阅
  • 桌面 App(如 Private LLM)按月订阅
  • 行业 SaaS(如本地 AI 法律助手)

注意许可证 + 数据合规。

Q59:能基于本地 AI 做对外服务吗?

A:能但要合规。

  • 中国:可能需要"生成式人工智能服务备案"
  • 欧盟:需要符合 AI Act
  • 美国:相对宽松

合规最佳实践:先做企业内用,后做对外服务。

Q60:本地 AI 接下来 3 年的商业机会在哪?

A:5 个方向最有潜力:

  1. 企业部署服务:帮中小企业搭一套(10000–100000 元/单)
  2. 行业垂直应用:法律、医疗、财税等强监管行业
  3. 本地 AI 培训:B 端 / C 端教育
  4. 专属硬件:家庭 AI 中枢、AI Mini PC
  5. 隐私即卖点的 SaaS:替代云端 SaaS 的本地版

C.8 没找到答案?

如果你的问题不在这 60 个里,建议按以下流程:

  1. 第十五章常见问题与避坑 → 先翻
  2. GitHub Issues → 搜你用的工具仓库的 Issues
  3. r/LocalLLaMA → 全球最活跃社区
  4. Linux.do / V2EX → 中文社区
  5. 官方 Discord → 问开发者

别着急——本地 AI 的问题,99% 都有人遇到过 + 解决过


返回目录 | 上一篇 附录 B | 下一篇 附录 D