12.1 多模态是本地 AI 的"第二次飞跃"
2023 年的本地 AI 只会"读字 + 写字"。 2024 年开始能"看图"。 2025 年能"听声"。 2026 年的本地 AI,已经能在你电脑里同时干这四件事:
- 看图:传一张照片,告诉你是什么 / 找出关键内容
- 听声:把录音转成文字(前面第十章讲过)
- 说话:把文字转成语音(自然到接近真人)
- 出图:根据描述生成图片(一张张创作)
这一章把这四块串成一条"全感官本地 AI"工作流。
12.2 视觉理解:让本地 AI 看图说话
主流本地视觉模型
| 模型 | 大小 | 中文 | 特点 |
|---|---|---|---|
| Qwen 2.5-VL 7B | ~5 GB | 极好 | 中文场景首选 |
| Qwen 2.5-VL 32B | ~20 GB | 极好 | 32 GB 内存的旗舰 |
| Qwen 2.5-VL 72B | ~40 GB | 极好 | 64 GB+ 旗舰 |
| Llama 3.2-Vision 11B | ~7.5 GB | 一般 | 英文场景 |
| Gemma 3-Vision 12B | ~8 GB | 好 | 学术分析强 |
| MiniCPM-V 2.6 (8B) | ~5 GB | 好 | 国产小钢炮,OCR 精准 |
| InternVL3 8B | ~5 GB | 极好 | 上海 AI Lab 出品 |
5 分钟用上 Qwen 2.5-VL
ollama pull qwen2.5vl:7b
ollama run qwen2.5vl:7b
怎么"传图"给本地 AI
不同 UI 不同方式:
Cherry Studio(最简单):
- 对话框右下角点回形针
- 选图片
- 直接问
LM Studio:
- 加载视觉模型
- 对话框里直接拖图
Ollama 命令行:
ollama run qwen2.5vl:7b
>>> 这张图里有什么? /Users/me/Desktop/photo.jpg
Open WebUI / AnythingLLM:
- 跟传普通文件一样
视觉模型 6 个高频场景
场景 1:照片描述
请详细描述这张照片:
1. 主体内容是什么
2. 拍摄时间 / 地点 / 场合的猜测
3. 照片传达的情绪
4. 给这张照片起 3 个朋友圈标题
场景 2:截图找东西
这是我电脑桌面截图。请告诉我:
1. 这个软件是什么
2. 红框里这个按钮是干什么的(如果有红框)
3. 我下一步应该点哪里?
场景 3:手写笔记 / 板书 OCR
这是一张课堂板书的照片。请:
1. 把所有文字转录出来(保留原结构)
2. 把化学方程式 / 数学公式用 LaTeX 写出
3. 用一段话总结今天讲的核心概念
Qwen 2.5-VL 在中文手写识别上比 GPT-4V 好——这是国产模型的隐藏强项。
场景 4:图表 / 报表分析
这是一张销售报表的截图。请:
1. 描述这张表展示了什么
2. 提取出关键数字(按月、按地区)
3. 找出 3 个异常值或值得追问的问题
4. 给一段 100 字的高管摘要
场景 5:医学影像(仅供参考!不是诊断)
我手里有一张 [X 光 / CT / 皮肤照片]。请你以专业辅助参考的角度:
1. 描述图像的可见特征
2. 指出可能值得医生注意的地方
3. 强调"这不能替代专业诊断,请就医"
【重要】你不是医生,你不能给诊断。你只描述图像,不下结论。
强调:本地 AI 看医学影像只能作为"提醒你去医院"的辅助。绝不能替代医生。
场景 6:商品 / 物体识别
这张照片里的 [鞋子 / 包 / 植物 / 鸟 / 食物 / 药品] 是什么?
1. 给出品种 / 品牌 / 学名 / 商品名
2. 给出基础信息(如何辨识、注意事项、可能价格)
3. 推荐 2 个相似选项
12.3 语音转文字:听声辨意
第 10.6 节已经详细讲过 whisper.cpp、MLX-Whisper、SenseVoice。这里补充几个多模态联动玩法。
玩法 1:录一段语音 → 直接生成文章
# 第 1 步:转写
mlx_whisper voice_memo.m4a --model mlx-community/whisper-large-v3-mlx
# 输出 voice_memo.txt
# 第 2 步:在 Cherry Studio 里
# 把 voice_memo.txt 内容贴入,加上系统提示词:
我刚才口述了一段思路(可能很乱)。请你:
1. 整理为结构化的文章(800–1500 字)
2. 保留我说话的语气和关键比喻
3. 加上 3 个适合发公众号的小标题
这套工作流可以让你"开车 / 散步 / 跑步"时随手录想法,回家自动变成稿子。
玩法 2:会议同步转写
虽然本地"实时"同传暂时不行,但可以做"准实时":
- 录音工具:录每 5 分钟分一段
- 后台脚本:每段录完自动跑 whisper.cpp
- 实时显示:转写好的文字写到 markdown 文件,你用 Typora / Obsidian 实时看
玩法 3:批量整理旧录音
把你过去几年的播客、采访、课程录音批量处理:
for f in *.mp3; do
mlx_whisper "$f" --model mlx-community/whisper-large-v3-mlx
done
跑一晚上,第二天早上你有了几十份转写文本——可以入知识库(第十一章)。
12.4 文字转语音:让本地 AI 说话
把文字变成自然的语音,完全本地。
主流本地 TTS 引擎
| 工具 | 平台 | 中文 | 自然度 | 备注 |
|---|---|---|---|---|
| Piper | 跨平台 | 一般 | 好 | 轻量、秒级生成 |
| OpenVoice | 跨平台 | 好 | 极好 | 可克隆音色 |
| Coqui XTTS v2 | 跨平台 | 好 | 极好 | 多语言、克隆音色 |
| F5-TTS | 跨平台 | 极好 | 极好 | 2025 年最新,中文最佳 |
| GPT-SoVITS | 跨平台 | 极好 | 极好 | 中文社区最热 |
| Mac 系统 TTS | Mac | 好 | 好 | 系统自带,命令行直接调 |
5 分钟跑通 Piper(最简单)
# Mac
brew install piper-tts
# 下载中文模型
curl -L https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx -o huayan.onnx
# 用
echo "你好,我是装在你电脑里的本地 AI。" | piper --model huayan.onnx --output_file hello.wav
# 播放
afplay hello.wav # Mac 自带
Mac 用户的最简方案:内置 say 命令
say -v Tingting "你好,我是本地 AI。"
say -v Tingting -o hello.aiff "本地 AI 也能说话啊。"
完全免费、零依赖、效果不错(比国内系统自带好多了)。
中文最佳:F5-TTS
pip install f5-tts
f5-tts_infer-cli \
--gen_text "本地 AI 现在能用任何音色说话了" \
--ref_audio reference.wav \
--ref_text "参考音频里说的内容"
亮点:F5-TTS 能用 5–10 秒参考音频克隆任何人的音色——你可以让本地 AI 用你自己的声音说话。
12.5 一个完整的"本地全感官"链路
把视觉 + 转写 + 合成 + 对话串起来,下面是一个真实可跑的"语音助手"链路:
[1] 你说话(麦克风)
↓ MLX-Whisper(本地)
[2] 转成文字 → "今天上海天气怎么样"
↓ Qwen 3 8B(本地,可挂"联网搜索"工具)
[3] 思考并生成回答
↓ Piper / F5-TTS(本地)
[4] 合成语音播放给你
↓
全程不联网(除非显式搜天气)
实际工具集合(2026 年)
- Open Interpreter + 语音模式:完整链路,开源
- Apple 快捷指令 串联:Shortcuts 里调用 say + ollama 输出
- Wispr Flow 等离线语音助手:商业产品
- DIY:Python 50 行代码自己搭
12.6 本地图片生成:本地版的 Midjourney
让本地 AI 出图,2026 年的主流工具:
Stable Diffusion WebUI(AUTOMATIC1111)
经典老牌:
- 支持几百个开源模型(SD 1.5、SDXL、Flux 等)
- 极强的插件生态(ControlNet、LoRA、各种采样器)
- 缺点:界面老派,需要一定学习
安装(Mac):
brew install python@3.11
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh
ComfyUI(节点式,更强大)
2025 年起的新主流:
- 节点式工作流,每一步可视化
- 性能更好,更灵活
- 生态最快、最新
安装:
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py
Fooocus(最简单,适合新手)
主打"零配置出大片":
git clone https://github.com/lllyasviel/Fooocus
cd Fooocus
python launch.py
打开浏览器就能用——输入提示词,点生成,没了。
Draw Things(Mac 一键 App)
App Store 直接下载,完全免费、纯本地。 适合 Mac 小白用户上手图片生成。
2026 年值得跑的开源图像模型
| 模型 | 大小 | 风格 | 备注 |
|---|---|---|---|
| Flux.1 Dev | ~24 GB | 写实 + 艺术 | 当前最强开源 |
| Flux.1 Schnell | ~24 GB | 写实 | 4 步出图,超快 |
| SDXL | ~7 GB | 通用 | 老牌,资源丰富 |
| SD 1.5 | ~4 GB | 通用 | 老牌,社区模型多 |
| Pony Diffusion v6 | ~7 GB | 二次元 | 二次元最强 |
| HiDream | ~24 GB | 中文友好 | 中文场景细节好 |
出图的硬件要求
- 8 GB 显存:能跑 SD 1.5
- 12 GB 显存:能跑 SDXL
- 24 GB 显存:能跑 Flux.1
- Apple Silicon:M1 8 GB 跑 SD 1.5 慢但能跑;M2 Pro 16 GB 跑 SDXL 流畅
12.7 出图提示词技巧
中文 → 英文是个槛
绝大多数本地 SD 模型用英文提示词效果最好。用本地 AI 翻译你的中文描述:
请把下面的中文图片描述翻译成 SD 风格的英文 prompt,要求:
1. 用逗号分隔关键词
2. 加上"high quality, detailed"等品质词
3. 结尾给出 1 个 negative prompt(不要的元素)
中文描述:[贴入]
6 个出图提示词模板
1. 写实头像
portrait of [描述], looking at camera, soft lighting, shallow depth of field,
shot on Sony A7R IV, 85mm lens, f/1.8, photorealistic, 8k
negative: cartoon, anime, blurry, distorted face
2. 风景大片
landscape photography of [地点描述], golden hour, dramatic clouds,
vivid colors, ultra wide shot, National Geographic style
negative: people, watermark, low quality
3. 二次元风格
anime style illustration of [人物描述], by Studio Ghibli, soft colors,
detailed background, beautiful eyes
negative: realistic, 3d, deformed
4. 产品图
product photography of [产品描述], on white background, studio lighting,
commercial quality, sharp focus, marketing style
negative: hand, person, shadow, complex background
5. 概念草图
concept art of [描述], digital painting, dramatic lighting, by Greg Rutkowski,
trending on artstation
negative: photo, realistic
6. 海报设计
movie poster of [主题], cinematic composition, bold typography placeholder,
moody atmosphere, vibrant colors
negative: low quality, jpeg artifacts
12.8 真实场景:4 个本地多模态工作流
工作流 A:私密相册整理
目标:让本地 AI 帮你给 5 年的照片打标签 + 找回忆
链路:
- 把照片放在本地文件夹
- 写一个脚本,对每张照片调用 Qwen 2.5-VL 生成描述
- 把描述存成 .txt
- 把所有 .txt 入 Cherry Studio 知识库
- 提问:"去年夏天我在哪些餐厅吃过饭?"
整个过程数据不出本机——比 Apple Photos 的"回忆"功能更可控。
工作流 B:本地播客制作
目标:把你写的文章变成播客
链路:
- 写好文章
- 用本地 AI 改成"口语化、适合朗读"版本
- 用 F5-TTS 合成语音(用你自己的音色克隆)
- 用 Audacity 加片头片尾音乐
- 上传
全程本地——不用付费的播客 TTS 服务。
工作流 C:本地视频剪辑助理
目标:自动切素材、自动加字幕
链路:
- 录完视频
- 用 MLX-Whisper 转写音频 + 时间戳
- 用本地 AI 找出"金句段"
- 用 ffmpeg 自动切出这些段落
- 字幕直接生成 .srt 加到视频上
适合自媒体人——几小时 vlog 能在一晚搞定。
工作流 D:智能相册搜索
目标:让你 5 万张照片可以"语义搜索"
工具:
- Immich(开源照片库,类似 Google Photos)
- 配合本地 CLIP 模型(可用 Qwen 2.5-VL 做嵌入)
效果:
- "找我所有的猫的照片"
- "找在海边的合影"
- "找我穿红色衣服的所有照片"
完全本地——隐私保护级的 Google Photos。
12.9 本章小练习
练习 1:让本地 AI 看一张图
下 Qwen 2.5-VL 7B,传一张你拍的照片,让它描述。 对比 ChatGPT 和它的差异——你会发现差距比你想象的小。
练习 2:克隆你自己的声音
录一段 10 秒你自己的语音,用 F5-TTS 让本地 AI 用你的声音念一篇文章。 如果有娃,给娃录一段"睡前故事"用爸妈声音播放——这是本地多模态最暖的玩法。
练习 3:装 Fooocus 出 5 张图
试着用 5 个不同提示词让本地 SD 出图。 你的第一张本地 AI 出图作品诞生了。
12.10 一句话记住
2026 年的本地 AI 不只会聊天——它能看你的照片、听你的录音、用你的声音说话、给你画画。所有这一切,全在你电脑里完成。
下一章 第十三章 · 本地AI智能体与工作流,我们让本地 AI 不再"等你提问",而是主动替你干活。