本地多模态看图说话听声辨意 · 本地 AI 橙皮书

12.1 多模态是本地 AI 的"第二次飞跃"

2023 年的本地 AI 只会"读字 + 写字"。 2024 年开始能"看图"。 2025 年能"听声"。 2026 年的本地 AI，已经能在你电脑里同时干这四件事：

看图：传一张照片，告诉你是什么 / 找出关键内容
听声：把录音转成文字（前面第十章讲过）
说话：把文字转成语音（自然到接近真人）
出图：根据描述生成图片（一张张创作）

这一章把这四块串成一条"全感官本地 AI"工作流。

12.2 视觉理解：让本地 AI 看图说话

主流本地视觉模型

模型	大小	中文	特点
Qwen 2.5-VL 7B	~5 GB	极好	中文场景首选
Qwen 2.5-VL 32B	~20 GB	极好	32 GB 内存的旗舰
Qwen 2.5-VL 72B	~40 GB	极好	64 GB+ 旗舰
Llama 3.2-Vision 11B	~7.5 GB	一般	英文场景
Gemma 3-Vision 12B	~8 GB	好	学术分析强
MiniCPM-V 2.6 (8B)	~5 GB	好	国产小钢炮，OCR 精准
InternVL3 8B	~5 GB	极好	上海 AI Lab 出品

5 分钟用上 Qwen 2.5-VL

ollama pull qwen2.5vl:7b
ollama run qwen2.5vl:7b

怎么"传图"给本地 AI

不同 UI 不同方式：

Cherry Studio（最简单）：

对话框右下角点回形针
选图片
直接问

LM Studio：

加载视觉模型
对话框里直接拖图

Ollama 命令行：

ollama run qwen2.5vl:7b
>>> 这张图里有什么? /Users/me/Desktop/photo.jpg

Open WebUI / AnythingLLM：

跟传普通文件一样

视觉模型 6 个高频场景

场景 1：照片描述

请详细描述这张照片：
1. 主体内容是什么
2. 拍摄时间 / 地点 / 场合的猜测
3. 照片传达的情绪
4. 给这张照片起 3 个朋友圈标题

场景 2：截图找东西

这是我电脑桌面截图。请告诉我：
1. 这个软件是什么
2. 红框里这个按钮是干什么的（如果有红框）
3. 我下一步应该点哪里？

场景 3：手写笔记 / 板书 OCR

这是一张课堂板书的照片。请：
1. 把所有文字转录出来（保留原结构）
2. 把化学方程式 / 数学公式用 LaTeX 写出
3. 用一段话总结今天讲的核心概念

Qwen 2.5-VL 在中文手写识别上比 GPT-4V 好——这是国产模型的隐藏强项。

场景 4：图表 / 报表分析

这是一张销售报表的截图。请：
1. 描述这张表展示了什么
2. 提取出关键数字（按月、按地区）
3. 找出 3 个异常值或值得追问的问题
4. 给一段 100 字的高管摘要

场景 5：医学影像（仅供参考！不是诊断）

我手里有一张 [X 光 / CT / 皮肤照片]。请你以专业辅助参考的角度：
1. 描述图像的可见特征
2. 指出可能值得医生注意的地方
3. 强调"这不能替代专业诊断，请就医"

【重要】你不是医生，你不能给诊断。你只描述图像，不下结论。

强调：本地 AI 看医学影像只能作为"提醒你去医院"的辅助。绝不能替代医生。

场景 6：商品 / 物体识别

这张照片里的 [鞋子 / 包 / 植物 / 鸟 / 食物 / 药品] 是什么？
1. 给出品种 / 品牌 / 学名 / 商品名
2. 给出基础信息（如何辨识、注意事项、可能价格）
3. 推荐 2 个相似选项

12.3 语音转文字：听声辨意

第 10.6 节已经详细讲过 whisper.cpp、MLX-Whisper、SenseVoice。这里补充几个多模态联动玩法。

玩法 1：录一段语音 → 直接生成文章

# 第 1 步：转写
mlx_whisper voice_memo.m4a --model mlx-community/whisper-large-v3-mlx
# 输出 voice_memo.txt

# 第 2 步：在 Cherry Studio 里
# 把 voice_memo.txt 内容贴入，加上系统提示词：

我刚才口述了一段思路（可能很乱）。请你：
1. 整理为结构化的文章（800–1500 字）
2. 保留我说话的语气和关键比喻
3. 加上 3 个适合发公众号的小标题

这套工作流可以让你"开车 / 散步 / 跑步"时随手录想法，回家自动变成稿子。

玩法 2：会议同步转写

虽然本地"实时"同传暂时不行，但可以做"准实时"：

录音工具：录每 5 分钟分一段
后台脚本：每段录完自动跑 whisper.cpp
实时显示：转写好的文字写到 markdown 文件，你用 Typora / Obsidian 实时看

玩法 3：批量整理旧录音

把你过去几年的播客、采访、课程录音批量处理：

for f in *.mp3; do
  mlx_whisper "$f" --model mlx-community/whisper-large-v3-mlx
done

跑一晚上，第二天早上你有了几十份转写文本——可以入知识库（第十一章）。

12.4 文字转语音：让本地 AI 说话

把文字变成自然的语音，完全本地。

主流本地 TTS 引擎

工具	平台	中文	自然度	备注
Piper	跨平台	一般	好	轻量、秒级生成
OpenVoice	跨平台	好	极好	可克隆音色
Coqui XTTS v2	跨平台	好	极好	多语言、克隆音色
F5-TTS	跨平台	极好	极好	2025 年最新，中文最佳
GPT-SoVITS	跨平台	极好	极好	中文社区最热
Mac 系统 TTS	Mac	好	好	系统自带，命令行直接调

5 分钟跑通 Piper（最简单）

# Mac
brew install piper-tts

# 下载中文模型
curl -L https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx -o huayan.onnx

# 用
echo "你好，我是装在你电脑里的本地 AI。" | piper --model huayan.onnx --output_file hello.wav

# 播放
afplay hello.wav   # Mac 自带

Mac 用户的最简方案：内置 say 命令

say -v Tingting "你好，我是本地 AI。"
say -v Tingting -o hello.aiff "本地 AI 也能说话啊。"

完全免费、零依赖、效果不错（比国内系统自带好多了）。

中文最佳：F5-TTS

pip install f5-tts
f5-tts_infer-cli \
  --gen_text "本地 AI 现在能用任何音色说话了" \
  --ref_audio reference.wav \
  --ref_text "参考音频里说的内容"

亮点：F5-TTS 能用 5–10 秒参考音频克隆任何人的音色——你可以让本地 AI 用你自己的声音说话。

12.5 一个完整的"本地全感官"链路

把视觉 + 转写 + 合成 + 对话串起来，下面是一个真实可跑的"语音助手"链路：

[1] 你说话（麦克风）
        ↓ MLX-Whisper（本地）
[2] 转成文字 → "今天上海天气怎么样"
        ↓ Qwen 3 8B（本地，可挂"联网搜索"工具）
[3] 思考并生成回答
        ↓ Piper / F5-TTS（本地）
[4] 合成语音播放给你
        ↓
全程不联网（除非显式搜天气）

实际工具集合（2026 年）

Open Interpreter + 语音模式：完整链路，开源
Apple 快捷指令 串联：Shortcuts 里调用 say + ollama 输出
Wispr Flow 等离线语音助手：商业产品
DIY：Python 50 行代码自己搭

12.6 本地图片生成：本地版的 Midjourney

让本地 AI 出图，2026 年的主流工具：

Stable Diffusion WebUI（AUTOMATIC1111）

经典老牌：

支持几百个开源模型（SD 1.5、SDXL、Flux 等）
极强的插件生态（ControlNet、LoRA、各种采样器）
缺点：界面老派，需要一定学习

安装（Mac）：

brew install python@3.11
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh

ComfyUI（节点式，更强大）

2025 年起的新主流：

节点式工作流，每一步可视化
性能更好，更灵活
生态最快、最新

安装：

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py

Fooocus（最简单，适合新手）

主打"零配置出大片"：

git clone https://github.com/lllyasviel/Fooocus
cd Fooocus
python launch.py

打开浏览器就能用——输入提示词，点生成，没了。

Draw Things（Mac 一键 App）

App Store 直接下载，完全免费、纯本地。适合 Mac 小白用户上手图片生成。

2026 年值得跑的开源图像模型

模型	大小	风格	备注
Flux.1 Dev	~24 GB	写实 + 艺术	当前最强开源
Flux.1 Schnell	~24 GB	写实	4 步出图，超快
SDXL	~7 GB	通用	老牌，资源丰富
SD 1.5	~4 GB	通用	老牌，社区模型多
Pony Diffusion v6	~7 GB	二次元	二次元最强
HiDream	~24 GB	中文友好	中文场景细节好

出图的硬件要求

8 GB 显存：能跑 SD 1.5
12 GB 显存：能跑 SDXL
24 GB 显存：能跑 Flux.1
Apple Silicon：M1 8 GB 跑 SD 1.5 慢但能跑；M2 Pro 16 GB 跑 SDXL 流畅

12.7 出图提示词技巧

中文 → 英文是个槛

绝大多数本地 SD 模型用英文提示词效果最好。用本地 AI 翻译你的中文描述：

请把下面的中文图片描述翻译成 SD 风格的英文 prompt，要求：
1. 用逗号分隔关键词
2. 加上"high quality, detailed"等品质词
3. 结尾给出 1 个 negative prompt（不要的元素）

中文描述：[贴入]

6 个出图提示词模板

1. 写实头像

portrait of [描述], looking at camera, soft lighting, shallow depth of field, 
shot on Sony A7R IV, 85mm lens, f/1.8, photorealistic, 8k

negative: cartoon, anime, blurry, distorted face

2. 风景大片

landscape photography of [地点描述], golden hour, dramatic clouds, 
vivid colors, ultra wide shot, National Geographic style

negative: people, watermark, low quality

3. 二次元风格

anime style illustration of [人物描述], by Studio Ghibli, soft colors, 
detailed background, beautiful eyes

negative: realistic, 3d, deformed

4. 产品图

product photography of [产品描述], on white background, studio lighting, 
commercial quality, sharp focus, marketing style

negative: hand, person, shadow, complex background

5. 概念草图

concept art of [描述], digital painting, dramatic lighting, by Greg Rutkowski, 
trending on artstation

negative: photo, realistic

6. 海报设计

movie poster of [主题], cinematic composition, bold typography placeholder, 
moody atmosphere, vibrant colors

negative: low quality, jpeg artifacts

12.8 真实场景：4 个本地多模态工作流

工作流 A：私密相册整理

目标：让本地 AI 帮你给 5 年的照片打标签 + 找回忆

链路：

把照片放在本地文件夹
写一个脚本，对每张照片调用 Qwen 2.5-VL 生成描述
把描述存成 .txt
把所有 .txt 入 Cherry Studio 知识库
提问："去年夏天我在哪些餐厅吃过饭？"

整个过程数据不出本机——比 Apple Photos 的"回忆"功能更可控。

工作流 B：本地播客制作

目标：把你写的文章变成播客

链路：

写好文章
用本地 AI 改成"口语化、适合朗读"版本
用 F5-TTS 合成语音（用你自己的音色克隆）
用 Audacity 加片头片尾音乐
上传

全程本地——不用付费的播客 TTS 服务。

工作流 C：本地视频剪辑助理

目标：自动切素材、自动加字幕

链路：

录完视频
用 MLX-Whisper 转写音频 + 时间戳
用本地 AI 找出"金句段"
用 ffmpeg 自动切出这些段落
字幕直接生成 .srt 加到视频上

适合自媒体人——几小时 vlog 能在一晚搞定。

工作流 D：智能相册搜索

目标：让你 5 万张照片可以"语义搜索"

工具：

Immich（开源照片库，类似 Google Photos）
配合本地 CLIP 模型（可用 Qwen 2.5-VL 做嵌入）

效果：

"找我所有的猫的照片"
"找在海边的合影"
"找我穿红色衣服的所有照片"

完全本地——隐私保护级的 Google Photos。

12.9 本章小练习

练习 1：让本地 AI 看一张图

下 Qwen 2.5-VL 7B，传一张你拍的照片，让它描述。 对比 ChatGPT 和它的差异——你会发现差距比你想象的小。

练习 2：克隆你自己的声音

录一段 10 秒你自己的语音，用 F5-TTS 让本地 AI 用你的声音念一篇文章。 如果有娃，给娃录一段"睡前故事"用爸妈声音播放——这是本地多模态最暖的玩法。

练习 3：装 Fooocus 出 5 张图

试着用 5 个不同提示词让本地 SD 出图。 你的第一张本地 AI 出图作品诞生了。

12.10 一句话记住

2026 年的本地 AI 不只会聊天——它能看你的照片、听你的录音、用你的声音说话、给你画画。所有这一切，全在你电脑里完成。

下一章第十三章 · 本地AI智能体与工作流，我们让本地 AI 不再"等你提问"，而是主动替你干活。