ORANGE BOOK · LOCAL AI

第十二章 本地多模态——看图说话听声辨意

12.1 多模态是本地 AI 的"第二次飞跃"

2023 年的本地 AI 只会"读字 + 写字"。 2024 年开始能"看图"。 2025 年能"听声"。 2026 年的本地 AI,已经能在你电脑里同时干这四件事

  • 看图:传一张照片,告诉你是什么 / 找出关键内容
  • 听声:把录音转成文字(前面第十章讲过)
  • 说话:把文字转成语音(自然到接近真人)
  • 出图:根据描述生成图片(一张张创作)

这一章把这四块串成一条"全感官本地 AI"工作流。

12.2 视觉理解:让本地 AI 看图说话

主流本地视觉模型

模型 大小 中文 特点
Qwen 2.5-VL 7B ~5 GB 极好 中文场景首选
Qwen 2.5-VL 32B ~20 GB 极好 32 GB 内存的旗舰
Qwen 2.5-VL 72B ~40 GB 极好 64 GB+ 旗舰
Llama 3.2-Vision 11B ~7.5 GB 一般 英文场景
Gemma 3-Vision 12B ~8 GB 学术分析强
MiniCPM-V 2.6 (8B) ~5 GB 国产小钢炮,OCR 精准
InternVL3 8B ~5 GB 极好 上海 AI Lab 出品

5 分钟用上 Qwen 2.5-VL

ollama pull qwen2.5vl:7b
ollama run qwen2.5vl:7b

怎么"传图"给本地 AI

不同 UI 不同方式:

Cherry Studio(最简单)

  • 对话框右下角点回形针
  • 选图片
  • 直接问

LM Studio

  • 加载视觉模型
  • 对话框里直接拖图

Ollama 命令行

ollama run qwen2.5vl:7b
>>> 这张图里有什么? /Users/me/Desktop/photo.jpg

Open WebUI / AnythingLLM

  • 跟传普通文件一样

视觉模型 6 个高频场景

场景 1:照片描述

请详细描述这张照片:
1. 主体内容是什么
2. 拍摄时间 / 地点 / 场合的猜测
3. 照片传达的情绪
4. 给这张照片起 3 个朋友圈标题

场景 2:截图找东西

这是我电脑桌面截图。请告诉我:
1. 这个软件是什么
2. 红框里这个按钮是干什么的(如果有红框)
3. 我下一步应该点哪里?

场景 3:手写笔记 / 板书 OCR

这是一张课堂板书的照片。请:
1. 把所有文字转录出来(保留原结构)
2. 把化学方程式 / 数学公式用 LaTeX 写出
3. 用一段话总结今天讲的核心概念

Qwen 2.5-VL 在中文手写识别上比 GPT-4V 好——这是国产模型的隐藏强项。

场景 4:图表 / 报表分析

这是一张销售报表的截图。请:
1. 描述这张表展示了什么
2. 提取出关键数字(按月、按地区)
3. 找出 3 个异常值或值得追问的问题
4. 给一段 100 字的高管摘要

场景 5:医学影像(仅供参考!不是诊断)

我手里有一张 [X 光 / CT / 皮肤照片]。请你以专业辅助参考的角度:
1. 描述图像的可见特征
2. 指出可能值得医生注意的地方
3. 强调"这不能替代专业诊断,请就医"

【重要】你不是医生,你不能给诊断。你只描述图像,不下结论。

强调:本地 AI 看医学影像只能作为"提醒你去医院"的辅助。绝不能替代医生。

场景 6:商品 / 物体识别

这张照片里的 [鞋子 / 包 / 植物 / 鸟 / 食物 / 药品] 是什么?
1. 给出品种 / 品牌 / 学名 / 商品名
2. 给出基础信息(如何辨识、注意事项、可能价格)
3. 推荐 2 个相似选项

12.3 语音转文字:听声辨意

第 10.6 节已经详细讲过 whisper.cpp、MLX-Whisper、SenseVoice。这里补充几个多模态联动玩法

玩法 1:录一段语音 → 直接生成文章

# 第 1 步:转写
mlx_whisper voice_memo.m4a --model mlx-community/whisper-large-v3-mlx
# 输出 voice_memo.txt

# 第 2 步:在 Cherry Studio 里
# 把 voice_memo.txt 内容贴入,加上系统提示词:
我刚才口述了一段思路(可能很乱)。请你:
1. 整理为结构化的文章(800–1500 字)
2. 保留我说话的语气和关键比喻
3. 加上 3 个适合发公众号的小标题

这套工作流可以让你"开车 / 散步 / 跑步"时随手录想法,回家自动变成稿子

玩法 2:会议同步转写

虽然本地"实时"同传暂时不行,但可以做"准实时":

  • 录音工具:录每 5 分钟分一段
  • 后台脚本:每段录完自动跑 whisper.cpp
  • 实时显示:转写好的文字写到 markdown 文件,你用 Typora / Obsidian 实时看

玩法 3:批量整理旧录音

把你过去几年的播客、采访、课程录音批量处理:

for f in *.mp3; do
  mlx_whisper "$f" --model mlx-community/whisper-large-v3-mlx
done

跑一晚上,第二天早上你有了几十份转写文本——可以入知识库(第十一章)。

12.4 文字转语音:让本地 AI 说话

把文字变成自然的语音,完全本地

主流本地 TTS 引擎

工具 平台 中文 自然度 备注
Piper 跨平台 一般 轻量、秒级生成
OpenVoice 跨平台 极好 可克隆音色
Coqui XTTS v2 跨平台 极好 多语言、克隆音色
F5-TTS 跨平台 极好 极好 2025 年最新中文最佳
GPT-SoVITS 跨平台 极好 极好 中文社区最热
Mac 系统 TTS Mac 系统自带,命令行直接调

5 分钟跑通 Piper(最简单)

# Mac
brew install piper-tts

# 下载中文模型
curl -L https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx -o huayan.onnx

# 用
echo "你好,我是装在你电脑里的本地 AI。" | piper --model huayan.onnx --output_file hello.wav

# 播放
afplay hello.wav   # Mac 自带

Mac 用户的最简方案:内置 say 命令

say -v Tingting "你好,我是本地 AI。"
say -v Tingting -o hello.aiff "本地 AI 也能说话啊。"

完全免费、零依赖、效果不错(比国内系统自带好多了)。

中文最佳:F5-TTS

pip install f5-tts
f5-tts_infer-cli \
  --gen_text "本地 AI 现在能用任何音色说话了" \
  --ref_audio reference.wav \
  --ref_text "参考音频里说的内容"

亮点:F5-TTS 能用 5–10 秒参考音频克隆任何人的音色——你可以让本地 AI 用你自己的声音说话。

12.5 一个完整的"本地全感官"链路

把视觉 + 转写 + 合成 + 对话串起来,下面是一个真实可跑的"语音助手"链路:

[1] 你说话(麦克风)
        ↓ MLX-Whisper(本地)
[2] 转成文字 → "今天上海天气怎么样"
        ↓ Qwen 3 8B(本地,可挂"联网搜索"工具)
[3] 思考并生成回答
        ↓ Piper / F5-TTS(本地)
[4] 合成语音播放给你
        ↓
全程不联网(除非显式搜天气)

实际工具集合(2026 年)

  • Open Interpreter + 语音模式:完整链路,开源
  • Apple 快捷指令 串联:Shortcuts 里调用 say + ollama 输出
  • Wispr Flow 等离线语音助手:商业产品
  • DIY:Python 50 行代码自己搭

12.6 本地图片生成:本地版的 Midjourney

让本地 AI 出图,2026 年的主流工具:

Stable Diffusion WebUI(AUTOMATIC1111)

经典老牌:

  • 支持几百个开源模型(SD 1.5、SDXL、Flux 等)
  • 极强的插件生态(ControlNet、LoRA、各种采样器)
  • 缺点:界面老派,需要一定学习

安装(Mac)

brew install python@3.11
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh

ComfyUI(节点式,更强大)

2025 年起的新主流:

  • 节点式工作流,每一步可视化
  • 性能更好,更灵活
  • 生态最快、最新

安装

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py

Fooocus(最简单,适合新手)

主打"零配置出大片":

git clone https://github.com/lllyasviel/Fooocus
cd Fooocus
python launch.py

打开浏览器就能用——输入提示词,点生成,没了。

Draw Things(Mac 一键 App)

App Store 直接下载,完全免费、纯本地。 适合 Mac 小白用户上手图片生成。

2026 年值得跑的开源图像模型

模型 大小 风格 备注
Flux.1 Dev ~24 GB 写实 + 艺术 当前最强开源
Flux.1 Schnell ~24 GB 写实 4 步出图,超快
SDXL ~7 GB 通用 老牌,资源丰富
SD 1.5 ~4 GB 通用 老牌,社区模型多
Pony Diffusion v6 ~7 GB 二次元 二次元最强
HiDream ~24 GB 中文友好 中文场景细节好

出图的硬件要求

  • 8 GB 显存:能跑 SD 1.5
  • 12 GB 显存:能跑 SDXL
  • 24 GB 显存:能跑 Flux.1
  • Apple Silicon:M1 8 GB 跑 SD 1.5 慢但能跑;M2 Pro 16 GB 跑 SDXL 流畅

12.7 出图提示词技巧

中文 → 英文是个槛

绝大多数本地 SD 模型用英文提示词效果最好。用本地 AI 翻译你的中文描述

请把下面的中文图片描述翻译成 SD 风格的英文 prompt,要求:
1. 用逗号分隔关键词
2. 加上"high quality, detailed"等品质词
3. 结尾给出 1 个 negative prompt(不要的元素)

中文描述:[贴入]

6 个出图提示词模板

1. 写实头像

portrait of [描述], looking at camera, soft lighting, shallow depth of field, 
shot on Sony A7R IV, 85mm lens, f/1.8, photorealistic, 8k

negative: cartoon, anime, blurry, distorted face

2. 风景大片

landscape photography of [地点描述], golden hour, dramatic clouds, 
vivid colors, ultra wide shot, National Geographic style

negative: people, watermark, low quality

3. 二次元风格

anime style illustration of [人物描述], by Studio Ghibli, soft colors, 
detailed background, beautiful eyes

negative: realistic, 3d, deformed

4. 产品图

product photography of [产品描述], on white background, studio lighting, 
commercial quality, sharp focus, marketing style

negative: hand, person, shadow, complex background

5. 概念草图

concept art of [描述], digital painting, dramatic lighting, by Greg Rutkowski, 
trending on artstation

negative: photo, realistic

6. 海报设计

movie poster of [主题], cinematic composition, bold typography placeholder, 
moody atmosphere, vibrant colors

negative: low quality, jpeg artifacts

12.8 真实场景:4 个本地多模态工作流

工作流 A:私密相册整理

目标:让本地 AI 帮你给 5 年的照片打标签 + 找回忆

链路

  1. 把照片放在本地文件夹
  2. 写一个脚本,对每张照片调用 Qwen 2.5-VL 生成描述
  3. 把描述存成 .txt
  4. 把所有 .txt 入 Cherry Studio 知识库
  5. 提问:"去年夏天我在哪些餐厅吃过饭?"

整个过程数据不出本机——比 Apple Photos 的"回忆"功能更可控。

工作流 B:本地播客制作

目标:把你写的文章变成播客

链路

  1. 写好文章
  2. 用本地 AI 改成"口语化、适合朗读"版本
  3. 用 F5-TTS 合成语音(用你自己的音色克隆)
  4. 用 Audacity 加片头片尾音乐
  5. 上传

全程本地——不用付费的播客 TTS 服务。

工作流 C:本地视频剪辑助理

目标:自动切素材、自动加字幕

链路

  1. 录完视频
  2. 用 MLX-Whisper 转写音频 + 时间戳
  3. 用本地 AI 找出"金句段"
  4. 用 ffmpeg 自动切出这些段落
  5. 字幕直接生成 .srt 加到视频上

适合自媒体人——几小时 vlog 能在一晚搞定。

工作流 D:智能相册搜索

目标:让你 5 万张照片可以"语义搜索"

工具:

  • Immich(开源照片库,类似 Google Photos)
  • 配合本地 CLIP 模型(可用 Qwen 2.5-VL 做嵌入)

效果:

  • "找我所有的猫的照片"
  • "找在海边的合影"
  • "找我穿红色衣服的所有照片"

完全本地——隐私保护级的 Google Photos。

12.9 本章小练习

练习 1:让本地 AI 看一张图

下 Qwen 2.5-VL 7B,传一张你拍的照片,让它描述。 对比 ChatGPT 和它的差异——你会发现差距比你想象的小。

练习 2:克隆你自己的声音

录一段 10 秒你自己的语音,用 F5-TTS 让本地 AI 用你的声音念一篇文章。 如果有娃,给娃录一段"睡前故事"用爸妈声音播放——这是本地多模态最暖的玩法。

练习 3:装 Fooocus 出 5 张图

试着用 5 个不同提示词让本地 SD 出图。 你的第一张本地 AI 出图作品诞生了

12.10 一句话记住

2026 年的本地 AI 不只会聊天——它能看你的照片、听你的录音、用你的声音说话、给你画画。所有这一切,全在你电脑里完成。

下一章 第十三章 · 本地AI智能体与工作流,我们让本地 AI 不再"等你提问",而是主动替你干活