多模态AI 看图说话听声辨意 · AI 橙皮书

11.1 什么是"多模态 AI"

单模态 AI：只能处理一种"媒介"。比如早期的 ChatGPT（只能文字）、传统的 OCR（只能识图为字）。

多模态 AI：能处理多种媒介——文字、图、声、视频、可能还有 3D 模型——而且能"打通"它们。

打个比方：

单模态：会说话但是个聋哑人 / 能听但说不出来 / 能看但不会读
多模态：眼睛、耳朵、嘴巴、手都灵——一个完整的人

2026 年，主流 AI 几乎全部是多模态：

ChatGPT：文字 + 图 + 语音 + 画图
Claude 4：文字 + 图（不画图）
Gemini 2.5：文字 + 图 + 语音 + 视频 + 画图 + 生成视频
豆包：全模态（文字 + 图 + 语音 + 画图 + 生成视频）
Kimi：文字 + 图（不画图）
DeepSeek：文字 + 图（多模态较弱）

为什么多模态重要？ 因为你的世界是多模态的——你看、你听、你感受、你交流——AI 也要能跟上。

11.2 AI "看图"——视觉理解

11.2.1 怎么让 AI 看图

最简单：

打开 AI 的对话界面
点"上传"或"+"按钮（一般是个回形针或相机图标）
选图片（拍照 / 相册）
在输入框写"请帮我分析这张图"或更具体的指令
发送

11.2.2 10 个"AI 看图"实战场景

场景 1：拍照解题

[上传一张数学/物理/化学题的照片]

请你做以下三件事：

1. 先告诉我题目考的是哪个知识点
2. 给我 3 个引导提示，让我自己想答案——不要直接给
3. 我尝试后还是不会的话，再给完整解答 + 同类题

场景 2：拍照识别植物 / 动物 / 物品

[上传一张花/动物/食物/物品的照片]

请帮我识别：

1. 这是什么？（学名 + 俗名）
2. 关键特征（怎么和其他相似品种区分）
3. 一些有趣的事实
4. 如果是植物：怎么养？花期？毒性？
5. 如果是食物：能吃吗？怎么做？
6. 如果是商品：大概在哪买？价格区间？

场景 3：拍照看体检报告 / 化验单

[上传一张体检报告 / 化验单的照片]

我的基本情况：
- 性别 [X]，年龄 [X]
- 已知疾病：[X]

请：

1. 把所有"超出正常范围"的指标列出来
2. 用大白话解释每个指标
3. 用三种颜色分类（红 - 立刻就医 / 黄 - 关注 / 绿 - 不严重）
4. 给我一份"3 个月生活改善建议"

注意：仅供参考，不能替代医生。

场景 4：拍照看合同 / 文件 / 说明书

[上传合同 / 说明书 / 文件的照片或扫描]

请：

1. 这份文件是什么？
2. 核心内容总结（一段话）
3. 重要条款（按"必须知道"、"值得注意"两类）
4. 我应该问 / 确认的 5 个问题

场景 5：拍照"找东西"

[上传一张物品的照片，比如一个不知道叫什么的工具、配件、零件]

请帮我：

1. 这是什么？叫什么名字？
2. 是干什么用的？
3. 在哪能买？大概多少钱？
4. 类似的替代品有哪些？

场景 6：截图"翻译外文"

[上传一张外文截图，比如英文菜单、日文说明书、外国 App 界面]

请：

1. 完整翻译（保留原排版）
2. 重点信息标注（比如"过敏注意"、"价格"等）
3. 文化背景注释（如果有特殊含义）

场景 7：截图"识别风景 / 地标"

[上传一张照片，比如旅行风景]

请：

1. 这是哪里？（城市 / 国家 / 具体地点）
2. 有什么背景故事？
3. 如果我想去，怎么去？
4. 周边还有什么值得看？
5. 最佳游览季节 / 时间

场景 8：截图"识别字体 / 设计风格"

[上传一张设计图、Logo、海报]

请：

1. 这用的是什么字体？哪里能下到？
2. 整体设计风格是什么流派？
3. 如果我要做类似的，关键元素是什么？
4. 类似的设计师 / 品牌有哪些？

场景 9：截图"看懂图表"

[上传一张图表 / 数据图]

请：

1. 这张图表反映的是什么数据？
2. 关键趋势 / 异常点
3. 这个数据可能的"业务意义"
4. 如果让我看图说话，我应该重点说什么

场景 10："找茬"图片对比

[上传两张相似图片]

请帮我找出：

1. 5 个明显的不同
2. 3 个隐蔽的不同
3. 哪张图整体更"好"（设计 / 美感 / 信息量）？为什么

11.2.3 AI 看图的"边界"

小字 / 模糊 → 识别会出错
手写字 → 可能识别错（识别"潦草字"是技术难点）
复杂图表 / 数学公式 → 可能误读
专业领域（医学影像、卫星图） → 给"参考"，不能替代专业判断
隐私信息 → 拍体检报告、合同时先涂黑身份证号、电话号码、姓名等敏感信息

11.3 AI "听声"——语音理解

11.3.1 怎么让 AI 听声

主流 AI 现在都支持"语音输入"：

打字 vs 语音：右下角有麦克风图标，点一下，对着说话
录音上传：上传 MP3、WAV、M4A 等录音文件
实时语音对话：打开"语音模式"，像电话一样和 AI 说话（ChatGPT Voice、豆包语音通话、Gemini Live 等）

11.3.2 10 个"AI 听声"实战场景

场景 11：会议录音转写 + 整理

[上传一段会议录音]

请：

1. 把录音完整转写成文字
2. 标注每个发言者（按 A/B/C 区分，或用名字如果能听出来）
3. 整理成"会议纪要"：
   - 核心结论
   - 关键讨论点
   - 行动项（谁做什么 deadline）
   - 待解决问题
4. 我个人的 to-do（如果适用）

场景 12：实时语音对话练英语

[切换到"语音模式"或拨通"AI 语音通话"]

"你好，我们用全英文聊天。我的水平是 [X]，
请你：
1. 用我能听懂的速度说
2. 我说错了，温柔纠正
3. 主题是 [X]
4. 每次说 1-2 句，给我空间回应

现在请你开始第一句。"

场景 13：录音笔记 / 灵感记录

[上传你的"碎碎念录音"——比如散步时录的灵感]

请：

1. 完整转写
2. 提炼出"主题"（你说了什么主要想法）
3. 整理成"结构化笔记"
4. 标注"值得展开的灵感"
5. 给我 3 个"下一步行动建议"

场景 14：直播 / 课程录音整理

[上传一段课程 / 讲座录音]

请：

1. 转写成文字
2. 按"主题"分段
3. 提炼"5 个核心观点"
4. 提炼"我应该记的 3 个金句"
5. 整理成"课程笔记"格式（可保存）

场景 15：长辈的语音消息整理

[上传爸妈的微信语音消息]

请：

1. 转写成文字（保留口语感）
2. 提炼出"他们想表达的核心"
3. 区分"事实陈述"和"情绪表达"
4. 给我建议"我应该怎么回应"

特别说明：长辈的话经常"说一半"，请帮我"补全"言外之意。

场景 16：歌词识别 / 翻译

[上传一段音乐]

请：

1. 这首歌可能是什么歌（艺人 / 歌名）
2. 听写歌词（如果能听清）
3. 如果是外语，翻译
4. 这首歌的背景 / 创作故事

场景 17：宝宝哭声 / 宠物叫声分析

[上传一段录音]

我的情况：
- 这是 [X 月 / X 岁] 的宝宝哭声
- 距离上次喂奶 [X] 小时
- 距离上次大小便 [X] 小时
- 当前环境温度 [X]

请：

1. 可能的原因（按概率排序）
2. 我应该立刻做什么
3. 哪些"哭声特征"提示"必须就医"

场景 18：电话录音"维权 / 售后"

[上传你和商家 / 客服的通话录音]

请：

1. 完整转写
2. 提炼"对方做的承诺"
3. 提炼"对方的推卸 / 模糊回应"
4. 帮我准备"下一步沟通话术"——
   - 怎么"让对方兑现承诺"
   - 怎么"升级投诉"（如果需要）
5. 这段录音作为"证据"，建议怎么保存

场景 19：医生说的话"听懂"

[上传你和医生对话的录音]

我的情况：
- 检查了 [X]
- 医生大致说了 [简述]
- 我没听清的地方：[X]

请：

1. 转写
2. "翻译"成大白话——医生说了什么
3. 关键诊断 / 建议（用清晰的语言）
4. 我下次复诊应该问医生哪 5 个问题

场景 20：教练 / 私教的指导整理

[上传你健身 / 学车 / 学琴等的指导录音]

请：

1. 转写
2. 提炼出"今日学习要点"
3. "下次需要重点练习"的内容
4. 给我"一周练习计划"

11.3.3 AI 听声的"边界"

方言 → 大部分 AI 对普通话最准，对粤语、吴语、闽南语、东北话、四川话等方言识别率不一（豆包对中文方言较友好）
多人重叠说话 → 经常错乱
专业术语 → 可能识别错（医学、法律术语）
背景噪音 → 影响准确度

11.4 AI 出图、出视频、出音乐——已经讲过

第十章详细讲了"AI 创作"。这里只补充一些"多模态打通"的玩法。

11.4.1 多模态组合玩法 1：图 → 文 → 图

场景：你看到一张照片，喜欢这个风格，想自己画类似的。

[上传你喜欢的照片]

请：

1. 详细描述这张图：
   - 主体
   - 风格
   - 光线
   - 色彩
   - 氛围
2. 写一个"AI 画图 Prompt"，能让我用 Midjourney / 即梦生成"风格类似但内容是 X"的新图
3. 推荐 3 个"风格变体"——同样风格但不同主体

11.4.2 多模态组合玩法 2：声 → 文 → 视频

场景：你录了一段灵感语音，想做成短视频。

第一步：[上传你的语音录音]

请：
1. 转写成文字
2. 提炼出"核心想法"

第二步：基于核心想法，请帮我：
1. 写一条 60 秒短视频脚本
2. 设计 10 个分镜（包含 AI 视频 Prompt）
3. 配音建议
4. 配乐建议

11.4.3 多模态组合玩法 3：图 → 视频 → 音乐 → 完整 MV

场景：你想做一个"完全 AI 生成的 MV"。

项目：3 分钟 AI MV

主题：[X]
风格：[X]
情绪曲线：[X]

请帮我做"完整工作流"：

第 1 阶段：写歌
- 给 Suno 用的歌词 + 风格描述

第 2 阶段：分镜
- 把歌词分成 12-15 个画面段落
- 每段：歌词 + 画面描述 + 时长

第 3 阶段：图像生成
- 每个画面的 Midjourney / 即梦 Prompt
- 角色一致性策略

第 4 阶段：视频生成
- 把图变成视频（用可灵 / Sora）的 Prompt
- 每段视频的运镜建议

第 5 阶段：剪辑
- 节奏建议
- 转场建议
- 调色建议

第 6 阶段：发布
- 平台选择
- 标题 / 描述
- 标签

完整流程完成后，我能产出一支 3 分钟的 AI MV。

11.5 一个真实案例：用多模态 AI 做"妈妈的体检报告解读 + 录音陪诊"

这是一个综合用了多模态 AI 的真实场景。

背景

你妈妈 65 岁，每年体检
你妈妈不太懂体检报告
医生说话很快，妈妈听不清
你不在身边

第一步：AI 看体检报告

[拍照上传妈妈的体检报告]

我妈：
- 65 岁
- 已知有：高血压、轻度糖尿病
- 平时吃的药：[X]

请帮我妈：

1. 把所有"超出正常范围"的指标列出
2. 用我妈能听懂的话解释（用大白话，不要术语）
3. 用三种颜色分类（红/黄/绿）
4. 整理成"妈妈版报告"：
   - 用大字号
   - 用她能理解的比喻
5. 给"陪诊清单"——
   - 我妈应该问医生的 10 个问题
   - 我妈应该带的资料

第二步：把"妈妈版报告"打印或截图发给妈妈

她可以自己提前看一遍，知道哪些问题需要问。

第三步：陪诊时录音

让妈妈在医生办公室时用手机录音（开免提，方便后续整理）。

第四步：AI 听录音，整理出"医生说的话"

[上传录音]

我妈刚去医院，医生说了一些话她没全听清。

请：

1. 转写
2. 用大白话翻译医生的话——医生说了什么、要求什么
3. 列出"医生开的药"——名字、用法、注意
4. 列出"医生让做的事"——比如"复查"、"换饮食"
5. "妈妈不需要担心的事"——医生说"问题不大"的部分
6. "妈妈需要警惕的事"——出现什么必须立刻就医

第五步：发给妈妈一份"清晰版陪诊纪要"

她有了完整的"医生说的话"——不会因为"现场紧张听不清"而漏掉重要信息。

第六步：日常跟进

AI 帮你妈记每天血压、血糖
医生开的药，AI 帮你妈解读"什么时候吃、怎么吃、副作用"
妈妈再有不适，先和 AI 描述症状，看是否需要再就医

整套流程下来，AI 让"远在千里"的你也能"全程陪诊"。

11.6 多模态 AI 的"未来已来"

已经在普通用户身边的多模态 AI

手机相机 + AI：

iPhone "视觉智能"（按住相机按钮）
安卓"圈选搜索"（圈一下屏幕上的东西问 AI）
豆包 / 通义千问"AI 拍立查"

车载 AI：

你说"导航到 XX"，车载 AI 听懂、看懂当前路况、规划路线
小鹏、理想、蔚来、比亚迪等都集成了大模型

家用 AI 音箱 / AI 屏幕：

小度、小爱、天猫精灵等已升级到大模型版
不再"听不懂复杂指令"

AR 眼镜（2026 年开始普及）：

Meta Ray-Ban、雷鸟等产品
你看到什么，AI 直接"告诉你"
你说什么，AI "翻译给对面的人"

未来 1-2 年的多模态趋势

机器人 + AI：扫地机器人、做饭机器人、人形机器人陆续走入家庭
VR 中的 AI 角色：游戏 / 虚拟社交里的"NPC"将真正"懂你"
AI 数字人：你可以用 AI"复制"你自己——做你的"数字分身"

11.7 多模态使用的"避坑指南"

避坑 1：不要把"敏感图片"传给公开 AI

身份证 / 银行卡 / 户口本 → 不要传
体检报告涉及"身份证号、姓名、电话"的部分 → 用马赛克遮挡再传
重要合同 / 财务文件 → 涉及金额、对方公司名等敏感的 → 谨慎

避坑 2：不要"语音对话泄露隐私"

公共场合用 AI 语音对话 → 别人能听到
涉及隐私话题 → 用文字而不是语音

避坑 3：不要相信 AI 的"看图诊断"

AI 看影像 → 仅供参考，不能替代医生
AI 鉴定古董 → 仅供参考，不能替代专业鉴定
AI "面相" / "手相" → 娱乐而已，别当真

避坑 4：注意"侵权风险"

拍别人的照片让 AI 分析 → 注意肖像权
拍别人的画 / 设计让 AI 模仿 → 注意版权
录别人的声音让 AI 处理 → 注意"声音权"（部分国家已有相关立法）

本章小抄

多模态 AI 速查
────────────

【看图】10 个场景
1. 拍照解题  2. 识别植物动物
3. 体检报告  4. 合同/说明书
5. 找东西    6. 翻译外文截图
7. 识别地标  8. 字体/设计
9. 看懂图表  10. 找茬对比

【听声】10 个场景
11. 会议转写  12. 英语口语
13. 灵感整理  14. 课程录音
15. 长辈语音  16. 歌词识别
17. 宝宝哭声  18. 维权录音
19. 听懂医生  20. 教练指导

【组合玩法】3 个
- 图 → 文 → 图（仿风格）
- 声 → 文 → 视频（灵感成片）
- 图 → 视频 → 音乐 → MV（全 AI MV）

边界与避坑：
1. 不传"敏感图片"
2. 不在公共场合"语音泄露隐私"
3. 不"信"AI 的诊断（医学/法律/鉴定）
4. 注意"侵权风险"（肖像/版权/声音权）

5 分钟动手实验

任务：今天用"多模态"AI 解决一件具体的事。

步骤：

挑一件事——可以是：
- 拍一张照片让 AI 识别（衣服、植物、菜、商品⋯⋯）
- 录一段语音让 AI 整理（散步时的灵感）
- 拍一份你看不懂的文件（说明书、合同片段、菜单）
打开你的 AI（豆包 / ChatGPT / Gemini / Kimi 都支持）
使用本章对应的提示词模板
看 AI 给的回答——很可能让你"惊讶"
如果有用，把这个"用法"加到你的 AI 习惯里

下章预告

下一章第十二章 AI 智能体，进入更高级的玩法——"AI 智能体（Agent）"：

什么是 Agent（对比"对话型 AI"）
自定义 GPTs / Coze / 扣子 / 智谱 Agent —— 普通人 5 分钟搭一个
AI 自己干活：订机票、订餐、整理邮件
让你的 AI"长出手脚"

学完，你从"AI 用户"升级为"AI 创造者"。