ORANGE BOOK

第十一章 多模态 AI——看图说话、听声辨意


11.1 什么是"多模态 AI"

单模态 AI:只能处理一种"媒介"。比如早期的 ChatGPT(只能文字)、传统的 OCR(只能识图为字)。

多模态 AI:能处理多种媒介——文字、图、声、视频、可能还有 3D 模型——而且能"打通"它们

打个比方:

  • 单模态:会说话但是个聋哑人 / 能听但说不出来 / 能看但不会读
  • 多模态:眼睛、耳朵、嘴巴、手 都灵——一个完整的人

2026 年,主流 AI 几乎全部是多模态

  • ChatGPT:文字 + 图 + 语音 + 画图
  • Claude 4:文字 + 图(不画图)
  • Gemini 2.5:文字 + 图 + 语音 + 视频 + 画图 + 生成视频
  • 豆包:全模态(文字 + 图 + 语音 + 画图 + 生成视频)
  • Kimi:文字 + 图(不画图)
  • DeepSeek:文字 + 图(多模态较弱)

为什么多模态重要? 因为你的世界是多模态的——你看、你听、你感受、你交流——AI 也要能跟上。


11.2 AI "看图"——视觉理解

11.2.1 怎么让 AI 看图

最简单:

  1. 打开 AI 的对话界面
  2. 点"上传"或"+"按钮(一般是个回形针或相机图标)
  3. 选图片(拍照 / 相册)
  4. 在输入框写"请帮我分析这张图"或更具体的指令
  5. 发送

11.2.2 10 个"AI 看图"实战场景

场景 1:拍照解题

[上传一张数学/物理/化学题的照片]

请你做以下三件事:

1. 先告诉我题目考的是哪个知识点
2. 给我 3 个引导提示,让我自己想答案——不要直接给
3. 我尝试后还是不会的话,再给完整解答 + 同类题

场景 2:拍照识别植物 / 动物 / 物品

[上传一张花/动物/食物/物品的照片]

请帮我识别:

1. 这是什么?(学名 + 俗名)
2. 关键特征(怎么和其他相似品种区分)
3. 一些有趣的事实
4. 如果是植物:怎么养?花期?毒性?
5. 如果是食物:能吃吗?怎么做?
6. 如果是商品:大概在哪买?价格区间?

场景 3:拍照看体检报告 / 化验单

[上传一张体检报告 / 化验单的照片]

我的基本情况:
- 性别 [X],年龄 [X]
- 已知疾病:[X]

请:

1. 把所有"超出正常范围"的指标列出来
2. 用大白话解释每个指标
3. 用三种颜色分类(红 - 立刻就医 / 黄 - 关注 / 绿 - 不严重)
4. 给我一份"3 个月生活改善建议"

注意:仅供参考,不能替代医生。

场景 4:拍照看合同 / 文件 / 说明书

[上传合同 / 说明书 / 文件的照片或扫描]

请:

1. 这份文件是什么?
2. 核心内容总结(一段话)
3. 重要条款(按"必须知道"、"值得注意"两类)
4. 我应该问 / 确认的 5 个问题

场景 5:拍照"找东西"

[上传一张物品的照片,比如一个不知道叫什么的工具、配件、零件]

请帮我:

1. 这是什么?叫什么名字?
2. 是干什么用的?
3. 在哪能买?大概多少钱?
4. 类似的替代品有哪些?

场景 6:截图"翻译外文"

[上传一张外文截图,比如英文菜单、日文说明书、外国 App 界面]

请:

1. 完整翻译(保留原排版)
2. 重点信息标注(比如"过敏注意"、"价格"等)
3. 文化背景注释(如果有特殊含义)

场景 7:截图"识别风景 / 地标"

[上传一张照片,比如旅行风景]

请:

1. 这是哪里?(城市 / 国家 / 具体地点)
2. 有什么背景故事?
3. 如果我想去,怎么去?
4. 周边还有什么值得看?
5. 最佳游览季节 / 时间

场景 8:截图"识别字体 / 设计风格"

[上传一张设计图、Logo、海报]

请:

1. 这用的是什么字体?哪里能下到?
2. 整体设计风格是什么流派?
3. 如果我要做类似的,关键元素是什么?
4. 类似的设计师 / 品牌有哪些?

场景 9:截图"看懂图表"

[上传一张图表 / 数据图]

请:

1. 这张图表反映的是什么数据?
2. 关键趋势 / 异常点
3. 这个数据可能的"业务意义"
4. 如果让我看图说话,我应该重点说什么

场景 10:"找茬"图片对比

[上传两张相似图片]

请帮我找出:

1. 5 个明显的不同
2. 3 个隐蔽的不同
3. 哪张图整体更"好"(设计 / 美感 / 信息量)?为什么

11.2.3 AI 看图的"边界"

  • 小字 / 模糊 → 识别会出错
  • 手写字 → 可能识别错(识别"潦草字"是技术难点)
  • 复杂图表 / 数学公式 → 可能误读
  • 专业领域(医学影像、卫星图) → 给"参考",不能替代专业判断
  • 隐私信息 → 拍体检报告、合同时先涂黑身份证号、电话号码、姓名等敏感信息

11.3 AI "听声"——语音理解

11.3.1 怎么让 AI 听声

主流 AI 现在都支持"语音输入":

  • 打字 vs 语音:右下角有麦克风图标,点一下,对着说话
  • 录音上传:上传 MP3、WAV、M4A 等录音文件
  • 实时语音对话:打开"语音模式",像电话一样和 AI 说话(ChatGPT Voice、豆包语音通话、Gemini Live 等)

11.3.2 10 个"AI 听声"实战场景

场景 11:会议录音转写 + 整理

[上传一段会议录音]

请:

1. 把录音完整转写成文字
2. 标注每个发言者(按 A/B/C 区分,或用名字如果能听出来)
3. 整理成"会议纪要":
   - 核心结论
   - 关键讨论点
   - 行动项(谁做什么 deadline)
   - 待解决问题
4. 我个人的 to-do(如果适用)

场景 12:实时语音对话练英语

[切换到"语音模式"或拨通"AI 语音通话"]

"你好,我们用全英文聊天。我的水平是 [X],
请你:
1. 用我能听懂的速度说
2. 我说错了,温柔纠正
3. 主题是 [X]
4. 每次说 1-2 句,给我空间回应

现在请你开始第一句。"

场景 13:录音笔记 / 灵感记录

[上传你的"碎碎念录音"——比如散步时录的灵感]

请:

1. 完整转写
2. 提炼出"主题"(你说了什么主要想法)
3. 整理成"结构化笔记"
4. 标注"值得展开的灵感"
5. 给我 3 个"下一步行动建议"

场景 14:直播 / 课程录音整理

[上传一段课程 / 讲座录音]

请:

1. 转写成文字
2. 按"主题"分段
3. 提炼"5 个核心观点"
4. 提炼"我应该记的 3 个金句"
5. 整理成"课程笔记"格式(可保存)

场景 15:长辈的语音消息整理

[上传爸妈的微信语音消息]

请:

1. 转写成文字(保留口语感)
2. 提炼出"他们想表达的核心"
3. 区分"事实陈述"和"情绪表达"
4. 给我建议"我应该怎么回应"

特别说明:长辈的话经常"说一半",请帮我"补全"言外之意。

场景 16:歌词识别 / 翻译

[上传一段音乐]

请:

1. 这首歌可能是什么歌(艺人 / 歌名)
2. 听写歌词(如果能听清)
3. 如果是外语,翻译
4. 这首歌的背景 / 创作故事

场景 17:宝宝哭声 / 宠物叫声分析

[上传一段录音]

我的情况:
- 这是 [X 月 / X 岁] 的宝宝哭声
- 距离上次喂奶 [X] 小时
- 距离上次大小便 [X] 小时
- 当前环境温度 [X]

请:

1. 可能的原因(按概率排序)
2. 我应该立刻做什么
3. 哪些"哭声特征"提示"必须就医"

场景 18:电话录音"维权 / 售后"

[上传你和商家 / 客服的通话录音]

请:

1. 完整转写
2. 提炼"对方做的承诺"
3. 提炼"对方的推卸 / 模糊回应"
4. 帮我准备"下一步沟通话术"——
   - 怎么"让对方兑现承诺"
   - 怎么"升级投诉"(如果需要)
5. 这段录音作为"证据",建议怎么保存

场景 19:医生说的话"听懂"

[上传你和医生对话的录音]

我的情况:
- 检查了 [X]
- 医生大致说了 [简述]
- 我没听清的地方:[X]

请:

1. 转写
2. "翻译"成大白话——医生说了什么
3. 关键诊断 / 建议(用清晰的语言)
4. 我下次复诊应该问医生哪 5 个问题

场景 20:教练 / 私教的指导整理

[上传你健身 / 学车 / 学琴等的指导录音]

请:

1. 转写
2. 提炼出"今日学习要点"
3. "下次需要重点练习"的内容
4. 给我"一周练习计划"

11.3.3 AI 听声的"边界"

  • 方言 → 大部分 AI 对普通话最准,对粤语、吴语、闽南语、东北话、四川话等方言识别率不一(豆包对中文方言较友好)
  • 多人重叠说话 → 经常错乱
  • 专业术语 → 可能识别错(医学、法律术语)
  • 背景噪音 → 影响准确度

11.4 AI 出图、出视频、出音乐——已经讲过

第十章详细讲了"AI 创作"。这里只补充一些"多模态打通"的玩法。

11.4.1 多模态组合玩法 1:图 → 文 → 图

场景:你看到一张照片,喜欢这个风格,想自己画类似的。

[上传你喜欢的照片]

请:

1. 详细描述这张图:
   - 主体
   - 风格
   - 光线
   - 色彩
   - 氛围
2. 写一个"AI 画图 Prompt",能让我用 Midjourney / 即梦生成"风格类似但内容是 X"的新图
3. 推荐 3 个"风格变体"——同样风格但不同主体

11.4.2 多模态组合玩法 2:声 → 文 → 视频

场景:你录了一段灵感语音,想做成短视频。

第一步:[上传你的语音录音]

请:
1. 转写成文字
2. 提炼出"核心想法"

第二步:基于核心想法,请帮我:
1. 写一条 60 秒短视频脚本
2. 设计 10 个分镜(包含 AI 视频 Prompt)
3. 配音建议
4. 配乐建议

11.4.3 多模态组合玩法 3:图 → 视频 → 音乐 → 完整 MV

场景:你想做一个"完全 AI 生成的 MV"。

项目:3 分钟 AI MV

主题:[X]
风格:[X]
情绪曲线:[X]

请帮我做"完整工作流":

第 1 阶段:写歌
- 给 Suno 用的歌词 + 风格描述

第 2 阶段:分镜
- 把歌词分成 12-15 个画面段落
- 每段:歌词 + 画面描述 + 时长

第 3 阶段:图像生成
- 每个画面的 Midjourney / 即梦 Prompt
- 角色一致性策略

第 4 阶段:视频生成
- 把图变成视频(用可灵 / Sora)的 Prompt
- 每段视频的运镜建议

第 5 阶段:剪辑
- 节奏建议
- 转场建议
- 调色建议

第 6 阶段:发布
- 平台选择
- 标题 / 描述
- 标签

完整流程完成后,我能产出一支 3 分钟的 AI MV。

11.5 一个真实案例:用多模态 AI 做"妈妈的体检报告解读 + 录音陪诊"

这是一个综合用了多模态 AI 的真实场景。

背景

  • 你妈妈 65 岁,每年体检
  • 你妈妈不太懂体检报告
  • 医生说话很快,妈妈听不清
  • 你不在身边

第一步:AI 看体检报告

[拍照上传妈妈的体检报告]

我妈:
- 65 岁
- 已知有:高血压、轻度糖尿病
- 平时吃的药:[X]

请帮我妈:

1. 把所有"超出正常范围"的指标列出
2. 用我妈能听懂的话解释(用大白话,不要术语)
3. 用三种颜色分类(红/黄/绿)
4. 整理成"妈妈版报告":
   - 用大字号
   - 用她能理解的比喻
5. 给"陪诊清单"——
   - 我妈应该问医生的 10 个问题
   - 我妈应该带的资料

第二步:把"妈妈版报告"打印或截图发给妈妈

她可以自己提前看一遍,知道哪些问题需要问。

第三步:陪诊时录音

让妈妈在医生办公室时用手机录音(开免提,方便后续整理)。

第四步:AI 听录音,整理出"医生说的话"

[上传录音]

我妈刚去医院,医生说了一些话她没全听清。

请:

1. 转写
2. 用大白话翻译医生的话——医生说了什么、要求什么
3. 列出"医生开的药"——名字、用法、注意
4. 列出"医生让做的事"——比如"复查"、"换饮食"
5. "妈妈不需要担心的事"——医生说"问题不大"的部分
6. "妈妈需要警惕的事"——出现什么必须立刻就医

第五步:发给妈妈一份"清晰版陪诊纪要"

她有了完整的"医生说的话"——不会因为"现场紧张听不清"而漏掉重要信息。

第六步:日常跟进

  • AI 帮你妈记每天血压、血糖
  • 医生开的药,AI 帮你妈解读"什么时候吃、怎么吃、副作用"
  • 妈妈再有不适,先和 AI 描述症状,看是否需要再就医

整套流程下来,AI 让"远在千里"的你也能"全程陪诊"。


11.6 多模态 AI 的"未来已来"

已经在普通用户身边的多模态 AI

手机相机 + AI

  • iPhone "视觉智能"(按住相机按钮)
  • 安卓"圈选搜索"(圈一下屏幕上的东西问 AI)
  • 豆包 / 通义千问"AI 拍立查"

车载 AI

  • 你说"导航到 XX",车载 AI 听懂、看懂当前路况、规划路线
  • 小鹏、理想、蔚来、比亚迪等都集成了大模型

家用 AI 音箱 / AI 屏幕

  • 小度、小爱、天猫精灵等已升级到大模型版
  • 不再"听不懂复杂指令"

AR 眼镜(2026 年开始普及)

  • Meta Ray-Ban、雷鸟等产品
  • 你看到什么,AI 直接"告诉你"
  • 你说什么,AI "翻译给对面的人"

未来 1-2 年的多模态趋势

  1. 机器人 + AI:扫地机器人、做饭机器人、人形机器人陆续走入家庭
  2. VR 中的 AI 角色:游戏 / 虚拟社交里的"NPC"将真正"懂你"
  3. AI 数字人:你可以用 AI"复制"你自己——做你的"数字分身"

11.7 多模态使用的"避坑指南"

避坑 1:不要把"敏感图片"传给公开 AI

  • 身份证 / 银行卡 / 户口本 → 不要传
  • 体检报告涉及"身份证号、姓名、电话"的部分 → 用马赛克遮挡再传
  • 重要合同 / 财务文件 → 涉及金额、对方公司名等敏感的 → 谨慎

避坑 2:不要"语音对话泄露隐私"

  • 公共场合用 AI 语音对话 → 别人能听到
  • 涉及隐私话题 → 用文字而不是语音

避坑 3:不要相信 AI 的"看图诊断"

  • AI 看影像 → 仅供参考,不能替代医生
  • AI 鉴定古董 → 仅供参考,不能替代专业鉴定
  • AI "面相" / "手相" → 娱乐而已,别当真

避坑 4:注意"侵权风险"

  • 拍别人的照片让 AI 分析 → 注意肖像权
  • 拍别人的画 / 设计让 AI 模仿 → 注意版权
  • 录别人的声音让 AI 处理 → 注意"声音权"(部分国家已有相关立法)

本章小抄

多模态 AI 速查
────────────

【看图】10 个场景
1. 拍照解题  2. 识别植物动物
3. 体检报告  4. 合同/说明书
5. 找东西    6. 翻译外文截图
7. 识别地标  8. 字体/设计
9. 看懂图表  10. 找茬对比

【听声】10 个场景
11. 会议转写  12. 英语口语
13. 灵感整理  14. 课程录音
15. 长辈语音  16. 歌词识别
17. 宝宝哭声  18. 维权录音
19. 听懂医生  20. 教练指导

【组合玩法】3 个
- 图 → 文 → 图(仿风格)
- 声 → 文 → 视频(灵感成片)
- 图 → 视频 → 音乐 → MV(全 AI MV)

边界与避坑:
1. 不传"敏感图片"
2. 不在公共场合"语音泄露隐私"
3. 不"信"AI 的诊断(医学/法律/鉴定)
4. 注意"侵权风险"(肖像/版权/声音权)

5 分钟动手实验

任务:今天用"多模态"AI 解决一件具体的事。

步骤

  1. 挑一件事——可以是:

    • 拍一张照片让 AI 识别(衣服、植物、菜、商品⋯⋯)
    • 录一段语音让 AI 整理(散步时的灵感)
    • 拍一份你看不懂的文件(说明书、合同片段、菜单)
  2. 打开你的 AI(豆包 / ChatGPT / Gemini / Kimi 都支持)

  3. 使用本章对应的提示词模板

  4. 看 AI 给的回答——很可能让你"惊讶"

  5. 如果有用,把这个"用法"加到你的 AI 习惯里


下章预告

下一章 第十二章 AI 智能体,进入更高级的玩法——"AI 智能体(Agent)":

  • 什么是 Agent(对比"对话型 AI")
  • 自定义 GPTs / Coze / 扣子 / 智谱 Agent —— 普通人 5 分钟搭一个
  • AI 自己干活:订机票、订餐、整理邮件
  • 让你的 AI"长出手脚"

学完,你从"AI 用户"升级为"AI 创造者"。