11.1 什么是"多模态 AI"
单模态 AI:只能处理一种"媒介"。比如早期的 ChatGPT(只能文字)、传统的 OCR(只能识图为字)。
多模态 AI:能处理多种媒介——文字、图、声、视频、可能还有 3D 模型——而且能"打通"它们。
打个比方:
- 单模态:会说话但是个聋哑人 / 能听但说不出来 / 能看但不会读
- 多模态:眼睛、耳朵、嘴巴、手 都灵——一个完整的人
2026 年,主流 AI 几乎全部是多模态:
- ChatGPT:文字 + 图 + 语音 + 画图
- Claude 4:文字 + 图(不画图)
- Gemini 2.5:文字 + 图 + 语音 + 视频 + 画图 + 生成视频
- 豆包:全模态(文字 + 图 + 语音 + 画图 + 生成视频)
- Kimi:文字 + 图(不画图)
- DeepSeek:文字 + 图(多模态较弱)
为什么多模态重要? 因为你的世界是多模态的——你看、你听、你感受、你交流——AI 也要能跟上。
11.2 AI "看图"——视觉理解
11.2.1 怎么让 AI 看图
最简单:
- 打开 AI 的对话界面
- 点"上传"或"+"按钮(一般是个回形针或相机图标)
- 选图片(拍照 / 相册)
- 在输入框写"请帮我分析这张图"或更具体的指令
- 发送
11.2.2 10 个"AI 看图"实战场景
场景 1:拍照解题
[上传一张数学/物理/化学题的照片]
请你做以下三件事:
1. 先告诉我题目考的是哪个知识点
2. 给我 3 个引导提示,让我自己想答案——不要直接给
3. 我尝试后还是不会的话,再给完整解答 + 同类题
场景 2:拍照识别植物 / 动物 / 物品
[上传一张花/动物/食物/物品的照片]
请帮我识别:
1. 这是什么?(学名 + 俗名)
2. 关键特征(怎么和其他相似品种区分)
3. 一些有趣的事实
4. 如果是植物:怎么养?花期?毒性?
5. 如果是食物:能吃吗?怎么做?
6. 如果是商品:大概在哪买?价格区间?
场景 3:拍照看体检报告 / 化验单
[上传一张体检报告 / 化验单的照片]
我的基本情况:
- 性别 [X],年龄 [X]
- 已知疾病:[X]
请:
1. 把所有"超出正常范围"的指标列出来
2. 用大白话解释每个指标
3. 用三种颜色分类(红 - 立刻就医 / 黄 - 关注 / 绿 - 不严重)
4. 给我一份"3 个月生活改善建议"
注意:仅供参考,不能替代医生。
场景 4:拍照看合同 / 文件 / 说明书
[上传合同 / 说明书 / 文件的照片或扫描]
请:
1. 这份文件是什么?
2. 核心内容总结(一段话)
3. 重要条款(按"必须知道"、"值得注意"两类)
4. 我应该问 / 确认的 5 个问题
场景 5:拍照"找东西"
[上传一张物品的照片,比如一个不知道叫什么的工具、配件、零件]
请帮我:
1. 这是什么?叫什么名字?
2. 是干什么用的?
3. 在哪能买?大概多少钱?
4. 类似的替代品有哪些?
场景 6:截图"翻译外文"
[上传一张外文截图,比如英文菜单、日文说明书、外国 App 界面]
请:
1. 完整翻译(保留原排版)
2. 重点信息标注(比如"过敏注意"、"价格"等)
3. 文化背景注释(如果有特殊含义)
场景 7:截图"识别风景 / 地标"
[上传一张照片,比如旅行风景]
请:
1. 这是哪里?(城市 / 国家 / 具体地点)
2. 有什么背景故事?
3. 如果我想去,怎么去?
4. 周边还有什么值得看?
5. 最佳游览季节 / 时间
场景 8:截图"识别字体 / 设计风格"
[上传一张设计图、Logo、海报]
请:
1. 这用的是什么字体?哪里能下到?
2. 整体设计风格是什么流派?
3. 如果我要做类似的,关键元素是什么?
4. 类似的设计师 / 品牌有哪些?
场景 9:截图"看懂图表"
[上传一张图表 / 数据图]
请:
1. 这张图表反映的是什么数据?
2. 关键趋势 / 异常点
3. 这个数据可能的"业务意义"
4. 如果让我看图说话,我应该重点说什么
场景 10:"找茬"图片对比
[上传两张相似图片]
请帮我找出:
1. 5 个明显的不同
2. 3 个隐蔽的不同
3. 哪张图整体更"好"(设计 / 美感 / 信息量)?为什么
11.2.3 AI 看图的"边界"
- 小字 / 模糊 → 识别会出错
- 手写字 → 可能识别错(识别"潦草字"是技术难点)
- 复杂图表 / 数学公式 → 可能误读
- 专业领域(医学影像、卫星图) → 给"参考",不能替代专业判断
- 隐私信息 → 拍体检报告、合同时先涂黑身份证号、电话号码、姓名等敏感信息
11.3 AI "听声"——语音理解
11.3.1 怎么让 AI 听声
主流 AI 现在都支持"语音输入":
- 打字 vs 语音:右下角有麦克风图标,点一下,对着说话
- 录音上传:上传 MP3、WAV、M4A 等录音文件
- 实时语音对话:打开"语音模式",像电话一样和 AI 说话(ChatGPT Voice、豆包语音通话、Gemini Live 等)
11.3.2 10 个"AI 听声"实战场景
场景 11:会议录音转写 + 整理
[上传一段会议录音]
请:
1. 把录音完整转写成文字
2. 标注每个发言者(按 A/B/C 区分,或用名字如果能听出来)
3. 整理成"会议纪要":
- 核心结论
- 关键讨论点
- 行动项(谁做什么 deadline)
- 待解决问题
4. 我个人的 to-do(如果适用)
场景 12:实时语音对话练英语
[切换到"语音模式"或拨通"AI 语音通话"]
"你好,我们用全英文聊天。我的水平是 [X],
请你:
1. 用我能听懂的速度说
2. 我说错了,温柔纠正
3. 主题是 [X]
4. 每次说 1-2 句,给我空间回应
现在请你开始第一句。"
场景 13:录音笔记 / 灵感记录
[上传你的"碎碎念录音"——比如散步时录的灵感]
请:
1. 完整转写
2. 提炼出"主题"(你说了什么主要想法)
3. 整理成"结构化笔记"
4. 标注"值得展开的灵感"
5. 给我 3 个"下一步行动建议"
场景 14:直播 / 课程录音整理
[上传一段课程 / 讲座录音]
请:
1. 转写成文字
2. 按"主题"分段
3. 提炼"5 个核心观点"
4. 提炼"我应该记的 3 个金句"
5. 整理成"课程笔记"格式(可保存)
场景 15:长辈的语音消息整理
[上传爸妈的微信语音消息]
请:
1. 转写成文字(保留口语感)
2. 提炼出"他们想表达的核心"
3. 区分"事实陈述"和"情绪表达"
4. 给我建议"我应该怎么回应"
特别说明:长辈的话经常"说一半",请帮我"补全"言外之意。
场景 16:歌词识别 / 翻译
[上传一段音乐]
请:
1. 这首歌可能是什么歌(艺人 / 歌名)
2. 听写歌词(如果能听清)
3. 如果是外语,翻译
4. 这首歌的背景 / 创作故事
场景 17:宝宝哭声 / 宠物叫声分析
[上传一段录音]
我的情况:
- 这是 [X 月 / X 岁] 的宝宝哭声
- 距离上次喂奶 [X] 小时
- 距离上次大小便 [X] 小时
- 当前环境温度 [X]
请:
1. 可能的原因(按概率排序)
2. 我应该立刻做什么
3. 哪些"哭声特征"提示"必须就医"
场景 18:电话录音"维权 / 售后"
[上传你和商家 / 客服的通话录音]
请:
1. 完整转写
2. 提炼"对方做的承诺"
3. 提炼"对方的推卸 / 模糊回应"
4. 帮我准备"下一步沟通话术"——
- 怎么"让对方兑现承诺"
- 怎么"升级投诉"(如果需要)
5. 这段录音作为"证据",建议怎么保存
场景 19:医生说的话"听懂"
[上传你和医生对话的录音]
我的情况:
- 检查了 [X]
- 医生大致说了 [简述]
- 我没听清的地方:[X]
请:
1. 转写
2. "翻译"成大白话——医生说了什么
3. 关键诊断 / 建议(用清晰的语言)
4. 我下次复诊应该问医生哪 5 个问题
场景 20:教练 / 私教的指导整理
[上传你健身 / 学车 / 学琴等的指导录音]
请:
1. 转写
2. 提炼出"今日学习要点"
3. "下次需要重点练习"的内容
4. 给我"一周练习计划"
11.3.3 AI 听声的"边界"
- 方言 → 大部分 AI 对普通话最准,对粤语、吴语、闽南语、东北话、四川话等方言识别率不一(豆包对中文方言较友好)
- 多人重叠说话 → 经常错乱
- 专业术语 → 可能识别错(医学、法律术语)
- 背景噪音 → 影响准确度
11.4 AI 出图、出视频、出音乐——已经讲过
第十章详细讲了"AI 创作"。这里只补充一些"多模态打通"的玩法。
11.4.1 多模态组合玩法 1:图 → 文 → 图
场景:你看到一张照片,喜欢这个风格,想自己画类似的。
[上传你喜欢的照片]
请:
1. 详细描述这张图:
- 主体
- 风格
- 光线
- 色彩
- 氛围
2. 写一个"AI 画图 Prompt",能让我用 Midjourney / 即梦生成"风格类似但内容是 X"的新图
3. 推荐 3 个"风格变体"——同样风格但不同主体
11.4.2 多模态组合玩法 2:声 → 文 → 视频
场景:你录了一段灵感语音,想做成短视频。
第一步:[上传你的语音录音]
请:
1. 转写成文字
2. 提炼出"核心想法"
第二步:基于核心想法,请帮我:
1. 写一条 60 秒短视频脚本
2. 设计 10 个分镜(包含 AI 视频 Prompt)
3. 配音建议
4. 配乐建议
11.4.3 多模态组合玩法 3:图 → 视频 → 音乐 → 完整 MV
场景:你想做一个"完全 AI 生成的 MV"。
项目:3 分钟 AI MV
主题:[X]
风格:[X]
情绪曲线:[X]
请帮我做"完整工作流":
第 1 阶段:写歌
- 给 Suno 用的歌词 + 风格描述
第 2 阶段:分镜
- 把歌词分成 12-15 个画面段落
- 每段:歌词 + 画面描述 + 时长
第 3 阶段:图像生成
- 每个画面的 Midjourney / 即梦 Prompt
- 角色一致性策略
第 4 阶段:视频生成
- 把图变成视频(用可灵 / Sora)的 Prompt
- 每段视频的运镜建议
第 5 阶段:剪辑
- 节奏建议
- 转场建议
- 调色建议
第 6 阶段:发布
- 平台选择
- 标题 / 描述
- 标签
完整流程完成后,我能产出一支 3 分钟的 AI MV。
11.5 一个真实案例:用多模态 AI 做"妈妈的体检报告解读 + 录音陪诊"
这是一个综合用了多模态 AI 的真实场景。
背景
- 你妈妈 65 岁,每年体检
- 你妈妈不太懂体检报告
- 医生说话很快,妈妈听不清
- 你不在身边
第一步:AI 看体检报告
[拍照上传妈妈的体检报告]
我妈:
- 65 岁
- 已知有:高血压、轻度糖尿病
- 平时吃的药:[X]
请帮我妈:
1. 把所有"超出正常范围"的指标列出
2. 用我妈能听懂的话解释(用大白话,不要术语)
3. 用三种颜色分类(红/黄/绿)
4. 整理成"妈妈版报告":
- 用大字号
- 用她能理解的比喻
5. 给"陪诊清单"——
- 我妈应该问医生的 10 个问题
- 我妈应该带的资料
第二步:把"妈妈版报告"打印或截图发给妈妈
她可以自己提前看一遍,知道哪些问题需要问。
第三步:陪诊时录音
让妈妈在医生办公室时用手机录音(开免提,方便后续整理)。
第四步:AI 听录音,整理出"医生说的话"
[上传录音]
我妈刚去医院,医生说了一些话她没全听清。
请:
1. 转写
2. 用大白话翻译医生的话——医生说了什么、要求什么
3. 列出"医生开的药"——名字、用法、注意
4. 列出"医生让做的事"——比如"复查"、"换饮食"
5. "妈妈不需要担心的事"——医生说"问题不大"的部分
6. "妈妈需要警惕的事"——出现什么必须立刻就医
第五步:发给妈妈一份"清晰版陪诊纪要"
她有了完整的"医生说的话"——不会因为"现场紧张听不清"而漏掉重要信息。
第六步:日常跟进
- AI 帮你妈记每天血压、血糖
- 医生开的药,AI 帮你妈解读"什么时候吃、怎么吃、副作用"
- 妈妈再有不适,先和 AI 描述症状,看是否需要再就医
整套流程下来,AI 让"远在千里"的你也能"全程陪诊"。
11.6 多模态 AI 的"未来已来"
已经在普通用户身边的多模态 AI
手机相机 + AI:
- iPhone "视觉智能"(按住相机按钮)
- 安卓"圈选搜索"(圈一下屏幕上的东西问 AI)
- 豆包 / 通义千问"AI 拍立查"
车载 AI:
- 你说"导航到 XX",车载 AI 听懂、看懂当前路况、规划路线
- 小鹏、理想、蔚来、比亚迪等都集成了大模型
家用 AI 音箱 / AI 屏幕:
- 小度、小爱、天猫精灵等已升级到大模型版
- 不再"听不懂复杂指令"
AR 眼镜(2026 年开始普及):
- Meta Ray-Ban、雷鸟等产品
- 你看到什么,AI 直接"告诉你"
- 你说什么,AI "翻译给对面的人"
未来 1-2 年的多模态趋势
- 机器人 + AI:扫地机器人、做饭机器人、人形机器人陆续走入家庭
- VR 中的 AI 角色:游戏 / 虚拟社交里的"NPC"将真正"懂你"
- AI 数字人:你可以用 AI"复制"你自己——做你的"数字分身"
11.7 多模态使用的"避坑指南"
避坑 1:不要把"敏感图片"传给公开 AI
- 身份证 / 银行卡 / 户口本 → 不要传
- 体检报告涉及"身份证号、姓名、电话"的部分 → 用马赛克遮挡再传
- 重要合同 / 财务文件 → 涉及金额、对方公司名等敏感的 → 谨慎
避坑 2:不要"语音对话泄露隐私"
- 公共场合用 AI 语音对话 → 别人能听到
- 涉及隐私话题 → 用文字而不是语音
避坑 3:不要相信 AI 的"看图诊断"
- AI 看影像 → 仅供参考,不能替代医生
- AI 鉴定古董 → 仅供参考,不能替代专业鉴定
- AI "面相" / "手相" → 娱乐而已,别当真
避坑 4:注意"侵权风险"
- 拍别人的照片让 AI 分析 → 注意肖像权
- 拍别人的画 / 设计让 AI 模仿 → 注意版权
- 录别人的声音让 AI 处理 → 注意"声音权"(部分国家已有相关立法)
本章小抄
多模态 AI 速查
────────────
【看图】10 个场景
1. 拍照解题 2. 识别植物动物
3. 体检报告 4. 合同/说明书
5. 找东西 6. 翻译外文截图
7. 识别地标 8. 字体/设计
9. 看懂图表 10. 找茬对比
【听声】10 个场景
11. 会议转写 12. 英语口语
13. 灵感整理 14. 课程录音
15. 长辈语音 16. 歌词识别
17. 宝宝哭声 18. 维权录音
19. 听懂医生 20. 教练指导
【组合玩法】3 个
- 图 → 文 → 图(仿风格)
- 声 → 文 → 视频(灵感成片)
- 图 → 视频 → 音乐 → MV(全 AI MV)
边界与避坑:
1. 不传"敏感图片"
2. 不在公共场合"语音泄露隐私"
3. 不"信"AI 的诊断(医学/法律/鉴定)
4. 注意"侵权风险"(肖像/版权/声音权)
5 分钟动手实验
任务:今天用"多模态"AI 解决一件具体的事。
步骤:
-
挑一件事——可以是:
- 拍一张照片让 AI 识别(衣服、植物、菜、商品⋯⋯)
- 录一段语音让 AI 整理(散步时的灵感)
- 拍一份你看不懂的文件(说明书、合同片段、菜单)
-
打开你的 AI(豆包 / ChatGPT / Gemini / Kimi 都支持)
-
使用本章对应的提示词模板
-
看 AI 给的回答——很可能让你"惊讶"
-
如果有用,把这个"用法"加到你的 AI 习惯里
下章预告
下一章 第十二章 AI 智能体,进入更高级的玩法——"AI 智能体(Agent)":
- 什么是 Agent(对比"对话型 AI")
- 自定义 GPTs / Coze / 扣子 / 智谱 Agent —— 普通人 5 分钟搭一个
- AI 自己干活:订机票、订餐、整理邮件
- 让你的 AI"长出手脚"
学完,你从"AI 用户"升级为"AI 创造者"。