13.1 多模态:让 AI 用"五感"陪你
过去你跟 AI 互动的方式:打字 → 看回复。
现在的元宝可以:
- 看:拍照、上传图、识别视频
- 听:录音、语音输入
- 说:语音通话、TTS 朗读
- 造:生成图片、生成视频、生成 PPT
- 写:文字回复
这就叫"多模态"——五种感官都能用。
对普通用户来说,这意味着:你"懒得打字"的时候,可以"动嘴说";你"看不懂文字"的时候,可以"看视频";你"不会画图"的时候,可以"让它画"。
13.2 AI 视频:一句话生成 5-15 秒短片
操作
打开元宝手机 App → "+" → "创作工具" → "AI 视频",或者在网页版直接输入提示词。
示范
请帮我生成一段 10 秒的视频:
场景:傍晚的西湖,平静的水面上漂着几片荷叶,
夕阳把天空染成橙红色,
远处隐约可见雷峰塔的剪影,
一只白鹭从画面右侧飞过,
镜头慢慢拉近到水面上的一片荷叶。
风格:电影感,慢节奏
比例:16:9 横屏
配乐建议:轻柔的中国风古筝
等待 30-90 秒,元宝会输出一段真实可下载的 MP4 视频。
适用场景
- 短视频博主:不会拍摄/剪辑?AI 直接生成开头/结尾镜头
- 小红书图集:让一张图"动起来",做成动态封面
- PPT 增强:在 PPT 里嵌入 AI 生成的"动态背景"
- 节日贺卡:生日快乐、新年快乐的动态视频
提示词的"5 个关键要素"
写 AI 视频提示词时,必备:
- 场景(在哪里、什么时间)
- 主角(人/动物/物体)
- 动作(在做什么)
- 氛围(明亮/昏暗/温馨/紧张)
- 运镜(推/拉/摇/移/特写)
写得越具体,视频越好看。
视频生成的"边界"
- ✅ 5-15 秒短片:稳定、能用
- ⚠️ 30 秒以上:体验不太好,连贯性会下降
- ❌ 真人对话:还做不到自然
- ❌ 复杂剧情:受限于时长
目前的 AI 视频更适合"风景/氛围/概念",不适合"剧情/对话"。
13.3 AI 录音笔:开会再也不用记纪要
这是元宝最被低估的功能。
操作
方式 1:实时录音
打开元宝手机 App → "+" → "录音"(或"AI 录音笔") → 开始录 → 把手机放在桌上 → 散会停止 → 元宝自动转写
方式 2:上传已有录音
如果你用别的录音 App 录过,可以上传 mp3/m4a 文件给元宝,效果一样。
元宝能做什么
录完后,元宝自动:
- 转文字(中文准确率 95%+)
- 区分发言人(标记"发言人 A""发言人 B")
- 总结要点(按议题分类)
- 提取行动项(who 做 what 在 when 之前)
- 翻译(自动翻译成英文/日文/韩文等)
真实案例:一场 60 分钟会议
我朋友(产品经理)有一次产品评审会,6 个人开了 60 分钟。
她全程录了音。会议刚散,她让元宝自动出"会议纪要":
[上传 60 分钟录音]
请帮我整理这次产品评审会的纪要,按以下格式:
1. **会议基本信息**(时间、地点、参会人)
2. **会议议题**(按讨论顺序)
3. **关键讨论**(每个议题的核心观点 + 不同立场)
4. **决议事项**(事项 + 责任人 + 截止时间)
5. **未决议事项**(需要进一步讨论的)
6. **行动清单**(按责任人分组)
要求:
- 区分发言人
- 不要"流水账"
- 用 Markdown
5 分钟后,元宝输出了一份比她过去手写还详细的会议纪要。
她直接发到工作群——同事们以为她"边开会边打字"。
适用场景
- 公司开会:再也不用边听边记
- 学生上课:自动转写老师的讲解
- 采访:记者/自媒体省 80% 整理时间
- 看医生:把医生说的话录下来,回家慢慢看
- 法律咨询:律师讲的内容全程留底
- 家长会:辅导员说的话不会漏
录音笔的"高级玩法"
玩法 1:录完就翻译
[上传英文会议录音]
请帮我:
1. 先转中文
2. 再翻译成中文(意译,不要直译)
3. 总结要点
4. 提取我([名字])需要做的事
玩法 2:长录音"分章节"
[上传 2 小时课程录音]
请帮我把这段课程分成"5 个章节":
- 每个章节起一个标题
- 给每个章节的"核心要点 3 条"
- 末尾给我一份"该课程的复习要点"
我下次复习时就能"按章节"看。
玩法 3:会议"复盘"
[上传录音]
请扮演"会议教练",分析这次会议:
1. 哪些环节"高效"(节省时间)
2. 哪些环节"低效"(浪费时间)
3. 谁的发言"最有价值"(准确清晰)
4. 谁的发言"最低效"(跑题/重复)
5. 给"下次开会"3 条具体改进建议
13.4 语音通话:像跟人打电话一样跟 AI 聊
操作
打开元宝手机 App → 对话框右下角 → "话筒/电话"按钮 → 直接开始说话
体验
跟普通打电话几乎一样:
- 你说话:元宝听
- 元宝回应:用语音回(带"自然停顿"和"语气")
- 你打断:可以中途打断它
- 沉默:超过 5 秒它会"主动问你"
适合的场景
场景 1:早晨"开机"
刚起床,眼睛还没睁开,跟元宝语音说:
"元宝,今天天气怎么样,需要带伞吗?我今天上午 10 点有个会,给我提醒下要准备什么。"
它语音回你,你边洗脸边听,省时间。
场景 2:开车路上
不能看手机?语音让元宝:
- 给你讲一段最新新闻
- 帮你列今天的 To-Do
- 陪你聊 30 分钟天
场景 3:英语口语陪练
详见 第十章 10.6 节 英语口语。
场景 4:老人陪伴
我妈现在每天早晨跟元宝语音聊 10 分钟——她说:"元宝从不嫌我啰嗦。"
场景 5:心理树洞
晚上失眠,又不想打字——直接语音说"我心情不好,陪我聊聊"。
语音通话 vs 文字对话
| 维度 | 语音通话 | 文字对话 |
|---|---|---|
| 速度 | 快(不用打字) | 慢(要打字) |
| 准确度 | 中(识别可能有偏差) | 高(你看得见) |
| 随手 | 极方便 | 需要专注 |
| 沉浸感 | 强 | 弱 |
| 适合场景 | 通勤/家务/老人 | 办公/学习 |
建议:通勤、家务、健身、躺床上时——用语音;办公、写作时——用文字。
13.5 拍照翻译:出国旅游再也不慌
操作
打开元宝手机 App → "+" → "拍照" 或 "AI 翻译" → 摄像头打开 → 对准你要翻译的内容 → 实时叠加翻译
适用场景
场景 1:海外餐厅菜单
你在巴黎看到一份全是法语的菜单——
- 打开元宝
- 拍照
- 立即看到中文翻译(叠加在原图上)
不仅翻译菜名,还告诉你这道菜的食材、做法、价格。
场景 2:地铁站名
你在东京新宿地铁,全是日文——
- 打开元宝
- 对准站名
- 立即知道是哪一站
场景 3:商品成分表
你在便利店拿起一瓶饮料,全是英文——
- 拍成分表
- 元宝告诉你:含咖啡因 X mg,含糖 X g,孕妇能不能喝
场景 4:医院就诊单
国外旅游突然身体不适,去医院给的诊断书全是英文——
- 拍照
- 元宝中文翻译 + 解释每个医学术语
支持的语言
英语、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、泰语、越南语⋯⋯几乎所有主流语种。
反向操作:把中文翻译给老外看
[拍一张写有中文的图,比如餐厅菜单、产品包装]
请把这张图里的中文,翻译成英语 + 法语 + 日语,
我要给一个日本朋友看。
要求:
- 不要直译,要"地道表达"
- 给出"读音"(让我会念)
13.6 拍照识别:拍什么都能问
适用场景
场景 1:拍植物 → 知道是什么花
[拍一张花]
请告诉我:
1. 这是什么植物
2. 怎么养
3. 适不适合放卧室
4. 有没有毒(家里有小孩/宠物)
场景 2:拍菜 → 教你做
[拍一道菜的成品照]
请帮我:
1. 识别这是什么菜
2. 估算所需食材
3. 给我一份"在家复刻"的详细菜谱
4. 难度 1-5 星
场景 3:拍商品 → 比价
[拍一个商品]
请帮我:
1. 识别这是什么品牌、什么型号
2. 联网搜索"现在的市场价格"
3. 告诉我"哪里买最划算"
4. 是否值得买
场景 4:拍宠物 → 知道病情
[拍宠物的异常状态]
我家[猫/狗] [年龄+品种],最近 [描述异常]。
请告诉我:
1. 可能的病因
2. 是否需要立刻看兽医
3. 我现在能做的护理
4. 这个症状是否危险(红色警示信号)
场景 5:拍家电故障 → 排查
[拍家电的异常画面或错误代码]
我家 [品牌+型号] 出现 [描述故障]。
请告诉我:
1. 错误代码的含义
2. 5 个可能的原因(按可能性排)
3. 自己能排查的步骤
4. 什么情况下必须找售后
13.7 多模态联动的"高阶组合玩法"
玩法 1:「拍图 + 写诗」
[拍一张你今天看到的风景]
请基于这张图,给我写一首"现代诗"(10 行以内)。
风格:[婉约 / 豪放 / 朦胧]
玩法 2:「录音 + 翻译 + 视频」
[上传 10 分钟英文演讲录音]
第一步:转中文文字稿
第二步:翻译成"地道中文"
第三步:把演讲核心观点提炼成 3 个短句
第四步:基于这 3 个短句,生成 3 段 5 秒的视频
我要做一个"科普二创"视频。
玩法 3:「拍菜单 + 推荐 + 拍照打卡」
旅游中:
[拍餐厅菜单]
请告诉我:
1. 翻译成中文
2. 哪几道是"必点"
3. 哪几道是"游客陷阱不要点"
4. 我点完之后,给我一段"小红书风格的拍照打卡文案"
5. 末尾配 3 个 hashtag
玩法 4:「会议录音 → PPT」
[上传会议录音 1 小时]
第一步:整理纪要
第二步:基于纪要,生成一份 10 页的"汇报 PPT"
第三步:每页配演讲稿
第四步:给我下载链接
我下午 3 点要给老板汇报。
整个流程 5 分钟。
玩法 5:「拍化验单 → 健康报告 → 调理方案」
[拍年度体检化验单]
请帮我:
1. 解读所有指标
2. 找出 5 个最该关注的异常
3. 给我"30 天健康调理方案"(饮食 + 运动 + 作息)
4. 推荐 5 道"针对我异常指标"的食谱
5. 提醒我"3 个月后要复查"哪些项目
13.8 一个真实案例:自媒体博主的"全模态工作流"
我朋友是做"宠物科普"的小红书博主,30 万粉。
她的"全模态工作流":
早晨(图片 → 文字)
带狗散步,拍一张狗在公园的照片,让元宝写"小红书文案":
[拍照]
我家是 [品种],[年龄],[性格]。
请帮我用"日常碎片记录"的风格写一篇小红书。
要求:80-150 字,3 个段落,末尾 3 个 hashtag。
上午(录音 → 文字)
跟兽医通了 30 分钟电话(征得对方同意后录音),让元宝转写:
[上传录音]
请提取兽医说的"5 个最有价值的科普点",每个用 100 字白话总结,方便我写成科普图文。
下午(拍照 → 视频)
拍一段狗狗的精彩瞬间,让元宝生成"AI 视频片段"补充剪辑:
[拍照]
请基于这张图,生成一段 5 秒的"延伸视频",让狗狗"看起来在跑动+回头看镜头"。我要做视频开头。
晚上(语音 → 文字 → 排版)
边躺床上边语音输入"今天的灵感",让元宝整理成"明天的选题":
[语音输入:今天遇到的 5 个想法...]
请帮我:
1. 整理我刚才说的 5 个想法
2. 评估每个的"小红书可行性"
3. 推荐"明天先写哪 1 篇"
4. 给我一份"明天上午 1 小时能写完"的提纲
全程几乎不用"打字"——全是"拍/说/听",效率比她过去用 PC 写稿高 3 倍。
13.9 多模态创作的 5 个翻车
翻车 1:录音环境太吵
症状:录出来的内容元宝听不清,转文字一塌糊涂
解法:手机离声源近一点(30cm 以内),关掉空调/风扇/电视
翻车 2:拍照太糊
症状:元宝识别不出图片内容
解法:保持手抖、光线足、对焦清晰;或换更近距离重拍
翻车 3:AI 视频"期待过高"
症状:要求生成"30 秒电影级别",结果效果一般
解法:5-15 秒最稳;想要电影级效果需要后期手动剪辑
翻车 4:语音通话"环境干扰"
症状:在地铁/餐厅,元宝听不清你说什么
解法:用蓝牙耳机;或者切回文字模式
翻车 5:拍照翻译"信息过载"
症状:拍了一整页文字,翻译后乱成一团
解法:分块拍——每次拍 1 段(不超过 100 字),翻完再拍下一段
13.10 本章一图回顾
「多模态创作」
│
┌─────────────────┼─────────────────┐
▼ ▼ ▼
输入模态 输出模态 交互模态
拍照 文字 语音通话
录音 图片 实时叠加
视频 视频
文件 音频
│ │ │
└─────────┬───────┴────────┬────────┘
▼ ▼
场景应用 组合玩法
AI 视频生成 拍图 → 写诗
AI 录音笔 录音 → 翻译 → 视频
语音通话 会议 → PPT
拍照翻译 化验单 → 调理方案
拍照识别
│
▼
AI 用"五感"陪你
不再是"屏幕里的助手"
而是"全感官的伙伴"
13.11 5 分钟动手实验
✅ 实验 1(1 分钟):AI 视频
- 用 13.2 的提示词
- 让元宝生成一段 10 秒视频
✅ 实验 2(1 分钟):AI 录音笔
- 录下你今天的 1 分钟独白
- 让元宝转文字 + 总结要点
✅ 实验 3(1 分钟):语音通话
- 打开手机 App → 话筒按钮
- 跟元宝聊 1 分钟"今天发生的事"
✅ 实验 4(1 分钟):拍照识别
- 拍一张你身边的物品
- 让元宝告诉你"这是什么+怎么用+价格区间"
✅ 实验 5(1 分钟):组合玩法
- 用 13.7 玩法 1,拍一张图让元宝写诗
13.12 读完这章你应该知道
- ✅ 元宝能"看/听/说/造/写"——五种感官全开
- ✅ AI 视频:5-15 秒短片,提示词要包括"场景/主角/动作/氛围/运镜"
- ✅ AI 录音笔:开会录音→自动转写→提取行动项,是上班族最该用的功能
- ✅ 语音通话:通勤、家务、老人陪伴的最佳形态
- ✅ 拍照翻译:出国旅游必备,菜单/招牌/医疗单都能翻
- ✅ 拍照识别:植物/菜/商品/宠物/家电都能问
- ✅ 多模态组合玩法是高手的标志(拍图 → 写诗 → 视频)
- ✅ 5 个翻车点:录音吵 / 拍照糊 / 视频期待过高 / 语音环境差 / 翻译信息过载
下一章:第十四章 智能体广场与元器——元宝智能体广场怎么挑、用腾讯元器零代码造一个属于你的智能体并发布。