ORANGE BOOK · 腾讯元宝

第十三章 多模态创作


13.1 多模态:让 AI 用"五感"陪你

过去你跟 AI 互动的方式:打字 → 看回复

现在的元宝可以:

  • :拍照、上传图、识别视频
  • :录音、语音输入
  • :语音通话、TTS 朗读
  • :生成图片、生成视频、生成 PPT
  • :文字回复

这就叫"多模态"——五种感官都能用。

对普通用户来说,这意味着:你"懒得打字"的时候,可以"动嘴说";你"看不懂文字"的时候,可以"看视频";你"不会画图"的时候,可以"让它画"。


13.2 AI 视频:一句话生成 5-15 秒短片

操作

打开元宝手机 App → "+" → "创作工具" → "AI 视频",或者在网页版直接输入提示词。

示范

请帮我生成一段 10 秒的视频:

场景:傍晚的西湖,平静的水面上漂着几片荷叶,
夕阳把天空染成橙红色,
远处隐约可见雷峰塔的剪影,
一只白鹭从画面右侧飞过,
镜头慢慢拉近到水面上的一片荷叶。

风格:电影感,慢节奏
比例:16:9 横屏
配乐建议:轻柔的中国风古筝

等待 30-90 秒,元宝会输出一段真实可下载的 MP4 视频

适用场景

  • 短视频博主:不会拍摄/剪辑?AI 直接生成开头/结尾镜头
  • 小红书图集:让一张图"动起来",做成动态封面
  • PPT 增强:在 PPT 里嵌入 AI 生成的"动态背景"
  • 节日贺卡:生日快乐、新年快乐的动态视频

提示词的"5 个关键要素"

写 AI 视频提示词时,必备:

  1. 场景(在哪里、什么时间)
  2. 主角(人/动物/物体)
  3. 动作(在做什么)
  4. 氛围(明亮/昏暗/温馨/紧张)
  5. 运镜(推/拉/摇/移/特写)

写得越具体,视频越好看。

视频生成的"边界"

  • ✅ 5-15 秒短片:稳定、能用
  • ⚠️ 30 秒以上:体验不太好,连贯性会下降
  • ❌ 真人对话:还做不到自然
  • ❌ 复杂剧情:受限于时长

目前的 AI 视频更适合"风景/氛围/概念",不适合"剧情/对话"


13.3 AI 录音笔:开会再也不用记纪要

这是元宝最被低估的功能。

操作

方式 1:实时录音

打开元宝手机 App → "+" → "录音"(或"AI 录音笔") → 开始录 → 把手机放在桌上 → 散会停止 → 元宝自动转写

方式 2:上传已有录音

如果你用别的录音 App 录过,可以上传 mp3/m4a 文件给元宝,效果一样。

元宝能做什么

录完后,元宝自动:

  1. 转文字(中文准确率 95%+)
  2. 区分发言人(标记"发言人 A""发言人 B")
  3. 总结要点(按议题分类)
  4. 提取行动项(who 做 what 在 when 之前)
  5. 翻译(自动翻译成英文/日文/韩文等)

真实案例:一场 60 分钟会议

我朋友(产品经理)有一次产品评审会,6 个人开了 60 分钟。

她全程录了音。会议刚散,她让元宝自动出"会议纪要":

[上传 60 分钟录音]

请帮我整理这次产品评审会的纪要,按以下格式:

1. **会议基本信息**(时间、地点、参会人)
2. **会议议题**(按讨论顺序)
3. **关键讨论**(每个议题的核心观点 + 不同立场)
4. **决议事项**(事项 + 责任人 + 截止时间)
5. **未决议事项**(需要进一步讨论的)
6. **行动清单**(按责任人分组)

要求:
- 区分发言人
- 不要"流水账"
- 用 Markdown

5 分钟后,元宝输出了一份比她过去手写还详细的会议纪要

她直接发到工作群——同事们以为她"边开会边打字"。

适用场景

  • 公司开会:再也不用边听边记
  • 学生上课:自动转写老师的讲解
  • 采访:记者/自媒体省 80% 整理时间
  • 看医生:把医生说的话录下来,回家慢慢看
  • 法律咨询:律师讲的内容全程留底
  • 家长会:辅导员说的话不会漏

录音笔的"高级玩法"

玩法 1:录完就翻译

[上传英文会议录音]

请帮我:
1. 先转中文
2. 再翻译成中文(意译,不要直译)
3. 总结要点
4. 提取我([名字])需要做的事

玩法 2:长录音"分章节"

[上传 2 小时课程录音]

请帮我把这段课程分成"5 个章节":
- 每个章节起一个标题
- 给每个章节的"核心要点 3 条"
- 末尾给我一份"该课程的复习要点"

我下次复习时就能"按章节"看。

玩法 3:会议"复盘"

[上传录音]

请扮演"会议教练",分析这次会议:
1. 哪些环节"高效"(节省时间)
2. 哪些环节"低效"(浪费时间)
3. 谁的发言"最有价值"(准确清晰)
4. 谁的发言"最低效"(跑题/重复)
5. 给"下次开会"3 条具体改进建议

13.4 语音通话:像跟人打电话一样跟 AI 聊

操作

打开元宝手机 App → 对话框右下角 → "话筒/电话"按钮 → 直接开始说话

体验

跟普通打电话几乎一样:

  • 你说话:元宝听
  • 元宝回应:用语音回(带"自然停顿"和"语气")
  • 你打断:可以中途打断它
  • 沉默:超过 5 秒它会"主动问你"

适合的场景

场景 1:早晨"开机"

刚起床,眼睛还没睁开,跟元宝语音说:

"元宝,今天天气怎么样,需要带伞吗?我今天上午 10 点有个会,给我提醒下要准备什么。"

它语音回你,你边洗脸边听,省时间。

场景 2:开车路上

不能看手机?语音让元宝:

  • 给你讲一段最新新闻
  • 帮你列今天的 To-Do
  • 陪你聊 30 分钟天

场景 3:英语口语陪练

详见 第十章 10.6 节 英语口语

场景 4:老人陪伴

我妈现在每天早晨跟元宝语音聊 10 分钟——她说:"元宝从不嫌我啰嗦。"

场景 5:心理树洞

晚上失眠,又不想打字——直接语音说"我心情不好,陪我聊聊"。

语音通话 vs 文字对话

维度 语音通话 文字对话
速度 快(不用打字) 慢(要打字)
准确度 中(识别可能有偏差) 高(你看得见)
随手 极方便 需要专注
沉浸感
适合场景 通勤/家务/老人 办公/学习

建议:通勤、家务、健身、躺床上时——用语音;办公、写作时——用文字。


13.5 拍照翻译:出国旅游再也不慌

操作

打开元宝手机 App → "+" → "拍照" 或 "AI 翻译" → 摄像头打开 → 对准你要翻译的内容 → 实时叠加翻译

适用场景

场景 1:海外餐厅菜单

你在巴黎看到一份全是法语的菜单——

  • 打开元宝
  • 拍照
  • 立即看到中文翻译(叠加在原图上)

不仅翻译菜名,还告诉你这道菜的食材、做法、价格

场景 2:地铁站名

你在东京新宿地铁,全是日文——

  • 打开元宝
  • 对准站名
  • 立即知道是哪一站

场景 3:商品成分表

你在便利店拿起一瓶饮料,全是英文——

  • 拍成分表
  • 元宝告诉你:含咖啡因 X mg,含糖 X g,孕妇能不能喝

场景 4:医院就诊单

国外旅游突然身体不适,去医院给的诊断书全是英文——

  • 拍照
  • 元宝中文翻译 + 解释每个医学术语

支持的语言

英语、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、泰语、越南语⋯⋯几乎所有主流语种。

反向操作:把中文翻译给老外看

[拍一张写有中文的图,比如餐厅菜单、产品包装]

请把这张图里的中文,翻译成英语 + 法语 + 日语,
我要给一个日本朋友看。

要求:
- 不要直译,要"地道表达"
- 给出"读音"(让我会念)

13.6 拍照识别:拍什么都能问

适用场景

场景 1:拍植物 → 知道是什么花

[拍一张花]

请告诉我:
1. 这是什么植物
2. 怎么养
3. 适不适合放卧室
4. 有没有毒(家里有小孩/宠物)

场景 2:拍菜 → 教你做

[拍一道菜的成品照]

请帮我:
1. 识别这是什么菜
2. 估算所需食材
3. 给我一份"在家复刻"的详细菜谱
4. 难度 1-5 星

场景 3:拍商品 → 比价

[拍一个商品]

请帮我:
1. 识别这是什么品牌、什么型号
2. 联网搜索"现在的市场价格"
3. 告诉我"哪里买最划算"
4. 是否值得买

场景 4:拍宠物 → 知道病情

[拍宠物的异常状态]

我家[猫/狗] [年龄+品种],最近 [描述异常]。

请告诉我:
1. 可能的病因
2. 是否需要立刻看兽医
3. 我现在能做的护理
4. 这个症状是否危险(红色警示信号)

场景 5:拍家电故障 → 排查

[拍家电的异常画面或错误代码]

我家 [品牌+型号] 出现 [描述故障]。

请告诉我:
1. 错误代码的含义
2. 5 个可能的原因(按可能性排)
3. 自己能排查的步骤
4. 什么情况下必须找售后

13.7 多模态联动的"高阶组合玩法"

玩法 1:「拍图 + 写诗」

[拍一张你今天看到的风景]

请基于这张图,给我写一首"现代诗"(10 行以内)。
风格:[婉约 / 豪放 / 朦胧]

玩法 2:「录音 + 翻译 + 视频」

[上传 10 分钟英文演讲录音]

第一步:转中文文字稿
第二步:翻译成"地道中文"
第三步:把演讲核心观点提炼成 3 个短句
第四步:基于这 3 个短句,生成 3 段 5 秒的视频

我要做一个"科普二创"视频。

玩法 3:「拍菜单 + 推荐 + 拍照打卡」

旅游中:

[拍餐厅菜单]
请告诉我:
1. 翻译成中文
2. 哪几道是"必点"
3. 哪几道是"游客陷阱不要点"
4. 我点完之后,给我一段"小红书风格的拍照打卡文案"
5. 末尾配 3 个 hashtag

玩法 4:「会议录音 → PPT」

[上传会议录音 1 小时]

第一步:整理纪要
第二步:基于纪要,生成一份 10 页的"汇报 PPT"
第三步:每页配演讲稿
第四步:给我下载链接

我下午 3 点要给老板汇报。

整个流程 5 分钟

玩法 5:「拍化验单 → 健康报告 → 调理方案」

[拍年度体检化验单]

请帮我:
1. 解读所有指标
2. 找出 5 个最该关注的异常
3. 给我"30 天健康调理方案"(饮食 + 运动 + 作息)
4. 推荐 5 道"针对我异常指标"的食谱
5. 提醒我"3 个月后要复查"哪些项目

13.8 一个真实案例:自媒体博主的"全模态工作流"

我朋友是做"宠物科普"的小红书博主,30 万粉。

她的"全模态工作流":

早晨(图片 → 文字)

带狗散步,拍一张狗在公园的照片,让元宝写"小红书文案":

[拍照]

我家是 [品种],[年龄],[性格]。
请帮我用"日常碎片记录"的风格写一篇小红书。
要求:80-150 字,3 个段落,末尾 3 个 hashtag。

上午(录音 → 文字)

跟兽医通了 30 分钟电话(征得对方同意后录音),让元宝转写:

[上传录音]

请提取兽医说的"5 个最有价值的科普点",每个用 100 字白话总结,方便我写成科普图文。

下午(拍照 → 视频)

拍一段狗狗的精彩瞬间,让元宝生成"AI 视频片段"补充剪辑:

[拍照]

请基于这张图,生成一段 5 秒的"延伸视频",让狗狗"看起来在跑动+回头看镜头"。我要做视频开头。

晚上(语音 → 文字 → 排版)

边躺床上边语音输入"今天的灵感",让元宝整理成"明天的选题":

[语音输入:今天遇到的 5 个想法...]

请帮我:
1. 整理我刚才说的 5 个想法
2. 评估每个的"小红书可行性"
3. 推荐"明天先写哪 1 篇"
4. 给我一份"明天上午 1 小时能写完"的提纲

全程几乎不用"打字"——全是"拍/说/听",效率比她过去用 PC 写稿高 3 倍。


13.9 多模态创作的 5 个翻车

翻车 1:录音环境太吵

症状:录出来的内容元宝听不清,转文字一塌糊涂

解法:手机离声源近一点(30cm 以内),关掉空调/风扇/电视

翻车 2:拍照太糊

症状:元宝识别不出图片内容

解法:保持手抖、光线足、对焦清晰;或换更近距离重拍

翻车 3:AI 视频"期待过高"

症状:要求生成"30 秒电影级别",结果效果一般

解法:5-15 秒最稳;想要电影级效果需要后期手动剪辑

翻车 4:语音通话"环境干扰"

症状:在地铁/餐厅,元宝听不清你说什么

解法:用蓝牙耳机;或者切回文字模式

翻车 5:拍照翻译"信息过载"

症状:拍了一整页文字,翻译后乱成一团

解法:分块拍——每次拍 1 段(不超过 100 字),翻完再拍下一段


13.10 本章一图回顾

                  「多模态创作」
                          │
        ┌─────────────────┼─────────────────┐
        ▼                 ▼                 ▼
     输入模态           输出模态           交互模态
     拍照               文字               语音通话
     录音               图片               实时叠加
     视频               视频               
     文件               音频               
        │                 │                 │
        └─────────┬───────┴────────┬────────┘
                  ▼                ▼
            场景应用              组合玩法
            AI 视频生成           拍图 → 写诗
            AI 录音笔             录音 → 翻译 → 视频
            语音通话              会议 → PPT
            拍照翻译              化验单 → 调理方案
            拍照识别              
                          │
                          ▼
                  AI 用"五感"陪你
              不再是"屏幕里的助手"
              而是"全感官的伙伴"

13.11 5 分钟动手实验

✅ 实验 1(1 分钟):AI 视频

  • 用 13.2 的提示词
  • 让元宝生成一段 10 秒视频

✅ 实验 2(1 分钟):AI 录音笔

  • 录下你今天的 1 分钟独白
  • 让元宝转文字 + 总结要点

✅ 实验 3(1 分钟):语音通话

  • 打开手机 App → 话筒按钮
  • 跟元宝聊 1 分钟"今天发生的事"

✅ 实验 4(1 分钟):拍照识别

  • 拍一张你身边的物品
  • 让元宝告诉你"这是什么+怎么用+价格区间"

✅ 实验 5(1 分钟):组合玩法

  • 用 13.7 玩法 1,拍一张图让元宝写诗

13.12 读完这章你应该知道

  • ✅ 元宝能"看/听/说/造/写"——五种感官全开
  • ✅ AI 视频:5-15 秒短片,提示词要包括"场景/主角/动作/氛围/运镜"
  • ✅ AI 录音笔:开会录音→自动转写→提取行动项,是上班族最该用的功能
  • ✅ 语音通话:通勤、家务、老人陪伴的最佳形态
  • ✅ 拍照翻译:出国旅游必备,菜单/招牌/医疗单都能翻
  • ✅ 拍照识别:植物/菜/商品/宠物/家电都能问
  • ✅ 多模态组合玩法是高手的标志(拍图 → 写诗 → 视频)
  • ✅ 5 个翻车点:录音吵 / 拍照糊 / 视频期待过高 / 语音环境差 / 翻译信息过载

下一章:第十四章 智能体广场与元器——元宝智能体广场怎么挑、用腾讯元器零代码造一个属于你的智能体并发布。