多模态创作 · 腾讯元宝橙皮书

13.1 多模态：让 AI 用"五感"陪你

过去你跟 AI 互动的方式：打字 → 看回复。

现在的元宝可以：

看：拍照、上传图、识别视频
听：录音、语音输入
说：语音通话、TTS 朗读
造：生成图片、生成视频、生成 PPT
写：文字回复

这就叫"多模态"——五种感官都能用。

对普通用户来说，这意味着：你"懒得打字"的时候，可以"动嘴说"；你"看不懂文字"的时候，可以"看视频"；你"不会画图"的时候，可以"让它画"。

13.2 AI 视频：一句话生成 5-15 秒短片

操作

打开元宝手机 App → "+" → "创作工具" → "AI 视频"，或者在网页版直接输入提示词。

示范

请帮我生成一段 10 秒的视频：

场景：傍晚的西湖，平静的水面上漂着几片荷叶，
夕阳把天空染成橙红色，
远处隐约可见雷峰塔的剪影，
一只白鹭从画面右侧飞过，
镜头慢慢拉近到水面上的一片荷叶。

风格：电影感，慢节奏
比例：16:9 横屏
配乐建议：轻柔的中国风古筝

等待 30-90 秒，元宝会输出一段真实可下载的 MP4 视频。

适用场景

短视频博主：不会拍摄/剪辑？AI 直接生成开头/结尾镜头
小红书图集：让一张图"动起来"，做成动态封面
PPT 增强：在 PPT 里嵌入 AI 生成的"动态背景"
节日贺卡：生日快乐、新年快乐的动态视频

提示词的"5 个关键要素"

写 AI 视频提示词时，必备：

场景（在哪里、什么时间）
主角（人/动物/物体）
动作（在做什么）
氛围（明亮/昏暗/温馨/紧张）
运镜（推/拉/摇/移/特写）

写得越具体，视频越好看。

视频生成的"边界"

✅ 5-15 秒短片：稳定、能用
⚠️ 30 秒以上：体验不太好，连贯性会下降
❌ 真人对话：还做不到自然
❌ 复杂剧情：受限于时长

目前的 AI 视频更适合"风景/氛围/概念"，不适合"剧情/对话"。

13.3 AI 录音笔：开会再也不用记纪要

这是元宝最被低估的功能。

操作

方式 1：实时录音

打开元宝手机 App → "+" → "录音"（或"AI 录音笔"） → 开始录 → 把手机放在桌上 → 散会停止 → 元宝自动转写

方式 2：上传已有录音

如果你用别的录音 App 录过，可以上传 mp3/m4a 文件给元宝，效果一样。

元宝能做什么

录完后，元宝自动：

转文字（中文准确率 95%+）
区分发言人（标记"发言人 A""发言人 B"）
总结要点（按议题分类）
提取行动项（who 做 what 在 when 之前）
翻译（自动翻译成英文/日文/韩文等）

真实案例：一场 60 分钟会议

我朋友（产品经理）有一次产品评审会，6 个人开了 60 分钟。

她全程录了音。会议刚散，她让元宝自动出"会议纪要":

[上传 60 分钟录音]

请帮我整理这次产品评审会的纪要，按以下格式：

1. **会议基本信息**（时间、地点、参会人）
2. **会议议题**（按讨论顺序）
3. **关键讨论**（每个议题的核心观点 + 不同立场）
4. **决议事项**（事项 + 责任人 + 截止时间）
5. **未决议事项**（需要进一步讨论的）
6. **行动清单**（按责任人分组）

要求：
- 区分发言人
- 不要"流水账"
- 用 Markdown

5 分钟后，元宝输出了一份比她过去手写还详细的会议纪要。

她直接发到工作群——同事们以为她"边开会边打字"。

适用场景

公司开会：再也不用边听边记
学生上课：自动转写老师的讲解
采访：记者/自媒体省 80% 整理时间
看医生：把医生说的话录下来，回家慢慢看
法律咨询：律师讲的内容全程留底
家长会：辅导员说的话不会漏

录音笔的"高级玩法"

玩法 1：录完就翻译

[上传英文会议录音]

请帮我：
1. 先转中文
2. 再翻译成中文（意译，不要直译）
3. 总结要点
4. 提取我（[名字]）需要做的事

玩法 2：长录音"分章节"

[上传 2 小时课程录音]

请帮我把这段课程分成"5 个章节"：
- 每个章节起一个标题
- 给每个章节的"核心要点 3 条"
- 末尾给我一份"该课程的复习要点"

我下次复习时就能"按章节"看。

玩法 3：会议"复盘"

[上传录音]

请扮演"会议教练"，分析这次会议：
1. 哪些环节"高效"（节省时间）
2. 哪些环节"低效"（浪费时间）
3. 谁的发言"最有价值"（准确清晰）
4. 谁的发言"最低效"（跑题/重复）
5. 给"下次开会"3 条具体改进建议

13.4 语音通话：像跟人打电话一样跟 AI 聊

操作

打开元宝手机 App → 对话框右下角 → "话筒/电话"按钮 → 直接开始说话

体验

跟普通打电话几乎一样:

你说话：元宝听
元宝回应：用语音回（带"自然停顿"和"语气"）
你打断：可以中途打断它
沉默：超过 5 秒它会"主动问你"

适合的场景

场景 1：早晨"开机"

刚起床，眼睛还没睁开，跟元宝语音说：

"元宝，今天天气怎么样，需要带伞吗？我今天上午 10 点有个会，给我提醒下要准备什么。"

它语音回你，你边洗脸边听，省时间。

场景 2：开车路上

不能看手机？语音让元宝：

给你讲一段最新新闻
帮你列今天的 To-Do
陪你聊 30 分钟天

场景 3：英语口语陪练

详见第十章 10.6 节英语口语。

场景 4：老人陪伴

我妈现在每天早晨跟元宝语音聊 10 分钟——她说："元宝从不嫌我啰嗦。"

场景 5：心理树洞

晚上失眠，又不想打字——直接语音说"我心情不好，陪我聊聊"。

语音通话 vs 文字对话

维度	语音通话	文字对话
速度	快（不用打字）	慢（要打字）
准确度	中（识别可能有偏差）	高（你看得见）
随手	极方便	需要专注
沉浸感	强	弱
适合场景	通勤/家务/老人	办公/学习

建议：通勤、家务、健身、躺床上时——用语音；办公、写作时——用文字。

13.5 拍照翻译：出国旅游再也不慌

操作

打开元宝手机 App → "+" → "拍照" 或 "AI 翻译" → 摄像头打开 → 对准你要翻译的内容 → 实时叠加翻译

适用场景

场景 1：海外餐厅菜单

你在巴黎看到一份全是法语的菜单——

打开元宝
拍照
立即看到中文翻译（叠加在原图上）

不仅翻译菜名，还告诉你这道菜的食材、做法、价格。

场景 2：地铁站名

你在东京新宿地铁，全是日文——

打开元宝
对准站名
立即知道是哪一站

场景 3：商品成分表

你在便利店拿起一瓶饮料，全是英文——

拍成分表
元宝告诉你：含咖啡因 X mg，含糖 X g，孕妇能不能喝

场景 4：医院就诊单

国外旅游突然身体不适，去医院给的诊断书全是英文——

拍照
元宝中文翻译 + 解释每个医学术语

支持的语言

英语、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、泰语、越南语⋯⋯几乎所有主流语种。

反向操作：把中文翻译给老外看

[拍一张写有中文的图，比如餐厅菜单、产品包装]

请把这张图里的中文，翻译成英语 + 法语 + 日语，
我要给一个日本朋友看。

要求：
- 不要直译，要"地道表达"
- 给出"读音"（让我会念）

13.6 拍照识别：拍什么都能问

适用场景

场景 1：拍植物 → 知道是什么花

[拍一张花]

请告诉我：
1. 这是什么植物
2. 怎么养
3. 适不适合放卧室
4. 有没有毒（家里有小孩/宠物）

场景 2：拍菜 → 教你做

[拍一道菜的成品照]

请帮我：
1. 识别这是什么菜
2. 估算所需食材
3. 给我一份"在家复刻"的详细菜谱
4. 难度 1-5 星

场景 3：拍商品 → 比价

[拍一个商品]

请帮我：
1. 识别这是什么品牌、什么型号
2. 联网搜索"现在的市场价格"
3. 告诉我"哪里买最划算"
4. 是否值得买

场景 4：拍宠物 → 知道病情

[拍宠物的异常状态]

我家[猫/狗] [年龄+品种]，最近 [描述异常]。

请告诉我：
1. 可能的病因
2. 是否需要立刻看兽医
3. 我现在能做的护理
4. 这个症状是否危险（红色警示信号）

场景 5：拍家电故障 → 排查

[拍家电的异常画面或错误代码]

我家 [品牌+型号] 出现 [描述故障]。

请告诉我：
1. 错误代码的含义
2. 5 个可能的原因（按可能性排）
3. 自己能排查的步骤
4. 什么情况下必须找售后

13.7 多模态联动的"高阶组合玩法"

玩法 1：「拍图 + 写诗」

[拍一张你今天看到的风景]

请基于这张图，给我写一首"现代诗"（10 行以内）。
风格：[婉约 / 豪放 / 朦胧]

玩法 2：「录音 + 翻译 + 视频」

[上传 10 分钟英文演讲录音]

第一步：转中文文字稿
第二步：翻译成"地道中文"
第三步：把演讲核心观点提炼成 3 个短句
第四步：基于这 3 个短句，生成 3 段 5 秒的视频

我要做一个"科普二创"视频。

玩法 3：「拍菜单 + 推荐 + 拍照打卡」

旅游中：

[拍餐厅菜单]
请告诉我：
1. 翻译成中文
2. 哪几道是"必点"
3. 哪几道是"游客陷阱不要点"
4. 我点完之后，给我一段"小红书风格的拍照打卡文案"
5. 末尾配 3 个 hashtag

玩法 4：「会议录音 → PPT」

[上传会议录音 1 小时]

第一步：整理纪要
第二步：基于纪要，生成一份 10 页的"汇报 PPT"
第三步：每页配演讲稿
第四步：给我下载链接

我下午 3 点要给老板汇报。

整个流程 5 分钟。

玩法 5：「拍化验单 → 健康报告 → 调理方案」

[拍年度体检化验单]

请帮我：
1. 解读所有指标
2. 找出 5 个最该关注的异常
3. 给我"30 天健康调理方案"（饮食 + 运动 + 作息）
4. 推荐 5 道"针对我异常指标"的食谱
5. 提醒我"3 个月后要复查"哪些项目

13.8 一个真实案例：自媒体博主的"全模态工作流"

我朋友是做"宠物科普"的小红书博主，30 万粉。

她的"全模态工作流":

早晨（图片 → 文字）

带狗散步，拍一张狗在公园的照片，让元宝写"小红书文案"：

[拍照]

我家是 [品种]，[年龄]，[性格]。
请帮我用"日常碎片记录"的风格写一篇小红书。
要求：80-150 字，3 个段落，末尾 3 个 hashtag。

上午（录音 → 文字）

跟兽医通了 30 分钟电话（征得对方同意后录音），让元宝转写：

[上传录音]

请提取兽医说的"5 个最有价值的科普点"，每个用 100 字白话总结，方便我写成科普图文。

下午（拍照 → 视频）

拍一段狗狗的精彩瞬间，让元宝生成"AI 视频片段"补充剪辑：

[拍照]

请基于这张图，生成一段 5 秒的"延伸视频"，让狗狗"看起来在跑动+回头看镜头"。我要做视频开头。

晚上（语音 → 文字 → 排版）

边躺床上边语音输入"今天的灵感"，让元宝整理成"明天的选题"：

[语音输入：今天遇到的 5 个想法...]

请帮我：
1. 整理我刚才说的 5 个想法
2. 评估每个的"小红书可行性"
3. 推荐"明天先写哪 1 篇"
4. 给我一份"明天上午 1 小时能写完"的提纲

全程几乎不用"打字"——全是"拍/说/听"，效率比她过去用 PC 写稿高 3 倍。

13.9 多模态创作的 5 个翻车

翻车 1：录音环境太吵

症状：录出来的内容元宝听不清，转文字一塌糊涂

解法：手机离声源近一点（30cm 以内），关掉空调/风扇/电视

翻车 2：拍照太糊

症状：元宝识别不出图片内容

解法：保持手抖、光线足、对焦清晰；或换更近距离重拍

翻车 3：AI 视频"期待过高"

症状：要求生成"30 秒电影级别"，结果效果一般

解法：5-15 秒最稳；想要电影级效果需要后期手动剪辑

翻车 4：语音通话"环境干扰"

症状：在地铁/餐厅，元宝听不清你说什么

解法：用蓝牙耳机；或者切回文字模式

翻车 5：拍照翻译"信息过载"

症状：拍了一整页文字，翻译后乱成一团

解法：分块拍——每次拍 1 段（不超过 100 字），翻完再拍下一段

13.10 本章一图回顾

                  「多模态创作」
                          │
        ┌─────────────────┼─────────────────┐
        ▼                 ▼                 ▼
     输入模态           输出模态           交互模态
     拍照               文字               语音通话
     录音               图片               实时叠加
     视频               视频               
     文件               音频               
        │                 │                 │
        └─────────┬───────┴────────┬────────┘
                  ▼                ▼
            场景应用              组合玩法
            AI 视频生成           拍图 → 写诗
            AI 录音笔             录音 → 翻译 → 视频
            语音通话              会议 → PPT
            拍照翻译              化验单 → 调理方案
            拍照识别              
                          │
                          ▼
                  AI 用"五感"陪你
              不再是"屏幕里的助手"
              而是"全感官的伙伴"

13.11 5 分钟动手实验

✅ 实验 1（1 分钟）：AI 视频

用 13.2 的提示词
让元宝生成一段 10 秒视频

✅ 实验 2（1 分钟）：AI 录音笔

录下你今天的 1 分钟独白
让元宝转文字 + 总结要点

✅ 实验 3（1 分钟）：语音通话

打开手机 App → 话筒按钮
跟元宝聊 1 分钟"今天发生的事"

✅ 实验 4（1 分钟）：拍照识别

拍一张你身边的物品
让元宝告诉你"这是什么+怎么用+价格区间"

✅ 实验 5（1 分钟）：组合玩法

用 13.7 玩法 1，拍一张图让元宝写诗

13.12 读完这章你应该知道

✅ 元宝能"看/听/说/造/写"——五种感官全开
✅ AI 视频：5-15 秒短片，提示词要包括"场景/主角/动作/氛围/运镜"
✅ AI 录音笔：开会录音→自动转写→提取行动项，是上班族最该用的功能
✅ 语音通话：通勤、家务、老人陪伴的最佳形态
✅ 拍照翻译：出国旅游必备，菜单/招牌/医疗单都能翻
✅ 拍照识别：植物/菜/商品/宠物/家电都能问
✅ 多模态组合玩法是高手的标志（拍图 → 写诗 → 视频）
✅ 5 个翻车点：录音吵 / 拍照糊 / 视频期待过高 / 语音环境差 / 翻译信息过载

下一章：第十四章智能体广场与元器——元宝智能体广场怎么挑、用腾讯元器零代码造一个属于你的智能体并发布。

第十三章 多模态创作

13.1 多模态：让 AI 用"五感"陪你

13.2 AI 视频：一句话生成 5-15 秒短片

操作

示范

适用场景

提示词的"5 个关键要素"

视频生成的"边界"

13.3 AI 录音笔：开会再也不用记纪要

操作

方式 1：实时录音

方式 2：上传已有录音

元宝能做什么

真实案例：一场 60 分钟会议

适用场景

录音笔的"高级玩法"

玩法 1：录完就翻译

玩法 2：长录音"分章节"

玩法 3：会议"复盘"

13.4 语音通话：像跟人打电话一样跟 AI 聊

操作

体验

适合的场景

场景 1：早晨"开机"

场景 2：开车路上

场景 3：英语口语陪练

场景 4：老人陪伴

场景 5：心理树洞

语音通话 vs 文字对话

13.5 拍照翻译：出国旅游再也不慌

操作

适用场景

场景 1：海外餐厅菜单

场景 2：地铁站名

场景 3：商品成分表

场景 4：医院就诊单

支持的语言

反向操作：把中文翻译给老外看

13.6 拍照识别：拍什么都能问

适用场景

场景 1：拍植物 → 知道是什么花

场景 2：拍菜 → 教你做

场景 3：拍商品 → 比价

场景 4：拍宠物 → 知道病情

场景 5：拍家电故障 → 排查

13.7 多模态联动的"高阶组合玩法"

玩法 1：「拍图 + 写诗」

玩法 2：「录音 + 翻译 + 视频」

玩法 3：「拍菜单 + 推荐 + 拍照打卡」

玩法 4：「会议录音 → PPT」

玩法 5：「拍化验单 → 健康报告 → 调理方案」

13.8 一个真实案例：自媒体博主的"全模态工作流"

早晨（图片 → 文字）

上午（录音 → 文字）

下午（拍照 → 视频）

晚上（语音 → 文字 → 排版）

13.9 多模态创作的 5 个翻车

翻车 1：录音环境太吵

翻车 2：拍照太糊

翻车 3：AI 视频"期待过高"

翻车 4：语音通话"环境干扰"

翻车 5：拍照翻译"信息过载"

13.10 本章一图回顾

13.11 5 分钟动手实验

✅ 实验 1（1 分钟）：AI 视频

✅ 实验 2（1 分钟）：AI 录音笔

✅ 实验 3（1 分钟）：语音通话

✅ 实验 4（1 分钟）：拍照识别

✅ 实验 5（1 分钟）：组合玩法

13.12 读完这章你应该知道

第十三章多模态创作