超能力全景 · 豆包橙皮书

5.1 豆包的"五感"地图

我们先把豆包的 10 个超能力分类列出来，让你心里有个全景：

                ┌─── 看 (5.2 拍照识图)
                │
                ├─── 听 (5.3 实时语音通话 / 5.4 视频通话)
                │
   豆包的五感 ──┤
                ├─── 说 (5.5 朗读 / 多音色)
                │
                ├─── 写 (5.6 长文档处理)
                │
                └─── 画 (5.7 AI 绘画 / 5.8 AI 视频)

                ┌─── 联网 (5.9 AI 搜索)
                │
   豆包的"外脑"──┤
                ├─── 思考 (5.10 深度思考)
                │
                └─── 整理 (5.11 思维导图 / AI 播客)

每一节我们都讲三件事：

它是什么
怎么用（完整步骤）
3 个真实场景演示

5.2 看：拍照识图（豆包最被低估的能力）

5.2.1 这是什么

豆包能"看"图。你给它任何一张图——拍的、截的、网上下的——它都能：

识别图里有什么（物体、文字、人）
解读图的含义
回答你针对这张图的问题
翻译图里的外文
解决图里的题目

5.2.2 怎么用

手机端：

在对话框点 + 号
选 拍照 或 从相册
选好图后，输入你的问题
发送

电脑端：

把图直接拖进对话框
或者按 Ctrl + V 粘贴剪贴板里的截图
输入问题
发送

5.2.3 场景 1：拍菜单点菜

你出差到一个陌生城市，进了一家本地菜馆，看着菜单一脸懵——"鸡公煲""九转大肠""糟卤拼盘""芋儿鸡"，根本不知道是啥。

做法：

拍下整张菜单
输入：这是某餐厅的菜单。我是北方人，第一次吃这种菜，不能吃辣，预算 100 元一个人。请帮我推荐 3 道菜，告诉我每道是什么、什么味道、有什么注意的。
豆包会给你 3 道菜的推荐，含口味、做法、注意事项。

5.2.4 场景 2：看体检报告

你拿到体检报告，密密麻麻一堆指标，看不懂哪些"↑"是要紧的、哪些是没事的。

做法：

拍下完整的体检报告（多张可以一起拍）
输入：

我 35 岁男性，体重 72kg，身高 175cm，无家族病史，平时偶尔运动。
请帮我看这份体检报告，告诉我：
1. 哪些指标"↑"或"↓"是需要重点关注的？
2. 哪些可以忽略？
3. 我接下来 3 个月的生活方式上有什么具体调整建议？
4. 哪些指标必须去医院找医生进一步检查？

请用大白话，不要堆医学术语。
最后一定要加一句"建议去医院咨询专业医生"。

豆包会逐项给你解读，划出重点。

重要提醒：豆包不能替代医生。涉及病情判断的，一定要去医院。豆包的解读只是"帮你看懂报告"，不是"诊断"。

5.2.5 场景 3：解题答疑

你或者你家孩子做作业被一道题卡住了。

做法：

拍下题目（可以拍整页，让豆包圈出哪道题）
输入：请帮我解第 3 题。先不要给我答案，给我 2 个思路提示。如果我还是想不出来，我会让你给完整解答。
豆包给思路
你想了一会，还不会，追问：我还是不会，请给完整解答，每一步要解释为什么这么做。
豆包给完整解答
你看懂了，再追问：请按这道题的思路出 3 道类似的题给我练，不要给答案。

这是一个完整的"自学闭环"。详见第七章。

5.2.6 拍照的"小技巧"

光线要够：太暗的图豆包看不清。
不要太斜：尽量垂直拍。
多张图一起发：豆包能同时处理多张图，让它"对比"或者"汇总"。
截图比拍照清晰：能截图就别拍照。
图里别有遮挡：手指、阴影、反光都会影响识别。

5.2.7 5 分钟实验：拍 3 件你身边的东西

挑 3 件你身边的东西（家电、药盒、零食袋、衣服吊牌），拍下来问豆包：

衣服吊牌 → "这件衣服怎么洗？"
药盒 → "这盒药能和 [其他药] 一起吃吗？有什么副作用？"
零食袋 → "这包零食热量多少？哪些成分要注意？"

体会一下：豆包的"眼睛"已经是普通人随身带着的"百科全书"。

5.3 听 + 说：实时语音通话

5.3.1 这是什么

不是"你录音、它转文字"那种古老的方式。豆包的语音通话是真正的实时双向对话——你说话它听、它说话你听，可以打断，像和真人打电话一样。

截至 2026 年 4 月，豆包提供：

40+ 种音色：男声、女声、老人、小孩、明星仿生、动漫角色、温柔大姐姐、东北大叔、广东老板娘⋯⋯
20+ 种方言识别：四川话、东北话、广东话、上海话、湖南话、河南话⋯⋯
真实情感语调：会笑、会叹气、会停顿、会"嗯"

5.3.2 怎么用

手机端（强烈推荐）：

打开豆包 App
在底部找到"通话"Tab，或者在对话界面找到"电话"图标
点进去，第一次会让你选 "音色"
选好后进入通话界面，对着手机说话即可
你可以随时打断它（说话时它会自动停下听你）
结束通话点"挂断"

桌面端：

按全局快捷键 Alt + D 唤出语音通话。

5.3.3 场景 1：开车通勤的"陪聊"

你每天上下班 1 小时通勤，想充实一下时间，但开车没法看手机。

做法：

把豆包通话开起来，告诉它：

我现在在开车，你陪我聊点东西。
我对中国近代史最感兴趣，
请你今天讲一下"五四运动"那段历史，
讲得像故事一样，不要像教科书。
讲 20 分钟，到了我目的地我会告诉你停下。
我中间会问问题，你及时回答。

豆包会用故事化的语言讲 20 分钟。你可以中途插嘴问"那当时的青年人是怎么想的""有名的代表人物是谁"，它会停下解答再继续。

5.3.4 场景 2：英语口语陪练

你想练英语口语，但找外教太贵、找语伴太尴尬。

做法：

选一个英语音色（豆包有 native English speaker 音色）
进入通话
说：Let's have an English conversation. I'm a B1 level learner. Today's topic is "weekend plans". Please correct my grammar mistakes after I finish each sentence. Speak slowly. Let's start.

整个对话用英文进行，豆包会：

配合你的水平说慢一点
在你说完后指出你的错误（不要在你说话中间打断你）
帮你建议更地道的说法

详见第七章。

5.3.5 场景 3：心情低落想有个人聊聊

你今天遇到点烦心事，但不想麻烦朋友。

做法：

选一个温柔的女声 / 大叔音色，进入通话：

我今天工作上遇到一些事，心情不太好，
但我现在还不想聊具体发生了什么，
你能不能先就这样陪我说说话？
随便聊点轻松的、不用动脑的话题。
我准备好了再告诉你具体的事。

豆包会理解你的情绪，先和你聊点轻松的，等你愿意说时再深入。

重要：豆包不是心理医生。如果你长期有抑郁、焦虑等问题，请寻求专业帮助。豆包能做的是"短期陪伴"，不能"治疗"。

5.3.6 通话功能的小技巧

常用音色可以收藏，每次进通话不用重新选
如果你说话比较慢、比较小声，可以在设置里调整"语音灵敏度"
背景噪音大的环境（地铁、咖啡馆），戴耳机效果会好很多
重要对话可以开"通话总结"，结束后豆包会自动生成纪要

5.3.7 5 分钟实验：用方言和豆包聊天

如果你会任何一种方言，用方言和豆包通话试试。

四川人："给我用四川话讲个笑话"
东北人："咱俩唠点嗑，你拿东北腔说"
广东人："用粤语讲一段香港的故事"

你会发现豆包真的能听懂方言，也能用方言回应。这是 ChatGPT 等海外 AI 做不到的事。

5.4 看 + 听：视频通话

5.4.1 这是什么

视频通话是语音通话的升级版——豆包不仅能听你说，还能看到你摄像头里的画面，并基于画面回答你。

5.4.2 怎么用

进入语音通话界面
点 视频 按钮（开启摄像头）
把镜头对准你想让豆包"看"的东西
一边说话一边给它看

5.4.3 场景 1：让豆包"看"PPT 给你讲

你下载了一份 PPT，比如某位名师的课件，你想让豆包"陪你看"，遇到不懂的就问。

做法：

把 PPT 投在大屏幕上，或者打开在另一个屏幕上
用手机视频通话，把摄像头对准 PPT
翻一页，问：这一页讲什么？给我用大白话解释
翻下一页，问：刚才那张图我没看懂，能不能换个例子讲

整个过程像有一个"私人讲师"陪你看。

5.4.4 场景 2：让豆包"看"数学题

孩子做题不会，你也不会。

做法：

视频通话开起来
摄像头对准题
说：这道题我女儿在做，先不要给答案，告诉她思路
听到豆包讲思路后，让女儿试着做
做对了让豆包鼓励她
做错了让豆包指出哪一步错了

整个过程是一个亲子学习场景——比给孩子单独抛个 App 强 10 倍。

5.4.5 场景 3：让豆包"看"你做菜

你跟着小红书学做菜，做到一半不确定"火候够不够"、"颜色对不对"。

做法：

视频通话开着，手机架在厨房
摄像头对着锅
说：我在做番茄炒蛋，现在颜色这样可以了吗？还要再炒多久？

豆包会告诉你"再翻炒 30 秒就关火"。

5.4.6 5 分钟实验：让豆包"看你的家"

打开视频通话，把摄像头慢慢扫一圈你的客厅，问豆包：

我家客厅你刚才看到了，
请你以一个室内设计师的角度，
给我 3 条改善建议，
要具体可执行，不要让我"换沙发""刷墙"这种大动干戈的事，
预算 500 元以内能做的事。

体会一下：豆包的"眼睛 + 嘴"加在一起，相当于一个移动的、便宜的、24 小时在线的"私人顾问"。

5.5 说：朗读、多音色、AI 主持

5.5.1 这是什么

豆包不只能"和你说话"，还能：

把任何文字"朗读"给你听
用 40+ 音色生成"配音"
把你写的内容生成"AI 主持人播报"

5.5.2 怎么用

朗读单段文字：

长按豆包对话里的某段文字
选 朗读
选音色
听

生成配音：

请用"沉稳大叔"音色，
朗读以下这段文字，
节奏缓慢，带情绪：

[贴上你要朗读的文字]

请直接生成可下载的音频。

5.5.3 场景 1：把长文章变成"开车听"

你 mark 了一篇 10000 字的长文章，想看但没时间。

做法：

把文章贴给豆包，或者上传 PDF
输入：帮我把这篇文章转成 10 分钟左右的口播稿，分章节，方便我开车听。
豆包会改写成口播版
让豆包朗读：用"温柔女声"朗读这份口播稿，生成 mp3。

你就有了一份"私人广播节目"。

5.5.4 场景 2：给孩子讲睡前故事

孩子今天非要听故事，你嗓子哑了。

做法：

请用"温柔妈妈"音色，
讲一个 8 分钟左右的睡前故事给 5 岁小孩听，
主题是"小动物之间的友情"，
要有起承转合，
最后落在"勇敢面对困难"上，
讲述节奏要慢，
适合孩子听着入睡。

豆包会生成故事 + 朗读音频，你点击播放就行。

5.5.5 场景 3：给短视频配音

你做短视频，自己声音不行。

做法：

把脚本贴给豆包，让它用合适的音色朗读，下载下来当旁白。详见第九章。

5.6 写：长文档处理（一次性 100 万字）

5.6.1 这是什么

豆包支持单次最多 100 万字的文档处理。100 万字是个什么概念？《红楼梦》全本约 80 万字。也就是说你可以一次性把《红楼梦》扔给豆包让它总结。

支持的格式：

PDF（含扫描版，会先 OCR）
Word（.doc / .docx）
Excel（.xls / .xlsx）
PowerPoint（.ppt / .pptx）
图片（OCR 识别）
纯文本（.txt）
Markdown（.md）

5.6.2 怎么用

手机端：

在对话框点 +
选 文件
从手机文件、微信、钉钉、QQ 选

电脑端（最方便）：

把文件直接拖进对话框

上传后等几秒，豆包会"读完"，然后你可以问任何问题。

5.6.3 场景 1：5 分钟读完 100 页 PDF

你下载了一份 100 页的行业报告，没时间细读。

做法：

拖进豆包
输入：

请帮我处理这份报告：
1. 用 5 句话总结整体内容
2. 列出报告的 5 个核心观点
3. 列出报告的 3 个最值得我深入研究的图表，告诉我图表在第几页
4. 列出报告的 3 个有争议或证据不足的地方
5. 给我一份"如果只有 10 分钟看，看哪几页"的建议

5 分钟你就掌握了一份 100 页的报告。

5.6.4 场景 2：合同审查

你要签一份 30 页的劳动合同 / 房屋买卖合同 / 装修合同。

做法：

把合同 PDF 拖进豆包
输入：

你是一名 [合同类型] 领域 15 年经验的律师。

请帮我审查这份合同，重点告诉我：
1. 哪些条款明显不利于我（甲方/乙方/买方/卖方）？
2. 哪些条款有"陷阱"（看起来正常其实有坑）？
3. 哪些条款是空白或模糊的，应该补上？
4. 签合同前必须和对方再确认的 5 个问题
5. 如果只能修改 3 处，最该改哪 3 处

请加免责声明："不能作为正式法律意见，重大事项请咨询专业律师。"

格式：表格 + 总结。

5.6.5 场景 3：读书笔记

你想读一本 50 万字的电子书，但没时间细读。

做法：

把电子书 PDF / Word / TXT 拖进豆包
输入：

请帮我做这本书的读书笔记：
1. 全书核心思想用 3 句话概括
2. 列出 10 个最有启发的观点，每个含原文 + 我的应用场景建议
3. 列出 5 个我可能不同意的观点，给我"换一个角度想"的提示
4. 推荐 5 本"如果你喜欢这本书，那你也会喜欢"的延伸阅读

格式：Markdown，方便我导出到笔记软件。

5.6.6 长文档处理的小技巧

上传后先让豆包"概述"一下，确认它读完了再问细节
大文件分章上传有时比一次性上传效果好
涉及表格的 PDF，截图发给豆包效果比文字 PDF 还好
100 万字是上限，多数情况你用不到

5.7 画：AI 绘画（Seedream 4.0）

5.7.1 这是什么

豆包内置 AI 绘画功能，背后是字节自研的 Seedream 4.0 模型。截至 2026 年 4 月，免费用户每天 10 张。

它能：

文生图（你写一段描述，它出图）
图生图（基于一张图改造）
局部编辑（涂掉图的某部分让它重画）
文字渲染（图里的中英文字能精准显示）
20+ 种艺术风格（水墨、油画、赛博朋克、Q 版⋯⋯）

5.7.2 怎么用

手机端：

在豆包对话里输入 画一张 ...，豆包会自动调用绘画
或者去"智能体"里找 AI 绘画 智能体

网页 / 桌面端：

在对话里输入"画一张 ..."

5.7.3 一段好的"画图提示词"长什么样

❌ 不好的：

画个女孩

✅ 好的：

一个长发亚洲女孩，约 25 岁，穿米色风衣，
站在傍晚的杭州西湖边，
背景是逆光的雷峰塔和桔色晚霞，
微风拂动她的头发，
表情温柔带一丝若有所思。
画风：宫崎骏动画风格，温暖配色，
画面比例：竖版 9:16，
镜头：中景，膝盖以上。

公式：主体 + 服装 + 场景 + 光线 + 表情/动作 + 风格 + 比例 + 镜头。

5.7.4 场景 1：朋友圈头像

画一只圆润可爱的橘猫，
它正趴在窗台上看着窗外飘下的雪花，
背景是温暖的客厅，有一杯冒着热气的咖啡，
画风：插画风，柔和温暖的配色，
比例：1:1 方形，
适合做微信头像。

5.7.5 场景 2：小红书封面

做一张小红书封面图：
中间放大字 "新手入门指南"（中文），
副标题 "从 0 到 1 的 30 天"（中文），
背景是浅米色 + 几朵小雏菊点缀，
整体风格：简约、清新、ins 风，
比例 3:4，竖版。

5.7.6 场景 3：商业海报

做一张茶饮店开业海报：
主标题 "新店开业"（中文，大字，金色），
副标题 "首杯免单"（红色），
背景：一杯冰镇水果茶在木桌上，背景是绿植 + 阳光，
画风：摄影写实，
顶部留白处加店名 "茶语花间"（书法字体），
底部加日期 "2026 年 5 月 1 日"，
比例：A4 竖版。

5.7.7 局部编辑

画好一张图后，如果某个细节不满意：

点图上的"编辑"按钮
用"涂抹"画笔涂掉不满意的部分
输入"把这里改成 ..."
重新生成

例如：你画了一只猫，但豆包给的猫是黑色的，你想要橘色：

涂掉猫
输入"换成一只胖橘猫"
重新生成

5.7.8 5 分钟实验：给自己画一张头像

试试给自己画一张 AI 头像：

画一张我的卡通头像：
[你的特征：性别、年龄、发型、戴不戴眼镜、身材]
背景：[你喜欢的氛围]
表情：[你想表达的状态]
画风：[宫崎骏 / 迪士尼 / 国漫 / 油画 / 简约线条]
比例：1:1，圆形适配。

下载下来，换成你的微信头像。

5.8 摄：AI 视频（Seedance）

5.8.1 这是什么

豆包内置 AI 视频生成功能，背后是字节自研的 Seedance 模型。

它能：

图生视频：上传一张图，让它"动起来"
文生视频：写一段描述，生成短视频
输出 1080P 短视频，时长一般 5～15 秒
多种风格：写实、动画、国风、电影质感

5.8.2 怎么用

在豆包对话里搜 AI 视频 智能体
或者直接说"帮我生成一个视频，内容是 ..."
上传图（如果是图生视频）
描述"想让它怎么动"
等几十秒到几分钟出片

5.8.3 场景 1：让老照片"动起来"

你有一张外公外婆年轻时的黑白合照，想让它"动起来"做念想。

做法：

上传照片
输入：

让这张照片里的两位老人轻轻笑一下，
然后互相看一眼，
背景保持不变，
风格：温暖怀旧，
不要任何夸张动作，
只要自然的微表情。

豆包会输出一个 5 秒左右的小视频。

5.8.4 场景 2：商品展示视频

你做电商，想给商品做一个 5 秒的展示视频。

做法：

上传商品图
输入：

让这件白色 T 恤在画面中缓缓旋转 360 度，
背景是浅米色简约棚拍，
有柔和光线从右上方打过来，
最后一帧定格在正面，
风格：商业摄影。

5.8.5 场景 3：给孩子做"成长动画"

你有孩子从 0 岁到现在的几张照片。

做法：

我有 5 张照片，分别是孩子 1 岁、3 岁、5 岁、7 岁、9 岁。
请帮我做一段 30 秒的成长视频，
每张照片用 6 秒，
照片之间用渐变过渡，
配 BGM 是温暖的钢琴曲。
（注：豆包目前可能需要分段生成，最后用剪映等拼接）

5.8.6 视频生成的小限制

每天有免费额度，超出后等第二天或者付费
单次时长一般 5～15 秒，不是真的能生成一部电影
涉及人物动作的，手部、表情可能略不自然
复杂场景（多人、多动作）不太稳，建议简化

详见第九章。

5.9 联：AI 搜索（实时联网）

5.9.1 这是什么

豆包默认的回答有时是基于训练数据的，所以可能"过时"。但它有一个超级武器：AI 搜索——能实时联网搜索最新信息。

数据源覆盖：

今日头条（实时新闻）
抖音（视频内容、热点）
微博（社交舆论）
百度（通用搜索）
主流网站

5.9.2 怎么用

默认就开着——你问"今天发生了什么大事"、"某某明星最近有什么动态"，豆包会自动联网。

如果想强制让它搜：

请实时联网搜索后回答：[你的问题]
请给出信息来源链接。

5.9.3 场景 1：今日资讯精选

每天早上看新闻太累。

做法：

请帮我整理今天 (2026 年 X 月 X 日) 国内外最重要的 5 条新闻，
每条用 100 字以内说清楚是什么、为什么重要、可能的后续影响。
分类：国际 / 国内 / 科技 / 财经 / 文体。

5.9.4 场景 2：旅游目的地实时信息

你下周去三亚，想知道现在那边的情况。

做法：

请联网搜索后告诉我：
1. 三亚下周（X 月 X 日 - X 月 X 日）的天气预报
2. 三亚最近有没有什么活动 / 节庆 / 演出
3. 三亚有没有最近 1 个月新开的网红餐厅或景点
4. 三亚最新的避坑提醒（哪些景点变贵了、哪些被吐槽多）
5. 三亚目前的人流情况（淡旺季、住宿价格趋势）

每条给出信息来源。

5.9.5 场景 3：股价 / 行情

请联网查一下：
1. 最近一周 A 股大盘走势
2. 哪些行业涨幅居前
3. 这背后的市场逻辑是什么
4. 普通散户该如何理解这个走势

注意：以上仅作信息了解，不构成投资建议。

5.9.6 AI 搜索的"限制"

搜索结果有 1～5 秒延迟，不要用来盯股票或者抢购
个别小众网站可能搜不到
有时候会"懒搜"——返回的信息其实不够新，要追问"再搜一次"
涉及隐私的搜索（比如某人具体住址）会被拒绝

5.10 思：深度思考模式

5.10.1 这是什么

豆包默认是"快速回答"——给你一个答案。深度思考模式是让豆包"先想再答"——它会内部走多步推理，最后给你一个更慎重的答案。

类比一下：

默认模式 = 朋友间随口聊
深度思考 = 朋友坐下来认真给你出主意

适合用深度思考的场景：

复杂的数学 / 逻辑题
重要决策（换工作、买房、要不要分手）
需要多角度分析的问题
写正式文档（论文、报告）

不适合用深度思考的场景：

简单问答（"今天天气如何"）
闲聊
创意发散（深度思考会让创意"变保守"）

5.10.2 怎么用

在对话框附近，找一个 深度思考 开关（图标可能是大脑、灯泡或类似），点亮它。

或者在提示词里直接说：

请深度思考后回答：[你的问题]

5.10.3 场景 1：复杂决策

[开启深度思考]

我面临一个决策：
- 选项 A：继续在现公司，年薪 30 万，工作稳定但没成长
- 选项 B：跳槽到一个创业公司，年薪 45 万但有 30% 概率公司一年内倒闭
- 选项 C：辞职 Gap 半年，去东南亚边玩边学新技能，准备转行做自由职业

我的情况：
- 32 岁，单身，无房贷
- 存款 60 万
- 父母身体健康但年纪大了
- 我做的是产品经理

请深度思考后给我：
1. 每个选项的"5 年后"可能场景
2. 每个选项的最大风险点
3. 你会选哪个，为什么
4. 决策前我必须再问自己的 3 个问题

5.10.4 场景 2：复杂数学题

[开启深度思考]

请帮我解这道题：
[题目]

要求：
1. 列出每一步的推理
2. 解释为什么这一步要这么做
3. 最后给出最简化的解法

5.10.5 深度思考的"代价"

回答会慢很多（5～30 秒）
答案会更长
有时候会"想太多"，给出过于复杂的方案

详见第十一章。

5.11 整：思维导图 / AI 播客

5.11.1 思维导图

豆包能基于一段内容自动生成思维导图。

做法：

请基于以下内容，生成一份思维导图：
[你的内容]

要求：
- 中心是 [核心主题]
- 二级节点不超过 5 个
- 每个二级节点下三级节点不超过 5 个
- 最后输出可以导入 XMind 或者 ProcessOn 的格式

豆包会输出 Markdown 格式的大纲，你可以一键导入主流思维导图工具。

5.11.2 AI 播客

豆包有一个"AI 播客"功能（部分版本叫"AI 主播"或"AI 朗读"），它能：

把一段文字改写成"对话体"
用两个不同音色"主持人对话"
自动配音、配 BGM
输出可下载的 mp3

做法：

请把以下内容改写成两个主持人对话的播客脚本：

[内容]

要求：
- 主持人 A：温柔女声，年龄 30
- 主持人 B：幽默男声，年龄 35
- 节奏：轻松、有互动
- 时长目标：5 分钟左右
- 中间插入 1 个"听众提问"环节
- 最后做"今日金句"总结

生成完后请用对应音色合成音频。

5.11.3 思维导图实战：把这本书的目录变成图

试试看：

请基于以下大纲，生成一份思维导图，
方便我快速记住整本书的结构：

[把本书的 README 目录贴上去]

要求：
- 中心是"豆包橙皮书"
- 每章作为二级节点
- 每章下的关键内容作为三级节点
- 输出 Markdown 格式

5.12 把所有超能力"组合"起来

豆包真正的威力，是把多个超能力组合用。

举一个完整的例子。场景：你想做一个 "30 秒短视频" 推荐你新开的烘焙店。

Step 1（写）：让豆包写文案

帮我写一个 30 秒短视频脚本，宣传我新开的烘焙店"麦香巷"，
主打健康低糖、手工现烤、亲子友好。

Step 2（画）：让豆包出 5 张配图

基于刚才的脚本，给我画 5 张配图：
1. 烤箱里的面包出炉特写
2. 一对母女一起做小蛋糕
3. ...

Step 3（说）：让豆包配音

用"温柔女声"音色，
按刚才的脚本生成配音 mp3。

Step 4（动）：让豆包做视频

基于配图 1，让面包从烤箱里慢慢端出来，
冒着白色热气，配上诱人的特写。
生成 5 秒视频。

Step 5（搜）：让豆包查一下当下流行的话题

联网搜索一下：
现在抖音上"烘焙店开业"类视频，
最热的话题标签和爆款视频结构是什么？
帮我优化我的脚本。

Step 6（思）：让豆包做整体策略

[开启深度思考]
基于以上所有内容，
帮我做一份"麦香巷"30 天小红书 + 抖音运营计划，
含每周的内容主题、发布频次、互动玩法。

6 个步骤，6 个超能力，1 个完整作品。

详见第九章。

5.13 5 分钟动手实验：把今天最难的一件事"全感官"做一遍

挑你今天最难的一件事——

一个不会做的题（拍照 + 解题）
一份长报告（拖文件 + 总结）
一份合同（拖文件 + 审查）
一段不会写的文案（写 + 朗读 + 出图）
一个想不通的决策（深度思考）

不要只用"打字问"。用上至少 3 个超能力——比如"拍 + 思 + 写"，或者"传 + 思 + 朗读"。

完成之后你会有一个直观感受："原来我之前 95% 的时间都只用了豆包 5% 的能力。"

本章小抄

豆包的 10 大超能力
─────────────────
看（拍照） — 体检报告、菜单、解题、识物
听 + 说（语音） — 通话、陪聊、英语口语、方言
看 + 听（视频） — 看 PPT、看作业、看做菜
说（朗读） — 长文转音频、配音、睡前故事
写（长文档） — 100 万字、合同、报告、读书笔记
画（绘画） — 头像、海报、商品图、插画
摄（视频） — 老照片动起来、商品展示
联（搜索） — 实时新闻、行情、避坑
思（深度思考） — 决策、复杂题、正式文档
整（思维导图 / 播客） — 把内容变成"图"或"广播"

3 个心法
─────────────────
1. 别只用"打字问"，70% 的能力在另外 90% 的入口里
2. 同一个任务可以用多个超能力组合
3. 不知道用什么时，问豆包："这件事你建议我用哪个功能？"

下章预告

理论 + 工具 + 提示词 + 超能力，到这里已经全部讲完。从第六章开始，我们进入 场景实战四连章——生活、学习、工作、创作，每章 10 个真实场景，每个都给完整可复制的提示词。

第六章先聊生活。

第五章 豆包的超能力全景：搜索、拍照、语音、绘画、视频、文档

5.1 豆包的"五感"地图

5.2 看：拍照识图（豆包最被低估的能力）

5.2.1 这是什么

5.2.2 怎么用

5.2.3 场景 1：拍菜单点菜

5.2.4 场景 2：看体检报告

5.2.5 场景 3：解题答疑

5.2.6 拍照的"小技巧"

5.2.7 5 分钟实验：拍 3 件你身边的东西

5.3 听 + 说：实时语音通话

5.3.1 这是什么

5.3.2 怎么用

5.3.3 场景 1：开车通勤的"陪聊"

5.3.4 场景 2：英语口语陪练

5.3.5 场景 3：心情低落想有个人聊聊

5.3.6 通话功能的小技巧

5.3.7 5 分钟实验：用方言和豆包聊天

5.4 看 + 听：视频通话

5.4.1 这是什么

5.4.2 怎么用

5.4.3 场景 1：让豆包"看"PPT 给你讲

5.4.4 场景 2：让豆包"看"数学题

5.4.5 场景 3：让豆包"看"你做菜

5.4.6 5 分钟实验：让豆包"看你的家"

5.5 说：朗读、多音色、AI 主持

5.5.1 这是什么

5.5.2 怎么用

5.5.3 场景 1：把长文章变成"开车听"

5.5.4 场景 2：给孩子讲睡前故事

5.5.5 场景 3：给短视频配音

5.6 写：长文档处理（一次性 100 万字）

5.6.1 这是什么

5.6.2 怎么用

5.6.3 场景 1：5 分钟读完 100 页 PDF

5.6.4 场景 2：合同审查

5.6.5 场景 3：读书笔记

5.6.6 长文档处理的小技巧

5.7 画：AI 绘画（Seedream 4.0）

5.7.1 这是什么

5.7.2 怎么用

5.7.3 一段好的"画图提示词"长什么样

5.7.4 场景 1：朋友圈头像

5.7.5 场景 2：小红书封面

5.7.6 场景 3：商业海报

5.7.7 局部编辑

5.7.8 5 分钟实验：给自己画一张头像

5.8 摄：AI 视频（Seedance）

5.8.1 这是什么

5.8.2 怎么用

5.8.3 场景 1：让老照片"动起来"

5.8.4 场景 2：商品展示视频

5.8.5 场景 3：给孩子做"成长动画"

5.8.6 视频生成的小限制

5.9 联：AI 搜索（实时联网）

5.9.1 这是什么

5.9.2 怎么用

5.9.3 场景 1：今日资讯精选

5.9.4 场景 2：旅游目的地实时信息

5.9.5 场景 3：股价 / 行情

5.9.6 AI 搜索的"限制"

5.10 思：深度思考模式

5.10.1 这是什么

5.10.2 怎么用

5.10.3 场景 1：复杂决策

5.10.4 场景 2：复杂数学题

5.10.5 深度思考的"代价"

5.11 整：思维导图 / AI 播客

5.11.1 思维导图

5.11.2 AI 播客

5.11.3 思维导图实战：把这本书的目录变成图

5.12 把所有超能力"组合"起来

5.13 5 分钟动手实验：把今天最难的一件事"全感官"做一遍

本章小抄

下章预告

第五章豆包的超能力全景：搜索、拍照、语音、绘画、视频、文档