多模态实战 · Gemini 橙皮书

本章你将学到

6 大多模态场景：图片、文档、音频、视频、YouTube、屏幕共享
每个场景的"上手步骤 + 提示词模板 + 真实例子"
Gemini Live 实时模式怎么用（这是免费版用户最容易忽略的杀手锏）
各种格式、大小、时长的限制（避免踩坑）

一、原生多模态是什么意思？

ChatGPT 早期是"文字模型 + 后接的图像识别 + 后接的语音"，三个东西被胶水粘在一起。 Gemini 从 1.0 开始就是"一个模型同时学会了文字 + 图片 + 视频 + 音频"。

差别有多大？举两个真实例子：

给 Gemini 一段视频，让它说"这个人 0:45 时在笑什么"——它能联系画面 + 字幕 + 音调 + 上下文回答。
给 Gemini 一张拍歪的食谱照片，让它"识别食材并提供做法"——它不只识别文字，还能根据图片中的食材本身判断。

下面我们逐个场景上手。

二、场景 1：图片识别 + 解读

上手 3 步

打开 Gemini App / 网页。
点输入框左边的"+"或""，选择"上传图片"或"拍照"。
配上一句问话。

6 个高频提示词

A. 拍植物 / 动物

这是什么？给我详细介绍一下，并告诉我：
1）它的常见名 / 学名
2）它有毒吗？能吃吗？
3）3 个我不知道的冷知识
4）有什么注意事项

B. 拍菜单（外文 / 看不懂的）

这份菜单是哪国语言？请：
1）翻译成中文
2）每道菜简单介绍配料和做法
3）推荐 3 道给第一次尝试这种菜系的人
4）标出哪些可能含花生 / 麸质 / 海鲜（我有 ___ 过敏）

C. 拍数学/物理作业

这是我女儿（小学三年级）的数学作业。请：
1）先不要给答案
2）把题目用大白话翻译一遍
3）一步一步引导她思考
4）提供 3 道类似的练习题

D. 拍家具 / 商品

这是什么品牌什么型号？
- 估算它的市场价
- 列出 3 个相似但更便宜的替代品
- 适合什么人群

E. 拍药品说明书

我妈的药品说明书。请用大字号、口语化的方式告诉我：
- 这个药治什么
- 每天吃几次，每次几片
- 哪些情况不能吃
- 哪些症状要立刻去医院

用药请以医生建议为准，AI 解读仅供参考。

F. 拍设计图 / 网页 / PPT

这张设计有 5 个我没注意到的问题，能帮我找出来吗？请按"严重 / 中等 / 轻微"分级。

限制

单次最多 16 张图（免费版）/ 32 张（Pro 起）。
单图 ≤ 7 MB。
支持 jpg/png/webp/heic/heif。
超大图会自动压缩（不影响识别）。

三、场景 2：文件上传（PDF / Word / Excel / PPT）

上手 3 步

在输入框点 "+"，选"上传文件"。
拖入或选择文件（也可直接复制粘贴文件）。
提一个具体问题。

5 个高频提示词

A. PDF 摘要 + 关键问

[拖入 80 页报告.pdf]
请按下面 4 步给我：
1）一句话总结
2）用 5 个 bullet 列出最关键发现
3）一张表格列出所有出现的数字（含上下文）
4）我应该追问的 3 个问题

B. 合同审查

[拖入合同.pdf]
我是 [甲方 / 乙方]。请：
1）总结合同的核心条款
2）找出对我"不利"的 5 个条款，每条说明为什么
3）找出"对方可能违约"时我能做什么
4）给我 3 句应该写进补充条款的建议

C. Excel / Sheets 分析

[拖入数据.xlsx]
这是我们公司过去 12 个月的销售数据。请：
1）总结总体趋势
2）找出 3 个最反常的月份并解释可能原因
3）给我 5 张该做的图（用文字描述每张图的内容）
4）下个月预测的合理区间

D. PPT 优化

[拖入 PPT.pptx]
这是我下周要给客户的提案。请：
1）整体打分（1-10）
2）找出 5 个"会让客户挑刺"的点
3）每张幻灯片给出 1 句改进建议
4）建议补充哪 2 张幻灯片

E. Word 长文校对

[拖入 8000 字论文.docx]
请：
1）找出所有可能的事实错误
2）找出所有逻辑不严谨的地方
3）找出 5 个语言可以更精炼的句子
4）整体结构建议

限制

单文件 ≤ 100 MB（Free / Plus）/ 2 GB（Ultra）。
单次对话最多 10 个文件。
超大文件请用 NotebookLM（第十二章）。

四、场景 3：音频处理（录音 / 会议 / 课程）

上手 3 步

在输入框 "+" → 上传音频文件（mp3/m4a/wav/aac 等）。
配一段提示。
等待（30 分钟音频约 1-2 分钟出结果）。

5 个高频提示词

A. 会议纪要

[上传 1 小时会议录音]
请按下列结构生成纪要：
1）会议主题（1 句）
2）参会角色（不知道名字就用 A、B、C）
3）核心讨论点（按时间顺序，每条标时间戳）
4）达成的决策（含负责人、deadline）
5）未决事项 / 需要后续跟进
6）每位发言人的核心立场（一两句概括）

B. 课程笔记

[上传一节 50 分钟的网课录音]
我是一个初学者。请帮我：
1）做一份详细笔记（按章节）
2）解释里面所有专业术语
3）出 10 道复习题（含答案）
4）总结这节课最关键的 3 个 takeaway

C. 访谈整理

[上传访谈录音]
我是采访方，对面是 [被采访人身份]。请：
1）整理成"问题 - 回答"的对话稿
2）保留对方的语气和措辞
3）标出 5 个最有"金句"潜质的回答
4）给我 3 个可能的爆款标题

D. 语音转表格

[上传我自言自语的录音 5 分钟]
我刚才在念我家本月的开支：菜钱、房租、水电……
请整理成 markdown 表格，列：项目 / 金额 / 类别（吃/住/行/娱乐）。
最后给我一个总和，并指出占比最高的 3 项。

E. 翻译 + 转写

[上传一段英文播客]
请：
1）转写成英文逐字稿
2）翻译成中文（地道，不要直译）
3）总结核心 5 个观点
4）列出 10 个值得我学习的英文表达

限制

单音频最长约 9.5 小时（取决于编码）。
单文件 ≤ 200 MB。
超长录音请拆成多份。

五、场景 4：视频识别（本地视频）

上手 3 步

"+" → 上传视频（mp4/mov/webm 等）。
配一句提示。
等待（10 分钟视频约 1-3 分钟分析）。

5 个高频提示词

A. 视频内容总结

[上传一段 20 分钟的产品演示视频]
请：
1）3 句话总结核心
2）按时间轴列出 10 个关键片段（X:XX-Y:YY）
3）找出 5 个我可以截图当封面的镜头
4）给 3 个抖音标题

B. 视频质量复盘

[上传我自己拍的短视频]
我是新手博主，请用专业制片人的口吻评价：
1）画面构图（10 分制）
2）叙事节奏（10 分制）
3）声音 / 音乐
4）3 个最具体的改进建议

C. 视频转脚本

[上传一段我的口播视频]
请把它转成可发的"图文笔记"：
1）小红书风格的标题
2）正文（带表情符号但不过度）
3）标签（5-10 个）

D. 监控 / 安全审查

[上传家里监控录像 30 分钟]
请告诉我：
1）有几个人 / 物体出现过
2）有没有可疑行为
3）按时间列出所有"有动作"的时刻

E. 教学视频拆解

[上传 1 小时课程视频]
我要把这节课改写成 5 篇 1500 字的公众号文章。请：
1）建议怎么分章节
2）每章节核心 3 个观点
3）每篇文章的标题

限制

单视频最长约 1 小时（Free）/ 2-6 小时（Pro/Ultra）。
单文件 ≤ 2 GB。
长视频建议先剪成 30 分钟内片段，速度更快。

六、场景 5：YouTube 视频链接（不用下载！）

这是 Gemini 的"独家"功能：直接给一个 YouTube 链接，它就能看。

上手 1 步

https://www.youtube.com/watch?v=XXXX

请帮我：
1）总结核心
2）找出 3 个金句（带时间戳）
3）3 句话推荐这个视频值不值得看

真实例子

学习一个 30 分钟的 TED Talk

https://www.youtube.com/watch?v=XXX

我是一个产品经理。请：
1）用我能听懂的方式总结这个 TED Talk
2）找出 5 个我能立刻应用到工作的观点
3）我还应该看哪 3 个相关的 TED 演讲？

看一个 1 小时的教程

[YouTube 链接]
我只有 5 分钟。请帮我：
1）用 5 个 bullet 总结这个视频
2）告诉我"哪几分钟值得我亲自看"
3）需要我学的 3 个新概念

注：YouTube 链接功能需要 Gemini 能识别字幕，没有字幕的视频也能识别画面但准确率低。

七、场景 6：Gemini Live—实时摄像头 + 屏幕共享 + 语音

这是 Gemini App 的隐藏王牌。很多人装了 App 都不知道。

怎么进入 Live 模式

打开 Gemini App（仅 iOS / Android，网页版不支持）。
点对话框右下角的"波形"图标，进入 Live 模式。
选择：
- 只有语音
- 摄像头 + 语音
- 屏幕共享 + 语音

摄像头模式：5 个真实场景

A. 在超市挑商品

拿手机摄像头对着货架，问：
"我要买无糖牛奶，眼前这几款，哪一款配料最干净，性价比最高？"

B. 在博物馆看展

对着展品："这件文物是什么朝代的？讲一个跟它相关的故事，3 分钟以内。"

C. 修家电

对着洗衣机控制面板："我要洗羽绒服，哪个按钮该按？"

D. 旅行问路

对着街道："我现在在哪？最近的地铁站怎么走？告诉我中文路名。"

E. 教孩子

对着孩子的乐高："我们一起拼这个吧。第一步该做什么？"

屏幕共享模式：5 个真实场景

A. 学新软件

我打开 Photoshop，分享屏幕给 Gemini：
"我要把这张照片的天空换成晚霞，告诉我每一步该点哪里。"

B. 看不懂网页

分享浏览器："这个保险条款页面写了什么？哪一条对我最关键？"

C. Excel 求救

分享 Excel："我要让 B 列减 A 列，结果显示在 C 列，怎么做？"

D. 网购对比

分享购物 App："这两双鞋我都喜欢，帮我对比一下材质和评价。"

E. 改 PPT

分享 PowerPoint："这一页排版你觉得有什么问题？我应该怎么改？"

Live 模式的优势

可以打断 AI（你说话它就停）。
可以切换镜头（前后摄像头）。
可以长时间使用（45+ 分钟连续对话）。
支持 45+ 种语言，包括中文。

八、3 个真实场景小案例

案例 A：宝妈用拍照 + Gemini Live 给孩子讲科学

她带 5 岁儿子去公园，看到一只蜗牛。

拿手机拍蜗牛，问 Gemini："这是什么蜗牛？给一个 5 岁孩子能听懂的故事。"
切到 Live 模式，让 Gemini 用儿童语气讲。
儿子问"它为什么慢"，Gemini 实时回答。

→ 比上幼儿科学课还有效。

案例 B：小老板用 PDF 上传 + 表格分析做财务

她每月把所有发票和银行流水（PDF）扔给 Gemini：

[上传 50 张发票 PDF + 银行流水 PDF]
请整理成一张总表，列：日期 / 金额 / 类别 / 备注。
然后告诉我哪些是"可抵税"项目。

→ 省了一个会计的钱。

案例 C：考研学生用 YouTube + 屏幕共享自学

她考研复习政治，在 YouTube 找网课：

把视频链接丢给 Gemini："总结 + 出 20 道题"。
做题时不会就屏幕共享："这道题为什么选 C，A 错在哪？"
Gemini 实时讲解，像在身边请了私教。

九、5 个常见的"翻车现场"

翻车 1：图片太模糊

→ AI 识别错。重新拍一张清晰的，开闪光灯。

翻车 2：PDF 是扫描件

→ AI 当成图片处理，识别可能漏字。先用 OCR 转可选中文字版本。

翻车 3：视频太长（> 1 小时）

→ Free 版处理超时。剪成 30 分钟段，分多次问。

翻车 4：YouTube 视频链接没有字幕

→ AI 只能"看画面"，准确率下降。找有字幕的同主题视频。

翻车 5：Live 模式手机发烫

→ 摄像头 + 麦克风长时间连续工作，正常发热。插充电器，每 30 分钟休息 5 分钟。

十、本章一图回顾

graph TD
   A[多模态实战] --> B[输入]
   A --> C[输出]
   B --> B1[文本]
   B --> B2[图片<br/>16-32 张]
   B --> B3[音频<br/>9.5h 内]
   B --> B4[视频<br/>1-6h 内]
   B --> B5[YouTube 链接]
   B --> B6[屏幕共享]
   B --> B7[摄像头实时]
   C --> C1[摘要 / 笔记]
   C --> C2[表格 / JSON]
   C --> C3[翻译 / 字幕]
   C --> C4[实时口语解答]
   C --> C5[Canvas 网页/PPT]

十一、本章作业

拍一张你日常环境的照片，让 Gemini 找出 5 个你没注意的细节。
上传一份 PDF（报告 / 教材 / 合同），用本章模板生成摘要。
找一个你想学的 30 分钟 YouTube 视频，让 Gemini 总结。
试一次 Gemini Live 摄像头模式（去超市 / 厨房都行）。

十二、下一章预告

下一章 07 第七章联网搜索、Deep Research 与 Canvas，你会解锁 Gemini 最"重磅"的两个功能：

Deep Research：让 AI 自己上网调研 1 小时给你 30 页报告。
Canvas：把任何对话内容一键变成网页、PPT、思维导图。

去解锁 AI 调研员 →

第六章 多模态实战（图片、文档、音频、视频、屏幕共享）

本章你将学到

一、原生多模态是什么意思？

二、场景 1：图片识别 + 解读

上手 3 步

6 个高频提示词

A. 拍植物 / 动物

B. 拍菜单（外文 / 看不懂的）

C. 拍数学/物理作业

D. 拍家具 / 商品

E. 拍药品说明书

F. 拍设计图 / 网页 / PPT

限制

三、场景 2：文件上传（PDF / Word / Excel / PPT）

上手 3 步

5 个高频提示词

A. PDF 摘要 + 关键问

B. 合同审查

C. Excel / Sheets 分析

D. PPT 优化

E. Word 长文校对

限制

四、场景 3：音频处理（录音 / 会议 / 课程）

上手 3 步

5 个高频提示词

A. 会议纪要

B. 课程笔记

C. 访谈整理

D. 语音转表格

E. 翻译 + 转写

限制

五、场景 4：视频识别（本地视频）

上手 3 步

5 个高频提示词

A. 视频内容总结

B. 视频质量复盘

C. 视频转脚本

D. 监控 / 安全审查

E. 教学视频拆解

限制

六、场景 5：YouTube 视频链接（不用下载！）

上手 1 步

真实例子

学习一个 30 分钟的 TED Talk

看一个 1 小时的教程

七、场景 6：Gemini Live—实时摄像头 + 屏幕共享 + 语音

怎么进入 Live 模式

摄像头模式：5 个真实场景

A. 在超市挑商品

B. 在博物馆看展

C. 修家电

D. 旅行问路

E. 教孩子

屏幕共享模式：5 个真实场景

A. 学新软件

B. 看不懂网页

C. Excel 求救

D. 网购对比

E. 改 PPT

Live 模式的优势

八、3 个真实场景小案例

案例 A：宝妈用拍照 + Gemini Live 给孩子讲科学

案例 B：小老板用 PDF 上传 + 表格分析做财务

案例 C：考研学生用 YouTube + 屏幕共享自学

九、5 个常见的"翻车现场"

翻车 1：图片太模糊

翻车 2：PDF 是扫描件

翻车 3：视频太长（> 1 小时）

翻车 4：YouTube 视频链接没有字幕

翻车 5：Live 模式手机发烫

十、本章一图回顾

十一、本章作业

十二、下一章预告

第六章多模态实战（图片、文档、音频、视频、屏幕共享）