ORANGE BOOK · GEMINI

第六章 多模态实战(图片、文档、音频、视频、屏幕共享)


本章你将学到

  • 6 大多模态场景:图片、文档、音频、视频、YouTube、屏幕共享
  • 每个场景的"上手步骤 + 提示词模板 + 真实例子"
  • Gemini Live 实时模式怎么用(这是免费版用户最容易忽略的杀手锏)
  • 各种格式、大小、时长的限制(避免踩坑)

一、原生多模态是什么意思?

ChatGPT 早期是"文字模型 + 后接的图像识别 + 后接的语音",三个东西被胶水粘在一起。 Gemini 从 1.0 开始就是"一个模型同时学会了文字 + 图片 + 视频 + 音频"。

差别有多大?举两个真实例子:

  1. 给 Gemini 一段视频,让它说"这个人 0:45 时在笑什么"——它能联系画面 + 字幕 + 音调 + 上下文回答。
  2. 给 Gemini 一张拍歪的食谱照片,让它"识别食材并提供做法"——它不只识别文字,还能根据图片中的食材本身判断。

下面我们逐个场景上手。


二、场景 1:图片识别 + 解读

上手 3 步

  1. 打开 Gemini App / 网页。
  2. 点输入框左边的"+"或"",选择"上传图片"或"拍照"。
  3. 配上一句问话。

6 个高频提示词

A. 拍植物 / 动物

这是什么?给我详细介绍一下,并告诉我:
1)它的常见名 / 学名
2)它有毒吗?能吃吗?
3)3 个我不知道的冷知识
4)有什么注意事项

B. 拍菜单(外文 / 看不懂的)

这份菜单是哪国语言?请:
1)翻译成中文
2)每道菜简单介绍配料和做法
3)推荐 3 道给第一次尝试这种菜系的人
4)标出哪些可能含花生 / 麸质 / 海鲜(我有 ___ 过敏)

C. 拍数学/物理作业

这是我女儿(小学三年级)的数学作业。请:
1)先不要给答案
2)把题目用大白话翻译一遍
3)一步一步引导她思考
4)提供 3 道类似的练习题

D. 拍家具 / 商品

这是什么品牌什么型号?
- 估算它的市场价
- 列出 3 个相似但更便宜的替代品
- 适合什么人群

E. 拍药品说明书

我妈的药品说明书。请用大字号、口语化的方式告诉我:
- 这个药治什么
- 每天吃几次,每次几片
- 哪些情况不能吃
- 哪些症状要立刻去医院

用药请以医生建议为准,AI 解读仅供参考。

F. 拍设计图 / 网页 / PPT

这张设计有 5 个我没注意到的问题,能帮我找出来吗?请按"严重 / 中等 / 轻微"分级。

限制

  • 单次最多 16 张图(免费版)/ 32 张(Pro 起)。
  • 单图 ≤ 7 MB。
  • 支持 jpg/png/webp/heic/heif。
  • 超大图会自动压缩(不影响识别)。

三、场景 2:文件上传(PDF / Word / Excel / PPT)

上手 3 步

  1. 在输入框点 "+",选"上传文件"。
  2. 拖入或选择文件(也可直接复制粘贴文件)。
  3. 提一个具体问题。

5 个高频提示词

A. PDF 摘要 + 关键问

[拖入 80 页报告.pdf]
请按下面 4 步给我:
1)一句话总结
2)用 5 个 bullet 列出最关键发现
3)一张表格列出所有出现的数字(含上下文)
4)我应该追问的 3 个问题

B. 合同审查

[拖入合同.pdf]
我是 [甲方 / 乙方]。请:
1)总结合同的核心条款
2)找出对我"不利"的 5 个条款,每条说明为什么
3)找出"对方可能违约"时我能做什么
4)给我 3 句应该写进补充条款的建议

C. Excel / Sheets 分析

[拖入数据.xlsx]
这是我们公司过去 12 个月的销售数据。请:
1)总结总体趋势
2)找出 3 个最反常的月份并解释可能原因
3)给我 5 张该做的图(用文字描述每张图的内容)
4)下个月预测的合理区间

D. PPT 优化

[拖入 PPT.pptx]
这是我下周要给客户的提案。请:
1)整体打分(1-10)
2)找出 5 个"会让客户挑刺"的点
3)每张幻灯片给出 1 句改进建议
4)建议补充哪 2 张幻灯片

E. Word 长文校对

[拖入 8000 字论文.docx]
请:
1)找出所有可能的事实错误
2)找出所有逻辑不严谨的地方
3)找出 5 个语言可以更精炼的句子
4)整体结构建议

限制

  • 单文件 ≤ 100 MB(Free / Plus)/ 2 GB(Ultra)。
  • 单次对话最多 10 个文件。
  • 超大文件请用 NotebookLM(第十二章)。

四、场景 3:音频处理(录音 / 会议 / 课程)

上手 3 步

  1. 在输入框 "+" → 上传音频文件(mp3/m4a/wav/aac 等)。
  2. 配一段提示。
  3. 等待(30 分钟音频约 1-2 分钟出结果)。

5 个高频提示词

A. 会议纪要

[上传 1 小时会议录音]
请按下列结构生成纪要:
1)会议主题(1 句)
2)参会角色(不知道名字就用 A、B、C)
3)核心讨论点(按时间顺序,每条标时间戳)
4)达成的决策(含负责人、deadline)
5)未决事项 / 需要后续跟进
6)每位发言人的核心立场(一两句概括)

B. 课程笔记

[上传一节 50 分钟的网课录音]
我是一个初学者。请帮我:
1)做一份详细笔记(按章节)
2)解释里面所有专业术语
3)出 10 道复习题(含答案)
4)总结这节课最关键的 3 个 takeaway

C. 访谈整理

[上传访谈录音]
我是采访方,对面是 [被采访人身份]。请:
1)整理成"问题 - 回答"的对话稿
2)保留对方的语气和措辞
3)标出 5 个最有"金句"潜质的回答
4)给我 3 个可能的爆款标题

D. 语音转表格

[上传我自言自语的录音 5 分钟]
我刚才在念我家本月的开支:菜钱、房租、水电……
请整理成 markdown 表格,列:项目 / 金额 / 类别(吃/住/行/娱乐)。
最后给我一个总和,并指出占比最高的 3 项。

E. 翻译 + 转写

[上传一段英文播客]
请:
1)转写成英文逐字稿
2)翻译成中文(地道,不要直译)
3)总结核心 5 个观点
4)列出 10 个值得我学习的英文表达

限制

  • 单音频最长约 9.5 小时(取决于编码)。
  • 单文件 ≤ 200 MB。
  • 超长录音请拆成多份。

五、场景 4:视频识别(本地视频)

上手 3 步

  1. "+" → 上传视频(mp4/mov/webm 等)。
  2. 配一句提示。
  3. 等待(10 分钟视频约 1-3 分钟分析)。

5 个高频提示词

A. 视频内容总结

[上传一段 20 分钟的产品演示视频]
请:
1)3 句话总结核心
2)按时间轴列出 10 个关键片段(X:XX-Y:YY)
3)找出 5 个我可以截图当封面的镜头
4)给 3 个抖音标题

B. 视频质量复盘

[上传我自己拍的短视频]
我是新手博主,请用专业制片人的口吻评价:
1)画面构图(10 分制)
2)叙事节奏(10 分制)
3)声音 / 音乐
4)3 个最具体的改进建议

C. 视频转脚本

[上传一段我的口播视频]
请把它转成可发的"图文笔记":
1)小红书风格的标题
2)正文(带表情符号但不过度)
3)标签(5-10 个)

D. 监控 / 安全审查

[上传家里监控录像 30 分钟]
请告诉我:
1)有几个人 / 物体出现过
2)有没有可疑行为
3)按时间列出所有"有动作"的时刻

E. 教学视频拆解

[上传 1 小时课程视频]
我要把这节课改写成 5 篇 1500 字的公众号文章。请:
1)建议怎么分章节
2)每章节核心 3 个观点
3)每篇文章的标题

限制

  • 单视频最长约 1 小时(Free)/ 2-6 小时(Pro/Ultra)。
  • 单文件 ≤ 2 GB。
  • 长视频建议先剪成 30 分钟内片段,速度更快。

六、场景 5:YouTube 视频链接(不用下载!)

这是 Gemini 的"独家"功能:直接给一个 YouTube 链接,它就能看。

上手 1 步

https://www.youtube.com/watch?v=XXXX

请帮我:
1)总结核心
2)找出 3 个金句(带时间戳)
3)3 句话推荐这个视频值不值得看

真实例子

学习一个 30 分钟的 TED Talk

https://www.youtube.com/watch?v=XXX

我是一个产品经理。请:
1)用我能听懂的方式总结这个 TED Talk
2)找出 5 个我能立刻应用到工作的观点
3)我还应该看哪 3 个相关的 TED 演讲?

看一个 1 小时的教程

[YouTube 链接]
我只有 5 分钟。请帮我:
1)用 5 个 bullet 总结这个视频
2)告诉我"哪几分钟值得我亲自看"
3)需要我学的 3 个新概念

注:YouTube 链接功能需要 Gemini 能识别字幕,没有字幕的视频也能识别画面但准确率低。


七、场景 6:Gemini Live—实时摄像头 + 屏幕共享 + 语音

这是 Gemini App 的隐藏王牌。很多人装了 App 都不知道

怎么进入 Live 模式

  1. 打开 Gemini App(仅 iOS / Android,网页版不支持)。
  2. 点对话框右下角的"波形"图标,进入 Live 模式。
  3. 选择:
    • 只有语音
    • 摄像头 + 语音
    • 屏幕共享 + 语音

摄像头模式:5 个真实场景

A. 在超市挑商品

拿手机摄像头对着货架,问:
"我要买无糖牛奶,眼前这几款,哪一款配料最干净,性价比最高?"

B. 在博物馆看展

对着展品:"这件文物是什么朝代的?讲一个跟它相关的故事,3 分钟以内。"

C. 修家电

对着洗衣机控制面板:"我要洗羽绒服,哪个按钮该按?"

D. 旅行问路

对着街道:"我现在在哪?最近的地铁站怎么走?告诉我中文路名。"

E. 教孩子

对着孩子的乐高:"我们一起拼这个吧。第一步该做什么?"

屏幕共享模式:5 个真实场景

A. 学新软件

我打开 Photoshop,分享屏幕给 Gemini:
"我要把这张照片的天空换成晚霞,告诉我每一步该点哪里。"

B. 看不懂网页

分享浏览器:"这个保险条款页面写了什么?哪一条对我最关键?"

C. Excel 求救

分享 Excel:"我要让 B 列减 A 列,结果显示在 C 列,怎么做?"

D. 网购对比

分享购物 App:"这两双鞋我都喜欢,帮我对比一下材质和评价。"

E. 改 PPT

分享 PowerPoint:"这一页排版你觉得有什么问题?我应该怎么改?"

Live 模式的优势

  • 可以打断 AI(你说话它就停)。
  • 可以切换镜头(前后摄像头)。
  • 可以长时间使用(45+ 分钟连续对话)。
  • 支持 45+ 种语言,包括中文。

八、3 个真实场景小案例

案例 A:宝妈用拍照 + Gemini Live 给孩子讲科学

她带 5 岁儿子去公园,看到一只蜗牛。

  1. 拿手机拍蜗牛,问 Gemini:"这是什么蜗牛?给一个 5 岁孩子能听懂的故事。"
  2. 切到 Live 模式,让 Gemini 用儿童语气讲。
  3. 儿子问"它为什么慢",Gemini 实时回答。

比上幼儿科学课还有效

案例 B:小老板用 PDF 上传 + 表格分析做财务

她每月把所有发票和银行流水(PDF)扔给 Gemini:

[上传 50 张发票 PDF + 银行流水 PDF]
请整理成一张总表,列:日期 / 金额 / 类别 / 备注。
然后告诉我哪些是"可抵税"项目。

省了一个会计的钱

案例 C:考研学生用 YouTube + 屏幕共享自学

她考研复习政治,在 YouTube 找网课:

  1. 把视频链接丢给 Gemini:"总结 + 出 20 道题"。
  2. 做题时不会就屏幕共享:"这道题为什么选 C,A 错在哪?"
  3. Gemini 实时讲解,像在身边请了私教

九、5 个常见的"翻车现场"

翻车 1:图片太模糊

→ AI 识别错。重新拍一张清晰的,开闪光灯

翻车 2:PDF 是扫描件

→ AI 当成图片处理,识别可能漏字。先用 OCR 转可选中文字版本

翻车 3:视频太长(> 1 小时)

→ Free 版处理超时。剪成 30 分钟段,分多次问

翻车 4:YouTube 视频链接没有字幕

→ AI 只能"看画面",准确率下降。找有字幕的同主题视频

翻车 5:Live 模式手机发烫

→ 摄像头 + 麦克风长时间连续工作,正常发热。插充电器,每 30 分钟休息 5 分钟


十、本章一图回顾

graph TD
   A[多模态实战] --> B[输入]
   A --> C[输出]
   B --> B1[文本]
   B --> B2[图片<br/>16-32 张]
   B --> B3[音频<br/>9.5h 内]
   B --> B4[视频<br/>1-6h 内]
   B --> B5[YouTube 链接]
   B --> B6[屏幕共享]
   B --> B7[摄像头实时]
   C --> C1[摘要 / 笔记]
   C --> C2[表格 / JSON]
   C --> C3[翻译 / 字幕]
   C --> C4[实时口语解答]
   C --> C5[Canvas 网页/PPT]

十一、本章作业

  • 拍一张你日常环境的照片,让 Gemini 找出 5 个你没注意的细节。
  • 上传一份 PDF(报告 / 教材 / 合同),用本章模板生成摘要。
  • 找一个你想学的 30 分钟 YouTube 视频,让 Gemini 总结。
  • 试一次 Gemini Live 摄像头模式(去超市 / 厨房都行)。

十二、下一章预告

下一章 07 第七章 联网搜索、Deep Research 与 Canvas,你会解锁 Gemini 最"重磅"的两个功能:

  • Deep Research:让 AI 自己上网调研 1 小时给你 30 页报告。
  • Canvas:把任何对话内容一键变成网页、PPT、思维导图。

去解锁 AI 调研员 →