多模态与 Canvas · ChatGPT 橙皮书

一、ChatGPT 的"5 种感官"

GPT-5.4 是真正的"多模态原生"模型，它能：

感官	它能干什么	怎么用
👁 看	看图、读 PDF、读 Excel、看截图	输入框点回形针 / 拖拽文件进来
✍ 写	写文字、写代码、写 markdown、写表格	默认就有
🎨 画	画图、做封面、做表情包、做 Logo	直接说"画一张……"
🎬 拍	生成视频（Sora 2）	切到 Sora 入口或在主对话框选 Sora
🗣 听 / 说	实时语音聊天、转录	手机端点麦克风耳机

而且所有这些功能可以混用——你可以发一张图，让它"基于这张图写一段小红书并配 9 张图 + 一个 30 秒视频"。

二、上传文件：5 种格式 5 种玩法

1. PDF：当"读 PDF 的实习生"

最常见的场景：

体检报告 → 让它解读
合同 → 让它找漏洞
论文 → 让它写综述
招股书 → 让它提炼商业模式
政府文件 / 政策 → 让它解释

操作：拖一个 PDF 到对话框 → 写提示词 → 发送。

示例提示词：

我上传了一份《XX 公司劳动合同》，请：
1. 用 8 个 bullet 总结核心条款；
2. 列出 3 处对员工最不利的地方，并解释为什么；
3. 给我一份"和 HR 谈判时可以提的 3 个修改建议"。

进阶用法：

多 PDF 对比：一次上传 2-3 份合同 / 论文 / 报告，让它"找出共同点和差异"。
长 PDF 分段：超过 100 页的 PDF，先让它"输出整体大纲，再让我选某一节深入"。
表格密集型 PDF：让它"把表格 1 提取成 markdown"，复制到 Excel。

2. Word：当"改稿的编辑"

操作：直接拖入 .docx 文件。

示例：

我上传了一份《年度工作总结.docx》。请：
1. 帮我找出 5 处啰嗦的地方，并改写得更精炼；
2. 帮我加 3 处"数据 + 案例"，让总结更有说服力；
3. 用红笔（用 [ ] 标注）标出建议替换的句子，给出原句和修改后的对比。

3. Excel：当"数据分析师"

操作：拖入 .xlsx / .csv，或者直接复制粘贴一段数据。

示例：

我上传了一份"客户订单表 .xlsx"，6 列（订单号、客户、品类、金额、日期、状态）。请：
1. 按月统计各品类的销售额，给我一个 markdown 表格；
2. 找出销售额最高的 5 个客户，分析他们的共同点；
3. 找出 3 个"异常"订单（金额超大、退货率高、品类不寻常）；
4. 给我一份 200 字的"业绩简报"，可以复制到周报里。

ChatGPT 不仅能读 Excel，还会自动写 Python 代码做计算（用 Code Interpreter 功能），结果会比你手动算得更快、更准。

进阶用法：

让它生成新的 Excel 文件，下载链接会出现在回答里，你直接保存。
让它生成图表（条形图、折线图、饼图），自动嵌入回答。
让它做数据透视：复杂的 Pivot Table 一句话搞定。

4. 图片：当"会看图的眼睛"

ChatGPT 看图能力已经超过人类平均水平。它能：

识别图中的文字（OCR）+ 翻译
识别物体、人物表情、场景
解读图表 / 财报 / 体检报告
看截图找 Bug
看穿搭给建议
看食材推荐菜谱

示例 1：看体检报告

拍一张体检报告照片，写：

请帮我解读这张体检报告：
1. 哪些指标超标？请按"严重程度"从高到低排序；
2. 每项超标可能的常见原因（说明只是参考，不替代医生）；
3. 我应该挂什么科？
4. 接下来一周饮食 / 运动 / 作息上能做什么？

示例 2：看穿搭

拍一张你今天的穿搭，写：

请评价这套穿搭：
1. 风格定位（休闲 / 商务 / 运动 / 文艺……）；
2. 配色是否协调？分数 1-10；
3. 适合什么场合 / 不适合什么场合；
4. 给出 2 个改进建议（具体到"换一双什么样的鞋"）。

示例 3：看截图找 Bug

把电脑屏幕的报错截图丢给它：

我电脑出现这个错误，麻烦帮我：
1. 解释这个错误是什么意思；
2. 最常见的 3 种原因；
3. 我应该按什么顺序去尝试修复。

5. 网页 / 链接：当"会上网的助理"

操作：直接把链接丢进对话框（开启联网模式时它会自动打开）。

示例：

请打开这两篇文章：
- https://example.com/article-a
- https://example.com/article-b
请：
1. 各自总结成 5 个 bullet；
2. 找出它们的 3 个共同观点和 2 个对立观点；
3. 用一段 200 字告诉我，作为读者我应该怎么综合理解。

如果你订阅了 Plus，还可以用 Deep Research：

切到 Deep Research 模式
提一个研究型问题（"分析 2026 年中国新能源车出海现状"）
它会自动爬 50-200 个网站，5-30 分钟后输出一份带引用、带结构的研究报告

三、画图：直接说"画一张……"

GPT-5.4 内置了 GPT-image（DALL·E 升级版）。直接在对话框里说就行。

基础用法

画一张图：一只穿着唐装的金毛犬，坐在春节餐桌前，背景有红灯笼和"福"字。卡通风格，喜庆。

10-30 秒后，图就出来了。可以下载、可以让它"再来一版"、可以让它"换个风格"。

进阶用法

1. 多图一致性

请画一组 4 张连环画：
- 第 1 张：清晨，一个小女孩在自家花园浇花
- 第 2 张：中午，她和小伙伴们在花园野餐
- 第 3 张：傍晚，她在花园里读书
- 第 4 张：夜晚，她在花园里看星星

要求：4 张图风格一致（水彩、温暖色调），人物形象前后一致（短发、黄色裙子）。

2. 编辑现有图

把一张图拖进来：

这张照片背景太乱，请帮我换成一个简洁的浅色背景，人物保持不变。

或者：

请把这张照片做成"皮克斯卡通"风格。

3. 做表情包

请基于这张照片，做 4 张不同表情的表情包：开心、生气、委屈、呆滞。

4. 做封面 / Logo

帮我设计一个公众号文章封面，主题是"普通人如何用好 ChatGPT"。要求：
- 比例 16:9
- 主色调是 OpenAI 那种橙色
- 文字"用好 ChatGPT" 居中，字体粗壮
- 背景元素：一个微笑的卡通机器人和一个普通人在握手
- 风格：现代、扁平、有亲切感

画图的常见坑

生成的中文字常出错：画封面时，建议把"中文文字"单独说明，或最终自己用 Photoshop / Canva 加文字。
细节会变形：人手、人脸的细节有时不对，可以让它"重新生成第 3 个手指"或者"修改人脸表情"。
版权风险：让它"画一只米老鼠"会被拒，让它"画一只迪士尼风格的卡通老鼠"是 OK 的。注意商业使用时的合规。

四、Sora 2：让你的字变成视频

Sora 是 OpenAI 的视频生成模型，Plus 起包含（每月 50 条左右 720p）。Pro 用户可以生成 1080p、2K、更长视频。

入口

网页：左侧栏 → Sora
直接说："给我用 Sora 做一个视频，内容是……"

基础用法

做一个 8 秒视频：
- 场景：北京胡同，秋天，阳光斜照
- 主体：一个戴黑色棉袄的老爷爷在喂一只大橘猫
- 动作：老爷爷蹲下、抚摸猫、猫蹭他的腿
- 风格：纪录片风格，电影质感
- 镜头：固定镜头，自然光
- 比例：16:9

进阶用法

1. 用图生视频

上传一张图，然后说：

基于这张图，做一个 6 秒视频：图里的人物缓缓走近镜头，背景轻微晃动模拟风。

2. 文生 + 角色一致

做一个 3 段视频，每段 5 秒，主角都是同一个穿白色 T 恤的程序员小哥。
- 段 1：他在咖啡馆敲代码，桌上一杯拿铁
- 段 2：他出门，走在春日的街道上
- 段 3：他回到家，瘫在沙发上看手机

要求：人物形象、衣服、发型在 3 段中保持一致。

3. 商业短视频

帮我做一个 30 秒的产品宣传短片：
- 产品：智能咖啡机
- 场景 1（10s）：早晨厨房，主人公疲惫地走进
- 场景 2（10s）：他按下咖啡机按钮，特写咖啡注入杯中
- 场景 3（10s）：他喝下一口，露出微笑，转身上班

风格：苹果广告风，干净、有质感

详细的 Sora 玩法见第十章。

五、联网搜索：让 ChatGPT "不再活在 2024 年"

它默认知道什么？

GPT-5.4 的训练截止数据大约是 2025 年中。也就是说，2025 年下半年到 2026 年的事情它默认是不知道的。如果你不开联网就问"今天上证指数多少"，它会告诉你"我不能查询实时数据"，或者更糟，编一个数字给你。

怎么开联网？

默认就有：GPT-5.4 现在已经能自动判断需不需要联网。
手动触发：输入框旁的"地球图标"点一下，强制联网。
明说：在提示词里加"请联网查最新信息"。

适用场景

最新新闻 / 政策 / 财经
旅游攻略（实时酒店价、机票）
比赛结果 / 排行榜
比较产品（最新型号对比）
查最新的开源项目 / 软件版本

联网的坑

它可能搬一些垃圾内容给你。所以重要信息要让它"列出引用来源"。
可能慢：联网会让回答变慢。
不要全信：网上的内容也可能错。让它"对照 2-3 个不同来源"。

进阶：Deep Research

Deep Research 是 ChatGPT 的"研究员"模式，比联网更强：

自动爬 50-200 个网站
花 5-30 分钟
输出一份 带引用、带结构、带数据的研究报告

适合：

做行业研究
写论文综述
投资尽调
选品对比

示例：

我要研究 2026 年中国新能源汽车在欧洲的销售情况。请用 Deep Research 模式，输出一份 ≤3000 字的研究报告，包含：
1. 总销量（按国家、按品牌）
2. 主要竞争对手
3. 当地政策影响
4. 消费者反馈（褒贬各列 3 条）
5. 我对中国厂商的 3 条建议

请标注所有数据的引用来源。

它会跑 10-15 分钟，给你一份抵得上请咨询公司做一周的报告。

六、Canvas：和 ChatGPT 一起"协同写作"

Canvas 是 ChatGPT 提供的"协作画布"模式，专门用于：

写长文章 / 长邮件 / 长报告
改代码
改 markdown 文档

怎么打开？

输入足够长 / 复杂的写作请求时，ChatGPT 会自动建议进入 Canvas
也可以点顶部的"画布"按钮主动切换

普通对话 vs Canvas

	普通对话	Canvas
形式	长段落，一次给你一坨	把内容铺开成文档，可以选某一段单独修改
编辑	你只能整段重写	可以只改一段、只改一句、只改一个词
历史	只能"再来一版"	有版本历史，可以回滚
协作	你和 AI 来回	你和 AI 像 Google Docs 那样同时改同一个文档

实战示例

第 1 步：开始一段写作

帮我写一篇 800 字的公众号文章：主题"普通人如何用好 ChatGPT"，定位面向 30-45 岁职场妈妈，语气亲切，含 1 个开篇故事。

ChatGPT 会建议进入 Canvas，点确认。

第 2 步：选中一段，改它

在 Canvas 里用鼠标选中第二段，弹出一个小按钮"Ask ChatGPT to edit this"，输入：

这一段太长了，压成 80 字，并加一个"我自己用 ChatGPT 帮 8 岁孩子讲数学"的具体例子。

只有这一段会被改，其他保持不动。

第 3 步：让它"全文检查"

请检查全文：
1. 错别字 / 语病
2. 节奏（是否有段落太长 / 太短）
3. 是否有重复表达
4. 标题是否吸引人

第 4 步：导出

直接复制 markdown 内容到公众号 / Notion / Word 即可。

Canvas 改代码

帮我写一个 Python 脚本：监控我的文件夹，每天晚上 11 点自动备份到云盘。

ChatGPT 进入 Canvas 模式，给你一段代码。你可以：

选中某一行，让它"加注释"
选中某一函数，让它"改成异步"
让它"加一个邮件通知失败的功能"
一键运行（在 ChatGPT 内置环境跑）

七、5 种感官混合用：3 个让你惊艳的实战

实战 1：把"散装信息"变成可视化报告

我有 3 张图（拖入：销售数据图、客户分布图、产品对比图）和 1 份 PDF（拖入：竞品分析）。请：
1. 把 3 张图的关键数据提取成一张总表（markdown）；
2. 结合 PDF 的内容，写一份 800 字的"市场总结"；
3. 给我 1 张"建议行动 4 步走"的流程图描述（我可以让你下一步用 Sora 生成）；
4. 配一张公众号封面图（橙色调，主题"市场观察"）。

一次提问，5 种感官全用上。

实战 2：把视频变成"说明书"

我会发一段 1 分钟的 Sora 视频（或者 YouTube 链接）给你。请：
1. 描述视频每 10 秒的画面内容（按时间轴）
2. 提取视频中所有出现的文字（字幕 / 标牌 / 商品名）
3. 用 200 字总结视频的核心信息
4. 帮我写 3 条小红书文案，分别用"种草、避雷、对比"3 种角度

实战 3：把孩子作业变成"会自己讲解的 PPT"

我拍了一张孩子三年级数学作业的照片（拖入）。请：
1. 把题目转成文字；
2. 一步步讲解解题过程，假设孩子完全没基础；
3. 用一张图把关键步骤画出来（让 GPT-image 画）；
4. 用 Voice 给我读一遍讲解（手机版可触发）；
5. 出 3 道类似的小题让孩子练习，并给出答案。

八、本章一图回顾

                    多模态全家桶
                          │
        ┌────────┬────────┼────────┬────────┐
        ▼        ▼        ▼        ▼        ▼
       看        写        画        拍       听/说
       │         │         │        │         │
   PDF/Word  默认就行  画图/封面  Sora 视频   语音对话
   Excel/图     │     表情包/Logo   │         │
   网页/截图    │         │      文生视频    实时打断
        │     Canvas   编辑现图    图生视频    语种翻译
        │       │         │        │         │
        └───────┴─────────┴────────┴─────────┘
                          │
                  联网 + Deep Research
                          │
                          ▼
                  混合用 → 一次提问出一篇完整报告

九、本章小练习

PDF 实战：找一份你看不懂的 PDF（保险条款 / 体检报告 / 政策文件 / 论文）丢给 ChatGPT，让它给你一份"5 段式总结"。
图片实战：拍一张你今天的早餐照片，问它"这是什么菜，热量多少，营养均衡吗，给我下一顿的建议"。
画图实战：给你的爸妈做一张"家庭微信头像"，要求温馨、有家人元素、卡通风格。
Sora 实战（Plus 起）：做一个 8 秒视频，内容是"一只猫从沙发上跳到地板"。
Canvas 实战：让 ChatGPT 进入 Canvas 模式写一篇 500 字的文章，然后选中其中一段单独修改。

完成？翻到第七章生活场景实战。

第六章 上传文件、看图、画图、联网与 Canvas

一、ChatGPT 的"5 种感官"

二、上传文件：5 种格式 5 种玩法

1. PDF：当"读 PDF 的实习生"

2. Word：当"改稿的编辑"

3. Excel：当"数据分析师"

4. 图片：当"会看图的眼睛"

5. 网页 / 链接：当"会上网的助理"

三、画图：直接说"画一张……"

基础用法

进阶用法

1. 多图一致性

2. 编辑现有图

3. 做表情包

4. 做封面 / Logo

画图的常见坑

四、Sora 2：让你的字变成视频

入口

基础用法

进阶用法

1. 用图生视频

2. 文生 + 角色一致

3. 商业短视频

五、联网搜索：让 ChatGPT "不再活在 2024 年"

它默认知道什么？

怎么开联网？

适用场景

联网的坑

进阶：Deep Research

六、Canvas：和 ChatGPT 一起"协同写作"

怎么打开？

普通对话 vs Canvas

实战示例

Canvas 改代码

七、5 种感官混合用：3 个让你惊艳的实战

实战 1：把"散装信息"变成可视化报告

实战 2：把视频变成"说明书"

实战 3：把孩子作业变成"会自己讲解的 PPT"

八、本章一图回顾

九、本章小练习

第六章上传文件、看图、画图、联网与 Canvas