ORANGE BOOK · CHATGPT

第六章 上传文件、看图、画图、联网与 Canvas

一、ChatGPT 的"5 种感官"

GPT-5.4 是真正的"多模态原生"模型,它能:

感官 它能干什么 怎么用
👁 看 看图、读 PDF、读 Excel、看截图 输入框点回形针 / 拖拽文件进来
✍ 写 写文字、写代码、写 markdown、写表格 默认就有
🎨 画 画图、做封面、做表情包、做 Logo 直接说"画一张……"
🎬 拍 生成视频(Sora 2) 切到 Sora 入口或在主对话框选 Sora
🗣 听 / 说 实时语音聊天、转录 手机端点麦克风耳机

而且所有这些功能可以混用——你可以发一张图,让它"基于这张图写一段小红书并配 9 张图 + 一个 30 秒视频"。

二、上传文件:5 种格式 5 种玩法

1. PDF:当"读 PDF 的实习生"

最常见的场景:

  • 体检报告 → 让它解读
  • 合同 → 让它找漏洞
  • 论文 → 让它写综述
  • 招股书 → 让它提炼商业模式
  • 政府文件 / 政策 → 让它解释

操作:拖一个 PDF 到对话框 → 写提示词 → 发送。

示例提示词

我上传了一份《XX 公司劳动合同》,请:
1. 用 8 个 bullet 总结核心条款;
2. 列出 3 处对员工最不利的地方,并解释为什么;
3. 给我一份"和 HR 谈判时可以提的 3 个修改建议"。

进阶用法

  • 多 PDF 对比:一次上传 2-3 份合同 / 论文 / 报告,让它"找出共同点和差异"。
  • 长 PDF 分段:超过 100 页的 PDF,先让它"输出整体大纲,再让我选某一节深入"。
  • 表格密集型 PDF:让它"把表格 1 提取成 markdown",复制到 Excel。

2. Word:当"改稿的编辑"

操作:直接拖入 .docx 文件。

示例

我上传了一份《年度工作总结.docx》。请:
1. 帮我找出 5 处啰嗦的地方,并改写得更精炼;
2. 帮我加 3 处"数据 + 案例",让总结更有说服力;
3. 用红笔(用 [ ] 标注)标出建议替换的句子,给出原句和修改后的对比。

3. Excel:当"数据分析师"

操作:拖入 .xlsx / .csv,或者直接复制粘贴一段数据。

示例

我上传了一份"客户订单表 .xlsx",6 列(订单号、客户、品类、金额、日期、状态)。请:
1. 按月统计各品类的销售额,给我一个 markdown 表格;
2. 找出销售额最高的 5 个客户,分析他们的共同点;
3. 找出 3 个"异常"订单(金额超大、退货率高、品类不寻常);
4. 给我一份 200 字的"业绩简报",可以复制到周报里。

ChatGPT 不仅能读 Excel,还会自动写 Python 代码做计算(用 Code Interpreter 功能),结果会比你手动算得更快、更准。

进阶用法

  • 让它生成新的 Excel 文件,下载链接会出现在回答里,你直接保存。
  • 让它生成图表(条形图、折线图、饼图),自动嵌入回答。
  • 让它做数据透视:复杂的 Pivot Table 一句话搞定。

4. 图片:当"会看图的眼睛"

ChatGPT 看图能力已经超过人类平均水平。它能:

  • 识别图中的文字(OCR)+ 翻译
  • 识别物体、人物表情、场景
  • 解读图表 / 财报 / 体检报告
  • 看截图找 Bug
  • 看穿搭给建议
  • 看食材推荐菜谱

示例 1:看体检报告

拍一张体检报告照片,写:

请帮我解读这张体检报告:
1. 哪些指标超标?请按"严重程度"从高到低排序;
2. 每项超标可能的常见原因(说明只是参考,不替代医生);
3. 我应该挂什么科?
4. 接下来一周饮食 / 运动 / 作息上能做什么?

示例 2:看穿搭

拍一张你今天的穿搭,写:

请评价这套穿搭:
1. 风格定位(休闲 / 商务 / 运动 / 文艺……);
2. 配色是否协调?分数 1-10;
3. 适合什么场合 / 不适合什么场合;
4. 给出 2 个改进建议(具体到"换一双什么样的鞋")。

示例 3:看截图找 Bug

把电脑屏幕的报错截图丢给它:

我电脑出现这个错误,麻烦帮我:
1. 解释这个错误是什么意思;
2. 最常见的 3 种原因;
3. 我应该按什么顺序去尝试修复。

5. 网页 / 链接:当"会上网的助理"

操作:直接把链接丢进对话框(开启联网模式时它会自动打开)。

示例

请打开这两篇文章:
- https://example.com/article-a
- https://example.com/article-b
请:
1. 各自总结成 5 个 bullet;
2. 找出它们的 3 个共同观点和 2 个对立观点;
3. 用一段 200 字告诉我,作为读者我应该怎么综合理解。

如果你订阅了 Plus,还可以用 Deep Research

  • 切到 Deep Research 模式
  • 提一个研究型问题("分析 2026 年中国新能源车出海现状")
  • 它会自动爬 50-200 个网站,5-30 分钟后输出一份带引用、带结构的研究报告

三、画图:直接说"画一张……"

GPT-5.4 内置了 GPT-image(DALL·E 升级版)。直接在对话框里说就行。

基础用法

画一张图:一只穿着唐装的金毛犬,坐在春节餐桌前,背景有红灯笼和"福"字。卡通风格,喜庆。

10-30 秒后,图就出来了。可以下载、可以让它"再来一版"、可以让它"换个风格"。

进阶用法

1. 多图一致性

请画一组 4 张连环画:
- 第 1 张:清晨,一个小女孩在自家花园浇花
- 第 2 张:中午,她和小伙伴们在花园野餐
- 第 3 张:傍晚,她在花园里读书
- 第 4 张:夜晚,她在花园里看星星

要求:4 张图风格一致(水彩、温暖色调),人物形象前后一致(短发、黄色裙子)。

2. 编辑现有图

把一张图拖进来:

这张照片背景太乱,请帮我换成一个简洁的浅色背景,人物保持不变。

或者:

请把这张照片做成"皮克斯卡通"风格。

3. 做表情包

请基于这张照片,做 4 张不同表情的表情包:开心、生气、委屈、呆滞。

4. 做封面 / Logo

帮我设计一个公众号文章封面,主题是"普通人如何用好 ChatGPT"。要求:
- 比例 16:9
- 主色调是 OpenAI 那种橙色
- 文字"用好 ChatGPT" 居中,字体粗壮
- 背景元素:一个微笑的卡通机器人和一个普通人在握手
- 风格:现代、扁平、有亲切感

画图的常见坑

  • 生成的中文字常出错:画封面时,建议把"中文文字"单独说明,或最终自己用 Photoshop / Canva 加文字。
  • 细节会变形:人手、人脸的细节有时不对,可以让它"重新生成第 3 个手指"或者"修改人脸表情"。
  • 版权风险:让它"画一只米老鼠"会被拒,让它"画一只迪士尼风格的卡通老鼠"是 OK 的。注意商业使用时的合规。

四、Sora 2:让你的字变成视频

Sora 是 OpenAI 的视频生成模型,Plus 起包含(每月 50 条左右 720p)。Pro 用户可以生成 1080p、2K、更长视频。

入口

  • 网页:左侧栏 → Sora
  • 直接说:"给我用 Sora 做一个视频,内容是……"

基础用法

做一个 8 秒视频:
- 场景:北京胡同,秋天,阳光斜照
- 主体:一个戴黑色棉袄的老爷爷在喂一只大橘猫
- 动作:老爷爷蹲下、抚摸猫、猫蹭他的腿
- 风格:纪录片风格,电影质感
- 镜头:固定镜头,自然光
- 比例:16:9

进阶用法

1. 用图生视频

上传一张图,然后说:

基于这张图,做一个 6 秒视频:图里的人物缓缓走近镜头,背景轻微晃动模拟风。

2. 文生 + 角色一致

做一个 3 段视频,每段 5 秒,主角都是同一个穿白色 T 恤的程序员小哥。
- 段 1:他在咖啡馆敲代码,桌上一杯拿铁
- 段 2:他出门,走在春日的街道上
- 段 3:他回到家,瘫在沙发上看手机

要求:人物形象、衣服、发型在 3 段中保持一致。

3. 商业短视频

帮我做一个 30 秒的产品宣传短片:
- 产品:智能咖啡机
- 场景 1(10s):早晨厨房,主人公疲惫地走进
- 场景 2(10s):他按下咖啡机按钮,特写咖啡注入杯中
- 场景 3(10s):他喝下一口,露出微笑,转身上班

风格:苹果广告风,干净、有质感

详细的 Sora 玩法见 第十章

五、联网搜索:让 ChatGPT "不再活在 2024 年"

它默认知道什么?

GPT-5.4 的训练截止数据大约是 2025 年中。也就是说,2025 年下半年到 2026 年的事情它默认是不知道的。如果你不开联网就问"今天上证指数多少",它会告诉你"我不能查询实时数据",或者更糟,编一个数字给你

怎么开联网?

  • 默认就有:GPT-5.4 现在已经能自动判断需不需要联网。
  • 手动触发:输入框旁的"地球图标"点一下,强制联网。
  • 明说:在提示词里加"请联网查最新信息"。

适用场景

  • 最新新闻 / 政策 / 财经
  • 旅游攻略(实时酒店价、机票)
  • 比赛结果 / 排行榜
  • 比较产品(最新型号对比)
  • 查最新的开源项目 / 软件版本

联网的坑

  • 它可能搬一些垃圾内容给你。所以重要信息要让它"列出引用来源"。
  • 可能慢:联网会让回答变慢。
  • 不要全信:网上的内容也可能错。让它"对照 2-3 个不同来源"。

进阶:Deep Research

Deep Research 是 ChatGPT 的"研究员"模式,比联网更强:

  • 自动爬 50-200 个网站
  • 5-30 分钟
  • 输出一份 带引用、带结构、带数据的研究报告

适合:

  • 做行业研究
  • 写论文综述
  • 投资尽调
  • 选品对比

示例

我要研究 2026 年中国新能源汽车在欧洲的销售情况。请用 Deep Research 模式,输出一份 ≤3000 字的研究报告,包含:
1. 总销量(按国家、按品牌)
2. 主要竞争对手
3. 当地政策影响
4. 消费者反馈(褒贬各列 3 条)
5. 我对中国厂商的 3 条建议

请标注所有数据的引用来源。

它会跑 10-15 分钟,给你一份抵得上请咨询公司做一周的报告。

六、Canvas:和 ChatGPT 一起"协同写作"

Canvas 是 ChatGPT 提供的"协作画布"模式,专门用于:

  • 写长文章 / 长邮件 / 长报告
  • 改代码
  • 改 markdown 文档

怎么打开?

  • 输入足够长 / 复杂的写作请求时,ChatGPT 会自动建议进入 Canvas
  • 也可以点顶部的"画布"按钮主动切换

普通对话 vs Canvas

普通对话 Canvas
形式 长段落,一次给你一坨 把内容铺开成文档,可以选某一段单独修改
编辑 你只能整段重写 可以只改一段、只改一句、只改一个词
历史 只能"再来一版" 有版本历史,可以回滚
协作 你和 AI 来回 你和 AI 像 Google Docs 那样同时改同一个文档

实战示例

第 1 步:开始一段写作

帮我写一篇 800 字的公众号文章:主题"普通人如何用好 ChatGPT",定位面向 30-45 岁职场妈妈,语气亲切,含 1 个开篇故事。

ChatGPT 会建议进入 Canvas,点确认。

第 2 步:选中一段,改它

在 Canvas 里用鼠标选中第二段,弹出一个小按钮"Ask ChatGPT to edit this",输入:

这一段太长了,压成 80 字,并加一个"我自己用 ChatGPT 帮 8 岁孩子讲数学"的具体例子。

只有这一段会被改,其他保持不动。

第 3 步:让它"全文检查"

请检查全文:
1. 错别字 / 语病
2. 节奏(是否有段落太长 / 太短)
3. 是否有重复表达
4. 标题是否吸引人

第 4 步:导出

直接复制 markdown 内容到公众号 / Notion / Word 即可。

Canvas 改代码

帮我写一个 Python 脚本:监控我的文件夹,每天晚上 11 点自动备份到云盘。

ChatGPT 进入 Canvas 模式,给你一段代码。你可以:

  • 选中某一行,让它"加注释"
  • 选中某一函数,让它"改成异步"
  • 让它"加一个邮件通知失败的功能"
  • 一键运行(在 ChatGPT 内置环境跑)

七、5 种感官混合用:3 个让你惊艳的实战

实战 1:把"散装信息"变成可视化报告

我有 3 张图(拖入:销售数据图、客户分布图、产品对比图)和 1 份 PDF(拖入:竞品分析)。请:
1. 把 3 张图的关键数据提取成一张总表(markdown);
2. 结合 PDF 的内容,写一份 800 字的"市场总结";
3. 给我 1 张"建议行动 4 步走"的流程图描述(我可以让你下一步用 Sora 生成);
4. 配一张公众号封面图(橙色调,主题"市场观察")。

一次提问,5 种感官全用上

实战 2:把视频变成"说明书"

我会发一段 1 分钟的 Sora 视频(或者 YouTube 链接)给你。请:
1. 描述视频每 10 秒的画面内容(按时间轴)
2. 提取视频中所有出现的文字(字幕 / 标牌 / 商品名)
3. 用 200 字总结视频的核心信息
4. 帮我写 3 条小红书文案,分别用"种草、避雷、对比"3 种角度

实战 3:把孩子作业变成"会自己讲解的 PPT"

我拍了一张孩子三年级数学作业的照片(拖入)。请:
1. 把题目转成文字;
2. 一步步讲解解题过程,假设孩子完全没基础;
3. 用一张图把关键步骤画出来(让 GPT-image 画);
4. 用 Voice 给我读一遍讲解(手机版可触发);
5. 出 3 道类似的小题让孩子练习,并给出答案。

八、本章一图回顾

                    多模态全家桶
                          │
        ┌────────┬────────┼────────┬────────┐
        ▼        ▼        ▼        ▼        ▼
       看        写        画        拍       听/说
       │         │         │        │         │
   PDF/Word  默认就行  画图/封面  Sora 视频   语音对话
   Excel/图     │     表情包/Logo   │         │
   网页/截图    │         │      文生视频    实时打断
        │     Canvas   编辑现图    图生视频    语种翻译
        │       │         │        │         │
        └───────┴─────────┴────────┴─────────┘
                          │
                  联网 + Deep Research
                          │
                          ▼
                  混合用 → 一次提问出一篇完整报告

九、本章小练习

  1. PDF 实战:找一份你看不懂的 PDF(保险条款 / 体检报告 / 政策文件 / 论文)丢给 ChatGPT,让它给你一份"5 段式总结"。
  2. 图片实战:拍一张你今天的早餐照片,问它"这是什么菜,热量多少,营养均衡吗,给我下一顿的建议"。
  3. 画图实战:给你的爸妈做一张"家庭微信头像",要求温馨、有家人元素、卡通风格。
  4. Sora 实战(Plus 起):做一个 8 秒视频,内容是"一只猫从沙发上跳到地板"。
  5. Canvas 实战:让 ChatGPT 进入 Canvas 模式写一篇 500 字的文章,然后选中其中一段单独修改。

完成?翻到 第七章 生活场景实战