ORANGE BOOK · CODEX

第二章 Codex 是什么

2.1 一句话定义

Codex 是 OpenAI 推出的、面向"完成端到端任务"的 AI 智能体(Agent),它能在你的电脑、浏览器、云端、代码仓库里,自主读写文件、执行命令、操作应用,并把结果交付给你审核。

这句话有点长。我们拆开看:

  • OpenAI 推出的——跟 ChatGPT 同一家公司,使用同一套底层模型(GPT-5 系列)。
  • 面向完成端到端任务——重点是"任务",不是"对话"。你给它一个目标,它负责走完整个流程。
  • AI 智能体(Agent)——它不只是大语言模型,更是模型+工具+决策+执行的组合体。
  • 在你的电脑、浏览器、云端、代码仓库里——这是它的"工作场所",远比 ChatGPT 的聊天框广。
  • 自主读写文件、执行命令、操作应用——这是它的三种核心动作。
  • 把结果交付给你审核——它不是黑盒,每一步都可以追溯,最终结果可以人工把关。

2.2 一张概念图

下面这张图把 Codex 的"全貌"画了出来。如果只能记住一张图,记住这张:

                     ┌─────────────────────────────┐
                     │  你(自然语言指令 / 文件 / 截图)│
                     └─────────────┬───────────────┘
                                   │
            ┌──────────────────────▼──────────────────────┐
            │             Codex 的"大脑"                  │
            │   GPT-5.4  /  GPT-5.3-Codex  推理引擎       │
            │   ────────────────────────────────────────  │
            │   思考  →  规划  →  调用工具  →  自我纠错    │
            └──────────────────────┬──────────────────────┘
                                   │
   ┌───────────────────────────────┼───────────────────────────────┐
   │                               │                               │
   ▼                               ▼                               ▼
┌────────┐                 ┌──────────────┐                 ┌────────────┐
│ 读写文件 │                 │ 执行 Shell 命令│                 │ 操作浏览器  │
│ apply_  │                 │ run_command   │                 │ Computer Use│
│ patch   │                 │ run_in_       │                 │ In-App      │
│         │                 │ background    │                 │ Browser     │
└────┬───┘                 └──────┬───────┘                 └─────┬──────┘
     │                             │                               │
     ▼                             ▼                               ▼
┌────────────────────────────────────────────────────────────────────────┐
│             你的电脑 / 浏览器 / 云端 VM / GitHub 仓库                  │
└────────────────────────────────────────────────────────────────────────┘
                                   │
                                   ▼
                     ┌─────────────────────────────┐
                     │  结果(文件 / 报告 / PR / 操作)│
                     │   ↑ 可审核、可回滚、可 Diff   │
                     └─────────────────────────────┘

读这张图的方法:

  1. 你给 Codex 一个指令(可以是中文,可以带图)
  2. Codex 的大脑(GPT-5 系列模型)思考、规划、决定要做什么
  3. 它通过三类工具(读写文件、执行命令、操作浏览器)真正"动手"
  4. 这些动作发生在你授权的"工作场所"里
  5. 最终的结果以文件、报告或 PR 形式交付给你

每一步它都会告诉你"我准备做什么",请求你授权(除非你预先设置了"全通过")。这是 Codex 跟传统脚本的根本区别——它会和你协商,而不是闷头执行

2.3 Codex 的四种形态

很多人以为 Codex 只是一个 App。其实在 2026 年,Codex 已经发展出四种独立又互通的形态。同一个账号,可以在四种形态间无缝切换。

形态一:Codex 桌面版(macOS / Windows)

这是 OpenAI 主推的形态。你下载一个原生 App,登录 ChatGPT 账号,就能用。

特点:

  • 图形化界面,跟 ChatGPT 桌面版风格类似
  • 集成了项目浏览、Diff 查看、PR 审查、终端、SSH 远程
  • 内置 In-App Browser(基于 OpenAI Atlas)和 Computer Use
  • 支持 Image Generation(gpt-image-1.5)
  • 支持 111+ 插件(Slack、Gmail、Notion 等)
  • Task Sidebar 跟踪 Agent 计划与产出

适合谁用: 大多数普通用户,尤其是非程序员。这是入门首选。

形态二:Codex CLI(命令行)

如果你习惯用终端(或者你是程序员),CLI 版更轻量也更灵活。

特点:

  • 一条命令安装:npm install -g @openai/codex
  • 支持交互式会话和单次任务两种模式
  • 支持图片输入(-i error.png
  • 支持斜杠命令(/model/approvals/memory
  • 跨平台(macOS / Linux / Windows / WSL)

适合谁用: 程序员、SSH 远程办公的人、想要做自动化脚本的人。

形态三:Codex Web(浏览器版)

这是最早的 Codex 形态,集成在 ChatGPT 网页里。

特点:

  • 不用安装任何软件
  • 在云端 VM 里跑任务,不影响本地环境
  • 适合"提交后等结果"的异步任务
  • 直接连接 GitHub,自动开 PR

适合谁用: 偶尔用一下、不想装软件、做云端任务的人。

形态四:Codex GitHub Action(CI/CD)

这是给团队用的"无人值守"形态。

特点:

  • 装到 GitHub 仓库里
  • 触发条件:PR 提交、Issue 创建、定时
  • 自动执行:Code Review、生成测试、修 bug
  • 输出结果:PR 评论、自动提交、Issue 回复

适合谁用: 开发团队、有 CI/CD 流程的项目。

一张对比表

维度 桌面版 CLI Web GitHub Action
安装难度 低(下载 dmg) 中(npm 命令) 低(GitHub 配置)
是否需懂代码 略懂更顺 需要
主要操作场所 本地电脑 本地终端 云端 VM GitHub
是否支持长任务 是(背景执行) 是(exec 模式) 是(云端跑) 是(无人值守)
是否支持图形操作 是(Computer Use)
适合的频次 每天高频 每天中频 偶尔 自动触发

这本书的默认形态是桌面版,因为它对普通用户最友好。但每章遇到 CLI 特有的命令,我们也会单独说明。

2.4 Codex 的工作原理(一段不烧脑的解释)

如果你不关心原理,可以跳过这一节。但如果你想理解"为什么 Codex 有时候出错、有时候表现惊艳",看完这一节会有帮助。

Codex 的工作分四个阶段:

阶段一:理解你的指令。

你说了一句话,Codex 的模型先把它"理解"成一个明确的目标。这一步看起来简单,其实很关键——因为很多时候,人类的话本身是模糊的。比如你说"帮我整理一下文件",到底是按时间分类?按类型分类?按项目分类?

经验上,指令越具体,Codex 表现越好。这就是后面第七章要详细讲的"对话的艺术"。

阶段二:制定计划。

理解了目标之后,Codex 会在脑子里(实际上是在它的"思维链"里)列出步骤。比如"整理桌面 PDF"这个任务,它会想:

  1. 先扫描桌面看有多少 PDF
  2. 决定按什么标准分类
  3. 创建对应文件夹
  4. 移动文件
  5. 生成一份索引

复杂任务可以让 Codex 把这个计划"写出来"给你看,确认后再执行。这就是 Plan Mode(计划模式)。

阶段三:调用工具。

光想没用,要"做"。Codex 会调用合适的工具——读文件用 read_file,写文件用 apply_patch,运行命令用 run_command,搜索用 rg,操作浏览器用 Computer Use。

每次调用,都会请求你授权(除非你预设了"全通过")。

阶段四:验证与纠错。

工具调用完了,Codex 会"看"结果。如果结果符合预期,往下一步;如果出错(比如命令报错、文件不存在),Codex 会自己纠错——重新读文档、改方案、再试一次。

这一点是 Codex 跟"普通脚本"最大的区别:普通脚本一旦出错就停了,Codex 出错后会自己想办法。

2.5 Codex 与 ChatGPT、Cursor、Claude Code 的关系

为了让你看清 Codex 的定位,我们用一张图把它跟其他主流 AI 工具放一起:

                      会聊天 ────────────────→ 会动手
            │
   单文件   │   ChatGPT          Cursor
            │   (Web 聊天)       (IDE 内编辑)
            │
   ─────────┼───────────────────────────────────
            │
   多文件   │   Claude Web       Codex / Claude Code
            │   (长文档)        (端到端任务)
            │
            ▼
         懂全局

简单分类:

  • ChatGPT:聊天为主,看不到你的文件,适合"问答、写文案、想方案"
  • Cursor:在 IDE 里编辑代码的助手,适合"边写代码边问"
  • Claude Code:跟 Codex 同类的"端到端任务 Agent",特点是推理能力强、上下文长
  • Codex:跟 Claude Code 同类的"端到端任务 Agent",特点是与 OpenAI 生态深度集成、Computer Use 能力强、价格友好(Plus 订阅就能用)

它们不是互斥的。第十七章会专门讲怎么让它们"互相配合",比如 Claude 当架构师 + Codex 当执行者。

2.6 Codex 的局限

为了让你有个完整的认知,必须实话实说 Codex 现阶段的局限:

速度不是最快的。 Codex 在"细节处理"上更准,但相比 Claude Code,它在某些任务上稍慢。如果追求"瞬间出结果",Cursor 的 Tab 自动补全更适合。

深度思考有限额。 截至 2026 年 4 月,深度思考模式(Reasoning High)限制为 3 小时 40 次。普通对话不限。

有些场景需要付费插件或 API。 桌面版一些插件(比如 Slack 的高级功能)需要额外配置或付费。

对中文场景的优化还在路上。 大部分案例和教程是英文的,中文社区资料相对少。这本书的目的之一,就是补上中文资料的缺口。

无法 100% 替代人。 还是那句话——它是工具,不是答案。最终的判断、负责、决策,依然需要你。

2.7 本章小结

  • Codex 是 OpenAI 的 AI Agent,能读写文件、执行命令、操作应用
  • 四种形态:桌面版(首选)、CLI(程序员)、Web(轻量)、GitHub Action(团队)
  • 工作流程四阶段:理解 → 规划 → 调用 → 验证
  • 与 ChatGPT 是"对话"vs"动手",与 Claude Code 同类竞品,与 Cursor 互补
  • 局限:速度、限额、中文资料、最终判断

到这里你应该已经对 Codex 有了完整的认知。下一章我们换个视角,看看 Codex 具体能为你做什么——30 个真实场景,总有一个让你眼前一亮。