Codex 是什么 · Codex 橙皮书

2.1 一句话定义

Codex 是 OpenAI 推出的、面向"完成端到端任务"的 AI 智能体（Agent），它能在你的电脑、浏览器、云端、代码仓库里，自主读写文件、执行命令、操作应用，并把结果交付给你审核。

这句话有点长。我们拆开看：

OpenAI 推出的——跟 ChatGPT 同一家公司，使用同一套底层模型（GPT-5 系列）。
面向完成端到端任务——重点是"任务"，不是"对话"。你给它一个目标，它负责走完整个流程。
AI 智能体（Agent）——它不只是大语言模型，更是模型+工具+决策+执行的组合体。
在你的电脑、浏览器、云端、代码仓库里——这是它的"工作场所"，远比 ChatGPT 的聊天框广。
自主读写文件、执行命令、操作应用——这是它的三种核心动作。
把结果交付给你审核——它不是黑盒，每一步都可以追溯，最终结果可以人工把关。

2.2 一张概念图

下面这张图把 Codex 的"全貌"画了出来。如果只能记住一张图，记住这张：

                     ┌─────────────────────────────┐
                     │  你（自然语言指令 / 文件 / 截图）│
                     └─────────────┬───────────────┘
                                   │
            ┌──────────────────────▼──────────────────────┐
            │             Codex 的"大脑"                  │
            │   GPT-5.4  /  GPT-5.3-Codex  推理引擎       │
            │   ────────────────────────────────────────  │
            │   思考  →  规划  →  调用工具  →  自我纠错    │
            └──────────────────────┬──────────────────────┘
                                   │
   ┌───────────────────────────────┼───────────────────────────────┐
   │                               │                               │
   ▼                               ▼                               ▼
┌────────┐                 ┌──────────────┐                 ┌────────────┐
│ 读写文件 │                 │ 执行 Shell 命令│                 │ 操作浏览器  │
│ apply_  │                 │ run_command   │                 │ Computer Use│
│ patch   │                 │ run_in_       │                 │ In-App      │
│         │                 │ background    │                 │ Browser     │
└────┬───┘                 └──────┬───────┘                 └─────┬──────┘
     │                             │                               │
     ▼                             ▼                               ▼
┌────────────────────────────────────────────────────────────────────────┐
│             你的电脑 / 浏览器 / 云端 VM / GitHub 仓库                  │
└────────────────────────────────────────────────────────────────────────┘
                                   │
                                   ▼
                     ┌─────────────────────────────┐
                     │  结果（文件 / 报告 / PR / 操作）│
                     │   ↑ 可审核、可回滚、可 Diff   │
                     └─────────────────────────────┘

读这张图的方法：

你给 Codex 一个指令（可以是中文，可以带图）
Codex 的大脑（GPT-5 系列模型）思考、规划、决定要做什么
它通过三类工具（读写文件、执行命令、操作浏览器）真正"动手"
这些动作发生在你授权的"工作场所"里
最终的结果以文件、报告或 PR 形式交付给你

每一步它都会告诉你"我准备做什么"，请求你授权（除非你预先设置了"全通过"）。这是 Codex 跟传统脚本的根本区别——它会和你协商，而不是闷头执行。

2.3 Codex 的四种形态

很多人以为 Codex 只是一个 App。其实在 2026 年，Codex 已经发展出四种独立又互通的形态。同一个账号，可以在四种形态间无缝切换。

形态一：Codex 桌面版（macOS / Windows）

这是 OpenAI 主推的形态。你下载一个原生 App，登录 ChatGPT 账号，就能用。

特点：

图形化界面，跟 ChatGPT 桌面版风格类似
集成了项目浏览、Diff 查看、PR 审查、终端、SSH 远程
内置 In-App Browser（基于 OpenAI Atlas）和 Computer Use
支持 Image Generation（gpt-image-1.5）
支持 111+ 插件（Slack、Gmail、Notion 等）
Task Sidebar 跟踪 Agent 计划与产出

适合谁用： 大多数普通用户，尤其是非程序员。这是入门首选。

形态二：Codex CLI（命令行）

如果你习惯用终端（或者你是程序员），CLI 版更轻量也更灵活。

特点：

一条命令安装：npm install -g @openai/codex
支持交互式会话和单次任务两种模式
支持图片输入（-i error.png）
支持斜杠命令（/model、/approvals、/memory）
跨平台（macOS / Linux / Windows / WSL）

适合谁用： 程序员、SSH 远程办公的人、想要做自动化脚本的人。

形态三：Codex Web（浏览器版）

这是最早的 Codex 形态，集成在 ChatGPT 网页里。

特点：

不用安装任何软件
在云端 VM 里跑任务，不影响本地环境
适合"提交后等结果"的异步任务
直接连接 GitHub，自动开 PR

适合谁用： 偶尔用一下、不想装软件、做云端任务的人。

形态四：Codex GitHub Action（CI/CD）

这是给团队用的"无人值守"形态。

特点：

装到 GitHub 仓库里
触发条件：PR 提交、Issue 创建、定时
自动执行：Code Review、生成测试、修 bug
输出结果：PR 评论、自动提交、Issue 回复

适合谁用： 开发团队、有 CI/CD 流程的项目。

一张对比表

维度	桌面版	CLI	Web	GitHub Action
安装难度	低（下载 dmg）	中（npm 命令）	无	低（GitHub 配置）
是否需懂代码	否	略懂更顺	否	需要
主要操作场所	本地电脑	本地终端	云端 VM	GitHub
是否支持长任务	是（背景执行）	是（exec 模式）	是（云端跑）	是（无人值守）
是否支持图形操作	是（Computer Use）	否	否	否
适合的频次	每天高频	每天中频	偶尔	自动触发

这本书的默认形态是桌面版，因为它对普通用户最友好。但每章遇到 CLI 特有的命令，我们也会单独说明。

2.4 Codex 的工作原理（一段不烧脑的解释）

如果你不关心原理，可以跳过这一节。但如果你想理解"为什么 Codex 有时候出错、有时候表现惊艳"，看完这一节会有帮助。

Codex 的工作分四个阶段：

阶段一：理解你的指令。

你说了一句话，Codex 的模型先把它"理解"成一个明确的目标。这一步看起来简单，其实很关键——因为很多时候，人类的话本身是模糊的。比如你说"帮我整理一下文件"，到底是按时间分类？按类型分类？按项目分类？

经验上，指令越具体，Codex 表现越好。这就是后面第七章要详细讲的"对话的艺术"。

阶段二：制定计划。

理解了目标之后，Codex 会在脑子里（实际上是在它的"思维链"里）列出步骤。比如"整理桌面 PDF"这个任务，它会想：

先扫描桌面看有多少 PDF
决定按什么标准分类
创建对应文件夹
移动文件
生成一份索引

复杂任务可以让 Codex 把这个计划"写出来"给你看，确认后再执行。这就是 Plan Mode（计划模式）。

阶段三：调用工具。

光想没用，要"做"。Codex 会调用合适的工具——读文件用 read_file，写文件用 apply_patch，运行命令用 run_command，搜索用 rg，操作浏览器用 Computer Use。

每次调用，都会请求你授权（除非你预设了"全通过"）。

阶段四：验证与纠错。

工具调用完了，Codex 会"看"结果。如果结果符合预期，往下一步；如果出错（比如命令报错、文件不存在），Codex 会自己纠错——重新读文档、改方案、再试一次。

这一点是 Codex 跟"普通脚本"最大的区别：普通脚本一旦出错就停了，Codex 出错后会自己想办法。

2.5 Codex 与 ChatGPT、Cursor、Claude Code 的关系

为了让你看清 Codex 的定位，我们用一张图把它跟其他主流 AI 工具放一起：

                      会聊天 ────────────────→ 会动手
            │
   单文件   │   ChatGPT          Cursor
            │   (Web 聊天)       (IDE 内编辑)
            │
   ─────────┼───────────────────────────────────
            │
   多文件   │   Claude Web       Codex / Claude Code
            │   (长文档)        (端到端任务)
            │
            ▼
         懂全局

简单分类：

ChatGPT：聊天为主，看不到你的文件，适合"问答、写文案、想方案"
Cursor：在 IDE 里编辑代码的助手，适合"边写代码边问"
Claude Code：跟 Codex 同类的"端到端任务 Agent"，特点是推理能力强、上下文长
Codex：跟 Claude Code 同类的"端到端任务 Agent"，特点是与 OpenAI 生态深度集成、Computer Use 能力强、价格友好（Plus 订阅就能用）

它们不是互斥的。第十七章会专门讲怎么让它们"互相配合"，比如 Claude 当架构师 + Codex 当执行者。

2.6 Codex 的局限

为了让你有个完整的认知，必须实话实说 Codex 现阶段的局限：

速度不是最快的。 Codex 在"细节处理"上更准，但相比 Claude Code，它在某些任务上稍慢。如果追求"瞬间出结果"，Cursor 的 Tab 自动补全更适合。

深度思考有限额。 截至 2026 年 4 月，深度思考模式（Reasoning High）限制为 3 小时 40 次。普通对话不限。

有些场景需要付费插件或 API。 桌面版一些插件（比如 Slack 的高级功能）需要额外配置或付费。

对中文场景的优化还在路上。 大部分案例和教程是英文的，中文社区资料相对少。这本书的目的之一，就是补上中文资料的缺口。

无法 100% 替代人。 还是那句话——它是工具，不是答案。最终的判断、负责、决策，依然需要你。

2.7 本章小结

Codex 是 OpenAI 的 AI Agent，能读写文件、执行命令、操作应用
四种形态：桌面版（首选）、CLI（程序员）、Web（轻量）、GitHub Action（团队）
工作流程四阶段：理解 → 规划 → 调用 → 验证
与 ChatGPT 是"对话"vs"动手"，与 Claude Code 同类竞品，与 Cursor 互补
局限：速度、限额、中文资料、最终判断

到这里你应该已经对 Codex 有了完整的认知。下一章我们换个视角，看看 Codex 具体能为你做什么——30 个真实场景，总有一个让你眼前一亮。

第二章 Codex 是什么

2.1 一句话定义

2.2 一张概念图

2.3 Codex 的四种形态

形态一：Codex 桌面版（macOS / Windows）

形态二：Codex CLI（命令行）

形态三：Codex Web（浏览器版）

形态四：Codex GitHub Action（CI/CD）

一张对比表

2.4 Codex 的工作原理（一段不烧脑的解释）

2.5 Codex 与 ChatGPT、Cursor、Claude Code 的关系

2.6 Codex 的局限

2.7 本章小结