2.1 一句话定义
Codex 是 OpenAI 推出的、面向"完成端到端任务"的 AI 智能体(Agent),它能在你的电脑、浏览器、云端、代码仓库里,自主读写文件、执行命令、操作应用,并把结果交付给你审核。
这句话有点长。我们拆开看:
- OpenAI 推出的——跟 ChatGPT 同一家公司,使用同一套底层模型(GPT-5 系列)。
- 面向完成端到端任务——重点是"任务",不是"对话"。你给它一个目标,它负责走完整个流程。
- AI 智能体(Agent)——它不只是大语言模型,更是模型+工具+决策+执行的组合体。
- 在你的电脑、浏览器、云端、代码仓库里——这是它的"工作场所",远比 ChatGPT 的聊天框广。
- 自主读写文件、执行命令、操作应用——这是它的三种核心动作。
- 把结果交付给你审核——它不是黑盒,每一步都可以追溯,最终结果可以人工把关。
2.2 一张概念图
下面这张图把 Codex 的"全貌"画了出来。如果只能记住一张图,记住这张:
┌─────────────────────────────┐
│ 你(自然语言指令 / 文件 / 截图)│
└─────────────┬───────────────┘
│
┌──────────────────────▼──────────────────────┐
│ Codex 的"大脑" │
│ GPT-5.4 / GPT-5.3-Codex 推理引擎 │
│ ──────────────────────────────────────── │
│ 思考 → 规划 → 调用工具 → 自我纠错 │
└──────────────────────┬──────────────────────┘
│
┌───────────────────────────────┼───────────────────────────────┐
│ │ │
▼ ▼ ▼
┌────────┐ ┌──────────────┐ ┌────────────┐
│ 读写文件 │ │ 执行 Shell 命令│ │ 操作浏览器 │
│ apply_ │ │ run_command │ │ Computer Use│
│ patch │ │ run_in_ │ │ In-App │
│ │ │ background │ │ Browser │
└────┬───┘ └──────┬───────┘ └─────┬──────┘
│ │ │
▼ ▼ ▼
┌────────────────────────────────────────────────────────────────────────┐
│ 你的电脑 / 浏览器 / 云端 VM / GitHub 仓库 │
└────────────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────┐
│ 结果(文件 / 报告 / PR / 操作)│
│ ↑ 可审核、可回滚、可 Diff │
└─────────────────────────────┘
读这张图的方法:
- 你给 Codex 一个指令(可以是中文,可以带图)
- Codex 的大脑(GPT-5 系列模型)思考、规划、决定要做什么
- 它通过三类工具(读写文件、执行命令、操作浏览器)真正"动手"
- 这些动作发生在你授权的"工作场所"里
- 最终的结果以文件、报告或 PR 形式交付给你
每一步它都会告诉你"我准备做什么",请求你授权(除非你预先设置了"全通过")。这是 Codex 跟传统脚本的根本区别——它会和你协商,而不是闷头执行。
2.3 Codex 的四种形态
很多人以为 Codex 只是一个 App。其实在 2026 年,Codex 已经发展出四种独立又互通的形态。同一个账号,可以在四种形态间无缝切换。
形态一:Codex 桌面版(macOS / Windows)
这是 OpenAI 主推的形态。你下载一个原生 App,登录 ChatGPT 账号,就能用。
特点:
- 图形化界面,跟 ChatGPT 桌面版风格类似
- 集成了项目浏览、Diff 查看、PR 审查、终端、SSH 远程
- 内置 In-App Browser(基于 OpenAI Atlas)和 Computer Use
- 支持 Image Generation(gpt-image-1.5)
- 支持 111+ 插件(Slack、Gmail、Notion 等)
- Task Sidebar 跟踪 Agent 计划与产出
适合谁用: 大多数普通用户,尤其是非程序员。这是入门首选。
形态二:Codex CLI(命令行)
如果你习惯用终端(或者你是程序员),CLI 版更轻量也更灵活。
特点:
- 一条命令安装:
npm install -g @openai/codex - 支持交互式会话和单次任务两种模式
- 支持图片输入(
-i error.png) - 支持斜杠命令(
/model、/approvals、/memory) - 跨平台(macOS / Linux / Windows / WSL)
适合谁用: 程序员、SSH 远程办公的人、想要做自动化脚本的人。
形态三:Codex Web(浏览器版)
这是最早的 Codex 形态,集成在 ChatGPT 网页里。
特点:
- 不用安装任何软件
- 在云端 VM 里跑任务,不影响本地环境
- 适合"提交后等结果"的异步任务
- 直接连接 GitHub,自动开 PR
适合谁用: 偶尔用一下、不想装软件、做云端任务的人。
形态四:Codex GitHub Action(CI/CD)
这是给团队用的"无人值守"形态。
特点:
- 装到 GitHub 仓库里
- 触发条件:PR 提交、Issue 创建、定时
- 自动执行:Code Review、生成测试、修 bug
- 输出结果:PR 评论、自动提交、Issue 回复
适合谁用: 开发团队、有 CI/CD 流程的项目。
一张对比表
| 维度 | 桌面版 | CLI | Web | GitHub Action |
|---|---|---|---|---|
| 安装难度 | 低(下载 dmg) | 中(npm 命令) | 无 | 低(GitHub 配置) |
| 是否需懂代码 | 否 | 略懂更顺 | 否 | 需要 |
| 主要操作场所 | 本地电脑 | 本地终端 | 云端 VM | GitHub |
| 是否支持长任务 | 是(背景执行) | 是(exec 模式) | 是(云端跑) | 是(无人值守) |
| 是否支持图形操作 | 是(Computer Use) | 否 | 否 | 否 |
| 适合的频次 | 每天高频 | 每天中频 | 偶尔 | 自动触发 |
这本书的默认形态是桌面版,因为它对普通用户最友好。但每章遇到 CLI 特有的命令,我们也会单独说明。
2.4 Codex 的工作原理(一段不烧脑的解释)
如果你不关心原理,可以跳过这一节。但如果你想理解"为什么 Codex 有时候出错、有时候表现惊艳",看完这一节会有帮助。
Codex 的工作分四个阶段:
阶段一:理解你的指令。
你说了一句话,Codex 的模型先把它"理解"成一个明确的目标。这一步看起来简单,其实很关键——因为很多时候,人类的话本身是模糊的。比如你说"帮我整理一下文件",到底是按时间分类?按类型分类?按项目分类?
经验上,指令越具体,Codex 表现越好。这就是后面第七章要详细讲的"对话的艺术"。
阶段二:制定计划。
理解了目标之后,Codex 会在脑子里(实际上是在它的"思维链"里)列出步骤。比如"整理桌面 PDF"这个任务,它会想:
- 先扫描桌面看有多少 PDF
- 决定按什么标准分类
- 创建对应文件夹
- 移动文件
- 生成一份索引
复杂任务可以让 Codex 把这个计划"写出来"给你看,确认后再执行。这就是 Plan Mode(计划模式)。
阶段三:调用工具。
光想没用,要"做"。Codex 会调用合适的工具——读文件用 read_file,写文件用 apply_patch,运行命令用 run_command,搜索用 rg,操作浏览器用 Computer Use。
每次调用,都会请求你授权(除非你预设了"全通过")。
阶段四:验证与纠错。
工具调用完了,Codex 会"看"结果。如果结果符合预期,往下一步;如果出错(比如命令报错、文件不存在),Codex 会自己纠错——重新读文档、改方案、再试一次。
这一点是 Codex 跟"普通脚本"最大的区别:普通脚本一旦出错就停了,Codex 出错后会自己想办法。
2.5 Codex 与 ChatGPT、Cursor、Claude Code 的关系
为了让你看清 Codex 的定位,我们用一张图把它跟其他主流 AI 工具放一起:
会聊天 ────────────────→ 会动手
│
单文件 │ ChatGPT Cursor
│ (Web 聊天) (IDE 内编辑)
│
─────────┼───────────────────────────────────
│
多文件 │ Claude Web Codex / Claude Code
│ (长文档) (端到端任务)
│
▼
懂全局
简单分类:
- ChatGPT:聊天为主,看不到你的文件,适合"问答、写文案、想方案"
- Cursor:在 IDE 里编辑代码的助手,适合"边写代码边问"
- Claude Code:跟 Codex 同类的"端到端任务 Agent",特点是推理能力强、上下文长
- Codex:跟 Claude Code 同类的"端到端任务 Agent",特点是与 OpenAI 生态深度集成、Computer Use 能力强、价格友好(Plus 订阅就能用)
它们不是互斥的。第十七章会专门讲怎么让它们"互相配合",比如 Claude 当架构师 + Codex 当执行者。
2.6 Codex 的局限
为了让你有个完整的认知,必须实话实说 Codex 现阶段的局限:
速度不是最快的。 Codex 在"细节处理"上更准,但相比 Claude Code,它在某些任务上稍慢。如果追求"瞬间出结果",Cursor 的 Tab 自动补全更适合。
深度思考有限额。 截至 2026 年 4 月,深度思考模式(Reasoning High)限制为 3 小时 40 次。普通对话不限。
有些场景需要付费插件或 API。 桌面版一些插件(比如 Slack 的高级功能)需要额外配置或付费。
对中文场景的优化还在路上。 大部分案例和教程是英文的,中文社区资料相对少。这本书的目的之一,就是补上中文资料的缺口。
无法 100% 替代人。 还是那句话——它是工具,不是答案。最终的判断、负责、决策,依然需要你。
2.7 本章小结
- Codex 是 OpenAI 的 AI Agent,能读写文件、执行命令、操作应用
- 四种形态:桌面版(首选)、CLI(程序员)、Web(轻量)、GitHub Action(团队)
- 工作流程四阶段:理解 → 规划 → 调用 → 验证
- 与 ChatGPT 是"对话"vs"动手",与 Claude Code 同类竞品,与 Cursor 互补
- 局限:速度、限额、中文资料、最终判断
到这里你应该已经对 Codex 有了完整的认知。下一章我们换个视角,看看 Codex 具体能为你做什么——30 个真实场景,总有一个让你眼前一亮。