ORANGE BOOK · EGO

卷首语:为什么需要一本场景百科

一封开场信:写给所有路过这本书的人

朋友你好,

如果你拿起这本书时,对"EGO 数采"这四个字一无所知,没关系——大多数人都是。

如果你已经在做采集员,做了几个月,每次接到任务只知道"做这个动作",但不知道这个动作在整个产业图谱里位于哪里、为什么有人要、值多少钱、能不能扩展成"系列单"——也没关系,这本书就是为你而写的。

如果你是数据公司的老板、产品经理、运营,每天都在为"我家平台上还能上哪些 SKU、上多少、怎么命名、怎么定价"发愁——这本书的 5 层架构和 1000+ 任务清单,几乎可以直接拿来当公司内部 SKU 表。

如果你是机器人公司的算法工程师,模型在某些场景下表现不好,想反向去找"我到底缺哪些场景的数据"——附录 B 的 3000 个原子动作和附录 A 的总目录,会是你最快的检索手册。

如果你是投资人、研究员、媒体记者、政策制定者,想要一张"上帝视角"的行业地图——本书 6 篇正文 + 6 个附录,组成完整的鸟瞰图。

如果你是高校老师、培训机构、职业学校负责人,想给学生开一门"具身数据采集实务"——本书的 5 层架构和领域章节,是天然的教学大纲。

如果你只是路过、好奇 2026 年的人形机器人到底是怎么"学会做事的"——把这本书当一本"人类日常活动百科"翻翻也很好。

不管你属于哪一类,这本书想做的事都只有一件:让你在 1 分钟内,找到自己关心的那个场景在哪一页

— 编者

一、这是 2026 年最被低估的"普通人产业入口"

2026 年,关于"AI 取代普通人"的恐慌已经持续了 4 年。

但很少有人注意到一件事:就在同一时期,AI 也悄悄打开了一个反向的口子——"AI 需要普通人,而且只需要普通人"

这个口子,就是第一人称数据采集(EGO 数据采集)。

它的核心逻辑非常反直觉:

  • 让 AI 学会写代码?需要工程师。
  • 让 AI 学会画画?需要插画师。
  • 让 AI 学会做客服?需要话术专家。
  • 让 AI 学会洗碗、切菜、关门、扫地、给老人翻身、在仓库挑包裹、在咖啡馆收餐桌?——只需要普通人,而且越普通越好

为什么?因为机器人要在物理世界里替代人,它必须先看够"人在物理世界里怎么做事"。而"人在物理世界里怎么做事",就是每一个普通人每天都在做的事——再普通不过。

这就是为什么 2026 年,FastUMI 数据超市能在京东上把"擦玻璃"的数据卖到几百块一条,京东能在两年内承诺采集 1000 万小时第一人称数据,鹿明能给 1 万人发"采集背包"扫荡 6 大场景,蚂蚁能在一年内推出真实数据采集框架——

整个行业都在抢一种东西:真实的、多样的、由普通人在真实场景里完成的"日常动作数据"

而你——只要你有一双手、能走路、住在地球某个角落的某种生活里——你天然就是这个产业最需要的"原料"。

二、为什么"场景"是这个行业的核心词

听到这里,你可能会想:那我去注册个采集员账号、戴个眼镜、做点什么动作就可以了?

不能。

因为机器人公司不是要"动作",它要的是"场景里的动作"。

举个例子:

  • "把杯子拿起来"——这是一个动作。但它只值 0.1 元一条。
  • "在餐桌上把咖啡杯拿起来递给坐在对面的客人"——这是一个场景里的任务。它能值 5 元一条。
  • "在午后的咖啡馆里,下雨天客流稀少时,从托盘里拿起一杯加了糖浆的拿铁、绕过一把斜放的椅子、递给坐在窗边正在用笔记本电脑工作的客人"——这是一个有完整情境约束的真实任务。它能值 50 元一条。

为什么差别这么大?

因为机器人最终要落地在具体的场景里——咖啡馆里的服务机器人、医院里的护理机器人、工厂里的装配机器人。它学到的"动作"如果不带场景信息,它永远不知道"什么时候该这样做、什么时候不该"。

所以——

  • "动作"很便宜,因为它单调、可重复、没有上下文。
  • "场景里的任务"很贵,因为它需要"在特定的环境里、在特定的时间、面对特定的人和物、做出符合社会规范和物理规律的反应"。

而我们这本书最重要的事情,就是把每一个"动作"和"它所在的场景、情境、任务"绑回去,让它的价值被完整地标注出来。

三、为什么需要一个"5 层架构"

OK,"场景重要"我们都明白了。但行业里"场景"这个词,每家公司用的定义都不一样,乱成一锅粥:

公司 / 论文 用的词 定义
鹿明 FastUMI "场景" 行业大类(家庭、餐饮、工业……)
BEHAVIOR-1K "scenario" 物理空间(房屋、办公室、餐厅……)
Ego4D "scene" 视频段落里识别到的环境
京东具身智能 "细分场景" 具体业务单元(拣选区、退货台……)
某个机器人公司 "task scenario" 一个完整任务的执行环境
某份招标文件 "采集场景" 又指地点、又指动作、又指时间……

这就是问题。 当你和一家公司聊"我能做某个场景"时,如果两个人脑子里的"场景"不是同一个东西——

  • 你以为是"做家务",他以为是"在某种特定房型里做家务"。
  • 你以为是"切菜",他以为是"在中餐后厨晚高峰里切菜"。
  • 你以为是"开门",他以为是"用左手在病房门口推开一扇厚重的双向门"。

你们就会反复返工、反复扯皮、反复重做,最后你拿不到钱,他拿不到数据,谁都不开心。

所以这本书做了一件事:把所有公司、论文、招标文件里"场景"这个词的不同含义,全部拆解、归位、重新组装成一棵清晰的 5 层大树

flowchart TD
    L1[L1 领域 Domain<br/>10 大行业大类]
    L1 --> L2[L2 场景 Scene<br/>80+ 物理空间或业务单元]
    L2 --> L3[L3 情境 Context<br/>320+ 时间/目的/环境约束]
    L3 --> L4[L4 任务 Task<br/>1000+ 可独立完成的工作单元]
    L4 --> L5[L5 动作 Action<br/>5000+ 不可再分的原子操作]
  • L1 领域:家庭、餐饮、工业、物流、零售、酒店、医疗、教育、特种、科研——一共 10 个,覆盖人类绝大多数生产生活活动。
  • L2 场景:领域往下分。家庭领域包括 9 个场景:厨房、客厅、卧室、卫浴、阳台、餐厅、玄关、书房、车库。
  • L3 情境:场景再往下分。厨房场景包括早餐准备、午餐烹饪、晚餐宴客、洗碗收纳、清洁卫生、节假日大餐等情境。
  • L4 任务:情境再往下分。早餐准备包括煎鸡蛋、烤面包、煮粥、热牛奶、切水果、泡咖啡、打果汁、收餐桌等任务。
  • L5 动作:任务再往下分。煎鸡蛋包括打开燃气、点火、放锅、倒油、磕鸡蛋、倒入锅中、调火、翻面、撒盐、铲出、关火、清理等动作。

这就是本书的"主骨架"。读完这本书,你会用这套语言流畅地和任何人沟通。

四、你在这本书里能找到什么、找不到什么

能找到的

  • 80+ 个物理场景的"画像":每个场景长什么样、用什么设备、谁在里面活动、典型时长、典型物品、典型干扰。
  • 320+ 个情境的"剧本":每个情境的时间、地点、参与者、目的、约束条件,让采集出来的数据带上"为什么这样做"的语境。
  • 1000+ 个任务的"清单":可以直接拿来对照下单、报价、立项、培训、考核。
  • 5000+ 个原子动作的"分解":让任何一个任务都能被拆成"一秒一帧能看清"的最小单位。
  • 每个场景的硬件、合规、数据交付物清单:让你不用再跑遍论坛、知乎、招标网站去拼凑信息。
  • 3 套通用工具:场景画像模板、新场景提案模板、隐私分级评估表(在附录里)。

找不到的

  • "哪家公司的设备最好":本书对所有厂商保持中立,不做对比测评,只列规格。
  • "哪个场景最赚钱":本书不做投资建议,只列公开市价中位数供参考。
  • "从零开始的硬件采购教程":参见姊妹书《Ego 数据采集企业橙皮书》。
  • "个人怎么入行、写简历、面试":参见姊妹书《Ego 数据采集者橙皮书》。
  • "算法和模型怎么训练":参见 BEHAVIOR-1K、AtomicVLA 等学术资源,本书不涉及。

五、这本书的写作纪律

我们在写这本书时给自己定了 7 条纪律:

  1. 不发明新词:所有术语都从公开论文、白皮书、行业报告、企业披露材料中引用。
  2. 不站队厂商:每个场景的硬件清单都至少给出"通用规格 + 2 家以上厂商"作参考。
  3. 不堆砌截图:所有"长什么样"都用文字 + 表格 + Mermaid 描述,让你打印出来也不丢信息。
  4. 不假装权威:本书数据全部来自 2026 年 4 月之前的公开资料,未来场景会变,请按季度查阅最新版本。
  5. 不省略普通人:每一个领域章都至少包含一段"小人物画像",告诉你"做这个场景的人长什么样、来自哪里、过着什么样的生活"。
  6. 不省略合规:每个场景都标注隐私分级 P0-P3,明显涉及隐私的场景给出"绝对不能采"的红线。
  7. 不省略行动:每章末尾都有"行动清单",让你"看完就能做点什么"。

六、本书的"出版逻辑"

为什么我们决定把这件事做成一本"开源橙皮书"?

因为这件事如果不做成开源、共建、署名共享,就只会是某家公司的内部 SKU 表——

  • 公司 A 用一套命名,公司 B 用另一套命名。
  • 普通人想跨平台接单,要重新学每家平台的术语。
  • 学校想开课,没有公共教材。
  • 投资人做研究,要付费买几十份报告才能拼出全图。
  • 监管想立标准,没有民间共识可以参考。

而当我们把它做成 CC BY-SA 4.0 开源后——

  • 你可以拿去给自己的团队当内训教材,免费。
  • 你可以翻译成英文、日文、阿拉伯文,免费。
  • 你可以改编成短视频脚本、播客大纲、图书出版物,只要署名 + 同协议开源。
  • 你可以提 Issue 增补新场景、修正错误、贡献你所在领域的细节,让这棵树越长越大。

我们的最终愿景是:到 2030 年,这本书的更新版本,能成为 EGO 数采行业的"通用语言"——就像 ICD-11 之于医疗、HS 编码之于贸易、ISO 8601 之于时间,让任何人想沟通某个数采场景,都不用再多解释一句。

七、最后想对你说的话

如果你是采集员——

这本书不是要"指导"你怎么做事。你比我们更懂自己的手感、自己的家、自己的工作节奏。我们只是把这些"你日常做的事"按行业语言重新命名一次,让你下次接单时知道"我做的这件事在产业里叫什么名字、值多少钱、谁在买"。

如果你是企业主——

这本书不是 SKU 表,但你完全可以把它当 SKU 表的"种子文件"。请尊重 CC BY-SA 4.0 协议,使用时署名,并在你的版本里也开源给社区,让生态更厚。

如果你是普通路人——

谢谢你愿意花时间打开这本书。我们希望你在某一页突然心动,发现"原来这个事我也能做",然后从今天开始,多一份对"自己日常"的尊重。因为你今天起床、刷牙、煮粥、出门、上班的每一个动作,都可能是 5 年后某台机器人学会照顾你父母时所必需的"那一帧"。

准备好了吗?

翻开 01 第一篇 导论:给完全陌生用户的 5 分钟入门,让我们开始。

行动清单

  • 把这本书的 README 转发给至少一位"听说过 EGO 数采但没真正搞懂"的朋友。
  • 在你脑子里想一想:你的日常生活里有哪些"普通到没人注意"的动作(比如开抽屉、给孩子系鞋带、收快递),可能正是某家机器人公司在缺的训练数据。
  • 准备一本笔记本(或者一个 Notion / 飞书文档),把读这本书过程中"心动的场景"全部记下来,将来挨个去尝试接单。

自检三问

  1. 为什么"动作"很便宜,"场景里的任务"反而贵?
  2. 5 层架构从大到小分别是哪 5 层?任意举一个领域、举到底。
  3. 这本书"做不了什么"?为什么这是诚实的写法?