一封开场信:写给所有路过这本书的人
朋友你好,
如果你拿起这本书时,对"EGO 数采"这四个字一无所知,没关系——大多数人都是。
如果你已经在做采集员,做了几个月,每次接到任务只知道"做这个动作",但不知道这个动作在整个产业图谱里位于哪里、为什么有人要、值多少钱、能不能扩展成"系列单"——也没关系,这本书就是为你而写的。
如果你是数据公司的老板、产品经理、运营,每天都在为"我家平台上还能上哪些 SKU、上多少、怎么命名、怎么定价"发愁——这本书的 5 层架构和 1000+ 任务清单,几乎可以直接拿来当公司内部 SKU 表。
如果你是机器人公司的算法工程师,模型在某些场景下表现不好,想反向去找"我到底缺哪些场景的数据"——附录 B 的 3000 个原子动作和附录 A 的总目录,会是你最快的检索手册。
如果你是投资人、研究员、媒体记者、政策制定者,想要一张"上帝视角"的行业地图——本书 6 篇正文 + 6 个附录,组成完整的鸟瞰图。
如果你是高校老师、培训机构、职业学校负责人,想给学生开一门"具身数据采集实务"——本书的 5 层架构和领域章节,是天然的教学大纲。
如果你只是路过、好奇 2026 年的人形机器人到底是怎么"学会做事的"——把这本书当一本"人类日常活动百科"翻翻也很好。
不管你属于哪一类,这本书想做的事都只有一件:让你在 1 分钟内,找到自己关心的那个场景在哪一页。
— 编者
一、这是 2026 年最被低估的"普通人产业入口"
2026 年,关于"AI 取代普通人"的恐慌已经持续了 4 年。
但很少有人注意到一件事:就在同一时期,AI 也悄悄打开了一个反向的口子——"AI 需要普通人,而且只需要普通人"。
这个口子,就是第一人称数据采集(EGO 数据采集)。
它的核心逻辑非常反直觉:
- 让 AI 学会写代码?需要工程师。
- 让 AI 学会画画?需要插画师。
- 让 AI 学会做客服?需要话术专家。
- 让 AI 学会洗碗、切菜、关门、扫地、给老人翻身、在仓库挑包裹、在咖啡馆收餐桌?——只需要普通人,而且越普通越好。
为什么?因为机器人要在物理世界里替代人,它必须先看够"人在物理世界里怎么做事"。而"人在物理世界里怎么做事",就是每一个普通人每天都在做的事——再普通不过。
这就是为什么 2026 年,FastUMI 数据超市能在京东上把"擦玻璃"的数据卖到几百块一条,京东能在两年内承诺采集 1000 万小时第一人称数据,鹿明能给 1 万人发"采集背包"扫荡 6 大场景,蚂蚁能在一年内推出真实数据采集框架——
整个行业都在抢一种东西:真实的、多样的、由普通人在真实场景里完成的"日常动作数据"。
而你——只要你有一双手、能走路、住在地球某个角落的某种生活里——你天然就是这个产业最需要的"原料"。
二、为什么"场景"是这个行业的核心词
听到这里,你可能会想:那我去注册个采集员账号、戴个眼镜、做点什么动作就可以了?
不能。
因为机器人公司不是要"动作",它要的是"场景里的动作"。
举个例子:
- "把杯子拿起来"——这是一个动作。但它只值 0.1 元一条。
- "在餐桌上把咖啡杯拿起来递给坐在对面的客人"——这是一个场景里的任务。它能值 5 元一条。
- "在午后的咖啡馆里,下雨天客流稀少时,从托盘里拿起一杯加了糖浆的拿铁、绕过一把斜放的椅子、递给坐在窗边正在用笔记本电脑工作的客人"——这是一个有完整情境约束的真实任务。它能值 50 元一条。
为什么差别这么大?
因为机器人最终要落地在具体的场景里——咖啡馆里的服务机器人、医院里的护理机器人、工厂里的装配机器人。它学到的"动作"如果不带场景信息,它永远不知道"什么时候该这样做、什么时候不该"。
所以——
- "动作"很便宜,因为它单调、可重复、没有上下文。
- "场景里的任务"很贵,因为它需要"在特定的环境里、在特定的时间、面对特定的人和物、做出符合社会规范和物理规律的反应"。
而我们这本书最重要的事情,就是把每一个"动作"和"它所在的场景、情境、任务"绑回去,让它的价值被完整地标注出来。
三、为什么需要一个"5 层架构"
OK,"场景重要"我们都明白了。但行业里"场景"这个词,每家公司用的定义都不一样,乱成一锅粥:
| 公司 / 论文 | 用的词 | 定义 |
|---|---|---|
| 鹿明 FastUMI | "场景" | 行业大类(家庭、餐饮、工业……) |
| BEHAVIOR-1K | "scenario" | 物理空间(房屋、办公室、餐厅……) |
| Ego4D | "scene" | 视频段落里识别到的环境 |
| 京东具身智能 | "细分场景" | 具体业务单元(拣选区、退货台……) |
| 某个机器人公司 | "task scenario" | 一个完整任务的执行环境 |
| 某份招标文件 | "采集场景" | 又指地点、又指动作、又指时间…… |
这就是问题。 当你和一家公司聊"我能做某个场景"时,如果两个人脑子里的"场景"不是同一个东西——
- 你以为是"做家务",他以为是"在某种特定房型里做家务"。
- 你以为是"切菜",他以为是"在中餐后厨晚高峰里切菜"。
- 你以为是"开门",他以为是"用左手在病房门口推开一扇厚重的双向门"。
你们就会反复返工、反复扯皮、反复重做,最后你拿不到钱,他拿不到数据,谁都不开心。
所以这本书做了一件事:把所有公司、论文、招标文件里"场景"这个词的不同含义,全部拆解、归位、重新组装成一棵清晰的 5 层大树。
flowchart TD
L1[L1 领域 Domain<br/>10 大行业大类]
L1 --> L2[L2 场景 Scene<br/>80+ 物理空间或业务单元]
L2 --> L3[L3 情境 Context<br/>320+ 时间/目的/环境约束]
L3 --> L4[L4 任务 Task<br/>1000+ 可独立完成的工作单元]
L4 --> L5[L5 动作 Action<br/>5000+ 不可再分的原子操作]
- L1 领域:家庭、餐饮、工业、物流、零售、酒店、医疗、教育、特种、科研——一共 10 个,覆盖人类绝大多数生产生活活动。
- L2 场景:领域往下分。家庭领域包括 9 个场景:厨房、客厅、卧室、卫浴、阳台、餐厅、玄关、书房、车库。
- L3 情境:场景再往下分。厨房场景包括早餐准备、午餐烹饪、晚餐宴客、洗碗收纳、清洁卫生、节假日大餐等情境。
- L4 任务:情境再往下分。早餐准备包括煎鸡蛋、烤面包、煮粥、热牛奶、切水果、泡咖啡、打果汁、收餐桌等任务。
- L5 动作:任务再往下分。煎鸡蛋包括打开燃气、点火、放锅、倒油、磕鸡蛋、倒入锅中、调火、翻面、撒盐、铲出、关火、清理等动作。
这就是本书的"主骨架"。读完这本书,你会用这套语言流畅地和任何人沟通。
四、你在这本书里能找到什么、找不到什么
能找到的
- 80+ 个物理场景的"画像":每个场景长什么样、用什么设备、谁在里面活动、典型时长、典型物品、典型干扰。
- 320+ 个情境的"剧本":每个情境的时间、地点、参与者、目的、约束条件,让采集出来的数据带上"为什么这样做"的语境。
- 1000+ 个任务的"清单":可以直接拿来对照下单、报价、立项、培训、考核。
- 5000+ 个原子动作的"分解":让任何一个任务都能被拆成"一秒一帧能看清"的最小单位。
- 每个场景的硬件、合规、数据交付物清单:让你不用再跑遍论坛、知乎、招标网站去拼凑信息。
- 3 套通用工具:场景画像模板、新场景提案模板、隐私分级评估表(在附录里)。
找不到的
- "哪家公司的设备最好":本书对所有厂商保持中立,不做对比测评,只列规格。
- "哪个场景最赚钱":本书不做投资建议,只列公开市价中位数供参考。
- "从零开始的硬件采购教程":参见姊妹书《Ego 数据采集企业橙皮书》。
- "个人怎么入行、写简历、面试":参见姊妹书《Ego 数据采集者橙皮书》。
- "算法和模型怎么训练":参见 BEHAVIOR-1K、AtomicVLA 等学术资源,本书不涉及。
五、这本书的写作纪律
我们在写这本书时给自己定了 7 条纪律:
- 不发明新词:所有术语都从公开论文、白皮书、行业报告、企业披露材料中引用。
- 不站队厂商:每个场景的硬件清单都至少给出"通用规格 + 2 家以上厂商"作参考。
- 不堆砌截图:所有"长什么样"都用文字 + 表格 + Mermaid 描述,让你打印出来也不丢信息。
- 不假装权威:本书数据全部来自 2026 年 4 月之前的公开资料,未来场景会变,请按季度查阅最新版本。
- 不省略普通人:每一个领域章都至少包含一段"小人物画像",告诉你"做这个场景的人长什么样、来自哪里、过着什么样的生活"。
- 不省略合规:每个场景都标注隐私分级 P0-P3,明显涉及隐私的场景给出"绝对不能采"的红线。
- 不省略行动:每章末尾都有"行动清单",让你"看完就能做点什么"。
六、本书的"出版逻辑"
为什么我们决定把这件事做成一本"开源橙皮书"?
因为这件事如果不做成开源、共建、署名共享,就只会是某家公司的内部 SKU 表——
- 公司 A 用一套命名,公司 B 用另一套命名。
- 普通人想跨平台接单,要重新学每家平台的术语。
- 学校想开课,没有公共教材。
- 投资人做研究,要付费买几十份报告才能拼出全图。
- 监管想立标准,没有民间共识可以参考。
而当我们把它做成 CC BY-SA 4.0 开源后——
- 你可以拿去给自己的团队当内训教材,免费。
- 你可以翻译成英文、日文、阿拉伯文,免费。
- 你可以改编成短视频脚本、播客大纲、图书出版物,只要署名 + 同协议开源。
- 你可以提 Issue 增补新场景、修正错误、贡献你所在领域的细节,让这棵树越长越大。
我们的最终愿景是:到 2030 年,这本书的更新版本,能成为 EGO 数采行业的"通用语言"——就像 ICD-11 之于医疗、HS 编码之于贸易、ISO 8601 之于时间,让任何人想沟通某个数采场景,都不用再多解释一句。
七、最后想对你说的话
如果你是采集员——
这本书不是要"指导"你怎么做事。你比我们更懂自己的手感、自己的家、自己的工作节奏。我们只是把这些"你日常做的事"按行业语言重新命名一次,让你下次接单时知道"我做的这件事在产业里叫什么名字、值多少钱、谁在买"。
如果你是企业主——
这本书不是 SKU 表,但你完全可以把它当 SKU 表的"种子文件"。请尊重 CC BY-SA 4.0 协议,使用时署名,并在你的版本里也开源给社区,让生态更厚。
如果你是普通路人——
谢谢你愿意花时间打开这本书。我们希望你在某一页突然心动,发现"原来这个事我也能做",然后从今天开始,多一份对"自己日常"的尊重。因为你今天起床、刷牙、煮粥、出门、上班的每一个动作,都可能是 5 年后某台机器人学会照顾你父母时所必需的"那一帧"。
准备好了吗?
翻开 01 第一篇 导论:给完全陌生用户的 5 分钟入门,让我们开始。
行动清单
- 把这本书的 README 转发给至少一位"听说过 EGO 数采但没真正搞懂"的朋友。
- 在你脑子里想一想:你的日常生活里有哪些"普通到没人注意"的动作(比如开抽屉、给孩子系鞋带、收快递),可能正是某家机器人公司在缺的训练数据。
- 准备一本笔记本(或者一个 Notion / 飞书文档),把读这本书过程中"心动的场景"全部记下来,将来挨个去尝试接单。
自检三问
- 为什么"动作"很便宜,"场景里的任务"反而贵?
- 5 层架构从大到小分别是哪 5 层?任意举一个领域、举到底。
- 这本书"做不了什么"?为什么这是诚实的写法?