卷首语 · EGO数采橙皮书

一封开场信：写给所有路过这本书的人

朋友你好，

如果你拿起这本书时，对"EGO 数采"这四个字一无所知，没关系——大多数人都是。

如果你已经在做采集员，做了几个月，每次接到任务只知道"做这个动作"，但不知道这个动作在整个产业图谱里位于哪里、为什么有人要、值多少钱、能不能扩展成"系列单"——也没关系，这本书就是为你而写的。

如果你是数据公司的老板、产品经理、运营，每天都在为"我家平台上还能上哪些 SKU、上多少、怎么命名、怎么定价"发愁——这本书的 5 层架构和 1000+ 任务清单，几乎可以直接拿来当公司内部 SKU 表。

如果你是机器人公司的算法工程师，模型在某些场景下表现不好，想反向去找"我到底缺哪些场景的数据"——附录 B 的 3000 个原子动作和附录 A 的总目录，会是你最快的检索手册。

如果你是投资人、研究员、媒体记者、政策制定者，想要一张"上帝视角"的行业地图——本书 6 篇正文 + 6 个附录，组成完整的鸟瞰图。

如果你是高校老师、培训机构、职业学校负责人，想给学生开一门"具身数据采集实务"——本书的 5 层架构和领域章节，是天然的教学大纲。

如果你只是路过、好奇 2026 年的人形机器人到底是怎么"学会做事的"——把这本书当一本"人类日常活动百科"翻翻也很好。

不管你属于哪一类，这本书想做的事都只有一件：让你在 1 分钟内，找到自己关心的那个场景在哪一页。

— 编者

一、这是 2026 年最被低估的"普通人产业入口"

2026 年，关于"AI 取代普通人"的恐慌已经持续了 4 年。

但很少有人注意到一件事：就在同一时期，AI 也悄悄打开了一个反向的口子——"AI 需要普通人，而且只需要普通人"。

这个口子，就是第一人称数据采集（EGO 数据采集）。

它的核心逻辑非常反直觉：

让 AI 学会写代码？需要工程师。
让 AI 学会画画？需要插画师。
让 AI 学会做客服？需要话术专家。
让 AI 学会洗碗、切菜、关门、扫地、给老人翻身、在仓库挑包裹、在咖啡馆收餐桌？——只需要普通人，而且越普通越好。

为什么？因为机器人要在物理世界里替代人，它必须先看够"人在物理世界里怎么做事"。而"人在物理世界里怎么做事"，就是每一个普通人每天都在做的事——再普通不过。

这就是为什么 2026 年，FastUMI 数据超市能在京东上把"擦玻璃"的数据卖到几百块一条，京东能在两年内承诺采集 1000 万小时第一人称数据，鹿明能给 1 万人发"采集背包"扫荡 6 大场景，蚂蚁能在一年内推出真实数据采集框架——

整个行业都在抢一种东西：真实的、多样的、由普通人在真实场景里完成的"日常动作数据"。

而你——只要你有一双手、能走路、住在地球某个角落的某种生活里——你天然就是这个产业最需要的"原料"。

二、为什么"场景"是这个行业的核心词

听到这里，你可能会想：那我去注册个采集员账号、戴个眼镜、做点什么动作就可以了？

不能。

因为机器人公司不是要"动作"，它要的是"场景里的动作"。

举个例子：

"把杯子拿起来"——这是一个动作。但它只值 0.1 元一条。
"在餐桌上把咖啡杯拿起来递给坐在对面的客人"——这是一个场景里的任务。它能值 5 元一条。
"在午后的咖啡馆里，下雨天客流稀少时，从托盘里拿起一杯加了糖浆的拿铁、绕过一把斜放的椅子、递给坐在窗边正在用笔记本电脑工作的客人"——这是一个有完整情境约束的真实任务。它能值 50 元一条。

为什么差别这么大？

因为机器人最终要落地在具体的场景里——咖啡馆里的服务机器人、医院里的护理机器人、工厂里的装配机器人。它学到的"动作"如果不带场景信息，它永远不知道"什么时候该这样做、什么时候不该"。

所以——

"动作"很便宜，因为它单调、可重复、没有上下文。
"场景里的任务"很贵，因为它需要"在特定的环境里、在特定的时间、面对特定的人和物、做出符合社会规范和物理规律的反应"。

而我们这本书最重要的事情，就是把每一个"动作"和"它所在的场景、情境、任务"绑回去，让它的价值被完整地标注出来。

三、为什么需要一个"5 层架构"

OK，"场景重要"我们都明白了。但行业里"场景"这个词，每家公司用的定义都不一样，乱成一锅粥：

公司 / 论文	用的词	定义
鹿明 FastUMI	"场景"	行业大类（家庭、餐饮、工业……）
BEHAVIOR-1K	"scenario"	物理空间（房屋、办公室、餐厅……）
Ego4D	"scene"	视频段落里识别到的环境
京东具身智能	"细分场景"	具体业务单元（拣选区、退货台……）
某个机器人公司	"task scenario"	一个完整任务的执行环境
某份招标文件	"采集场景"	又指地点、又指动作、又指时间……

这就是问题。 当你和一家公司聊"我能做某个场景"时，如果两个人脑子里的"场景"不是同一个东西——

你以为是"做家务"，他以为是"在某种特定房型里做家务"。
你以为是"切菜"，他以为是"在中餐后厨晚高峰里切菜"。
你以为是"开门"，他以为是"用左手在病房门口推开一扇厚重的双向门"。

你们就会反复返工、反复扯皮、反复重做，最后你拿不到钱，他拿不到数据，谁都不开心。

所以这本书做了一件事：把所有公司、论文、招标文件里"场景"这个词的不同含义，全部拆解、归位、重新组装成一棵清晰的 5 层大树。

flowchart TD
    L1[L1 领域 Domain<br/>10 大行业大类]
    L1 --> L2[L2 场景 Scene<br/>80+ 物理空间或业务单元]
    L2 --> L3[L3 情境 Context<br/>320+ 时间/目的/环境约束]
    L3 --> L4[L4 任务 Task<br/>1000+ 可独立完成的工作单元]
    L4 --> L5[L5 动作 Action<br/>5000+ 不可再分的原子操作]

L1 领域：家庭、餐饮、工业、物流、零售、酒店、医疗、教育、特种、科研——一共 10 个，覆盖人类绝大多数生产生活活动。
L2 场景：领域往下分。家庭领域包括 9 个场景：厨房、客厅、卧室、卫浴、阳台、餐厅、玄关、书房、车库。
L3 情境：场景再往下分。厨房场景包括早餐准备、午餐烹饪、晚餐宴客、洗碗收纳、清洁卫生、节假日大餐等情境。
L4 任务：情境再往下分。早餐准备包括煎鸡蛋、烤面包、煮粥、热牛奶、切水果、泡咖啡、打果汁、收餐桌等任务。
L5 动作：任务再往下分。煎鸡蛋包括打开燃气、点火、放锅、倒油、磕鸡蛋、倒入锅中、调火、翻面、撒盐、铲出、关火、清理等动作。

这就是本书的"主骨架"。读完这本书，你会用这套语言流畅地和任何人沟通。

四、你在这本书里能找到什么、找不到什么

能找到的

80+ 个物理场景的"画像"：每个场景长什么样、用什么设备、谁在里面活动、典型时长、典型物品、典型干扰。
320+ 个情境的"剧本"：每个情境的时间、地点、参与者、目的、约束条件，让采集出来的数据带上"为什么这样做"的语境。
1000+ 个任务的"清单"：可以直接拿来对照下单、报价、立项、培训、考核。
5000+ 个原子动作的"分解"：让任何一个任务都能被拆成"一秒一帧能看清"的最小单位。
每个场景的硬件、合规、数据交付物清单：让你不用再跑遍论坛、知乎、招标网站去拼凑信息。
3 套通用工具：场景画像模板、新场景提案模板、隐私分级评估表（在附录里）。

找不到的

"哪家公司的设备最好"：本书对所有厂商保持中立，不做对比测评，只列规格。
"哪个场景最赚钱"：本书不做投资建议，只列公开市价中位数供参考。
"从零开始的硬件采购教程"：参见姊妹书《Ego 数据采集企业橙皮书》。
"个人怎么入行、写简历、面试"：参见姊妹书《Ego 数据采集者橙皮书》。
"算法和模型怎么训练"：参见 BEHAVIOR-1K、AtomicVLA 等学术资源，本书不涉及。

五、这本书的写作纪律

我们在写这本书时给自己定了 7 条纪律：

不发明新词：所有术语都从公开论文、白皮书、行业报告、企业披露材料中引用。
不站队厂商：每个场景的硬件清单都至少给出"通用规格 + 2 家以上厂商"作参考。
不堆砌截图：所有"长什么样"都用文字 + 表格 + Mermaid 描述，让你打印出来也不丢信息。
不假装权威：本书数据全部来自 2026 年 4 月之前的公开资料，未来场景会变，请按季度查阅最新版本。
不省略普通人：每一个领域章都至少包含一段"小人物画像"，告诉你"做这个场景的人长什么样、来自哪里、过着什么样的生活"。
不省略合规：每个场景都标注隐私分级 P0-P3，明显涉及隐私的场景给出"绝对不能采"的红线。
不省略行动：每章末尾都有"行动清单"，让你"看完就能做点什么"。

六、本书的"出版逻辑"

为什么我们决定把这件事做成一本"开源橙皮书"？

因为这件事如果不做成开源、共建、署名共享，就只会是某家公司的内部 SKU 表——

公司 A 用一套命名，公司 B 用另一套命名。
普通人想跨平台接单，要重新学每家平台的术语。
学校想开课，没有公共教材。
投资人做研究，要付费买几十份报告才能拼出全图。
监管想立标准，没有民间共识可以参考。

而当我们把它做成 CC BY-SA 4.0 开源后——

你可以拿去给自己的团队当内训教材，免费。
你可以翻译成英文、日文、阿拉伯文，免费。
你可以改编成短视频脚本、播客大纲、图书出版物，只要署名 + 同协议开源。
你可以提 Issue 增补新场景、修正错误、贡献你所在领域的细节，让这棵树越长越大。

我们的最终愿景是：到 2030 年，这本书的更新版本，能成为 EGO 数采行业的"通用语言"——就像 ICD-11 之于医疗、HS 编码之于贸易、ISO 8601 之于时间，让任何人想沟通某个数采场景，都不用再多解释一句。

七、最后想对你说的话

如果你是采集员——

这本书不是要"指导"你怎么做事。你比我们更懂自己的手感、自己的家、自己的工作节奏。我们只是把这些"你日常做的事"按行业语言重新命名一次，让你下次接单时知道"我做的这件事在产业里叫什么名字、值多少钱、谁在买"。

如果你是企业主——

这本书不是 SKU 表，但你完全可以把它当 SKU 表的"种子文件"。请尊重 CC BY-SA 4.0 协议，使用时署名，并在你的版本里也开源给社区，让生态更厚。

如果你是普通路人——

谢谢你愿意花时间打开这本书。我们希望你在某一页突然心动，发现"原来这个事我也能做"，然后从今天开始，多一份对"自己日常"的尊重。因为你今天起床、刷牙、煮粥、出门、上班的每一个动作，都可能是 5 年后某台机器人学会照顾你父母时所必需的"那一帧"。

准备好了吗？

翻开 01 第一篇导论：给完全陌生用户的 5 分钟入门，让我们开始。

行动清单

把这本书的 README 转发给至少一位"听说过 EGO 数采但没真正搞懂"的朋友。
在你脑子里想一想：你的日常生活里有哪些"普通到没人注意"的动作（比如开抽屉、给孩子系鞋带、收快递），可能正是某家机器人公司在缺的训练数据。
准备一本笔记本（或者一个 Notion / 飞书文档），把读这本书过程中"心动的场景"全部记下来，将来挨个去尝试接单。

自检三问

为什么"动作"很便宜，"场景里的任务"反而贵？
5 层架构从大到小分别是哪 5 层？任意举一个领域、举到底。
这本书"做不了什么"？为什么这是诚实的写法？