五分钟入门 · EGO数采橙皮书

一、用一句话讲清楚 EGO 数采

EGO 数采，就是让普通人戴着摄像头眼镜（或类似设备），把"做饭、买菜、扫地、装零件、给老人翻身、在仓库挑包裹"这些日常动作做一遍，把第一人称视频和身体姿态数据完整记录下来，提供给机器人公司训练 AI。

如果还嫌长，可以更短：

"把人做事的样子，从'我'的眼睛里录下来，给机器人学。"

如果还嫌长：

"教机器人当人。"

是的，就这么简单。

二、它和拍 Vlog 有什么本质区别

很多人第一反应是："那不就是录第一人称 Vlog 吗？"

不一样。我们用一张表对比：

维度	拍 Vlog	EGO 数采
视角	多以胸前 / 桌面 / 手持为主，第三人称	严格戴在头上，第一人称
目的	给人看	给机器学
内容	围绕"我"的故事讲述	围绕"动作"的物理执行
重点	戏剧性、情绪感染	物理精度、动作完整、视线稳定
是否标注	自由剪辑，无标注	必须有时序标注、动作分类、元数据
同步信号	仅视频 + 音频	视频 + 音频 + IMU + 手部追踪 + 视线
出口	上传社交媒体	进入公司数据库供训练使用
报酬	流量分成 / 不确定	按小时 / 按条结算，可预期
隐私	自己掌握	受协议约束，须脱敏
重做率	低（不行就剪掉）	高（不合格当场重做）

简单说：Vlog 追求"故事好看"，EGO 数采追求"动作好学"。

一个是创作，一个是劳动。

三、它和过去的"数据标注"又是什么关系

很多人也会问：那它和过去的"打标员、标注员"是不是一回事？

不是。 这是 AI 行业两个完全不同代际的工种。

对比项	图片标注员（旧岗位，AI 1.0 时代）	EGO 数据采集员（新岗位，AI 2.0 时代）
工作内容	在已有图片 / 视频上画框、打标签	戴设备亲自完成真实动作
工作场所	办公桌前的电脑屏幕	厨房、商超、办公室、户外、车间
输出形式	标注文件	完整的多模态原始数据 + 元数据
体力消耗	低（久坐）	中等（多走动，需手眼协调）
入行门槛	低（会用鼠标）	中等（需通过动作训练考核）
薪资水平	月薪 3-5K	月薪 5-12K（含场景津贴），按条采集顶级岗位月入 2 万+
替代风险	高（已被 AI 大量替代）	低（10 年内难以被替代）
行业未来	萎缩中	高速扩张中

关键认知：图片标注员在做"AI 1.0 时代"的事——把已经存在的内容打上标签。EGO 数采员在做"AI 2.0 时代"的事——亲自创造内容（数据），让 AI 第一次见到这件事。

四、为什么"分场景"是这个行业的灵魂

这一节是整本书的核心心法，请慢一点读。

假设你是一家机器人公司，要训练一台"家庭服务机器人"做家务。

你需要什么数据？

最直觉的回答：很多很多人做家务的视频。

但这个回答不够。

因为家务有上千种"做法"，每一种做法在不同的"环境"里执行起来都不一样：

同样是"洗碗"，单身公寓的水槽 vs 三代同堂的厨房 vs 民宿洗碗池——动线不同、水槽高度不同、碗碟类型不同。
同样是"叠衣服"，孩子的小衣服 vs 老人的厚棉衣 vs 西装衬衫——折叠手法完全不同。
同样是"开门"，玻璃推拉门 vs 木质平开门 vs 防盗双层门——施力方式和视线落点完全不同。

你训练机器人时，不能只给它"做家务"这个标签。你必须告诉它：在什么场景里、面对什么对象、采用什么手法、为了什么目的。

这就是为什么"场景"是这个行业的核心词。

数据的价值，与场景的精细度成正比。

数据描述粒度	价格水平	例子
仅动作	0.1 元 / 条	"把杯子拿起来"
动作 + 物体	0.5 元 / 条	"把陶瓷咖啡杯拿起来"
动作 + 物体 + 空间	2 元 / 条	"在餐桌上把陶瓷咖啡杯拿起来"
动作 + 物体 + 空间 + 任务目的	5 元 / 条	"把咖啡杯递给对面的客人"
完整情境（时间、环境、社会规范）	50 元 / 条	"下雨天午后咖啡馆里，从托盘把加糖浆的拿铁绕过椅子递给窗边客人"
完整长时序任务（多个动作串联）	500 元 / 条	"客人入座到点单到出餐到结账离开的全套服务流程（30 分钟）"

差 5000 倍。

而场景越精细，越需要"领域-场景-情境-任务-动作"这种结构化的描述方法——这就是我们这本书 5 层架构的来由。

五、5 层架构一图速览

我们再看一次这棵大树（你之后会反复用它）：

flowchart LR
    L1[L1 领域<br/>10 大行业] --> L2[L2 场景<br/>80+ 物理空间]
    L2 --> L3[L3 情境<br/>320+ 处境]
    L3 --> L4[L4 任务<br/>1000+ 工作单元]
    L4 --> L5[L5 动作<br/>5000+ 原子操作]

为了让你立刻"摸到"这棵树，下面给一个完整的"从根到叶"的范例：

层级	ID	名称	描述
L1 领域	D01	家庭生活	普通家庭日常活动
L2 场景	D01-S03	厨房	一般家庭的厨房空间
L3 情境	D01-S03-C02	早餐准备	工作日早晨 6:30-8:00
L4 任务	D01-S03-C02-T05	煎鸡蛋	把一颗生鸡蛋煎成可食用状态
L5 动作	D01-S03-C02-T05-A12	翻面	用铲子把半熟的鸡蛋翻到另一面

是不是一眼就能看到"我现在在做的这件事"在整个产业图谱里的位置？

这就是 5 层架构的力量。

六、为什么这本书要按"领域"来分章

我们的章节安排是这样的：

章节	处理对象
00-03 篇	整本书的"心法":卷首语、5 分钟入门、5 层架构、10 领域全图
10-19 章	10 个领域，每个领域一章，从"最熟悉的家庭"到"最陌生的特种作业"
20-22 篇	"心法"的延伸：如何用、如何治理、未来怎么扩展
附录 A-F	工具书：总目录、动作清单、硬件适配、合规、提案模板、FAQ

为什么按"领域"分章？因为：

领域是采集员选择的第一道决策——你首先要决定"我做家庭还是做工业还是做医疗"，这决定了你的设备、收入、风险、技能积累方向。
领域是企业 SKU 的第一道分组——数据公司的产品线第一刀也是按领域切的。
领域是合规的第一道关口——医疗的隐私要求和工业的安全要求差异巨大。

按"场景"分章不行——80+ 个场景太碎，会分成 80 章。

按"任务"分章更不行——1000+ 任务，每章太短，索引价值消失。

按"领域"分章，刚刚好。

七、谁应该接着往下读、读哪一章

如果你时间紧，可以按身份选最关心的 3 章：

你是谁	优先读这 3 章
完全没听过、好奇	02 架构篇 → 03 全图篇 → 10 家庭
想做采集员	03 全图篇 → 10-14 章（家庭/餐饮/工业/物流/零售挑你最熟的）→ 附录 C 硬件
开数据公司 / 采集基地	02 架构篇 → 20 实战篇 → 21 治理篇
算法 / 产品要找数据缺口	03 全图篇 → 附录 A 总目录 → 附录 B 动作清单
投资人 / 研究员 / 媒体	03 全图篇 → 22 拓展篇 → 附录 F FAQ
高校 / 培训 / 职校	02 架构篇 → 任选 3 个领域章 → 附录 E 提案模板

八、本篇一图回顾

mindmap
  root((EGO数采5分钟入门))
    是什么
      第一人称视角
      普通人做事
      给机器学习
    不是什么
      不是Vlog
      不是图片标注
      不是创作
    核心心法
      场景越细致价值越高
      5层架构是行业通用语
    5层架构
      领域 行业大类
      场景 物理空间
      情境 时间环境
      任务 工作单元
      动作 原子操作
    下一步
      02 看懂架构
      03 看懂全图
      10-19 找你的领域

九、行动清单

用 5 分钟，把"EGO 数采是什么"的一段话讲给身边任何一个非互联网行业的朋友听，看他能不能听懂——这是检验你"是否真的理解"的最好办法。
拿出你最熟悉的一项日常活动（如做饭、带娃、搞维修），尝试用"领域-场景-情境-任务-动作"5 层架构描述它。
翻到 03 全图篇，找到自己生活 / 工作所属的领域，做个标记。

十、自检三问

EGO 数采和拍 Vlog 在"目的"和"标注要求"两个维度上的本质区别是什么？
为什么"动作 + 物体"的数据比"仅动作"的数据贵？请用 1 句话回答。
5 层架构从大到小分别是哪 5 个层级？请按"领域 → 动作"的顺序背一遍。

下一篇预告：02 第二篇架构：5 层场景体系到底是什么，我们将逐层精确定义这 5 个概念，给出 ID 编码规则、5 个完整范例、以及"如何判断一个新场景属于第几层"的判别法。