一、为什么需要"精确定义"
上一篇我们已经看过 5 层架构的总图。但很多人到这里会犯迷糊:
- "拣选区"是场景还是情境?
- "煎鸡蛋"是任务还是动作?
- "凌晨 3 点的便利店"算什么?
- "翻面"和"翻锅"是同一个动作吗?
如果定义不清楚,5 层架构就会塌成糊。
所以这一篇,我们要给每一层下一个唯一、互斥、可操作的定义,让任何人在任何时候都能精确判断"这个东西属于哪一层"。
二、L1 领域 Domain
定义
领域 = 一个完整的、独立的人类生产或生活活动大类,对应一个独立的"行业"或"生活区"。
判别法
满足以下 3 个条件就是一个领域:
- 它在国家统计局的"国民经济行业分类"里有独立的大类编码(或可以从中明显归类)。
- 它有一批"专门服务它的"上下游产业链(设备、培训、媒体、协会)。
- 它的从业者具有相对稳定的职业身份(不是临时跨界)。
本书认定的 10 大领域
| ID | 名称 | 一句话描述 | 对应国民经济行业大类 |
|---|---|---|---|
| D01 | 家庭生活 | 普通家庭的日常生活活动 | 居民服务(O) |
| D02 | 餐饮服务 | 餐厅、外卖、咖啡、茶饮等饮食服务业 | 住宿和餐饮业(H) |
| D03 | 工业生产装配 | 工厂车间内的生产、装配、检测、包装 | 制造业(C) |
| D04 | 物流仓储 | 从入库到末端配送的全链路 | 交通运输、仓储和邮政业(G) |
| D05 | 商业零售与陈列 | 商超、便利店、品牌店等线下零售 | 批发和零售业(F) |
| D06 | 酒店服务 | 酒店、民宿、青旅等住宿业 | 住宿和餐饮业(H) |
| D07 | 医疗护理与康养 | 医院、诊所、养老院、居家照护 | 卫生和社会工作(Q) |
| D08 | 教育场景 | 幼儿园、中小学、职校、培训机构 | 教育(P) |
| D09 | 特种作业 | 高空、电力、化工、消防、应急等高风险或专业作业 | 多个大类的高危子项 |
| D10 | 专业科研与文创 | 实验室、文物修复、艺术创作、影视制作 | 科学研究 + 文化体育(M+R) |
为什么是 10 个,不是 8 个、不是 12 个
- 少于 10 个会让大类太宽,容易把"医院"和"养老院"塞进同一个领域,但二者的合规要求差异巨大。
- 多于 10 个会让大类太碎,比如把"咖啡"独立成一个领域,但它本质是餐饮服务的子集。
10 个领域的设计参考:BEHAVIOR-1K 的 50 场景分组、FastUMI 数据超市的 10 大分类、京东具身智能的 100+ 场景白皮书、《具身智能数据行业研究白皮书 2026》的 8 大行业。
易混淆的"准领域"如何处理
| 看起来像领域,其实是…… | 应该归入 |
|---|---|
| 农业 / 田间作业 | 暂归 D09 特种作业(未来若数据规模扩大可独立为 D11) |
| 美容美甲 | 归入 D02 餐饮服务的同级"生活服务"——未来扩张为 D11 |
| 公共安全 / 警务 | 归入 D09 特种作业(含警务巡逻) |
| 太空 / 深海 | 归入 D22 拓展篇的"未来领域" |
三、L2 场景 Scene
定义
场景 = 一个领域内"具有相对独立物理边界或业务边界"的空间或单元。
判别法
满足以下 2 个条件就是一个场景:
- 它有相对独立的物理边界(如"厨房"对应墙壁围合的房间)或业务边界(如"前台"对应一个工作台 + 一组职责)。
- 在它内部,任务、参与者、设备、流程都相对自洽,可以独立采集而不必离开这个边界。
5 个范例
| 领域 | 场景 ID | 场景名 | 边界类型 |
|---|---|---|---|
| D01 家庭 | D01-S03 | 厨房 | 物理边界(墙壁/家电围合) |
| D02 餐饮 | D02-S01 | 后厨 | 物理边界(防火墙隔离) |
| D03 工业 | D03-S03 | 装配工位 | 业务边界(一个 SOP 对应一个工位) |
| D04 物流 | D04-S03 | 拣选区 | 物理 + 业务双重边界 |
| D07 医疗 | D07-S04 | 病房 | 物理边界 + 隔离要求 |
为什么"装配工位"是场景,"拧螺丝"不是
- 装配工位有独立物理边界(一个工位)+ 独立业务边界(一份 SOP 文件)→ 是场景。
- 拧螺丝只是"装配工位"内的一个具体任务,没有独立空间,也没有独立 SOP → 是任务。
易混淆的"准场景"如何处理
| 看起来像场景,其实是…… | 应该归入 |
|---|---|
| 早高峰 | 是情境(C),不是场景。 |
| 收银 | 是场景。但"收银动作"不是场景,而是动作(A)。 |
| 油烟环境 | 是情境(C),是场景的"约束条件"。 |
四、L3 情境 Context
定义
情境 = 一个场景内"由时间、目的、环境、参与者构成的具体处境",是把场景从"地点"变成"生活的一刻"的关键。
判别法
满足以下 3 个条件就是一个情境:
- 它有明确的时间约束(如"早晨""节假日""夜班")或目的约束(如"招待客人""日常打扫")。
- 它会改变同一场景内"人怎么做事"的方式(如同一厨房,早餐准备 vs 晚餐宴客的动线完全不同)。
- 它不到"具体任务"那么细,但比"场景"那么粗多走一步。
5 个范例
| 场景 | 情境 ID | 情境名 | 约束类型 |
|---|---|---|---|
| 厨房 | D01-S03-C02 | 早餐准备 | 时间(6:30-8:00)+ 目的(一家人快速吃饱) |
| 后厨 | D02-S01-C03 | 晚高峰备餐 | 时间(17:30-19:30)+ 强度(高密度并行) |
| 装配工位 | D03-S03-C04 | 夜班连续作业 | 时间 + 体力 + 安全 |
| 拣选区 | D04-S03-C05 | 双 11 大促日 | 时间 + 业务量 |
| 病房 | D07-S04-C03 | 夜间护理巡视 | 时间 + 隐私 + 安静要求 |
为什么需要"情境"层
直接从"场景"跳到"任务"会丢失大量上下文。
举个例子,同样是"切菜"任务:
- 场景"厨房" + 情境"早餐准备":动作快、求快不求精,切的是简单蔬菜。
- 场景"厨房" + 情境"晚餐宴客":动作精细、求摆盘好看,切的是复杂雕花。
- 场景"厨房" + 情境"节假日大餐":动作量大、需要并行处理多种食材。
如果只标注"切菜",AI 学到的就是"切菜"这个泛泛的概念,无法适应不同情境下的真实需求。
五、L4 任务 Task
定义
任务 = 一个情境内"有明确开始、有明确结束、有可验证目标"的工作单元。
判别法
满足以下 3 个条件就是一个任务:
- 有一个清晰的"任务目标"——可以用一句话说"做完后世界变成了什么样"。
- 有相对完整的开始和结束(如"开始:拿起鸡蛋;结束:鸡蛋装盘")。
- 在 30 秒到 30 分钟之间能完成(超过 30 分钟通常是多任务串联,需要拆分)。
5 个范例
| 情境 | 任务 ID | 任务名 | 目标 | 典型时长 |
|---|---|---|---|---|
| 早餐准备 | D01-S03-C02-T05 | 煎鸡蛋 | 一颗生鸡蛋变成可食用的煎蛋 | 3-5 分钟 |
| 晚高峰备餐 | D02-S01-C03-T08 | 出炒菜 | 一份预制菜从冷藏到热出锅 | 5-8 分钟 |
| 夜班连续作业 | D03-S03-C04-T03 | 装配单台主机 | 8 个零件按 SOP 装入主板 | 12-15 分钟 |
| 双 11 大促日 | D04-S03-C05-T07 | 拣选一单 | 按订单清单从货架上取齐 5 件 SKU | 3-6 分钟 |
| 夜间护理巡视 | D07-S04-C03-T02 | 检查输液 | 巡视一张病床,确认输液剩余量、流速、患者状态 | 1-2 分钟 |
"复杂任务"如何拆?
如果一个工作超过 30 分钟,把它拆成"主任务 + 子任务"。
例如"做一桌晚餐"是 2-3 小时的工作,拆成:
- T01 洗菜(10 分钟)
- T02 切菜(15 分钟)
- T03 炒菜 1(10 分钟)
- T04 炒菜 2(10 分钟)
- T05 摆盘上桌(5 分钟)
- T06 清洁灶台(10 分钟)
每一项都是一个独立任务,都可以单独采集、单独定价、单独训练。
六、L5 动作 Action
定义
动作(原子动作) = 一个任务内"不可再分的最小操作单元",通常 0.5-3 秒能完成。
判别法
满足以下 3 个条件就是一个原子动作:
- 它在物理上是连续的、不可中断的(如"伸手→抓握→平移→放下"是 4 个动作,不是 1 个)。
- 它有清晰的前置状态和后置状态(如"开门"前门关着,后门开着)。
- 它在 0.5-3 秒之间完成(更长的通常包含多个原子动作)。
5 个范例
| 任务 | 动作 ID | 动作名 | 时长 | 涉及肢体 |
|---|---|---|---|---|
| 煎鸡蛋 | D01-S03-C02-T05-A12 | 翻面 | 1.5 秒 | 右手 + 铲子 |
| 出炒菜 | D02-S01-C03-T08-A07 | 抛锅颠勺 | 0.8 秒 | 双手 + 锅 |
| 装配单台主机 | D03-S03-C04-T03-A09 | 拧紧螺丝 | 2.5 秒 | 右手 + 电批 |
| 拣选一单 | D04-S03-C05-T07-A04 | 扫码确认 | 1.2 秒 | 右手 + 手持终端 |
| 检查输液 | D07-S04-C03-T02-A03 | 看输液袋容量 | 1.0 秒 | 头部转向 + 视线 |
4 大类原子动作(详见附录 B)
| 大类 | 子类 | 数量 | 例子 |
|---|---|---|---|
| 手部动作 | 抓 / 放 / 推 / 拉 / 拧 / 按 / 撕 / 揉 / 挤 / 折 / 切 / 撒 / 戳 / 捏 / 涂 | ~1500 | 抓握杯子、按下开关 |
| 头部动作 | 转头 / 低头 / 仰头 / 凝视 / 扫视 / 眨眼 / 点头 / 摇头 | ~300 | 看向屏幕、点头致意 |
| 移动动作 | 走 / 跑 / 蹲 / 起 / 转身 / 跨步 / 上下楼 / 后退 | ~500 | 走向货架、蹲下捡东西 |
| 工具动作 | 用工具完成的复合动作(按工具分类) | ~700 | 用铲翻面、用电批拧螺丝 |
七、ID 编码规则
完整 ID 格式
D{2}-S{2}-C{2}-T{2}-A{2}
D{2}:领域,2 位数字,01-99S{2}:场景,2 位数字,01-99C{2}:情境,2 位数字,01-99T{2}:任务,2 位数字,01-99A{2}:动作,2 位数字,01-99
总长 14 字符(不含连字符 18 字符),保证理论容量 100 亿种动作,足够未来 50 年扩展。
部分 ID(截断)的允许写法
| 写法 | 含义 | 用途 |
|---|---|---|
| D01 | 仅指领域 | 跨场景统计 |
| D01-S03 | 指到场景 | 数据集目录命名 |
| D01-S03-C02 | 指到情境 | 任务集合命名 |
| D01-S03-C02-T05 | 指到任务 | 单笔订单 |
| D01-S03-C02-T05-A12 | 指到动作 | 帧级标注 |
编号分配原则
- 稳定性:一旦分配,永不复用。即使某个场景被废弃,它的 ID 也不再分配给其他场景(标记为
(deprecated))。 - 可读性:编号顺序大致按"该领域内最常见 → 最罕见"排列,便于记忆。
- 预留空位:每一层都预留 50% 的编号空间(即 99 个位置只用 50 个左右),方便未来补充。
- 版本号:每年发布一次"场景库版本",标注为
v1.0、v1.1、v2.0(详见 21 治理篇)。
八、5 个完整范例(从根到叶)
范例 1:家庭生活·厨房·早餐准备·煎鸡蛋·翻面
| 层级 | ID | 名称 | 详情 |
|---|---|---|---|
| L1 领域 | D01 | 家庭生活 | 普通家庭的日常生活 |
| L2 场景 | D01-S03 | 厨房 | 一般家庭厨房,6-12 平米,含灶、冰箱、水槽 |
| L3 情境 | D01-S03-C02 | 早餐准备 | 工作日早晨 6:30-8:00,求快、求饱、求营养 |
| L4 任务 | D01-S03-C02-T05 | 煎鸡蛋 | 一颗鸡蛋煎成可食用煎蛋(3-5 分钟) |
| L5 动作 | D01-S03-C02-T05-A12 | 翻面 | 用铲子把半熟蛋翻到另一面(1.5 秒) |
范例 2:餐饮服务·后厨·晚高峰备餐·出炒菜·抛锅颠勺
| 层级 | ID | 名称 | 详情 |
|---|---|---|---|
| L1 领域 | D02 | 餐饮服务 | 餐厅、外卖等饮食业 |
| L2 场景 | D02-S01 | 后厨 | 中餐厅后厨,含灶、备菜台、出餐窗 |
| L3 情境 | D02-S01-C03 | 晚高峰备餐 | 17:30-19:30,高并发、多锅同时作业 |
| L4 任务 | D02-S01-C03-T08 | 出炒菜 | 一份预制菜炒制至装盘(5-8 分钟) |
| L5 动作 | D02-S01-C03-T08-A07 | 抛锅颠勺 | 双手颠锅一次,让食材翻面(0.8 秒) |
范例 3:工业生产装配·装配工位·夜班连续作业·装配单台主机·拧紧螺丝
| 层级 | ID | 名称 | 详情 |
|---|---|---|---|
| L1 领域 | D03 | 工业生产装配 | 工厂车间装配 |
| L2 场景 | D03-S03 | 装配工位 | 一个标准工位,含工作台、电批、SOP 屏 |
| L3 情境 | D03-S03-C04 | 夜班连续作业 | 夜班 23:00-7:00,节奏稳定、SOP 严格 |
| L4 任务 | D03-S03-C04-T03 | 装配单台主机 | 8 个零件按 SOP 装上主板(12-15 分钟) |
| L5 动作 | D03-S03-C04-T03-A09 | 拧紧螺丝 | 用电批拧紧 1 颗 M3 螺丝至 0.5N·m(2.5 秒) |
范例 4:物流仓储·拣选区·双 11 大促日·拣选一单·扫码确认
| 层级 | ID | 名称 | 详情 |
|---|---|---|---|
| L1 领域 | D04 | 物流仓储 | 仓储与配送 |
| L2 场景 | D04-S03 | 拣选区 | 仓库 B 区,4 排货架,每排 8 米 |
| L3 情境 | D04-S03-C05 | 双 11 大促日 | 11 月 11 日 0:00-23:59,高并发 |
| L4 任务 | D04-S03-C05-T07 | 拣选一单 | 按订单从货架上取齐 5 件 SKU(3-6 分钟) |
| L5 动作 | D04-S03-C05-T07-A04 | 扫码确认 | 用 PDA 扫描商品条码确认(1.2 秒) |
范例 5:医疗护理与康养·病房·夜间护理巡视·检查输液·看输液袋容量
| 层级 | ID | 名称 | 详情 |
|---|---|---|---|
| L1 领域 | D07 | 医疗护理与康养 | 医院、养老院、居家照护 |
| L2 场景 | D07-S04 | 病房 | 三甲医院普通双人病房 |
| L3 情境 | D07-S04-C03 | 夜间护理巡视 | 22:00-6:00,需轻声、保护隐私 |
| L4 任务 | D07-S04-C03-T02 | 检查输液 | 巡视 1 床,检查输液状态(1-2 分钟) |
| L5 动作 | D07-S04-C03-T02-A03 | 看输液袋容量 | 头部上抬+视线注视(1.0 秒) |
九、跨层关系的 6 条铁律
- 下层归属上层:每一层的实体必须明确归属一个上层(任务必属一个情境,情境必属一个场景)。
- 不允许跨层引用:不能说"D01 领域里的某个动作",必须先确定它属于哪个场景、哪个情境、哪个任务。
- 可以同名不同 ID:不同场景里都可能有"开门"动作,但 ID 不同(D01-S03-...-A05 vs D02-S01-...-A05)。
- 一个动作不能跨任务:如果"翻面"在煎鸡蛋和煎牛排中都出现,要分配两个 ID。
- 场景 / 情境可以"虚化":极少数任务(如"穿越式"任务,比如"从前台走到电梯")允许不归属于具体场景,标记为
S00(公共空间)。 - L1 不能合并 L5:即使两个领域里某个动作完全相同(如"按电梯按钮"),也必须分别在两个领域下编码,因为采集时的硬件、合规、上下文不同。
十、判别工作流:来一个新东西,怎么分类?
flowchart TD
Start[新东西到手] --> Q1{它是一个完整<br/>独立的行业吗?}
Q1 -->|是| L1[加入L1 领域]
Q1 -->|否| Q2{它有独立的物理或<br/>业务边界吗?}
Q2 -->|是| L2[加入L2 场景]
Q2 -->|否| Q3{它是某个时间或<br/>目的的处境吗?}
Q3 -->|是| L3[加入L3 情境]
Q3 -->|否| Q4{它有明确开始和<br/>结束 30秒-30分钟吗?}
Q4 -->|是| L4[加入L4 任务]
Q4 -->|否| Q5{它是不可再分的<br/>0.5-3秒动作吗?}
Q5 -->|是| L5[加入L5 动作]
Q5 -->|否| Reject[拒绝 重新拆解]
十一、本篇一图回顾
flowchart TB
subgraph 5层架构 [5层架构]
D[L1 Domain 领域<br/>10个]
S[L2 Scene 场景<br/>80+]
C[L3 Context 情境<br/>320+]
T[L4 Task 任务<br/>1000+]
A[L5 Action 动作<br/>5000+]
end
D --> S --> C --> T --> A
subgraph 编码 [ID编码]
ID[D{2}-S{2}-C{2}-T{2}-A{2}]
end
subgraph 铁律 [6条铁律]
R1[下层归属上层]
R2[禁止跨层引用]
R3[同名不同ID]
R4[原子动作不跨任务]
R5[场景情境可虚化]
R6[领域不能合并动作]
end
A --> ID
ID --> R1
十二、行动清单
- 拿出你最熟悉的一项日常活动,按 5 层架构完整拆一遍,自己分配一组临时 ID。
- 把这 5 层定义讲给身边人听,看他们能不能反过来用这 5 层描述自己的工作。
- 在 附录 A 总目录 里找一个具体场景,看它的 ID 长什么样。
十三、自检三问
- 5 层架构每一层的"判别法"分别是什么?
- 完整 ID 的 5 段格式是什么?请写出一个家庭领域的完整范例。
- 当一个新东西既像场景又像情境时,你应该怎么判断?
下一篇预告:03 第三篇 全图:10 大领域速览与选择决策树,我们将一次性给出 10 大领域的"鸟瞰图",并附上一棵"我适合哪个领域"的决策树。