ORANGE BOOK · EGO

第二篇 架构:5 层场景体系到底是什么

一、为什么需要"精确定义"

上一篇我们已经看过 5 层架构的总图。但很多人到这里会犯迷糊:

  • "拣选区"是场景还是情境?
  • "煎鸡蛋"是任务还是动作?
  • "凌晨 3 点的便利店"算什么?
  • "翻面"和"翻锅"是同一个动作吗?

如果定义不清楚,5 层架构就会塌成糊。

所以这一篇,我们要给每一层下一个唯一、互斥、可操作的定义,让任何人在任何时候都能精确判断"这个东西属于哪一层"。

二、L1 领域 Domain

定义

领域 = 一个完整的、独立的人类生产或生活活动大类,对应一个独立的"行业"或"生活区"。

判别法

满足以下 3 个条件就是一个领域:

  1. 它在国家统计局的"国民经济行业分类"里有独立的大类编码(或可以从中明显归类)。
  2. 它有一批"专门服务它的"上下游产业链(设备、培训、媒体、协会)。
  3. 它的从业者具有相对稳定的职业身份(不是临时跨界)。

本书认定的 10 大领域

ID 名称 一句话描述 对应国民经济行业大类
D01 家庭生活 普通家庭的日常生活活动 居民服务(O)
D02 餐饮服务 餐厅、外卖、咖啡、茶饮等饮食服务业 住宿和餐饮业(H)
D03 工业生产装配 工厂车间内的生产、装配、检测、包装 制造业(C)
D04 物流仓储 从入库到末端配送的全链路 交通运输、仓储和邮政业(G)
D05 商业零售与陈列 商超、便利店、品牌店等线下零售 批发和零售业(F)
D06 酒店服务 酒店、民宿、青旅等住宿业 住宿和餐饮业(H)
D07 医疗护理与康养 医院、诊所、养老院、居家照护 卫生和社会工作(Q)
D08 教育场景 幼儿园、中小学、职校、培训机构 教育(P)
D09 特种作业 高空、电力、化工、消防、应急等高风险或专业作业 多个大类的高危子项
D10 专业科研与文创 实验室、文物修复、艺术创作、影视制作 科学研究 + 文化体育(M+R)

为什么是 10 个,不是 8 个、不是 12 个

  • 少于 10 个会让大类太宽,容易把"医院"和"养老院"塞进同一个领域,但二者的合规要求差异巨大。
  • 多于 10 个会让大类太碎,比如把"咖啡"独立成一个领域,但它本质是餐饮服务的子集。

10 个领域的设计参考:BEHAVIOR-1K 的 50 场景分组、FastUMI 数据超市的 10 大分类、京东具身智能的 100+ 场景白皮书、《具身智能数据行业研究白皮书 2026》的 8 大行业。

易混淆的"准领域"如何处理

看起来像领域,其实是…… 应该归入
农业 / 田间作业 暂归 D09 特种作业(未来若数据规模扩大可独立为 D11)
美容美甲 归入 D02 餐饮服务的同级"生活服务"——未来扩张为 D11
公共安全 / 警务 归入 D09 特种作业(含警务巡逻)
太空 / 深海 归入 D22 拓展篇的"未来领域"

三、L2 场景 Scene

定义

场景 = 一个领域内"具有相对独立物理边界或业务边界"的空间或单元。

判别法

满足以下 2 个条件就是一个场景:

  1. 它有相对独立的物理边界(如"厨房"对应墙壁围合的房间)或业务边界(如"前台"对应一个工作台 + 一组职责)。
  2. 在它内部,任务、参与者、设备、流程都相对自洽,可以独立采集而不必离开这个边界。

5 个范例

领域 场景 ID 场景名 边界类型
D01 家庭 D01-S03 厨房 物理边界(墙壁/家电围合)
D02 餐饮 D02-S01 后厨 物理边界(防火墙隔离)
D03 工业 D03-S03 装配工位 业务边界(一个 SOP 对应一个工位)
D04 物流 D04-S03 拣选区 物理 + 业务双重边界
D07 医疗 D07-S04 病房 物理边界 + 隔离要求

为什么"装配工位"是场景,"拧螺丝"不是

  • 装配工位有独立物理边界(一个工位)+ 独立业务边界(一份 SOP 文件)→ 是场景。
  • 拧螺丝只是"装配工位"内的一个具体任务,没有独立空间,也没有独立 SOP → 是任务。

易混淆的"准场景"如何处理

看起来像场景,其实是…… 应该归入
早高峰 是情境(C),不是场景。
收银 是场景。但"收银动作"不是场景,而是动作(A)。
油烟环境 是情境(C),是场景的"约束条件"。

四、L3 情境 Context

定义

情境 = 一个场景内"由时间、目的、环境、参与者构成的具体处境",是把场景从"地点"变成"生活的一刻"的关键。

判别法

满足以下 3 个条件就是一个情境:

  1. 它有明确的时间约束(如"早晨""节假日""夜班")或目的约束(如"招待客人""日常打扫")。
  2. 它会改变同一场景内"人怎么做事"的方式(如同一厨房,早餐准备 vs 晚餐宴客的动线完全不同)。
  3. 它不到"具体任务"那么细,但比"场景"那么粗多走一步。

5 个范例

场景 情境 ID 情境名 约束类型
厨房 D01-S03-C02 早餐准备 时间(6:30-8:00)+ 目的(一家人快速吃饱)
后厨 D02-S01-C03 晚高峰备餐 时间(17:30-19:30)+ 强度(高密度并行)
装配工位 D03-S03-C04 夜班连续作业 时间 + 体力 + 安全
拣选区 D04-S03-C05 双 11 大促日 时间 + 业务量
病房 D07-S04-C03 夜间护理巡视 时间 + 隐私 + 安静要求

为什么需要"情境"层

直接从"场景"跳到"任务"会丢失大量上下文。

举个例子,同样是"切菜"任务:

  • 场景"厨房" + 情境"早餐准备":动作快、求快不求精,切的是简单蔬菜。
  • 场景"厨房" + 情境"晚餐宴客":动作精细、求摆盘好看,切的是复杂雕花。
  • 场景"厨房" + 情境"节假日大餐":动作量大、需要并行处理多种食材。

如果只标注"切菜",AI 学到的就是"切菜"这个泛泛的概念,无法适应不同情境下的真实需求。

五、L4 任务 Task

定义

任务 = 一个情境内"有明确开始、有明确结束、有可验证目标"的工作单元。

判别法

满足以下 3 个条件就是一个任务:

  1. 有一个清晰的"任务目标"——可以用一句话说"做完后世界变成了什么样"。
  2. 有相对完整的开始和结束(如"开始:拿起鸡蛋;结束:鸡蛋装盘")。
  3. 在 30 秒到 30 分钟之间能完成(超过 30 分钟通常是多任务串联,需要拆分)。

5 个范例

情境 任务 ID 任务名 目标 典型时长
早餐准备 D01-S03-C02-T05 煎鸡蛋 一颗生鸡蛋变成可食用的煎蛋 3-5 分钟
晚高峰备餐 D02-S01-C03-T08 出炒菜 一份预制菜从冷藏到热出锅 5-8 分钟
夜班连续作业 D03-S03-C04-T03 装配单台主机 8 个零件按 SOP 装入主板 12-15 分钟
双 11 大促日 D04-S03-C05-T07 拣选一单 按订单清单从货架上取齐 5 件 SKU 3-6 分钟
夜间护理巡视 D07-S04-C03-T02 检查输液 巡视一张病床,确认输液剩余量、流速、患者状态 1-2 分钟

"复杂任务"如何拆?

如果一个工作超过 30 分钟,把它拆成"主任务 + 子任务"。

例如"做一桌晚餐"是 2-3 小时的工作,拆成:

  • T01 洗菜(10 分钟)
  • T02 切菜(15 分钟)
  • T03 炒菜 1(10 分钟)
  • T04 炒菜 2(10 分钟)
  • T05 摆盘上桌(5 分钟)
  • T06 清洁灶台(10 分钟)

每一项都是一个独立任务,都可以单独采集、单独定价、单独训练。

六、L5 动作 Action

定义

动作(原子动作) = 一个任务内"不可再分的最小操作单元",通常 0.5-3 秒能完成。

判别法

满足以下 3 个条件就是一个原子动作:

  1. 它在物理上是连续的、不可中断的(如"伸手→抓握→平移→放下"是 4 个动作,不是 1 个)。
  2. 它有清晰的前置状态和后置状态(如"开门"前门关着,后门开着)。
  3. 它在 0.5-3 秒之间完成(更长的通常包含多个原子动作)。

5 个范例

任务 动作 ID 动作名 时长 涉及肢体
煎鸡蛋 D01-S03-C02-T05-A12 翻面 1.5 秒 右手 + 铲子
出炒菜 D02-S01-C03-T08-A07 抛锅颠勺 0.8 秒 双手 + 锅
装配单台主机 D03-S03-C04-T03-A09 拧紧螺丝 2.5 秒 右手 + 电批
拣选一单 D04-S03-C05-T07-A04 扫码确认 1.2 秒 右手 + 手持终端
检查输液 D07-S04-C03-T02-A03 看输液袋容量 1.0 秒 头部转向 + 视线

4 大类原子动作(详见附录 B)

大类 子类 数量 例子
手部动作 抓 / 放 / 推 / 拉 / 拧 / 按 / 撕 / 揉 / 挤 / 折 / 切 / 撒 / 戳 / 捏 / 涂 ~1500 抓握杯子、按下开关
头部动作 转头 / 低头 / 仰头 / 凝视 / 扫视 / 眨眼 / 点头 / 摇头 ~300 看向屏幕、点头致意
移动动作 走 / 跑 / 蹲 / 起 / 转身 / 跨步 / 上下楼 / 后退 ~500 走向货架、蹲下捡东西
工具动作 用工具完成的复合动作(按工具分类) ~700 用铲翻面、用电批拧螺丝

七、ID 编码规则

完整 ID 格式

D{2}-S{2}-C{2}-T{2}-A{2}

  • D{2}:领域,2 位数字,01-99
  • S{2}:场景,2 位数字,01-99
  • C{2}:情境,2 位数字,01-99
  • T{2}:任务,2 位数字,01-99
  • A{2}:动作,2 位数字,01-99

总长 14 字符(不含连字符 18 字符),保证理论容量 100 亿种动作,足够未来 50 年扩展。

部分 ID(截断)的允许写法

写法 含义 用途
D01 仅指领域 跨场景统计
D01-S03 指到场景 数据集目录命名
D01-S03-C02 指到情境 任务集合命名
D01-S03-C02-T05 指到任务 单笔订单
D01-S03-C02-T05-A12 指到动作 帧级标注

编号分配原则

  • 稳定性:一旦分配,永不复用。即使某个场景被废弃,它的 ID 也不再分配给其他场景(标记为 (deprecated))。
  • 可读性:编号顺序大致按"该领域内最常见 → 最罕见"排列,便于记忆。
  • 预留空位:每一层都预留 50% 的编号空间(即 99 个位置只用 50 个左右),方便未来补充。
  • 版本号:每年发布一次"场景库版本",标注为 v1.0v1.1v2.0(详见 21 治理篇)。

八、5 个完整范例(从根到叶)

范例 1:家庭生活·厨房·早餐准备·煎鸡蛋·翻面

层级 ID 名称 详情
L1 领域 D01 家庭生活 普通家庭的日常生活
L2 场景 D01-S03 厨房 一般家庭厨房,6-12 平米,含灶、冰箱、水槽
L3 情境 D01-S03-C02 早餐准备 工作日早晨 6:30-8:00,求快、求饱、求营养
L4 任务 D01-S03-C02-T05 煎鸡蛋 一颗鸡蛋煎成可食用煎蛋(3-5 分钟)
L5 动作 D01-S03-C02-T05-A12 翻面 用铲子把半熟蛋翻到另一面(1.5 秒)

范例 2:餐饮服务·后厨·晚高峰备餐·出炒菜·抛锅颠勺

层级 ID 名称 详情
L1 领域 D02 餐饮服务 餐厅、外卖等饮食业
L2 场景 D02-S01 后厨 中餐厅后厨,含灶、备菜台、出餐窗
L3 情境 D02-S01-C03 晚高峰备餐 17:30-19:30,高并发、多锅同时作业
L4 任务 D02-S01-C03-T08 出炒菜 一份预制菜炒制至装盘(5-8 分钟)
L5 动作 D02-S01-C03-T08-A07 抛锅颠勺 双手颠锅一次,让食材翻面(0.8 秒)

范例 3:工业生产装配·装配工位·夜班连续作业·装配单台主机·拧紧螺丝

层级 ID 名称 详情
L1 领域 D03 工业生产装配 工厂车间装配
L2 场景 D03-S03 装配工位 一个标准工位,含工作台、电批、SOP 屏
L3 情境 D03-S03-C04 夜班连续作业 夜班 23:00-7:00,节奏稳定、SOP 严格
L4 任务 D03-S03-C04-T03 装配单台主机 8 个零件按 SOP 装上主板(12-15 分钟)
L5 动作 D03-S03-C04-T03-A09 拧紧螺丝 用电批拧紧 1 颗 M3 螺丝至 0.5N·m(2.5 秒)

范例 4:物流仓储·拣选区·双 11 大促日·拣选一单·扫码确认

层级 ID 名称 详情
L1 领域 D04 物流仓储 仓储与配送
L2 场景 D04-S03 拣选区 仓库 B 区,4 排货架,每排 8 米
L3 情境 D04-S03-C05 双 11 大促日 11 月 11 日 0:00-23:59,高并发
L4 任务 D04-S03-C05-T07 拣选一单 按订单从货架上取齐 5 件 SKU(3-6 分钟)
L5 动作 D04-S03-C05-T07-A04 扫码确认 用 PDA 扫描商品条码确认(1.2 秒)

范例 5:医疗护理与康养·病房·夜间护理巡视·检查输液·看输液袋容量

层级 ID 名称 详情
L1 领域 D07 医疗护理与康养 医院、养老院、居家照护
L2 场景 D07-S04 病房 三甲医院普通双人病房
L3 情境 D07-S04-C03 夜间护理巡视 22:00-6:00,需轻声、保护隐私
L4 任务 D07-S04-C03-T02 检查输液 巡视 1 床,检查输液状态(1-2 分钟)
L5 动作 D07-S04-C03-T02-A03 看输液袋容量 头部上抬+视线注视(1.0 秒)

九、跨层关系的 6 条铁律

  1. 下层归属上层:每一层的实体必须明确归属一个上层(任务必属一个情境,情境必属一个场景)。
  2. 不允许跨层引用:不能说"D01 领域里的某个动作",必须先确定它属于哪个场景、哪个情境、哪个任务。
  3. 可以同名不同 ID:不同场景里都可能有"开门"动作,但 ID 不同(D01-S03-...-A05 vs D02-S01-...-A05)。
  4. 一个动作不能跨任务:如果"翻面"在煎鸡蛋和煎牛排中都出现,要分配两个 ID。
  5. 场景 / 情境可以"虚化":极少数任务(如"穿越式"任务,比如"从前台走到电梯")允许不归属于具体场景,标记为 S00(公共空间)。
  6. L1 不能合并 L5:即使两个领域里某个动作完全相同(如"按电梯按钮"),也必须分别在两个领域下编码,因为采集时的硬件、合规、上下文不同。

十、判别工作流:来一个新东西,怎么分类?

flowchart TD
    Start[新东西到手] --> Q1{它是一个完整<br/>独立的行业吗?}
    Q1 -->|是| L1[加入L1 领域]
    Q1 -->|否| Q2{它有独立的物理或<br/>业务边界吗?}
    Q2 -->|是| L2[加入L2 场景]
    Q2 -->|否| Q3{它是某个时间或<br/>目的的处境吗?}
    Q3 -->|是| L3[加入L3 情境]
    Q3 -->|否| Q4{它有明确开始和<br/>结束 30秒-30分钟吗?}
    Q4 -->|是| L4[加入L4 任务]
    Q4 -->|否| Q5{它是不可再分的<br/>0.5-3秒动作吗?}
    Q5 -->|是| L5[加入L5 动作]
    Q5 -->|否| Reject[拒绝 重新拆解]

十一、本篇一图回顾

flowchart TB
    subgraph 5层架构 [5层架构]
        D[L1 Domain 领域<br/>10个]
        S[L2 Scene 场景<br/>80+]
        C[L3 Context 情境<br/>320+]
        T[L4 Task 任务<br/>1000+]
        A[L5 Action 动作<br/>5000+]
    end
    D --> S --> C --> T --> A

    subgraph 编码 [ID编码]
        ID[D{2}-S{2}-C{2}-T{2}-A{2}]
    end

    subgraph 铁律 [6条铁律]
        R1[下层归属上层]
        R2[禁止跨层引用]
        R3[同名不同ID]
        R4[原子动作不跨任务]
        R5[场景情境可虚化]
        R6[领域不能合并动作]
    end

    A --> ID
    ID --> R1

十二、行动清单

  • 拿出你最熟悉的一项日常活动,按 5 层架构完整拆一遍,自己分配一组临时 ID。
  • 把这 5 层定义讲给身边人听,看他们能不能反过来用这 5 层描述自己的工作。
  • 附录 A 总目录 里找一个具体场景,看它的 ID 长什么样。

十三、自检三问

  1. 5 层架构每一层的"判别法"分别是什么?
  2. 完整 ID 的 5 段格式是什么?请写出一个家庭领域的完整范例。
  3. 当一个新东西既像场景又像情境时,你应该怎么判断?

下一篇预告03 第三篇 全图:10 大领域速览与选择决策树,我们将一次性给出 10 大领域的"鸟瞰图",并附上一棵"我适合哪个领域"的决策树。