场景到立项 · EGO数采橙皮书

一、这一篇要解决的核心问题

如果你读完了前面 10 个领域章，你应该已经知道"全行业有哪些场景可以采"。

但这只是"知道"——你还不知道：

怎样把"知道有这个场景"转化为"我能做这个场景的项目"。
怎样在一堆潜在场景里，选出"最适合自己"的那 1-3 个。
怎样写一份能让甲方掏钱的"任务说明书"（SOW）。
怎样组织、培训、考核采集员，让数据合格率 ≥95%。
怎样验收、交付、回款，避免最后阶段拉锯。

这一篇就是来回答这些问题的。

二、立项 5 步法

flowchart LR
    Step1[① 选场景] --> Step2[② 写说明书]
    Step2 --> Step3[③ 定价签约]
    Step3 --> Step4[④ 组织采集]
    Step4 --> Step5[⑤ 验收交付]

我们逐步展开。

三、第一步：选场景

3.1 选场景的 3 个维度

flowchart TD
    A[场景选择] --> B[市场维度<br/>有没有人买]
    A --> C[供给维度<br/>能不能采到]
    A --> D[利润维度<br/>能不能赚钱]

维度	关键问题	加分项
市场维度	这个场景有几家公司在收？单价多少？需求量多大？	至少 3 家公司主动询价；单价 ≥80 元 / 小时；月需求量 ≥500 小时
供给维度	我能不能找到合规的采集场地、采集员、设备？	自有合作场地；可培训出 ≥10 名采集员；硬件已就绪
利润维度	单条数据成本和收入差多少？	毛利率 ≥40%

3.2 选场景的"3-5-3"原则

3 个候选场景：每次立项时挑 3 个候选，避免一上来就单线押注。
5 个调研问题：找 5 个潜在采购方分别问"愿不愿意买、买多少、什么价"。
3 周决策窗口：调研超过 3 周还选不出来，说明信息不够 / 场景不行，先停。

3.3 选场景的"决策矩阵"

评分项（每项 1-5 分）	候选 1：D03-S03 装配	候选 2：D04-S03 拣选	候选 3：D02-S04 咖啡
市场需求量	5	4	3
单价高低	5	4	4
自有资源匹配度	3	5	2
合规风险	3	5	4
培训成本	3	4	3
总分	19	22	16

→ 选拣选场景做第一个项目。

四、第二步：写任务说明书（SOW）

任务说明书（Statement of Work，SOW）是采集项目的核心文档。一份好的 SOW 可以让甲方一眼信任你、一签到底；一份糟糕的 SOW 会让你陷入"返工地狱"。

4.1 SOW 模板（A4 纸 6-8 页）

# 项目名：XX 场景 EGO 数据采集任务说明书

## 1. 项目背景
- 委托方：[公司名]
- 采集目的：[训练 XX 模型 / 研究 XX 算法]
- 数据用途说明：[研究 / 商业产品 / 不可商用]

## 2. 场景定义
- 领域：D04 物流仓储
- 场景：D04-S03 拣选区
- 情境：D04-S03-C01 单波次拣选 + D04-S03-C04 双 11 大促
- 目标任务清单：D04-S03-C01-T01 ~ T08（共 8 个任务）
- 目标动作清单：~ 80 个原子动作

## 3. 采集规模
- 总时长：1000 小时
- 总条数：约 12000 条任务级片段
- 单条时长：3-6 分钟

## 4. 采集要求
### 4.1 硬件规格
- 主设备：FastUMI Ego Pro / Project Aria
- 帧率：≥30fps
- 分辨率：≥1080p
- 同步信号：手部 IMU 100Hz、视线 60Hz

### 4.2 采集员要求
- 人数：30 人
- 资质：仓储行业从业经验 ≥6 个月
- 培训：通过 4 学时基础培训 + 8 学时实操考核

### 4.3 场景要求
- 场地：京东亚一 B 区 4 号货道
- 时段：白班（8:00-17:00）+ 夜班（22:00-6:00）
- 时长：连续 30 个工作日

## 5. 数据交付物
### 5.1 文件结构

project_root/ ├── raw/ # 原始视频 + IMU 同步数据 ├── annotations/ # 任务级 + 动作级标签 ├── metadata/ # JSON 元数据 └── README.md


### 5.2 元数据字段
- 采集员 ID（脱敏哈希）
- 时间戳
- 场景 ID
- 任务 ID
- 动作时序标签
- 是否成功（OK/NG）
- 主观难度评分（1-5）

### 5.3 质量标准
- 视频帧丢失率 ≤0.1%
- 任务完成率 ≥95%
- 动作标签准确率 ≥98%
- 隐私脱敏率 100%

## 6. 项目时间表
- W1: 场地确认 + 培训准备
- W2: 采集员培训 + 试采集
- W3-W6: 正式采集（每周交付一次）
- W7: 全量复核 + 交付

## 7. 商务条款
- 总价：100 万元
- 付款方式：30%(签约) + 30%(中期) + 40%(终验)
- 数据所有权：甲方所有，乙方保留训练备份 30 天
- 保密要求：双方签 NDA

## 8. 双方责任
- 甲方责任：提供场地、SOP、配合培训
- 乙方责任：组织采集、数据预处理、按时交付

4.2 SOW 撰写的 10 条铁律

场景必须用本书 ID 标注——避免名词歧义。
数量必须精确到条——不能写"大约""左右"。
质量标准必须可验证——每一条都要有明确的检查方法。
时间节点必须有罚则——延期一周扣多少钱要写清。
数据所有权必须明确——避免后期争执。
隐私分级必须双方签字——P3 及以上场景必须法务介入。
采集员培训计划必须附件化——避免临时拉人。
样本片段必须先送审——避免做完才发现不合格。
争议解决必须仲裁条款——选定北京 / 上海 / 深圳的国际仲裁。
退出机制必须双向——甲方可以叫停，乙方也可以撤档。

五、第三步：定价签约

5.1 定价模型

项目总价 = 采集成本 + 设备成本 + 数据处理成本 + 管理成本 + 利润

成本项	占比	例子（1000 小时拣选项目）
采集员人力	50%	30 人 × 33 小时 × 100 元 = 100 万 → 50 万
设备折旧	10%	30 台设备折旧 + 维护 = 10 万
数据预处理	15%	标注、清洗、脱敏 = 15 万
项目管理	10%	培训、考勤、督导 = 10 万
利润 + 风险	15%	15 万
合计	100%	100 万

5.2 报价的 3 种姿势

姿势	适用	优劣
按小时	时间长、SOP 稳定	算账简单、风险低；缺点是甲方关注"成本"
按条	任务清晰、可量化	利润空间大；缺点是失败成本由乙方承担
按里程碑	复杂项目	现金流好；缺点是 PM 复杂

5.3 签约前的 5 个"必谈"

数据所有权：归甲方？乙方有无训练副本？多长时间？
隐私脱敏责任：谁负责？哪一方做？
不合格数据处理：扣款？重做？谁出钱？
付款节点：30/30/40？50/50？里程碑？
争议管辖：法院？仲裁？哪个城市？

六、第四步：组织采集

6.1 采集员招募 3 个渠道

渠道	适用	注意
现有员工自愿报名	工厂、超市、酒店	不能强制；要付额外报酬
社区招募	家庭、餐饮兼职	通过居委会、街道、社区团长
第三方人力公司	大批量、跨城市	要确认资质和合规

6.2 培训 4 学时大纲

课时	内容	形式
1	项目介绍 + 隐私合规	课堂讲授
2	设备使用 + 软件操作	实物演示
3	场景规范 + 动作示范	视频学习 + 角色扮演
4	试采集 + 一对一指导	实操

6.3 考核 8 学时实操

4 学时正常节奏采集
2 学时高难度任务采集
1 学时异常处理
1 学时数据复核

合格标准：4 项指标都 ≥85%。

6.4 现场督导 3 件事

每天首小时随机抽查：避免新人偷懒、设备问题。
每天结束 5 分钟复盘：让采集员自报"今天最难的 3 个动作"。
每周质量回顾会：低分采集员一对一辅导，连续 2 周不达标劝退。

七、第五步：验收交付

7.1 验收 4 步

flowchart LR
    A[预验收<br/>每周抽样] --> B[中期验收<br/>50% 节点]
    B --> C[全量自检<br/>交付前 1 周]
    C --> D[终验收<br/>甲方主导]

7.2 验收清单

检查项	检查方法	阈值
文件完整性	脚本扫描	100%
视频帧率 / 分辨率	抽样检测	≥规定值
任务标签覆盖率	自动比对	≥95%
动作时序准确度	人工抽样 1%	≥98%
隐私脱敏完成度	自动 + 人工	100%
元数据字段齐全	脚本扫描	100%

7.3 交付物清单

全量数据文件（含校验哈希）
数据集说明文档（数据卡 Datasheet）
元数据 JSON
隐私审计报告
采集员花名册（脱敏）
项目结项报告

7.4 回款 3 个时间窗

时间窗	应收	注意
签约后 7 天	30%	必须开发票才打款
中期验收后 7 天	30%	中验报告甲乙双签
终验收后 30 天	40%	注意尾款拖欠风险

八、3 个真实案例（参考）

案例 A：电商拣选场景采集

场景：D04-S03 + D04-S04
规模：1500 小时 / 18000 条
周期：6 周
团队：35 人
总价：130 万
关键经验：双 11 期间高峰采集单价上浮 30%

案例 B：连锁咖啡店拉花采集

场景：D02-S04
规模：300 小时 / 15000 条（拉花动作 5000 条）
周期：4 周
团队：20 人（含培训师）
总价：80 万
关键经验：拉花单条数据可独立计价 50-100 元

案例 C：上海三甲医院呼吸科康复

场景：D07-S03
规模：100 小时 / 1200 条
周期：12 周（含 IRB 审查）
团队：8 名持证护士
总价：50 万
关键经验：医疗合规审查耗时是采集本身的 2 倍

九、本篇一图回顾

mindmap
  root((20 实战篇))
    立项 5 步
      选场景
      写 SOW
      定价签约
      组织采集
      验收交付
    选场景 3 维
      市场
      供给
      利润
    SOW 8 模块
      项目背景
      场景定义
      采集规模
      采集要求
      数据交付物
      时间表
      商务条款
      双方责任
    定价模型
      人力 50%
      设备 10%
      数据处理 15%
      管理 10%
      利润 15%
    验收 4 步
      预验收
      中期验收
      自检
      终验收

十、行动清单

用 4.1 SOW 模板给自己最熟悉的场景写一份草稿。
用 3.3 决策矩阵比较 3 个候选场景。
在小范围（5-10 人）做一次完整流程演练。

十一、自检三问

SOW 的 10 条铁律里，哪 3 条你最容易忽略？
定价模型里，哪一项最容易被低估？
验收"中期验收"为什么必须双签报告？

下一篇预告：第二十一篇治理篇，看场景库如何长期治理。