一、这一篇要解决的核心问题
如果你读完了前面 10 个领域章,你应该已经知道"全行业有哪些场景可以采"。
但这只是"知道"——你还不知道:
- 怎样把"知道有这个场景"转化为"我能做这个场景的项目"。
- 怎样在一堆潜在场景里,选出"最适合自己"的那 1-3 个。
- 怎样写一份能让甲方掏钱的"任务说明书"(SOW)。
- 怎样组织、培训、考核采集员,让数据合格率 ≥95%。
- 怎样验收、交付、回款,避免最后阶段拉锯。
这一篇就是来回答这些问题的。
二、立项 5 步法
flowchart LR
Step1[① 选场景] --> Step2[② 写说明书]
Step2 --> Step3[③ 定价签约]
Step3 --> Step4[④ 组织采集]
Step4 --> Step5[⑤ 验收交付]
我们逐步展开。
三、第一步:选场景
3.1 选场景的 3 个维度
flowchart TD
A[场景选择] --> B[市场维度<br/>有没有人买]
A --> C[供给维度<br/>能不能采到]
A --> D[利润维度<br/>能不能赚钱]
| 维度 | 关键问题 | 加分项 |
|---|---|---|
| 市场维度 | 这个场景有几家公司在收?单价多少?需求量多大? | 至少 3 家公司主动询价;单价 ≥80 元 / 小时;月需求量 ≥500 小时 |
| 供给维度 | 我能不能找到合规的采集场地、采集员、设备? | 自有合作场地;可培训出 ≥10 名采集员;硬件已就绪 |
| 利润维度 | 单条数据成本和收入差多少? | 毛利率 ≥40% |
3.2 选场景的"3-5-3"原则
- 3 个候选场景:每次立项时挑 3 个候选,避免一上来就单线押注。
- 5 个调研问题:找 5 个潜在采购方分别问"愿不愿意买、买多少、什么价"。
- 3 周决策窗口:调研超过 3 周还选不出来,说明信息不够 / 场景不行,先停。
3.3 选场景的"决策矩阵"
| 评分项(每项 1-5 分) | 候选 1:D03-S03 装配 | 候选 2:D04-S03 拣选 | 候选 3:D02-S04 咖啡 |
|---|---|---|---|
| 市场需求量 | 5 | 4 | 3 |
| 单价高低 | 5 | 4 | 4 |
| 自有资源匹配度 | 3 | 5 | 2 |
| 合规风险 | 3 | 5 | 4 |
| 培训成本 | 3 | 4 | 3 |
| 总分 | 19 | 22 | 16 |
→ 选拣选场景做第一个项目。
四、第二步:写任务说明书(SOW)
任务说明书(Statement of Work,SOW)是采集项目的核心文档。一份好的 SOW 可以让甲方一眼信任你、一签到底;一份糟糕的 SOW 会让你陷入"返工地狱"。
4.1 SOW 模板(A4 纸 6-8 页)
# 项目名:XX 场景 EGO 数据采集任务说明书
## 1. 项目背景
- 委托方:[公司名]
- 采集目的:[训练 XX 模型 / 研究 XX 算法]
- 数据用途说明:[研究 / 商业产品 / 不可商用]
## 2. 场景定义
- 领域:D04 物流仓储
- 场景:D04-S03 拣选区
- 情境:D04-S03-C01 单波次拣选 + D04-S03-C04 双 11 大促
- 目标任务清单:D04-S03-C01-T01 ~ T08(共 8 个任务)
- 目标动作清单:~ 80 个原子动作
## 3. 采集规模
- 总时长:1000 小时
- 总条数:约 12000 条任务级片段
- 单条时长:3-6 分钟
## 4. 采集要求
### 4.1 硬件规格
- 主设备:FastUMI Ego Pro / Project Aria
- 帧率:≥30fps
- 分辨率:≥1080p
- 同步信号:手部 IMU 100Hz、视线 60Hz
### 4.2 采集员要求
- 人数:30 人
- 资质:仓储行业从业经验 ≥6 个月
- 培训:通过 4 学时基础培训 + 8 学时实操考核
### 4.3 场景要求
- 场地:京东亚一 B 区 4 号货道
- 时段:白班(8:00-17:00)+ 夜班(22:00-6:00)
- 时长:连续 30 个工作日
## 5. 数据交付物
### 5.1 文件结构
project_root/ ├── raw/ # 原始视频 + IMU 同步数据 ├── annotations/ # 任务级 + 动作级标签 ├── metadata/ # JSON 元数据 └── README.md
### 5.2 元数据字段
- 采集员 ID(脱敏哈希)
- 时间戳
- 场景 ID
- 任务 ID
- 动作时序标签
- 是否成功(OK/NG)
- 主观难度评分(1-5)
### 5.3 质量标准
- 视频帧丢失率 ≤0.1%
- 任务完成率 ≥95%
- 动作标签准确率 ≥98%
- 隐私脱敏率 100%
## 6. 项目时间表
- W1: 场地确认 + 培训准备
- W2: 采集员培训 + 试采集
- W3-W6: 正式采集(每周交付一次)
- W7: 全量复核 + 交付
## 7. 商务条款
- 总价:100 万元
- 付款方式:30%(签约) + 30%(中期) + 40%(终验)
- 数据所有权:甲方所有,乙方保留训练备份 30 天
- 保密要求:双方签 NDA
## 8. 双方责任
- 甲方责任:提供场地、SOP、配合培训
- 乙方责任:组织采集、数据预处理、按时交付
4.2 SOW 撰写的 10 条铁律
- 场景必须用本书 ID 标注——避免名词歧义。
- 数量必须精确到条——不能写"大约""左右"。
- 质量标准必须可验证——每一条都要有明确的检查方法。
- 时间节点必须有罚则——延期一周扣多少钱要写清。
- 数据所有权必须明确——避免后期争执。
- 隐私分级必须双方签字——P3 及以上场景必须法务介入。
- 采集员培训计划必须附件化——避免临时拉人。
- 样本片段必须先送审——避免做完才发现不合格。
- 争议解决必须仲裁条款——选定北京 / 上海 / 深圳的国际仲裁。
- 退出机制必须双向——甲方可以叫停,乙方也可以撤档。
五、第三步:定价签约
5.1 定价模型
项目总价 = 采集成本 + 设备成本 + 数据处理成本 + 管理成本 + 利润
| 成本项 | 占比 | 例子(1000 小时拣选项目) |
|---|---|---|
| 采集员人力 | 50% | 30 人 × 33 小时 × 100 元 = 100 万 → 50 万 |
| 设备折旧 | 10% | 30 台设备折旧 + 维护 = 10 万 |
| 数据预处理 | 15% | 标注、清洗、脱敏 = 15 万 |
| 项目管理 | 10% | 培训、考勤、督导 = 10 万 |
| 利润 + 风险 | 15% | 15 万 |
| 合计 | 100% | 100 万 |
5.2 报价的 3 种姿势
| 姿势 | 适用 | 优劣 |
|---|---|---|
| 按小时 | 时间长、SOP 稳定 | 算账简单、风险低;缺点是甲方关注"成本" |
| 按条 | 任务清晰、可量化 | 利润空间大;缺点是失败成本由乙方承担 |
| 按里程碑 | 复杂项目 | 现金流好;缺点是 PM 复杂 |
5.3 签约前的 5 个"必谈"
- 数据所有权:归甲方?乙方有无训练副本?多长时间?
- 隐私脱敏责任:谁负责?哪一方做?
- 不合格数据处理:扣款?重做?谁出钱?
- 付款节点:30/30/40?50/50?里程碑?
- 争议管辖:法院?仲裁?哪个城市?
六、第四步:组织采集
6.1 采集员招募 3 个渠道
| 渠道 | 适用 | 注意 |
|---|---|---|
| 现有员工自愿报名 | 工厂、超市、酒店 | 不能强制;要付额外报酬 |
| 社区招募 | 家庭、餐饮兼职 | 通过居委会、街道、社区团长 |
| 第三方人力公司 | 大批量、跨城市 | 要确认资质和合规 |
6.2 培训 4 学时大纲
| 课时 | 内容 | 形式 |
|---|---|---|
| 1 | 项目介绍 + 隐私合规 | 课堂讲授 |
| 2 | 设备使用 + 软件操作 | 实物演示 |
| 3 | 场景规范 + 动作示范 | 视频学习 + 角色扮演 |
| 4 | 试采集 + 一对一指导 | 实操 |
6.3 考核 8 学时实操
- 4 学时正常节奏采集
- 2 学时高难度任务采集
- 1 学时异常处理
- 1 学时数据复核
合格标准:4 项指标都 ≥85%。
6.4 现场督导 3 件事
- 每天首小时随机抽查:避免新人偷懒、设备问题。
- 每天结束 5 分钟复盘:让采集员自报"今天最难的 3 个动作"。
- 每周质量回顾会:低分采集员一对一辅导,连续 2 周不达标劝退。
七、第五步:验收交付
7.1 验收 4 步
flowchart LR
A[预验收<br/>每周抽样] --> B[中期验收<br/>50% 节点]
B --> C[全量自检<br/>交付前 1 周]
C --> D[终验收<br/>甲方主导]
7.2 验收清单
| 检查项 | 检查方法 | 阈值 |
|---|---|---|
| 文件完整性 | 脚本扫描 | 100% |
| 视频帧率 / 分辨率 | 抽样检测 | ≥规定值 |
| 任务标签覆盖率 | 自动比对 | ≥95% |
| 动作时序准确度 | 人工抽样 1% | ≥98% |
| 隐私脱敏完成度 | 自动 + 人工 | 100% |
| 元数据字段齐全 | 脚本扫描 | 100% |
7.3 交付物清单
- 全量数据文件(含校验哈希)
- 数据集说明文档(数据卡 Datasheet)
- 元数据 JSON
- 隐私审计报告
- 采集员花名册(脱敏)
- 项目结项报告
7.4 回款 3 个时间窗
| 时间窗 | 应收 | 注意 |
|---|---|---|
| 签约后 7 天 | 30% | 必须开发票才打款 |
| 中期验收后 7 天 | 30% | 中验报告甲乙双签 |
| 终验收后 30 天 | 40% | 注意尾款拖欠风险 |
八、3 个真实案例(参考)
案例 A:电商拣选场景采集
- 场景:D04-S03 + D04-S04
- 规模:1500 小时 / 18000 条
- 周期:6 周
- 团队:35 人
- 总价:130 万
- 关键经验:双 11 期间高峰采集单价上浮 30%
案例 B:连锁咖啡店拉花采集
- 场景:D02-S04
- 规模:300 小时 / 15000 条(拉花动作 5000 条)
- 周期:4 周
- 团队:20 人(含培训师)
- 总价:80 万
- 关键经验:拉花单条数据可独立计价 50-100 元
案例 C:上海三甲医院呼吸科康复
- 场景:D07-S03
- 规模:100 小时 / 1200 条
- 周期:12 周(含 IRB 审查)
- 团队:8 名持证护士
- 总价:50 万
- 关键经验:医疗合规审查耗时是采集本身的 2 倍
九、本篇一图回顾
mindmap
root((20 实战篇))
立项 5 步
选场景
写 SOW
定价签约
组织采集
验收交付
选场景 3 维
市场
供给
利润
SOW 8 模块
项目背景
场景定义
采集规模
采集要求
数据交付物
时间表
商务条款
双方责任
定价模型
人力 50%
设备 10%
数据处理 15%
管理 10%
利润 15%
验收 4 步
预验收
中期验收
自检
终验收
十、行动清单
- 用 4.1 SOW 模板 给自己最熟悉的场景写一份草稿。
- 用 3.3 决策矩阵 比较 3 个候选场景。
- 在小范围(5-10 人)做一次完整流程演练。
十一、自检三问
- SOW 的 10 条铁律里,哪 3 条你最容易忽略?
- 定价模型里,哪一项最容易被低估?
- 验收"中期验收"为什么必须双签报告?
下一篇预告:第二十一篇 治理篇,看场景库如何长期治理。