AI视频的局限它做不到的事 · AI 视频橙皮书

一、为什么这一章很重要

很多 AI 视频教程都在"贩卖魔法"——让你以为 AI 视频什么都能做。

真相是：AI 视频在 2026 年依然有大量"做不好"的事。

如果你不知道这些边界：

你会浪费时间在 AI 视频做不好的事上。
你会做出尴尬的作品（比如 AI 视频里手指有 7 根）。
你会给客户/家人不切实际的期望，最后失望。
你会错过该用真人/真拍摄的场景，得不偿失。

这一章是"反向使用指南"——知道 AI 不能做什么，比知道它能做什么更重要。

二、局限 1：长视频的"连贯性"问题

2.1 现象

单镜头 5-10 秒：AI 做得不错。
5-10 秒之间：开始有"画面漂移"。
30 秒以上：基本失控（角色变样、场景突变、风格不统一）。
1 分钟以上：几乎无法保证连贯。

2.2 为什么

AI 视频生成的本质是"一帧一帧画"。每画一帧，前面的"记忆"就会衰减一些。

类比：让一个人画 100 张连环画——前 10 张能保持一致，到第 50 张主角的脸就开始变。

2.3 解决方案

方案 1：拆分法

把长视频拆成多个 5-10 秒片段。
每段单独生成。
用剪辑工具拼接。
用"转场"掩盖断裂感。

方案 2：用支持长视频的工具

可灵 2.5：支持 30 秒单次生成 + 续写到 3 分钟。
Sora 2 Pro：60 秒单次生成。
Runway Gen-4：10 秒单次。

方案 3：图生视频"接力"

第 1 段视频生成 → 截取最后一帧。
用这一帧作为第 2 段的"起始图"。
这样画面之间有连贯感。

2.4 仍然解决不了什么

长篇剧情（5+ 分钟连贯故事）：拼起来也会有断裂感。
同一角色长时间出现：依然会有变化。
复杂场景的延续（比如一场战役）：很难。

所以：做电影/长剧情，AI 视频依然只是"辅助"，主体依然要靠真拍。

三、局限 2：角色一致性

3.1 现象

你今天用 AI 生成"红衣女孩"，明天再生成一段"她的视频"——80% 概率两次的女孩长得不一样。

脸型不同。
发型不同。
衣服细节不同。
身高比例不同。

3.2 为什么

每次生成，AI 都是"重新理解你的描述"。即使描述完全一样，生成结果也有 random（随机性）。

3.3 解决方案

第五章详细讲过 4 种方法：

用支持"角色锁定"的工具（Vidu、可灵 Pro）。
用图生视频代替文生视频。
先用 AI 画图工具创造"角色卡"。
详细描述角色（适合不支持参考图的工具）。

3.4 仍然解决不了什么

完全 100% 一致：做不到。
复杂角色（比如有特殊服饰、特殊配饰）：更难。
跨工具一致（即梦生成的角色、可灵生成的角色不一样）。

所以：长期 IP 角色 + 复杂角色，依然推荐用真人 + 数字人。

四、局限 3：手指、眼神、嘴型

4.1 现象

AI 视频里：

手指：经常多一根、少一根、变形、扭曲。
眼神：偶尔"飘"或"呆滞"，或者"两只眼睛看不同方向"。
嘴型：快速说话时，口型对不上。
耳朵：偶尔多一个、形状奇怪。
牙齿：经常有"诡异微笑"。

4.2 为什么

人体的"小细节"（手指、眼神、嘴型、牙齿）是 AI 训练数据里密度最低的部分——大部分网上视频都不会特写这些地方。

4.3 解决方案

方案 1：避免特写

让人物远景/全景出现，不要特写手部、特写眼睛。
中景以上的人物，问题就少很多。

方案 2：用真实素材

手部特写、眼神特写——用自己拍的真实素材。
把 AI 生成的"远景"和真实拍的"特写"剪在一起。

方案 3：动作要慢

快速运动 + 复杂动作 → AI 容易出问题。
缓慢动作 + 简单动作 → AI 出错率低。

4.4 仍然解决不了什么

2026 年的 AI 还做不好"完美的人体细节"。
就算最强的 Sora 2，依然偶尔有手指/眼神问题。
完美的手部特写、表演级的微表情：依然要真人。

五、局限 4：文字渲染

5.1 现象

让 AI 在视频画面里出现"清晰的文字"非常难：

"招牌上写'欢迎光临'"——会变成乱码。
"T 恤上印着'NIKE'"——会变成扭曲的字符。
"黑板上写着方程式"——会是看似数学但实际无意义的乱码。
"海报上的标题"——多半失真。

5.2 为什么

AI 视频生成器把"文字"理解成了"视觉模式"，但它不真正理解"什么是文字"。

5.3 解决方案

方案 1：后期叠加文字

AI 生成"没有文字的画面"（比如"一块空白招牌")。
用剪映在后期加上文字。
完美控制 + 字体随你选。

方案 2：用"图生视频"+ 文字图

先用 PS / Canva 设计好带文字的图片。
用图生视频让它"动起来"（保持文字稳定）。

方案 3：避开

不要在提示词里写"画面里有文字 X X X"。
把文字相关的内容用画外音 + 字幕 表达。

5.4 仍然解决不了什么

画面里出现复杂文字（中文/小字号）：2026 年依然失真。
国外工具（Sora、Veo）对中文文字渲染几乎不行。

六、局限 5：真实物理规律

6.1 现象

水从下往上流。
烟雾不消散反而聚集。
玻璃破碎像橡皮筋。
球抛出去不沿着抛物线。
影子方向和光源不对应。

6.2 为什么

AI 学的是"看起来像什么"，不是"物理规律"。

6.3 解决方案

方案 1：用最新模型

Sora 2 / Veo 3 比上一代物理逻辑好很多。
国内可灵 2.5 在物理上有显著进步。
付费版通常物理更准。

方案 2：避开复杂物理场景

简单场景（人走路、说话、坐着）→ AI 处理得好。
复杂物理（爆炸、流体、碰撞）→ 用真实素材或专业 CG。

6.4 仍然解决不了什么

专业 CG 级的物理模拟（电影级特效）：依然要专业 CG 团队。

七、局限 6：精确的镜头控制

7.1 现象

你说"镜头先推到主角脸部，停顿 1 秒，再拉远到全景"——AI 给你的可能是"乱推乱拉"。

复杂的镜头编排，AI 经常乱来。

7.2 解决方案

方案 1：分镜头生成

一个复杂镜头 = 多个简单镜头。
每个镜头单独生成 + 剪辑拼接。

方案 2：用支持"分镜模式"的工具

Sora 2 的 Storyboard 模式。
可灵 Pro 的"分阶段提示词"。

方案 3：用提示词更明确

镜头：固定中景，全程不移动。

让 AI"少做一些事"，反而更稳定。

八、局限 7：复杂剧情和多角色互动

8.1 现象

你想做"三个人物围坐一桌讨论一件事"的视频：

谁说什么 → 乱了。
谁看谁 → 乱了。
哪个是主角 → AI 自己决定。
对话节奏 → 没法控制。

8.2 为什么

AI 视频在生成"多人复杂互动"时，无法理解"谁是谁""谁在和谁说话"这种语义。

8.3 解决方案

方案 1：单人镜头剪辑

每个角色单独生成镜头（A 镜头、B 镜头、C 镜头）。
剪辑时按对话顺序拼接。
加配音/对白。

类似真实拍摄的"反打镜头"。

方案 2：用真人 + AI 后期

找几个真人配合演。
用 AI 后期换脸/调色。

8.4 仍然解决不了什么

复杂群戏（10+ 角色互动）：依然只能真拍。
长对话场景（5 分钟两人对谈）：AI 做不出来。

九、局限 8：真情实感

9.1 现象

AI 视频做的"感人画面"，总差一口气：

数字人哭，看起来"假"。
AI 生成的"温馨家庭"画面，少了真实的细节。
AI 配音的"愤怒"、"激动"，总像是"演的"。

9.2 为什么

AI 学的是"看起来像情感"，不是真实的情感。

9.3 解决方案

真情实感不能用 AI 替代——这是 2026 年最重要的边界。

需要真情实感的场景：

给爱人/家人的纪念视频 → 用真人录制开场/结尾。
哀悼/悼念视频 → 真实的人讲真实的话。
分享真实经历的故事 → 自己出镜。

AI 是放大器，不是替代品。在情感场景里，AI 用作"画面补充"，但核心的"人"和"声音"应该是真实的。

十、局限 9：极致细节

10.1 现象

名牌商品的 logo（"星巴克的美人鱼标志"）→ 失真。
真实的城市地标（"埃菲尔铁塔的细节"）→ 不准确。
历史人物的精确形象（"特定时期的孔子"）→ 失真。
特定的车型/产品（"宝马 X5 2024 款"）→ 不像。

10.2 解决方案

方案 1：用真实素材

商品/地标/历史人物 → 用真实图片/视频素材。

方案 2：避开品牌敏感

不要在提示词里写具体品牌名（也避免侵权）。
用通用描述（"一辆豪华 SUV"代替"宝马 X5"）。

十一、局限 10：特定行业的"专业度"

AI 视频在某些专业领域会犯低级错误：

领域	常见问题
医学	医疗器械摆放错误、解剖学失真
军事	武器装备失真、军衔错乱
法律	法庭场景错乱、文件细节错误
历史	时代错乱（古代场景里出现现代物品）
建筑	结构不合理、比例失调
舞蹈/武术	动作不规范、节奏错乱
乐器演奏	手指位置和声音对不上

解决方案

这些场景找专业人士复核。
或者用真实素材而不是 AI 生成。

十二、局限 11：成本和时间不一定低

很多人以为"AI 视频 = 免费 + 5 秒搞定"。

真相：

场景	真实成本/时间
1 支 5 秒抖音视频	5 分钟 + 0 元（免费版够用）
1 支 30 秒成片（含配音字幕）	30 分钟 + 0-50 元
1 支 1 分钟带数字人短视频	1 小时 + 50-100 元
1 支 5 分钟有剧情短片	1 天 + 100-500 元
1 支 10 分钟"电影级"内容	几天 + 1000-5000 元
一部完整 30 分钟 AI 短剧	1-2 周 + 1 万-5 万元

AI 视频比传统拍摄便宜，但"高质量 AI 视频"依然不便宜。

十三、局限 12：审美 / 创意

最难的局限——AI 视频做不出"审美超凡"的作品。

现象

AI 生成的画面"挺好看"，但很难做到"惊艳"。
AI 生成的剧情"还行"，但很难有真正"打动人"的故事。
AI 生成的配乐"合适"，但很难有"灵魂"。

为什么

审美/创意是"人"的领域。AI 学的是"已有的好作品",但它创造不出"新的好作品"。

解决方案

AI 是"完成 80% 的工作"，剩下 20% 的"灵魂"靠人。
你的审美/创意/品味，依然是稀缺品。
AI 让你能做更多事，但让你与众不同的，依然是你自己。

十四、什么时候应该"不用 AI"

总结一下，这些场景应该选真人/真拍/专业团队，而不是 AI：

场景	推荐
婚礼实拍	找婚礼摄影师
重要纪念视频（金婚、葬礼）	真人主体 + AI 辅助
长篇电影/剧集	专业团队
高客单价产品广告	专业广告公司
真情实感的内容	真人出镜
严肃专业内容（医疗/法律/科研）	真人专家
极致艺术创作	真人创作者
突发新闻	真实拍摄
直播互动（高质量）	真人主播
严肃企业宣传（500 强级）	专业制作公司

十五、本章小抄

AI 视频在 2026 年依然有 12 个主要局限：
1. 长视频连贯性
2. 角色一致性
3. 手指眼神嘴型
4. 文字渲染
5. 真实物理规律
6. 精确镜头控制
7. 复杂剧情多角色
8. 真情实感
9. 极致细节
10. 特定行业专业度
11. 成本和时间不一定低
12. 审美和创意
了解局限 = 用对工具。不是所有事都该用 AI。
AI 是 80% 工作的完成者，剩下 20% 的"灵魂"依然靠人。
真情实感、专业判断、艺术品味——这些是人的护城河。

5 分钟动手实验

任务：

回顾你做过的 AI 视频，找出 1 个"AI 没做好"的地方（手指变形、文字乱码、连贯性差等）。

思考题：

你能用本章的"解决方案"修复它吗？
如果不能，这件事是不是根本不该用 AI 做？

下一章：第十五章版权、伦理与法律——避坑指南

第十四章 AI 视频的局限——它做不到的事

一、为什么这一章很重要

二、局限 1：长视频的"连贯性"问题

2.1 现象

2.2 为什么

2.3 解决方案

方案 1：拆分法

方案 2：用支持长视频的工具

方案 3：图生视频"接力"

2.4 仍然解决不了什么

三、局限 2：角色一致性

3.1 现象

3.2 为什么

3.3 解决方案

3.4 仍然解决不了什么

四、局限 3：手指、眼神、嘴型

4.1 现象

4.2 为什么

4.3 解决方案

方案 1：避免特写

方案 2：用真实素材

方案 3：动作要慢

4.4 仍然解决不了什么

五、局限 4：文字渲染

5.1 现象

5.2 为什么

5.3 解决方案

方案 1：后期叠加文字

方案 2：用"图生视频"+ 文字图

方案 3：避开

5.4 仍然解决不了什么

六、局限 5：真实物理规律

6.1 现象

6.2 为什么

6.3 解决方案

方案 1：用最新模型

方案 2：避开复杂物理场景

6.4 仍然解决不了什么

七、局限 6：精确的镜头控制

7.1 现象

7.2 解决方案

方案 1：分镜头生成

方案 2：用支持"分镜模式"的工具

方案 3：用提示词更明确

八、局限 7：复杂剧情和多角色互动

8.1 现象

8.2 为什么

8.3 解决方案

方案 1：单人镜头剪辑

方案 2：用真人 + AI 后期

8.4 仍然解决不了什么

九、局限 8：真情实感

9.1 现象

9.2 为什么

9.3 解决方案

十、局限 9：极致细节

10.1 现象

10.2 解决方案

方案 1：用真实素材

方案 2：避开品牌敏感

十一、局限 10：特定行业的"专业度"

解决方案

十二、局限 11：成本和时间不一定低

十三、局限 12：审美 / 创意

现象

为什么

解决方案

十四、什么时候应该"不用 AI"

十五、本章小抄

5 分钟动手实验