ORANGE BOOK · AI VIDEO

第十四章 AI 视频的局限——它做不到的事


一、为什么这一章很重要

很多 AI 视频教程都在"贩卖魔法"——让你以为 AI 视频什么都能做。

真相是:AI 视频在 2026 年依然有大量"做不好"的事

如果你不知道这些边界:

  • 你会浪费时间在 AI 视频做不好的事上。
  • 你会做出尴尬的作品(比如 AI 视频里手指有 7 根)。
  • 你会给客户/家人不切实际的期望,最后失望。
  • 你会错过该用真人/真拍摄的场景,得不偿失。

这一章是"反向使用指南"——知道 AI 不能做什么,比知道它能做什么更重要


二、局限 1:长视频的"连贯性"问题

2.1 现象

  • 单镜头 5-10 秒:AI 做得不错。
  • 5-10 秒之间:开始有"画面漂移"。
  • 30 秒以上:基本失控(角色变样、场景突变、风格不统一)。
  • 1 分钟以上:几乎无法保证连贯。

2.2 为什么

AI 视频生成的本质是"一帧一帧画"。每画一帧,前面的"记忆"就会衰减一些。

类比:让一个人画 100 张连环画——前 10 张能保持一致,到第 50 张主角的脸就开始变。

2.3 解决方案

方案 1:拆分法

  • 把长视频拆成多个 5-10 秒片段。
  • 每段单独生成。
  • 用剪辑工具拼接。
  • 用"转场"掩盖断裂感。

方案 2:用支持长视频的工具

  • 可灵 2.5:支持 30 秒单次生成 + 续写到 3 分钟。
  • Sora 2 Pro:60 秒单次生成。
  • Runway Gen-4:10 秒单次。

方案 3:图生视频"接力"

  • 第 1 段视频生成 → 截取最后一帧。
  • 用这一帧作为第 2 段的"起始图"。
  • 这样画面之间有连贯感。

2.4 仍然解决不了什么

  • 长篇剧情(5+ 分钟连贯故事):拼起来也会有断裂感。
  • 同一角色长时间出现:依然会有变化。
  • 复杂场景的延续(比如一场战役):很难。

所以做电影/长剧情,AI 视频依然只是"辅助",主体依然要靠真拍


三、局限 2:角色一致性

3.1 现象

你今天用 AI 生成"红衣女孩",明天再生成一段"她的视频"——80% 概率两次的女孩长得不一样。

  • 脸型不同。
  • 发型不同。
  • 衣服细节不同。
  • 身高比例不同。

3.2 为什么

每次生成,AI 都是"重新理解你的描述"。即使描述完全一样,生成结果也有 random(随机性)。

3.3 解决方案

第五章 详细讲过 4 种方法:

  1. 用支持"角色锁定"的工具(Vidu、可灵 Pro)。
  2. 用图生视频代替文生视频。
  3. 先用 AI 画图工具创造"角色卡"。
  4. 详细描述角色(适合不支持参考图的工具)。

3.4 仍然解决不了什么

  • 完全 100% 一致:做不到。
  • 复杂角色(比如有特殊服饰、特殊配饰):更难。
  • 跨工具一致(即梦生成的角色、可灵生成的角色不一样)。

所以长期 IP 角色 + 复杂角色,依然推荐用真人 + 数字人


四、局限 3:手指、眼神、嘴型

4.1 现象

AI 视频里:

  • 手指:经常多一根、少一根、变形、扭曲。
  • 眼神:偶尔"飘"或"呆滞",或者"两只眼睛看不同方向"。
  • 嘴型:快速说话时,口型对不上。
  • 耳朵:偶尔多一个、形状奇怪。
  • 牙齿:经常有"诡异微笑"。

4.2 为什么

人体的"小细节"(手指、眼神、嘴型、牙齿)是 AI 训练数据里密度最低的部分——大部分网上视频都不会特写这些地方。

4.3 解决方案

方案 1:避免特写

  • 让人物远景/全景出现,不要特写手部、特写眼睛。
  • 中景以上的人物,问题就少很多。

方案 2:用真实素材

  • 手部特写、眼神特写——用自己拍的真实素材
  • 把 AI 生成的"远景"和真实拍的"特写"剪在一起。

方案 3:动作要慢

  • 快速运动 + 复杂动作 → AI 容易出问题。
  • 缓慢动作 + 简单动作 → AI 出错率低。

4.4 仍然解决不了什么

  • 2026 年的 AI 还做不好"完美的人体细节"
  • 就算最强的 Sora 2,依然偶尔有手指/眼神问题。
  • 完美的手部特写、表演级的微表情:依然要真人。

五、局限 4:文字渲染

5.1 现象

让 AI 在视频画面里出现"清晰的文字"非常难:

  • "招牌上写'欢迎光临'"——会变成乱码。
  • "T 恤上印着'NIKE'"——会变成扭曲的字符。
  • "黑板上写着方程式"——会是看似数学但实际无意义的乱码。
  • "海报上的标题"——多半失真。

5.2 为什么

AI 视频生成器把"文字"理解成了"视觉模式",但它不真正理解"什么是文字"。

5.3 解决方案

方案 1:后期叠加文字

  • AI 生成"没有文字的画面"(比如"一块空白招牌")。
  • 用剪映在后期加上文字。
  • 完美控制 + 字体随你选。

方案 2:用"图生视频"+ 文字图

  • 先用 PS / Canva 设计好带文字的图片。
  • 用图生视频让它"动起来"(保持文字稳定)。

方案 3:避开

  • 不要在提示词里写"画面里有文字 X X X"。
  • 把文字相关的内容用画外音 + 字幕 表达。

5.4 仍然解决不了什么

  • 画面里出现复杂文字(中文/小字号):2026 年依然失真。
  • 国外工具(Sora、Veo)对中文文字渲染几乎不行。

六、局限 5:真实物理规律

6.1 现象

  • 水从下往上流。
  • 烟雾不消散反而聚集。
  • 玻璃破碎像橡皮筋。
  • 球抛出去不沿着抛物线
  • 影子方向和光源不对应。

6.2 为什么

AI 学的是"看起来像什么",不是"物理规律"。

6.3 解决方案

方案 1:用最新模型

  • Sora 2 / Veo 3 比上一代物理逻辑好很多。
  • 国内可灵 2.5 在物理上有显著进步。
  • 付费版通常物理更准

方案 2:避开复杂物理场景

  • 简单场景(人走路、说话、坐着)→ AI 处理得好。
  • 复杂物理(爆炸、流体、碰撞)→ 用真实素材或专业 CG。

6.4 仍然解决不了什么

  • 专业 CG 级的物理模拟(电影级特效):依然要专业 CG 团队。

七、局限 6:精确的镜头控制

7.1 现象

你说"镜头先推到主角脸部,停顿 1 秒,再拉远到全景"——AI 给你的可能是"乱推乱拉"。

复杂的镜头编排,AI 经常乱来。

7.2 解决方案

方案 1:分镜头生成

  • 一个复杂镜头 = 多个简单镜头。
  • 每个镜头单独生成 + 剪辑拼接。

方案 2:用支持"分镜模式"的工具

  • Sora 2 的 Storyboard 模式。
  • 可灵 Pro 的"分阶段提示词"。

方案 3:用提示词更明确

镜头:固定中景,全程不移动。

让 AI"少做一些事",反而更稳定。


八、局限 7:复杂剧情和多角色互动

8.1 现象

你想做"三个人物围坐一桌讨论一件事"的视频:

  • 谁说什么 → 乱了。
  • 谁看谁 → 乱了。
  • 哪个是主角 → AI 自己决定。
  • 对话节奏 → 没法控制。

8.2 为什么

AI 视频在生成"多人复杂互动"时,无法理解"谁是谁""谁在和谁说话"这种语义。

8.3 解决方案

方案 1:单人镜头剪辑

  • 每个角色单独生成镜头(A 镜头、B 镜头、C 镜头)。
  • 剪辑时按对话顺序拼接。
  • 加配音/对白。

类似真实拍摄的"反打镜头"。

方案 2:用真人 + AI 后期

  • 找几个真人配合演。
  • 用 AI 后期换脸/调色。

8.4 仍然解决不了什么

  • 复杂群戏(10+ 角色互动):依然只能真拍。
  • 长对话场景(5 分钟两人对谈):AI 做不出来。

九、局限 8:真情实感

9.1 现象

AI 视频做的"感人画面",总差一口气

  • 数字人哭,看起来"假"。
  • AI 生成的"温馨家庭"画面,少了真实的细节。
  • AI 配音的"愤怒"、"激动",总像是"演的"。

9.2 为什么

AI 学的是"看起来像情感",不是真实的情感。

9.3 解决方案

真情实感不能用 AI 替代——这是 2026 年最重要的边界。

需要真情实感的场景:

  • 给爱人/家人的纪念视频 → 用真人录制开场/结尾。
  • 哀悼/悼念视频 → 真实的人讲真实的话。
  • 分享真实经历的故事 → 自己出镜。

AI 是放大器,不是替代品。在情感场景里,AI 用作"画面补充",但核心的"人"和"声音"应该是真实的


十、局限 9:极致细节

10.1 现象

  • 名牌商品的 logo("星巴克的美人鱼标志")→ 失真。
  • 真实的城市地标("埃菲尔铁塔的细节")→ 不准确。
  • 历史人物的精确形象("特定时期的孔子")→ 失真。
  • 特定的车型/产品("宝马 X5 2024 款")→ 不像。

10.2 解决方案

方案 1:用真实素材

  • 商品/地标/历史人物 → 用真实图片/视频素材。

方案 2:避开品牌敏感

  • 不要在提示词里写具体品牌名(也避免侵权)。
  • 用通用描述("一辆豪华 SUV"代替"宝马 X5")。

十一、局限 10:特定行业的"专业度"

AI 视频在某些专业领域会犯低级错误

领域 常见问题
医学 医疗器械摆放错误、解剖学失真
军事 武器装备失真、军衔错乱
法律 法庭场景错乱、文件细节错误
历史 时代错乱(古代场景里出现现代物品)
建筑 结构不合理、比例失调
舞蹈/武术 动作不规范、节奏错乱
乐器演奏 手指位置和声音对不上

解决方案

  • 这些场景找专业人士复核
  • 或者用真实素材而不是 AI 生成。

十二、局限 11:成本和时间不一定低

很多人以为"AI 视频 = 免费 + 5 秒搞定"。

真相

场景 真实成本/时间
1 支 5 秒抖音视频 5 分钟 + 0 元(免费版够用)
1 支 30 秒成片(含配音字幕) 30 分钟 + 0-50 元
1 支 1 分钟带数字人短视频 1 小时 + 50-100 元
1 支 5 分钟有剧情短片 1 天 + 100-500 元
1 支 10 分钟"电影级"内容 几天 + 1000-5000 元
一部完整 30 分钟 AI 短剧 1-2 周 + 1 万-5 万元

AI 视频比传统拍摄便宜,但"高质量 AI 视频"依然不便宜


十三、局限 12:审美 / 创意

最难的局限——AI 视频做不出"审美超凡"的作品

现象

  • AI 生成的画面"挺好看",但很难做到"惊艳"
  • AI 生成的剧情"还行",但很难有真正"打动人"的故事
  • AI 生成的配乐"合适",但很难有"灵魂"

为什么

审美/创意是"人"的领域。AI 学的是"已有的好作品",但它创造不出"新的好作品"

解决方案

  • AI 是"完成 80% 的工作",剩下 20% 的"灵魂"靠人
  • 你的审美/创意/品味,依然是稀缺品。
  • AI 让你能做更多事,但让你与众不同的,依然是你自己

十四、什么时候应该"不用 AI"

总结一下,这些场景应该选真人/真拍/专业团队,而不是 AI

场景 推荐
婚礼实拍 找婚礼摄影师
重要纪念视频(金婚、葬礼) 真人主体 + AI 辅助
长篇电影/剧集 专业团队
高客单价产品广告 专业广告公司
真情实感的内容 真人出镜
严肃专业内容(医疗/法律/科研) 真人专家
极致艺术创作 真人创作者
突发新闻 真实拍摄
直播互动(高质量) 真人主播
严肃企业宣传(500 强级) 专业制作公司

十五、本章小抄

  • AI 视频在 2026 年依然有 12 个主要局限:
    1. 长视频连贯性
    2. 角色一致性
    3. 手指眼神嘴型
    4. 文字渲染
    5. 真实物理规律
    6. 精确镜头控制
    7. 复杂剧情多角色
    8. 真情实感
    9. 极致细节
    10. 特定行业专业度
    11. 成本和时间不一定低
    12. 审美和创意
  • 了解局限 = 用对工具。不是所有事都该用 AI。
  • AI 是 80% 工作的完成者,剩下 20% 的"灵魂"依然靠人
  • 真情实感、专业判断、艺术品味——这些是人的护城河

5 分钟动手实验

任务

回顾你做过的 AI 视频,找出 1 个"AI 没做好"的地方(手指变形、文字乱码、连贯性差等)。

思考题

  • 你能用本章的"解决方案"修复它吗?
  • 如果不能,这件事是不是根本不该用 AI 做

下一章:第十五章 版权、伦理与法律——避坑指南