ORANGE BOOK · AI VIDEO

第一章 AI 视频到底是什么——用大白话讲清楚


一、先把"AI 视频"四个字拆开

我们说"AI 视频"的时候,其实在说两类完全不同的事

很多人混在一起说,所以越听越糊涂。

第一类:用 AI 直接"生成"画面——这一类工具你给一段文字("一只猫在月光下跳舞"),或者给一张图片,AI 直接帮你生成一段从没存在过的画面。代表工具:可灵、即梦、Sora、Veo、Runway。

第二类:用 AI "处理"已有的视频素材——这一类工具你已经有视频素材(自己拍的、网上下的),AI 帮你完成本来需要专业剪辑师做的事:剪辑、配音、字幕、配乐、加特效。代表工具:剪映、必剪、腾讯智影、Opus Clip。

打个比方:

  • 第一类像"画家"——你给主题,画家从空白画布开始画。
  • 第二类像"裁缝"——你给布料,裁缝把布料剪成衣服。

这本书里,"AI 视频"指的是这两类的总和——也就是"所有能让普通人不靠专业团队就做出像样视频的 AI 工具"。


二、第一类:用 AI 直接"生成"画面

这一类是这两年变化最大的领域。我们再细分。

2.1 文生视频(Text-to-Video)

一句话:你给一段文字描述,AI 给你一段对应的视频。

例子

你输入:

"黄昏时的海边,一个穿白色连衣裙的小女孩在沙滩上奔跑,海风吹起她的头发,海浪轻拍沙滩。镜头跟着她奔跑,光影温暖。"

5 秒后,AI 给你一段 5 秒的视频——画面里真的有一个穿白裙子的小女孩在海边沙滩上奔跑,金色夕阳,海浪声(有些工具会带音频,有些只是画面)。

这件事在 2 年前是不可能的。2024 年初 Sora 演示这一功能的时候,全世界的视频从业者都炸了。今天 2026 年,这一功能在国内已经免费可用——可灵、即梦、海螺、Vidu 都能做。

适合做什么

  • 你脑子里有画面,但拍不出来(没场景、没演员、没设备)。
  • 你想要"梦境感""科幻感""超现实感"的画面。
  • 你想要的画面在现实里成本极高(比如"巨龙穿过云层""万人合唱")。

不适合做什么

  • 需要严格还原现实(比如"我家的客厅")。
  • 需要长时间连贯(目前主流工具一次最多生成 5–30 秒)。
  • 需要精确的人物动作(比如"小明喝水时打了个嗝")。

2.2 图生视频(Image-to-Video)

一句话:你给一张静态图片,AI 让图片"动起来"。

例子

你上传一张你画的水彩画——画面是一片向日葵田,远处有风车。

你写一句话:"风车缓慢转动,向日葵随风摇摆,云朵从左向右飘过。"

10 秒后,AI 给你一段视频——你的水彩画"动了"。风车真的在转,向日葵真的在晃,云在飘。

这件事的应用场景比文生视频还广

  • 老照片复活:把爷爷奶奶的黑白老照片做成"会动的纪念视频",画面里的人能微笑、能眨眼、能转头。
  • 绘画动起来:孩子的画、自己拍的水彩画、买的插画,都能让它"活"起来。
  • 产品视频:你只有一张产品照片,AI 让它转一圈、被光照亮、被手拿起来。
  • 风景延伸:你拍的一张风景照,让它"动起来"——树叶摇、水面晃、人在走。
  • AI 角色一致性:你想做一个固定的角色(比如一个红衣女孩),先用 AI 生成一张她的图片,然后每个视频片段都基于这张图生成,角色就不会变。

为什么图生视频比文生视频常用:因为它更可控。你给了一张图,AI 大致知道"画面应该长什么样",只需要"添加运动",比"凭空想象"出错率低得多。

2.3 视频生视频(Video-to-Video)

一句话:你给一段视频,AI 给你一段"风格化"的视频。

例子

你用手机拍了 10 秒"自己在公园跑步"的视频。

你给 AI 写一句:"把它变成宫崎骏动画风格。"

AI 给你一段视频——画面里还是你在公园跑步的动作,但人物变成了宫崎骏式的卡通形象,公园变成了宫崎骏式的森林背景。

适合做什么

  • 给自己的真人素材换风格(动漫风、油画风、赛博朋克风)。
  • "翻拍"经典电影/动画的画面。
  • 给广告增加风格感。

不太适合普通人入门:因为它需要你先有一段拍好的视频素材,门槛比文生/图生高一点。本书会简单提及,但重点不在这里。

2.4 这三种用哪个?

你有什么 你想要什么 用哪种
只有一句话/一段描述 全新的画面 文生视频
有一张图(照片/绘画/AI 生成图) 让这张图动起来 图生视频
有一段视频素材 换个风格 视频生视频

新手强烈推荐从图生视频开始——因为画面更稳定,出错率更低,也更容易理解"AI 是怎么帮我把画面动起来的"。


三、第二类:用 AI 替你完成"传统视频制作"的工作

如果说第一类是"AI 当画家",第二类就是"AI 当摄制组"——AI 替你做摄制组里那些专业岗位的活:编剧、配音员、剪辑师、字幕组。

3.1 AI 数字人(AI Avatar / Digital Human)

一句话:AI 替你出镜,你不用真的露脸。

例子

李老师不想真人出镜(因为她觉得自己 64 岁不上镜)。她在剪映里:

  1. 拍一张自己的正脸照片。
  2. 录一段自己的语音(1 分钟以上,最好读一段标准的中文)。
  3. 输入一段她想讲的内容文字。

5 分钟后,AI 给她一支视频——画面里是"她的样子的人",正在用"她的声音"讲她写的内容。嘴型对得上、表情自然、神态像她。

这就是 AI 数字人

也可以选用预设数字人——剪映里有几十个免费的"虚拟主播"形象(男的、女的、不同年龄、不同风格),你不需要克隆自己,直接选一个就行。

适合做什么

  • 你不想出镜(怕丑、不上相、怕被认识)。
  • 你普通话不好、声音不好听、社恐。
  • 你需要"批量产出"视频(克隆一次,永远能用,不用每次自己出镜)。
  • 你需要"多语言版本"(一次克隆,让数字人讲中文、英文、日文都行)。

不适合做什么

  • 需要真情实感的内容(比如纪念视频里你想真人出镜亲口说一段话——这个时候真人比数字人有感染力)。
  • 需要复杂动作(数字人主要是"半身口播",不适合大幅度动作)。

3.2 AI 配音(AI Voice / TTS)

一句话:AI 替你"读"出来,你不用真的开口录。

例子

你写好了一段 30 秒的视频解说词。你打开剪映的"智能配音",粘贴文字,选一个音色(比如"温柔女声""激情解说男""沉稳老者"),点"生成"——3 秒后,AI 给你一段配音,自然、流畅、口型节奏都很标准。

2026 年 AI 配音已经做到了什么程度

  • 支持 50+ 种语言和方言(包括粤语、四川话、东北话)。
  • 支持 12 种以上情绪(开心、悲伤、激动、平静、犹豫、强颜欢笑、苦笑等微情绪)。
  • 你可以用 1 分钟录音"克隆"自己的声音,让 AI 用你的声音念任何内容。
  • 1 元钱就能做一支完整短视频的配音。

适合做什么

  • 你不想自己录音(普通话不好、家里吵、声音不好听、不会控制语气)。
  • 你需要批量产出(一天出 10 支视频,每支都自己录受不了)。
  • 你需要多语言版本(克隆自己的声音,让"自己"讲英文)。

不适合做什么

  • 极度需要"真情实感"的内容(比如告别视频、纪念视频)。
  • 需要现场即兴反应(直播、采访)。

3.3 AI 剪辑(AI Auto-Editing)

一句话:AI 替你把素材剪成成片,你不用学剪映那一堆复杂功能。

例子

你拍了 30 段旅行素材,每段 10–60 秒不等,加起来 20 分钟。

你打开剪映的"一键成片",把 30 段素材都拖进去,选一个"旅行 vlog"模板。

30 秒后,AI 给你一支 1 分钟的成片——已经选好了精彩片段、配好了节奏、加了字幕、配了 BGM。

你可能只需要稍微改两三处,就能直接发抖音。

2026 年 AI 剪辑能做的

  • 一键成片:自动选片段、配 BGM、加字幕、加转场。
  • 智能镜头切换:根据"节奏""情绪""信息"三种模式自动剪辑。
  • 自动配乐:根据画面内容选 BGM。
  • 自动加字幕:识别配音/对白,自动生成字幕。
  • 去口水词:自动去掉"嗯""啊""那个"等口头禅。
  • 变速:自动把无聊片段加速、精彩片段放慢。

适合做什么

  • 你拍了一堆素材但不想花几小时剪辑。
  • 你没学过剪辑,又想做出像样的视频。
  • 你需要批量产出。

不适合做什么

  • 需要复杂剧情/复杂特效的视频。
  • 需要精确帧级别控制的视频(比如卡点、踩点、对位)。

3.4 AI 字幕、AI 翻译、AI 封面、AI 选题

除了"四大金刚"(生成、数字人、配音、剪辑),AI 视频还有很多"辅助工具":

  • AI 字幕:识别视频里的人话,自动加字幕,准确率 95%+。剪映、必剪都自带。
  • AI 翻译:把中文字幕和配音一键翻译成英文/日文/韩文/西班牙文/阿拉伯文,让中文视频出海。HeyGen、剪映都能做。
  • AI 封面:根据视频内容自动生成抓人眼球的封面图。
  • AI 选题:根据爆款规律,给你 10 个值得做的选题方向。
  • AI 转场:自动选合适的转场效果。
  • AI 抠图/抠像:把人/物从背景里抠出来,无需绿幕。
  • AI 修复:把模糊/老旧的视频修复到高清。

这些工具大多数都集成在剪映、必剪这种国民级 App 里,你不用专门去找。


四、AI 视频和"以前的视频特效"有什么本质区别?

这是普通人最常问的问题之一。

我用一个表来说清楚:

对比项 以前的视频特效(如剪映滤镜、PR 模板) 2026 年的 AI 视频
本质 在"已有画面"上叠加效果 从无到有生成画面
创作起点 必须有素材(拍好的视频/图片) 一句话就能开始,甚至完全没素材
可定制性 有限(只能选预设模板) 几乎无限(你写什么 AI 就尝试什么)
学习曲线 中等(要学软件功能) 极低(会打字就行)
天花板 模板的天花板 AI 的天花板(且每月都在涨)
成本 软件免费/几百元 大多数工具有免费额度,付费几十到几百一个月

最关键的区别是:

  • 以前的视频特效像"美颜相机"——把现实美化一下。
  • 2026 年的 AI 视频像"造梦机"——直接造出现实里没有的东西。

举个例子:

  • 你想做一段"小猫在云端奔跑"的视频。
  • 用以前的特效:你得找一段小猫奔跑的素材,找一段云端的素材,用绿幕/抠图把它们合成在一起,调整光影、调整边缘——熟练的剪辑师要几个小时。
  • 用 2026 年的 AI 视频:你只需要写"一只橘色的小猫在云端奔跑,毛发飘动,阳光从云缝里洒下来",30 秒后你就有一段完整的视频。

五、AI 视频的"能力边界"——它不是万能的

如果上面那些让你觉得"AI 视频已经无所不能",请先停一下。它远远不是无所不能

我老老实实告诉你 2026 年 AI 视频还做不好的事:

5.1 长视频(超过 1 分钟)

主流的文生视频工具,单次生成最长 5–30 秒。Sora 2 Pro 能做到 60 秒。

如果你想做一支 5 分钟的视频,必须把它拆成 10–20 个片段分别生成,再用剪辑工具拼起来——这就有了"前后画面对不上"的问题。

5.2 角色一致性

你今天用 AI 生成一个"红衣小女孩",明天再生成一段"她的视频",90% 的概率两次的小女孩长得不一样——脸型、发型、衣服细节都可能变。

2026 年有一些专门的工具(比如 Vidu 的"参考主体功能"、可灵的"角色定制")在解决这件事,但还没到完全稳定的程度。

5.3 手指、眼神、嘴型

AI 视频里的人手,经常多一根手指、少一根手指、手指变形——这是行业通病。

人物特写时的眼神有时候会"飘"或者"呆滞"。

数字人的嘴型,在快速说话时偶尔会"对不上"。

5.4 文字渲染

让 AI 在视频画面里出现"清晰的文字"(比如"招牌上写着'欢迎光临'")非常难——大概率会变成乱码或扭曲的字符。

5.5 物理规律

水流、火焰、烟雾、玻璃破碎这些复杂物理现象,AI 偶尔会画得不符合物理(水从下往上流、烟雾不散开)。

5.6 精确的镜头控制

你说"镜头先推到主角脸部,停顿 1 秒,再拉远到全景"——AI 可能给你的是一段"乱推乱拉"的镜头。

5.7 复杂剧情

你想做一支"三个人物互相对话"的视频,AI 多半会让画面里的人"对不上号",谁说什么、谁看谁,都会乱。


六、那 AI 视频最适合做什么?

把"局限"反过来看,AI 视频在这些场景最强:

场景 为什么 AI 视频强
5–15 秒的单镜头氛围画面 单次生成时长内、单镜头无连贯问题
图生视频(让照片动起来) 给了图,AI 不需要凭空想象,可控性最高
数字人口播 不需要复杂动作,只需要"半身在镜头前讲话",是 AI 数字人的舒适区
AI 配音 + 自动字幕 + 自动剪辑 替代了 90% 的传统剪辑工作,且做得不错
风格化短视频 让平凡素材变成"动画风/油画风/赛博朋克风"
批量产出短视频 AI 不累,可以一天产出几十支视频

反过来说,下面这些事 2026 年的 AI 视频还干不好

  • 拍一支真实感的婚礼现场记录(实拍依然不可替代)。
  • 一支 5 分钟的连贯剧情短片(连贯性还不够)。
  • 一支需要严格还原历史/真人的纪录片(细节会失真)。
  • 一支需要复杂打斗动作的武侠短片(动作连贯性差)。

七、为什么 AI 视频"突然"就行了?

你可能好奇:AI 已经火了好多年,为什么"AI 视频"是最近 2 年才突然行的?

我用大白话说,背后有三个原因:

7.1 算力够了

视频比文字、图片复杂得多——一段 5 秒的视频,相当于 150 张图片连起来(30 帧/秒)。

要让 AI "凭空画"出 150 张连贯的图片,需要的算力是"画一张图"的几百倍。直到 2024 年前后,全球的算力(主要是英伟达 H100/B200 这些高端 AI 芯片)才足够支撑这件事在工程上跑起来。

7.2 数据够了

AI 是"看了大量视频学会怎么画视频"的。

互联网上的视频内容(YouTube、TikTok、抖音、B 站)这十年来积累了天文数字级别的数据。AI 公司用这些数据(合规的部分)来训练,慢慢让 AI 学会了"什么是一段合理的视频"。

7.3 模型架构突破

2023–2024 年,"扩散模型"(Diffusion Model)和"DiT 架构"(Diffusion Transformer)的一系列突破,让 AI 真正能画出"时间上连贯"的视频。

这些技术名词你不需要懂——你只需要知道:2024 年开始,AI 视频从"实验室玩具"变成了"可以用的工具",2026 年已经变成了"普通人触手可及的工具"


八、跟我做:花 2 分钟感受一下"AI 视频"是怎么回事

不需要安装任何东西。打开你手机的浏览器(或者电脑浏览器),跟着做:

步骤 1:访问"即梦"

  • 手机:搜"即梦"App,下载安装;或者浏览器打开 jimeng.jianying.com
  • 电脑浏览器:直接打开 jimeng.jianying.com

提示:即梦是字节跳动出品,国内免费可用、不需要 VPN、有大量免费额度。本书 第二章 会讲为什么我们入门首推它。

步骤 2:登录

用抖音/字节账号一键登录。没有账号的话,手机号注册即可。

步骤 3:找到"AI 视频"入口

在首页找到"AI 视频"或"视频生成"按钮,点进去。

步骤 4:粘贴这一句话作为提示词

一只橘色的小猫坐在窗台上,看着窗外飘落的樱花,午后阳光温暖,镜头缓慢推进,画面温馨。

步骤 5:点"生成",等 30–60 秒

不要催,AI 在认真画。

步骤 6:看结果

你会看到一段 5 秒的视频——一只橘色的小猫真的坐在窗台上,外面真的有樱花在飘。这段视频在 30 秒前还不存在,是 AI 凭你这一句话"画"出来的

恭喜你,你刚刚体验了"文生视频"的全流程。


九、本章小抄

  • AI 视频不是单一工具,是两大类的统称:
    • 第一类:用 AI 生成画面——文生视频、图生视频、视频生视频。
    • 第二类:用 AI 处理视频——AI 数字人、AI 配音、AI 剪辑、AI 字幕、AI 翻译、AI 封面等。
  • 三种"生成画面"的方式
    • 文生视频:一句话 → 一段视频(最魔幻)。
    • 图生视频:一张图 → 让它动起来(最实用)。
    • 视频生视频:一段视频 → 换个风格(最进阶)。
  • AI 视频和传统特效的本质区别:传统特效是"叠加效果",AI 视频是"从无到有生成"。
  • 2026 年 AI 视频做得好的事:5–15 秒单镜头、图生视频、数字人口播、AI 配音字幕、风格化短视频、批量产出。
  • AI 视频还做不好的事:长视频、角色一致性、手指眼神、文字渲染、复杂剧情、精确镜头控制。
  • 新手起步建议:从"图生视频"+"AI 数字人"+"AI 配音 + 一键剪辑"四样开始,覆盖 80% 的普通人需求。

5 分钟动手实验

  1. 打开即梦,按"跟我做"的步骤生成你人生中第一支 AI 视频。
  2. 把生成的视频下载下来。
  3. 把视频发到自己的微信"文件传输助手"或者"我的相册"。
  4. 把这一段视频发给一个完全没接触过 AI 视频的朋友/家人,问他们:"你猜这是怎么做的?"
  5. 看看他们的反应——这就是你接下来要"传播"AI 视频能力给他们的起点。

下一章:第二章 2026 年 AI 视频工具全景图——告诉你国内外 30+ 个 AI 视频工具谁是谁、哪个适合你。