AI视频到底是什么用大白话讲清楚 · AI 视频橙皮书

一、先把"AI 视频"四个字拆开

我们说"AI 视频"的时候，其实在说两类完全不同的事。

很多人混在一起说，所以越听越糊涂。

第一类：用 AI 直接"生成"画面——这一类工具你给一段文字（"一只猫在月光下跳舞"），或者给一张图片，AI 直接帮你生成一段从没存在过的画面。代表工具：可灵、即梦、Sora、Veo、Runway。

第二类：用 AI "处理"已有的视频素材——这一类工具你已经有视频素材（自己拍的、网上下的），AI 帮你完成本来需要专业剪辑师做的事：剪辑、配音、字幕、配乐、加特效。代表工具：剪映、必剪、腾讯智影、Opus Clip。

打个比方：

第一类像"画家"——你给主题，画家从空白画布开始画。
第二类像"裁缝"——你给布料，裁缝把布料剪成衣服。

这本书里，"AI 视频"指的是这两类的总和——也就是"所有能让普通人不靠专业团队就做出像样视频的 AI 工具"。

二、第一类：用 AI 直接"生成"画面

这一类是这两年变化最大的领域。我们再细分。

2.1 文生视频（Text-to-Video）

一句话：你给一段文字描述，AI 给你一段对应的视频。

例子：

你输入：

"黄昏时的海边，一个穿白色连衣裙的小女孩在沙滩上奔跑，海风吹起她的头发，海浪轻拍沙滩。镜头跟着她奔跑，光影温暖。"

5 秒后，AI 给你一段 5 秒的视频——画面里真的有一个穿白裙子的小女孩在海边沙滩上奔跑，金色夕阳，海浪声（有些工具会带音频，有些只是画面）。

这件事在 2 年前是不可能的。2024 年初 Sora 演示这一功能的时候，全世界的视频从业者都炸了。今天 2026 年，这一功能在国内已经免费可用——可灵、即梦、海螺、Vidu 都能做。

适合做什么：

你脑子里有画面，但拍不出来（没场景、没演员、没设备）。
你想要"梦境感""科幻感""超现实感"的画面。
你想要的画面在现实里成本极高（比如"巨龙穿过云层""万人合唱"）。

不适合做什么：

需要严格还原现实（比如"我家的客厅"）。
需要长时间连贯（目前主流工具一次最多生成 5–30 秒）。
需要精确的人物动作（比如"小明喝水时打了个嗝"）。

2.2 图生视频（Image-to-Video）

一句话：你给一张静态图片，AI 让图片"动起来"。

例子：

你上传一张你画的水彩画——画面是一片向日葵田，远处有风车。

你写一句话："风车缓慢转动，向日葵随风摇摆，云朵从左向右飘过。"

10 秒后，AI 给你一段视频——你的水彩画"动了"。风车真的在转，向日葵真的在晃，云在飘。

这件事的应用场景比文生视频还广：

老照片复活：把爷爷奶奶的黑白老照片做成"会动的纪念视频"，画面里的人能微笑、能眨眼、能转头。
绘画动起来：孩子的画、自己拍的水彩画、买的插画，都能让它"活"起来。
产品视频：你只有一张产品照片，AI 让它转一圈、被光照亮、被手拿起来。
风景延伸：你拍的一张风景照，让它"动起来"——树叶摇、水面晃、人在走。
AI 角色一致性：你想做一个固定的角色（比如一个红衣女孩），先用 AI 生成一张她的图片，然后每个视频片段都基于这张图生成，角色就不会变。

为什么图生视频比文生视频常用：因为它更可控。你给了一张图，AI 大致知道"画面应该长什么样"，只需要"添加运动"，比"凭空想象"出错率低得多。

2.3 视频生视频（Video-to-Video）

一句话：你给一段视频，AI 给你一段"风格化"的视频。

例子：

你用手机拍了 10 秒"自己在公园跑步"的视频。

你给 AI 写一句："把它变成宫崎骏动画风格。"

AI 给你一段视频——画面里还是你在公园跑步的动作，但人物变成了宫崎骏式的卡通形象，公园变成了宫崎骏式的森林背景。

适合做什么：

给自己的真人素材换风格（动漫风、油画风、赛博朋克风）。
"翻拍"经典电影/动画的画面。
给广告增加风格感。

不太适合普通人入门：因为它需要你先有一段拍好的视频素材，门槛比文生/图生高一点。本书会简单提及，但重点不在这里。

2.4 这三种用哪个？

你有什么	你想要什么	用哪种
只有一句话/一段描述	全新的画面	文生视频
有一张图（照片/绘画/AI 生成图）	让这张图动起来	图生视频
有一段视频素材	换个风格	视频生视频

新手强烈推荐从图生视频开始——因为画面更稳定，出错率更低，也更容易理解"AI 是怎么帮我把画面动起来的"。

三、第二类：用 AI 替你完成"传统视频制作"的工作

如果说第一类是"AI 当画家"，第二类就是"AI 当摄制组"——AI 替你做摄制组里那些专业岗位的活：编剧、配音员、剪辑师、字幕组。

3.1 AI 数字人（AI Avatar / Digital Human）

一句话：AI 替你出镜，你不用真的露脸。

例子：

李老师不想真人出镜（因为她觉得自己 64 岁不上镜）。她在剪映里：

拍一张自己的正脸照片。
录一段自己的语音（1 分钟以上，最好读一段标准的中文）。
输入一段她想讲的内容文字。

5 分钟后，AI 给她一支视频——画面里是"她的样子的人"，正在用"她的声音"讲她写的内容。嘴型对得上、表情自然、神态像她。

这就是 AI 数字人。

也可以选用预设数字人——剪映里有几十个免费的"虚拟主播"形象（男的、女的、不同年龄、不同风格），你不需要克隆自己，直接选一个就行。

适合做什么：

你不想出镜（怕丑、不上相、怕被认识）。
你普通话不好、声音不好听、社恐。
你需要"批量产出"视频（克隆一次，永远能用，不用每次自己出镜）。
你需要"多语言版本"（一次克隆，让数字人讲中文、英文、日文都行）。

不适合做什么：

需要真情实感的内容（比如纪念视频里你想真人出镜亲口说一段话——这个时候真人比数字人有感染力）。
需要复杂动作（数字人主要是"半身口播"，不适合大幅度动作）。

3.2 AI 配音（AI Voice / TTS）

一句话：AI 替你"读"出来，你不用真的开口录。

例子：

你写好了一段 30 秒的视频解说词。你打开剪映的"智能配音"，粘贴文字，选一个音色（比如"温柔女声""激情解说男""沉稳老者"），点"生成"——3 秒后，AI 给你一段配音，自然、流畅、口型节奏都很标准。

2026 年 AI 配音已经做到了什么程度：

支持 50+ 种语言和方言（包括粤语、四川话、东北话）。
支持 12 种以上情绪（开心、悲伤、激动、平静、犹豫、强颜欢笑、苦笑等微情绪）。
你可以用 1 分钟录音"克隆"自己的声音，让 AI 用你的声音念任何内容。
1 元钱就能做一支完整短视频的配音。

适合做什么：

你不想自己录音（普通话不好、家里吵、声音不好听、不会控制语气）。
你需要批量产出（一天出 10 支视频，每支都自己录受不了）。
你需要多语言版本（克隆自己的声音，让"自己"讲英文）。

不适合做什么：

极度需要"真情实感"的内容（比如告别视频、纪念视频）。
需要现场即兴反应（直播、采访）。

3.3 AI 剪辑（AI Auto-Editing）

一句话：AI 替你把素材剪成成片，你不用学剪映那一堆复杂功能。

例子：

你拍了 30 段旅行素材，每段 10–60 秒不等，加起来 20 分钟。

你打开剪映的"一键成片"，把 30 段素材都拖进去，选一个"旅行 vlog"模板。

30 秒后，AI 给你一支 1 分钟的成片——已经选好了精彩片段、配好了节奏、加了字幕、配了 BGM。

你可能只需要稍微改两三处，就能直接发抖音。

2026 年 AI 剪辑能做的：

一键成片：自动选片段、配 BGM、加字幕、加转场。
智能镜头切换：根据"节奏""情绪""信息"三种模式自动剪辑。
自动配乐：根据画面内容选 BGM。
自动加字幕：识别配音/对白，自动生成字幕。
去口水词：自动去掉"嗯""啊""那个"等口头禅。
变速：自动把无聊片段加速、精彩片段放慢。

适合做什么：

你拍了一堆素材但不想花几小时剪辑。
你没学过剪辑，又想做出像样的视频。
你需要批量产出。

不适合做什么：

需要复杂剧情/复杂特效的视频。
需要精确帧级别控制的视频（比如卡点、踩点、对位）。

3.4 AI 字幕、AI 翻译、AI 封面、AI 选题

除了"四大金刚"（生成、数字人、配音、剪辑），AI 视频还有很多"辅助工具"：

AI 字幕：识别视频里的人话，自动加字幕，准确率 95%+。剪映、必剪都自带。
AI 翻译：把中文字幕和配音一键翻译成英文/日文/韩文/西班牙文/阿拉伯文，让中文视频出海。HeyGen、剪映都能做。
AI 封面：根据视频内容自动生成抓人眼球的封面图。
AI 选题：根据爆款规律，给你 10 个值得做的选题方向。
AI 转场：自动选合适的转场效果。
AI 抠图/抠像：把人/物从背景里抠出来，无需绿幕。
AI 修复：把模糊/老旧的视频修复到高清。

这些工具大多数都集成在剪映、必剪这种国民级 App 里，你不用专门去找。

四、AI 视频和"以前的视频特效"有什么本质区别？

这是普通人最常问的问题之一。

我用一个表来说清楚：

对比项	以前的视频特效（如剪映滤镜、PR 模板）	2026 年的 AI 视频
本质	在"已有画面"上叠加效果	从无到有生成画面
创作起点	必须有素材（拍好的视频/图片）	一句话就能开始，甚至完全没素材
可定制性	有限（只能选预设模板）	几乎无限（你写什么 AI 就尝试什么）
学习曲线	中等（要学软件功能）	极低（会打字就行）
天花板	模板的天花板	AI 的天花板（且每月都在涨）
成本	软件免费/几百元	大多数工具有免费额度，付费几十到几百一个月

最关键的区别是：

以前的视频特效像"美颜相机"——把现实美化一下。
2026 年的 AI 视频像"造梦机"——直接造出现实里没有的东西。

举个例子：

你想做一段"小猫在云端奔跑"的视频。
用以前的特效：你得找一段小猫奔跑的素材，找一段云端的素材，用绿幕/抠图把它们合成在一起，调整光影、调整边缘——熟练的剪辑师要几个小时。
用 2026 年的 AI 视频：你只需要写"一只橘色的小猫在云端奔跑，毛发飘动，阳光从云缝里洒下来"，30 秒后你就有一段完整的视频。

五、AI 视频的"能力边界"——它不是万能的

如果上面那些让你觉得"AI 视频已经无所不能"，请先停一下。它远远不是无所不能。

我老老实实告诉你 2026 年 AI 视频还做不好的事：

5.1 长视频（超过 1 分钟）

主流的文生视频工具，单次生成最长 5–30 秒。Sora 2 Pro 能做到 60 秒。

如果你想做一支 5 分钟的视频，必须把它拆成 10–20 个片段分别生成，再用剪辑工具拼起来——这就有了"前后画面对不上"的问题。

5.2 角色一致性

你今天用 AI 生成一个"红衣小女孩"，明天再生成一段"她的视频"，90% 的概率两次的小女孩长得不一样——脸型、发型、衣服细节都可能变。

2026 年有一些专门的工具（比如 Vidu 的"参考主体功能"、可灵的"角色定制")在解决这件事，但还没到完全稳定的程度。

5.3 手指、眼神、嘴型

AI 视频里的人手，经常多一根手指、少一根手指、手指变形——这是行业通病。

人物特写时的眼神有时候会"飘"或者"呆滞"。

数字人的嘴型，在快速说话时偶尔会"对不上"。

5.4 文字渲染

让 AI 在视频画面里出现"清晰的文字"（比如"招牌上写着'欢迎光临'"）非常难——大概率会变成乱码或扭曲的字符。

5.5 物理规律

水流、火焰、烟雾、玻璃破碎这些复杂物理现象，AI 偶尔会画得不符合物理（水从下往上流、烟雾不散开）。

5.6 精确的镜头控制

你说"镜头先推到主角脸部，停顿 1 秒，再拉远到全景"——AI 可能给你的是一段"乱推乱拉"的镜头。

5.7 复杂剧情

你想做一支"三个人物互相对话"的视频，AI 多半会让画面里的人"对不上号"，谁说什么、谁看谁，都会乱。

六、那 AI 视频最适合做什么？

把"局限"反过来看，AI 视频在这些场景最强：

场景	为什么 AI 视频强
5–15 秒的单镜头氛围画面	单次生成时长内、单镜头无连贯问题
图生视频（让照片动起来）	给了图，AI 不需要凭空想象，可控性最高
数字人口播	不需要复杂动作，只需要"半身在镜头前讲话"，是 AI 数字人的舒适区
AI 配音 + 自动字幕 + 自动剪辑	替代了 90% 的传统剪辑工作，且做得不错
风格化短视频	让平凡素材变成"动画风/油画风/赛博朋克风"
批量产出短视频	AI 不累，可以一天产出几十支视频

反过来说，下面这些事 2026 年的 AI 视频还干不好：

拍一支真实感的婚礼现场记录（实拍依然不可替代）。
一支 5 分钟的连贯剧情短片（连贯性还不够）。
一支需要严格还原历史/真人的纪录片（细节会失真）。
一支需要复杂打斗动作的武侠短片（动作连贯性差）。

七、为什么 AI 视频"突然"就行了？

你可能好奇：AI 已经火了好多年，为什么"AI 视频"是最近 2 年才突然行的？

我用大白话说，背后有三个原因：

7.1 算力够了

视频比文字、图片复杂得多——一段 5 秒的视频，相当于 150 张图片连起来（30 帧/秒）。

要让 AI "凭空画"出 150 张连贯的图片，需要的算力是"画一张图"的几百倍。直到 2024 年前后，全球的算力（主要是英伟达 H100/B200 这些高端 AI 芯片）才足够支撑这件事在工程上跑起来。

7.2 数据够了

AI 是"看了大量视频学会怎么画视频"的。

互联网上的视频内容（YouTube、TikTok、抖音、B 站）这十年来积累了天文数字级别的数据。AI 公司用这些数据（合规的部分）来训练，慢慢让 AI 学会了"什么是一段合理的视频"。

7.3 模型架构突破

2023–2024 年，"扩散模型"（Diffusion Model）和"DiT 架构"（Diffusion Transformer）的一系列突破，让 AI 真正能画出"时间上连贯"的视频。

这些技术名词你不需要懂——你只需要知道：2024 年开始，AI 视频从"实验室玩具"变成了"可以用的工具"，2026 年已经变成了"普通人触手可及的工具"。

八、跟我做：花 2 分钟感受一下"AI 视频"是怎么回事

不需要安装任何东西。打开你手机的浏览器（或者电脑浏览器），跟着做：

步骤 1：访问"即梦"

手机：搜"即梦"App，下载安装；或者浏览器打开 jimeng.jianying.com。
电脑浏览器：直接打开 jimeng.jianying.com。

提示：即梦是字节跳动出品，国内免费可用、不需要 VPN、有大量免费额度。本书第二章会讲为什么我们入门首推它。

步骤 2：登录

用抖音/字节账号一键登录。没有账号的话，手机号注册即可。

步骤 3：找到"AI 视频"入口

在首页找到"AI 视频"或"视频生成"按钮，点进去。

步骤 4：粘贴这一句话作为提示词

一只橘色的小猫坐在窗台上，看着窗外飘落的樱花，午后阳光温暖，镜头缓慢推进，画面温馨。

步骤 5：点"生成"，等 30–60 秒

不要催，AI 在认真画。

步骤 6：看结果

你会看到一段 5 秒的视频——一只橘色的小猫真的坐在窗台上，外面真的有樱花在飘。这段视频在 30 秒前还不存在，是 AI 凭你这一句话"画"出来的。

恭喜你，你刚刚体验了"文生视频"的全流程。

九、本章小抄

AI 视频不是单一工具，是两大类的统称：
- 第一类：用 AI 生成画面——文生视频、图生视频、视频生视频。
- 第二类：用 AI 处理视频——AI 数字人、AI 配音、AI 剪辑、AI 字幕、AI 翻译、AI 封面等。
三种"生成画面"的方式：
- 文生视频：一句话 → 一段视频（最魔幻）。
- 图生视频：一张图 → 让它动起来（最实用）。
- 视频生视频：一段视频 → 换个风格（最进阶）。
AI 视频和传统特效的本质区别：传统特效是"叠加效果"，AI 视频是"从无到有生成"。
2026 年 AI 视频做得好的事：5–15 秒单镜头、图生视频、数字人口播、AI 配音字幕、风格化短视频、批量产出。
AI 视频还做不好的事：长视频、角色一致性、手指眼神、文字渲染、复杂剧情、精确镜头控制。
新手起步建议：从"图生视频"+"AI 数字人"+"AI 配音 + 一键剪辑"四样开始，覆盖 80% 的普通人需求。

5 分钟动手实验

打开即梦，按"跟我做"的步骤生成你人生中第一支 AI 视频。
把生成的视频下载下来。
把视频发到自己的微信"文件传输助手"或者"我的相册"。
把这一段视频发给一个完全没接触过 AI 视频的朋友/家人，问他们："你猜这是怎么做的？"
看看他们的反应——这就是你接下来要"传播"AI 视频能力给他们的起点。

下一章：第二章 2026 年 AI 视频工具全景图——告诉你国内外 30+ 个 AI 视频工具谁是谁、哪个适合你。

第一章 AI 视频到底是什么——用大白话讲清楚

一、先把"AI 视频"四个字拆开

二、第一类：用 AI 直接"生成"画面

2.1 文生视频（Text-to-Video）

2.2 图生视频（Image-to-Video）

2.3 视频生视频（Video-to-Video）

2.4 这三种用哪个？

三、第二类：用 AI 替你完成"传统视频制作"的工作

3.1 AI 数字人（AI Avatar / Digital Human）

3.2 AI 配音（AI Voice / TTS）

3.3 AI 剪辑（AI Auto-Editing）

3.4 AI 字幕、AI 翻译、AI 封面、AI 选题

四、AI 视频和"以前的视频特效"有什么本质区别？

五、AI 视频的"能力边界"——它不是万能的

5.1 长视频（超过 1 分钟）

5.2 角色一致性

5.3 手指、眼神、嘴型

5.4 文字渲染

5.5 物理规律

5.6 精确的镜头控制

5.7 复杂剧情

六、那 AI 视频最适合做什么？

七、为什么 AI 视频"突然"就行了？

7.1 算力够了

7.2 数据够了

7.3 模型架构突破

八、跟我做：花 2 分钟感受一下"AI 视频"是怎么回事

步骤 1：访问"即梦"

步骤 2：登录

步骤 3：找到"AI 视频"入口

步骤 4：粘贴这一句话作为提示词

步骤 5：点"生成"，等 30–60 秒

步骤 6：看结果

九、本章小抄

5 分钟动手实验