序言 · AI 视频橙皮书

一、三个真实的小故事

故事一：一支让奶奶哭了的"金婚纪念视频"

小张今年 32 岁，在杭州一家互联网公司做产品经理。他爷爷今年 78 岁，奶奶 76 岁，2026 年是他们结婚 50 周年。

按照老家的习俗，金婚要办一场宴席。爷爷奶奶住在皖北小县城，亲戚多、热闹大。家里人提议：要不在宴席上放一段视频，把爷爷奶奶这 50 年的故事讲一讲？

提议很美好，落地很难。

小张一个外甥学过几天剪辑，给亲戚们说："你们把照片都给我，我用剪映拼一下就行。"结果大家翻箱倒柜找出来 200 多张照片——黑白的、泛黄的、变形的、和别人重叠的、有的只能看见半个脑袋。最早的几张是爷爷奶奶 1976 年的结婚照，奶奶穿着的确良衬衫，爷爷穿着中山装，脸上是那个年代才有的腼腆。

外甥把照片一张张拼到剪映里，配了一首《时间都去哪儿了》，做出来 5 分钟的视频。家里人看了一遍，点头说"挺好的"，但其实大家都知道——这就是一段照片幻灯片，背景音乐而已，没什么"故事"。

小张不甘心。他在公司接触过一点 AI，知道 2024 年 Sora 横空出世后，"AI 视频"这件事已经完全不一样了。但他自己也没真做过。那个周末，他花了一整个下午，做了三件事：

第一件事：他把 200 多张老照片里挑出 30 张最有故事感的，传到一个叫"即梦"的 AI 工具，让它把每张静态照片变成一段 3 秒的"会动的视频"——奶奶在 1976 年那张照片里腼腆地笑了一下、爷爷在田头干活的照片里抹了一把汗、80 年代抱着小孩的照片里那个孩子（他爸爸）伸手要去抓相机镜头。每张老照片"复活"了一个微小的瞬间。

第二件事：他把家里老人讲的故事（"那年咱村发大水""我跟你奶第一次见面是在公社的供销社""你大伯出生那年我去广东打工"）整理成 8 段 30 秒的旁白，用一个叫"剪映"的工具里的"AI 配音"，挑了一个像主持人一样的男声朗读。

第三件事：他用一个叫"豆包"的 AI 写好脚本，让爷爷奶奶在视频里"亲口"说一段话——其实是用 AI 数字人，把爷爷奶奶各自的一张照片 + 一段录音 + 一段文字稿，合成出"两个人对着镜头讲'我们这一辈子'"的画面。

宴席当天，大屏幕一打开，全场 80 多个亲戚没几个人没掉眼泪。小张奶奶看完，拉着他的手说："小张你怎么把那些老相片都弄'活'了？我都忘了那年我还笑得那么好看。"

后来小张跟我说：

"我到那一刻才明白，AI 视频不是给抖音网红玩的，是给我们这种普通人用来'把回忆做成礼物'的。"

故事二：抖音 50 万粉的"退休英语老师"

李老师今年 64 岁，去年从一个三线城市的中学退休。退休前她是英语高级教师，教了 38 年英语，带过 11 届高三。

退休后她有点闲不住。儿子在外地工作，老伴儿喜欢钓鱼跟一帮老头瞎转悠，她一个人在家不知道干嘛。她想过去老年大学教英语，但人家说要本子要档案要面试，麻烦。

她有一天刷到一个抖音视频，是一个三十多岁的女老师讲"高考英语作文怎么开头"，下面评论区一片"老师我家孩子高三在哪能找到您"。她心想：这个我懂啊。

但是她不会做视频。

她不会拍摄（家里光线不好、镜头不会摆），不会出镜（觉得自己脸上皱纹多、不上镜），不会剪辑（剪映装了卸卸了装五六次都没搞明白），不会写脚本（自己讲课是张嘴就来，对着镜头反而紧张）。

她去问儿子。儿子在北京做互联网，给她发了一段 5 分钟的语音：

"妈，你现在有三件事可以做。第一，你打开剪映，里面有个'AI 数字人'功能，你拍一张你的正面照，再读 1 分钟的话录下来，AI 就能给你做一个'数字人版的你'，让她替你出镜。第二，你把你想讲的内容，先用语音说给豆包听，让豆包帮你整理成正经的脚本。第三，你把脚本贴回剪映，让 AI 数字人念出来，自动加字幕、自动配 BGM，5 分钟就能做完一个视频。你试试。"

李老师试了。第一支视频她做了整整 6 个小时——光是 AI 数字人的口型对得不齐、声音太呆板，她改了 8 次。但发出去之后，半天涨了 200 个粉。她兴奋得跟儿子打电话："抖音真的能给我推流啊！"

接下来三个月，她稳定每天发 1–2 支视频，主题都是"高中英语单词记忆""英语作文模板""家长怎么辅导孩子英语"。半年后，账号涨到了 50 万粉。她现在每个月接 2–3 个广告，加平台分成，收入比退休工资还高一倍。

她最近跟我说：

"我教了一辈子学，没想到退休了反而教得更多了。AI 数字人是替我'出镜'，但讲的是我 38 年的真本事。这事儿我就是没碰对工具。"

故事三：用 AI "复活"去世父亲的设计师

阿喻今年 35 岁，在上海做平面设计师。她父亲在她 28 岁那年因为肝癌去世，去世时 58 岁。

父亲生前是个寡言的人，话不多，照片也不多。阿喻手机里存着的视频，加起来不超过 5 分钟——大多是过年时家人随手拍的几个片段，父亲在镜头里也总是别过脸去，不爱被拍。

去世 7 年后，2026 年清明，阿喻想给父亲做点什么。

她在网上看到一个故事：有个女孩用 AI 把已故母亲的几张照片做成了一段会动的视频，让母亲在视频里对着镜头说"宝贝，妈妈很想你"。评论区有人说"这是数字招魂"、"不应该这么干"，但更多人说"如果能见我妈一面我什么都愿意"。

阿喻犹豫了三个月。

她跟心理咨询师聊了三次。咨询师说："你不是想'复活'你爸，你是想给自己一个'说我没说过的话'的机会。这是健康的哀伤工作，前提是你别沉迷在'他还活着'的幻觉里。"

她做了三件事：

第一件事：她把父亲生前最清晰的一张正脸照片传到一个叫 Hedra 的 AI 数字人工具，让 AI 根据照片"生成"一个会眨眼、会微笑、会嘴动的视频。她又上传了一段父亲生前的语音（在她 18 岁生日那年的一段微信语音，父亲说了一句"闺女生日快乐，爸爸爱你"），用 AI 克隆出了父亲的声音。

第二件事：她写了一封长信，是她想对父亲说的话——这 7 年的工作、感情、孤独、原谅。她把信整理成了 3 分钟的"父亲的回信"——也就是她想象中父亲会回她的话。她用 AI 把这段文字用父亲的声音念了出来，配上数字人的画面。

第三件事：她把这段 3 分钟的视频放进自己手机里，没有发给任何人。

清明那天，她在墓前看了一遍。她说她哭了一个小时，但走出墓园的时候，比这 7 年里任何一次清明都轻松。

她跟我说：

"我知道那个不是我爸。但我借助 AI，把一句'我现在过得挺好的，您放心'真的'说'给他听了一遍。这件事如果没有 AI 视频，我这辈子都做不到。"

二、这三个故事的共同点

仔细想一想，小张、李老师、阿喻，他们三个的共同点是什么？

第一，他们都不是"专业视频人"。 一个 32 岁的产品经理、一个 64 岁的退休教师、一个 35 岁的设计师，他们都不是导演、不是摄像师、不是剪辑师，甚至连"视频博主"都算不上。

第二，他们解决的都是"看似很私人，但很真实"的问题。 不是"用 AI 视频做爆款"、不是"用 AI 视频赚 100 万"，而是给爷爷奶奶做一支金婚视频、把退休后的本事变成持续输出、给已故的父亲说一句没说出口的话。这些"小事"，在他们各自的生活里，重要得不得了。

第三，他们用 AI 视频解决问题的方式，没有任何"门槛"。 就是打开几个 App，把素材（照片、文字、录音）放进去，让 AI 去做。

第四，他们用之前都"不知道 AI 视频能干这种事"。 小张以为 AI 视频是给抖音网红玩的、李老师从来没想过自己 64 岁还能做视频、阿喻甚至担心"用 AI 复活逝者"是不是不道德。

这就是这本书要解决的核心问题：

普通人和 AI 视频之间隔的，不是"技术鸿沟"，而是"认知鸿沟"——

你不知道它能为你做什么，你就不会去试它；

你不知道该怎么用，试了也得不到好结果；

得不到好结果，你就更不愿意试。

这是一个恶性循环。

我们要做的事情，就是把这个循环掰开。

三、为什么是"现在"——AI 视频已经不是 2 年前的 AI 视频了

你可能听过"AI 视频"这个词。

可能是 2024 年初，你刷到了那个"东京街头雨夜"的 Sora 演示视频，惊艳了一下，然后觉得"这跟我没关系"。可能是 2024 年下半年，你在抖音刷到一些"完全用 AI 做出来的科幻短片"，觉得很神奇，但是"那是搞特效的人玩的"。可能是 2025 年，你听同事说"现在剪映里有个 AI 数字人，特别好用"，但你没去研究。

如果你的认知还停留在 2024 年，那你错过的不是一个新功能，是整整一个时代。

打个比方：

时间	AI 视频是什么
2022 年之前	几乎不存在。Pika 还没发布，Runway 只能做几秒钟的特效。
2023 年	首批工具诞生（Pika、Runway Gen-2）。能生成几秒钟视频，但画质模糊、动作鬼畜，主要是技术圈玩具。
2024 年	Sora 演示震撼世界，可灵、即梦、Vidu 等国产工具陆续上线。能生成 5–10 秒视频，但物理逻辑、人脸一致性还有大量问题。
2025 年	Sora 2、Veo 3、可灵 2.0、即梦 3.0 等"第二代工具"成熟。能生成 10–30 秒视频，开始能生成自带音频的画面。AI 数字人、AI 配音工具大规模普及到剪映等国民级 App。
2026 年（也就是现在）	AI 视频已经进入"普通人触手可及"阶段：免费工具能稳定出片、剪映里集成的 AI 数字人 5 分钟克隆一个你、AI 配音 1 元钱能做一支完整短视频、抖音/视频号/小红书已经有大量"全 AI 制作"的账号在涨粉变现。

今天，2026 年的 AI 视频，和 2 年前的 AI 视频，已经完全是两种东西了。

打个比方：

2024 年的 AI 视频，像家里那台只能打字的老式电脑，"能用，但勉强"。
2026 年的 AI 视频，像家里突然多了一个电影学院毕业、有 8 年剪辑经验、24 小时在线、什么活都接、一分钱不要的"私人导演 + 摄像师 + 配音员 + 剪辑师"。

如果你的认知还停留在 2024 年之前，那你错过的不只是几个新功能——你错过了一个"普通人也能做出像样视频"的时代。

四、为什么要写这本书——市面上的 AI 视频教程都有什么问题

打开任何一个内容平台，搜"AI 视频教程"，你会刷出几万条。但绝大多数 AI 视频教程，对普通人来说有四个致命问题：

问题一：太"技术"

很多 AI 视频教程一上来就讲"什么是扩散模型""什么是 LoRA""什么是 ControlNet"——这些词听完，普通人只想关掉页面。

普通人不需要知道 AI 视频是怎么造出来的，就像普通人开车不需要知道发动机是怎么造出来的一样。

问题二：太"产品"

很多 AI 视频教程是某个产品的"使用说明书"——专讲 Sora 的、专讲可灵的、专讲剪映的。每个工具都有自己的快捷键、自己的入口、自己的功能边界。

但 AI 视频工具更迭飞快——你今天学会的"可灵 1.6 怎么用"，三个月后可能就过时了，因为已经出了可灵 2.0、可灵 3.0。

真正应该学的，是"怎么和 AI 视频工具沟通"这件事——也就是怎么写提示词、怎么用镜头语言、怎么搭工作流。这个能力，换什么工具都不会过期。

问题三：太"高端"

很多 AI 视频教程默认你要做"AI 视频副业"、"AI 视频变现"、"AI 视频创业"。一上来就教你怎么做"日入 3000 的 AI 矩阵号"、怎么"3 个月做到 100 万粉"。

但 99% 的普通人，并不打算靠 AI 视频赚钱。他们只想：

做一支家人的回忆视频：能不能让 AI 帮我把这些老照片做成一支有故事的视频？
给自家小店做宣传：能不能让 AI 帮我用 1 张图做出一支朋友圈推广视频？
替代不会拍的部分：我有内容但不想出镜、不会剪辑、不会配音，AI 能不能替我做？
少点学习成本：能不能让我不学剪映那一堆功能，AI 直接给我一键搞定？
照顾家人：爸妈的金婚、孩子的成长、宠物的日常，能不能不那么草率地记录？

这本书就是为这些"小目标"写的。当然，如果你想做副业、做矩阵、做变现，这本书后面也有专门的章节。

问题四：太"碎片"

很多 AI 视频教程是"今天教你 1 个炸裂的提示词""明天教你 1 个隐藏的 AI 工具"——零散、跳跃、不成体系。

读完 100 条这种内容，你脑子里依然是一团浆糊，不知道什么时候该用哪个工具、提示词到底怎么写、做出来的视频为什么和别人差那么远。

这本书要做的事，就是从"AI 视频是什么"开始，一层层往上盖，最后给你一个完整的、能立刻用起来的 AI 视频知识体系。

五、AI 视频早就变了，你可能还没换思路

你可能已经在剪映里见过"AI 一键成片"、"AI 数字人"、"AI 配音"这些功能，甚至点开过一两次。

但你可能依然觉得"AI 视频"就是"用 AI 帮我把素材拼一拼"，就像你以前用美图秀秀给照片"加滤镜"一样。

这是错的。

2026 年的 AI 视频，能做的事情早已不是"加滤镜"或者"拼素材"，而是直接从无到有生成你脑子里想象的画面。

举几个最简单的对比：

你想做的事	2 年前的做法	2026 年 AI 视频的做法
给一段文字配上一段宣传视频	找素材网站买素材、自己拍、自己剪，需要会剪辑、有镜头库	把文字给 AI，5 分钟出 3 个版本，不满意继续改
给爷爷奶奶做一段会动的纪念视频	不可能，你只有几张老照片，不可能"复活"到能动	上传老照片，AI 直接让爷爷奶奶在画面里"动起来"，可微笑、可眨眼、可转头
我不想出镜，但想做口播视频	雇人出镜、找素人、自己硬着头皮上	用 AI 数字人替你出镜，可选男女、风格、年龄，5 分钟做出来
普通话不标准，但想做配音	自己一句句录、找配音网站 50 元一分钟、找配音演员几百一分钟	AI 配音，1 元能做一支完整短视频，几十种音色任选，国语方言英文都行
给自家产品拍一段广告	找拍摄团队，几千到几万一支	自己拍 1 张产品照，AI 把它"动起来"，配上 AI 写的文案 + AI 配音
自己拍的素材剪成成片	学剪映 30 个功能，剪 8 小时	"AI 一键成片"功能 30 秒生成初版，自己稍微改一下就能发
中文视频要发 YouTube 或 TikTok 国际版	找翻译、找配音演员、自己重剪一遍	AI 翻译 + AI 配音 + AI 改字幕，5 分钟出英文版
想做爆款短视频但没灵感	翻 100 个同行视频找选题	让 AI 帮你分析爆款规律，给你 10 个选题方向

差别不是"快一点"，差别是"完全不一样的事"。

这本书要做的，就是带你跨过这条线——从"以为 AI 视频就是拼素材"，跨到"知道 AI 视频可以从无到有生成画面"。

六、读完这本书你会变成什么样

读完整本书，并且跟着做完里面的练习，你会变成：

一个能独立做出像样视频的人——不论是给家人的纪念视频、给小店的宣传视频，还是给自媒体的内容视频。
一个会写视频提示词的人——能让 AI 稳定地生成你想要的画面，而不是"碰运气"。
一个会用 AI 替自己干活的人——不会出镜？让数字人替你；不会配音？让 AI 配音替你；不会剪辑？让 AI 一键成片替你。
一个能搭出完整工作流的人——豆包出脚本 + 即梦出画面 + 剪映出成品 + 一键多平台分发，整套链路自己跑通。
一个能教爸妈/家人也用起来的人——你能告诉 60 岁的妈妈"用剪映 AI 做支生日祝福"，她能跟着你做出来。
一个不再"AI 视频焦虑"的人——你知道 AI 视频能做什么、不能做什么、什么场景该用什么工具。
如果你愿意更进一步，一个能用 AI 视频做内容、做矩阵、做变现的人——本书第十、十一、十三章会专门讲这个。

这些不是夸张，这些是只要你跟着这本书做完所有练习，几乎一定会发生的事。

七、本书的读法

这本书不是给你"读完"的，是给你**"用完"**的。

每一章的结构都是：

30 秒导读——这一章在解决什么问题、做完会得到什么。
故事/类比开场——把抽象的概念讲成你身边的事。
核心讲解——把这一章要讲的东西讲清楚。
跟我做（含可复制提示词/操作步骤）——所有的提示词都给完整版，你直接复制就能用。
对照表——错误做法 vs 正确做法的对照，让你一眼看明白差在哪。
5 分钟动手实验——这章最重要的部分。只读不练，等于没读。
本章小抄——把这章串成一条线，方便日后翻查。

强烈建议：

不要"通读一遍"——你会忘光。
至少跑通每章的"5 分钟动手实验"——这是把"知道"变成"会用"的关键一步。
遇到不懂的术语，去翻附录 D 术语表。
遇到工具不知道怎么选，去翻附录 A 工具速查表。
遇到提示词不会写，去翻附录 B 提示词模板。
想系统跟着做，去翻附录 E 30 天打卡计划。

八、最后的话

我写这本书的原因，其实就是开头三个故事。

我见过太多普通人，在 AI 视频这个赛道上因为认知鸿沟错过了好工具——他们不是用不了，是不知道有这种工具、不知道这种工具能为他们做什么。

我也见过一些"AI 视频博主"打着"教你做 AI 视频"的旗号，把"5 分钟能学会的事"切成"30 节课卖 999"。

我希望这本书能让你：

省掉 999——这本书你免费看。
省掉 30 节课——这本书 17 章你 3 周能看完。
省掉 3 个月的迷茫——这本书第一章就告诉你 AI 视频是什么、第二章就告诉你该选哪个工具、第三章就让你做出第一支视频。
省掉对"AI 视频"的恐惧和神化——AI 视频就是个工具，工具用好了，能让你这个普通人做出 2 年前你想都不敢想的事。

接下来，请翻开第一章 AI 视频到底是什么。

我们一起开始。

本章小抄

AI 视频不是"AI 解说"也不是"剪映特效"，是"AI 直接生成或大幅自动化制作"视频内容的一整套工具。
2026 年的 AI 视频已经能让普通人做出 2 年前想都不敢想的事——纪念视频、口播视频、商业宣传、副业变现。
普通人和 AI 视频之间隔的不是"技术鸿沟"，而是"认知鸿沟"。
这本书是带你跨过这条认知鸿沟的实战手册。
阅读建议：跟着做、做"5 分钟动手实验"、遇到问题翻附录。

下一章：第一章 AI 视频到底是什么——用大白话讲清楚