一、三个真实的小故事
故事一:一支让奶奶哭了的"金婚纪念视频"
小张今年 32 岁,在杭州一家互联网公司做产品经理。他爷爷今年 78 岁,奶奶 76 岁,2026 年是他们结婚 50 周年。
按照老家的习俗,金婚要办一场宴席。爷爷奶奶住在皖北小县城,亲戚多、热闹大。家里人提议:要不在宴席上放一段视频,把爷爷奶奶这 50 年的故事讲一讲?
提议很美好,落地很难。
小张一个外甥学过几天剪辑,给亲戚们说:"你们把照片都给我,我用剪映拼一下就行。"结果大家翻箱倒柜找出来 200 多张照片——黑白的、泛黄的、变形的、和别人重叠的、有的只能看见半个脑袋。最早的几张是爷爷奶奶 1976 年的结婚照,奶奶穿着的确良衬衫,爷爷穿着中山装,脸上是那个年代才有的腼腆。
外甥把照片一张张拼到剪映里,配了一首《时间都去哪儿了》,做出来 5 分钟的视频。家里人看了一遍,点头说"挺好的",但其实大家都知道——这就是一段照片幻灯片,背景音乐而已,没什么"故事"。
小张不甘心。他在公司接触过一点 AI,知道 2024 年 Sora 横空出世后,"AI 视频"这件事已经完全不一样了。但他自己也没真做过。那个周末,他花了一整个下午,做了三件事:
第一件事:他把 200 多张老照片里挑出 30 张最有故事感的,传到一个叫"即梦"的 AI 工具,让它把每张静态照片变成一段 3 秒的"会动的视频"——奶奶在 1976 年那张照片里腼腆地笑了一下、爷爷在田头干活的照片里抹了一把汗、80 年代抱着小孩的照片里那个孩子(他爸爸)伸手要去抓相机镜头。每张老照片"复活"了一个微小的瞬间。
第二件事:他把家里老人讲的故事("那年咱村发大水""我跟你奶第一次见面是在公社的供销社""你大伯出生那年我去广东打工")整理成 8 段 30 秒的旁白,用一个叫"剪映"的工具里的"AI 配音",挑了一个像主持人一样的男声朗读。
第三件事:他用一个叫"豆包"的 AI 写好脚本,让爷爷奶奶在视频里"亲口"说一段话——其实是用 AI 数字人,把爷爷奶奶各自的一张照片 + 一段录音 + 一段文字稿,合成出"两个人对着镜头讲'我们这一辈子'"的画面。
宴席当天,大屏幕一打开,全场 80 多个亲戚没几个人没掉眼泪。小张奶奶看完,拉着他的手说:"小张你怎么把那些老相片都弄'活'了?我都忘了那年我还笑得那么好看。"
后来小张跟我说:
"我到那一刻才明白,AI 视频不是给抖音网红玩的,是给我们这种普通人用来'把回忆做成礼物'的。"
故事二:抖音 50 万粉的"退休英语老师"
李老师今年 64 岁,去年从一个三线城市的中学退休。退休前她是英语高级教师,教了 38 年英语,带过 11 届高三。
退休后她有点闲不住。儿子在外地工作,老伴儿喜欢钓鱼跟一帮老头瞎转悠,她一个人在家不知道干嘛。她想过去老年大学教英语,但人家说要本子要档案要面试,麻烦。
她有一天刷到一个抖音视频,是一个三十多岁的女老师讲"高考英语作文怎么开头",下面评论区一片"老师我家孩子高三在哪能找到您"。她心想:这个我懂啊。
但是她不会做视频。
她不会拍摄(家里光线不好、镜头不会摆),不会出镜(觉得自己脸上皱纹多、不上镜),不会剪辑(剪映装了卸卸了装五六次都没搞明白),不会写脚本(自己讲课是张嘴就来,对着镜头反而紧张)。
她去问儿子。儿子在北京做互联网,给她发了一段 5 分钟的语音:
"妈,你现在有三件事可以做。第一,你打开剪映,里面有个'AI 数字人'功能,你拍一张你的正面照,再读 1 分钟的话录下来,AI 就能给你做一个'数字人版的你',让她替你出镜。第二,你把你想讲的内容,先用语音说给豆包听,让豆包帮你整理成正经的脚本。第三,你把脚本贴回剪映,让 AI 数字人念出来,自动加字幕、自动配 BGM,5 分钟就能做完一个视频。你试试。"
李老师试了。第一支视频她做了整整 6 个小时——光是 AI 数字人的口型对得不齐、声音太呆板,她改了 8 次。但发出去之后,半天涨了 200 个粉。她兴奋得跟儿子打电话:"抖音真的能给我推流啊!"
接下来三个月,她稳定每天发 1–2 支视频,主题都是"高中英语单词记忆""英语作文模板""家长怎么辅导孩子英语"。半年后,账号涨到了 50 万粉。她现在每个月接 2–3 个广告,加平台分成,收入比退休工资还高一倍。
她最近跟我说:
"我教了一辈子学,没想到退休了反而教得更多了。AI 数字人是替我'出镜',但讲的是我 38 年的真本事。这事儿我就是没碰对工具。"
故事三:用 AI "复活"去世父亲的设计师
阿喻今年 35 岁,在上海做平面设计师。她父亲在她 28 岁那年因为肝癌去世,去世时 58 岁。
父亲生前是个寡言的人,话不多,照片也不多。阿喻手机里存着的视频,加起来不超过 5 分钟——大多是过年时家人随手拍的几个片段,父亲在镜头里也总是别过脸去,不爱被拍。
去世 7 年后,2026 年清明,阿喻想给父亲做点什么。
她在网上看到一个故事:有个女孩用 AI 把已故母亲的几张照片做成了一段会动的视频,让母亲在视频里对着镜头说"宝贝,妈妈很想你"。评论区有人说"这是数字招魂"、"不应该这么干",但更多人说"如果能见我妈一面我什么都愿意"。
阿喻犹豫了三个月。
她跟心理咨询师聊了三次。咨询师说:"你不是想'复活'你爸,你是想给自己一个'说我没说过的话'的机会。这是健康的哀伤工作,前提是你别沉迷在'他还活着'的幻觉里。"
她做了三件事:
第一件事:她把父亲生前最清晰的一张正脸照片传到一个叫 Hedra 的 AI 数字人工具,让 AI 根据照片"生成"一个会眨眼、会微笑、会嘴动的视频。她又上传了一段父亲生前的语音(在她 18 岁生日那年的一段微信语音,父亲说了一句"闺女生日快乐,爸爸爱你"),用 AI 克隆出了父亲的声音。
第二件事:她写了一封长信,是她想对父亲说的话——这 7 年的工作、感情、孤独、原谅。她把信整理成了 3 分钟的"父亲的回信"——也就是她想象中父亲会回她的话。她用 AI 把这段文字用父亲的声音念了出来,配上数字人的画面。
第三件事:她把这段 3 分钟的视频放进自己手机里,没有发给任何人。
清明那天,她在墓前看了一遍。她说她哭了一个小时,但走出墓园的时候,比这 7 年里任何一次清明都轻松。
她跟我说:
"我知道那个不是我爸。但我借助 AI,把一句'我现在过得挺好的,您放心'真的'说'给他听了一遍。这件事如果没有 AI 视频,我这辈子都做不到。"
二、这三个故事的共同点
仔细想一想,小张、李老师、阿喻,他们三个的共同点是什么?
第一,他们都不是"专业视频人"。 一个 32 岁的产品经理、一个 64 岁的退休教师、一个 35 岁的设计师,他们都不是导演、不是摄像师、不是剪辑师,甚至连"视频博主"都算不上。
第二,他们解决的都是"看似很私人,但很真实"的问题。 不是"用 AI 视频做爆款"、不是"用 AI 视频赚 100 万",而是给爷爷奶奶做一支金婚视频、把退休后的本事变成持续输出、给已故的父亲说一句没说出口的话。这些"小事",在他们各自的生活里,重要得不得了。
第三,他们用 AI 视频解决问题的方式,没有任何"门槛"。 就是打开几个 App,把素材(照片、文字、录音)放进去,让 AI 去做。
第四,他们用之前都"不知道 AI 视频能干这种事"。 小张以为 AI 视频是给抖音网红玩的、李老师从来没想过自己 64 岁还能做视频、阿喻甚至担心"用 AI 复活逝者"是不是不道德。
这就是这本书要解决的核心问题:
普通人和 AI 视频之间隔的,不是"技术鸿沟",而是"认知鸿沟"——
你不知道它能为你做什么,你就不会去试它;
你不知道该怎么用,试了也得不到好结果;
得不到好结果,你就更不愿意试。
这是一个恶性循环。
我们要做的事情,就是把这个循环掰开。
三、为什么是"现在"——AI 视频已经不是 2 年前的 AI 视频了
你可能听过"AI 视频"这个词。
可能是 2024 年初,你刷到了那个"东京街头雨夜"的 Sora 演示视频,惊艳了一下,然后觉得"这跟我没关系"。可能是 2024 年下半年,你在抖音刷到一些"完全用 AI 做出来的科幻短片",觉得很神奇,但是"那是搞特效的人玩的"。可能是 2025 年,你听同事说"现在剪映里有个 AI 数字人,特别好用",但你没去研究。
如果你的认知还停留在 2024 年,那你错过的不是一个新功能,是整整一个时代。
打个比方:
| 时间 | AI 视频是什么 |
|---|---|
| 2022 年之前 | 几乎不存在。Pika 还没发布,Runway 只能做几秒钟的特效。 |
| 2023 年 | 首批工具诞生(Pika、Runway Gen-2)。能生成几秒钟视频,但画质模糊、动作鬼畜,主要是技术圈玩具。 |
| 2024 年 | Sora 演示震撼世界,可灵、即梦、Vidu 等国产工具陆续上线。能生成 5–10 秒视频,但物理逻辑、人脸一致性还有大量问题。 |
| 2025 年 | Sora 2、Veo 3、可灵 2.0、即梦 3.0 等"第二代工具"成熟。能生成 10–30 秒视频,开始能生成自带音频的画面。AI 数字人、AI 配音工具大规模普及到剪映等国民级 App。 |
| 2026 年(也就是现在) | AI 视频已经进入"普通人触手可及"阶段:免费工具能稳定出片、剪映里集成的 AI 数字人 5 分钟克隆一个你、AI 配音 1 元钱能做一支完整短视频、抖音/视频号/小红书已经有大量"全 AI 制作"的账号在涨粉变现。 |
今天,2026 年的 AI 视频,和 2 年前的 AI 视频,已经完全是两种东西了。
打个比方:
- 2024 年的 AI 视频,像家里那台只能打字的老式电脑,"能用,但勉强"。
- 2026 年的 AI 视频,像家里突然多了一个电影学院毕业、有 8 年剪辑经验、24 小时在线、什么活都接、一分钱不要的"私人导演 + 摄像师 + 配音员 + 剪辑师"。
如果你的认知还停留在 2024 年之前,那你错过的不只是几个新功能——你错过了一个"普通人也能做出像样视频"的时代。
四、为什么要写这本书——市面上的 AI 视频教程都有什么问题
打开任何一个内容平台,搜"AI 视频教程",你会刷出几万条。但绝大多数 AI 视频教程,对普通人来说有四个致命问题:
问题一:太"技术"
很多 AI 视频教程一上来就讲"什么是扩散模型""什么是 LoRA""什么是 ControlNet"——这些词听完,普通人只想关掉页面。
普通人不需要知道 AI 视频是怎么造出来的,就像普通人开车不需要知道发动机是怎么造出来的一样。
问题二:太"产品"
很多 AI 视频教程是某个产品的"使用说明书"——专讲 Sora 的、专讲可灵的、专讲剪映的。每个工具都有自己的快捷键、自己的入口、自己的功能边界。
但 AI 视频工具更迭飞快——你今天学会的"可灵 1.6 怎么用",三个月后可能就过时了,因为已经出了可灵 2.0、可灵 3.0。
真正应该学的,是"怎么和 AI 视频工具沟通"这件事——也就是怎么写提示词、怎么用镜头语言、怎么搭工作流。这个能力,换什么工具都不会过期。
问题三:太"高端"
很多 AI 视频教程默认你要做"AI 视频副业"、"AI 视频变现"、"AI 视频创业"。一上来就教你怎么做"日入 3000 的 AI 矩阵号"、怎么"3 个月做到 100 万粉"。
但 99% 的普通人,并不打算靠 AI 视频赚钱。他们只想:
- 做一支家人的回忆视频:能不能让 AI 帮我把这些老照片做成一支有故事的视频?
- 给自家小店做宣传:能不能让 AI 帮我用 1 张图做出一支朋友圈推广视频?
- 替代不会拍的部分:我有内容但不想出镜、不会剪辑、不会配音,AI 能不能替我做?
- 少点学习成本:能不能让我不学剪映那一堆功能,AI 直接给我一键搞定?
- 照顾家人:爸妈的金婚、孩子的成长、宠物的日常,能不能不那么草率地记录?
这本书就是为这些"小目标"写的。当然,如果你想做副业、做矩阵、做变现,这本书后面也有专门的章节。
问题四:太"碎片"
很多 AI 视频教程是"今天教你 1 个炸裂的提示词""明天教你 1 个隐藏的 AI 工具"——零散、跳跃、不成体系。
读完 100 条这种内容,你脑子里依然是一团浆糊,不知道什么时候该用哪个工具、提示词到底怎么写、做出来的视频为什么和别人差那么远。
这本书要做的事,就是从"AI 视频是什么"开始,一层层往上盖,最后给你一个完整的、能立刻用起来的 AI 视频知识体系。
五、AI 视频早就变了,你可能还没换思路
你可能已经在剪映里见过"AI 一键成片"、"AI 数字人"、"AI 配音"这些功能,甚至点开过一两次。
但你可能依然觉得"AI 视频"就是"用 AI 帮我把素材拼一拼",就像你以前用美图秀秀给照片"加滤镜"一样。
这是错的。
2026 年的 AI 视频,能做的事情早已不是"加滤镜"或者"拼素材",而是直接从无到有生成你脑子里想象的画面。
举几个最简单的对比:
| 你想做的事 | 2 年前的做法 | 2026 年 AI 视频的做法 |
|---|---|---|
| 给一段文字配上一段宣传视频 | 找素材网站买素材、自己拍、自己剪,需要会剪辑、有镜头库 | 把文字给 AI,5 分钟出 3 个版本,不满意继续改 |
| 给爷爷奶奶做一段会动的纪念视频 | 不可能,你只有几张老照片,不可能"复活"到能动 | 上传老照片,AI 直接让爷爷奶奶在画面里"动起来",可微笑、可眨眼、可转头 |
| 我不想出镜,但想做口播视频 | 雇人出镜、找素人、自己硬着头皮上 | 用 AI 数字人替你出镜,可选男女、风格、年龄,5 分钟做出来 |
| 普通话不标准,但想做配音 | 自己一句句录、找配音网站 50 元一分钟、找配音演员几百一分钟 | AI 配音,1 元能做一支完整短视频,几十种音色任选,国语方言英文都行 |
| 给自家产品拍一段广告 | 找拍摄团队,几千到几万一支 | 自己拍 1 张产品照,AI 把它"动起来",配上 AI 写的文案 + AI 配音 |
| 自己拍的素材剪成成片 | 学剪映 30 个功能,剪 8 小时 | "AI 一键成片"功能 30 秒生成初版,自己稍微改一下就能发 |
| 中文视频要发 YouTube 或 TikTok 国际版 | 找翻译、找配音演员、自己重剪一遍 | AI 翻译 + AI 配音 + AI 改字幕,5 分钟出英文版 |
| 想做爆款短视频但没灵感 | 翻 100 个同行视频找选题 | 让 AI 帮你分析爆款规律,给你 10 个选题方向 |
差别不是"快一点",差别是"完全不一样的事"。
这本书要做的,就是带你跨过这条线——从"以为 AI 视频就是拼素材",跨到"知道 AI 视频可以从无到有生成画面"。
六、读完这本书你会变成什么样
读完整本书,并且跟着做完里面的练习,你会变成:
- 一个能独立做出像样视频的人——不论是给家人的纪念视频、给小店的宣传视频,还是给自媒体的内容视频。
- 一个会写视频提示词的人——能让 AI 稳定地生成你想要的画面,而不是"碰运气"。
- 一个会用 AI 替自己干活的人——不会出镜?让数字人替你;不会配音?让 AI 配音替你;不会剪辑?让 AI 一键成片替你。
- 一个能搭出完整工作流的人——豆包出脚本 + 即梦出画面 + 剪映出成品 + 一键多平台分发,整套链路自己跑通。
- 一个能教爸妈/家人也用起来的人——你能告诉 60 岁的妈妈"用剪映 AI 做支生日祝福",她能跟着你做出来。
- 一个不再"AI 视频焦虑"的人——你知道 AI 视频能做什么、不能做什么、什么场景该用什么工具。
- 如果你愿意更进一步,一个能用 AI 视频做内容、做矩阵、做变现的人——本书第十、十一、十三章会专门讲这个。
这些不是夸张,这些是只要你跟着这本书做完所有练习,几乎一定会发生的事。
七、本书的读法
这本书不是给你"读完"的,是给你**"用完"**的。
每一章的结构都是:
- 30 秒导读——这一章在解决什么问题、做完会得到什么。
- 故事/类比开场——把抽象的概念讲成你身边的事。
- 核心讲解——把这一章要讲的东西讲清楚。
- 跟我做(含可复制提示词/操作步骤)——所有的提示词都给完整版,你直接复制就能用。
- 对照表——错误做法 vs 正确做法的对照,让你一眼看明白差在哪。
- 5 分钟动手实验——这章最重要的部分。只读不练,等于没读。
- 本章小抄——把这章串成一条线,方便日后翻查。
强烈建议:
- 不要"通读一遍"——你会忘光。
- 至少跑通每章的"5 分钟动手实验"——这是把"知道"变成"会用"的关键一步。
- 遇到不懂的术语,去翻 附录 D 术语表。
- 遇到工具不知道怎么选,去翻 附录 A 工具速查表。
- 遇到提示词不会写,去翻 附录 B 提示词模板。
- 想系统跟着做,去翻 附录 E 30 天打卡计划。
八、最后的话
我写这本书的原因,其实就是开头三个故事。
我见过太多普通人,在 AI 视频这个赛道上因为认知鸿沟错过了好工具——他们不是用不了,是不知道有这种工具、不知道这种工具能为他们做什么。
我也见过一些"AI 视频博主"打着"教你做 AI 视频"的旗号,把"5 分钟能学会的事"切成"30 节课卖 999"。
我希望这本书能让你:
- 省掉 999——这本书你免费看。
- 省掉 30 节课——这本书 17 章你 3 周能看完。
- 省掉 3 个月的迷茫——这本书第一章就告诉你 AI 视频是什么、第二章就告诉你该选哪个工具、第三章就让你做出第一支视频。
- 省掉对"AI 视频"的恐惧和神化——AI 视频就是个工具,工具用好了,能让你这个普通人做出 2 年前你想都不敢想的事。
接下来,请翻开 第一章 AI 视频到底是什么。
我们一起开始。
本章小抄
- AI 视频不是"AI 解说"也不是"剪映特效",是"AI 直接生成或大幅自动化制作"视频内容的一整套工具。
- 2026 年的 AI 视频已经能让普通人做出 2 年前想都不敢想的事——纪念视频、口播视频、商业宣传、副业变现。
- 普通人和 AI 视频之间隔的不是"技术鸿沟",而是"认知鸿沟"。
- 这本书是带你跨过这条认知鸿沟的实战手册。
- 阅读建议:跟着做、做"5 分钟动手实验"、遇到问题翻附录。