一、为什么"声音"对视频比你想象的更重要
刷抖音时做个小实验:
- 把手机静音,刷 10 条视频。
- 看哪些视频你没声音也能看完。
答案:几乎没有。
研究显示,70% 的短视频用户在嘈杂环境下习惯静音观看——但他们看的是字幕。配音 + 字幕 + 画面 = 完整的视频体验。
只有画面没声音的视频,刷到的人会3 秒滑走。
所以,做 AI 视频,"声音三件套"——AI 配音 + AI 数字人 + AI 字幕——必须掌握。
二、AI 配音:替你"开口"念稿
第二章 简单介绍过 AI 配音工具,这里我们详细讲怎么用。
2.1 三大工具对比
| 工具 | 免费/价格 | 中文 | 英文 | 声音克隆 | 国民推荐度 |
|---|---|---|---|---|---|
| 剪映智能配音 | 免费起,会员 88 元/月 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 部分支持 | 🥇 90% 人首选 |
| 讯飞配音 | 免费试用,30 元/月起 | ⭐⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 支持 | 🥈 长视频/专业 |
| ElevenLabs | 免费 1 万字符,$5/月起 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐⭐ | 🥉 出海/英文 |
2.2 剪映智能配音完整教程(90% 人需要这个)
步骤 1:进入配音
剪映 App / 桌面版 → 新建项目 → 找「文本」→「智能配音」
或:先输入文字 → 把文字框放到时间轴 → 选「文本朗读」
步骤 2:选音色
剪映 2026 版有 80+ 个音色,分类:
| 分类 | 推荐音色 | 适用场景 |
|---|---|---|
| 新闻播报 | 标准男声、标准女声 | 知识口播、新闻 |
| 温馨女声 | 温柔小姐姐、邻家女孩 | 治愈/情感/家庭 |
| 磁性男声 | 醇厚男声、儒雅大叔 | 解说/商务/汽车广告 |
| 活力青年 | 阳光男声、活力女声 | 综艺/年轻向 |
| 童声 | 可爱小男孩、活泼小女孩 | 儿童/动画 |
| 方言 | 粤语、四川话、东北话、河南话 | 地方特色/喜剧 |
| 方言搞笑 | 重庆崽儿、东北大哥 | 段子、搞笑视频 |
| 古风 | 古风女声、说书人 | 古装、解说 |
| 影视 | 影视配音、纪录片 | 解说类长视频 |
| 明星 | (部分付费)类似某明星音色 | 仿冒类视频 |
| 外语 | 英文男女声、日文男女声、韩文 | 出海/语言学习 |
新手建议:
- 知识口播 → "醇厚男声" 或 "标准女声"
- 治愈/亲子 → "温柔小姐姐"
- 搞笑/段子 → 用方言
步骤 3:输入文本
把要"念"的文字复制到文本框。
重点:文本必须是"口语化"的,不能是书面语。
❌ 不好的文本(书面化):
"在当今社会背景下,AI 技术发展迅猛,深刻地影响着我们日常生活的方方面面,每个人都应当未雨绸缪。"
读出来超级别扭。
✅ 好的文本(口语化):
"现在 AI 真的太火了,已经渗透到我们生活的方方面面。每个人都该早点学起来,不然真的会被时代甩开。"
读出来自然流畅。
步骤 4:调整参数
| 参数 | 推荐设置 | 说明 |
|---|---|---|
| 语速 | 1.05x – 1.1x | 比 1.0x 更显精神 |
| 音调 | 默认 | 一般不用调 |
| 音量 | 100% | 后期 BGM 时再调相对值 |
| 情绪 | 根据内容选(开心/悲伤/激动/平静等 12 种) | 2026 版剪映已支持微情绪 |
步骤 5:生成
- 点"生成"。
- 1–3 秒后配音生成完成,自动放到时间轴上。
- 试听一遍,不满意调整文本/音色重新生成。
步骤 6:音画对齐
- 把视频片段拖到时间轴。
- 把配音对齐到视频。
- 视频时长比配音短/长?调整视频时长(裁剪、变速)。
2.3 配音文案 70% 决定成败
很多人 AI 配音听起来"假假的",不是工具不行,是文案不对。
写好配音文案的 5 个原则
原则 1:句子短
❌ "在那个春天的午后阳光温暖的时刻里我和我的妈妈一起在公园散步" ✅ "春天午后,阳光温暖。我和妈妈,一起在公园散步。"
单句不超过 20 字。AI 不会换气,长句听起来累。
原则 2:用口语词
| 书面词 | 口语词 |
|---|---|
| 然而 | 但是 |
| 因此 | 所以 |
| 倘若 | 如果 |
| 即使 | 就算 |
| 从而 | 这样就 |
| 之所以 | 因为 |
| 即便如此 | 就这样 |
原则 3:加语气词(适度)
适度加"嗯""呃""哎""哦""你看"这种语气词,让配音"像人"。
❌ "今天我教大家做一道菜,叫西红柿炒蛋" ✅ "嗨,今天教你做一道家常菜,叫——西红柿炒蛋"
原则 4:用标点控制节奏
| 标点 | 停顿时长 |
|---|---|
逗号 , |
半拍 |
句号 。 |
一拍 |
问号 ? |
一拍 |
感叹号 ! |
一拍 |
省略号 …… |
一拍半 |
破折号 —— |
一拍 |
空格 |
短停顿 |
例子:
"等等。你以为 AI 视频很难?其实——只要 5 分钟。"
加了破折号后,"5 分钟"前面会有一个戏剧性停顿,听感更好。
原则 5:处理多音字
中文里很多字有多个读音,AI 偶尔会读错。
常见多音字陷阱:
| 字 | 错读 | 对的 |
|---|---|---|
| 着 | zháo (着火) | zhe (走着) |
| 行 | xíng (行走) | háng (银行) |
| 数 | shǔ (数数) | shù (数学) |
| 长 | cháng (长江) | zhǎng (生长) |
| 重 | zhòng (重要) | chóng (重复) |
| 朝 | zhāo (朝霞) | cháo (朝代) |
解决方法:
- 改说法:把可能读错的词换成不会读错的同义词。比如"长江"读成"cháng jiāng"是对的,但如果 AI 读错了,改成"长江流域"就基本不会错。
- 用讯飞:讯飞配音支持手动标注拼音,多音字处理国内最强。
- 试听后改:每次生成都要试听,发现错读直接修改文本(比如把"重新"改成"重新(chóng xīn)",或拆成"重 新")。
三、AI 数字人口播:替你"出镜说话"
第十一章 会详细讲数字人,本章先讲基础玩法——用现成数字人念稿。
3.1 剪映免费数字人 5 步搞定
步骤 1:进入数字人
剪映 → 找"AI 数字人"或"数字分身"
步骤 2:选数字人形象
剪映免费数字人有 30+ 个:
| 风格 | 推荐数字人 | 适合场景 |
|---|---|---|
| 知识科普 | "教授男"、"职场女" | 干货分享 |
| 时尚口播 | "都市丽人"、"精致男士" | 美妆、时尚 |
| 亲和邻家 | "邻家姐姐"、"暖男" | 治愈、生活 |
| 商务正式 | "商务男"、"商务女" | 企业宣传 |
| 古风 | "古风男"、"古风女" | 古装解说 |
| 卡通 | 各种 2D/3D 卡通形象 | 趣味、儿童 |
新手建议:选一个和你账号定位匹配的。
步骤 3:输入文本
和 AI 配音一样——口语化、短句、加语气词。
步骤 4:选数字人配音
数字人会自带几个匹配的音色(也可以手动选其他音色)。
步骤 5:生成
- 点"生成"。
- 30 秒–2 分钟后,AI 数字人视频生成完成。
- 视频里这个数字人"她/他"在用 AI 配音念你写的文字,嘴型对齐、表情自然。
3.2 数字人选型对照表
| 你做什么内容 | 推荐数字人风格 |
|---|---|
| 知识科普(财经/历史/科技) | 教授男 / 职场女 |
| 美妆/时尚/穿搭 | 都市丽人 / 时尚博主 |
| 亲子/教育/家长 | 邻家姐姐 / 温柔妈妈 |
| 商业宣传/企业号 | 商务男 / 商务女 |
| 搞笑/段子/方言 | 卡通形象 + 方言配音 |
| 历史/文化/古风 | 古风男 / 古风女 |
| 健康/养生/医疗 | 沉稳大叔 / 知性女士 |
3.3 数字人 vs 真人出镜:什么时候选哪个
| 适合用数字人 | 适合真人出镜 |
|---|---|
| 不想/不能露脸 | 内容靠真人魅力 |
| 普通话不好 | 现场感、即兴感 |
| 需要批量产出 | 需要表情/手势细节 |
| 多语言版本 | 情感真挚(家庭视频) |
| 担心隐私 | 已经有粉丝认你的脸 |
| 长期可复用 | 短期一次性内容 |
新手建议:先用数字人跑通流程,觉得有戏再考虑真人或克隆自己的数字人。
四、AI 字幕:5 秒搞定专业字幕
字幕是短视频的"必需品"。70% 的用户在静音状态刷视频,没字幕你的内容就废了。
4.1 剪映 AI 字幕 4 步上手
步骤 1:进入字幕功能
剪映 → 「文本」→「识别字幕」
步骤 2:选识别源
| 选项 | 用法 |
|---|---|
| 识别音频中的字幕 | 你已经有配音/录音,让 AI 识别 |
| 智能字幕 | AI 根据视频自动加字幕 |
| 手动添加 | 自己一句句输入 |
新手 95% 用第一种——"识别音频中的字幕"。
步骤 3:选语言
中文/英文/日文/韩文⋯⋯支持 20+ 种语言识别。
步骤 4:等 30–60 秒,字幕自动加好
剪映 AI 字幕识别准确率:
- 标准普通话:95–98%
- 带轻微口音:85–95%
- 重口音/方言:60–80%
4.2 字幕样式选择
字幕的"样式"严重影响视频"档次"。
经典样式推荐
| 风格 | 字体 | 颜色 | 大小 | 描边 | 适合场景 |
|---|---|---|---|---|---|
| 标准白字 | 思源黑体 | 白色 + 黑色描边 | 中等 | 有 | 通用 |
| 综艺花字 | 综艺体 | 多色 + 黄色描边 | 大 | 有 | 搞笑/活泼 |
| 电影字幕 | 思源宋体 | 白色 | 中小 | 无 | 文艺/电影感 |
| 小红书风 | 圆体 | 黑色 + 黄色背景 | 中 | 无 | 小红书/年轻向 |
| 科技感 | 等宽字体 | 白色 + 蓝色描边 | 中 | 有 | 科技/数码 |
强烈建议
- 字幕位置在画面下方 1/4 处,不要遮挡主要画面。
- 字号适中,太大显得低端,太小看不清。
- 每行字数控制在 12–16 字,超长就换行。
- 关键字用不同颜色高亮(比如金额、人名、关键词用黄色)。
4.3 错别字怎么办
AI 字幕识别再准,也会有错。常见错误:
- 同音字("在"→"再","做"→"坐")
- 专业术语("AI"识别成"哎","K8s"识别成"K 八 s")
- 网络用语("yyds"识别成"歪歪嘀嘀")
- 人名地名("乔布斯"识别成"乔布斯先生")
解决方法:
- 剪映里点字幕 → 直接编辑修改。
- 强烈建议每次都通读一遍字幕,不要直接发出去。
五、AI 翻译:让中文视频"出海"
如果你想让自己的视频被外国观众看到(比如发 YouTube、TikTok 国际版、Instagram),需要英文版。
5.1 剪映 AI 翻译
剪映自带"AI 翻译"功能:
- 把字幕翻译成英文/日文/韩文/西班牙文等。
- 同时把配音也翻译成对应语言(用 AI 配音读英文)。
5.2 HeyGen 视频翻译(最强)
HeyGen 的"视频翻译"是 2026 年的杀手级功能:
- 把视频里的人声翻译成 30+ 种语言。
- 同时重新生成口型——画面里的人嘴型对应到目标语言。
- 效果:观众看不出是翻译的。
价格:HeyGen $24/月起。
5.3 翻译流程示例(中文 → 英文 YouTube 版)
- 中文视频做完。
- 用剪映 AI 翻译,把字幕翻译成英文。
- 用 ElevenLabs 把中文配音翻译并克隆出英文配音(如果想保留自己的声线)。
- 重新合成英文版视频。
- 上传到 YouTube。
完整流程 30 分钟。
六、声音的"4 件套"组合实战
6.1 完整工作流:从画面到成片
- 生成画面:即梦/可灵 → 一段视频(无声)
- 加配音:剪映智能配音 → 念你的脚本
- 加字幕:剪映 AI 字幕 → 自动识别配音生成
- 加 BGM:剪映音乐库 → 选合适的背景音乐
- 导出发布
6.2 BGM 选择指南
BGM 是"无声的氛围引导"。
按场景挑 BGM
| 视频类型 | 推荐 BGM 风格 |
|---|---|
| 治愈/温馨 | 钢琴 / 轻音乐 / Lo-Fi |
| 激励/热血 | 电子鼓点 / 史诗弦乐 |
| 搞笑/段子 | 综艺 BGM / 鼓点 |
| 知识口播 | 轻松电子 / 节拍稳定 |
| 美食 | 轻快爵士 / 温暖钢琴 |
| 旅行 vlog | 民谣 / 治愈 |
| 商务宣传 | 现代电子 / 大气交响 |
| 情感/故事 | 钢琴 / 弦乐 |
BGM 音量黄金比例
- 配音音量:100%(保持清晰)
- BGM 音量:15–20%(衬托而不抢戏)
- 环境音/音效:30–50%
剪映里可以单独调每个轨道的音量。
6.3 完整成片样例
主题:分享一个"让 AI 帮你写朋友圈文案"的小技巧(30 秒视频)
Step 1:生成画面(即梦图生视频)
输入图:你手机的截图(朋友圈编辑界面)
提示词:
画面缓慢从朋友圈编辑界面平移到右侧的 AI 助手对话窗口,光线柔和。
Step 2:写脚本(30 秒,约 80 字)
朋友圈不会写文案?教你一招。
打开任何一个 AI App,比如豆包。
告诉它:「我今天在西湖边喝咖啡,请帮我写 3 条朋友圈文案,文艺风、不要肉麻。」
3 秒之后,3 条 文案任你挑。
连标点都不用改,直接发。
Step 3:剪映加配音
- 选音色:温柔小姐姐 / 都市女声
- 语速:1.1x
- 情绪:轻松
Step 4:剪映加字幕
- AI 自动识别配音
- 样式:小红书风(黄色背景圆体黑字)
- 关键词高亮:"3 秒之后"用黄色
Step 5:剪映加 BGM
- 选一段轻快的电子轻音乐
- 音量调到 15%
Step 6:导出发布
- 1080p 竖屏
- 发到小红书、视频号、抖音
整套流程时长:
- 第一次做:约 30–40 分钟
- 熟练后:约 5–10 分钟
七、3 个进阶玩法
7.1 一稿多用:克隆自己的声音
操作步骤:
- 在 ElevenLabs(或剪映声音克隆)注册账号。
- 录一段 1 分钟的自己的语音(朗读一段标准的中文/英文)。
- 上传,让 AI"学习"你的声纹。
- 之后任何文字都能用"你的声音"念出来。
用途:
- 你不想每次都自己录音,但又想保留自己的声线。
- 一次克隆,永久使用。
- 多语言版本——克隆一次,让"你的声音"讲英文/日文。
7.2 实时配音 + 实时字幕(直播场景)
如果你要做直播:
- 剪映直播伴侣:内置 AI 实时字幕。
- 腾讯智影直播功能:数字人替你直播。
- Captions 实时模式:英文实时字幕。
7.3 配音 + 数字人 + 字幕 三件套打包
剪映里有"AI 一键成片"模式,可以一次性打包:
- 输入文字。
- AI 自动调用:数字人念出来 + 自动配字幕 + 自动配 BGM + 自动剪辑。
- 30 秒生成一支完整视频。
适合:批量产出口播视频(矩阵号)。
八、本章小抄
- 视频 = 画面 + 声音 + 字幕。三件套缺一不可。
- AI 配音国民首选剪映;进阶用讯飞;英文用 ElevenLabs。
- AI 数字人新手用剪映免费款;商业级用 HeyGen。
- AI 字幕剪映自动识别 95%+ 准确率;记得通读检查错别字。
- AI 翻译剪映/HeyGen 都能做,HeyGen 能让人脸口型对齐目标语言。
- 配音文案 70% 决定成败:短句、口语化、加语气词、用标点控制节奏。
- BGM 音量黄金比例:配音 100%、BGM 15–20%。
- 进阶:克隆自己的声音 + 直播实时字幕 + 一键成片三件套。
5 分钟动手实验
任务:用本章工具做一支"完整有声有字幕"的视频。
具体步骤:
- 写一段 30 秒的口语化脚本(约 80 字),主题任选(分享一个生活技巧、一个学习方法、一个你最近的小感想都行)。
- 用即梦或可灵生成 1–3 段画面。
- 在剪映里:
- 用 AI 智能配音念你的脚本(选一个合适的音色)
- 用 AI 字幕自动加字幕
- 选一段 BGM,调到 15% 音量
- 导出,发到朋友圈/微信群。
进阶任务:
- 用同一段脚本,换一个音色再做一遍,对比哪个更适合你的内容。
- 用剪映 AI 翻译把这支视频翻译成英文版。
第二部分完成!你现在已经掌握了 AI 视频的"语言"——从写提示词到加声音字幕。
下一部分进入"实战"——我们把所学的东西用到生活、学习、工作、自媒体 4 大场景里。