ORANGE BOOK · AI VIDEO

第六章 让 AI 视频开口说话——配音、口播、字幕全打通


一、为什么"声音"对视频比你想象的更重要

刷抖音时做个小实验:

  1. 把手机静音,刷 10 条视频。
  2. 看哪些视频你没声音也能看完

答案:几乎没有

研究显示,70% 的短视频用户在嘈杂环境下习惯静音观看——但他们看的是字幕配音 + 字幕 + 画面 = 完整的视频体验

只有画面没声音的视频,刷到的人会3 秒滑走

所以,做 AI 视频,"声音三件套"——AI 配音 + AI 数字人 + AI 字幕——必须掌握。


二、AI 配音:替你"开口"念稿

第二章 简单介绍过 AI 配音工具,这里我们详细讲怎么用。

2.1 三大工具对比

工具 免费/价格 中文 英文 声音克隆 国民推荐度
剪映智能配音 免费起,会员 88 元/月 ⭐⭐⭐⭐⭐ ⭐⭐⭐ 部分支持 🥇 90% 人首选
讯飞配音 免费试用,30 元/月起 ⭐⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 支持 🥈 长视频/专业
ElevenLabs 免费 1 万字符,$5/月起 ⭐⭐⭐ ⭐⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐⭐ 🥉 出海/英文

2.2 剪映智能配音完整教程(90% 人需要这个)

步骤 1:进入配音

剪映 App / 桌面版 → 新建项目 → 找「文本」→「智能配音」

或:先输入文字 → 把文字框放到时间轴 → 选「文本朗读」

步骤 2:选音色

剪映 2026 版有 80+ 个音色,分类:

分类 推荐音色 适用场景
新闻播报 标准男声、标准女声 知识口播、新闻
温馨女声 温柔小姐姐、邻家女孩 治愈/情感/家庭
磁性男声 醇厚男声、儒雅大叔 解说/商务/汽车广告
活力青年 阳光男声、活力女声 综艺/年轻向
童声 可爱小男孩、活泼小女孩 儿童/动画
方言 粤语、四川话、东北话、河南话 地方特色/喜剧
方言搞笑 重庆崽儿、东北大哥 段子、搞笑视频
古风 古风女声、说书人 古装、解说
影视 影视配音、纪录片 解说类长视频
明星 (部分付费)类似某明星音色 仿冒类视频
外语 英文男女声、日文男女声、韩文 出海/语言学习

新手建议

  • 知识口播 → "醇厚男声" 或 "标准女声"
  • 治愈/亲子 → "温柔小姐姐"
  • 搞笑/段子 → 用方言

步骤 3:输入文本

把要"念"的文字复制到文本框。

重点:文本必须是"口语化"的,不能是书面语。

❌ 不好的文本(书面化):

"在当今社会背景下,AI 技术发展迅猛,深刻地影响着我们日常生活的方方面面,每个人都应当未雨绸缪。"

读出来超级别扭。

✅ 好的文本(口语化):

"现在 AI 真的太火了,已经渗透到我们生活的方方面面。每个人都该早点学起来,不然真的会被时代甩开。"

读出来自然流畅。

步骤 4:调整参数

参数 推荐设置 说明
语速 1.05x – 1.1x 比 1.0x 更显精神
音调 默认 一般不用调
音量 100% 后期 BGM 时再调相对值
情绪 根据内容选(开心/悲伤/激动/平静等 12 种) 2026 版剪映已支持微情绪

步骤 5:生成

  • 点"生成"。
  • 1–3 秒后配音生成完成,自动放到时间轴上。
  • 试听一遍,不满意调整文本/音色重新生成。

步骤 6:音画对齐

  • 把视频片段拖到时间轴。
  • 把配音对齐到视频。
  • 视频时长比配音短/长?调整视频时长(裁剪、变速)。

2.3 配音文案 70% 决定成败

很多人 AI 配音听起来"假假的",不是工具不行,是文案不对

写好配音文案的 5 个原则

原则 1:句子短

❌ "在那个春天的午后阳光温暖的时刻里我和我的妈妈一起在公园散步" ✅ "春天午后,阳光温暖。我和妈妈,一起在公园散步。"

单句不超过 20 字。AI 不会换气,长句听起来累。

原则 2:用口语词
书面词 口语词
然而 但是
因此 所以
倘若 如果
即使 就算
从而 这样就
之所以 因为
即便如此 就这样
原则 3:加语气词(适度)

适度加"嗯""呃""哎""哦""你看"这种语气词,让配音"像人"。

❌ "今天我教大家做一道菜,叫西红柿炒蛋" ✅ "嗨,今天教你做一道家常菜,叫——西红柿炒蛋"

原则 4:用标点控制节奏
标点 停顿时长
逗号 半拍
句号 一拍
问号 一拍
感叹号 一拍
省略号 …… 一拍半
破折号 —— 一拍
空格 短停顿

例子:

"等等。你以为 AI 视频很难?其实——只要 5 分钟。"

加了破折号后,"5 分钟"前面会有一个戏剧性停顿,听感更好。

原则 5:处理多音字

中文里很多字有多个读音,AI 偶尔会读错。

常见多音字陷阱:

错读 对的
zháo (着火) zhe (走着)
xíng (行走) háng (银行)
shǔ (数数) shù (数学)
cháng (长江) zhǎng (生长)
zhòng (重要) chóng (重复)
zhāo (朝霞) cháo (朝代)

解决方法

  1. 改说法:把可能读错的词换成不会读错的同义词。比如"长江"读成"cháng jiāng"是对的,但如果 AI 读错了,改成"长江流域"就基本不会错。
  2. 用讯飞:讯飞配音支持手动标注拼音,多音字处理国内最强。
  3. 试听后改:每次生成都要试听,发现错读直接修改文本(比如把"重新"改成"重新(chóng xīn)",或拆成"重 新")。

三、AI 数字人口播:替你"出镜说话"

第十一章 会详细讲数字人,本章先讲基础玩法——用现成数字人念稿

3.1 剪映免费数字人 5 步搞定

步骤 1:进入数字人

剪映 → 找"AI 数字人"或"数字分身"

步骤 2:选数字人形象

剪映免费数字人有 30+ 个

风格 推荐数字人 适合场景
知识科普 "教授男"、"职场女" 干货分享
时尚口播 "都市丽人"、"精致男士" 美妆、时尚
亲和邻家 "邻家姐姐"、"暖男" 治愈、生活
商务正式 "商务男"、"商务女" 企业宣传
古风 "古风男"、"古风女" 古装解说
卡通 各种 2D/3D 卡通形象 趣味、儿童

新手建议:选一个和你账号定位匹配的。

步骤 3:输入文本

和 AI 配音一样——口语化、短句、加语气词

步骤 4:选数字人配音

数字人会自带几个匹配的音色(也可以手动选其他音色)。

步骤 5:生成

  • 点"生成"。
  • 30 秒–2 分钟后,AI 数字人视频生成完成。
  • 视频里这个数字人"她/他"在用 AI 配音念你写的文字,嘴型对齐、表情自然。

3.2 数字人选型对照表

你做什么内容 推荐数字人风格
知识科普(财经/历史/科技) 教授男 / 职场女
美妆/时尚/穿搭 都市丽人 / 时尚博主
亲子/教育/家长 邻家姐姐 / 温柔妈妈
商业宣传/企业号 商务男 / 商务女
搞笑/段子/方言 卡通形象 + 方言配音
历史/文化/古风 古风男 / 古风女
健康/养生/医疗 沉稳大叔 / 知性女士

3.3 数字人 vs 真人出镜:什么时候选哪个

适合用数字人 适合真人出镜
不想/不能露脸 内容靠真人魅力
普通话不好 现场感、即兴感
需要批量产出 需要表情/手势细节
多语言版本 情感真挚(家庭视频)
担心隐私 已经有粉丝认你的脸
长期可复用 短期一次性内容

新手建议:先用数字人跑通流程,觉得有戏再考虑真人或克隆自己的数字人。


四、AI 字幕:5 秒搞定专业字幕

字幕是短视频的"必需品"。70% 的用户在静音状态刷视频,没字幕你的内容就废了。

4.1 剪映 AI 字幕 4 步上手

步骤 1:进入字幕功能

剪映 → 「文本」→「识别字幕」

步骤 2:选识别源

选项 用法
识别音频中的字幕 你已经有配音/录音,让 AI 识别
智能字幕 AI 根据视频自动加字幕
手动添加 自己一句句输入

新手 95% 用第一种——"识别音频中的字幕"。

步骤 3:选语言

中文/英文/日文/韩文⋯⋯支持 20+ 种语言识别。

步骤 4:等 30–60 秒,字幕自动加好

剪映 AI 字幕识别准确率:

  • 标准普通话:95–98%
  • 带轻微口音:85–95%
  • 重口音/方言:60–80%

4.2 字幕样式选择

字幕的"样式"严重影响视频"档次"。

经典样式推荐

风格 字体 颜色 大小 描边 适合场景
标准白字 思源黑体 白色 + 黑色描边 中等 通用
综艺花字 综艺体 多色 + 黄色描边 搞笑/活泼
电影字幕 思源宋体 白色 中小 文艺/电影感
小红书风 圆体 黑色 + 黄色背景 小红书/年轻向
科技感 等宽字体 白色 + 蓝色描边 科技/数码

强烈建议

  • 字幕位置在画面下方 1/4 处,不要遮挡主要画面。
  • 字号适中,太大显得低端,太小看不清。
  • 每行字数控制在 12–16 字,超长就换行。
  • 关键字用不同颜色高亮(比如金额、人名、关键词用黄色)。

4.3 错别字怎么办

AI 字幕识别再准,也会有错。常见错误:

  • 同音字("在"→"再","做"→"坐")
  • 专业术语("AI"识别成"哎","K8s"识别成"K 八 s")
  • 网络用语("yyds"识别成"歪歪嘀嘀")
  • 人名地名("乔布斯"识别成"乔布斯先生")

解决方法

  • 剪映里点字幕 → 直接编辑修改。
  • 强烈建议每次都通读一遍字幕,不要直接发出去。

五、AI 翻译:让中文视频"出海"

如果你想让自己的视频被外国观众看到(比如发 YouTube、TikTok 国际版、Instagram),需要英文版

5.1 剪映 AI 翻译

剪映自带"AI 翻译"功能:

  • 把字幕翻译成英文/日文/韩文/西班牙文等。
  • 同时把配音也翻译成对应语言(用 AI 配音读英文)。

5.2 HeyGen 视频翻译(最强)

HeyGen 的"视频翻译"是 2026 年的杀手级功能:

  • 把视频里的人声翻译成 30+ 种语言。
  • 同时重新生成口型——画面里的人嘴型对应到目标语言。
  • 效果:观众看不出是翻译的。

价格:HeyGen $24/月起。

5.3 翻译流程示例(中文 → 英文 YouTube 版)

  1. 中文视频做完。
  2. 用剪映 AI 翻译,把字幕翻译成英文。
  3. 用 ElevenLabs 把中文配音翻译并克隆出英文配音(如果想保留自己的声线)。
  4. 重新合成英文版视频。
  5. 上传到 YouTube。

完整流程 30 分钟。


六、声音的"4 件套"组合实战

6.1 完整工作流:从画面到成片

  1. 生成画面:即梦/可灵 → 一段视频(无声)
  2. 加配音:剪映智能配音 → 念你的脚本
  3. 加字幕:剪映 AI 字幕 → 自动识别配音生成
  4. 加 BGM:剪映音乐库 → 选合适的背景音乐
  5. 导出发布

6.2 BGM 选择指南

BGM 是"无声的氛围引导"。

按场景挑 BGM

视频类型 推荐 BGM 风格
治愈/温馨 钢琴 / 轻音乐 / Lo-Fi
激励/热血 电子鼓点 / 史诗弦乐
搞笑/段子 综艺 BGM / 鼓点
知识口播 轻松电子 / 节拍稳定
美食 轻快爵士 / 温暖钢琴
旅行 vlog 民谣 / 治愈
商务宣传 现代电子 / 大气交响
情感/故事 钢琴 / 弦乐

BGM 音量黄金比例

  • 配音音量:100%(保持清晰)
  • BGM 音量:15–20%(衬托而不抢戏)
  • 环境音/音效:30–50%

剪映里可以单独调每个轨道的音量。

6.3 完整成片样例

主题:分享一个"让 AI 帮你写朋友圈文案"的小技巧(30 秒视频)

Step 1:生成画面(即梦图生视频)

输入图:你手机的截图(朋友圈编辑界面)

提示词:

画面缓慢从朋友圈编辑界面平移到右侧的 AI 助手对话窗口,光线柔和。

Step 2:写脚本(30 秒,约 80 字)

朋友圈不会写文案?教你一招。
打开任何一个 AI App,比如豆包。
告诉它:「我今天在西湖边喝咖啡,请帮我写 3 条朋友圈文案,文艺风、不要肉麻。」
3 秒之后,3 条 文案任你挑。
连标点都不用改,直接发。

Step 3:剪映加配音

  • 选音色:温柔小姐姐 / 都市女声
  • 语速:1.1x
  • 情绪:轻松

Step 4:剪映加字幕

  • AI 自动识别配音
  • 样式:小红书风(黄色背景圆体黑字)
  • 关键词高亮:"3 秒之后"用黄色

Step 5:剪映加 BGM

  • 选一段轻快的电子轻音乐
  • 音量调到 15%

Step 6:导出发布

  • 1080p 竖屏
  • 发到小红书、视频号、抖音

整套流程时长:

  • 第一次做:约 30–40 分钟
  • 熟练后:约 5–10 分钟

七、3 个进阶玩法

7.1 一稿多用:克隆自己的声音

操作步骤:

  1. 在 ElevenLabs(或剪映声音克隆)注册账号。
  2. 录一段 1 分钟的自己的语音(朗读一段标准的中文/英文)。
  3. 上传,让 AI"学习"你的声纹。
  4. 之后任何文字都能用"你的声音"念出来。

用途

  • 你不想每次都自己录音,但又想保留自己的声线。
  • 一次克隆,永久使用。
  • 多语言版本——克隆一次,让"你的声音"讲英文/日文。

7.2 实时配音 + 实时字幕(直播场景)

如果你要做直播:

  • 剪映直播伴侣:内置 AI 实时字幕。
  • 腾讯智影直播功能:数字人替你直播。
  • Captions 实时模式:英文实时字幕。

7.3 配音 + 数字人 + 字幕 三件套打包

剪映里有"AI 一键成片"模式,可以一次性打包:

  1. 输入文字。
  2. AI 自动调用:数字人念出来 + 自动配字幕 + 自动配 BGM + 自动剪辑。
  3. 30 秒生成一支完整视频。

适合:批量产出口播视频(矩阵号)。


八、本章小抄

  • 视频 = 画面 + 声音 + 字幕。三件套缺一不可。
  • AI 配音国民首选剪映;进阶用讯飞;英文用 ElevenLabs。
  • AI 数字人新手用剪映免费款;商业级用 HeyGen。
  • AI 字幕剪映自动识别 95%+ 准确率;记得通读检查错别字。
  • AI 翻译剪映/HeyGen 都能做,HeyGen 能让人脸口型对齐目标语言。
  • 配音文案 70% 决定成败:短句、口语化、加语气词、用标点控制节奏。
  • BGM 音量黄金比例:配音 100%、BGM 15–20%。
  • 进阶:克隆自己的声音 + 直播实时字幕 + 一键成片三件套。

5 分钟动手实验

任务:用本章工具做一支"完整有声有字幕"的视频。

具体步骤:

  1. 写一段 30 秒的口语化脚本(约 80 字),主题任选(分享一个生活技巧、一个学习方法、一个你最近的小感想都行)。
  2. 用即梦或可灵生成 1–3 段画面。
  3. 在剪映里:
    • 用 AI 智能配音念你的脚本(选一个合适的音色)
    • 用 AI 字幕自动加字幕
    • 选一段 BGM,调到 15% 音量
  4. 导出,发到朋友圈/微信群。

进阶任务

  • 用同一段脚本,换一个音色再做一遍,对比哪个更适合你的内容。
  • 用剪映 AI 翻译把这支视频翻译成英文版。

第二部分完成!你现在已经掌握了 AI 视频的"语言"——从写提示词到加声音字幕。

下一部分进入"实战"——我们把所学的东西用到生活、学习、工作、自媒体 4 大场景里。

下一章:第七章 生活场景实战——记录与回忆