AI视频术语表中英对照 · AI 视频橙皮书

A

AIGC（AI Generated Content）

一句话：AI 生成的内容（文字、图、视频、音频统称）。

打个比方：你画的画 = UGC，AI 画的 = AIGC。

Aspect Ratio（画面比例）

一句话：视频长宽比例，常见 16:9（横屏）、9:16（竖屏）、1:1（方形）。

速查：

16:9 → 横屏（B 站、YouTube）
9:16 → 竖屏（抖音、快手、视频号）
1:1 → 方屏（小红书、Instagram）

API（Application Programming Interface）

一句话：让程序之间互相对话的"接口"。

用处：开发者可以调用即梦、可灵 API 在自己的产品里集成 AI 视频生成。

Avatar（数字人 / 虚拟形象）

一句话：AI 生成的"虚拟人"，可以代替真人出镜、说话、直播。

详见：第十一章。

B

BGM（Background Music）

一句话：背景音乐。

详见：第六章第 7 节。

Bilibili（B 站）

一句话：中国主流视频网站，以中长视频和年轻用户著称。

Bookmarklet / Bookmark（收藏 / 书签）

一句话：在你电脑/手机的浏览器里收藏 AI 工具网址，方便下次直接打开。

C

C2PA（Coalition for Content Provenance and Authenticity）

一句话：一个国际标准，给 AI 生成的内容打上"出生证"水印。

详见：第十五章第 4 节。

Camera Movement（镜头运动）

一句话：摄像机怎么动，影响视频"电影感"。

速查：

推（Push In） → 镜头慢慢靠近主体
拉（Pull Out）→ 镜头慢慢远离主体
摇（Pan）→ 镜头水平转动
移（Tracking）→ 镜头跟随移动
跟（Follow）→ 镜头跟着主体走

CFG Scale（提示词权重）

一句话：AI 听你提示词的"听话程度"。数值越高越严格，但太高会丧失创意。

默认值：7-10 比较合适。

CGI（Computer-Generated Imagery）

一句话：传统电影里"电脑生成画面"，比如阿凡达。

和 AI 视频区别：CGI 是"人手工做"，AI 视频是"AI 自己生成"。

Coze（扣子）

一句话：字节跳动出品的 AI 智能体搭建平台。

用处：搭建自己的 AI 视频自动化工作流。详见第十二章。

D

DALL-E

一句话：OpenAI 的 AI 图像生成工具。

Descript

一句话：海外的一款 AI 剪辑工具，主打"修改文字 = 修改视频"。

Diffusion（扩散模型）

一句话：当前 AI 视频生成的主流技术，原理是从一片噪声中"逆向恢复"出图像。

人话：AI 像在恢复一张被打散的拼图。

Digital Twin（数字孪生）

一句话：你的"AI 复制版"，可以代替你出镜、说话、直播。

详见：第十七章。

E

ElevenLabs

一句话：英文 AI 配音第一工具，声音克隆需要的样本最少。

Embedding（嵌入向量）

一句话：AI 把你的提示词转成"数字坐标"，方便计算。普通人不需要懂。

F

Frame（帧）

一句话：视频是由一张张静态图（帧）连续播放组成。

速查：

24 帧/秒 = 电影标准
30 帧/秒 = 普通视频
60 帧/秒 = 流畅运动视频

Frame Interpolation（插帧）

一句话：在两帧之间用 AI 插入新帧，让视频更流畅。

例子：用插帧把 AI 生成的 24 帧/秒视频提升到 60 帧/秒。

G

Gen-3 / Gen-4 / Gen-4.5

一句话：Runway 公司的 AI 视频模型版本号，数字越大越强。

GPU（图形处理器）

一句话：跑 AI 模型必须的"算力"，AI 公司服务器全是 GPU。

用户视角：你不需要懂，云端工具背后都是 GPU 算力。

H

HDR（High Dynamic Range）

一句话：高动态范围影像，亮处不过曝、暗处有细节。

用处：出片的色彩更鲜活。

HeyGen

一句话：海外最专业的多语言数字人工具，企业级首选。

Hunyuan Video（混元视频）

一句话：腾讯出品的开源视频模型。

I

Image-to-Video（图生视频，I2V）

一句话：你给 AI 一张图，AI 让图里的画面动起来。

详见：第一章、第五章。

Inpainting（局部重绘）

一句话：选中视频里的某部分，让 AI 重新生成。

用处：去除杂物、替换背景、修复瑕疵。

J

Jimeng（即梦）

一句话：字节跳动出品的国民级 AI 视频工具，新手首选。

JSON Prompt（JSON 结构化提示词）

一句话：把提示词写成"键值对"格式，给 AI 更精准的指令。

详见：第五章第 4 节。

{"主体": "猫咪", "动作": "跳跃", "场景": "草地"}

K

Keyframe（关键帧）

一句话：视频中重要的转折帧，比如"人物从微笑→皱眉"那一刻。

Kling（可灵）

一句话：快手出品的 AI 视频工具，画面质量国内顶级。

L

Latent Space（潜在空间）

一句话：AI 内部用来"想象"图像的多维空间。普通人不需要懂。

LLM（Large Language Model）

一句话：大语言模型，比如豆包、ChatGPT、DeepSeek。

和视频关系：写脚本时用 LLM。

Looping Video（循环视频）

一句话：从尾自动接回头的无缝循环视频。

例子：水流声、火苗跳动、慢动作雨景。

Luma

一句话：海外 AI 视频工具，主打 Dream Machine 模型。

M

Matting（抠图 / 抠像）

一句话：把视频中的前景（人物）和背景分离。

用处：换背景、加特效。

MidJourney

一句话：海外顶级 AI 图像生成工具。

Multimodal（多模态）

一句话：AI 可以同时理解多种"模态"（文字、图、视频、音频）。

N

Negative Prompt（负面提示词）

一句话：告诉 AI "不要做什么"，过滤不想要的元素。

例子：正面：美丽女性 / 负面：模糊、变形、多余手指

详见第五章第 5 节。

O

Opus Clip

一句话：海外 AI 自动剪辑工具，把长视频自动切成短视频。

P

Pika

一句话：海外 AI 视频工具，新手友好，质量中等。

Prompt（提示词）

一句话：你告诉 AI 想要什么的"指令"。

详见：第四章、第五章。

PromptCraft / Prompt Engineering（提示词工程）

一句话：写好提示词的"手艺"。

Q

Q&A（Question & Answer）

一句话：问答。

R

Render（渲染）

一句话：AI 把你的提示词"算"成视频的过程。

Resolution（分辨率）

一句话：视频清晰度。

速查：

720P = 1280×720（普通）
1080P = 1920×1080（高清，主流）
4K = 3840×2160（超清）

Runway

一句话：海外专业 AI 视频公司，Gen-4.5 是当前主力。

S

SEED（种子值）

一句话：AI 生成的"随机数"。同一个种子 + 同一个提示词 = 完全一样的结果。

用处：保证多次生成画面一致。

Sora

一句话：OpenAI 的视频模型，2026 年 Sora 2 是顶级之一。

Storyboard（分镜脚本）

一句话：把视频拆成一个个画面（镜头）的"草图"。

详见：第十二章第 3 节。

T

TikTok / Douyin（抖音）

一句话：字节跳动旗下的短视频平台。

Token（令牌）

一句话：AI 处理文字的"最小单位"，1 个汉字 ≈ 1-2 token。

用处：付费的 AI 工具按 token 算钱。

Text-to-Video（文生视频，T2V）

一句话：你只给 AI 一段文字，AI 直接生成视频。

TTS（Text-to-Speech）

一句话：文字转语音。

详见：第六章。

U

Upscale（放大）

一句话：把低分辨率视频放大到高分辨率。

工具：Topaz Video AI、Runway Upscale。

V

Veo

一句话：Google 的 AI 视频模型，Veo 3 主打物理逻辑和音频。

Video-to-Video（视频生视频，V2V）

一句话：用一段已有视频做参考，AI 生成"风格类似"的新视频。

例子：把你拍的真人视频转成"动漫风格"。

Vidu

一句话：国内 AI 视频工具，角色一致性强。

W

Watermark（水印）

一句话：图 / 视频上的"图章 / 标记"。

两种：

可见水印：显示 logo（防止盗用）
隐性水印：肉眼看不见，AI 检测得到（如 C2PA）

Workflow（工作流）

一句话：从开始到结束的标准化流程。

详见：第十二章。

X / Y / Z

X.com（前 Twitter）

一句话：海外短文社交平台。

YouTube

一句话：全球最大视频平台。

中文术语表（按拼音排序）

必剪

一句话：B 站旗下手机剪辑工具。

处理 / 后期

一句话：拍/生成完之后的剪辑、调色、加音乐等流程。

大模型

一句话：参数量很大的 AI 模型，比如豆包、可灵都是大模型。

抖音

一句话：字节跳动旗下短视频平台，月活 7 亿+。

短视频

一句话：1-3 分钟内的视频，2026 年主流流量入口。

分镜

一句话：把一段长视频拆成几个镜头的设计图。

风格化

一句话：把视频做成特定风格（电影、动漫、复古等）。

工作流

一句话：标准化的"流水线"。

海螺

一句话：MiniMax 出品的 AI 视频工具，画面美感强。

海外

一句话：泛指国内访问需要梯子的工具，如 Sora、Veo、Runway。

混元

一句话：腾讯出品的开源大模型。

即梦

一句话：字节跳动出品的 AI 视频工具。

剪映

一句话：字节跳动出品的国民级剪辑 App，月活 5 亿+。

矩阵号

一句话：同一个团队/个人运营多个账号。

可灵

一句话：快手出品的 AI 视频工具，画面顶级。

抠图

一句话：把人 / 物体从背景里"抠"出来。

流水线

一句话：标准化的内容生产链路。

萌宠

一句话：可爱宠物，AI 视频常见赛道。

起号

一句话：从 0 粉运营到 1 万粉的"开张"过程。

数字人

一句话：AI 生成的虚拟人物。

通义万相

一句话：阿里出品的 AI 视频工具。

文生视频

一句话：文字描述生成视频。

西瓜视频

一句话：字节跳动旗下中长视频平台。

喜马拉雅

一句话：音频内容平台，AI 配音常用。

智影

一句话：腾讯出品的 AI 视频/数字人工具。

字幕

一句话：视频底部的文字。

易混淆术语对比

"AI 生成视频" vs "AI 剪辑视频"

AI 生成：AI 凭空创造画面（即梦、Sora）
AI 剪辑：你提供素材，AI 帮你剪（剪映 AI、Opus Clip）

"数字人" vs "虚拟主播" vs "Avatar"

数字人：AI 生成的"人"，可以是任何场景
虚拟主播：专门做直播的数字人
Avatar：海外说法，泛指虚拟形象

"AI 配音" vs "AI 数字人"

AI 配音：只有声音，没画面
AI 数字人：有声音 + 有画面（嘴对得上）

"图生视频" vs "视频生视频"

图生视频：1 张图 → 1 个视频
视频生视频：1 个视频 → 1 个新视频（换风格 / 换主体）

"提示词" vs "脚本"

提示词：给 AI 的"画面描述"（一段话）
脚本：要让人或数字人念的"台词"

常用缩写一览

缩写	全称	中文
AI	Artificial Intelligence	人工智能
AIGC	AI-Generated Content	AI 生成内容
API	Application Programming Interface	应用接口
BGM	Background Music	背景音乐
CGI	Computer-Generated Imagery	电脑生成图像
CLI	Command Line Interface	命令行
CPC	Cost Per Click	单次点击成本
CPM	Cost Per Mille	千次曝光成本
CTA	Call to Action	行动召唤
FPS	Frames Per Second	帧每秒
GIF	Graphics Interchange Format	动图格式
GPU	Graphics Processing Unit	图形处理器
HD	High Definition	高清
HDR	High Dynamic Range	高动态范围
I2V	Image-to-Video	图生视频
IP	Intellectual Property	知识产权
KOL	Key Opinion Leader	关键意见领袖
KOC	Key Opinion Consumer	关键意见消费者
LLM	Large Language Model	大语言模型
MCN	Multi-Channel Network	网红经纪公司
OEM	Original Equipment Manufacturer	代工
PR	Adobe Premiere	专业剪辑软件
ROI	Return On Investment	投资回报率
ROAS	Return On Ad Spend	广告投入回报
SEO	Search Engine Optimization	搜索引擎优化
T2V	Text-to-Video	文生视频
TTS	Text-to-Speech	文本转语音
UGC	User-Generated Content	用户生成内容
V2V	Video-to-Video	视频生视频
Vlog	Video Blog	视频博客

术语会持续更新。AI 视频领域是变化最快的领域之一，每个月都有新词汇出现。

返回 README