视频提示词进阶 · AI 视频橙皮书

一、为什么需要"进阶"

第四章你学的是让 AI 听懂——把模糊变具体。

这一章你要学的是让 AI 听话——把"还行"变"精准可控"。

打个比方：

入门提示词：你点一杯"奶茶"。咖啡店给你的可能是珍珠奶茶、波霸奶茶、抹茶奶茶——什么都可能。
进阶提示词：你点"中杯热的、三分糖、去冰、加波霸、不要珍珠的茉莉绿茶奶茶"。咖啡店一定给你想要的那一杯。

这一章的 12 个技巧，就是教你怎么"精准下单"。

二、技巧 1：精准的镜头术语全表

镜头是 AI 视频里最影响"高级感"的因素——一个普通的画面，配上专业的镜头描述，立刻"电影感"。

2.1 景别完整表

中文术语	英文术语	含义	适合场景
极特写	ECU (Extreme Close-Up)	只拍一个眼睛/嘴唇/局部	强烈情感、悬念
特写	CU (Close-Up)	头部为主	表情、对白
近景	MCU (Medium Close-Up)	头到胸	一般对话
中景	MS (Medium Shot)	头到腰	标准人物拍摄
中全景	MLS (Medium Long Shot)	头到膝	展现部分动作
全景	LS (Long Shot)	整个人	展现完整动作和环境
远景	ELS (Extreme Long Shot)	人在大场景里	史诗感、孤独感
大远景	Establishing Shot	鸟瞰、整个城市	开场、收场

2.2 镜头运动完整表

中文术语	英文术语	含义	适合场景
推镜头	Push In / Dolly In	镜头向前移动接近主体	增强情感、聚焦
拉镜头	Pull Out / Dolly Out	镜头向后远离主体	失落、揭示环境
摇镜头	Pan	镜头水平左右摇	展示场景
俯仰镜头	Tilt	镜头垂直上下摇	展示高度
移镜头	Trucking / Trolley	镜头平行移动	跟随主体
跟镜头	Follow Shot	镜头跟着主体	代入感
升降镜头	Crane / Boom	镜头从低到高（或反之）	史诗、视野扩展
环绕镜头	Orbit / Arc	镜头围绕主体一圈	强调主体
手持镜头	Handheld	模拟手持的微微晃动	真实、纪实感
稳定器镜头	Steadicam	平稳跟随	流畅跟拍
第一人称视角	POV	主角视角	沉浸感
上帝视角	God's-Eye View	正上方俯视	全局展示
航拍	Aerial Shot / Drone Shot	无人机视角	大场面
跟车镜头	Tracking Shot	跟着移动主体	动作戏
推拉摇移组合	Combo Movement	多种运动结合	复杂场景

2.3 镜头描述模板

镜头从[起始景别]开始，[运动方式]，到[结束景别]结束，[镜头特点描述]。

示例 1：

镜头从大远景的航拍开始，缓慢俯冲到城市街道层面，最后定格在一个穿红色风衣的女孩身上。镜头运动流畅、电影级稳定。

示例 2：

镜头紧贴主角第一人称视角向前奔跑，手持感的轻微晃动，画面有快门速度感。

示例 3：

固定中景拍摄，镜头不动，主体在画面中完成所有动作。极简稳定的构图。

2.4 实战对比

缺镜头描述	加上镜头描述
一个男人在屋顶上看城市夜景	一个男人站在屋顶上看城市夜景。镜头从他背后的中景缓慢拉远，最后变成大远景的航拍，展现他在巨大的城市灯海中的渺小感。画面有"孤独感"。

第二条出来的画面，电影感会强 10 倍。

三、技巧 2：光影描述的"5 大维度"

光影是另一个直接决定"高级感"的因素。

5 大维度全表

维度	描述方法	例子
方向	顶光、侧光、逆光、底光、面光	"金色逆光从主角后方打来"
强度	柔和、强烈、刺眼、漫射、聚焦	"柔和的窗光从侧面照射"
色温	暖色（金黄/橙红）、冷色（蓝白）、霓虹色	"夕阳的暖金色光线"
时间感	黄金时刻、蓝色时刻、正午烈日、深夜灯光	"黄昏黄金时刻的光线"
特殊光效	丁达尔光、镜头光晕、反射、阴影戏剧化	"光线透过树叶形成丁达尔光柱"

经典光影组合（拿走就用）

组合 1：电影黄金时刻

黄昏黄金时刻的光线，金色逆光从主角后方打来，主体边缘泛着光晕，背景柔和虚化。

组合 2：王家卫风

霓虹反射的低饱和暖色光，主角脸上有红蓝色光斑交叠，背景灯光朦胧迷离。

组合 3：宫崎骏风

温暖透亮的自然光，光线柔和明亮，色彩饱和度高，整体画面像被淡淡的阳光笼罩。

组合 4：北欧极简

柔和漫射的窗光，色温偏冷，画面通透干净，几乎没有阴影。

组合 5：赛博朋克

紫色和粉色的霓虹光交叠，城市灯光在湿润的地面反射，主体处于强对比的明暗之中。

组合 6：诺兰大片

冷蓝色调主导，强烈的明暗对比，主体在暗部中被一束聚焦光照亮，画面史诗感强。

组合 7：日剧治愈

晨光透过纱窗洒入室内，光线柔和带着颗粒感，色温偏暖，整体画面温馨平静。

四、技巧 3：材质和物理细节

让画面"有质感"的秘诀——告诉 AI 物体的材质。

常用材质词表

材质类型	描述词
布料	丝绸、麻布、羊毛、牛仔、棉、雪纺、蕾丝
金属	不锈钢、黄铜、生锈的铁、抛光银、磨砂金属
木材	橡木、松木、深色胡桃木、做旧木板
玻璃	透明玻璃、磨砂玻璃、彩色玻璃、雨水滴落的玻璃
水/液体	清澈水流、浓稠咖啡、蜂蜜质感、油画质感液体
皮肤	健康有光泽、岁月感、油性皮肤、瓷质肌肤
自然	苔藓覆盖的石头、潮湿的泥土、干裂的土地、白雪

物理动态描述

动态类型	描述例子
流体	"水缓慢从杯口溢出，张力极大" / "蜂蜜从勺子上浓稠地拉出长丝"
烟雾	"蒸汽从茶杯顶部缓慢升起，向左侧飘散" / "篝火的烟柱垂直上升"
风	"风把树叶向右下方吹起" / "微风轻拂主角的头发，发梢微微飘动"
重力	"雨珠从屋檐缓慢滴落" / "被风吹起的纸张缓慢落下"
光反射	"湿润地面反射霓虹灯光" / "金属表面反射光斑"

实战对比

没材质描述	加上材质
一杯咖啡冒着热气	一杯黑咖啡，玻璃杯壁结着水珠，热气从棕色咖啡液面缓慢升起，向左侧飘散，桌面是深色胡桃木桌面，泛着淡淡的木质纹理

材质和物理细节越多，画面"高级感"越强。

五、技巧 4：负面提示词（Negative Prompt）

负面提示词 = 告诉 AI"我不想要什么"。

很多 AI 视频工具支持负面提示词输入框（在主提示词下方）。

万能负面提示词（中文版）

模糊、低质、扭曲、变形、多余的肢体、变形的手指、奇怪的脸、文字水印、低分辨率、像素化、过度饱和、不自然的光影、动作僵硬、闪烁、画面割裂

万能负面提示词（英文版）

blurry, low quality, distorted, deformed, extra limbs, mutated hands, weird face, watermark, low resolution, pixelated, oversaturated, unnatural lighting, stiff animation, flickering, fragmented frames

场景化负面提示词

人物场景

扭曲的脸、多余的手指、不自然的笑容、空洞的眼神

自然风光

塑料感、不自然的色彩、虚假的天空、过度滤镜

产品视频

模糊、变形、产品扭曲、品牌错误、文字模糊

实战对比

不加负面提示词	加负面提示词
出片：60% 满意率（脸部偶尔扭曲、手指有问题）	出片：85% 满意率（脸部稳定、手指基本正常）

强烈建议每次生成都加一段万能负面提示词——成本几乎为零，效果显著。

六、技巧 5：JSON 结构化提示词

这是进阶玩家专用。当你想要最高精度的控制时，可以把提示词写成 JSON 格式。

普通自然语言提示词

傍晚的海边，一个穿白色长裙的女孩在沙滩上奔跑，海风吹起她的头发。镜头跟拍，金色逆光，电影感。

JSON 结构化提示词

{
  "scene": {
    "time": "黄昏黄金时刻",
    "location": "希腊圣托里尼海边沙滩",
    "weather": "晴朗、微风",
    "atmosphere": "浪漫、宁静"
  },
  "subject": {
    "type": "人物",
    "appearance": "25岁金发女孩，白色长裙，赤脚，长直发",
    "expression": "轻松微笑"
  },
  "action": "在湿润沙滩上轻盈奔跑，长裙和头发随风飘动",
  "camera": {
    "shot_type": "中景跟拍",
    "movement": "稳定器跟随，从侧面到背后缓慢环绕",
    "angle": "略低于眼睛高度"
  },
  "lighting": {
    "main_light": "夕阳金色逆光",
    "secondary": "海面反射的暖色补光",
    "mood": "温暖梦幻"
  },
  "style": {
    "visual": "电影感、35mm 胶片质感",
    "color_grading": "暖色调，高对比度",
    "reference": "类似《爱在黄昏破晓时》的画面感"
  },
  "audio": {
    "ambient": "海浪声、海鸥声",
    "music": "钢琴轻柔旋律"
  }
}

什么时候用 JSON

你已经做了 5+ 支视频，能稳定输出。
你想做"系列内容"，需要每支视频风格一致。
你在用支持结构化输入的高级工具（Sora 2、Veo 3 部分支持）。

如果你只是普通新手，第六章学完的"七要素自然语言"已经够用 90% 的场景，不必强行用 JSON。

七、技巧 6：图生视频比文生视频更可控（5 个秘诀）

第一章提过：新手强烈推荐多用图生视频。

为什么？因为你给了一张图，AI 就不需要"凭空想象画面长啥样"了，只需要"添加运动"。可控性高出一个数量级。

5 个图生视频技巧

技巧 6.1：用 AI 画图工具先生成"完美的一帧"

工作流：

用 即梦图片版 / MidJourney / 可灵图片 先生成一张完美的画面（你最满意的"第一帧"）。
把这张图作为图生视频的输入。
提示词只需要描述"运动"。

这样你的画面"开局"就完美，剩下的 AI 只需要让它"动"。

技巧 6.2：图生视频的提示词要"少而精"

文生视频要把场景全描述，图生视频不需要——画面已经有了，你只要告诉 AI"什么在动"。

错的图生视频提示词：

傍晚的海边，一个穿白色长裙的女孩在沙滩上奔跑，海风吹起她的头发。镜头跟拍，金色逆光，电影感。

（如果图已经有了，再写这一堆 AI 反而困惑）

对的图生视频提示词：

女孩向前缓慢奔跑，海风吹起她的裙摆和头发。镜头从侧面缓慢跟随。

只描述运动 + 镜头，简洁有效。

技巧 6.3：用"首尾帧"控制起止画面

部分高级工具（可灵、Pika 2）支持"首尾帧":

上传"开始那一刻"的画面。
上传"结束那一刻"的画面。
AI 自动补出中间的过渡。

适合做"变身""转场""时间流逝"类视频。

技巧 6.4：用"一组图"做角色一致性

如果你想做一个"系列内容"（比如同一个角色出现在多支视频里）：

先用 AI 画图工具生成 8–10 张同一角色的图（不同动作、不同角度、不同表情）。
用 Vidu 或可灵的"角色定制"功能，把这 10 张图作为参考。
之后生成视频时，AI 会保持角色一致。

技巧 6.5：图的质量决定视频的质量

garbage in, garbage out——图模糊了，视频也会模糊。

输入图的要求：

分辨率 ≥ 1024×1024（高一些更好）。
主体清晰（不要模糊、不要遮挡）。
构图舒服（重要的东西在画面三分点上）。
风格统一（不要拼接图）。

八、技巧 7：多镜头连贯——做"一支视频"而不是"一段画面"

5–10 秒的单镜头容易做。但如果你要做一支 1 分钟的视频，就需要多个镜头串起来。

多镜头的"3 拍法"

经典短视频结构：

镜头	时长	内容
镜头 1（建立）	3 秒	大场景，建立环境
镜头 2（聚焦）	4 秒	中近景，聚焦主体
镜头 3（情感）	3 秒	特写或细节，情感升华

实战案例：1 个想法 → 3 个镜头

主题：女孩在夏日海边的瞬间。

镜头 1（10 秒）：

航拍大远景，傍晚的地中海海岸线，金色夕阳洒在海面上，远处有一艘白色帆船。镜头从云端缓慢俯冲。

镜头 2（10 秒）：

中景跟拍，一个穿白色长裙的女孩赤脚走在湿润沙滩上，海浪轻拍她的脚踝。镜头从侧面缓慢移动。

镜头 3（10 秒）：

特写慢镜头，女孩闭上眼睛，让海风吹起她的头发，露出温柔的微笑。镜头微微推近，金色逆光，35mm 胶片质感。

操作流程：

在即梦/可灵分别生成这 3 段。
把 3 段视频导入剪映。
按顺序拼接，加 BGM 和字幕。

成品效果：一支 30 秒、有起承转合的小型短片。

九、技巧 8：角色一致性的 4 种实现方法

"我想做一个系列，有同一个角色"——这是 AI 视频里最难、但最有商业价值的需求。

2026 年有 4 种解法：

方法 1：用支持"角色锁定"的工具

Vidu "参考主体"：上传角色图，每次生成都保持。
可灵 "角色定制"：付费功能，专门解决这个问题。
Runway Gen-4 Reference：支持参考图。

方法 2：用"图生视频"代替"文生视频"

每次生成新片段时，用同一张角色图作为输入图。这样角色不会乱跑。

方法 3：先用 AI 画图工具创造一个"角色卡"

工作流：

在 MidJourney / 即梦图片 / Stable Diffusion 里先生成一个角色（比如"22 岁短发女孩，黑色卫衣"）。
用同一个 prompt 反复生成 20 张图（不同动作、不同表情）。
选出最满意的几张，作为"角色卡"。
之后生成任何视频，都把这些图作为参考。

方法 4：详细描述角色（适合不支持参考图的工具）

如果工具不支持参考图，那就每次提示词里都写完全相同的角色描述：

角色描述（每次都写这个）：22 岁短发女孩，黑色 oversize 卫衣，浅蓝色牛仔裤，黑色帆布鞋，鼻梁有一个小痣

虽然不如方法 1–3 准确，但能保证 60–70% 的一致性。

十、技巧 9：迭代法——不要指望一次成片

新手最大的误区：期待第一次生成就完美。

老手都知道：AI 视频是迭代出来的。

V1 → V3 迭代法

V1（基础尝试）：

一只猫在窗台上

不满意，添加细节。

V2（补充细节）：

一只蓝色短毛猫在窗台上，看着窗外的雪花飘落

还是不够好，加镜头光影。

V3（最终版本）：

冬日午后，一只蓝色短毛猫趴在窗台上，看着窗外缓慢飘落的雪花。柔和的窗光从侧面照来，毛发清晰可见。镜头从侧面缓慢推近，画面温馨治愈，宫崎骏画风。

关键原则：每次只改一个变量。

如果同时改 5 个东西，你不知道是哪个起的作用，下一次就不知道怎么继续优化。

高效迭代的"三轮法"

轮次	改什么
第 1 轮	改主体描述（角色、动作）
第 2 轮	改场景描述（地点、时间、天气）
第 3 轮	改镜头光影风格

十一、技巧 10：用"参考视频"或"参考图"

很多新手"形容不出来想要的画面"。这时候：给 AI 一个参考。

做法

在抖音/B 站/YouTube 找到一段你喜欢的视频风格。
截取几张关键帧。
在提示词里说："风格参考类似[描述这段视频的特点]"。

例子

参考李子柒的视频风格：低饱和、东方田园质感、慢镜头、有自然环境音

参考王家卫《花样年华》的画面：低饱和暖色、慢镜头、霓虹反射、低光环境

参考宫崎骏《千与千寻》的画面：温暖治愈、明亮饱和、手绘动画质感

或者直接说"像[导演]的电影风格"——AI 看过太多电影，能"懂"。

十二、技巧 11：控制视频时长和节奏

时长选择建议

场景	推荐时长
单镜头氛围片	3–5 秒
短视频内容（抖音/视频号）	15–30 秒（拼多个 5–10 秒片段）
朋友圈/小红书	15 秒以内
广告	5–15 秒（精剪）

节奏控制

如果工具支持，可以在提示词里说明节奏：

镜头节奏：
- 0-2 秒：固定镜头，主体进入画面
- 2-4 秒：镜头缓慢推近，主体表情变化
- 4-5 秒：特写主体眼睛，画面停顿

部分高级工具（如 Sora 2 Storyboard 模式）支持这种"分阶段描述"。

十三、技巧 12：用 AI 帮你写提示词（套娃法）

最反常识的进阶技巧：让 AI 帮你写 AI 视频的提示词。

操作步骤

打开一个对话型 AI（豆包、ChatGPT、DeepSeek、Kimi 都行）。
用下面这条"提示词生成器"提示词：

你是一位专业的 AI 视频提示词工程师。我想做一支关于[你的主题]的 AI 视频，时长 5 秒，发到[抖音/小红书/朋友圈]。请你按照下面的七要素结构，给我写一条详细的视频提示词：

七要素结构：
1. 主体（具体外观）
2. 动作（详细描写）
3. 场景（时间地点天气）
4. 镜头（景别+运动）
5. 光影（方向+色温+氛围）
6. 风格（影视风格、画质质感）
7. 声音（环境音、音乐）

请直接输出完整的中文提示词，长度控制在 100-150 字。

把方括号里的内容填上你的需求。

实战例子

输入：

我想做一支关于"清晨海边晨练"的 AI 视频，时长 5 秒，发到小红书。

AI 输出（参考）：

夏日清晨 5:30 的海边，一个 28 岁的女性穿着白色运动 bra 和黑色高腰瑜伽裤，在沙滩上做瑜伽中的"战士一式"，海风轻拂她的头发。中景固定镜头，柔和的晨光从右侧斜照而来，海水反射出银色光芒。画面清新治愈，类似 lululemon 广告风格。背景音：海浪声、海鸥叫声。

直接复制到即梦——大概率出片。

这个技巧让你的"创作效率"翻 5 倍以上——不会写提示词的人，让 AI 替你写。

十四、12 个技巧速查表

#	技巧	一句话总结
1	镜头术语	用专业镜头术语（推/拉/摇/移），瞬间提升电影感
2	光影描述	5 大维度（方向/强度/色温/时间/特殊光效）描写完整
3	材质物理	描述布料/金属/液体的质感和物理细节
4	负面提示词	告诉 AI"不要什么"，提升出片率
5	JSON 结构化	进阶玩家用 JSON 实现最高精度控制
6	图生视频 5 招	用 AI 画图工具+图生视频是最稳定的链路
7	多镜头连贯	用"3 拍法"做有起承转合的短片
8	角色一致性	4 种方法解决"系列内容角色不变"难题
9	迭代法	V1 → V3，每次只改一个变量
10	参考视频/导演风格	直接说"像[导演]风格"，AI 能懂
11	时长节奏	控制视频时长和分阶段节奏
12	AI 写提示词	让对话 AI 帮你生成提示词，效率翻 5 倍

十五、本章小抄

入门是"让 AI 听懂"，进阶是"让 AI 听话"。
镜头和光影是决定"高级感"的两大支柱。
负面提示词几乎零成本，但能显著提升出片率，每次都加。
图生视频比文生视频更可控，新手强烈推荐。
角色一致性有 4 种解法（角色锁定工具、图生视频、角色卡、详细描述）。
迭代法：每次只改一个变量。
套娃法：让对话 AI 帮你写视频提示词。
提示词不是越长越好，精准比冗长更重要。

5 分钟动手实验

任务：用至少 3 个本章技巧，做一支"进阶版"视频。

具体步骤：

选一个你之前做过但不太满意的视频。
用本章至少 3 个技巧重新写提示词：
- 加上专业镜头术语
- 加上完整的光影描述
- 加负面提示词
重新生成。
把"进阶版"和"原版"对比，记录在哪些方面变好了。

进阶任务：

用 [技巧 12] 让豆包/DeepSeek 替你写一条提示词。
用 [技巧 7] 做一支"3 个镜头串联"的 30 秒短片。

下一章：第六章让 AI 视频开口说话——配音、口播、字幕全打通

第五章 视频提示词进阶——让 AI 听话的 12 个技巧

一、为什么需要"进阶"

二、技巧 1：精准的镜头术语全表

2.1 景别完整表

2.2 镜头运动完整表

2.3 镜头描述模板

2.4 实战对比

三、技巧 2：光影描述的"5 大维度"

5 大维度全表

经典光影组合（拿走就用）

组合 1：电影黄金时刻

组合 2：王家卫风

组合 3：宫崎骏风

组合 4：北欧极简

组合 5：赛博朋克

组合 6：诺兰大片

组合 7：日剧治愈

四、技巧 3：材质和物理细节

常用材质词表

物理动态描述

实战对比

五、技巧 4：负面提示词（Negative Prompt）

万能负面提示词（中文版）

万能负面提示词（英文版）

场景化负面提示词

人物场景

自然风光

产品视频

实战对比

六、技巧 5：JSON 结构化提示词

普通自然语言提示词

JSON 结构化提示词

什么时候用 JSON

七、技巧 6：图生视频比文生视频更可控（5 个秘诀）

5 个图生视频技巧

技巧 6.1：用 AI 画图工具先生成"完美的一帧"

技巧 6.2：图生视频的提示词要"少而精"

技巧 6.3：用"首尾帧"控制起止画面

技巧 6.4：用"一组图"做角色一致性

技巧 6.5：图的质量决定视频的质量

八、技巧 7：多镜头连贯——做"一支视频"而不是"一段画面"

多镜头的"3 拍法"

实战案例：1 个想法 → 3 个镜头

九、技巧 8：角色一致性的 4 种实现方法

方法 1：用支持"角色锁定"的工具

方法 2：用"图生视频"代替"文生视频"

方法 3：先用 AI 画图工具创造一个"角色卡"

方法 4：详细描述角色（适合不支持参考图的工具）

十、技巧 9：迭代法——不要指望一次成片

V1 → V3 迭代法

高效迭代的"三轮法"

十一、技巧 10：用"参考视频"或"参考图"

做法

例子

十二、技巧 11：控制视频时长和节奏

时长选择建议

节奏控制

十三、技巧 12：用 AI 帮你写提示词（套娃法）

操作步骤

实战例子

十四、12 个技巧速查表

十五、本章小抄

5 分钟动手实验

第五章视频提示词进阶——让 AI 听话的 12 个技巧