AI 绘画是什么 · AI 绘画橙皮书

一、先看一张图，再讲原理

不知道你有没有这样的经历：

晚上你躺在床上，眼睛闭着，脑子里突然浮现出一个画面——可能是"小时候爷爷家院子的样子"、"昨天梦到的奇怪场景"、"想象中以后退休住的小屋"。

那个画面在你脑子里清清楚楚，但你画不出来。你拿起笔、对着白纸，什么都画不出。

这是普通人和画家最大的区别——画家有一个"通道"，能把脑子里的画面输送到纸上。普通人没有这个通道。

AI 绘画做的事，就是给你一个"脑子到纸"的通道。

你脑子里有什么画面，用文字描述出来，AI 帮你画出来。

二、三个生活化的比喻：AI 绘画是怎么"画"的

很多人以为 AI 绘画是这样的——"机器手里有支虚拟的笔，按照你说的，一笔一笔画"。

不对。完全不是这样。

AI 绘画的真实工作方式，更像下面三个比喻。

比喻一：从噪点里"擦"出一张图

想象一下，你面前有一张 100% 灰度的电视雪花屏。完全没有规律的噪点，黑白点交错。

现在你告诉一个魔法师："请帮我擦出一只猫的画面。"

魔法师拿出一块魔法橡皮，开始擦——不是真的擦掉，而是把噪点慢慢"调整"。第一遍调整完，雪花屏隐约能看出一团模糊的轮廓。第二遍调整，轮廓变清晰，像一个圆形的脑袋。第三遍，圆形上面冒出两个三角形（耳朵）。第四遍，下面出现身体。第十遍，毛发的纹理出现了。第二十遍，眼睛的瞳孔出现了。第三十遍，画完了——一只清晰的猫。

AI 绘画的工作原理，就是这个"从雪花屏里擦出图"的过程。

它有一个学名叫"扩散模型"（Diffusion Model）——名字听起来很玄，但你只要记住"擦雪花屏"这个比喻就够了。

为什么 AI 能做到？因为它"见过"全世界几亿张图，它知道"猫长什么样"。当你告诉它"画一只猫"的时候，它能从一片混沌中，逐步"擦"出符合"猫"的样子的画面。

比喻二：AI 是个见多识广的"幼儿园美术老师"

想象有一个幼儿园美术老师，她见过全世界小朋友画过的几亿张画——梵高的星空、毕加索的牛、宫崎骏的龙猫、迪士尼的米老鼠、徐悲鸿的马、敦煌壁画的飞天……

她每张都看了几遍，记住了每一种"风格的特征"。

现在你跑到她面前，说："老师，画一只猫，宫崎骏风格。"

她不会拿真笔画，而是"凭脑子里所有看过的画，组合出一只符合宫崎骏风格的猫"。

她可能借鉴了《龙猫》里小猫巴士的圆脸蛋、《魔女宅急便》里黑猫吉吉的大眼睛、《千与千寻》里油屋的暖色调——综合起来，给你一只新的、独一无二的、带宫崎骏味道的猫。

这就是 AI 绘画——它不是抄袭，而是"基于无数已有作品的特征，生成全新的作品"。

这也解释了一个问题：为什么 AI 画的图，从来不是某张原图的"复制"，而是"看起来像但其实不是"？

因为它不存原图，它只存"风格特征"。就像你看完 100 部电影，你记不住每一句台词，但你对"喜剧电影"、"恐怖电影"的感觉是有的——你能模仿那种"感觉"，但你不会逐字逐句把电影台词背出来。

比喻三：你说菜单，AI 是大厨

你去餐厅点菜，不会自己进厨房做。你只需要告诉服务员："我要一个糖醋里脊、不放葱、辣度中等、配米饭。"

大厨拿到这张菜单，自己会做菜。你不需要告诉他"先把肉切丝、再裹蛋液、再下油锅炸 30 秒、再调汁……"。

AI 绘画也一样。你只需要写"菜单"——也就是提示词（Prompt）。AI 是大厨，自己知道怎么"做"。

你可以写得简单："一只猫"。你也可以写得详细："一只橘色短毛猫，趴在木质窗台上，看着窗外的夕阳，宫崎骏风格，柔和的橙色光线，温馨氛围。"

写得越详细，AI"做"得越接近你想要的。但要注意——写得详细不等于堆砌。第四章会专门讲怎么写。

三、AI 绘画 ≠ 你以前理解的"画图"

很多人第一次接触 AI 绘画，会拿它和这些东西比较。我们一一讲清楚。

1. AI 绘画 ≠ Photoshop（PS）

PS 是"修图"工具。你需要先有一张图，然后用工具修改它——抠图、调色、加滤镜、合成。

AI 绘画是"造图"工具。你什么都没有，只有一个想法（用文字描述），它从无到有给你画出来。

维度	Photoshop	AI 绘画
起点	已有的图	文字描述（甚至什么都没有）
操作方式	鼠标 + 工具栏	文字 + 参数
使用门槛	需要学几个月	30 分钟
产出速度	几小时一张	10 秒一张
适合人群	设计师	所有人

需要强调的是——这两者不是替代关系，而是互补关系。专业的设计师，会用 AI 绘画出 100 个草稿，挑 1 个用 PS 精修。

2. AI 绘画 ≠ 美图秀秀

美图秀秀是"美化"工具。你拍一张照片，它帮你美白、瘦脸、磨皮。它能修改的只是"照片本身"。

AI 绘画是"创造"工具。它能画出现实中根本不存在的画面——比如"一只穿着汉服的太空猫骑着独角兽飞过长安城"。

美图秀秀做不到这件事，PS 也做不到（除非你有美术功底+几小时）。AI 绘画能做到，10 秒钟。

3. AI 绘画 ≠ 模板拼贴

你可能用过那种"输入文字、自动生成海报"的工具，比如稿定设计、Canva。它们的工作方式是"从一堆现成的模板里挑一个，把你的文字塞进去"。

AI 绘画不是。它没有"模板"。每一次生成，都是独一无二的、新的画面。

举个例子：你说"画一张春节海报"，模板工具会给你一个"已有的春节海报模板"，可能全国有几千人都用了同一张。AI 绘画会给你一张"基于春节这个概念、全新生成的、世界上独此一张"的海报。

4. AI 绘画 ≠ 网上找图

很多人有这种习惯——需要图就去百度图片搜，搜到了就用。这有几个问题：

版权风险：你不知道这张图谁拥有，用了可能被起诉。
不够独特：你能搜到的图，别人也能搜到。
不够精准：你想要的"穿汉服的猫"，可能搜不到。

AI 绘画解决了三个问题：

版权清晰：你自己生成的图，版权归你（详见第十四章）。
独一无二：每张都是新的。
完全精准：你说什么样，它画什么样。

5. AI 绘画 ≠ "机器有了创造力"

这是个哲学问题，但简单说一句：AI 绘画的"创造力"，本质上是"基于已有作品的重新组合"。

它不会真的"无中生有"。它能画"穿汉服的太空猫"，是因为它见过"汉服"、见过"太空"、见过"猫"，它把这三者组合起来。

如果你给它一个完全不存在的概念（比如"五维空间生物"），它画出来的也是"基于人类已有想象的产物"，不会真的画出你脑子里没见过的东西。

所以——AI 绘画是工具，不是"创作者"。"创作者"还是你。你的想法、你的描述、你的审美判断，决定了最终图的好坏。

四、AI 绘画能画什么、不能画什么

这是 2026 年的最新情况。AI 能力一直在进化，未来可能突破一些"不能画"的领域。

能画得很好（90 分以上）

1. 风景

自然风光（山、海、森林、瀑布、星空）
城市风光（街道、建筑、霓虹、夜景）
概念场景（赛博朋克城市、奇幻仙境、外星球）

为什么画得好？因为风景的"细节容错率"高——少一棵树、多一朵云，看不出来。

2. 人物（半身像 / 全身像）

真实风格的人像
二次元风格的人像
写意风格的人像（油画、水彩、水墨）

为什么画得好？人像是最常见的训练数据，AI 见过几千万张人脸，能画得相当逼真。

3. 动物

写实动物（猫、狗、鸟、马）
卡通动物（迪士尼风、宫崎骏风、皮克斯风）
奇幻动物（独角兽、龙、飞马）

4. 物品

食物（菜品、水果、零食、饮料）
商品（化妆品、电子产品、服装）
道具（武器、家具、乐器）

5. 抽象 / 艺术风格

油画、水彩、水墨、素描
国风、日漫、欧美漫画
像素风、剪纸、立体派、印象派

能画但有瑕疵（70-85 分，需要后期修图）

1. 手部 AI 绘画的"千古难题"——常常画出 6 个手指、扭曲的手指、奇怪的手势。第八章会专门教你怎么修。

2. 文字 中文文字尤其难。AI 容易画出"看起来像汉字但不是"的乱码。即梦 AI 3.0 在文字方面已经大有改善，但仍不完美。

3. 多人互动 3 个以上的人物互动，容易出现"人脸混淆"、"肢体错位"。

4. 复杂逻辑场景 比如"一只猫在弹钢琴，钢琴上有一杯咖啡，咖啡映出主人的脸"——这种"嵌套关系"AI 容易理解错。

5. 特定动作 "踢足球的瞬间"、"跳水入水那一刻"——动作越具体，AI 越难画准。

几乎画不好（50 分以下，建议绕开）

1. 完全准确的解剖结构 比如医学插图，需要骨骼、肌肉、器官分毫不差——AI 绘画做不到。

2. 实物对照画 比如你给它一张你家小狗的照片，要它画"和这只狗一模一样的卡通版"——能像，但不会"完全是"。

3. 工程图、建筑图、电路图 需要精确比例的工程类图纸，AI 绘画完全做不到。这要用专门的 CAD、Sketch 等工具。

4. 特定品牌商标 / 角色 要画"米老鼠"、"皮卡丘"、"哈利波特"——出来的图会"像但不是"，而且涉及版权问题。

5. 完全脱离人类经验的画面 "五维空间的样子"、"鬼魂的形状"——AI 没见过，画出来也是"基于人类已有想象的拼凑"。

五、AI 绘画的"五大常见误解"

接触 AI 绘画的人，几乎都会有这几个误解。先在这里破解掉，省得后面踩坑。

误解一："AI 是从哪里抄的"

很多人看到 AI 画的图很惊艳，第一反应是"它一定是从哪里抄来的"。

事实是：AI 不存图。它在训练阶段"看过"几亿张图，但训练完之后，原图就不存在了——只剩下"特征"。

打个比方：你看了 100 部恐怖电影，你脑子里没有这 100 部电影的录像，但你能写出一个"恐怖电影"的剧本。这个剧本不是任何一部电影的复制，但它"有恐怖电影的味道"。

AI 绘画也是这样。

误解二："AI 画图要会编程"

完全不要。

2024 年之前，AI 绘画确实需要折腾——下载模型、配置环境、写命令。

2026 年的今天，国内大部分 AI 绘画工具都是"打开手机就能用"的微信小程序、网页版、App。

如果有一款 AI 绘画工具让你"装 Python 环境"、"git clone 项目"、"输入命令行"——你直接换一个就好。

误解三："AI 画图要付钱才能用"

不一定。

国产工具大部分有"免费额度"——即梦 AI 每天免费 60 积分（够画 60 张图）、可灵 AI 每天免费 66 积分、文心一格新用户送 200 积分、海艺 AI 免费版无水印……

只有当你想"快速大量出图"、"使用最新模型"、"商用授权"时，才需要付费。

普通人玩玩、出几张满意的图——完全可以一分钱不花。

误解四："AI 画图肯定不如人画的"

分场景看。

快速出大量草稿：AI 完胜。人画 1 张要 1 小时，AI 1 分钟出 4 张。
画风创意性 / 美感：顶级画师 > AI > 普通画师。AI 现在的水平，已经超过了大部分"普通画师"，但顶级画家仍然碾压 AI。
精确还原现实：AI 不行。要画"我家门口那棵 1990 年种的歪脖子树"，你拍照更准确。
特定风格的细腻表达：AI 已经能模仿大部分知名风格，但深入到"每个画师独特的笔触"，AI 仍有距离。

总的来说——对普通人来说，AI 绘画的水平远远超过自己手画。你又不是要替代徐悲鸿，何必和顶级画师比？

误解五："会用 AI 绘画的人，迟早被 AI 取代"

不会。

会用 AI 绘画的人，AI 是他的助手。不会用 AI 绘画的人，AI 是他的对手。

AI 取代的不是"画师"，AI 取代的是"不会用 AI 的画师"。

第十五章会详细讲这个问题——AI 绘画时代，普通人的"护城河"在哪里。

六、AI 绘画的简短发展史（2 分钟看懂）

了解一下背景，对你后面的学习有好处。如果不感兴趣，可以跳过。

2014 年：GAN 诞生

加拿大一位叫 Ian Goodfellow 的研究员，在喝啤酒的时候想出了一个点子——让两个 AI 互相 PK，一个负责画图，一个负责打分，互相进步。这个点子叫"生成对抗网络"（GAN），是 AI 绘画的真正起点。

但当时 GAN 画出来的图，糊得几乎认不出。

2018 年：进入"能看"阶段

NVIDIA（做显卡的公司）发布了 StyleGAN，能生成相当真实的人脸——但只能生成人脸，画别的还是一团糟。

2021 年：DALL-E 诞生

OpenAI（做 ChatGPT 的公司）发布了 DALL-E，第一次能"用文字描述生成图像"。但模型还很小，画出来的图卡通感重、细节差。

2022 年：扩散模型革命

三个里程碑：

DALL-E 2：OpenAI 出的，质量大跃进。
Midjourney：一个 11 人小团队做的，画质惊艳全网。
Stable Diffusion：开源版本发布，让全世界开发者都能玩。

这一年被称为"AI 绘画元年"。

2023-2024 年：国产工具崛起

字节跳动出了即梦 AI和豆包绘画
快手出了可灵 AI
百度出了文心一格
阿里出了通义万相
腾讯出了混元生图
Liblib、海艺等社区平台冒头

中国用户终于有了"中文友好、免费可用、不用翻墙"的 AI 绘画工具。

2025 年：视频与多模态融合

可灵 AI 1.0 发布，AI 视频走入大众视野
Sora（OpenAI）发布，演示视频惊艳全网
AI 绘画 + AI 视频开始深度结合

2026 年（当下）：百花齐放

即梦 AI 3.0：中文文字生成能力业界第一
可灵 AI 2.0：视频质量接近影视级
Midjourney V7：美学品质继续领先
Stable Diffusion 3.5：开源派的最新力作
Seedream（字节最新）：长文本理解能力突出
各家都在卷"长文本理解"、"角色一致性"、"实时生成"

我们今天学 AI 绘画，是站在了一个非常成熟的时间点上——工具好用、教程丰富、社区活跃、变现路径清晰。

七、AI 绘画的能力地图（看一张图就懂）

┌─────────────────────────────────────────────────────────┐
│                    AI 绘画的能力地图                      │
└─────────────────────────────────────────────────────────┘

                        ┌──────────┐
                        │  文生图   │  ← 输入文字，生成图
                        └────┬─────┘
                             │
            ┌────────────────┼────────────────┐
            ▼                ▼                ▼
       ┌─────────┐      ┌─────────┐      ┌─────────┐
       │ 单张高质量 │     │ 多张候选  │     │ 批量风格   │
       │ Midjourney│     │  即梦AI   │     │  Liblib  │
       └─────────┘      └─────────┘      └─────────┘

                        ┌──────────┐
                        │  图生图   │  ← 输入图+文字，生成新图
                        └────┬─────┘
                             │
            ┌────────────────┼────────────────┐
            ▼                ▼                ▼
       ┌─────────┐      ┌─────────┐      ┌─────────┐
       │ 风格迁移  │     │  局部重绘  │    │  扩图    │
       │ "国风化"  │     │ "改头发"   │    │ "横向扩"  │
       └─────────┘      └─────────┘      └─────────┘

                        ┌──────────┐
                        │ 进阶能力  │
                        └────┬─────┘
                             │
            ┌────────────────┼────────────────┐
            ▼                ▼                ▼
       ┌─────────┐      ┌─────────┐      ┌─────────┐
       │ 角色一致 │      │ 多图融合  │     │  视频生成 │
       │ 同一个人│      │  两图合一│      │  图变视频 │
       └─────────┘      └─────────┘      └─────────┘

本书会按这个地图，从"文生图"开始（第四章），一步步进阶到"图生图"（第七章）、再到"进阶能力"（第八章）。

八、本章最重要的三个概念

请你用 30 秒记住下面三个词，后面所有章节都会用到：

1. 提示词（Prompt）

你给 AI 的"菜单"。文字描述。可以中文，可以英文。可以一句话，可以一篇小作文。

2. 文生图 vs 图生图

文生图：只给 AI 文字，让它画。从零开始。
图生图：给 AI 一张参考图 + 文字，让它在参考图基础上重新画。

3. 模型（Model）

AI 画师的"画风+能力组合"。比如即梦 3.0 模型擅长中文文字、Midjourney V7 擅长美学、Stable Diffusion XL 擅长定制化。

九、5 分钟动手实验

如果你看到这里、有手机在身边——请打开微信，搜索小程序"即梦 AI"。

点进去，登录（用抖音账号或者手机号）。

不用看任何教程，直接在输入框里打："一只猫"。

点"立即生成"。

等 10-30 秒。

恭喜你——你已经画出了人生第一张 AI 图。

不管它好看不好看、是不是你想象中的样子——你已经迈出了第一步。

把这张图截屏，发到朋友圈，写："这是我第一张 AI 画的图。"

朋友会问你"怎么画的？"——告诉他/她，看这本书。

下一章预告：第二章 2026 年 AI 绘画工具全景图

我们已经知道 AI 绘画是什么了。但市面上工具几十款——即梦、可灵、文心一格、通义万相、豆包、海艺、Liblib、Midjourney、DALL-E、Stable Diffusion……到底用哪个？下一章会给你一张完整的"工具地图"，按"零基础/进阶/专业"三个梯队推荐，并附"长辈友好版"、"宝妈友好版"、"上班族友好版"三个具体推荐。

本章小抄：

AI 绘画的本质：从噪点里"擦"出一张图（扩散模型），不是"一笔一笔画"。

AI 不是抄袭，是"基于无数已有作品的特征，生成全新作品"。

AI 绘画 ≠ PS、≠ 美图秀秀、≠ 模板拼贴、≠ 网上找图。它是从无到有的"造图"。

AI 能画风景、人物、动物、物品、艺术风格；不能画准手指、文字、多人互动、工程图。

五大误解：AI 不是抄、不需要会编程、不一定要付钱、不一定不如人画、不会取代会用它的人。

三个核心概念：提示词、文生图/图生图、模型。

立刻打开"即梦 AI"小程序，画一张"一只猫"——这是你的起点。