ORANGE BOOK · AI ART

第一章 AI 绘画到底是什么——用大白话讲清楚


一、先看一张图,再讲原理

不知道你有没有这样的经历:

晚上你躺在床上,眼睛闭着,脑子里突然浮现出一个画面——可能是"小时候爷爷家院子的样子"、"昨天梦到的奇怪场景"、"想象中以后退休住的小屋"。

那个画面在你脑子里清清楚楚,但你画不出来。你拿起笔、对着白纸,什么都画不出。

这是普通人和画家最大的区别——画家有一个"通道",能把脑子里的画面输送到纸上。普通人没有这个通道。

AI 绘画做的事,就是给你一个"脑子到纸"的通道。

你脑子里有什么画面,用文字描述出来,AI 帮你画出来。


二、三个生活化的比喻:AI 绘画是怎么"画"的

很多人以为 AI 绘画是这样的——"机器手里有支虚拟的笔,按照你说的,一笔一笔画"。

不对。完全不是这样。

AI 绘画的真实工作方式,更像下面三个比喻。

比喻一:从噪点里"擦"出一张图

想象一下,你面前有一张 100% 灰度的电视雪花屏。完全没有规律的噪点,黑白点交错。

现在你告诉一个魔法师:"请帮我擦出一只猫的画面。"

魔法师拿出一块魔法橡皮,开始擦——不是真的擦掉,而是把噪点慢慢"调整"。第一遍调整完,雪花屏隐约能看出一团模糊的轮廓。第二遍调整,轮廓变清晰,像一个圆形的脑袋。第三遍,圆形上面冒出两个三角形(耳朵)。第四遍,下面出现身体。第十遍,毛发的纹理出现了。第二十遍,眼睛的瞳孔出现了。第三十遍,画完了——一只清晰的猫。

AI 绘画的工作原理,就是这个"从雪花屏里擦出图"的过程

它有一个学名叫"扩散模型"(Diffusion Model)——名字听起来很玄,但你只要记住"擦雪花屏"这个比喻就够了。

为什么 AI 能做到?因为它"见过"全世界几亿张图,它知道"猫长什么样"。当你告诉它"画一只猫"的时候,它能从一片混沌中,逐步"擦"出符合"猫"的样子的画面。

比喻二:AI 是个见多识广的"幼儿园美术老师"

想象有一个幼儿园美术老师,她见过全世界小朋友画过的几亿张画——梵高的星空、毕加索的牛、宫崎骏的龙猫、迪士尼的米老鼠、徐悲鸿的马、敦煌壁画的飞天……

她每张都看了几遍,记住了每一种"风格的特征"。

现在你跑到她面前,说:"老师,画一只猫,宫崎骏风格。"

她不会拿真笔画,而是"凭脑子里所有看过的画,组合出一只符合宫崎骏风格的猫"。

她可能借鉴了《龙猫》里小猫巴士的圆脸蛋、《魔女宅急便》里黑猫吉吉的大眼睛、《千与千寻》里油屋的暖色调——综合起来,给你一只新的、独一无二的、带宫崎骏味道的猫。

这就是 AI 绘画——它不是抄袭,而是"基于无数已有作品的特征,生成全新的作品"

这也解释了一个问题:为什么 AI 画的图,从来不是某张原图的"复制",而是"看起来像但其实不是"?

因为它不存原图,它只存"风格特征"。就像你看完 100 部电影,你记不住每一句台词,但你对"喜剧电影"、"恐怖电影"的感觉是有的——你能模仿那种"感觉",但你不会逐字逐句把电影台词背出来。

比喻三:你说菜单,AI 是大厨

你去餐厅点菜,不会自己进厨房做。你只需要告诉服务员:"我要一个糖醋里脊、不放葱、辣度中等、配米饭。"

大厨拿到这张菜单,自己会做菜。你不需要告诉他"先把肉切丝、再裹蛋液、再下油锅炸 30 秒、再调汁……"。

AI 绘画也一样。你只需要写"菜单"——也就是提示词(Prompt)。AI 是大厨,自己知道怎么"做"。

你可以写得简单:"一只猫"。 你也可以写得详细:"一只橘色短毛猫,趴在木质窗台上,看着窗外的夕阳,宫崎骏风格,柔和的橙色光线,温馨氛围。"

写得越详细,AI"做"得越接近你想要的。但要注意——写得详细不等于堆砌。第四章会专门讲怎么写。


三、AI 绘画 ≠ 你以前理解的"画图"

很多人第一次接触 AI 绘画,会拿它和这些东西比较。我们一一讲清楚。

1. AI 绘画 ≠ Photoshop(PS)

PS 是"修图"工具。你需要先有一张图,然后用工具修改它——抠图、调色、加滤镜、合成。

AI 绘画是"造图"工具。你什么都没有,只有一个想法(用文字描述),它从无到有给你画出来。

维度 Photoshop AI 绘画
起点 已有的图 文字描述(甚至什么都没有)
操作方式 鼠标 + 工具栏 文字 + 参数
使用门槛 需要学几个月 30 分钟
产出速度 几小时一张 10 秒一张
适合人群 设计师 所有人

需要强调的是——这两者不是替代关系,而是互补关系。专业的设计师,会用 AI 绘画出 100 个草稿,挑 1 个用 PS 精修。

2. AI 绘画 ≠ 美图秀秀

美图秀秀是"美化"工具。你拍一张照片,它帮你美白、瘦脸、磨皮。它能修改的只是"照片本身"。

AI 绘画是"创造"工具。它能画出现实中根本不存在的画面——比如"一只穿着汉服的太空猫骑着独角兽飞过长安城"。

美图秀秀做不到这件事,PS 也做不到(除非你有美术功底+几小时)。AI 绘画能做到,10 秒钟。

3. AI 绘画 ≠ 模板拼贴

你可能用过那种"输入文字、自动生成海报"的工具,比如稿定设计、Canva。它们的工作方式是"从一堆现成的模板里挑一个,把你的文字塞进去"。

AI 绘画不是。它没有"模板"。每一次生成,都是独一无二的、新的画面。

举个例子:你说"画一张春节海报",模板工具会给你一个"已有的春节海报模板",可能全国有几千人都用了同一张。AI 绘画会给你一张"基于春节这个概念、全新生成的、世界上独此一张"的海报。

4. AI 绘画 ≠ 网上找图

很多人有这种习惯——需要图就去百度图片搜,搜到了就用。这有几个问题:

  • 版权风险:你不知道这张图谁拥有,用了可能被起诉。
  • 不够独特:你能搜到的图,别人也能搜到。
  • 不够精准:你想要的"穿汉服的猫",可能搜不到。

AI 绘画解决了三个问题:

  • 版权清晰:你自己生成的图,版权归你(详见第十四章)。
  • 独一无二:每张都是新的。
  • 完全精准:你说什么样,它画什么样。

5. AI 绘画 ≠ "机器有了创造力"

这是个哲学问题,但简单说一句:AI 绘画的"创造力",本质上是"基于已有作品的重新组合"。

它不会真的"无中生有"。它能画"穿汉服的太空猫",是因为它见过"汉服"、见过"太空"、见过"猫",它把这三者组合起来。

如果你给它一个完全不存在的概念(比如"五维空间生物"),它画出来的也是"基于人类已有想象的产物",不会真的画出你脑子里没见过的东西。

所以——AI 绘画是工具,不是"创作者"。"创作者"还是你。你的想法、你的描述、你的审美判断,决定了最终图的好坏。


四、AI 绘画能画什么、不能画什么

这是 2026 年的最新情况。AI 能力一直在进化,未来可能突破一些"不能画"的领域。

能画得很好(90 分以上)

1. 风景

  • 自然风光(山、海、森林、瀑布、星空)
  • 城市风光(街道、建筑、霓虹、夜景)
  • 概念场景(赛博朋克城市、奇幻仙境、外星球)

为什么画得好?因为风景的"细节容错率"高——少一棵树、多一朵云,看不出来。

2. 人物(半身像 / 全身像)

  • 真实风格的人像
  • 二次元风格的人像
  • 写意风格的人像(油画、水彩、水墨)

为什么画得好?人像是最常见的训练数据,AI 见过几千万张人脸,能画得相当逼真。

3. 动物

  • 写实动物(猫、狗、鸟、马)
  • 卡通动物(迪士尼风、宫崎骏风、皮克斯风)
  • 奇幻动物(独角兽、龙、飞马)

4. 物品

  • 食物(菜品、水果、零食、饮料)
  • 商品(化妆品、电子产品、服装)
  • 道具(武器、家具、乐器)

5. 抽象 / 艺术风格

  • 油画、水彩、水墨、素描
  • 国风、日漫、欧美漫画
  • 像素风、剪纸、立体派、印象派

能画但有瑕疵(70-85 分,需要后期修图)

1. 手部 AI 绘画的"千古难题"——常常画出 6 个手指、扭曲的手指、奇怪的手势。第八章会专门教你怎么修。

2. 文字 中文文字尤其难。AI 容易画出"看起来像汉字但不是"的乱码。即梦 AI 3.0 在文字方面已经大有改善,但仍不完美。

3. 多人互动 3 个以上的人物互动,容易出现"人脸混淆"、"肢体错位"。

4. 复杂逻辑场景 比如"一只猫在弹钢琴,钢琴上有一杯咖啡,咖啡映出主人的脸"——这种"嵌套关系"AI 容易理解错。

5. 特定动作 "踢足球的瞬间"、"跳水入水那一刻"——动作越具体,AI 越难画准。

几乎画不好(50 分以下,建议绕开)

1. 完全准确的解剖结构 比如医学插图,需要骨骼、肌肉、器官分毫不差——AI 绘画做不到。

2. 实物对照画 比如你给它一张你家小狗的照片,要它画"和这只狗一模一样的卡通版"——能像,但不会"完全是"。

3. 工程图、建筑图、电路图 需要精确比例的工程类图纸,AI 绘画完全做不到。这要用专门的 CAD、Sketch 等工具。

4. 特定品牌商标 / 角色 要画"米老鼠"、"皮卡丘"、"哈利波特"——出来的图会"像但不是",而且涉及版权问题。

5. 完全脱离人类经验的画面 "五维空间的样子"、"鬼魂的形状"——AI 没见过,画出来也是"基于人类已有想象的拼凑"。


五、AI 绘画的"五大常见误解"

接触 AI 绘画的人,几乎都会有这几个误解。先在这里破解掉,省得后面踩坑。

误解一:"AI 是从哪里抄的"

很多人看到 AI 画的图很惊艳,第一反应是"它一定是从哪里抄来的"。

事实是:AI 不存图。它在训练阶段"看过"几亿张图,但训练完之后,原图就不存在了——只剩下"特征"。

打个比方:你看了 100 部恐怖电影,你脑子里没有这 100 部电影的录像,但你能写出一个"恐怖电影"的剧本。这个剧本不是任何一部电影的复制,但它"有恐怖电影的味道"。

AI 绘画也是这样。

误解二:"AI 画图要会编程"

完全不要。

2024 年之前,AI 绘画确实需要折腾——下载模型、配置环境、写命令。

2026 年的今天,国内大部分 AI 绘画工具都是"打开手机就能用"的微信小程序、网页版、App。

如果有一款 AI 绘画工具让你"装 Python 环境"、"git clone 项目"、"输入命令行"——你直接换一个就好。

误解三:"AI 画图要付钱才能用"

不一定。

国产工具大部分有"免费额度"——即梦 AI 每天免费 60 积分(够画 60 张图)、可灵 AI 每天免费 66 积分、文心一格新用户送 200 积分、海艺 AI 免费版无水印……

只有当你想"快速大量出图"、"使用最新模型"、"商用授权"时,才需要付费。

普通人玩玩、出几张满意的图——完全可以一分钱不花。

误解四:"AI 画图肯定不如人画的"

分场景看。

  • 快速出大量草稿:AI 完胜。人画 1 张要 1 小时,AI 1 分钟出 4 张。
  • 画风创意性 / 美感:顶级画师 > AI > 普通画师。AI 现在的水平,已经超过了大部分"普通画师",但顶级画家仍然碾压 AI。
  • 精确还原现实:AI 不行。要画"我家门口那棵 1990 年种的歪脖子树",你拍照更准确。
  • 特定风格的细腻表达:AI 已经能模仿大部分知名风格,但深入到"每个画师独特的笔触",AI 仍有距离。

总的来说——对普通人来说,AI 绘画的水平远远超过自己手画。你又不是要替代徐悲鸿,何必和顶级画师比?

误解五:"会用 AI 绘画的人,迟早被 AI 取代"

不会。

会用 AI 绘画的人,AI 是他的助手。 不会用 AI 绘画的人,AI 是他的对手。

AI 取代的不是"画师",AI 取代的是"不会用 AI 的画师"。

第十五章会详细讲这个问题——AI 绘画时代,普通人的"护城河"在哪里。


六、AI 绘画的简短发展史(2 分钟看懂)

了解一下背景,对你后面的学习有好处。如果不感兴趣,可以跳过。

2014 年:GAN 诞生

加拿大一位叫 Ian Goodfellow 的研究员,在喝啤酒的时候想出了一个点子——让两个 AI 互相 PK,一个负责画图,一个负责打分,互相进步。这个点子叫"生成对抗网络"(GAN),是 AI 绘画的真正起点。

但当时 GAN 画出来的图,糊得几乎认不出。

2018 年:进入"能看"阶段

NVIDIA(做显卡的公司)发布了 StyleGAN,能生成相当真实的人脸——但只能生成人脸,画别的还是一团糟。

2021 年:DALL-E 诞生

OpenAI(做 ChatGPT 的公司)发布了 DALL-E,第一次能"用文字描述生成图像"。但模型还很小,画出来的图卡通感重、细节差。

2022 年:扩散模型革命

三个里程碑:

  • DALL-E 2:OpenAI 出的,质量大跃进。
  • Midjourney:一个 11 人小团队做的,画质惊艳全网。
  • Stable Diffusion:开源版本发布,让全世界开发者都能玩。

这一年被称为"AI 绘画元年"。

2023-2024 年:国产工具崛起

  • 字节跳动出了即梦 AI豆包绘画
  • 快手出了可灵 AI
  • 百度出了文心一格
  • 阿里出了通义万相
  • 腾讯出了混元生图
  • Liblib、海艺等社区平台冒头

中国用户终于有了"中文友好、免费可用、不用翻墙"的 AI 绘画工具。

2025 年:视频与多模态融合

  • 可灵 AI 1.0 发布,AI 视频走入大众视野
  • Sora(OpenAI)发布,演示视频惊艳全网
  • AI 绘画 + AI 视频开始深度结合

2026 年(当下):百花齐放

  • 即梦 AI 3.0:中文文字生成能力业界第一
  • 可灵 AI 2.0:视频质量接近影视级
  • Midjourney V7:美学品质继续领先
  • Stable Diffusion 3.5:开源派的最新力作
  • Seedream(字节最新):长文本理解能力突出
  • 各家都在卷"长文本理解"、"角色一致性"、"实时生成"

我们今天学 AI 绘画,是站在了一个非常成熟的时间点上——工具好用、教程丰富、社区活跃、变现路径清晰。


七、AI 绘画的能力地图(看一张图就懂)

┌─────────────────────────────────────────────────────────┐
│                    AI 绘画的能力地图                      │
└─────────────────────────────────────────────────────────┘

                        ┌──────────┐
                        │  文生图   │  ← 输入文字,生成图
                        └────┬─────┘
                             │
            ┌────────────────┼────────────────┐
            ▼                ▼                ▼
       ┌─────────┐      ┌─────────┐      ┌─────────┐
       │ 单张高质量 │     │ 多张候选  │     │ 批量风格   │
       │ Midjourney│     │  即梦AI   │     │  Liblib  │
       └─────────┘      └─────────┘      └─────────┘

                        ┌──────────┐
                        │  图生图   │  ← 输入图+文字,生成新图
                        └────┬─────┘
                             │
            ┌────────────────┼────────────────┐
            ▼                ▼                ▼
       ┌─────────┐      ┌─────────┐      ┌─────────┐
       │ 风格迁移  │     │  局部重绘  │    │  扩图    │
       │ "国风化"  │     │ "改头发"   │    │ "横向扩"  │
       └─────────┘      └─────────┘      └─────────┘

                        ┌──────────┐
                        │ 进阶能力  │
                        └────┬─────┘
                             │
            ┌────────────────┼────────────────┐
            ▼                ▼                ▼
       ┌─────────┐      ┌─────────┐      ┌─────────┐
       │ 角色一致 │      │ 多图融合  │     │  视频生成 │
       │ 同一个人│      │  两图合一│      │  图变视频 │
       └─────────┘      └─────────┘      └─────────┘

本书会按这个地图,从"文生图"开始(第四章),一步步进阶到"图生图"(第七章)、再到"进阶能力"(第八章)。


八、本章最重要的三个概念

请你用 30 秒记住下面三个词,后面所有章节都会用到:

1. 提示词(Prompt)

你给 AI 的"菜单"。文字描述。可以中文,可以英文。可以一句话,可以一篇小作文。

2. 文生图 vs 图生图

  • 文生图:只给 AI 文字,让它画。从零开始。
  • 图生图:给 AI 一张参考图 + 文字,让它在参考图基础上重新画。

3. 模型(Model)

AI 画师的"画风+能力组合"。比如即梦 3.0 模型擅长中文文字、Midjourney V7 擅长美学、Stable Diffusion XL 擅长定制化。


九、5 分钟动手实验

如果你看到这里、有手机在身边——请打开微信,搜索小程序"即梦 AI"。

点进去,登录(用抖音账号或者手机号)。

不用看任何教程,直接在输入框里打:"一只猫"。

点"立即生成"。

等 10-30 秒。

恭喜你——你已经画出了人生第一张 AI 图。

不管它好看不好看、是不是你想象中的样子——你已经迈出了第一步。

把这张图截屏,发到朋友圈,写:"这是我第一张 AI 画的图。"

朋友会问你"怎么画的?"——告诉他/她,看这本书。


下一章预告第二章 2026 年 AI 绘画工具全景图

我们已经知道 AI 绘画是什么了。但市面上工具几十款——即梦、可灵、文心一格、通义万相、豆包、海艺、Liblib、Midjourney、DALL-E、Stable Diffusion……到底用哪个?下一章会给你一张完整的"工具地图",按"零基础/进阶/专业"三个梯队推荐,并附"长辈友好版"、"宝妈友好版"、"上班族友好版"三个具体推荐。

本章小抄

  1. AI 绘画的本质:从噪点里"擦"出一张图(扩散模型),不是"一笔一笔画"。
  2. AI 不是抄袭,是"基于无数已有作品的特征,生成全新作品"。
  3. AI 绘画 ≠ PS、≠ 美图秀秀、≠ 模板拼贴、≠ 网上找图。它是从无到有的"造图"。
  4. AI 能画风景、人物、动物、物品、艺术风格;不能画准手指、文字、多人互动、工程图。
  5. 五大误解:AI 不是抄、不需要会编程、不一定要付钱、不一定不如人画、不会取代会用它的人。
  6. 三个核心概念:提示词、文生图/图生图、模型。
  7. 立刻打开"即梦 AI"小程序,画一张"一只猫"——这是你的起点。