一、先看一张图,再讲原理
不知道你有没有这样的经历:
晚上你躺在床上,眼睛闭着,脑子里突然浮现出一个画面——可能是"小时候爷爷家院子的样子"、"昨天梦到的奇怪场景"、"想象中以后退休住的小屋"。
那个画面在你脑子里清清楚楚,但你画不出来。你拿起笔、对着白纸,什么都画不出。
这是普通人和画家最大的区别——画家有一个"通道",能把脑子里的画面输送到纸上。普通人没有这个通道。
AI 绘画做的事,就是给你一个"脑子到纸"的通道。
你脑子里有什么画面,用文字描述出来,AI 帮你画出来。
二、三个生活化的比喻:AI 绘画是怎么"画"的
很多人以为 AI 绘画是这样的——"机器手里有支虚拟的笔,按照你说的,一笔一笔画"。
不对。完全不是这样。
AI 绘画的真实工作方式,更像下面三个比喻。
比喻一:从噪点里"擦"出一张图
想象一下,你面前有一张 100% 灰度的电视雪花屏。完全没有规律的噪点,黑白点交错。
现在你告诉一个魔法师:"请帮我擦出一只猫的画面。"
魔法师拿出一块魔法橡皮,开始擦——不是真的擦掉,而是把噪点慢慢"调整"。第一遍调整完,雪花屏隐约能看出一团模糊的轮廓。第二遍调整,轮廓变清晰,像一个圆形的脑袋。第三遍,圆形上面冒出两个三角形(耳朵)。第四遍,下面出现身体。第十遍,毛发的纹理出现了。第二十遍,眼睛的瞳孔出现了。第三十遍,画完了——一只清晰的猫。
AI 绘画的工作原理,就是这个"从雪花屏里擦出图"的过程。
它有一个学名叫"扩散模型"(Diffusion Model)——名字听起来很玄,但你只要记住"擦雪花屏"这个比喻就够了。
为什么 AI 能做到?因为它"见过"全世界几亿张图,它知道"猫长什么样"。当你告诉它"画一只猫"的时候,它能从一片混沌中,逐步"擦"出符合"猫"的样子的画面。
比喻二:AI 是个见多识广的"幼儿园美术老师"
想象有一个幼儿园美术老师,她见过全世界小朋友画过的几亿张画——梵高的星空、毕加索的牛、宫崎骏的龙猫、迪士尼的米老鼠、徐悲鸿的马、敦煌壁画的飞天……
她每张都看了几遍,记住了每一种"风格的特征"。
现在你跑到她面前,说:"老师,画一只猫,宫崎骏风格。"
她不会拿真笔画,而是"凭脑子里所有看过的画,组合出一只符合宫崎骏风格的猫"。
她可能借鉴了《龙猫》里小猫巴士的圆脸蛋、《魔女宅急便》里黑猫吉吉的大眼睛、《千与千寻》里油屋的暖色调——综合起来,给你一只新的、独一无二的、带宫崎骏味道的猫。
这就是 AI 绘画——它不是抄袭,而是"基于无数已有作品的特征,生成全新的作品"。
这也解释了一个问题:为什么 AI 画的图,从来不是某张原图的"复制",而是"看起来像但其实不是"?
因为它不存原图,它只存"风格特征"。就像你看完 100 部电影,你记不住每一句台词,但你对"喜剧电影"、"恐怖电影"的感觉是有的——你能模仿那种"感觉",但你不会逐字逐句把电影台词背出来。
比喻三:你说菜单,AI 是大厨
你去餐厅点菜,不会自己进厨房做。你只需要告诉服务员:"我要一个糖醋里脊、不放葱、辣度中等、配米饭。"
大厨拿到这张菜单,自己会做菜。你不需要告诉他"先把肉切丝、再裹蛋液、再下油锅炸 30 秒、再调汁……"。
AI 绘画也一样。你只需要写"菜单"——也就是提示词(Prompt)。AI 是大厨,自己知道怎么"做"。
你可以写得简单:"一只猫"。 你也可以写得详细:"一只橘色短毛猫,趴在木质窗台上,看着窗外的夕阳,宫崎骏风格,柔和的橙色光线,温馨氛围。"
写得越详细,AI"做"得越接近你想要的。但要注意——写得详细不等于堆砌。第四章会专门讲怎么写。
三、AI 绘画 ≠ 你以前理解的"画图"
很多人第一次接触 AI 绘画,会拿它和这些东西比较。我们一一讲清楚。
1. AI 绘画 ≠ Photoshop(PS)
PS 是"修图"工具。你需要先有一张图,然后用工具修改它——抠图、调色、加滤镜、合成。
AI 绘画是"造图"工具。你什么都没有,只有一个想法(用文字描述),它从无到有给你画出来。
| 维度 | Photoshop | AI 绘画 |
|---|---|---|
| 起点 | 已有的图 | 文字描述(甚至什么都没有) |
| 操作方式 | 鼠标 + 工具栏 | 文字 + 参数 |
| 使用门槛 | 需要学几个月 | 30 分钟 |
| 产出速度 | 几小时一张 | 10 秒一张 |
| 适合人群 | 设计师 | 所有人 |
需要强调的是——这两者不是替代关系,而是互补关系。专业的设计师,会用 AI 绘画出 100 个草稿,挑 1 个用 PS 精修。
2. AI 绘画 ≠ 美图秀秀
美图秀秀是"美化"工具。你拍一张照片,它帮你美白、瘦脸、磨皮。它能修改的只是"照片本身"。
AI 绘画是"创造"工具。它能画出现实中根本不存在的画面——比如"一只穿着汉服的太空猫骑着独角兽飞过长安城"。
美图秀秀做不到这件事,PS 也做不到(除非你有美术功底+几小时)。AI 绘画能做到,10 秒钟。
3. AI 绘画 ≠ 模板拼贴
你可能用过那种"输入文字、自动生成海报"的工具,比如稿定设计、Canva。它们的工作方式是"从一堆现成的模板里挑一个,把你的文字塞进去"。
AI 绘画不是。它没有"模板"。每一次生成,都是独一无二的、新的画面。
举个例子:你说"画一张春节海报",模板工具会给你一个"已有的春节海报模板",可能全国有几千人都用了同一张。AI 绘画会给你一张"基于春节这个概念、全新生成的、世界上独此一张"的海报。
4. AI 绘画 ≠ 网上找图
很多人有这种习惯——需要图就去百度图片搜,搜到了就用。这有几个问题:
- 版权风险:你不知道这张图谁拥有,用了可能被起诉。
- 不够独特:你能搜到的图,别人也能搜到。
- 不够精准:你想要的"穿汉服的猫",可能搜不到。
AI 绘画解决了三个问题:
- 版权清晰:你自己生成的图,版权归你(详见第十四章)。
- 独一无二:每张都是新的。
- 完全精准:你说什么样,它画什么样。
5. AI 绘画 ≠ "机器有了创造力"
这是个哲学问题,但简单说一句:AI 绘画的"创造力",本质上是"基于已有作品的重新组合"。
它不会真的"无中生有"。它能画"穿汉服的太空猫",是因为它见过"汉服"、见过"太空"、见过"猫",它把这三者组合起来。
如果你给它一个完全不存在的概念(比如"五维空间生物"),它画出来的也是"基于人类已有想象的产物",不会真的画出你脑子里没见过的东西。
所以——AI 绘画是工具,不是"创作者"。"创作者"还是你。你的想法、你的描述、你的审美判断,决定了最终图的好坏。
四、AI 绘画能画什么、不能画什么
这是 2026 年的最新情况。AI 能力一直在进化,未来可能突破一些"不能画"的领域。
能画得很好(90 分以上)
1. 风景
- 自然风光(山、海、森林、瀑布、星空)
- 城市风光(街道、建筑、霓虹、夜景)
- 概念场景(赛博朋克城市、奇幻仙境、外星球)
为什么画得好?因为风景的"细节容错率"高——少一棵树、多一朵云,看不出来。
2. 人物(半身像 / 全身像)
- 真实风格的人像
- 二次元风格的人像
- 写意风格的人像(油画、水彩、水墨)
为什么画得好?人像是最常见的训练数据,AI 见过几千万张人脸,能画得相当逼真。
3. 动物
- 写实动物(猫、狗、鸟、马)
- 卡通动物(迪士尼风、宫崎骏风、皮克斯风)
- 奇幻动物(独角兽、龙、飞马)
4. 物品
- 食物(菜品、水果、零食、饮料)
- 商品(化妆品、电子产品、服装)
- 道具(武器、家具、乐器)
5. 抽象 / 艺术风格
- 油画、水彩、水墨、素描
- 国风、日漫、欧美漫画
- 像素风、剪纸、立体派、印象派
能画但有瑕疵(70-85 分,需要后期修图)
1. 手部 AI 绘画的"千古难题"——常常画出 6 个手指、扭曲的手指、奇怪的手势。第八章会专门教你怎么修。
2. 文字 中文文字尤其难。AI 容易画出"看起来像汉字但不是"的乱码。即梦 AI 3.0 在文字方面已经大有改善,但仍不完美。
3. 多人互动 3 个以上的人物互动,容易出现"人脸混淆"、"肢体错位"。
4. 复杂逻辑场景 比如"一只猫在弹钢琴,钢琴上有一杯咖啡,咖啡映出主人的脸"——这种"嵌套关系"AI 容易理解错。
5. 特定动作 "踢足球的瞬间"、"跳水入水那一刻"——动作越具体,AI 越难画准。
几乎画不好(50 分以下,建议绕开)
1. 完全准确的解剖结构 比如医学插图,需要骨骼、肌肉、器官分毫不差——AI 绘画做不到。
2. 实物对照画 比如你给它一张你家小狗的照片,要它画"和这只狗一模一样的卡通版"——能像,但不会"完全是"。
3. 工程图、建筑图、电路图 需要精确比例的工程类图纸,AI 绘画完全做不到。这要用专门的 CAD、Sketch 等工具。
4. 特定品牌商标 / 角色 要画"米老鼠"、"皮卡丘"、"哈利波特"——出来的图会"像但不是",而且涉及版权问题。
5. 完全脱离人类经验的画面 "五维空间的样子"、"鬼魂的形状"——AI 没见过,画出来也是"基于人类已有想象的拼凑"。
五、AI 绘画的"五大常见误解"
接触 AI 绘画的人,几乎都会有这几个误解。先在这里破解掉,省得后面踩坑。
误解一:"AI 是从哪里抄的"
很多人看到 AI 画的图很惊艳,第一反应是"它一定是从哪里抄来的"。
事实是:AI 不存图。它在训练阶段"看过"几亿张图,但训练完之后,原图就不存在了——只剩下"特征"。
打个比方:你看了 100 部恐怖电影,你脑子里没有这 100 部电影的录像,但你能写出一个"恐怖电影"的剧本。这个剧本不是任何一部电影的复制,但它"有恐怖电影的味道"。
AI 绘画也是这样。
误解二:"AI 画图要会编程"
完全不要。
2024 年之前,AI 绘画确实需要折腾——下载模型、配置环境、写命令。
2026 年的今天,国内大部分 AI 绘画工具都是"打开手机就能用"的微信小程序、网页版、App。
如果有一款 AI 绘画工具让你"装 Python 环境"、"git clone 项目"、"输入命令行"——你直接换一个就好。
误解三:"AI 画图要付钱才能用"
不一定。
国产工具大部分有"免费额度"——即梦 AI 每天免费 60 积分(够画 60 张图)、可灵 AI 每天免费 66 积分、文心一格新用户送 200 积分、海艺 AI 免费版无水印……
只有当你想"快速大量出图"、"使用最新模型"、"商用授权"时,才需要付费。
普通人玩玩、出几张满意的图——完全可以一分钱不花。
误解四:"AI 画图肯定不如人画的"
分场景看。
- 快速出大量草稿:AI 完胜。人画 1 张要 1 小时,AI 1 分钟出 4 张。
- 画风创意性 / 美感:顶级画师 > AI > 普通画师。AI 现在的水平,已经超过了大部分"普通画师",但顶级画家仍然碾压 AI。
- 精确还原现实:AI 不行。要画"我家门口那棵 1990 年种的歪脖子树",你拍照更准确。
- 特定风格的细腻表达:AI 已经能模仿大部分知名风格,但深入到"每个画师独特的笔触",AI 仍有距离。
总的来说——对普通人来说,AI 绘画的水平远远超过自己手画。你又不是要替代徐悲鸿,何必和顶级画师比?
误解五:"会用 AI 绘画的人,迟早被 AI 取代"
不会。
会用 AI 绘画的人,AI 是他的助手。 不会用 AI 绘画的人,AI 是他的对手。
AI 取代的不是"画师",AI 取代的是"不会用 AI 的画师"。
第十五章会详细讲这个问题——AI 绘画时代,普通人的"护城河"在哪里。
六、AI 绘画的简短发展史(2 分钟看懂)
了解一下背景,对你后面的学习有好处。如果不感兴趣,可以跳过。
2014 年:GAN 诞生
加拿大一位叫 Ian Goodfellow 的研究员,在喝啤酒的时候想出了一个点子——让两个 AI 互相 PK,一个负责画图,一个负责打分,互相进步。这个点子叫"生成对抗网络"(GAN),是 AI 绘画的真正起点。
但当时 GAN 画出来的图,糊得几乎认不出。
2018 年:进入"能看"阶段
NVIDIA(做显卡的公司)发布了 StyleGAN,能生成相当真实的人脸——但只能生成人脸,画别的还是一团糟。
2021 年:DALL-E 诞生
OpenAI(做 ChatGPT 的公司)发布了 DALL-E,第一次能"用文字描述生成图像"。但模型还很小,画出来的图卡通感重、细节差。
2022 年:扩散模型革命
三个里程碑:
- DALL-E 2:OpenAI 出的,质量大跃进。
- Midjourney:一个 11 人小团队做的,画质惊艳全网。
- Stable Diffusion:开源版本发布,让全世界开发者都能玩。
这一年被称为"AI 绘画元年"。
2023-2024 年:国产工具崛起
- 字节跳动出了即梦 AI和豆包绘画
- 快手出了可灵 AI
- 百度出了文心一格
- 阿里出了通义万相
- 腾讯出了混元生图
- Liblib、海艺等社区平台冒头
中国用户终于有了"中文友好、免费可用、不用翻墙"的 AI 绘画工具。
2025 年:视频与多模态融合
- 可灵 AI 1.0 发布,AI 视频走入大众视野
- Sora(OpenAI)发布,演示视频惊艳全网
- AI 绘画 + AI 视频开始深度结合
2026 年(当下):百花齐放
- 即梦 AI 3.0:中文文字生成能力业界第一
- 可灵 AI 2.0:视频质量接近影视级
- Midjourney V7:美学品质继续领先
- Stable Diffusion 3.5:开源派的最新力作
- Seedream(字节最新):长文本理解能力突出
- 各家都在卷"长文本理解"、"角色一致性"、"实时生成"
我们今天学 AI 绘画,是站在了一个非常成熟的时间点上——工具好用、教程丰富、社区活跃、变现路径清晰。
七、AI 绘画的能力地图(看一张图就懂)
┌─────────────────────────────────────────────────────────┐
│ AI 绘画的能力地图 │
└─────────────────────────────────────────────────────────┘
┌──────────┐
│ 文生图 │ ← 输入文字,生成图
└────┬─────┘
│
┌────────────────┼────────────────┐
▼ ▼ ▼
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 单张高质量 │ │ 多张候选 │ │ 批量风格 │
│ Midjourney│ │ 即梦AI │ │ Liblib │
└─────────┘ └─────────┘ └─────────┘
┌──────────┐
│ 图生图 │ ← 输入图+文字,生成新图
└────┬─────┘
│
┌────────────────┼────────────────┐
▼ ▼ ▼
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 风格迁移 │ │ 局部重绘 │ │ 扩图 │
│ "国风化" │ │ "改头发" │ │ "横向扩" │
└─────────┘ └─────────┘ └─────────┘
┌──────────┐
│ 进阶能力 │
└────┬─────┘
│
┌────────────────┼────────────────┐
▼ ▼ ▼
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 角色一致 │ │ 多图融合 │ │ 视频生成 │
│ 同一个人│ │ 两图合一│ │ 图变视频 │
└─────────┘ └─────────┘ └─────────┘
本书会按这个地图,从"文生图"开始(第四章),一步步进阶到"图生图"(第七章)、再到"进阶能力"(第八章)。
八、本章最重要的三个概念
请你用 30 秒记住下面三个词,后面所有章节都会用到:
1. 提示词(Prompt)
你给 AI 的"菜单"。文字描述。可以中文,可以英文。可以一句话,可以一篇小作文。
2. 文生图 vs 图生图
- 文生图:只给 AI 文字,让它画。从零开始。
- 图生图:给 AI 一张参考图 + 文字,让它在参考图基础上重新画。
3. 模型(Model)
AI 画师的"画风+能力组合"。比如即梦 3.0 模型擅长中文文字、Midjourney V7 擅长美学、Stable Diffusion XL 擅长定制化。
九、5 分钟动手实验
如果你看到这里、有手机在身边——请打开微信,搜索小程序"即梦 AI"。
点进去,登录(用抖音账号或者手机号)。
不用看任何教程,直接在输入框里打:"一只猫"。
点"立即生成"。
等 10-30 秒。
恭喜你——你已经画出了人生第一张 AI 图。
不管它好看不好看、是不是你想象中的样子——你已经迈出了第一步。
把这张图截屏,发到朋友圈,写:"这是我第一张 AI 画的图。"
朋友会问你"怎么画的?"——告诉他/她,看这本书。
下一章预告:第二章 2026 年 AI 绘画工具全景图
我们已经知道 AI 绘画是什么了。但市面上工具几十款——即梦、可灵、文心一格、通义万相、豆包、海艺、Liblib、Midjourney、DALL-E、Stable Diffusion……到底用哪个?下一章会给你一张完整的"工具地图",按"零基础/进阶/专业"三个梯队推荐,并附"长辈友好版"、"宝妈友好版"、"上班族友好版"三个具体推荐。
本章小抄:
- AI 绘画的本质:从噪点里"擦"出一张图(扩散模型),不是"一笔一笔画"。
- AI 不是抄袭,是"基于无数已有作品的特征,生成全新作品"。
- AI 绘画 ≠ PS、≠ 美图秀秀、≠ 模板拼贴、≠ 网上找图。它是从无到有的"造图"。
- AI 能画风景、人物、动物、物品、艺术风格;不能画准手指、文字、多人互动、工程图。
- 五大误解:AI 不是抄、不需要会编程、不一定要付钱、不一定不如人画、不会取代会用它的人。
- 三个核心概念:提示词、文生图/图生图、模型。
- 立刻打开"即梦 AI"小程序,画一张"一只猫"——这是你的起点。