进击的 AI 生成，创造性的新世界！

2022 年，AI 艺术生成文本生成图像的 AI 绘画生成器如雨后春笋般涌现，以一幅幅“不明觉厉”的 AI 作品进入大众视野。从 2 月 Disco Diffusion 爆火，仅两个月后 OpenAI 发布 DALL-E 2，谷歌和 Meta 紧随其后宣布了各自的 AI”画家“Imagen 和 Make-A-Scene，再到 7 月 MidJourney 向公众付费开放，8 月 Stable Diffusion 横空出世，AI 绘画模型掀起了“人人都是艺术家”的一个个热潮。随之而来的视频生成 AI 模型更是让“人人都能是导演”。

文本-图像 AI

由于其开源属性，以及突飞猛进的”艺术造诣”，Disco Diffusion 最先引发了全民作画的热潮。只要输入文字提示（prompt），就能让 AI 输出它所理解的对应图像。虽然出图速度慢，在细节处理方面也比较抱歉，尤其是人脸生成，不过图片整体效果较为惊艳、氛围感强（更适合抽象艺术）。

在矩池云上生成的 DD 图片

相较于 DD 的”不拘小节“，OpenAI 的 DALL-E 2 在细节方面拿捏比较到位，生成的图像比较精准逼真，而且作画速度提高了不少，为图像生成领域立了新的标杆。另外，DALL-E 2 能对所生成的图像进行二次编辑。早期 OpenAI 只邀请了部分用户进行内测并且限制绘图次数，不过近期已全面开放所有人使用（中国地区账号暂不支持）。

Prompt: “a painting of a fox sitting in a field at sunrise in the style of Claude Monet”

对标 OpenAI 的 DALL-E 2，谷歌推出的 Imagen 声称提供了“前所未有的照片真实感和深度语言理解”。在为不同对象分配颜色、带引号文本、对象位置关系方面，Imagen 表现似乎更优。不过，该模型未开放，谷歌给出的解释是：“系统太危险了，不能发布”。

同期还有另一科技巨头 Meta 的 Make-a-scene，它的创新在于”交互 + 可控“，重点是用户控制。通过文本描述，再加上一张草图，让 AI 有针对性地生成图像。目前，只有部分艺术家受邀进行了使用。

而引发更多人关注 AI 绘画的是使用 Midjourney 生成的一副油画——

Théâtre d'Opéra Spatial（《太空歌剧院》）

这幅使用 MidJourney 生成的数字油画在美国科罗拉多州博览会（Colorado State Fair）的艺术比赛中夺得了第一名。这一新闻被报道后引发了圈内外的广泛讨论。

Midjourney 也是不负众望，综合能力比较全面，图像生成速度极快，很多艺术家会借助 Midjourney 作为创作灵感。另外，因为 Midjourney 搭载在 Discord 频道上，所以有非常良好的社区讨论环境和用户基础。不过，表现不俗、简单上手也意味着 Midjourney 需要付费使用。

AI 绘画模型	模型	是否开源	生成速度	生成内容限制	运行设备
Disco Diffusion	CLIP+Diffusion	开源	分/时	无限制	> 显存 10G，Nvidia 1080ti 级别
DALL-E 2	CLIP+ 改进版 GLIDE（Diffusion 模型的一种）	部分开源	秒/分	无法生成暴力、裸体或真实面孔的图像	/
Stable Diffusion	Latent Diffusion	开源	秒/分	无限制	> 显存 6G，RTX 2060 级别

“三代”AI 绘画模型对比

紧接着，“更上一层楼”的 Stable Diffusion 来了。Stable Diffusion 不仅开源免费，上手还足够简单，出图速度也极快，图片效果更为精准写实，掀起了 AI 绘画的又一个高潮。

编辑

在矩池云上生成的 SD 图片

在 AI 绘画模型“墙外开花”的同时，这股浪潮也席卷了国内，百度等科技巨头以及一大批艺术、AI 从业者和爱好者也不甘其后，纷纷发布文本输入生成图像的国产 AI 绘画产品文心一格（暂时免费）、6pen（部分免费）、MuseArt（付费 + 看广告）、盗梦师（免费次数 + 付费微信小程序）等等。

文本-视频 AI

当我们还在鉴赏（挑刺）AI 生成的图像时，“下笔生花”的算法研究员们早已不满足于二维创作/图像生成，在三维甚至视频生成这一赛道上，大家也在摩拳擦掌……

Google Research 的 DreamFusion 模型，可以通过输入简单的文本提示生成 3D 模型，甚至可以把生成的多个 3D 模型融合到一个场景里。

清华大学和智源研究院早在今年 5 月发布了基于 Transformer 的 AI 生成模型 CogVideo，能够根据文本直接合成视频。

9 月 29 日，Meta 发布了基于 AI 的短视频生成模型 Make-A-Video，是对其 Make-A-Scene 文本到图像工具的升级，可以通过文本提示生成新的视频内容。

仅一周后，谷歌接连发布了两个 AI 生成视频模型——Imagen Video 和 Phenaki。和 Meta 的 Make-A-Video 相比，谷歌的 Imagen Video 更高清，能生成 1280*768 分辨率、每秒 24 帧的视频片段。

Phenaki 则能根据 200 个词左右的提示语生成 2 分钟以上的长镜头，就是说，人人都能是”导演”了。Phenaki 还可以任意切换视频风格，高清视频或卡通。

在视频风格转换方面，几天前来自新加坡南洋理工大学的研究团队发布了一个能够进行可控高分辨率人像视频风格转换的框架——VToonify。基于 StyleGAN 的 VToonify 满足了很多人在短视频平台上使用卡通形象录制视频的需求，可以实现对人像进行高度可调的卡通风格切换。

AI 生成技术的迭代

编辑

AI 生成图像的表现越来越出色，得益于深度学习模型的快速迭代。2012 年，AI 大牛吴恩达和 Jeff Dean 等人通过 1000 台电脑创造出多达 10 亿个连接的“神经网络”，基于上千万张猫脸图片进行训练后，最终生成了一个模糊的猫脸，这意味着机器自主学会了识别猫脸。

在这一开创性猫脸生成实验后，AI 科学家们在图像生成方向上继续摸索。两年后大名鼎鼎的对抗生成网络 GANs 诞生，它通过生成器和判别器两者的互相对抗不断提升生成能力。自此，AI 生成领域主要基于 GANs 进行了不断的尝试。

彼时，AI 绘画还无法实现通过文字输入提示（prompt）进行图像生成。

直到 2021 年，OpenAI 发布了一个新的深度学习模型 CLIP（Contrastive Language-Image Pre-Training），实现了图像与文本的匹配。CLIP 基于大规模图文数据集进行了对比学习训练，学习给定文本片段与图像的关联。也就是说，CLIP 并不是试图预测给定图像的对应文字说明，而是只学习任何给定文本与图像之间的关联。好的，自然语言和视觉任务的跨界界限自此被 CLIP 打破！

生成式 AI 会让艺术家们失业吗

而每当技术爆炸迭代到令人瞠目结舌的地步，“人类会不会被机器取代”这一永恒命题又悄然而至——AI 会让艺术家们失业吗？AI 会冲击短视频行业吗？

就像其他职业的 AI 威胁论一样，AI 取代部分机械重复性较高的工作可能不可避免，但天马行空的想象力和四季三餐的情感共鸣对于 AI 来说想得而不可得。正如 Midjourney 创始人 David Holz 评论 AI 绘画，

“汽车比人的速度快，但这并不意味着我们不再行走。远距离移动大量物体时，我们需要用到发动机，无论是飞机、轮船还是汽车。我们认为 AI 绘画技术就是想象力的引擎。”

参考链接

AI 绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的 AI 绘画发展史

https://github.com/OpenAI/CLIP

What are Diffusion Models? | Lil'Log

Meta’s new text-to-video AI generator is like DALL-E for video - The Verge

An interview with David Holz, CEO of AI image-generator Midjourney: it’s ‘an engine for the imagination’ - The Verge

进击的 AI 生成，创造性的新世界！

文本-图像 AI

文本-视频 AI

AI 生成技术的迭代

生成式 AI 会让艺术家们失业吗

参考链接

相关帖子

万字探讨 Agent 发展真方向：模型即产品，Agent 的未来要靠模型而不是 Workflow

20250328 设计师必备 AI 工具箱

Cherry Studio 支持导出到思源了

个人有关 AI 的趋势

思源笔记 +NoteBookLLM+Claude+CherryStudio= 项目式学习

免费的火山 API

思源笔记自动分类工具

欢迎来到这里！