今日实时汇率
1 美元(USD)=
7.3043 人民币(CNY)
反向汇率:1 CNY = 0.1369 USD
更新时间:2025-04-19 08:02:31
作者:Chengxi 编辑:蔓蔓周
来源:硅兔赛跑
过去18个月,AI内容生成(AIGC)是无疑是硅谷科技创投圈内最火爆、最热门的话题。
DALL-E(2021年1月推出)
Midjourney(2022年7月推出)
Stable Diffusion(2022年8月推出)
这类2D生成式工具,能够在短短几秒内将文本提示(prompt)生成艺术风格的图片。随着这类2D AIGC工具的演化和进步,艺术家、设计师和游戏工作室的创作工作流正在被迅速颠覆革新。
AIGC的下一个突破口在哪?不少投资者和领域资深人士都给出了预测 — 3D数据生成。
我们注意到3D AIGC正在经历着2D AIGC曾经发展过的阶段。这篇文章中,我们将更深入地讨论AIGC在3D数据领域的新突破,以及展望生成式AI工具如何提高3D数据生成的效率和创新。
01回顾2D AIGC的高速发展
2D AIGC的发展可以简单概括为以下三个发展阶段:
第一阶段:智能图像编辑
早在2014年,随着生成对抗网络(GAN,典型后续工作StyleGAN)和变分自编码器(VAE,典型后续工作VQVAE,alignDRAW)的提出,AI模型便开始被广泛运用到2D图片的智能生成与编辑中。早期的AI模型主要被用于学习一些相对简单的图像分布或者进行一些图像编辑,常见的应用包括:人脸生成、图像风格迁移、图像超分辨率、图像补全和可控图像编辑。
但早期的图像生成/编辑网络与文本的多模态交互非常有限。此外,GAN网络通常较难训练,常遇到模式坍塌(mode collapse)和不稳定等问题,生成的数据通常多样性较差,模型容量也决定了可利用数据规模的上限;VAE则常遇到生成的图像模糊等问题。
第二阶段:文生图模型的飞跃
随着扩散生成(diffusion)技术的突破、大规模多模态数据集(如LAION数据集)和多模态表征模型(如OpenAI发布的CLIP模型)的出现与发展,2D图像生成领域在2021年前后取得重要进展。图像生成模型开始与文本进行深入的交互,大规模文生图模型惊艳登场。
当OpenAI在2021年初发布DALL-E时,AIGC技术开始真正显现出巨大的商业潜力。DALL-E可以从任意的文本提示中生成真实和复杂的图像,并且成功率大大提高。一年之内,大量文生图模型迅速跟进,包括DALL-E 2(于2022年4月升级)和Imagen(谷歌于2022年5月发布)。虽然这些技术当时还无法高效帮助艺术创作者产出能够直接投入生产的内容,但它们已经吸引了公众的注意,激发了艺术家、设计师和游戏工作室的创造力和生产潜力。
第三阶段:从惊艳到生产力
随着技术细节上的完善和工程优化上的迭代,2D AIGC得到迅猛发展。到2022年下半年,Midjourney、Stable Diffusion等模型已成为了广受欢迎的AIGC工具。他们通过大规模的训练数据集的驱动,使得AIGC技术在现实世界应用中的性能已经让媒体、广告和游戏行业的早期采用者受益。此外,大模型微调技术的出现与发展(如ControlNet和LoRA)也使得人们能够根据自己的实际需求和少量训练数据来“自定义”调整、扩展AI大模型,更好地适应不同的具体应用(如二次元风格化、logo生成、二维码生成等)。
现在,使用AIGC工具进行创意和原型设计很多情况下只需几小时甚至更短,而不是过去需要的几天或几周。虽然大多数专业的图形设计师仍然会修改或重新创建AI生成的草图,但个人博客或广告直接使用AI生成的图像的情况越来越普遍。