作者Neil Shen
邮箱neilshen@pingwest.com
有很长一段时间,AI(人工智能)这个词变得没那么让人兴奋了。
人们已经躲不开它,但同时也发觉,无论是AI的技术演进还是商业应用,似乎都遇到了瓶颈。人们有很多年没再体验到AlphaGo那样的惊艳,业界也没再经历像语音助手普及那样的商业机会,甚至许多投资人也只是在实在没什么新鲜故事时,才不情愿的又转身回头看起了AI的机会。
不过,就在这个全人类都忙着卷来卷去的2022,AI却正在经历一次近年来最大的一次进化。

AI突然翻红

就在10月18号,因为推出 Stable Diffusion 文本-图像AI生成模型而大火的人工智能公司 StabilityAI 宣布完成1.01亿美元的种子轮融资,让整个公司估值达到10亿美金,成为所谓“独角兽”企业。这距离 StabilityAI 成立仅有两年时间。
图源:StabilityAI 官网
即便以科技互联网产业发展的标准看,StabilityAI 的成长速度也是惊人的,这种速度是2022年以来全球AI产业爆发式增长的一个缩影,此刻距 StabilityAI 旗下的 Stable Diffusion 开源模型风靡全球尚不足2个月。
这种疾风骤雨的突飞猛进堪称一场真正的革命,尤其在全球经济预期转弱的大背景下。
同所有的革命一样,这场AI革命也不是一夜之间完成的。
一直以来人们都有一个梦想,即借助人工智能AI技术来拓展现有人类智慧、知识和创造力的边界,但人脑复杂结构带来的学习能力远超人类构建AI的能力,于是AI只能通过各种特定深度学习模型来单点突破某些特定领域,比如 alphaGO 用来学习围棋,又比如通过天文大数据帮助寻找脉冲星候选体。
而AIGC,即基于AI能力的内容创作(包括文字、图片和视频等等)也是其中一个重要类别,2022年之前,囿于核心技术的局限性,这个领域一直不温不火,因为AI并没有点石成金的法术,它不具备人类凭空创造的能力。AI的“深度学习”训练并不是拥有自我意识的自主学习,是通过收集大量样本让AI从海量数据中总结规律,再根据人类的指令,基于规律进行内容再生产的过程,它同时受核心算法、硬件条件、数据库样本等多方面的限制。
一幅2018年时由神经网络生成的作品,研究员 Robbie Barrat 用大量裸体绘画(主要是女性)训练而成。            图源:https://www.fastcompany.com/90165906/this-ai-dreams-in-nude-portraits-and-landscape-paintings
在2022年之前,AIGC领域使用最多的算法模型名为对抗生成网络 GAN (Generative adversarial networks),顾名思义就是让AI内部的两个程序互相对比,从而生成最接近人类心目中的正确形象。但这个算法有一个严重问题,由于程序互相对比的标准是现成的样本,因此生成的内容实质上是对现有内容无限逼近的模仿,而模仿,意味着它无法真正突破。
图源:https://developers.google.com/machine-learning/gan/gan_structure
GAN的缺点被最终被 diffusion 扩散化模型克服,它正是今年以来陆续涌现的包括 Stable Diffusion 开源模型在内的诸多 AIGC 图片生成模型的技术核心。
diffusion 扩散化模型的原理类似给照片去噪点,通过学习给一张图片去噪的过程来理解有意义的图像是如何生成,因此diffusion 模型生成的图片相比 GAN 模型精度更高,更符合人类视觉和审美逻辑,同时随着样本数量和深度学习时长的累积,diffusion 模型展现出对艺术表达风格较好的模仿能力。
图源:https://towardsdatascience.com/diffusion-models-made-easy-8414298ce4da
从今年初引起广泛关注的 Disco Diffusion ,再到 DALL-E2、MidJourney 等模型都是基于Diffusion模型,而拿到融资的 Stable Diffusion 是其中最受欢迎的。由于 StabilityAI 对科技社区氛围的拥护和对技术中立原则的认同,Stable Diffusion 主动开放了自己的源代码,不仅方便人们部署在本地使用(普通消费级显卡既能满足 Stable Diffusion 的硬件要求),还带来了魔术般的用户体验:打开网址,输入你想要画面的关键字,等待几分钟,模型就会生成完成度非常高的图片作品。普通人使用最尖端AI技术的门槛因此被降到最低,上线以来,仅通过官方平台 DreamStudio 制作的生成图片就超过1.7万亿张。
图源:由Stable Diffusion 生成的图片。图源:StabilityAI 官网
AIGC沉寂许久的革命火种,瞬间燎原。

绚烂的蓝海

以 StabilityAI 为代表的的AIGC图片生成模型在如此短的时间内发展到极为成熟的地步,预示着它从比较传统的设计绘图、插画、游戏视觉,电子商务等领域到大热的元宇宙和虚拟现实技术都拥有巨大的发展潜力。
图源:输入 AI wins 后 DreamStudio 基于 Stable Diffusion 生成的图像
想象一下,在未来的VR/AR虚拟世界里,你脑海中想到的画面可以借助ai生成技术实时渲染出来,这将会对人们娱乐和获取信息的方式产生怎样的颠覆?
但这不是市场在如今经济大环境极为低迷之际为AI投下赞成票的全部原因,广泛的商业潜力固然吸引人,但更值得投入的是AI技术本身。这场革命还未完结,它的下一篇章已经向人们走来。
那就是生成视频。