作者 Neil Shen
郵箱 neilshen@pingwest.com
有很長一段時間,AI(人工智能)這個詞變得沒那麼讓人興奮了。
人們已經躲不開它,但同時也發覺,無論是AI的技術演進還是商業應用,似乎都遇到了瓶頸。人們有很多年沒再體驗到AlphaGo那樣的驚艷,業界也沒再經歷像語音助手普及那樣的商業機會,甚至許多投資人也只是在實在沒什麼新鮮故事時,才不情願的又轉身回頭看起了AI的機會。
不過,就在這個全人類都忙著卷來卷去的2022,AI卻正在經歷一次近年來最大的一次進化。

AI突然翻紅

就在10月18號,因為推出Stable Diffusion 文本-圖像AI生成模型而大火的人工智能公司StabilityAI 宣布完成1.01億美元的種子輪融資,讓整個公司估值達到10億美金,成為所謂“獨角獸”企業。這距離StabilityAI 成立僅有兩年時間。
圖源:StabilityAI 官網
即便以科技互聯網產業發展的標準看,StabilityAI 的成長速度也是驚人的,這種速度是2022年以來全球AI產業爆發式增長的一個縮影,此刻距StabilityAI 旗下的Stable Diffusion 開源模型風靡全球尚不足2個月。
這種疾風驟雨的突飛猛進堪稱一場真正的革命,尤其在全球經濟預期轉弱的大背景下。
同所有的革命一樣,這場AI革命也不是一夜之間完成的。
一直以來人們都有一個夢想,即藉助人工智能AI技術來拓展現有人類智慧、知識和創造力的邊界,但人腦復雜結構帶來的學習能力遠超人類構建AI的能力,於是AI只能通過各種特定深度學習模型來單點突破某些特定領域,比如alphaGO 用來學習圍棋,又比如通過天文大數據幫助尋找脈衝星候選體。
而AIGC,即基於AI能力的內容創作(包括文字、圖片和視頻等等)也是其中一個重要類別,2022年之前,囿於核心技術的局限性,這個領域一直不溫不火,因為AI並沒有點石成金的法術,它不具備人類憑空創造的能力。 AI的“深度學習”訓練並不是擁有自我意識的自主學習,是通過收集大量樣本讓AI從海量數據中總結規律,再根據人類的指令,基於規律進行內容再生產的過程,它同時受核心算法、硬件條件、數據庫樣本等多方面的限制。
一幅2018年時由神經網絡生成的作品,研究員Robbie Barrat 用大量裸體繪畫(主要是女性)訓練而成。圖源:https://www.fastcompany.com/90165906/this-ai-dreams-in-nude-portraits-and-landscape-paintings
在2022年之前,AIGC領域使用最多的算法模型名為對抗生成網絡GAN (Generative adversarial networks),顧名思義就是讓AI內部的兩個程序互相對比,從而生成最接近人類心目中的正確形象。但這個算法有一個嚴重問題,由於程序互相對比的標準是現成的樣本,因此生成的內容實質上是對現有內容無限逼近的模仿,而模仿,意味著它無法真正突破。
圖源:https://developers.google.com/machine-learning/gan/gan_structure
GAN的缺點被最終被diffusion 擴散化模型克服,它正是今年以來陸續湧現的包括Stable Diffusion 開源模型在內的諸多AIGC 圖片生成模型的技術核心。
diffusion 擴散化模型的原理類似給照片去噪點,通過學習給一張圖片去噪的過程來理解有意義的圖像是如何生成,因此diffusion 模型生成的圖片相比GAN 模型精度更高,更符合人類視覺和審美邏輯,同時隨著樣本數量和深度學習時長的累積,diffusion 模型展現出對藝術表達風格較好的模仿能力。
圖源:https://towardsdatascience.com/diffusion-models-made-easy-8414298ce4da
從今年初引起廣泛關注的Disco Diffusion ,再到DALL-E2、MidJourney 等模型都是基於Diffusion模型,而拿到融資的Stable Diffusion 是其中最受歡迎的。由於StabilityAI 對科技社區氛圍的擁護和對技術中立原則的認同,Stable Diffusion 主動開放了自己的源代碼,不僅方便人們部署在本地使用(普通消費級顯卡既能滿足Stable Diffusion 的硬件要求),還帶來了魔術般的用戶體驗:打開網址,輸入你想要畫面的關鍵字,等待幾分鐘,模型就會生成完成度非常高的圖片作品。普通人使用最尖端AI技術的門檻因此被降到最低,上線以來,僅通過官方平台DreamStudio 製作的生成圖片就超過1.7萬億張。
圖源:由Stable Diffusion 生成的圖片。圖源:StabilityAI 官網
AIGC沉寂許久的革命火種,瞬間燎原。

絢爛的藍海

以StabilityAI 為代表的的AIGC圖片生成模型在如此短的時間內發展到極為成熟的地步,預示著它從比較傳統的設計繪圖、插畫、遊戲視覺,電子商務等領域到大熱的元宇宙和虛擬現實技術都擁有巨大的發展潛力。
圖源:輸入AI wins 後DreamStudio 基於Stable Diffusion 生成的圖像
想像一下,在未來的VR/AR虛擬世界裡,你腦海中想到的畫面可以藉助ai生成技術實時渲染出來,這將會對人們娛樂和獲取信息的方式產生怎樣的顛覆?
但這不是市場在如今經濟大環境極為低迷之際為AI投下贊成票的全部原因,廣泛的商業潛力固然吸引人,但更值得投入的是AI技術本身。這場革命還未完結,它的下一篇章已經向人們走來。
那就是生成視頻。