紅杉觀點｜生成式AI：一個創造性的新世界

巴比特资讯｜2022-09-23 17:48

人類擅長分析事物，機器在這方面可以做得更好嗎？

AIGC（AI-Generated Content 人工智能生成內容）是最近一個熱門的話題，伴隨著大量應用的落地，AI生成圖片、文字、音頻甚至視頻等內容也漸漸走入了人們的日常。剛剛幾個小時前，紅杉美國官網發表了最新一篇題為《Generative AI: A Creative New World》的文章，這會代表新一輪Paradigm shift（範式轉移）的開始嗎？讓我們一同來看看這篇文章吧。

原文作者是紅杉的兩位合夥人：Sonya Huang和Pat Grady，有意思的是在文章作者一欄，赫然還寫著GPT-3的大名，並且文章插圖也是用Midjourney生成的，這篇文章本身就是AIGC的一個落地表現。以下是原文的翻譯，希望可以給大家帶來新的發現和思考。

導語

人類擅長分析事物，而機器在這方面甚至做得就更好了。機器可以分析一組數據，並在其中找到許多用例（use case）的模式，無論是欺詐還是垃圾郵件檢測，預測你的發貨時間或預測該給你看哪個TikTok視頻，它們在這些任務中變得越來越聰明。這被稱為“分析型AI（Analytical AI） ”，或傳統AI。

但是人類不僅擅長分析事物，我們也擅長創造。我們寫詩，設計產品，製作遊戲，編寫代碼。直到最近，機器還沒有機會在創造性工作上與人類競爭——它們被降格為只做分析和機械性的認知工作。但最近，機器開始嘗試創造有意義和美麗的東西，這個新類別被稱為“生成式AI（Generative AI） ”，這意味著機器正在生成新的東西，而不是分析已經存在的東西。

生成式AI正在變得不僅更快、更便宜，而且在某些情況下比人類創造的更好。從社交媒體到遊戲，從廣告到建築，從編程到平面設計，從產品設計到法律，從市場營銷到銷售，每一個原來需要人類創作的行業都等待著被機器重新創造。某些功能可能完全被生成式AI取代，而其他功能則更有可能在人與機器之間緊密迭代的創作週期中蓬勃發展。但生成式AI應該在廣泛的終端市場上解鎖更好、更快、更便宜的創作。人們期待的夢想是：生成式AI將創造和知識工作的邊際成本降至零，產生巨大的勞動生產率和經濟價值，以及相應的市值。

生成式AI可以處理的領域包括了知識工作和創造性工作，而這涉及到數十億的人工勞動力。生成式AI可以使這些人工的效率和創造力至少提高10%，它們不僅變得更快和更高效，而且比以前更有能力。因此，生成式AI有潛力產生數万億美元的經濟價值。

01 .

為什麼是現在？

生成式AI與更廣泛的AI有著相同的“為什麼是現在（Why now）”的原因：更好的模型，更多的數據，更多的算力。這個類別的變化速度比我們所能捕捉到的要快，但我們有必要在大背景下回顧一下最近的歷史。

第1波浪潮：小模型（small models）占主導地位（2015年前） ，小模型在理解語言方面被認為是“最先進的”。這些小模型擅長於分析任務，可以用於從交貨時間預測到欺詐分類等工作。但是，對於通用生成任務，它們的表達能力不夠。生成人類級別的寫作或代碼仍然是一個白日夢。

第2波浪潮：規模競賽（2015年-至今） ，Google Research的一篇里程碑式的論文（Attention is All You Need https://arxiv.org/abs/1706.03762）描述了一種用於自然語言理解的新的神經網絡架構，稱為transformer，它可以生成高質量的語言模型，同時具有更強的並行性，需要的訓練時間更少。這些模型是簡單的學習者，可以相對容易地針對特定領域進行定制。

果不其然，隨著模型越來越大，它們開始可以輸出達到人類水平的結果，然後是超人的結果。從2015年到2020年，用於訓練這些模型的計算量增加了6個數量級，其結果在書寫、語音、圖像識別、閱讀和語言理解方面超過了人類的表現水平。 OpenAI的GPT-3表現尤其突出：該模型的性能比GPT-2有了巨大的飛躍，並且從代碼生成到笑話編寫的任務中都提供了出色的Twitter demo來證明。

儘管所有的基礎研究都取得了進展，但這些模型並不普遍。它們龐大且難以運行(需要特別的GPU配置)，不能被更多人廣泛觸達使用(不可用或只進行封閉測試)，而且作為雲服務使用成本昂貴。儘管存在這些限制，最早的生成式AI應用程序也已經開始進入競爭。

第3波浪潮：更好、更快和更便宜（2022+） ，算力變得更便宜，新技術，如擴散模型（diffusion models），降低了訓練和運行所需的成本。研究人員繼續開發更好的算法和更大的模型。開發人員的訪問權限從封閉測試擴展到開放測試，或者在某些情況下擴展到開源。

對於那些渴望接觸LLMs（Large Language Model 大語言模型）的開發人員來說，探索和應用開發的閘門現在已經打開，應用開始大量湧現。

第4波浪潮：殺手級應用出現（現在） ，隨著平台層的穩固，模型繼續變得更好、更快和更便宜，模型的獲取趨於免費和開源，應用層的創造力已經成熟。

正如移動設備通過GPS、攝像頭和網絡連接等新功能釋放了新類型的應用程序一樣，我們預計這些大型模型將激發生成式AI應用程序的新浪潮。就像十年前移動互聯網的拐點被一些殺手級應用打開了市場一樣，我們預計生成式AI的殺手級應用程序也會出現，比賽開始了。

02.

市場格局

下面是一個示意圖，說明了為每個類別提供動力的平台層，以及將在其上構建的潛在應用程序類型。

模型

文本（Text）是最先進的領域，然而，自然語言很難被正確使用並且質量很重要。如今，這些模型在一般的中短篇形式的寫作中相當出色(但即便如此，它們通常用於迭代或初稿)。隨著時間的推移，模型變得越來越好，我們應該期望看到更高質量的輸出、更長形式的內容和更好的垂直領域深度。

代碼生成（Code generation）可能會在短期內對開發人員的生產力產生很大的影響，正如GitHub CoPilot所表現的那樣。此外，代碼生成還將使非開發人員更容易創造性地使用代碼。

圖片（Images）是最近才出現的現象，但它們已經像病毒一樣傳播開來。在Twitter上分享生成的圖片比文本有趣得多！我們正在看到具有不同美學風格的圖像模型和用於編輯和修改生成圖像的不同技術在陸續出現。

語音合成（Speech synthesis）已經出現一段時間了，但消費者和企業應用才剛剛起步。對於像電影和播客這樣的高端應用程序來說，聽起來不機械的，具有人類質量的語音是相當高的門檻。但就像圖像一樣，今天的模型為進一步優化或實現應用的最終輸出提供了一個起點。

視頻和3D模型則遠遠落後，人們對這些模型的潛力感到興奮，因為它們可以打開電影、遊戲、虛擬現實、建築和實物產品設計等大型創意市場。我們應該期待在未來1-2年內看到基礎的3D和視頻模型的出現。

還有很多其他領域，比如從音頻和音樂到生物和化學等等，都在進行基礎模型的研發。下面這張圖是基本模型進展和相關應用程序成為可能的時間表，其中2025年及以後的部分只是一個猜測。

應用程序

以下是一些讓我們感到興奮的應用，這僅僅只是一部分，實際上的應用要比我們所捕捉到的多得多，我們被創始人和開發人員所夢想的創造性應用程序所吸引。

文案（Copywriting） ：越來越多的人需要個性化的網頁和電子郵件內容來推動銷售和營銷策略以及客戶支持，這是語言模型的完美應用。這些文案往往形式簡單，並且都有固定的模版，加上這些團隊的時間和成本壓力，應該會大大推動對自動化和增強解決方案的需求。

垂直行業的寫作助手（Vertical specific writing assistants） ：現在大多數寫作助手都是通用型的，我們相信為特定的終端市場構建更好的生成式應用程序有著巨大機會，比如從法律合同編寫到劇本編寫。這裡的產品差異化體現在針對特定工作流的模型和UX交互的微調。

代碼生成（Code generation） ：當前的應用程序推動了開發人員的發展，使他們的工作效率大大提高。在安裝了Copilot的項目中，它生成了近40%的代碼。但更大的機會可能是為C端消費者賦能編程開發能力，學習提示（learning to prompt）可能會成為最終的高級編程語言。

藝術生成（Art generation） ：整個藝術史和流行文化的世界現在都被編碼進了這些大型模型中，這將允許任何人隨意探索在以前可能需要花人一輩子的時間才能掌握的主題和風格。

遊戲（Gaming） ：在這方面的夢想是使用自然語言創建複雜的場景或可操縱的模型，這個最終狀態可能還有很長一段路要走，但在短期內有更直接的選擇，如生成紋理和天空盒藝術（skybox art）。

媒體/廣告（Media/Advertising） ：想像一下自動化代理工作的潛力，為消費者實時優化廣告文案和創意。多模態生成的絕佳機會是將銷售信息與互補的視覺效果結合起來。

設計（Design） ：設計數字和實物產品的原型是一個勞動密集型的迭代過程，AI根據粗略的草圖和提示來製作高保真的效果圖已經成為現實。隨著3D模型的出現，生成設計的過程將從製造和生產延伸到實物，你的下一個iPhone APP或運動鞋可能是由機器設計的。

社交媒體和數字社區（Social media and digital communities） ：是否存在使用生成工具表達自我的新方式？隨著Midjourney等新應用學會了像人類一樣在社交網絡上創作，這將創造新的社交體驗。

03.

生成式AI應用的解析

生成式AI應用程序會是什麼樣子？以下是一些預測：

智能和模型微調

生成式AI應用是建立在GPT-3或Stable Diffusion等大型模型之上的，隨著這些應用獲得更多的用戶數據，它們可以對模型進行微調，一方面針對特定的問題空間改進模型質量和性能，另外一方面減少模型的大小和成本。

我們可以把生成式AI應用看作一個UI層和位於大型通用模型“大大腦（big brain）”之上的“小大腦（little brain）” 。

形成的因素

如今，生成式AI應用在很大程度上以插件的形式存在於現有的軟件生態系統中。比如代碼生成在你的IDE中，圖像生成在Figma或Photoshop中，甚至Discord機器人也是將生成AI放在數字社交社區裡的工具。

還有少量獨立的生成式AI Web應用，如在文案方面有Jasper和Copy.ai，在視頻剪輯方面有Runway，在做筆記方面有Mem。

插件的形式可能是生成式AI應用在早期比較好的切入點，它可以克服用戶數據和模型質量方面面臨的“先有雞還是先有蛋”的問題(這裡具體指的是：一方面需要分發來獲得足夠多的使用數據，從而來改進模型，另外一方面又需要好的模型來吸引用戶)。我們已經看到這種策略在其他市場類別中取得了成功，如消費者和社交市場。

交互範式

如今，大多數生成式AI演示都是“一次性”的：你提供一個輸入，機器吐出一個輸出，你可以保留它或扔掉它，然後再試一次。未來，模型將會支持迭代，你可以使用輸出來修改、調整、升級和生成變化。

如今，生成式AI輸出被用作原型或初稿。應用程序非常擅長拋出多個不同的想法，以使創作過程繼續(比如一個logo或建築設計的不同選項)，它們也非常擅長給出初稿，但需要用戶最終潤色來定稿(比如博客帖子或代碼自動完成)。隨著模型變得越來越智能，同時部分借助於用戶數據，我們應該期待這些草稿會變得越來越好，直到它們足夠好，可以用作最終產品。

持續的行業領導力

最好的生成式AI公司可以通過在用戶粘性、數據和模型性能之間形成的飛輪來產生可持續的競爭優勢。為了取得勝利，團隊必須通過以下方法來實現這個飛輪:

擁有出色的用戶粘性→將更多的用戶粘性轉化為更好的模型性能(及時改進、模型微調、把用戶選擇作為標記訓練數據)→使用出色的模型性能來推動更多的用戶增長和留存。

他們可能會專注於特定的領域(如代碼、設計和遊戲)，而不是試圖解決所有人的問題。他們可能首先將深度集成到現有的應用程序中，以便在此基礎上利用和分發自己的程序，然後嘗試用AI原生工作流替換現有的應用程序。用正確的方式構建這些應用來積累用戶和數據是需要時間的，但我們相信最好的應用將會是持久的，並有機會變得龐大。

04.

困難和風險

儘管生成式AI具有巨大的潛力，但在商業模式和技術方面仍有許多問題需要解決。比如版權、信任、安全和成本等重要問題還亟待解決。

05.

放開視野

生成式AI仍然非常早期。平台層剛剛有起色，而應用層領域才剛剛起步。

需要明確的是，我們不需要利用大型語言模型的生成式AI來編寫托爾斯泰小說。這些模型現在已經足夠好了，可以用來寫博客文章的初稿，以及生成logo和產品界面的原型，這在中短期內將會創造大量的價值。

生成式AI應用的第一波浪潮類似於iPhone剛出現時的移動應用場景——有些噱頭但比較單薄，競爭差異化和商業模式不明確。然而，其中一些應用程序提供了一個有趣的視角，讓我們可以一窺未來可能會發生什麼。一旦你看到了機器可以產生復雜的功能代碼或精彩的圖片，你就很難想像未來機器在我們的工作和創造中不再發揮作用。

如果我們允許自己夢想幾十年後，那麼很容易想像一個未來，生成式AI將深深融入我們的工作、創作和娛樂方式：備忘錄可以自己寫，3D打印任何你能想像的東西，從文字到皮克斯電影，像Roblox類似的遊戲體驗來快速創造出豐富的世界。雖然這些在今天看起來像是科幻小說，但科技進步的速度是驚人的。從微小（narrow）的語言模型到代碼自動生成只用了幾年時間，如果我們繼續沿著這個變化的速度，並遵循“大模型摩爾定律（Large Model Moore's Law） ”，那麼這些遙不可及的場景就會變得觸手可及。