作者: Ian@Foresight Ventures


TL;DR


  • 一個成功的去中心化AI marketplace需要將AI和Web3的優勢緊密結合,利用分佈式、資產確權、收益分配和去中心化算力的附加值,降低AI應用的門檻,鼓勵開發者上傳和分享模型,同時保護用戶的數據私有權,構建一個開發者友好,且滿足用戶需求的AI資源交易、共享平台。


  • 基於數據的AI marketplace有更大的潛力。死磕模型的marketplace需要大量高質量模型的支撐,但早期平台缺乏用戶基數和優質資源,使得優秀模型提供者的激勵不足,難以吸引優質模型;而基於數據的marketplace通過去中心化,分佈式地採集、激勵層設計和數據所有權的保證,可以積累大量有價值的數據和資源,尤其是私域數據。然而,數據市場也需要解決數據隱私保護的挑戰,解決方案包括設計更靈活的策略,允許用戶自定義隱私級別的設置。


  • 去中心化AI marketplace的成功依賴於用戶資源的累積和強大的網絡效應,用戶和開發者可以從市場中獲得的價值超過他們在市場之外能夠得到的價值。在市場的早期,重點在於積累優質模型以吸引並保留用戶,然後在建立起優質模型庫和數據壁壘後,轉向吸引和留住更多的終端用戶。並且,優秀的AI marketplace需要找到各方利益的平衡點,並妥善處理數據所有權、模型質量、用戶隱私、算力、激勵算法等因素。


0 1
Web3的AI Marketplace


1.1 web3領域的AI賽道回顧


首先回顧一下之前我提到的AI和crypto結合的兩種大方向,ZKML和去中心化算力網絡?


ZKML


ZKML讓AI模型transparent + verifiable, 也就是說保證模型架構、模型參數和權重、模型輸入這三個因素在全網可以被驗證。 ZKML的意義在於不犧牲去中心化和trustless的基礎上,為web3世界創造下一階段的價值,提供承接更廣泛應用和創造更大可能性的能力。


算力網絡


算力資源會是下一個十年的大戰場,未來對於高性能計算基礎設施的投資將會指數級上升。去中心化算力的應用場景分為模型推理和模型訓練兩個方向,在AI大模型訓練上的需求是最大的,但是也面臨最大的挑戰和技術瓶頸。包括需要復雜的數據同步和網絡優化問題等。在模型推理上更有機會落地,可以預測未來的增量空間也足夠大。


1.2 什麼是AI Marketplace?


AI marketplace並不是一個很新的概念,Hugging Face可以說是最成功的AI marketplace(除了沒有交易和定價機制)。在NLP領域,Hugging Face提供了一個極為重要且活躍的社區平台,開發者和用戶可以共享和使用各種預訓練模型。



從Hugging Face的成功可以看出,一個AI marketplace需要具備:


a. 模型資源


Hugging Face提供了大量的預訓練模型,這些模型涵蓋了各種NLP任務。這種資源豐富性吸引了大量的用戶,因此,這是形成一個活躍的社區、積累用戶的基礎。


b. 開源精神+ 傳播分享


Hugging Face鼓勵開發者上傳並分享自己的模型。這種開放分享的精神增強了社區的活力,並使得最新的研究成果能夠快速地被廣大用戶所利用。這就是在積累優秀開發者和模型的基礎上,加快了研究成果被驗證並推廣的效率。


c. 開發者友好+ 易用


Hugging Face提供易用的API和文檔,使得開發者可以快速地理解和使用其提供的模型。這降低了使用門檻,提升用戶體驗,吸引了更多開發者。


雖然Hugging Face並沒有交易機制,但它仍然為AI模型的分享和使用提供了一個重要的平台。因此也可以看出,AI marketplace有機會成為整個行業的寶貴資源。


去中心化的AI marketplace in short:


基於以上要素,去中心化的AI marketplace基於區塊鏈技術的基礎,讓用戶對自己的數據、模型資產擁有所有權。 Web3所帶來的價值也體現在激勵和交易機制,用戶可以自由地挑選或者通過系統match到合適的模型,同時也可以上架自己訓練的模型獲取收益。


用戶對自己的AI資產擁有所有權,並且AI marketplace本身並沒有對數據和模型的掌控權。 相反,市場的發展是依賴於用戶基數以及隨之而來的模型和數據的積累。這種積累是一個長期的過程,但是也是逐漸建立產品壁壘的過程,支撐市場發展的是用戶數以及用戶上傳的模型和數據的數量/質量。


1.3 為什麼關注Web3的AI Marketplace?


1.3.1 和算力應用的大方向契合


由於通信壓力等原因,去中心化算力在訓練base模型上落地可能比較困難,但是在finetune上的壓力會小很多,因此有機會成為中心化算力網絡落地的最佳場景之一。


AI模型的訓練分為pretraining和fine-tuning。預訓練涉及大量的數據和大量的計算,具體可以參考我上面一篇文章的分析。微調基於base模型,使用特定任務的數據,來調整模型參數,使模型對特定任務有更好的性能,模型微調階段需要的計算資源比預訓練階段小很多,主要有以下兩個原因:


1、數據量:在預訓練階段,模型需要在大規模的數據集上進行訓練以學習通用的語言表示。例如,BERT模型的預訓練就是在包含數十億個詞彙的Wikipedia和BookCorpus上進行的。而在微調階段,模型通常只需要在特定任務的小規模數據集上進行訓練。例如,用於情感分析任務的微調數據集可能只有幾千到幾萬條評論。


2、訓練步數:預訓練階段通常需要數百萬甚至數十億的訓練步驟,而微調階段通常只需要幾千到幾萬步。這是因為預訓練階段需要學習語言的基本結構和語義,而微調階段僅需要調整模型的一部分參數來適應特定任務。


舉個例子,以GPT3為例,預訓練階段使用了45TB的文本數據進行訓練,而微調階段則只需要~5GB的數據。預訓練階段的訓練時間需要幾週到幾個月,而微調階段則只需要幾個小時到幾天。


1.3.2 AI和crypto交叉的起點


判斷一個web3項目是否合理,其中很重要的一點是,是不是為了crypto而crypto,項目是否最大化利用了web3的帶來的價值,web3的加成是不是帶來了差異化。很顯然,web3為這種AI marketplace帶來的無法替代確權、收益分配和算力的附加值。


我認為一個優秀的Web3 AI marketplace可以把AI和crypto緊密結合。最完美的結合不是AI市場能給web3帶去什麼應用或是infra,而是web3能為AI市場提供什麼。那麼很顯然,例如每個用戶都可以擁有自己的AI模型和數據的所有權(比如把AI模型和數據都封裝為NFT),也可以把它們當作商品進行交易,這很好地利用了web3可以發揮的價值。不僅激勵了AI開發者和數據提供者,也使得AI的應用變得更加廣泛。如果一個模型足夠好用,所有者有更強的動力上傳給別人分享。


同時,去中心化AI marketplace可能引入一些全新的商業模式,比如模型、數據的售賣和租賃,任務眾包等。


1.3.3 降低AI應用門檻


每個人應該並且會有能力訓練自己的人工智能模型,這就需要一個門檻足夠低的平台提供資源的支持,包括base模型、工具、數據、算力等。


1.3.4 需求和供給


大模型雖然推理能力強大,但並非萬能的。往往針對特定任務和場景進行微調會達到更好的效果,並且具備更強的實用性。因此,從需求端看,用戶需要有一個AI模型市場來獲取不同場景下好用的模型;對於開發者,需要一個能提供極大資源便利的平台來開發模型,並且通過自己的專業知識獲得收益。


0 2
基於模型vs 基於數據


2.1 模型市場


模式


以tooling為賣點,作為鏈路的第一環,項目需要在早期吸引足夠多的模型開發者來部署優質的模型,從而為市場建立供給。


這種模式下,吸引開發者的點主要是方便好用的infra和tooling,數據是看開發者自己的能力也是為什麼有些在某個領域有經驗的人可以創造價值的點,這個領域的數據需要開發者自己收集並且微調出performance更好的模型。


思考


最近看到很多關於AI marketplace和web3的結合的項目,但我想的是:創造一個去中心化AI模型市場是不是一個偽命題?


首先我們需要思考一個問題,web3能提供的價值是什麼?


如果僅僅是token的激勵,或者是模型的歸屬權敘事,那是遠遠不夠的。實際一點看,平台上高質量的模型是整個產品的核心,而優秀的模型通常意味著極高的經濟價值。從模型提供者的角度看,他們需要足夠的動力來將自己優質的模型部署到AI marketplace,但token和歸屬權帶來的激勵是否能達到他們對模型價值的預期?對於一個早期缺乏用戶基數的平台來說,顯然是遠遠達不到的。沒有極其優秀的模型,整個商業模式就不會成立。所以問題就變成瞭如何在早期缺乏終端用戶的情況下,讓模型提供者獲得足夠的收益。


2.2 數據市場



模式


以去中心化的數據採集為基礎,通過激勵層的設計和數據所有權的敘事onboard更多數據提供者,以及為數據打標籤的用戶。在crypto的加持下,平台是有機會在一定時間內積累大量有價值的數據的,特別是目前缺少的私域數據。


讓我最興奮的一點是,這種自下而上的發展模式更像是一種眾籌的玩法。再有經驗的人也不可能擁有一個領域完備的數據,而web3能提供的價值之一就是無許可和去中心化地數據採集。這個模式不僅能夠集中各個領域的專業知識和數據,而且還能夠為更大的用戶群體提供AI服務。相比單一用戶自己的數據,這些眾籌的數據是從大量真實用戶的實際場景中採集的,因此會比單一來源收集的數據更能反映現實世界的複雜性和多樣性,這可以極大地增強模型的泛化能力和魯棒性,使AI模型能在多種不同的環境中發揮高性能。


舉個例子,可能一個人在營養學上有很豐富的經驗,也積累了很多數據,但光靠個人的數據是遠遠不夠訓練出一個優秀的模型的。在用戶分享數據的同時,也可以很好地觸達並利用平台上相同領域全網其他用戶貢獻的有價值的數據,以此達到更好的微調效果。


思考


從這個角度看,做一個去中心化的數據市場也可能是一個不錯的嘗試。數據作為一個門檻更低、生產鏈路更短,provider密度更廣的“商品”,能更好地利用web3所能提供的價值。激勵算法和數據確權的機制能為用戶上傳數據提供動力。在目前的模式下,數據更像是一次性的商品,即使用一次後就幾乎沒有價值。在去中心化的AI模型市場中,用戶的數據可以被反複使用並獲取利益,數據的價值會得到更長期的實現。


以數據為切入點去積累用戶似乎是一個不錯的選擇,大模型的核心和壁壘之一就是優質和多維度的數據,在onboard了大量數據提供者之後,這些人有機會進一步轉化成終端用戶或者模型提供者。以此為基礎的AI marketplace確實能為優秀的模型提供底層價值,從訓練模型的角度給算法工程師在平台上貢獻模型的動力。


這種動力是從0到1的改變, 現在大公司由於擁有海量數據,他們可以訓練出更精確的模型,這使得小型公司和個人開發者難以與之競爭。縱使用戶擁有某個領域非常有價值的數據,這一小部分數據沒有更大集合上的數據的配合也是很難發揮價值的。 然而在去中心化的市場中,所有人都有機會獲取並使用數據,而這些專家是帶著有價值的增量數據加入平台的,因此,平台的數據質量和數量也進一步得到了提升,這使得所有人都有可能訓練出優秀的模型,甚至推動AI的創新。


數據本身確實也很適合成為這種AI marketplace的競爭壁壘。首先,優秀的激勵層和安全的隱私保障可以讓更多散戶參與到整個protocol當中貢獻數據。並且,隨著用戶數量的增加,數據的質量和數量也會不斷提高。這會產生社區和網絡效應,使得市場能提供的價值更大,維度更廣,那麼對新增用戶的吸引力也會更大,這就是為市場建立壁壘的過程。


所以根本上,要做好一個數據驅動的AI marketplace,最重要的是以下4點:


1、激勵層:設計能夠有效激勵用戶提供高質量數據的算法,並且需要平衡激勵的強度和市場的可持續性。


2、隱私:保護數據隱私並確保數據的使用效率。


3、用戶:在早期將用戶快速積累並收集更多有價值的數據。


4、數據質量:數據來自各種不同的來源,需要設計有效的質量控制機制。


為什麼模型的provider在這個場景下沒有被我列為關鍵因素?


主要原因還是基於以上四點,有優秀的model provider加入是順理成章的。


2.3 數據市場的價值和挑戰


私域數據


私域數據的價值在於它有特定領域內獨特且難以獲得的信息,這種信息對於AI模型的微調尤其重要。使用私域數據可以創建出更為精準和個性化的模型,這種模型在特定場景的表現會超過使用公共數據集訓練的模型。


現在基礎模型的構建過程可以獲取到大量公共數據,因此,web3數據市場的發力點不在這些數據上。訓練中如何獲取並加入私域數據是目前的一個瓶頸,通過將私域數據與公共數據集相結合,可以增加模型對多樣化問題和用戶需求的適應能力和模型的準確度。


舉例來說以醫療健康場景為例,使用私域數據的AI模型在預測準確度上通常能提高10%~30%。參考Stanford的research,使用私域醫療數據的deep learning model在肺癌預測上的準確率超過了使用公共數據的模型15%。


數據隱私


隱私會不會成為製約AI + Web3的瓶頸?從現在的發展看,AI在web3的落地方向已經逐漸明確,但是似乎每一個應用都繞不開隱私的話題,去中心化算力無論是在模型訓練還是模型推理上都需要保證數據和模型的隱私;zkml能成立的一個條件也是保證模型不會被惡意節點濫用。


AI marketplace建立在確保用戶掌控自己的數據的基礎上,因此,雖然通過一種去中心化、分佈式的方式採集了用戶數據,但是所有節點在收集、處理、存儲、使用等階段都不應該直接access原始數據。目前的加密手段在使用上都面臨瓶頸,以全同態加密為例:


1、計算複雜性:FHE比傳統的加密方式更複雜,這使得在全同態加密下進行AI模型訓練的運算的計算開銷大幅度增加,使得模型訓練變得效率極低,甚至不可行。因此,對於需要大量計算資源的任務,如深度學習模型訓練,全同態加密不是理想的選擇。


2、計算誤差:在FHE的計算過程中,誤差會隨著計算的進行逐漸累積,最終對計算結果產生影,會影響AI模型的performance。


隱私也分級別,不需要過分焦慮。


不同類型的數據存在不同程度的隱私需求。只有例如醫療記錄、金融信息、敏感個人信息等需要高級別的隱私保護。


因此,在去中心化AI marketplace的討論中需要考慮到數據的多樣性,最重要的是平衡。為了最大化用戶的參與度和平台的資源豐富度,設計一種更靈活的策略,允許用戶自定義隱私級別的設置是很必要的,並不是所有數據都需要最高級別的隱私。



0 3
關於去中心化AI Marketplace的反思


3.1 用戶對資產有支配權,用戶撤出會不會導致平台崩塌?


去中心化AI marketplace的優勢在於用戶對資源的所有權,用戶確實可以隨時撤出自己的資源,但是一旦用戶和資源(模型、數據)累積到一定程度,我認為平台不會被影響。當然這也意味著項目初期會耗費大量資金穩固用戶及資源,對一個初創團隊會非常艱難。


社區共識


去中心化AI marketplace一旦形成強大的網絡效應,會有更多的用戶和開發者產生黏性。並且因為用戶數量的增加會導致數據和模型的質量和數量的增加,使市場更加成熟。不同利益驅動的用戶從市場中獲得的價值也就越大。儘管少量用戶可能會選擇離開,但這種情況下新用戶的增速理論上並不會放緩,市場還是能繼續發展並提供更大價值。


激勵機制


激勵層如果設計合理,隨著加入人數的增加和各種資源的累積,各方獲得的利益也會相應上升。去中心化AI marketplace不僅提供一個讓用戶能夠交易數據和模型的平台,還可能提供一種讓用戶能夠從自己的數據和模型中獲利的機制。比如用戶通過出售自己的數據或者通過讓其他人使用自己的模型來獲得報酬。


對於模型開發者來說:在其他平台部署可能沒有足夠多的數據支撐finetune一個performance更好的模型;


對於數據提供者來說:另一個平台可能沒有這麼完善的數據基礎,用戶單獨一小塊數據也無法發揮價值並獲得足夠的使用量和收益;


小結


雖然在去中心化的AI marketplace中,項目方只扮演一個撮合和提供平台的角色,但是真正的壁壘在於用戶數量的累積所帶來的數據和模型的累積。用戶確實有撤出市場的自由,但是一個成熟的AI Marketplace往往會使他們從市場中得到的價值超過他們在市場之外能夠得到的價值,那其實用戶就沒有動力撤出市場。


不過如果大部分用戶或者一部分高質量模型/數據提供者選擇撤出,那麼市場可能會受到影響。這也符合在各種經濟系統中存在用戶進入和退出的動態變化和調節。


3.2 先有雞還是先有蛋


從以上兩種路徑看,很難說最終會有那一條跑出來,但顯然基於數據的AI marketplace更加make sense,並且天花板遠高於第一種。最大的區別就在於,基於數據的市場是在不斷充實壁壘,積累用戶的過程也是積累數據的過程,最終web3賦予的價值就是讓一個巨大的去中心化數據庫更加充實,這是一個正向的循環。同時,從本質上看這種平台不需要留存數據,而是提供一個貢獻數據的市場更加輕量。最終來看,這就是一個大型的數據集市,這種壁壘是很難替代的。


從供給和需求的角度上看,一個AI marketplace需要同時具備兩點:


1、大量的優秀的模型


2、終端用戶


從某種角度看,這兩個條件似乎是互相依賴的,一方面,平台需要有足夠多的用戶為模型和數據的提供者提供使用的動力,只有積累的足夠多的用戶,激勵層才能發揮最大的價值,數據的飛輪也才能轉起來,這樣才會有更多的model provider來部署模型。另一方面看,足夠多的終端用戶一定是奔著好用的模型來的,用戶對於平台的選擇極大程度上是對平台模型質量和能力的選擇。因此,在沒有積累一定數量優秀模型的前提下,這種需求是不存在的,路由算法做的再先進,沒有好的模型路由也是空談。這就好比apple store的前提是apple。


因此,一種比較好的發展思路是:


初期策略


  • 積累優質模型,在初始階段最值得關注的是建立一個優質的模型庫。原因在於,無論終端用戶有多少,沒有高質量的模型供他們選擇和使用,平台就沒有吸引力,用戶也不會有粘性和留存。通過聚焦於建立優質的模型庫,平台可以確保早期的用戶能夠找到他們需要的模型,從而建立品牌聲譽和用戶信任,逐步建立起社區和網絡效應。


擴展策略


  • 吸引終端用戶,在建立了優質模型庫之後轉向吸引和留住更多的終端用戶。大量的用戶將為模型開發者提供足夠的動力和利益,使他們持續提供和改進模型。此外,大量的用戶也將生成大量的數據,進一步提升模型的訓練和優化。


小結


什麼才是AI marketplace的最佳嘗試?一句話說就是平台能提供足夠多的優質模型,並且能高效地為用戶匹配合適的模型解決問題。這句話解決兩個矛盾,首先,平台能為開發者(包括模型開發者和使用者)提供足夠的價值,讓平台上擁有足夠多的優質模型;其次,這些“商品”能為用戶提供高效地解決方案,從而積累更多用戶,為各方利益提供保障。


去中心化的AI Marketplace,是一個AI + web3容易落地的方向,但是一個項目必須想清楚這種平台能提供的真正的價值是什麼,以及如何在早期onboard大量用戶。其中,關鍵在於找到一個各方利益的平衡點,同時處理好數據所有權、模型質量、用戶隱私、算力、激勵算法等多個要素,最終成為一個數據、模型和算力的共享和交易平台。



巴比特園區開放合作啦!





中文推特: https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina
Discord社區:https://discord.gg/defidao
電報頻道:https://t.me/Mute_8btc
電報社區:https://t.me/news_8btc