深度研究：加密激勵眾籌一個AI模型，是否可行？

深潮TechFlow ｜2024-09-20 7:00

本报告考察了大型模型训练的现状及相关成本。

撰文：Jeff Amico

編譯：深潮TechFlow

引言

在新冠疫情期間，Folding@home 取得了一個重大里程碑。研究計畫獲得了2.4 exaFLOPS 的運算能力，由全球200 萬台志工設備提供。這代表了當時世界上最大超級電腦的十五倍處理能力，使科學家能夠大規模模擬COVID 蛋白質動態。他們的工作推動了我們對病毒及其病理機制的理解，尤其是在疫情初期。

深度研究：加密激勵眾籌一個AI模型，是否可行？

 Folding@home 用戶的全球分佈，2021

Folding@home 基於志願運算的悠久歷史，專案透過眾包運算資源來解決大規模問題。這個想法在1990 年代的SETI@home 中得到了廣泛關注，該計畫匯集了超過500 萬台志願者電腦以尋找外星生命。此後，這一理念已被應用於多個領域，包括天文物理學、分子生物學、數學、密碼學和遊戲。在每種情況下，集體力量增強了單一項目的能力，遠遠超出了他們單獨能夠實現的範圍。這推動了進步，使研究能夠以更開放和合作的方式進行。

許多人想知道我們是否可以將這個眾包模型應用於深度學習。換句話說，我們能否在大眾中訓練一個大型神經網路？前沿模型訓練是人類歷史上計算最密集的任務之一。與許多@home 專案一樣，目前的成本超出了只有最大參與者才能承擔的範圍。這可能會阻礙未來的進展，因為我們依賴越來越少的公司來尋找新的突破。這也將我們的AI 系統的控制權集中在少數人手中。無論你對這項技術的看法如何，這都是一個值得關注的未來。

大多數批評者駁斥了去中心化訓練的想法，認為與目前的訓練技術不相容。然而，這種觀點已經越來越過時。新的技術已經出現，能夠減少節點間的通訊需求，從而允許在網路連接不佳的設備上有效訓練。這些技術包括DiLoCo 、 SWARM Parallelism 、 lo-fi 和異質環境中基礎模型的分散訓練等多種技術。其中許多具有容錯性，並支援異構計算。還有一些新架構專為去中心化網路設計，包括DiPaCo 和去中心化混合專家模型。

我們也看到各種加密原語開始成熟，使得網路能夠在全球範圍內協調資源。這些技術支援數位貨幣、跨境支付和預測市場等應用情境。與早期的志工計畫不同，這些網路能夠匯聚驚人的運算能力，通常比目前設想的最大雲端訓練集群大幾個數量級。

這些要素共同構成了新的模式訓練範式。這種範式充分利用全球的運算資源，包括如果連接在一起可以使用的大量邊緣設備。這將透過引入新的競爭機制來降低大多數訓練工作負載的成本。它還可以解鎖新的訓練形式，使得模型開發變得協作和模組化，而不是孤立和單一的方式。模型可以從大眾中取得計算和數據，即時學習。個人可以擁有他們所創建模型的一部分。研究人員也可以重新公開分享新穎的研究成果，而無需透過貨幣化他們的發現來彌補高昂的運算預算。

本報告檢視了大型模型訓練的現況及相關成本。它回顧了以往的分散式運算努力——從SETI 到Folding 再到BOINC——以此為靈感探索替代路徑。報告討論了去中心化訓練的歷史挑戰，並轉向可能有助於克服這些挑戰的最新突破。最後，它總結了未來的機會與挑戰。

前沿模型訓練的現狀

前緣模型訓練的成本對非大型參與者而言已經不可承受。這個趨勢並不新鮮，但根據實際情況，情況正在變得更加嚴重，因為前沿實驗室不斷挑戰擴展假設。據報道，OpenAI 今年在訓練方面花費超過30 億美元。 Anthropic 預測到2025 年，我們將開始進行100 億美元的訓練，而1000 億美元的模型也不會太遠。

深度研究：加密激勵眾籌一個AI模型，是否可行？

這一趨勢導致行業的集中化，因為只有少數幾家公司能夠承擔參與的費用。這引發了未來的核心政策問題——我們是否能接受所有領先的AI 系統由一兩家公司控制的局面？這也限制了進展速度，這一點在研究社群中顯而易見，因為較小的實驗室無法承擔擴展實驗所需的運算資源。產業領導者也多次提到這一點：

Meta 的Joe Spisak：要真正理解[模型] 架構的能力，你必須在規模上進行探索，我認為這正是當前生態系統中所缺少的。如果你看看學術界——學術界有很多傑出的人才，但他們缺乏計算資源的訪問，這就成了一個問題，因為他們有這些偉大的想法，卻沒有真正以所需水平實現這些想法的途徑。

Together 的Max Ryabinin：對昂貴硬體的需求給研究社群帶來了極大壓力。大多數研究人員無法參與大型神經網路開發，因為進行必要的實驗對他們而言成本過高。如果我們繼續透過擴大模型規模來增加其大小，最終能夠進行競

Google 的Francois Chollet：我們知道大語言模型(LLMs) 尚未實作通用人工智慧(AGI)。同時，朝AGI 發展的進展已經停滯。我們在大語言模型上所面臨的限制與五年前面臨的限製完全相同。我們需要新的想法和突破。我認為下一個突破很可能來自外部團隊，而所有大型實驗室則忙於訓練更大的大語言模型。有些人對這些擔憂持懷疑態度，認為硬體改善和雲端運算資本支出將解決這個問題。但這似乎不太現實。一方面，到本十年末，新一代Nvidia 晶片的FLOP 數量將大幅增加，可能達到今天H100 的10 倍。這將使每FLOP 的價格下降80-90%。同樣，預計到本十年末，總FLOP 供應將增加約20 倍，同時改善網路和相關基礎設施。所有這些都將提高每美元的訓練效率。

深度研究：加密激勵眾籌一個AI模型，是否可行？

資料來源：SemiAnalysis AI Cloud TCO 模型

同時，總FLOP 需求也將大幅上升，因為實驗室希望進一步擴大規模。如果持續十年的訓練運算趨勢保持不變，到2030 年前緣訓練的FLOPs 預計將達到約2e29。進行這種規模的訓練大約需要2,000 萬個H100 等效GPU，依據目前的訓練運行時間和使用率。假設這一領域仍有多個前沿實驗室，總所需的FLOPS 數量將會是這個數字的幾倍，因為整體供應將在它們之間分配。 EpochAI 預測到那時我們需要大約1 億個H100 等效GPU，約為2024 年出貨量的50 倍。 SemiAnalysis 也做出了類似的預測，認為前緣訓練需求和GPU 供應在此期間大致同步成長。

產能狀況可能會因多種原因而變得更加緊張。例如，如果製造瓶頸延遲了預計的出貨週期，這種情況是常有的事。或者如果我們未能生產足夠的能源來為資料中心供電。又或者如果我們在將這些能源來源連接到電網方面遇到困難。或者如果對資本支出的日益審查最終導致行業縮減規模，等等因素。在最好的情況下，我們目前的方法只能讓少數公司繼續推動研究的進展，而這可能還不夠。

深度研究：加密激勵眾籌一個AI模型，是否可行？

顯然，我們需要一種新的方法。這種方法不需要不斷擴展資料中心、資本支出和能源消耗來尋找下一個突破，而是有效利用我們現有的基礎設施，能夠隨著需求的波動靈活擴展。這將讓研究中有更多實驗的可能，因為訓練運行不再需要確保億萬美元計算預算的投資回報。一旦擺脫這個限制，我們可以超越目前的大語言模型(LLM) 模式，正如許多人所認為的，實現通用人工智慧(AGI) 是必要的。為了理解這種替代方案可能呈現的樣子，我們可以從過去的分散式運算實踐中汲取靈感。

群體計算：簡史

SETI@home 在1999 年普及了這個概念，讓數百萬參與者分析無線電訊號，尋找外星智慧。 SETI 從Arecibo 望遠鏡收集電磁數據，將其分成若干批次，並透過網路傳送給使用者。用戶在日常活動中分析數據，並將結果傳回。用戶之間無需溝通，批次可以獨立審核，從而實現高度的並行處理。在其巔峰時刻，SETI@home 擁有超過500 萬名參與者，處理能力超過當時最大的超級電腦。它最終在2020 年3 月關閉，但它的成功激勵了隨後的志願計算運動。

Folding@home 在2000 年延續了這個理念，利用邊緣運算模擬阿茲海默症、癌症和帕金森氏症等疾病的蛋白質摺疊。志願者在個人電腦的空閒時間進行蛋白質模擬，幫助研究人員研究蛋白質如何錯誤折疊並導致疾病。在其歷史的不同時間段，其計算能力超過了當時最大的超級計算機，包括在2000 年代後期和COVID 期間，當時它成為第一個超過一exaFLOPS 的分散式計算項目。自成立以來，Folding 的研究人員已發表超過200 篇同行評審論文，每一篇都依賴志工的運算能力。

伯克利開放網路運算基礎設施(BOINC) 在2002 年普及了這個概念，提供了一個眾包運算平台，用於各種研究計畫。它支援SETI@home 和Folding@home 等多個項目，以及在天文物理學、分子生物學、數學和密碼學等領域的新項目。到2024 年，BOINC 列出了30 個正在進行的項目，以及近1,000 篇發表的科學論文，均利用其計算網絡產生。

在科學研究領域之外，志願計算被用於訓練圍棋（LeelaZero、KataGo）和國際象棋（Stockfish、LeelaChessZero）等遊戲引擎。 LeelaZero 透過志願計算從2017 年到2021 年進行訓練，使其能夠與自己下棋超過一千萬局，創造了今天最強的圍棋引擎之一。類似地，Stockfish 自2013 年以來一直在志願網絡上持續訓練，使其成為最受歡迎和最強大的國際象棋引擎之一。

關於深度學習的挑戰

但是我們能否將此模型應用於深度學習？我們是否可以將世界各地的邊緣設備連網，創造一個低成本的公共訓練集群？消費者硬體——從蘋果筆記本到Nvidia 遊戲顯示卡——在深度學習方面的表現越來越出色。在許多情況下，這些設備的效能甚至超過了資料中心顯示卡的每美元效能。

深度研究：加密激勵眾籌一個AI模型，是否可行？

然而，要有效利用這些資源在分散式環境中，我們需要克服各種挑戰。

首先，目前的分散式訓練技術假設節點之間存在頻繁的通訊。

目前最先進的模型已經變得如此龐大，以至於訓練必須拆分到數千個GPU 之間。這是透過多種平行化技術來實現的，通常是在可用的GPU 之間拆分模型、資料集或同時拆分兩者。這通常需要高頻寬和低延遲的網絡，否則節點將閒置，等待資料到來。

例如，分散式資料並行技術(DDP) 將資料集分配到各個GPU 上，每個GPU 在其特定的資料片段上訓練完整的模型，然後共享其梯度更新，以產生各個步驟的新模型權重。這需要相對有限的通訊開銷，因為節點僅在每次反向傳播後共享梯度更新，並且集體通訊操作可以部分與計算重疊。然而，這種方法僅適用於較小的模型，因為它要求每個GPU 在記憶體中儲存整個模型的權重、啟動值和最佳化器狀態。例如，GPT-4 在訓練時需要超過10TB 的內存，而單一H100 僅有80GB。

為了解決這個問題，我們還使用各種技術對模型進行拆分，以便在GPU 之間進行分配。例如，張量並行技術(tensor parallelism) 在單一層內拆分各個權重，使得每個GPU 執行必要的操作並將輸出傳遞給其他的GPU。這降低了每個GPU 的記憶體需求，但需要它們之間進行持續的通訊往來，因此需要高頻寬、低延遲的連線以提高效率。

管線並行技術(pipeline parallelism) 將模型的層分配到各個GPU 上，每個GPU 執行其工作並與管線中的下一個GPU 共享更新。儘管這所需的通訊量比張量並行更少，但可能會出現「氣泡」（例如，空閒時間），在這種情況下，位於流水線後面的GPU 會等待來自前面GPU 的訊息，以便開始其工作。

為了解決這些挑戰，發展出各種技術。例如，ZeRO（零冗餘優化器）是一種記憶體優化技術，它透過增加通訊開銷來減少記憶體使用，從而使更大的模型能夠在特定設備上進行訓練。 ZeRO 透過在GPU 之間分割模型參數、梯度和最佳化器狀態來降低記憶體需求，但依賴大量的通信，以便設備能夠獲取分割的資料。它是流行技術如完全分片資料並行(FSDP) 和DeepSpeed 的基礎方法。

這些技術通常在大模型訓練中結合使用，以最大化資源的利用效率，稱為3D 並行。在這種配置中，張量並行技術(tensor parallelism) 通常用於在單一伺服器內將權重分配到各個GPU 上，因為在每個被分割的層之間需要大量通訊。然後，管線並行技術(pipeline parallelism) 被用來在不同伺服器之間（但在資料中心的同一島嶼內）分配層，因為它所需的通訊量較少。接著，資料並行技術(data parallelism) 或完全分片資料並行技術(FSDP) 被用來在不同伺服器島嶼之間拆分資料集，因為它可以透過非同步共享更新和/ 或壓縮梯度來適應更長的網路延遲。 Meta 使用這種組合方法來訓練Llama 3.1，如下面的圖示所示。

這些方法為去中心化訓練網路帶來了核心挑戰，這些網路依賴於透過（速度更慢且波動更大的）消費級網路連接的設備。在這種環境中，通訊成本很快就會超過邊緣運算帶來的效益，因為設備通常是空閒的，等待資料到達。以一個簡單的例子說明，分散式資料並行訓練一個具有10 億參數的半精度模型，每個GPU 在每個最佳化步驟中需要共享2GB 的資料。以典型的網路頻寬（例如1 千兆位元每秒）為例，假設計算與通訊不重疊，傳輸梯度更新至少需要16 秒，導致顯著的空閒。像張量並行技術(tensor parallelism) 這樣的技術（需要更多的通訊）當然會表現得更糟。

其次，目前的訓練技術缺乏容錯能力。像任何分散式系統一樣，隨著規模的增加，訓練叢集變得更容易發生故障。然而，這個問題在訓練中更加嚴重，因為我們目前的技術主要是同步的，這意味著GPU 必須協同工作以完成模型訓練。成千上萬的GPU 中單一GPU 的故障會導致整個訓練過程停止，迫使其他GPU 從頭開始訓練。在某些情況下，GPU 並不會完全故障，而是因為各種原因變得遲緩，進而減慢叢集中成千上萬其他GPU 的速度。考慮到當今集群的規模，這可能意味著數千萬到數億美元的額外成本。

Meta 在他們的Llama 訓練過程中詳細闡述了這些問題，他們經歷了超過400 次意外中斷，平均每天約8 次中斷。這些中斷主要歸因於硬體問題，例如GPU 或主機硬體故障。這導致他們的GPU 使用率僅為38-43%。 OpenAI 在GPT-4 的訓練過程中表現較差，僅32-36%，這也是由於訓練過程中故障頻繁。

換句話說，前沿實驗室們在完全優化的環境中（包括同質的、最先進的硬體、網路、電源和冷卻系統）進行訓練時，仍然難以達到40% 的利用率。這主要歸因於硬體故障和網路問題，而在邊緣訓練環境中，這些問題會更加嚴重，因為設備在處理能力、頻寬、延遲和可靠性方面存在不均衡。更不用說，去中心化網路容易受到惡意行為者的侵害，他們可能出於各種原因試圖破壞整體專案或在特定工作負載上作弊。即使是純志工網路SETI@home，也曾出現不同參與者的作弊現象。

第三，前沿模型訓練需要大規模的運算能力。雖然像SETI 和Folding 這樣的專案達到了令人印象深刻的規模，但與當今前沿訓練所需的運算能力相比，它們相形見絀。 GPT-4 在一個由20,000 個A100 組成的集群上訓練，其峰值吞吐量為半精度的6.28 ExaFLOPS。這比Folding@home 在其峰值時的運算能力多出三倍。 Llama 405b 使用16,000 個H100 進行訓練，峰值吞吐量為15.8 ExaFLOPS，是Folding 峰值的7 倍。隨著多個實驗室計劃建造超過100,000 個H100 的集群，這一差距只會進一步擴大，每個集群的運算能力高達驚人的99 ExaFLOPS。

深度研究：加密激勵眾籌一個AI模型，是否可行？

這很有道理，因為@home 計畫是志工驅動的。貢獻者捐贈了他們的記憶體和處理器週期，並承擔了相關成本。這自然限制了它們相對於商業項目的規模。

未來的道路

將這些部分連結在一起，我們可以看到前進的新道路的開端。

很快，新的訓練技術將使我們能夠超越資料中心的限制，因為設備不再需要共同放置才能發揮作用。這將需要時間，因為我們目前的去中心化訓練方法仍處於較小規模，主要在10 億到20 億個參數的範圍內，比像GPT-4 這樣的模型小得多。我們需要進一步的突破，以在不犧牲關鍵屬性（如通訊效率和容錯能力）的情況下提升這些方法的規模。或者，我們需要新的模型架構，這些架構與今天的大型單體模型有所不同——可能更小、更模組化，在邊緣設備上運行，而不是在雲端

無論如何，可以合理地預期在這個方向上會有進一步的進展。我們目前方法的成本是不可持續的，這為創新提供了強烈的市場動力。我們已經看到這一趨勢，像Apple 這樣的製造商正在建立更強大的邊緣設備，以便在本地運行更多的工作負載，而不是依賴雲端。我們也看到對開源解決方案的支援不斷增加——甚至在像Meta 這樣的公司內部，以促進更去中心化的研究與開發。這些趨勢隨著時間的推移只會加速。

同時，我們也需要新的網路基礎設施來連接邊緣設備，以便能夠這樣使用它們。這些設備包括筆記型電腦、遊戲桌上型電腦，最終甚至可能是擁有高效能顯示卡和大內存的手機。這將使我們能夠建立一個「全球集群」，低成本、始終在線的運算能力，可以並行處理訓練任務。這也是一個具有挑戰性的問題，需要在多個領域取得進展。

我們需要更好的調度技術來在異質環境中進行訓練。目前沒有任何方法可以自動並行化模型以達到最佳化，特別是在設備可以隨時斷開或連接的情況下。這是優化訓練的關鍵下一步，同時保留基於邊緣網路的規模優勢。

我們也必須應對去中心化網路的一般複雜性。為了最大化規模，網路應該建構成開放協議——一套標準和指令，規定參與者之間的互動，就像TCP/IP 而是用於機器學習計算。這將使任何遵循特定規範的設備能夠連接到網絡，無論擁有者和位置。它還確保網路保持中立，允許用戶訓練他們喜歡的模型。

雖然這實現了規模最大化，但它也需要一個機制來驗證所有訓練任務的正確性，而不依賴單一實體。這一點至關重要，因為存在固有的作弊誘因——例如，聲稱自己完成了某個訓練任務以獲得報酬，但實際上並沒有做到。考慮到不同設備通常以不同方式執行機器學習操作，這使得使用標準複製技術難以驗證正確性，因此這尤其具有挑戰性。正確解決這個問題需要在密碼學和其他學科上進行深入研究。

幸運的是，我們在所有這些方面都繼續看到進展。與過去幾年相比，這些挑戰似乎不再是不可逾越。與機會相比，它們也顯得相當微小。 Google 在他們的DiPaCo 論文中對此進行了最佳總結，指出去中心化訓練有潛力打破的負回饋機制：

分散式訓練機器學習模型的進展可能促進基礎設施的簡化建設，最終導致計算資源的更廣泛可用。目前，基礎設施是圍繞著訓練大型單體模型的標準方法而設計的，同時機器學習模型的架構也旨在利用當前的基礎設施和訓練方法。這種回饋循環可能使社群陷入一個誤導性的局部最小值，即計算資源的限制超過了實際需求。

也許最令人興奮的是，研究界對解決這些問題的熱情日益高漲。我們在Gensyn 的團隊正在建立上述網路基礎設施。像Hivemind 和BigScience 這樣的團隊在實踐中應用了許多這些技術。像Petals、sahajBERT 和Bloom 這樣的專案展示了這些技術的能力，以及對社區為基礎的機器學習日益增長的興趣。還有許多其他人也在推動研究進展，目標是建立一個更開放、更協作的模型來訓練生態系統。如果您對這項工作感興趣，請與我們聯繫以參與其中。

作者：深潮TechFlow
本文為PANews入駐專欄作者的觀點，不代表PANews立場，不承擔法律責任。文章及觀點也不構成投資意見。
圖片來源：深潮TechFlow 如有侵權，請聯繫作者刪除。

深度挖礦數字貨幣比特幣去中心化

評論

深度研究：加密激勵眾籌一個AI模型，是否可行？