IOSG：DePIN为何有潜力解决GPU可用性问题？

IOSG ｜2024-03-05 17:00

GPU短缺是现实，供需紧张，需要一个激励层来促进云计算的参与，然后最终协调用于推理或训练的计算任务。DePIN模型正好适合这一用途。

作者：Mohit Pandit, IOSG Ventures

IOSG：DePIN为何有潜力解决GPU可用性问题？

摘要

GPU短缺是现实，供需紧张，但未充分利用的GPU数量可以满足当今供应紧缺的需求。
需要一个激励层来促进云计算的参与，然后最终协调用于推理或训练的计算任务。DePIN模型正好适合这一用途。
因为供应方的激励，因为计算成本较低，需求方发现这很吸引人，。
并非一切都是美好的，选择Web3云时必须做出某些权衡：比如‘延迟’。相对于传统的GPU云，面临的权衡还包括保险、服务水平协议 (Service Level Agreements) 等。
DePIN模型有潜力解决GPU可用性问题，但碎片化模型不会使情况变得更好。对于需求呈指数级增长的情况，碎片化供应和没有供应一样。
考虑到新市场参与者的数量，市场聚合是不可避免的。

引言

我们正处于机器学习和人工智能的新时代边缘。虽然AI已经以各种形式存在一段时间（AI是被告知执行人类可以做的事情的计算机设备，如洗衣机），但我们现在见证了复杂认知模型的出现，这些模型能够执行需要智能人类行为的任务。显著的例子包括OpenAI的GPT-4和DALL-E 2，以及谷歌的Gemini。

在迅速增长的人工智能（AI）领域，我们必须认识到发展的双重方面：模型训练和推理。推理包括AI模型的功能和输出，而训练包括构建智能模型所需的复杂过程（包括机器学习算法、数据集和计算能力）。

以GPT-4为例，最终用户关心的只是推理：基于文本输入从模型获取输出。然而，这种推理的质量取决于模型训练。为了训练有效的AI模型，开发者需要获得全面的基础数据集和巨大的计算能力。这些资源主要集中在包括OpenAI、谷歌、微软和AWS在内的行业巨头手中。

公式很简单：更好的模型训练 >> 导致AI模型的推理能力增强 >> 从而吸引更多用户 >> 带来更多收入，用于进一步训练的资源也随之增加。

这些主要玩家能够访问大型基础数据集，更关键的是控制着大量计算能力，为新兴开发者创造了进入壁垒。因此，新进入者经常难以以经济可行的规模和成本获得足够的数据或利用必要的计算能力。考虑到这种情况，我们看到网络在民主化资源获取方面具有很大价值，主要是与大规模获取计算资源以及降低成本有关。

GPU供应问题

NVIDIA的CEO Jensen Huang在2019年CES上说“摩尔定律已经结束”。今天的GPU极度未充分利用。即使在深度学习/训练周期中，GPU也没有被充分利用。

以下是不同工作负载的典型GPU利用率数字：

空闲（刚刚启动进入Windows操作系统）：0-2%
一般生产任务（写作、简单浏览）：0-15%
视频播放：15 - 35%
PC游戏：25 - 95%
图形设计/照片编辑主动工作负载（Photoshop、Illustrator）：15 - 55%
视频编辑（主动）：15 - 55%
视频编辑（渲染）：33 - 100%
3D渲染（CUDA / OptiX）：33 - 100%（常被Win任务管理器错误报告 - 使用GPU-Z）

大多数带GPU的消费设备属于前三类。

GPU运行时利用率%。Source: Weights and Biases

上述情况指向一个问题：运算资源利用不良。

需要更好地利用消费者GPU的容量，即使在GPU利用率出现高峰时，也是次优的。这明确了未来要进行的两件事情：

资源（GPU）聚合
训练任务的并行化

可以使用的硬件类型方面，现在有4种类型用于供应：

· 数据中心GPU（例如，Nvidia A100s）

· 消费者GPU（例如，Nvidia RTX3060）

· 定制ASIC（例如，Coreweave IPU）

· 消费者SoCs（例如，苹果M2）

除了ASIC（因为它们是为特定目的而构建的），其他硬件可以被汇集以最有效地利用。随着许多这样的芯片掌握在消费者和数据中心手中，聚合供应方的DePIN模型可能是可行的道路。

GPU生产是一个体量金字塔；消费级GPU产量最高，而像NVIDIA A100s和H100s这样的高级GPU产量最低（但性能更高）。生产这些高级芯片的成本是消费者GPU的15倍，但有时并不提供15倍的性能。

整个云计算市场今天价值约4830亿美元，预计未来几年将以约27%的复合年增长率增长。到2023年，将有大约130亿小时的ML计算需求，按照当前标准费率，这相当于2023年ML计算的约560亿美元支出。这整个市场也在迅速增长，每3个月增长2倍。

GPU需求

计算需求主要来自AI开发者（研究人员和工程师）。他们的主要需求是：价格（低成本计算）、规模（大量GPU计算）和用户体验（易于访问和使用）。在过去两年中，由于对基于AI的应用程序的需求增加以及ML模型的发展，GPU需求量巨大。开发和运行ML模型需要：

大量计算（来自访问多个GPU或数据中心）
能够执行模型训练、微调 ( fine tuning) 以及推理，每个任务都部署在大量GPU上并行执行

计算相关硬件支出预计将从2021年的170亿美元增长到2025年的2850亿美元（约102%的复合年增长率），ARK预计到2030年计算相关硬件支出将达到1.7万亿美元（43%的复合年增长率）。

IOSG：DePIN为何有潜力解决GPU可用性问题？

ARK Research

随着大量LLM处于创新阶段，竞争驱动对更多参数的计算需求，以及重新训练，我们可以预期在未来几年内对高质量计算的持续需求。

随着新的GPU供应紧缩，区块链在哪里发挥作用？

当使用资源不足的时候，DePIN模型就会提供出其帮助：

启动供应方，创建大量供应
协调和完成任务
确保任务正确完成
为完成工作的提供者正确奖励

聚合任何类型的GPU（消费者、企业、高性能等）可能会在利用方面出现问题。当计算任务被分割时，A100芯片不应该执行简单的计算。GPU网络需要决定他们认为应该包括在网络中的GPU类型，根据他们的市场进入策略。

当计算资源本身分散（有时是全球性的）时，需要由用户或协议本身做出选择，决定将使用哪种类型的计算框架。提供者像io.net允许用户从3种计算框架中选择：Ray、Mega-Ray或部署Kubernetes集群在容器中执行计算任务。还有更多分布式计算框架，如Apache Spark，但Ray是最常用的。一旦所选GPU完成了计算任务，将重构输出以给出训练有素的模型。

一个设计良好的代币模型将为GPU提供者补贴计算成本，许多开发者（需求方）会发现这样的方案更有吸引力。分布式计算系统本质上具有延迟。存在计算分解和输出重构。所以开发者需要在训练模型的成本效益和所需时间之间做出权衡。

分布式计算系统需要有自己的链吗？

网络有两种运作方式：

按任务（或计算周期）收费或按时间收费
按时间单位收费

第一种方法，可以构建一个类似于Gensyn所尝试的工作证明链，其中不同GPU分担“工作”并因此获得奖励。为了更无信任的模型，他们有验证者和告密者的概念，他们因保持系统的完整性而获得奖励，这是基于解算者生成的证明。

另一个工作证明系统是Exabits，它不是任务分割，而是将其整个GPU网络视为单个超级计算机。这种模型似乎更适合大型LLM。

Akash Network增加了GPU支持，并开始聚合GPU进入这一领域。他们有一个底层L1来就状态（显示GPU提供者完成的工作）达成共识，一个市场层，以及容器编排系统，如Kubernetes或Docker Swarm来管理用户应用程序的部署和扩展。

一个系统如果要是无信任，工作证明链模型将最有效。这确保了协议的协调和完整性。

另一方面，像io.net这样的系统并没有将自己构建为一个链。他们选择解决GPU可用性的核心问题，并按时间单位（每小时）向客户收费。他们不需要可验证性层，因为他们本质上是“租用”GPU，在特定租赁期内随意使用。协议本身没有任务分割，而是由开发者使用像Ray、Mega-Ray或Kubernetes这样的开源框架完成。