作者:Eugene Cheah
编译:J1N,Techub News
AI 算力成本下降,将激发初创公司利用低成本资源进行创新的热潮。
去年由于 AI 算力供应紧张,H100 的租赁价格高达每小时 8 美元,但现在市场上算力供应过剩,价格降到了每小时 2 美元以下。这是由于一些公司在早期签署了算力租赁合同,为了不让过剩的算力浪费,于是开始转售其预留的计算资源,而市场大多选择使用开源模型,导致新模型的需求减少。现在,市场上 H100 的供应量远超需求,因此租用 H100 比购买更划算,投资购买新的 H100 已不再具有收益。
AI 竞赛简史
GPU 算力市场的价格一路飙升,H100 最初的租金约为每小时 4.70 美元,涨到最高超过 8 美元。这是由于项目创始人为了实现下一轮融资,并说服投资者,必须抓紧时间训练他们的 AI 模型。
ChatGPT 于 2022 年 11 月推出,使用的是 A100 系列的 GPU。到了 2023 年 3 月,NVIDIA 推出了新的 H100 系列 GPU,在其宣传中提到 H100 的性能比 A100 强 3 倍,但价格却只比 A100 高 2 倍。
这对 AI 初创公司来说是一个巨大的吸引力。因为 GPU 的性能直接决定了他们可以开发的 AI 模型的速度和规模。H100 的强大性能意味着这些公司能够开发出比以前更快、更大、更高效的 AI 模型,甚至有可能追赶或超过像 OpenAI 这样的行业领导者。当然,这一切的前提是他们拥有足够的资本来购买或租用大量的 H100。
由于 H100 的性能大大提升,再加上 AI 领域的激烈竞争,很多初创公司都投入了巨额资金来抢购 H100,用它来加速他们的模型训练。这种需求的激增导致 H100 的租赁价格暴涨,最初每小时 4.70 美元,但后来涨到超过 8 美元。
这些初创公司之所以愿意支付高昂的租金,是因为他们急于快速训练模型,以便在下一轮融资中吸引投资者的注意,争取到数亿美元的资金来继续扩展他们的业务。
对于拥有大量 H100 GPU 的算力中心(农场)来说,租赁 GPU 的需求非常高,这就像是「送上门来的钱」。原因是这些 AI 初创公司急于租用 H100 来训练他们的模型,甚至愿意预付租金。这意味着 GPU 农场可以以长期的每小时 4.70 美元(或更高)租出他们的 GPU。
根据计算,如果他们能以这种价格持续出租 GPU,那么他们投资购买 H100 的回报周期(即收回购买成本的时间)将不到 1.5 年。回报期结束后,之后每台 GPU 每年能带来超过 10 万美元的净现金流收入。
由于对 H100 和其他高性能 GPU 的需求持续高涨,GPU 农场的投资者看到了巨大的利润空间,因此他们不仅同意了这种商业模式,甚至还追加了更大的投资,购买更多 GPU 以赚取更多利润。
《郁金香的愚蠢》:创作于有记载的历史上第一次投机泡沫之后,郁金香价格在 1634 年持续攀升,并于 1637 年 2 月崩盘
随着人工智能和大数据处理需求的增长,企业对高性能 GPU(尤其是 NVIDIA 的 H100)的需求激增,为了支持这些计算密集型任务,全球企业在硬件和基础设施上初期已投入约 6000 亿美元,用于购买 GPU、建设数据中心等,以提升计算能力。然而,由于供应链的延迟,H100 的价格在 2023 年大部分时间里居高不下,甚至超过每小时 4.70 美元,除非买家愿意预付大额定金。到了 2024 年初,随着更多的供应商进入市场,H100 的租赁价格降至约 2.85 美元,但我开始收到各类推销邮件,反映了市场供应增加后竞争加剧的情况。
虽然最初 H100 GPU 的租赁价格在每小时 8 至 16 美元之间,但到了 2024 年 8 月,拍卖式租赁价格已降至每小时 1 到 2 美元。市场价格每年预计会下降 40% 或更多,远超 NVIDIA 预测的 4 年内维持每小时 4 美元的预期。这种迅速的价格下滑给那些刚购买高价新 GPU 的人带来了财务风险,因为他们可能无法通过租赁回收成本。
投资 5 万美元购买一张 H100 的资本回报率是多少?
在不考虑电力和冷却成本的前提下,H100 的购买成本大约为 5 万美元,预计使用寿命为 5 年。租赁通常有两种模式:短期按需租赁和长期预订。短期租赁价格较高,但灵活性强,长期预订则价格较低但稳定。接下来,文章会通过分析这两种模式的收益,来计算投资者在 5 年内能否收回成本并获得盈利。
短期按需租赁
租赁价格以及对应的收益:
>$2.85 : 超越股市 IRR,实现盈利。
<$2.85 : 收益低于投资股市收益。
<$1.65 : 预计投资损失。
通过「混合价格」模型预测,未来 5 年内租金可能下降到当前价格的 50%。如果租赁价格保持在每小时 4.50 美元,投资回报率(IRR)超过 20%,则有利可图;但当价格降至 2.85 美元 / 小时时,IRR 仅有 10%,回报显著降低。如果价格跌破 2.85 美元,投资回报甚至可能低于股市收益,而当价格低于 1.65 美元时,投资者将面临严重的亏损风险,特别是对于近期购买 H100 服务器的人。
注:「混合价格」是一个假设,认为 H100 的租赁价格在未来 5 年内逐渐下降到当前价格的一半。这种估计被认为是乐观的,因为当前市场价格每年下降超过 40%,所以考虑价格下降是合理的。
长期预订租约(3 年以上)
在 AI 热潮期间,许多老牌基础设施提供商基于过去的经验,尤其是在加密货币早期以太坊 PoW 时代经历过 GPU 租金价格暴涨暴跌的周期,因此在 2023 年,他们推出了 3-5 年的高价预付款租赁合同,以锁定利润。这些合同通常要求客户支付高于每小时 4 美元的价格,甚至预付 50% 到 100% 的租金。随着 AI 需求激增,尤其是在图像生成领域的基础模型公司为了抢占市场先机、率先使用最新的 GPU 集群,尽管这些合同价格高昂,但他们不得不签订,以快速完成目标模型,提升竞争力。然而,当模型训练完成后,这些公司不再需要这些 GPU 资源,但由于合同锁定的关系,他们无法轻易退出,为了减少损失,他们选择将这些租赁的 GPU 资源转售,以回收部分成本。这导致市场上出现了大量转售的 GPU 资源,供应增加,影响了市场的租赁价格和供需关系。
当前的 H100 价值链
注:价值链(Value chain),又名价值链分析、价值链模型等。由迈克尔・波特在 1985 年,于《竞争优势》一书中提出的。波特指出企业要发展独特的竞争优势,要为其商品及服务创造更高附加价值,商业策略是结构企业的经营模式,成为一系列的增值过程,而此一连串的增值流程,就是「价值链」。
H100 价值链从硬件到 AI 推理模型,其中的参与部份可以大致分为以下几类
- 与 Nvidia 合作的硬件供应商
- 数据中心基础设施提供商和合作伙伴
- 风险投资基金、大型公司和初创公司:计划建立基础模型(或已经完成模型建立)
- 容量经销商:Runpod、SFCompute、Together.ai、Vast.ai、GPUlist.ai 等。
当前的 H100 价值链包括从硬件供应商到数据中心提供商、AI 模型开发公司、容量经销商和 AI 推理服务提供商等多个环节。市场的主要压力来自于未使用的 H100 容量经销商不断转售或出租闲置资源,以及「足够好」的开源模型(如 Llama 3)的广泛使用,导致对 H100 的需求下降。这两大因素共同导致了 H100 供应过剩,进而对市场价格造成下行压力。
市场趋势:开源权重模型的兴起
开源权重模型指的是那些尽管没有正式的开源许可证,但其权重已被公开免费分发,并且被广泛应用于商业领域。
这些模型的使用需求主要受到两大因素推动:一是类似 GPT-4 规模的大型开源模型(如 LLaMA3 和 DeepSeek-v2)的出现,二是小型(80 亿参数)和中型(700 亿参数)微调模型的成熟和广泛采用。
由于这些开源模型的成熟度越来越高,企业能够轻松获取并使用它们来满足大多数 AI 应用的需求,尤其是在推理和微调方面。尽管这些模型在某些基准测试中可能略微逊色于专有模型,但它们的性能已经足够好,可以应对大多数商业用例。因此,随着开源权重模型的普及,市场对推理和微调的需求正在快速增长。
开源权重模型还具有三个关键优势:
首先,开源模型具有很高的灵活性,允许用户根据特定领域或任务对模型进行微调,从而更好地适应不同的应用场景。其次,开源模型提供了可靠性,因为模型权重不会像某些专有模型那样在未通知的情况下更新,避免出现一些因更新而导致的开发问题,增加了用户对模型的信任。最后,它还确保了安全性和隐私,企业可以确保其提示和客户数据不会通过第三方 API 端点被泄露,降低了数据隐私风险。正是这些优势促使开源模型的持续增长和广泛采用,特别是在推理和微调方面。
中小型模型创作者需求转向
中小型模型创建者是指那些没有能力或计划从头训练大型基础模型(如 70B 参数模型)的企业或初创公司。随着开源模型的兴起,许多公司意识到,对现有开源模型进行微调,比自己从头训练一个新模型更加经济高效。因此,越来越多的公司选择微调,而非自行训练模型。这大大减少了对 H100 等计算资源的需求。
微调比从头训练便宜得多。微调现有模型所需的计算资源远远少于从头训练一个基础模型。大型基础模型的训练通常需要 16 个或更多 H100 节点,而微调通常只需要 1 到 4 个节点。这种行业的转变削减了小型和中型公司对大规模集群的需求,直接减少了对 H100 计算能力的依赖。
此外,基础模型创建的投资减少。在 2023 年,许多中小型公司尝试创建新的基础模型,但如今,除非他们能够带来创新(如更好的架构或对数百种语言的支持),否则几乎不会再有新的基础模型创建项目。这是因为市场上已经有足够强大的开源模型,如 Llama 3,让小型公司很难证明创建新模型的合理性。投资者的兴趣和资金也转向了微调,而非从头训练模型,进一步减少了对 H100 资源的需求。
最后,预留节点的过剩容量也是一个问题。许多公司在 2023 年高峰期长期预定了 H100 资源,但由于转向微调,他们发现这些预留的节点已经不再需要,甚至有些硬件到货时已经过时。这些未使用的 H100 节点现在被转售或出租,进一步增加了市场的供应,导致 H100 资源供过于求。
总体来看,随着模型微调的普及、中小型基础模型创建的减少,以及预留节点的过剩,H100 市场需求明显下降,供过于求的情况加剧。
导致 GPU 算力供应增加和需求减少的其他因素
大型模型创建者脱离开源云平台
大型 AI 模型创建者如 Facebook、X.AI 和 OpenAI 正在逐步从公共云平台转向自建私有计算集群的原因。首先,现有的公共云资源(如 1000 个节点的集群)已无法满足他们训练更大模型的需求。其次,从财务角度来看,自建集群更有利,因为购买数据中心、服务器等资产可以增加公司估值,而租赁公共云只是费用支出,无法提升资产。此外,这些公司拥有足够的资源和专业团队,甚至可以收购小型数据中心公司来帮助他们构建和管理这些系统。因此,他们不再依赖公共云。随着这些公司脱离公共云平台,市场对计算资源的需求减少,可能导致未使用的资源重新进入市场,增加供应。
Vast.ai 本质上是一个自由市场体系,来自世界各地的供应商相互竞争
闲置与延迟出货的 H100 同时上线
由于闲置与延迟出货的 H100 GPU 同时上线,促使市场供应量增加,导致价格下降。Vast.ai 等平台采用自由市场模式,全球供应商在这里相互竞争价格。2023 年,由于 H100 出货延迟,许多资源未能及时上线,现在这些延迟的 H100 资源开始进入市场,连同新的 H200 和 B200 设备,以及初创公司和企业闲置的计算资源一起供应。小型和中型集群的所有者通常拥有 8 到 64 个节点,但由于利用率低且资金已经耗尽,他们的目标是通过低价出租资源来尽快收回成本。为此,他们选择通过固定利率、拍卖系统或自由市场定价的方式来竞争客户,尤其是拍卖和自由市场模式,使得供应商为确保资源被租用而竞相降价,最终导致整个市场的价格大幅下降。
更便宜的 GPU 替代品
另一个主要因素是,一旦算力成本超出了预算,那么 AI 推理基础设施便有很多替代方案,特别是如果你运行的是较小的模型。就不需要为使用 H100 的 Infiniband 支付额外费用。
Nvidia 市场细分
H100 GPU 的 AI 推理任务中更便宜替代品的出现,这会直接影响市场对 H100 的需求。首先,虽然 H100 在 AI 模型的训练和微调上非常出色,但在推理(即运行模型)领域,很多更便宜的 GPU 能够满足需求,尤其是针对较小的模型。因为推理任务不需要 H100 的高端功能(如 Infiniband 网络),用户可以选择更经济的替代方案,节省成本。
Nvidia 自己也在推理市场中提供了替代产品,如 L40S,这是一款专门用于推理的 GPU,性能大约是 H100 的三分之一,但价格只有五分之一。虽然 L40S 在多节点训练方面效果不如 H100,但对于单节点推理和小型集群的微调,已经足够强大,这为用户提供了一个更具性价比的选择。
H100 Infiniband 集群性能配置表(2024 年 8 月)
AMD 和 Intel 替代供应商
另外,AMD 和 Intel 也推出了价格更低的 GPU,例如 AMD 的 MX300 和 Intel 的 Gaudi 3。这些 GPU 在推理和单节点任务中表现优异,价格比 H100 更便宜,同时还拥有更多的内存和计算能力。尽管它们在大型多节点集群训练中还未得到完全验证,但在推理任务中已经足够成熟,成为 H100 的有力替代品。
这些更便宜的 GPU 已经被证明能够处理大多数推理任务,尤其是常见模型架构(如 LLaMA 3)上的推理和微调任务。因此,用户在解决兼容性问题后,可以选择这些替代 GPU,以降低成本。总结来说,推理领域中的这些替代品正逐渐取代 H100,特别是在小规模推理和微调任务中,这进一步降低了对 H100 的需求。
Web3 领域 GPU 使用率下降
由于加密货币市场变化,GPU 在加密挖矿中的使用率下降,大量 GPU 因此流入云市场。尽管这些 GPU 由于硬件限制无法胜任复杂的 AI 训练任务,但它们在较简单的 AI 推理工作中表现良好,特别是对于预算有限的用户,处理较小模型(如 10B 参数以下)的任务时,这些 GPU 成为性价比很高的选择。经过优化,这些 GPU 甚至可以运行大型模型,成本比使用 H100 节点更低。
AI 算力租赁泡沫后,现在的市场如何?
现在入场面临的问题:新公共云 H100 集群进入市场较晚,可能无法盈利,一些投资者可能会损失惨重。
新进入市场的 H100 公共云集群面临的盈利挑战。如果租赁价格设定过低(低于 2.25 美元),可能无法覆盖运营成本,导致亏损;如果定价过高(3 美元或以上),则可能失去客户,导致产能闲置。此外,较晚进入市场的集群因为错过了早期的高价(4 美元 / 小时),难以回收成本,投资者面临无法盈利的风险。这使得集群投资变得非常困难,甚至可能导致投资者遭受重大损失。
早期入场者的收益情况:早期签署了长期租赁合同的中型或大型模型创建者,已经收回成本并实现盈利
中型和大型模型创建者通过长期租赁 H100 计算资源已经获得了价值,这些资源的成本在融资时已被涵盖。虽然部分计算资源未完全利用,但这些公司通过融资市场将这些集群用于当前和未来的模型培训,并从中提取了价值。即使有未使用的资源,他们也能通过转售或租赁获得额外收入,这降低了市场价格,减少了负面影响,整体上对生态系统产生了积极影响。
泡沫破灭后,:价格低廉的 H100 可以加速开源式 AI 的采用浪潮
低价 H100 GPU 的出现将推动开源式 AI 的发展。随着 H100 价格下降,AI 开发者和业余爱好者可以更便宜地运行和微调开源权重模型,使这些模型的采用更广泛。如果未来闭源模型(如 GPT5++)没有实现重大技术突破,开源模型与闭源模型的差距将缩小,推动 AI 应用的发展。随着 AI 推理和微调成本降低,可能引发新的 AI 应用浪潮,加速市场的整体进步。
结论:不要购买全新的 H100
如果现在投资购买全新的 H100 GPU 大概率会亏损。不过只有在特殊情况下,比如项目能够购买到打折的 H100、廉价的电力成本,或在其 AI 产品在市场上拥有足够竞争力时,再去投资才可能合理。如果你正在考虑投资,建议将资金投入其他领域或股票市场,以获得更好的回报率。