深度剖析:Meta两万块AI芯片超级集群的成本与效能

作者:张景涛

背景

2024年3月,社交科技巨头Meta在官网宣布,已成功构建两个24K H100 GPU集群,共计49,152块GPU,专门用于训练其大型模型Llama-3。Meta预计,到2024年底,将拥有高达600,000块H100的算力。Meta首席科学家Yann LeCun在社交媒体上确认了这一消息。

Yann LeCun的社交媒体截图

在计算网络方面,一个24K集群采用RoCE以太网连接,另一个则使用Infiniband。本文将重点分析24K Infiniband集群。

为了有效控制成本,Meta选择与ODM合作,自主设计和制造H100机箱。凭借Meta庞大的使用量,他们能够直接与英特尔、英伟达等组件供应商进行谈判,同时在2024年生产的43,750个H100机箱上分摊研发成本。此外,这种机箱也适用于Meta的MI300X计算服务器。

Meta的Grand Teton H100机箱

Meta的Grand Teton项目将NVIDIA Hopper架构引入其数据中心。在设计超过2048块H100的NDR Infiniband网络时,由于QM9700 Infiniband交换机端口数量的限制,传统的2级轨道优化胖树拓扑已不再适用。Meta选择了标准的3级折叠Clos拓扑,用于其24,576块H100的集群。

本文将深入分析Meta 24,576块H100集群的材料清单(BoM),检查按主要项目(H100、CPU、DDR5内存、Infiniband交换机等)分解的资本支出(Capex)。同时,还将探讨运营费用(Opex),包括托管成本和电力费用,并最终深入研究该集群的总拥有成本(TCO)和每个GPU小时的成本。

资本支出 (CAPEX)

根据公开数据和广达电脑等服务器ODM的毛利率,我们估算了H100的资本支出。H100占据了BoM的大部分,高达65.8%,而CPU成本仅为1.75%。尽管1.75%的比例对应的金额达到1597万美元,但与英伟达所占份额相比显得微不足道。

Meta 24,576个H100集群资本支出估算

运营支出 (OPEX)

主要的运营费用包括托管空间和电力成本。尽管Meta拥有大量私有数据中心园区,但文中估算仍采用托管行业的标准市场价格,因为目前数据中心托管和建设行业供应紧张,导致Meta的内部数据中心建设成本上升。如果扣除托管提供商的毛利率,Meta的数据中心空间成本可能接近80美元/千瓦/月。该集群需要39-40兆瓦电力,而目前世界上几乎没有现成的托管空间能提供如此多的电力。要么建设一个全新的项目,这需要4-5年时间;要么与拥有所需托管空间合同的供应商合作,正如微软与Coreweave的合作。

Meta 24,576个H100集群4年生命周期Opex估算

电力成本方面,我们采用了与SemiAnalysis相同的费率,并假设90%的电力利用率。这一高利用率的假设基于H100计算服务器通常以峰值功率运行。Opex约占总拥有成本的29.27%。我们假设4年的使用寿命,因为自英伟达每年发布一次数据中心加速器以来,到2028年估计将有B100 ultra、R100、R100 ultra等四个型号发布。一个有力的论点是,到2028年,电力和数据中心空间的成本将变得如此高昂,以至于继续使用H100将不再经济(主要是因为新型号的性能功耗比远高于H100)。

在Meta、微软、OpenAI、AWS、谷歌等公司中,训练集群部署的规模并不受资本的限制,而是受限于单个数据中心园区的可用电力。当集群规模超过10,000块H100(18兆瓦)时,目标指标应转变为“每皮焦耳最大化智能”,而非“每美元最大化智能”。我们将在未来的分析中更详细地探讨限制更大训练部署的因素。

总拥有成本

我们将总拥有成本按主要项目进行分组。由于Meta需要为H100和Infiniband支付费用,英伟达从这个集群获得的收入高达7.915亿美元,占TCO的53.81%。请注意,电力成本仅占TCO的9.32%,但提高能源效率意味着在相同的兆瓦数内可以部署更大的集群。

Meta 24,576个H100集群4年生命周期总拥有成本估算

我们还需要考虑9.33%的加权平均资本成本(WACC)。即使Meta拥有充足的现金储备,也需要考虑这一因素,因为Meta可以通过将资金投资于无风险的美国国债,每年获得4.5%的固定收益。此外,市场风险溢价和其他因素也体现在这个9.33%的WACC中。
在计入资本成本之前,该集群的每小时H100的TCO为1.494美元,其中0.918美元支付给英伟达,0.159美元用于电力成本。如果包括每小时0.214美元的资本成本,每小时H100的TCO将上升到1.689美元。

Meta 24,576个H100集群总拥有成本百分比细分

我们看到资金中的1.925亿美元被用于Infiniband网络。考虑英伟达的网络部门拥有惊人的毛利率,如果Meta从infiniband切换到RoCEv2以太网将可以轻松节省近7000万美元。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26520.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于24-06-14
0