揭秘 Meta 最新大规模AI集群技术细节!

近日,Meta 对外披露了其最新的AI基础设施部署,新推出了两个拥有2.4万个GPU的集群(共 49152 个 H100),这是其AI基础设施路线图中的一项重大举措。该公司的雄心壮志并未止步于此,Meta 表示会持续扩大基础设施建设,到 2024 年底将部署 35万个 NVIDIA H100 GPU。

新集群旨在满足各类AI工作负载对高吞吐量和高可靠性的严苛要求。Meta 在Grand Teton、OpenRack 和 PyTorch 之上构建了这些集群,并使用这种算力集群来训练 Llama 3。下文将介绍Meta新集群在硬件、网络、存储、设计和性能方面的详细信息。

Meta大规模AI集群一瞥

2017年,Meta用2.2万个“Volta”V100 GPU构建了第一代人工智能集群。

2022 年 1 月,GenAI 热潮刚刚兴起时,Meta推出了 AI 研究超级集群 (RSC)。RSC基于 DGX 服务器设计,计划带来 2000 个节点,总共16000 个 GPU 来承担 AI 工作负载。2023年5月,RSC的建设完成了,但并未使用当时出货的“Hopper”H100 GPU,而是另外的9920个A100 GPU加速器。所有节点都通过一个基于200 Gb/s InfiniBand网络的两层Clos拓扑结构相互连接。

Meta表示其新推出的AI集群吸取了 RSC 的成功经验和教训,着力于构建全面覆盖端到端的人工智能系统。在集群架构上,Meta注重高性能网络结构的优化,以及关键性的存储策略选择,再加上每个集群中的 24576 个 Nvidia Tensor Core H100 GPU,使两个集群版本都能够支持更大规模、更复杂的模型。

网络

Meta每天需要处理数百万亿个AI模型请求,为了满足如此大规模的服务需求,一个高度、灵活的基础设施成为必然需求。通过自主定制设计大部分硬件、软件和网络结构,不仅能优化研究人员的端到端体验,还能确保数据中心高效、稳定地运行。

考虑到这一点,Meta基于Arista 7800、Wedge400和Minipack2 OCP机架交换机,构建了一个基于RoCE 网络fabric 解决方案的RDMA集群。另一个集群采用了NVIDIA Quantum2 InfiniBand结构。这两种解决方案都能互连 400 Gbps 端点。

有了这两者,Meta得以评估这些不同类型的互连对于大规模训练的适用性和可扩展性,为今后更大规模集群的设计与构建提供了宝贵的经验。通过对网络、软件和模型架构的协同设计,Meta成功地将 RoCE 和 InfiniBand 集群用于大型 GenAI 工作负载(包括在 RoCE 集群上持续训练 Llama 3),并且没有出现任何网络瓶颈。

计算

上述的两个集群都是基于 Grand Teton构建的。Grand Teton是Meta内部设计的开放 GPU 硬件平台,于2022年10月18日首次发布,现已被贡献给开放计算项目 (OCP)。

Grand Teton

Grand Teton 以多代人工智能系统为基础,通过将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能、信号完整性和散热性能。它以简化的设计提供快速的可扩展性和灵活性,使其能够快速部署到数据中心中,并可轻松维护和扩展。

存储

存储在人工智能训练中发挥着重要作用,但却鲜少被讨论。随着时间的推移,GenAI 训练工作趋向于多模态,涉及对海量图像、视频和文本等多种类型数据的利用,数据存储需求呈指数级增长。此外,还需要数据存储放入高性能且节能的空间中。

Meta的存储部署通过用户空间中的本地 Linux 文件系统 (FUSE) API 来满足 AI 集群的数据和检查点需求,该 API 由针对 Flash 媒体优化的 Meta“Tectonic”分布式存储解决方案版本提供支持。

Tectonic是Meta在大规模AI训练场景下解决存储难题的核心技术,可以使数千个 GPU 同步地保存和加载检查点。通过这一方案,Meta成功克服了存储大规模AI集群数据时面临的同步性和效率问题,从而确保了AI训练和推理过程的稳定性和可靠性。此外,Tectonic还提供了灵活且高吞吐量的EB级存储,满足了AI集群在数据加载方面的严苛需求。

此外,Meta还与Hammerspace合作,共同开发、部署并行网络文件系统(NFS),以满足AI集群的开发者体验。Hammerspace 使工程师能够使用数千个 GPU 对作业执行交互式调试,因为环境中的所有节点都可以立即访问代码更改。当Tectonic 分布式存储解决方案和 Hammerspace 结合使用时,能在不影响规模的情况下,实现快速的迭代。

Meta与Hammerspace共同开发的 AI 集群存储系统视图

Meta的 GenAI 集群中的存储部署(均由 Tectonic 和 Hammerspace 支持)基于YV3 Sierra Point 服务器平台,并使用目前可以在市场上购买的最新高容量 E1.S SSD 进行升级。除了更高的 SSD 容量之外,每个机架的服务器都经过定制,力求在单服务器的高吞吐能力、机架数量的精简以及电源使用效率之间找到最佳平衡点,从而最大限度地优化资源利用和降低能耗。通过采用符合OCP标准的服务器,如同搭建乐高积木一样,存储层能够灵活地扩展,以满足该集群以及未来更大规模 AI 集群的需求。同时,这种模块化设计也增强了日常基础设施的维护操作的容错能力。

性能

Meta认为构建大规模人工智能集群的原则之一是在保证高性能的同时,也要最大程度地提升易用性,而不牺牲任何一方的优势。

在探索人工智能系统的极限时,实践是最好出真知的方法,即直接构建并不断优化系统,尽管模拟器在一定程度上有助于预估性能,但最终仍需通过实际测试验证。在此过程中,Meta对比分析了小型和大型集群的表现,以了解瓶颈所在。下图中显示了当大量 GPU 以预期性能最高的消息大小相互通信时,AllGather 集体性能的表现(以 0-100 范围内的标准化带宽表示)。

与优化的小集群性能相比,大集群未经调优的初始性能表现欠佳且不稳定。为了解决这一问题,Meta通过网络拓扑感知来调度作业的方式对内部作业调度程序进行了一些更改,这减少不必要的延迟,并最大限度地减少了流向网络上层的流量。Meta还结合 NVIDIA Collective Communications Library (NCCL) 更改优化了网络路由策略,以实现最佳的网络利用率。这有助于推动大集群与小集群一样实现出色的预期性能。

从图中我们可以看到,小集群的初始性能就(整体通信带宽和利用率)达到了 90%+,但未经优化的大集群性能利用率非常低,从 10% 到 90% 不等。在优化整个系统(软件、网络等)后,大集群性能恢复到理想的 90%+ 范围。

此外,Meta 认识到可调试性是大规模训练的主要挑战之一。随着集群规模的增大,想要识别出导致整个训练任务停滞的问题GPU会变得非常困难。Meta 正在构建一些工具来公开分布式训练的细节,从而以更快、更简单的方式识别问题。

参考链接:
https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
https://www.nextplatform.com/2024/03/13/inside-the-massive-gpu-buildout-at-meta-platforms/


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26469.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于24-03-21
1