RDMA现代化，以太网的AI奇点之路

*本文内容整理自Broadcom公司高级副总裁Ram Velaga在2023 OCP全球峰会上的演讲，原名“以太网：通往奇点之路”。

AI革命彻底重塑了技术格局，但随之而来的是对网络互联和计算能力的全新挑战。在面对如此庞大而复杂的AI工作负载时，我们不得不思考网络如何有效地扩展以支持数十万个节点的规模？

传统的数据中心任务通常可以在单个服务器上管理，但AI训练任务要复杂得多，需要数据在数百甚至数千台设备之间流动，实现无缝协同。Ram Velaga认为，以太网是处理AI工作负载的首选方案，它拥有庞大的生态系统，并在数据中心中得到广泛认可。接下来，我们将重点讨论是什么使以太网成为当今AI工作负载的王牌，以及为什么以太网注定会成为连接所有计算的黄金标准。

AI奇点是什么？

AI领域里，有一个名词叫“奇点”。所谓的奇点是指机器智能达到或超越人类智能的水准，达到与人脑智能兼容的时刻和状态。然而，要实现这一目标，目前的单个芯片或多个互连芯片可提供的计算能力远远不够，需要连接数万、甚至数十万个节点，构建一个庞大的系统网络。

那么，网络是什么？

以太网就是网络。它曾是云计算的网络，现在是AI/ML的网络，未来将继续扮演满足AI/ML需求的大规模网络的重要角色。

回顾过去一年，以太网领域取得了显著的进展。以太网建立在开放标准的基础之上，拥有极开放的生态系统，支持即插即用和互操作性。当前，以太网市场吸引了众多不同类型的参与者，2022年以太网端口的总出货量达到60亿个，这一事实突显了以太网在经济和规模经济方面的强大优势。

以太网的50岁

今年，是以太网问世50周年，这半个世纪以来，它不断壮大。以太网发明者鲍勃·梅特卡夫因为对以太网作出的杰出贡献而获得了图灵奖。在过去的一年里，众多厂商宣布推出高性能交换机，以满足AI/ML对带宽的日益增长需求。Broadcom宣布推出了多款高性能交换机，随后Marvell和思科等厂商也推出了50T交换机，推动以太网更好地发展。

AI 集群通常有两个不同的网络。第一种网络，也是比较传统的，是所有服务器的外部或面向外部的“前端”网络，当它们面向公共互联网时，需要基于以太网和IP协议。AI 的主要区别在于需要将大量数据输入集群，因此管道比传统的网络服务器大得多。第二种是“后端”网络，这是一个将AI 集群资源连接在一起的独特网络。对于AI 集群来说，跨计算资源连接到其共享存储和内存，并快速且没有延迟偏差地执行这些任务，对于最大化集群性能至关重要。

有人可能会问，前端网络是否基于以太网，而后端网络是否依赖类似InfiniBand的技术？Ram Velaga认为，实际上这就是一个单一的网络——以太网，前端和后端都汇聚成一个以太网网络。

当前，全球最大的IT运营商的AI/ML基础设施都连接在以太网网络上，而这一趋势将继续下去。因为以太网拥有其它任何技术都无法匹敌的生态系统，它提供了故障排除、测试设备、监控设备，同时还支持供应商设备的灵活替换，这使得不同供应商的交换机或网卡可以无缝协同工作。

RDMA有什么问题？

展望未来，我们应该考虑什么？可以看一下大语言模型的增长速度，在2020年，GPT-3具有大约1750亿个参数，预计GPT-4将拥有超过1万亿个参数。因此，无论是大语言模型还是推荐模型，都需要大量资源来处理模型的下一代和演进。

RDMA是实现从一个计算节点向另一个计算节点高效传输内存的技术之一。最初，它是针对InfiniBand而构建的。随着时间的推移，RDMA不断发展，业内厂商把RDMA移植到传统以太网上，也就是RoCE。当前，RoCE和RDMA技术已经在许多拥有数千个计算节点的大规模环境中得到成功应用，实现了高效的数据传输和通信。

然而，问题出现了。20年前构建RDMA时，它主要用于连接一个节点到另一个节点，或者或者从100个节点到200个节点。因为当时，企业客户甚至是大型石油和天然气勘探公司购买的HPC集群通常只有256个节点，最多也就1000个节点。然而，如今，拥有1万个节点已经不是什么稀奇事。人们开始探讨更大规模，涉及10万个节点甚至更多节点的部署。

那RDMA有什么问题呢？RDMA在设计之初并不是为如此大的规模而构建的。首先，它不具备多路径支持，这意味着数据只能通过一条路径从点A传输到点B，而流量必须全部在这一路径上传输。这导致了某些链路可能被浪费，而另一些链路可能被过度使用。

RDMA还包括了“分组传递”的概念，即在数据流中，所有数据包必须按顺序到达。这意味着第一个数据包必须在第二个之后到达，第三个必须在第二个之后到达，以此类推。而RDMA中的一项技术“Go-back-n”，意味着如果在RDMA数据流中某个数据包丢失，即使之后的数据包都已正常传输，也要从丢失的数据包开始全部重传，这种方式非常低效。

此外，RDMA的设计基于一种无丢包的网络，使用了DCQCN（数据中心专用拥塞通知）而非TCP/IP协议，这使得网络非常脆弱，需要高度精密的工程处理。通常情况下，售卖系统的公司可能会希望客户购买从光通信设备到网线再到整个系统的所有组件，并收取数倍费用。

RDMA现代化

过去，RDMA的这些特性发挥了作用，但其并不适用于当前技术发展趋势。7月，超以太网联盟（UEC，Ultra Ethernet Consortium）诞生了，其目标是实现以太网的极高性能、超大规模以及世界上任何互联都无法媲美的最佳经济性。目前，已有 200 多家公司、组织和机构表示有兴趣加入UEC。

UEC提出了一种解决RDMA问题的构想，称之为“Ultra Ethernet Transport”。他们采取了一系列措施来应对上述问题。总的来说，他们的理念是建立一个高性能的网络，消除传统RDMA中的低效问题，以使其能够在一个高度稳健的网络环境中扩展到超过100万个节点。

在超级计算领域，有一点至关重要，那就是数据包的丢失。微软曾发表一篇论文，指出即使只有0.1%的数据包丢失，也会导致作业完成时间呈指数增长。这是因为必须回到数据包丢失的状态，然后整个作业必须重新运行，效率非常低下。

因此，UEC的目标是RDMA的现代化，这是高性能AI训练的关键技术。UEC 的传输协议 UET 引入了数据包级多路径、按顺序消息完成的无序数据包传送、高效的错误处理和免配置拥塞控制。这将带来更好的负载平衡、网络利用率以及更快的 AI 作业完成时间。

总的来说，在AI/ML领域，不存在一家公司能提供所有GPU，也没有一家公司能提供所有互联解决方案。实现规模扩展的唯一方式是建立一个由多家供应商提供加速器的生态系统，建立一个开放、基于标准、高性能并拥有最佳总体成本的互联结构。

简而言之，无论是在昨天、今天还是明天，以太网将继续存在并将继续塑造AI网络的未来。

演讲原视频：
https://www.youtube.com/watch?v=mcVL7XzQF5U

AI奇点是什么？

以太网的50岁

RDMA有什么问题？

RDMA现代化

SDNLAB