阿里云张彭城：阿里高性能网络探索与实践 | SDNLAB

9月25日，2021中国智能网卡研讨会在北京隆重召开。本届大会由“科创中国”未来网络专业科技服务团指导，江苏省未来网络创新研究院、网络通信与安全紫金山实验室联合主办，SDNLAB社区承办。阿里云基础设施事业部高性能网络团队高级技术专家张彭城先生带来了演讲“阿里高性能网络探索与实践”。

张彭城指出，数据中心发展更偏向于应用的发展，数据中心发展的三个阶段：一是企业网络为主，在这个阶段厂商的设备为主导，人肉运营。

二是随着互联网应用的发展，出现了Scale out超大规模、软件定义网络、虚拟化、白盒化、运营自动化等技术。

三是随着云计算的发展，对数据中心网络提出更高的要求，对于弹性、供给、利用率提出更高的要求。

2013-2017年，阿里数据中心网络正式进入1.0时代，企业级网络架构主要是架构标准化、模块化、网络虚拟化。

2017-2019年，互联网级网络架构实现了超大规模、高可靠、高性能、成本优化。通过自主研发软硬件设备，实现自主可控。基于大数据的自动化智能化，实现运营自动化。

张彭城重点介绍了阿里云的Network 3.0阶段。未来面向超大规模云计算场景该如何支撑数据中心网络？阿里云提出了池化数据中心网络理念。

原有的数据中心架构存在资源利用率低、机型演进复杂、运维成本高、可扩展性差等问题。池化数据中心网络是把所有的CPU、内存、xPU、storage全部解耦，通过网络把它连起来，但实现起来也比较复杂。池化数据中心受网络的影响非常大。以AI应用为例，高速网络的性能损耗远远低于低速网络性能损耗，因此池化数据中心的实现必须依靠高性能网络。

张彭城指出，数据中心网络的最大挑战是它的时延，主要体现在主机协议栈的处理和交换机拥塞引入动态延时两个方面。我们要提升数据中心网络的性能，最主要是从这两方面去着手和优化。

高性能网络的核心思想是端网协同，端侧是通过网卡和DPU硬件卸载网络协议栈，提升网络性能。网侧需要提供精确网络信息的反馈，让端侧可以做更高效的流控以及路径选择。通过端网协同的网络流控，多路径优化和全链路网络 QoS 等机制来降低网络动态延时，减少网络拥塞，故障时快速切换，保障大小流之间的公平性，有效处理网络 incast。

阿里高性能网络的探索和演进分为三个阶段。

第一阶段（2017年-2018年），RDMA大规模落地。
1、RDMA在阿里云多个产品实现大规模落地；
2、端到端的流控，应用性能调优；
3、消除RDMA稳定性风险：建立端网协同的运营体系，消除PFC风险。

第二阶段（2019~2020）：自研之路
1、自研高性能网络协议：HPCC拥塞控制算法、Multi-path、xRD传输方式，去PFC实现Lossy RDMA，进一步优化长尾延时，增加RDMA扩展性；
2、自研高性能网卡：实现自研高性能网络协议卸载，目前已经落地云存储；
3、自研高性能通信库：针对大规模AI集群，优化集合通信功能，利用端网融合技术深度结合大规模AI集群的互联架构和多网卡特性，实现创新的无拥塞算法和高速网络传输。

第三阶段（2021~）：总线+网络融合，这个阶段阿里已经进行两年的探索，并进行了大量的POC，但是仍有很多待突破难题，张彭城主要分享了阿里在探索过程中遇到的一些问题，有些已经有了解决思路，有些可能还是需要业界一起去推动：
1、协议融合：是使用总线协议扩展，还是PCIE/CXL over Ethernet？总线和网络的边界在哪里？性能和扩展性问题如何trade-off？
2、硬件载体：是用SmartNIC？DPU？还是Switch？DPU作为数据处理单元，而switch作为数据汇聚的点，是否DPU位于switch更为合适？
3、网络架构：Fat-tree是否还适用？目前主流的数据中心架构主要解决了大规模Scale-out问题，但是它的层数和跳数非常多，可能无法满足池化网络的延时要求，是否可以考虑其他的拓扑架构？

张彭城表示，未来实现极致池化数据中心还有很多难题需要处理，希望可以跟大家共同探讨。