SIGCOMM 2022:国内中稿18篇,阿里云独占6篇

8月24日至26日,全球知名通信网络顶会SIGCOMM 2022在荷兰阿姆斯特丹举行。

SIGCOMM(ACM International Conference on Applications, Technologies, Architectures, and Protocols for Computer Communication),是美国计算机学会(ACM)组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首。作为计算机网络领域资历最老的顶级学术会议,ACM SIGCOMM自1977年起已经举办了五十余届。截至2020年,会议的出版物已达到 14779,总计被引用了 79 万余次,平均每篇论文被引用 54 次。

那么,SIGCOMM 2022有何亮点?国内科研界表现如何?SDNLAB君帮大家梳理了本次会议的重点,一起看看吧。

SIGCOMM 2022:中国力量势如破竹

纵观SIGCOMM的历史,会议上发表的众多论文及研究报告深深影响了网络领域的发展,掀起了学术界和产业界的研究与应用热潮,推动了数十年来互联网技术的革命与演进。

1988年,美国范·雅各布森在SIGCOMM上发表《拥塞避免和控制》(Congestion Avoidance and Control)。1990年,戴维·克拉克发表论文《新一代协议体系结构的思考》(Architectural Considerations for a New Generation of Protocols)……这些论文涵盖了互联网的体系结构、拥塞控制算法,甚至是未来网络设计考虑等等。

2008年SIGCOMM会议上,Nick McKeown等人发表了题为OpenFlow: Enabling Innovation in Campus Networks的论文,首次详细地介绍了OpenFlow的概念。随后,Nick和他的团队进一步提出了SDN(Software Defined Network)的概念。2013年,SIGCOMM会议收录了多篇相关文章,甚至将SDN列为专题来研讨,带动了SDN相关研究的蓬勃发展。此外,在SIGCOMM 2014会议上,Aaron Gember-Jacobson等人提出了OpenNF,详细介绍了NFV以及NFV和SDN关系,为SDN/NFV未来的发展奠定了坚实的基础。

几十年来,SIGCOMM见证了众多网络通信领域具有里程碑意义的关键技术的诞生与发展,同时也开拓了人们对先进网络技术的认知。

SIGCOMM的论文以高质量著称,全世界的网络研究者都把在SIGCOMM上发表论文视为一种荣誉,必须具有基础性贡献、前瞻性影响和坚实系统实现的论文才会被收录,且每年只录用30篇左右的正式会议论文,近两年有所上涨,大约在50篇左右。

此次SIGCOMM 2022论文投稿共 279篇,录用 55篇 ,其中18篇论文来自国内,覆盖5G 网络、拥塞控制、广域网、测试和验证、机器学习、监测和测量、传感和无线通信、可编程数据平面、拒绝服务防御和存储网络、主机网络和视频传输等多个技术领域和方向。

在2019年以前,SIGCOMM论文长期被微软、谷歌等国外巨头企业以及麻省理工学院、斯坦福大学、卡内基梅隆大学等垄断。纵观2019年之前SIGCOMM近50年的历史,来自中国大陆的企业和高校总共也仅有10余篇论文入围。近年来,国内入选的论文也终呈破竹之势源源不断增加。其中,学院以清华大学为代表,企业则以阿里云为代表,均是连续四年有论文入选,体现了国内在网络领域研究创新成果达到了国际领先水平。

SIGCOMM 2022会议,国内入选论文数量再创新高,共中稿18篇,其中阿里云以6篇拔得头筹,国内上榜的其他单位还包括清华大学、华为、北京大学、南京大学、同济大学、西安交通大学、香港科技大学、香港理工大学等。

国内重点论文介绍

阿里:

  1. From Luna to Solar: The Evolutions of the Compute-to-Storage Networks in Alibaba Cloud

该论文主要介绍了阿里云的两代存储网络栈,它们在过去五年中将阿里云 EBS 服务平均 I/O 延迟降低了 72%。Luna,一个用户空间TCP栈,它将网络延迟与SSD速度相对应。Solar,一个面向存储的 UDP 栈,支持存储和网络硬件加速。

Luna是阿里云在“存储解耦”架构迈向高速“计算-存储”网络的第一步。除了与传统内核 TCP 堆栈相比具有巨大的性能提升和 CPU 节省之外,更重要的是,它展现了将网络和存储卸载到硬件中的必要性,以及从网络故障中即时恢复的重要性。

Solar 提供了在硬件上运行的高度可靠和高性能的存储网络。为了避免硬件的资源限制和卸载存储的整个数据路径,Solar 消除了传统存储网络架构中过多的复杂性和过满状态。Solar 的核心设计是统一网络包和存储数据块的概念——每个网络包都是一个自包含的存储数据块。


High CPU overhead and PCIe bottleneck for either LUNA or RDMA; SOLAR achieves data path offloading

这样做有三个优势。首先,它融合了数据包处理和存储虚拟化管道,绕过了 CPU 和 PCIe;其次,由于存储器独立处理数据块,Solar中的数据包变得独立。因此存储(硬件)不需要维护接收缓冲区来将数据包组装成块或处理数据包重新排序。最后,由于资源需求低和数据包重排序的弹性,Solar支持大规模多路径传输以实现快速故障恢复。面向未来,通过Solar 我们可以将存储虚拟化过程形式化为与 P4 兼容的数据包处理管道。因此,Solar 的设计完美适用于DPU。

Solar 是阿里云继 SIGCOMM 2019上发布HPCC高性能流控之后,在高性能RDMA网络方面取得的又一里程碑。

  1. Predictable vFabric on Informative Data Plane

阿里云通过自研高精度拥塞控制HPCC在保障网络访问低延迟上取得了一些进展,但这距离用户理想的高可靠性、带宽分配保障、稳定低延迟的网络还存在差距。而业界(包括Google、微软等)已有解决方案只能解决其中的部分问题,并且都存在收敛时间很长的通病。

为了解决这个问题,阿里云立足于业界领先的可编程网络,颠覆已有分层方案设计了端网融合的可预期网络解决方案μFab。利用端与可编程交换机主动交互维护全局利用信息,并在可编程网卡快速响应。最终可以达到毫秒级保障租户的可达性,带宽和延迟。

μFab 可以在各种网络条件下以有限的探测带宽开销保持最小带宽保证和高带宽利用率以及接近最优的传输延迟。应用级实验(如计算和存储场景)表明,与替代方案相比, μFab 可以将 QPS 提高 2.5 倍,并将尾部延迟降低 21 倍以上。


The overview of μFab’s system architecture

μFab极致发挥网络可编程能力,为云用户提供全方位高质量的网络传输服务。标志着阿里云从高性能网络迈向可预期的高性能网络。

  1. Meissa: Scalable Network Testing for Programmable Data Planes

Meissa是一种大规模全覆盖的可编程网络正确性测试自动生成系统。有力保障了阿里云基于P4 可编程平台的大规模部署的稳定性。阿里云基于P4的可编程平台具有自主可控的优点,可以灵活定制、集成各种网络业务。但这带来了全新的稳定性挑战:业务集成增大了可编程网络程序的规模,导致程序执行分支的指数级增长,对可编程网络进行完备测试的挑战极大的增加。

Meissa测试生成系统就是为了解决上述问题。它基于符号执行技术,通过读取可编程网络的源代码,分析在特定的测试场景下,所有可能发生的代码执行路径,来针对性的自动生成测试输入,以一一覆盖所有的执行路径。

为了应对程序规模带来的挑战,Meissa针对可编程网络的特点,采用模块化化简再组合的方式,充分利用测试场景的特性对程序分析的搜索空间进行剪枝,使得生成的测试可以全面的覆盖所有可能的程序执行路径,有力保障了可编程网络的稳定性。


An overview of Meissa architecture

清华大学:

Understanding 5G performance for real-world services: a content provider’s perspective

5G的高带宽、低延迟、高可靠等特性,不仅仅带来通信速率的提升,更为物联网、边缘计算等领域提供强大的连接能力,形成跨领域的技术融合,为产业的创新和变革提供基础:AI+5G融合推动更多的AI计算从终端走向边缘和云端,形成跨设备、跨场景的云边端协同。然而,业界缺乏对大规模5G网络,特别是独立组网(SA)的深入理解。这项工作从内容提供商(CP)角度入手,填补了学术界对此的认知空白。

该研究针对快手众包直播业务,从端到端表现、无线接入网表现和核心网表现三个角度入手,对三大运营商所部属的5G网络进行了深入分析,大规模测量耗时近一年,范围覆盖上亿用户,填补对5G在多媒体内容服务认知空白的同时,也为5G自身性能优化提供了新视角。

该论文的主要创新如下:该论文从内容提供商角度理解5G对新型内容服务的影响,对比了SA/NSA与内容提供商层面性能的关联规律,分析了无线接入网(RAN)结构对真实场景人群的服务体验反馈;通过研究影响CP收益的因素,设计了5G感知的CP策略优化方法。研究为工业界和学术界开展AI+5G技术融合、云边端智能协同、多媒体网络等相关研究奠定了坚实基础。


Delays involved in a full channel

SIGCOMM 2022 巨头企业各显神通

今年的SIGCOMM也给了各大巨头公司展现的机会,阿里云、华为、谷歌、思科、Meta都相继发表了主题演讲。

阿里云基础设施网络团队负责人蔡德忠在大会上作了以“Alibaba Cloud PredNET-Our Journey towards Predictable Network”为主题的演讲,介绍了阿里云在高性能可预期网络方面取得的技术成果,阐述了阿里云在业界首创的端网融合技术体系,在面对日益增长的大算力需求下,通过一系列的硬核技术创新,开启了可预期网络新型架构时代,有力支撑了AI/ML算力集群的高效规模扩展。


阿里云基础设施网络团队负责人蔡德忠作“可预期网络”主题分享

蔡德忠在大会演讲中提到,我们已进入了AI时代,而AI/ML需要强大的算力,云计算则是提供这种大算力的高效敏捷的一种有效方式,云计算大力促进了算力的普惠化,让千千万万的中小企业都能在云上享用先进的AI/ML产品和功能,AI/ML已成为云计算的new face(新的招牌)。不过,过去数据中心网络的协议和架构都是为传统IT workload而设计的,面对人工智能、深度学习等浪潮,网络性能严重影响了算力集群的大规模扩展。在过去5年大规模部署RDMA高性能网络实践基础上,阿里云在业界首创了端网融合技术体系,并进行了一系列技术创新,打造了可预期网络新型架构,能提供微秒级网络延时以及带宽保障,可高效支撑万卡级规模GPU算力集群。

谷歌分享了Jupiter数据中心网络架构十年的演变和生产经验,十年间Jupiter 提供了 5 倍的速度和容量,网络功耗降低 40%,成本降低 30%,其中关键推动因素是将 Jupiter 从 Clos 演变为机器聚合块之间的直接连接拓扑。华为分享了DPU编程的网内计算框架;Meta介绍了它的网络基础设施;思科分享了相关的一系列研究活动。

网络通信兼具重大学术研究问题的挑战性,以及大规模应用场景的实践性,是众多科研学者和工程师付出毕生精力努力的事业。中国企业和机构正在凭借自己一步一个脚印打造真正的全球竞争力和影响力。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/25939.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于22-08-30
0