阿里云宗志刚:云网一体,新一代洛神云网络平台

12月19日,2020中国云网络峰会于北京顺利召开。阿里云智能资深技术专家宗志刚带来了主题演讲《云网一体,新一代洛神云网络平台》,分享了新一代的阿里云网络技术。

阿里云洛神网络平台

阿里云的网络平台称之为洛神,是网络虚拟化的平台,也是阿里云飞天操作系统的三大内核组件之一,另外两个核心组件是计算虚拟化——神龙平台、存储虚拟化——盘古平台。

阿里云的洛神平台支撑着整个阿里云的网络产品,总共分为三个部分:第一,云上网络,代表着数据中心虚拟化;第二,大数据中心之间互联的跨地域网络。第三,线下IDC、门店、终端上云的混合云网络。三大网络包含着丰富的网络产品。

阿里云洛神平台由应用驱动,目前已经演进到2.0版本,最早的版本称之为洛神1.0 Beta,能够做到通过VPC实现租户之间的隔离,地址空间的独立规划,并且开始构建云上虚拟化网元,例如VPN等。

随着更多大型企业上云,应用场景促使云网络技术进一步演进。大型/超大型企业的业务的特点有:第一,业务规模非常大,随之带来了的网络规模也很庞大。第二,要求全球部署,能提供接入和连接能力。第三,一般大型的企业,特别是大型的互联网企业,往往是云原生容器的首批的实践者。

为了支持大型/超大型企业上云,阿里云洛神平台演进到了2.0版本,2.0版本的特点包括三点:第一,规模非常大,性能非常高。第二,网络拥有弹性开放能力。第三,提供连接全球化接入能力。

洛神2.0技术架构

1、支持超大规模云网络

在超大型企业的网络规模和配置下发性能的要求下,如果采用传统网络的对象模型和管控模型挑战是非常大的。但是,阿里云洛神2.0平台现在能做到支持近百万的容器规模,现在阿里云上的超大型客户的单VPC里可以支持60万的ECS,如果把容器算上,就是支持了近百万的容器规模。洛神2.0平台如何实现支撑百万级的网络规模?

首先它进行了管控层次化的拆分,在中间增加了一层高速缓存DB,专门来处理海量网元的请求,因为其只处理请求消息,所以性能非常高。另外,阿里云还对网络接口ENI模型进行了优化,通过ENI—trunking技术,做到了同时支持主ENI和子ENI,通过不同的VLAN来区分流量,接入到不同的容器里面,来提升容器的密度。到目前为止,最新一代的ECS可以支持4K的容器密度。

2、支持超高性能云网络

巨大的网络规模意味着对网络转发性能的超高要求。阿里云的最大用户在“双十一”凌晨的流量峰值达到了近百T,多个数据中心互联的流量也达到了几十T,如此大的网络流量规模对网络的转发性能提出了非常高的要求。阿里云洛神平台进行了软硬件一体化架构的演进,通过将网络的转发卸载到硬件上,来提升转发性能,网络的性能有了十倍到百倍的提升,通过硬件的方式,网络的时延也有了大幅提升,从微秒级降到纳秒级别。

3、支持弹性开放云网络

大型企业的业务非常丰富多样,业务迭代也非常快,很多的业务对应到网络实例有着非常高的弹性需求。为了实现高弹性的网络能力,阿里云洛神2.0平台将原来基于X86裸金属架构的方式,变成基于底层ECS的方式,通过ECS可以实现秒级的弹性能力。同时对底层的VPC网络进行优化,可以支持高可靠的ECMP技术。同时,它还能在高性能转发的同时,实现租户之间流量故障隔离。目前为止,所有阿里云网元类的网络产品都已经基于最新一代的NFV平台构建。

4、云网融合一体化

洛神2.0平台提供连接全球,覆盖全球一张网的能力。在基础设施上,阿里云提供了覆盖全球的基础设施,有21个region,63个AZ,120+个POP点的规模。丰富的基础设施可以方便用户使用阿里云的产品和服务。

在云边端这一侧,洛神2.0平台将网络的连接能力从中心延伸到了边缘。阿里云云盒使阿里云的机架可以部署到用户的RTC里,资源可以给用户独享,算力更加接近用户的业务,使用验体验可以和中心云VPC的使用体验完全一致。

阿里云洛神平台还制定了新的链路技术,使用自定义的TCP加密技术连接到云,避免了很多UDP报文被公网的路由器拦截、限速的问题,可以大大提升网络吞吐能力。另外,它集成了FEC,可以有效的提高网络吞吐能力,还支持不同硬件端、软件端的加密协议。并且,在多接口、多运营商的场景下,还提供多链路负载分担的技术,不同的业务可以使用不同的链路,真正实现业务接入的智能调度。

业务接入网之后,洛神平台实现了源路由的网络调度技术,源路由里报文使用是自定义的方式,中心的控制器会实时的采集和探测网元里丢包和时延的信息,当新的流量进入到这张网后,会根据最优的链路进行调度。经过很多应用场景的实验,发现公网的访问效果有时候比专线更优。

未来的网络一定会走向智能化,阿里云的洛神平台在这方面也有了一些实践,异常定位工具vTrace就是一个案例。vTrace能定位网络中的丢包和时延,它会对业务报文进行染色,染色的业务报文经过虚拟化网元时会被采集,然后上升到分析系统里做清洗,然后分析看丢包在什么地方或网络时延有多大。

随着5G、IOT的规模应用,万物上云、万物互联会对云网络技术提出一些新的要求。对于洛神云网络平台的未来,宗志刚表示,云网络要支持海量的连接、确定性的时延,还有应用和云、边、端之间的联动,这些都是对技术的挑战,也是洛神未来的思考方向。

最后,宗志刚分享了阿里云发布的云网络技术图书——《云网络:数字经济的连接》,该书结合了阿里云近10年的行业经验,提出了阿里云对云网络技术的演进和发展的一些思考,欢迎大家免费试读。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/24652.html
分享到:
相关文章
条评论

登录后才可以评论

环球塔莎 发表于20-12-23
0