中国移动刘军卫:中国移动SDN、NFV综合解决方案及应用

各位下午好,跟大家分享一下我们苏州研发中心SDN的一些案例,再来简单介绍一下我们对NFV的技术选型和自己的一些看法。

我们建设自己的数据中心和云计算过程中,这一页主要讲的是云计算,我们发现好多问题,尤其是像移动这种体量的,三个运营商都会出现的,数据中心里面采用大量的物理设备,好多设备包括网络设备、安全设备,目前大量存在手工去配置的情况,很难实现自动化和智能化的配置。比如说这个人如果离职了,他拿excel记录的设备配置表,那个东西一旦丢了,估计这个设备你都不敢重启,你都不知道上面配了什么东西。另外,物理设备比方说它的转发性能是非常高的,但是它有一个很致命的缺点,网络设备、存储设备,都存在这种问题,并发都特别低。而在云计算这个环境中,尤其是公有云,它的自服务并发量是非常高的。像网络设备也好、传统设备也好,并发量一旦上去之后,每个都要串行处理,会导致并发量非常低,很难满足云化的需求。第三个问题,尤其是运营一个公有云,vLAN很快就没了。还有传统网络使用VRF对IP协议栈进行隔离,数量受限,难以满足云环境自定义网络拓扑需求。再一个,传统运营商的建设周期非常长,建完以后,数据中心也好,网络方案也好,扩展性、可复制性弱。另外是业界的现状,云计算几大主要的领域,计算、存储、网络、安全、管理平台,在这几块里面可能网络和安全是发展比较慢的,网络可能比安全稍微快一点。国内目前好多创业公司在安全这块做得也比较好,但网络这块目前是比较慢的。像AWS还有阿里云、腾讯云,他们都有自己的一些解决方案,像阿里云、腾讯云是和国内厂商进行合作的,目前从业界来看,整个运营商的核心网还有电信行业云、政务云在向SDN、NFV转化,这是现状的分析。

首先要讲SDN/NFV,先看一下这两个的目标,SDN大家都比较熟悉,控制与转发分离,控制的集中化并且可编程,流量的灵活调度。NFV这块要做的是网元的,首先移动内部的叫法是,第一步伐现象做二层解耦,软件和硬件解耦,把软件和硬件两家场合解耦开,再往后是三层解耦,软件硬件解耦后,把网元那层的再解耦。第二个,网元工程的虚拟化,把一些传统的跑在专用设备上的网元第一步移植到X86上,第二步虚拟化。再一个,SDN是控制平面的可编程,而NFV是数据平面的可编程。另外一个,NFV还解决一个问题,业务的按需部署,以前都是专用设备,很难按需部署。这是SDN和NFV的两个不同的目标。另外简单画了一个图,它的解决的在OSI七层里面解决的应用域也不一样,看了一下目标,再看一下作用域,咱们看后面的,这个PPT里面重点介绍一下SDN,因为我们SDN的时间比较多我们好多云已经采用了。SDN这一块总结起来有这么几种,一种是开源的方案,再一种是商业的方案。

目前来看,开源的方案产品化程度还是比较低的,可用性比较差,很多厂商基于开源的产品做了自己的商业化解决方案。在移动我们通过集采也好,通过测试也好,比如我建我的公有云,招标测试也好,我们基本上把这四家都测了,阿朗、华为、华三、中兴。我们的公有云规模比较大的是两个OpenStack池子各一千个节点,那里面主要采用的阿朗的方案,通过测试来看,阿朗的还是比较成熟的,阿朗的方案和其他的方案从架构上、设计上差异还是比较大的。另外像思科、Juniper、NSX的解决方案目前见到的比较少。另外SDN这方面存在一个问题,用SDN大家最期待解决的是运维的问题,但是它目前还存在一些问题,基本上目前很难有一家厂商能把Underlay与Overlay能统一管起来,有些厂商说可以通过一些硬件的方案把这些软硬都可以管,但是这些方案还处于Demo的阶段,很难商业应用。另外物理机、虚拟机、容器统一管理,怎么把这三个统一管起来。还有与Neutron对接的问题比较大,好的业务流程还是有设计上的冲突。再一个是设备兼容性适配,比如我建一个数据中心,我可能像咱们工信部有一个规范要求的,拿防火墙举例,要双层异构防火墙,这两个防火墙还要两个厂家,导致SDN设备完全管不了,这基本上是SDN方案目前存在的四个问题。

刚才提到我们公有云主要是用阿朗的,OpenStack我不知道大家了解多少,其实OpenStack网络这块,当然从性能上,它的性能是比较好的,可能好多人会怀疑它的MQ会有瓶颈,它的数据库会有瓶颈,这个确实是瓶颈,但是它原生的方案几乎能扛住你百分之八九十的需求。在超大规模的情况下,这三个点都是一个瓶颈,但是对于阿朗这个方案,它有一个比较好的思想,这里面像华为的SDN方案,它是依赖于MQ的,所有依赖于MQ的方案,其实这个地方是经常出问题的,MQ虽然它能扛一定的压力,但是不能扛很大的压力,还会出问题,它所有的组件里不是来通过MQ来通信的,而且这里面有个数据库,他这里面也没有数据库,是采用一些内存数据库,通过内存数据库在这三个节点做一致性的同步,再备份到一个数据库里,所以他的压力能扛得比较大。

刚才讲了SDN,简单讲一下NFV。我们移动整体会有一个很大的战略,上午我们段所也讲过NovoNet。目前我们总结来看,NFV目前的方案比较多,我列了几个,而且每一个都处于起步阶段,都不太成熟。但是可能大家都有一个共识,OpenStack作为它的平台层,就是VIM这一块,VIM+NFVI是一个比较公认的选择了,但是对于NFVO或者VNFM可能还是一个不太明朗的。目前有这么几个选择,一个是OpenStack的叫Tacker这个项目,它的一个好处是,它和OpenStack是结合比较紧密的,而且根据OpenStack这个版本来发布,从L版就有了,一直在发布。它和OpenStack天生结合得比较好,这是它的一个优点。但是它的缺点目前来看,这个项目虽然比较好,但是目前参与的厂商还是比较少,主要是一些国内厂商,像华为、九州云,九州云现在是这个项目的PTL,主要是一些国内厂商在参与,国外厂商其实AT&T也在参与,但是参与比较少。第二个,ETSI他们自己搞的,虽然他们是正统的来搞,但是这个东西只发布了一个版本,也没有后续的进展,一些厂商也在里面。另外我们中国移动也搞了一个,OPENO,是我们牵头来搞的,目前也是只发布了一个版本。后面还有一个Cloudify,VNF对他来说也是一个应用。另外是AT&T主导的这个,这个估计中国的厂商参与的可能性不太大。这么看来,可能有我们的偏好,苏研是以OpenStack出身的,所以我们比较看好这个项目,这个项目目前可能会发展比较好一点。

NFV这里面,前面几个专家我也听到一些,其实NFV目前来看,虽然大家都愿意说,包括ETSI也好,说NFVO和VNFM+VNFD等,但是目前业界没有很大的精力做这一块,大部分的精力做的是NFVI或者VNF这一块,比如说我虚拟化的性能要提高,要低延迟,大部分做的是NFVI这一块,核心网元对转发的延迟还有延迟的抖动性还有延迟网元的可靠性,还有多数据中心的统一调度和管理,这些是首先要碰到的问题,你功能可以弱一点,但是不能导致我转发延迟特别高、抖动特别厉害,大部分焦点还是在做NFVI这一块,也就是虚拟化和OpenStack的一些NFV场景的加强,业界主要停留在这个阶段。

我们自己是这么认为的,可能会有一些冲突,它的优势刚才也讲了,面向运营商的需求,这个是NFV它自己的一个需求,NFV本来就是面向运营商的,像它与OpenStack深度结合,上午他们讲的OPENO也是一样,运营商这里面比较习惯的做法是任何一个东西他要解耦,一开始是个整体,第二步想解耦,其实是想避免一个厂商锁定。另外国内厂商参与热情比较高,交流起来还是比较方便的。通过我们测试来看,它有好多问题,我们一再提解耦,其实Tacker这个项目它自己也没解耦,比如现在VNF还是把持在咱们这些厂商手里,但是像Tacker项目,第三方的VNFM和NFVO集成还是比较困难的。另外Tacker Server部分数据未存入数据库,一旦进程重启,部分数据丢失。Monitor功能集成在Tacker Server里,在规模较大时影响性能,需独立出来。VNF使用的网络需预先配置,不支持模板创建。

后面是根据我们的实践按理来说明一下SDN和NFV的一些情况,可能重点是SDN。像我们移动云规模还是比较大的,目前上线的有三个资源池,三千个。目前阿朗能提供的服务,后端的这些网元是IT这边的网元,是云计算这边的网元,并不是我们核心网的网元,你也可以把这种组件叫NFV组件,其实是相当于建了一个类似于在阿朗自己称叫NFV的一个资源池,他找了一批机器,小的资源池专用来提供这些网元。他其实这么做了以后,像阿里云,他为什么没有把这个提出来,就是因为每家的视角不一样,比如互联网公司认为这些不是目前最需要解决的一个问题,比方用户要申请一个云主机,我只要网络通就可以了,我不太关注这些东西。阿里目前这些网络功能和SDN解决方案来比还是差很多的,比如阿里的云主机默认只能两块网卡,不能再加了,而且一个是内网的,一个是外网的,这也是阿里有丰富的公网IP地址,但是其他的很难来做。

另外是移动公有云网络性能测试,有一个测试案例,它是一连贯的过程,第一步创建子网,然后创建路由器,然后添加到子网,设置外部网关,然后编辑路由器,再删除路由器接口,最后删除路由器。这个是原生的OpenStack的测试数据,不加SDN的,从这个数据来看,原生的OpenStack还是比较好的,没有任何问题,在达到1000并发的时候,虽然它每一个操作的时间可能都比较长,几十秒,但是这个对于互联网这一侧,这个时间还是可以忍受的。这个也是一个原生的案例,这是一个防火墙的测试案例,创建一个路由器,创建规则,创建策略,然后关联,然后再删除。可以看到100并发的时候,它这个性能也是比较好的。为什么我们没有采用原生的,原生的性能比较好,但是它还有一个问题,这个是负载均衡器的,看情况也是比较好,它核心的问题在这,你要做稳定性测试,原生的就比较差,这是我们做的四个测试用例,概括一下,第一个主要测的场景是说我某一个计算节点OVS重启了,上面所有的流表要恢复过来要多长时间,原生的要50分钟,这个是一个计算机上有18个虚拟机,大概有流表600个,恢复回来大概要这么长时间,而阿朗的方案是不到1分钟。这些Agent都涉及到流表的恢复,从数据库里面重新构建,构建的过程非常慢。原理不详细介绍了,主要原理是流表,第一要从数据库里读取,一条一条加进去,第二,重新恢复流表的时候,它会产生很多冗余的流表,以前你只有六百条左右,它可能会达到七八千条。另外你可以做一些优化,我们也做了一些优化,改了一些代码,优化完之后还是在7分钟左右。

这是私有云,SDN的问题,需要TOR识别哪个端口上来的服务器,然后再和SDN互动,这个目前SDN不支持的。另外像我们的私有云,一个资源池就是3000个物理节点,绝大部分SDN控制器是扛不住的。

还有一些省公司,省公司主要做的是异构虚拟化,比如说KVM、VMware。

我今天要分享的就这么多,SDN多了一点,NFV少了一点,因为NFV刚开始起步,谢谢大家。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/18645.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于17-02-24
0