丘子隽:平安云构建网络服务中心的思考

大家下午好,很高兴又来这么高规格的会议发言。我从2012年就参加SDN的大会。我觉得这个大会给我的感觉是比较高冷,在座的都是业界的专家,很牛逼,而且我在一些讨论开放网络的群里面,听到了一件非常令人振奋的消息,我是北邮毕业,北邮计算机的学弟跟我说,今年的工作特别好找。会写代码的码农们,今年的工作会更好找了。在座的各位都是友商或者是竞争对手,来这里听是来刺探情报的,跟我客户讲的完全没有共鸣,我讲的你们理解不了,你们天天在意淫我们可能会碰到什么样的场景。

我上次来这个大会,很多人跟我说,你讲的都是干货,没错,我应该是这种会议的干货担当。今天就来说一下我讲的这些干货。

首先,抽象网络的模型。在这一周的前几天,我们平安云的公共帐号上发了一篇文章,引起了非常轰动的效果,我们在网络模型的抽象、数据结构的整理上,我们花了很多的时间。Fabric并不是云计算的核心,各个云计算的报表,没有一家的VPC网络产品是盈利的,它真正盈利的是云主机,下面两个计算资源和存储资源才是云计算盈利的主里。做网工的人只有把这两个做好了,你的价值才能体现出来。Fabric要同时支持虚拟、计算、云化、存储机。

再往上是一个单独的VNF的资源池集群,我们实现了VPN加NAT加防火墙。还有L2、L3,还有HA。我们避免了几个标准组织在吵来吵去的东西,我们直接做了容器化,四层的性能和管理平面。这是我们虚拟化网络的功能。我们主要就是围绕这几个东西来做。 这也不是我拍脑袋想出来的,而是我经过反复的打脸想出来的。

先讲一下Fabric,这是我前一段时间在P4介绍的时候讲的。数据就是芯片,控制各种协议,还有管理,他们之间的逻辑关系就是有读有写。它的重点是什么呢?这里面列了一些辩证关系,SDN要把服务器集中起来,控制面、管理面和数据面,我们可以按照计算机的指令模型分析,数据面是指令的执行者,控制面是指令产生者。最牛的应该是管理层面,它是决策层的东西,它来决策你这个控制面应该产生什么指令,你这个控制面做的对不对。之前有人说SDN要把控制和管理平面融合,我觉得不对。因为他的诉求就是不一样的,管理平面是跟人打交道的,他的交互的效果明显没有控制层面和数据层面来的那么频繁。他重要的是保证控制平面和数据平面能够正确的执行。这个正确的执行在于网络的管理人员。所以我们认为管理平面的效率目前是远远被制约了。

所以现在很多做SDM、做控制器,是在做自动化管理层面的马甲,并没有做管理层面的事情。大家都在说DevOps,但是你们有没有想过,中国写代码的网管人员有好几万。你们要DevOps,让这些人写代码,你要让他们失业了,他们怎么办?所以你们不应该天天喊DevOps,而是让这些网管人员提升他的价值。凡是说SDN的都忽略了这一点,而我们恰恰重视了这一言,提升Ops的效率。很多人都我的性能多好、我的测试多么好,但是你们有没有考虑过机台上一台防火墙,需要多少的时间?要去考虑一个开源、能够体现你这个网管人员价值的新的附属的系统。你们自己有没有办法界定这个自动化的需求是属于交付的还是运维的?他们应该做在一起还是分开?现在大部分人是把他做在一起,而我们是把他分开做的。要让这些干脏活的兄弟们说话,他们是被你们长期忽略的人,你要让这些人去思考,发出他们的声音,让他们给你一个反馈,他希望你们给他们设计的下一代网络是什么样的。所以我们的口号就是让传统的网管人员,我们的管理面的工作就是让传统的网管人员变得伟大。所以我们把交付和运维分成左右两边,左边是运维的,智能运维,下面分为收集日志、采集监控、AAA、堡垒机,全部是开源的,我们虽然是一个封闭的金融公司,但是我们用的技术是和其他技术担当的公司没有什么差别。这些技术我认为所有的客户都可以用。右边,我们有一个网络功能交付平台,NSP,它是对接用户需求的。大家如果想知道,就去看一下我们的公众号。他们的工作对象包括物理交换机、物理防火墙、物理负载均衡、以及我们开发的虚拟化的防火墙、虚拟化的负载均衡。

我们刚才谈的是管理面,我这个团队花了很长时间去做管理层面的事情,并不是意味着我们不去关注数据面和控制面。我们认为传统的控制面是非常成熟的,它满足很多被你们忽视的中小企业。中小企业对他们来说运行的很稳定,但是有一些细微的控制面需要他们去优化,但是他们忽略了这个。更多现在控制面的实现基本上是自动化的马甲,也就是管理层面的一个马甲而已。他并不是做控制面可编程的事情,生产上它不是刚需。只有数据层面发生根本变化,或者说有一些革命性的东西出来之后,你的控制面的变化才有可能落地,否则的话,你玩来玩去只是在ACL资源里面写来写去,跟传统的ACL完全没有区别,所以我们一直在等PIF和COF芯片的成熟,只有这些芯片成熟,这一类控制面的层面才会出现根本的变革。

我们用的芯片大家都很熟悉,它的关键特性要支持VxLan环境L2和L3。通过AOC把40G拆分,连万兆的服务器。下面列出来理由,我一个个介绍为什么要这个,为什么不用框式,为什么不用杨老师介绍的这种。第一,你们不是网管人员,你们不用盯故障,不用看监控、不用去机房。你一旦做过运维,就会发现有问题,设备型号一多,当设备出现故障,你要去找背景,你会很头痛,这个时候你要去求厂家。有的厂家说,你没有购买这项服务,对不起,我不能给你送这个机型。简化符号可以让你有一个通用机型,你买一堆设备,接入坏了,换接入,核心坏了换核心。这是从网管人员的角度考虑架构的设计。

我们的芯片是什么意思呢?你可以去买1.28T,也可以买48个万兆加6个40G合起来的720G的。原理上它是一样的芯片,720G的是被阉割的。你只有用这个盒子,你才能说你买了这个芯片,让这个芯片发挥出它百分之百的作用。所以我不会去用720G的芯片。第三,它可以灵活调配上下行的带宽。32孔,你要做1:1的超配,可以,16个孔上行,16个孔下行。1:1。你不需要这么高的超配比。你可以把一些上行的端口挪到下行,自己去拆分就可以了。非常灵活、可调。这三个原因弄在一起,就是一个非常可持续发展、非常健康的可持续的TCO产品的降低。这就是我们目前所做的工作,我们觉得它运行的还不错,是可以接受的。我们不需要ODCC因为我们一个月也就上几十台服务器,我们没有一天上几千台服务器的需求。所以ODCC批量上架,对我们这种小型的企业客户来说,不一定那么适用。

最后一部分介绍虚拟网络功能的实践。未来的网络会变成什么?我认为未来的网络只有两种东西:一个是交换芯片出来的交换机,或者是接入设备,专用的网络设备。第二个是X86服务器。所有专用的负载防火墙我认为都会统统消失掉。因为我认为所有的东西都可以用X86来做。我们经历了一些阶段,第一,隔离和轻量客制化。租户要求我的防火墙、我的负载均衡别人不可用,要隔离,别人下发他的策略的时候不要影响我。同时,每个租户会有一些需求上的细微差别,比如说用负载均衡,有的人会要求配这样的配置,有的租户又有加密卸载的配置。所以每一个有个性化的需求,如果放在一起运维,你会很头痛,如果隔离开,会很好维护。第二,要提升交付效率。你要避免花太多时间跟预算、采购、设备上下打交道,你买了X86服务器,可以买一堆服务器放在那儿,需要用的时候拿一台服务器上来,把它变成网络部门虚拟化的资源池。第三,你的新想法可以恢复的验证,而不要影响其他人。第四,不聚焦。

我们的NFV是非常务实的,首先我们采用了商业的NFV的产品,满足隔离的需求。然后我们去找了开源NF实现可扩展,做负载均衡,实现横向扩展。第三,对开源LB进行虚拟化,实现隔离。第四,对开源的负载均衡进行了容器化,现在运营商都还在讲虚拟的NF的时候,我们已经在玩容器化的NF了,我们是真正的把它在生产的环节里面跑了起来。第五,其他的NF,比如说VPN,我们把它容器化,满足客户的需求。

这是我们的心得,第一个吐槽英特尔,我对他有一些失望,虽然这是很了不起的企业,但是在跟我们合作的过程中,我们发现他们性价比非常好的X710的网卡,我们使用非常好。SLD卸载,我们用的也感觉不好,支持力度也不是特别够。在座很多人都是英特尔的用户,你们没有我们走的那么前,但是你们真的要注意这些问题,会有很多坑。我希望和你们一起联合起来推动英特尔老大真正的做一些对我们利好的事情。

VPN的实践,我们玩过各种样的VPN,我们发现IPSec VPN真正是灾难,你真正去运营了,因为VPN是需要双方协商、建设的,你什么也不懂,你怎么去建设?你说你用了MB5的验证,就把它配成了HR1,他说我配的就是MB5。他反复跟你强调我配的是对的,你要花三四天的时间告诉他,你配的是错的,这就是IPSec,它简直是一个灾难。我们需要OpenVPN,我刚毕业就维护IPSec做了三年,我能看懂IPSec的BUG,我是这方面的专家,但是我现在依然要说,要放弃这方面,用更好的OpenVPN,还有很多OpenVPN的功能,你要慢慢把它融合起来。这是我们技术上的心得。

这边是我们工作上的心得。这次大会上的人都在谈技术优势,我认为这是这个技术拼盘里面最底层的一部分,是属于你感受到的压力还不够的地方。你们根本就没有考虑过,为什么传统的网工存在感那么差?因为在传统的中小企业,甚至在国有单位,网络的负责人他通常最多也只是一个处级干部,他没有多少话语权。所以你不能跟他过分的谈技术优势,中国和美国海军的差异难道只有一个航母的区别吗?但是美国的航母一天能够起降200多个架次,我们的航母可以吗?第二点非常重要就是团队的能力。为什么他一天能有200多架次,说明他调配资源的能力非常的成熟,我们使用的操作系统都是美国人开发的,你发现调配资源是一个真正软实力的象征,我们中国人会做OS吗?我觉得会,张艺谋,他能够把上万人编排的井井有条,击缶的击缶,跳舞的跳舞,但是在IT领域,我们很缺乏这个能力。所有团队要根据自己的能力选择你应该驾驭的技术。历史上以弱胜强的仗都是强的那一方武器没有利用好,弱的那一方把自己的武器、人员百分之百发挥好,照样可以打胜仗,我党的红军经常干这样的事情,国军就是比较倒霉的武器比较好的那一方。你想提升你的能力,必须要做到一点,你能不能说服你的老板支持你,你提升是要人要钱,你如果说服不了你的老板,你们的梦想是好的,就让我们继续睡下去吧。最后一个是,你做这个事情和公司的利益是不是一致的,如果公司的利益不在这儿,就不要做了。

我的分享就到这里。谢谢大家。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/18211.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于16-12-08
4