网络链路品质自动化监控—RPing系统实践

作者简介:
田博文,北京世纪互联宽带数据中心有限公司网络运维中心,华北与骨干网络部经理。近十年数据中心、运营商网络工作经验;在传统IDC数据中心BGP网络、运营商城域网,有比较丰富的经验。毕业于长沙理工大学,通信工程
熊学涛,北京世纪互联宽带数据中心有限公司网络运维中心,网络运维总监

在多活DC托管业务或者多区域云部署的场景下,DCI线路的传输质量和稳定性决定了整体业务的可靠性。传统的网管监控、通断监测、手工切换,已经远远满足不了现有业务对DCI网络稳定性的要求。为了做到DCI线路延时与丢包秒级报警、流量自动切换,提供更快、更智能、更全面的网络监控服务就成为了一种必须具备的基础能力。本文分享一些世纪互联网络运维中心在实现网络链路品质监控及流量切换自动化方面的探索与实践经验。

1.回顾未部署RPing监控时NOC遇到的网络问题

图1.DCI网络连接示意图

如图1拓扑所示,IDC-A1机房与IDC-B1机房间DCI网络由长传链路A、B、C组成,正常情况三条链路延时丢包率基本一致且流量负载。如果其中一条线路A故障时丢包率/延时增大,必然会对托管客户业务产生影响。传统方法NOC排障需要逐条线路测试排查,定位故障链路后调整业务路由优先级切换流量恢复业务。
运维痛点:这类故障属于常态化故障,实际生产网络的网络拓扑也会比图1中复杂很多,例如有多条主用直连链路,也有备用迂回链路。个别线路出现问题比较频繁,NOC逐条排查周期长、难度大,故障期间对客户业务影响时间长。

2.部署Rping系统解决痛点问题

图2.Rping系统架构图

解决方法:使用Zabbix结合shell/python脚本,部署RPing检测,实现监控链路延时、丢包变化秒级报警,报警可以送到邮件、钉钉值班组、短信等,帮助NOC值班工程师快速发现并定位故障链路,迅速恢复业务。同时通过zabbix系统使监控报警来联动触发脚本,自动执行预案加载配置,完成流量自动切换到备份线路,实测故障监测、处理、恢复秒级的处理。

RPing基本原理:通过使用cisco、juniper私有MIB库中的ping管理分组,执行和获取远程设备之间的 (ICMP)活动,实现网络设备链路间延时、丢包实时监控和报警功能。其中涉及对应MIB-Ping分组:Cisco:(1.3.6.1.4.1.9.9.16节点下),juniper:(1.3.6.1.2.1.80.1.2节点下),通过执行snmpset、snmpwalk命令实时获取网络设备间ICMP测试延时、丢包值。

部分脚本分享(Cisco版本):

报警邮件:

3.小结

目前世纪互联已经将高效、敏捷的网络监控及网络自愈能力打造为世纪互联网络产品线的核心能力之一。当前已开发完成的网络自动化系统有:配置自动备份、RPing监控系统、SNMPTRAP自动化报警工具、网络故障流量自动切换系统、网络设备自动巡检系统、DDOS自动防护系统、SMK公网品质监控系统等。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/23978.html
分享到:
相关文章
条评论

登录后才可以评论

tian.bowen 发表于20-03-31
41