作者简介:洪尧,世纪互联网络运维中心运维经理,混合云技术解决方案专家。
宋凯,世纪互联网络运维中心资深网络工程师,有多年IDC及骨干网运维经验。
目前市面上的公有云上云专线都有着自己的健康检查机制,通过正确设置检查周期、超时时间、最大重试次数等参数,在底层链路发生中断时,可以迅速进行业务切换,从而有效提高了业务SLA。但是健康检查只有在时间窗内连续多次检查到状态变化后,才会进行业务切换,对于链路轻微丢包导致的业务质量下降无能为力,甚至会引起误报,引起业务状态异常。
本文将介绍通过云端BGP+BFD的保障手段加云下DCI网络提供的NQA+iPCA策略,为客户提供高可靠、低时延、大带宽的云连接服务的方案。
1.主流云厂商上云专线健康检查机制
下面浅谈一下两大主流云厂商的物理专线健康检查机制
1.1.阿里云的健康检查机制
目前阿里云采用专线接入和云企业网组合的方式,实现客户IDC通过主备链路上云。用户IDC通过专线双冗余方式连接到阿里云的不同边界路由器(VBR),IDC和VBR之间采用BGP路由协议。需要用户IDC和边界路由器之间分别建立起BGP邻居关系,并通过设置AS-Path来确定选路权重,实现阿里云到云下IDC路由的主备保护。另外阿里云每两秒从每个健康检查源IP向本地数据中心中的健康检查目的IP发送一个ping报文,如果某条物理专线上连续八个ping报文都无法得到回复,则认为链路中断,直接将流量切换至另一条。
1.2.腾讯云的健康检查机制
目前腾讯云使用的是单物理专线上云模式,物理专线本身无保护。为提升可用性,腾讯云官方推荐使用冗余物理专线模式上云,选择两条异路由的物理专线互为备份,同时两条物理专线连接到腾讯云的不同接入设备,防止发生单点故障引起业务中断。
冗余链路触发切换的方式:
方式一:配置静态路由,通过配置双向 BFD 实现路由收敛。
方式二:配置BGP,通过 BGP 自身的收敛机制触发切换。
2.云连接监测与保障策略
IDC与公有云之间的数据同步通道,需要满足“高可靠、低时延、大带宽”的特点,除了公有云厂商提供的基础链路保护之外,还要求上云专线业务能根据用户不同的上云方式,为用户提供专属的解决方案。
2.1.网络质量分析
2.1.1网络质量分析NQA(Network Quality Analyzer)是一种实时的网络性能探测和统计技术,可以对响应时间、网络抖动、丢包率等网络信息进行统计。NQA还提供了与Track和路由联动的功能,实时监控网络状态的变化,及时进行相应的处理,从而避免云上与云下之间链路故障引起的服务质量降低。 目前还有客户云上和云下静态路由方式进行组网,在用户侧可使用NQA与TRACK和路由联动的方式,为用户提供链路保护。
当网络出现故障时:
(1)NQA检测到监测地址不可达;
(2)将监测结果反馈给Track模块,使得Track模块更改Track状态;
(3)Track模块将改变的Track状态反馈给静态路由;
(4)路由根据Track状态判断路由项是否有效;
(5)如果网络中存在备用路径,路由器将选择备用路径。
2.1.2 简述NQA的部署模式:NQA主要部署在混合云场景中,此场景中可能存在多个不同云厂商的多个可用区,以及多个物理专线通道,因云端的链路保护策略存在差异,为实现物理专线的整体监控及故障倒切,需针对每条物理专线开辟出独立的监控通道,通过监控云下交换机和云上的虚拟机之间的NQA信息来判断每条物理专线的健康度,NQA可与网管系统及静态路由联动,在链路出现问题时推送故障信息,同时对业务进行主动切换,降低用户因故障所受的损失。
具体部署方式如下(以阿里云为例):
1.云上开通虚拟机作为测试主机
2.将虚拟机所在VPC与VBR进行绑定,可以通过绑定多个VBR测试多条物理专线
3.配置云下交换机NQA数据
1 2 3 4 5 6 7 8 9 10 |
[~21vianetBJSW-A] nqa test-instance user 21v_aVPC [*21vianetBJSW-A-nqa-user-21v_aVPC] test-type icmp [*21vianetBJSW-A-nqa-user-21v_aVPC] destination-address ipv4 192.168.88.66 //虚机IP [*21vianetBJSW-A-nqa-user-21v_aVPC] frequency 10 //检测频率 [*21vianetBJSW-A-nqa-user-21v_aVPC] probe-count 2 [*21vianetBJSW-A-nqa-user-21v_aVPC] interval seconds 5 [*21vianetBJSW-A-nqa-user-21v_aVPC] timeout 4 [*21vianetBJSW-A-nqa-user-21v_aVPC] start now [*21vianetBJSW-A-nqa-user-21v_aVPC] commit [~21vianetBJSW-A-nqa-user-21v_aVPC] quit |
4.通过“display nqa results”查看ICMP类型的NQA测试例测试结果。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
[~21vianetBJSW-A] display nqa results test-instance user 21v_aVPC NQA entry(user, 21v_aVPC) : test flag is active ,test type is ICMP 1 . Test 7382 result The test is finished Send operation times: 2 Receive response times: 2 Completion:success RTD over thresholds number:0 Attempts number:1 Drop operation number:0 Disconnect operation number:0 Operation timeout number:0 System busy operation number:0 Connection fail number:0 Operation sequence errors number:0 RTT Stats errors number:0 Destination ip address:192.168.88.66 Min/Max/Average completion Time: 2/3/2 Sum/Square-Sum completion time: 2/2 Last response packet receiving time: 2019-12-30 14:21:38.2 Lost packet ratio: 0 % |
可看到“Lost packet ratio: 0 %”,说明链路情况正常
5.故障通知与链路倒切
NQA实例状态可通过snmp trap与网管系统联动;同时,做为对云端BGP+BFD的补充,在云下如需要根据NQA实现链路切换,可将测试实例与静态路由绑定,在链路故障时切换至备用线路
1 |
ip route-static 10.18.0.0 255.255.0.0 100.70.32.2 track nqa user 21v_aVPC |
2.2.数据包级别监控
2.2.1 网络包守恒算法IPCA(Packet Conservation Algorithm for Internet)是一种IP网络性能统计技术,基于IP FPM(IP Flow Performance Monitor,IP流性能监控)实现,通过直接对业务报文进行标记的方法,实现对IP网络的丢包率、时延的统计,达到快速、准确地进行故障定位的目的。IPCA适用于二、三层网络,可以直接对业务报文进行测量,测量数据可以真实反映IP网络的性能。
IPCA在实际使用中可以实现数据包级别的监控。当用户上云业务因底层链路问题产生丢包、时延抖动等情况时可在第一时间感知并处理,极大降低了链路隐患对业务的影响。
2.2.2 简述IPCA的部署模式:IPCA相对于NQA来说更加深入,IPCA可模拟用户真实路经,监控路径上的全部网络节点,能够快速检测用户的视频、语音等业务质量,即刻定位故障发生在链路、板卡甚至端口的位置,极大的提升了运维效率。
部署过程(需要华为交换机并支持敏捷特性):
1.部署eSight网管管理敏捷设备。
a)完成iPCA支持配置,如在设备上配置NTP时间同步、设备侧SNMP参数、使能设备告警上报网管,并使能SSH客户端首次认证功能,允许网管从设备获取数据。
b)在网管上配置网管侧SNMP参数、发现网元、发现链路。
2.通过eSight网管拓扑界面选择不同区域的多个敏捷设备,使能iPCA。敏捷设备及其物理直连链路,将会自动使能监控。
3.用户员可以通过eSight网管随时查看测量结果。
3.总结
世纪互联为广大的DC托管客户提供高可靠、低时延、大带宽的云连接服务,通过云端BGP+BFD的保障手段及云下DCI网络提供的NQA+iPCA策略,世纪互联可保证云连接业务SLA达到99.999%,同时,通过定制化秒级业务监控系统,用户可以实时观测自己的物理专线状态和使用情况,给客户提供“看得见”的业务保障。
世纪互联拥有全国超大容量DCI网络和丰富的公有云POP点,与各大公有云厂商均有良好的合作关系,有着二十年行业经验的资深工程师队伍将竭诚为用户提供最优质的服务。