网络江湖内功篇之基于业务的网络监测技术

作者简介:Domi

天下武功,无坚不催,唯快不破。网络江湖,亦如是。‘快’,始终是江湖侠客刀光剑影亘古不变的追求。以至于网络江湖的所有武者,都把重点放在了网络的‘器’与‘技’上,建设广覆盖的网络节点,投入最优质的资源,同时施加多维度、多层次加速技术。所谓登峰造极者不滞于物,草木竹石均可为剑,更多的是侠客气运内功的不同,接着上篇《网络江湖内功篇之网络加速系统建设》,本篇聊聊网络质量监测技术。看似无足轻重、平平无奇,网络质量监测技术的演进和变革却是未来网络演进的出发点。

“监测”,还是“检测”呢?监测,即监视、检测,具有一定的时效性,大多指的是现场实施采样和监测;检测,关注的是样品,大多是指对样品的检测和检验。现有网络质量分析技术一部分是“检测”范畴,但应对未来网络演进,称作监测更为准确。

技术概览

网络技术发展了几十年,新技术、新协议、新设备、新名词等层出不穷,但网络质量分析技术几乎原地踏步,没有实质进展。当网络故障后,一线运维、网络工程师、研发人员等齐刷刷地想到的都是:ping一下,看通不通,再不行traceroute下路径。如果还解决不了问题,就是难题,需要升级,结合其他手段逐段定界定位了,需要老练的工程师凭借丰(xue)富(lei)经(jiao)验(xun),掐指一算了。

网络监测技术按照是否基于业务真实业务流量监测,可分为间接监测和直接监测两大类。按照监测技术是否需要发送特有监测报文,是否占用监测带宽,也可以分别称为带外监测和带内监测。

主流网络监测技术如下表:


图1 主流网络监测技术汇总

间接监测需要通过特有的监测报文,进行网络质量探测。业务服务器为什么允许探测?探测的路径是不是真实业务流量实际转发路径?探测时无问题,能表征业务流量经过时无问题?业务流量每时每刻都在发生,探测报文周期性探测,探测频率多高?频率太高,探测流量本身会不会影响业务转发?频率太低,会不会没有监测效果?尽管如此,ping仍旧以其极低的系统要求,随时随地的可用性,成为当前主要应用的带外监测技术手段。除ping外,其他网络监测技术,无论是直接监测还是间接监测,都鲜为人知。理想与现实的妥协。

直接监测技术中,CFD只支持二层网络,通过不断尝试与可能发生故障的设备建立连接的方式逐步缩小监测范围;RFC 6374/6375只适用于MPLS网络,通过逐段监测,缩小丢包范围;INT支持普通二层和三层网络、EVPN以及VXLAN网络,监测精度高、采集信息丰富,但网络开销大;iNQA支持二层和三层网络,定位速度快,可自动进行丢包监测,但也只能进行丢包监测;iFIT支持MPLS、MPLS SR、SRv6网络,监测精度高,定位速度快,可基于硬件实现,对网络影响小。

另外,为了能够实现针对真实业务的质量拨测,可以通过部署设备或软件方式,自动化模拟用户真实网络访问,如真实启动吃鸡游戏,录屏或截屏游戏内网络质量数据。但这种方式只适用于有限的应用场景,且占用一定的计算及网络资源。

各种直接监测技术都存在一定的应用局限性,一方面是所适用的网络限制,一方面是应用场景限制。都需要对网元设备进行一定的改造升级,基本都只能应用于网络侧,无法下沉至用户侧,无法形成从用户侧到网络侧再到业务提供方的端到端直接监测方案。以至于业内没有形成一个公认的、约定俗成的、通用的直接监测手段。

实施难点

实现基于业务的网络质量主动、实时、高精度随流监测,之所以成为难题,其背后有一定的哲学根因。网络流量转发模型中,每个转发节点只知下一跳设备,所有设备的路由表均由目的地址段、下一跳地址或接口组成,无法看到全局路径,只能局部被动感知,遇故障后无解,只能重传、多发,属尽力而为;而现实驾车导航模型为全局主动先验,获取了全局驾车路线,路遇故障可机动调整路线、实时跟踪、确定可达。

带外监测好比安排一辆专职测试车辆沿路径跑一趟,业务流量再出发,走的是否同一线路,是否故障依旧未知;即使走的同一条线路,监测时没问题,不代表真实业务通过时就没问题。

TCP/IP协议栈及互联网设计之初聚焦的是网络可达性,导致业务级网络质量监测机制缺失,协议扩展性差,主要表现在如下两方面:

难点1

当前普遍应用的网络质量分析技术(主要为带外检测技术),无法表征业务体验,网络指标和业务体验指标脱节。一言以蔽之,网络检测数据 ≠ 业务体验数据。

主要以下三个原因:

  • 质差探测路径和实际业务流转发路径不同;
  • 质差探测服务器和业务服务器不同,即使相同,多数业务服务器基于安全及性能考虑,而禁止探测;
  • 周期性或人为发起探测,无法实时表征业务质量。

难点2

均为被动响应式,无法主动先于用户感知问题,故障定界定位困难、效率低。

主要以下三个原因:

  • 用户投诉或周边业务部门派发工单判断故障范围,故障感知延后、故障处理被动;
  • 需要多团队协同,团队间缺乏明确定界机制,单个团队或组件只关注自身数据,无全局概念;
  • 人工逐段、逐台排障,效率低下。

展望

随着用户业务场景发展层出不穷,AR/VR、工业控制、自动驾驶、大型实时对战游戏、在线音视频直播等业务,一方面倒逼网络向高带宽、低时延、超高稳定性方向发展,另一方面对高性能网络监测技术提出了极高的要求。IETF成立了IPPM(IP Performance Metrics)IP网络流量测量工作组,工作组提出了一系列网络监测技术及标准。值得一提的是RFC 7799给出了“主动(Active)”监测和“被动(Passive)”监测的定义。 主动监测,即前文所述的主动发送探测报文的方法,即带外监测;被动监测,即随业务流量的监测方式,即带内监测、随流监测。

其中,2018年工作组提案的RFC 8321(Alternate-Marking Method for Passive and Hybrid Performance Monitoring)一种适用于被动和混合监测的报文交替染色方法,为随流监测技术指明了方向。提出了一种理想的、高性能随流监测技术方案。次年华为遵循该标准提出了自己的iFIT技术方案,并荣获2019年Interop东京国际网络电信展览会特别奖。限于篇幅,RFC 8321及iFIT原理留待下一篇详述。

未来网络的发展势必需要一种高效、高性能的随流监测技术,而非单纯的探测测量。2021年中国移动全球合作伙伴大会主论坛,中国工程院邬贺铨院士,做了专题发言,对随流监测技术提出了更高期待和展望。

结语

如果说确定性网络(DetNet),助力实现IP网络从“尽力而为”到“说一不二”的准时、准确、快速到达;那么高效的随流监测技术则助力IP网络从“也许、大概、可能”到“必定、确定、一定”的精准度量。

天龙八部里段誉的武功配置是无解的,凌波微步(满级闪避)、北冥神功(无限内功)、六脉神剑(精准狙击)。六脉神剑以内力化作剑气,有质无形,可称无形剑气,威力奇大,锋锐无伦。如果没有确定性,没有精准度也只能是盲狙。段誉驾驭六脉神剑,从早期的时灵时不灵,到后期的随心所欲,无往而不利,我想这是对确定性的最好体现。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/25433.html
分享到:
相关文章
条评论

登录后才可以评论

domi 发表于21-11-09
3