秒懂确定性网络之玩转时隙 | SDNLAB

作者简介：黄玉栋，北京邮电大学网络与交换国家重点实验室研二在读，研究方向为未来网络体系架构，确定性网络，邮箱地址: hyduni@163.com.

确定性网络要求网络具备有界的端到端时延保证，要计算时延就不得不提到时隙这个关键概念。初识确定性网络会发现，各种协议算法和机制中都有提到时隙，但讲的好像都不是一个东西。那网络中到底什么是时隙？时隙跟路径、带宽、传输速率、突发、缓冲区有什么关系？怎么通过时隙规划保证端到端时延有界？别着急，本文带你玩转时隙，按照时隙的概念、时隙的演进、时隙的相关关系，分为三小节，揭开众多机制背后的核心奥秘。

一、时隙的概念

传统互联网因为流量对时间不敏感，在QoS保障方面大多关注路径、带宽等空间维度的资源，包括队列调度、资源分配等机制也是在空间层面做优化。随着工业互联网、远程控制、实时交互等时间敏感应用的兴起，时间维度的优化成为新的网络升级突破点。相比于带宽、路由等单点指标，时延抖动是端到端指标，保障实现难度更大，需要时间维度的新的概念与约束，其中最重要的就是时隙，它有广义和狭义两方面的概念。

广义上：所有为流量提前预留的时间维度的资源都可以叫做时隙。比如10us，100us，甚至1s，在这一个时间段内，流量可以占用任何所需的路径、带宽、队列缓冲区等网络资源。后面会通过CSMA/CD(载波监听/冲突检测)机制和TDM（时分复用）机制详细展开。

狭义上：一般把交换机出端口的传输时延作为时隙设计的基本单元。比如，端口带宽1Gbps，假设一个MTU大小的包为1500 Bytes, 那么该包经过该出端口的传输时延就是 1500x8 bits /1 Gbps = 12 us，因此，如下图所示，12us就可以作为一个时隙。如果其他包小于1500字节，那么出端口的时隙资源就会有所浪费，或者可以把时隙设计得更小；如果一条流一次要传多个包，则可以为该流预留多个连续的时隙组成一个更大的时隙。

同时，上图还可以分为两种情况，分开到达和同时到达。如果各流分开到达，一条流传输完毕后，另一条流刚好到达开始传输，则每条流的排队时延都是0，它们在交换机内部的时延均为处理时延加传输时延，则基本为一个定值；如果三条流同时到达，则需要排队，第一条流排队0us，第二条流至少排队12us，第三条流至少排队24us,这就导致交换机内部的时延变得不确定。

因此，除了带宽、包大小、包数量等因素，包何时到达是控制时隙分配和端到端时延计算的一个重要因素。包何时到达取决于发包开始时间。我们当前还只是在单节点的情况下讨论，放到复杂拓扑、海量流量场景下，加以不同的约束和目标设计，则可以将时隙玩出上百种花样。

二、时隙的演进

在上百种花样中，笔者总结了四种比较有代表性的机制，从中可以看到时隙的演进过程，介绍如下。

载波监听/冲突检测：早期的以太网采用集线器，许多计算机都是连接到一根总线上，采用广播的通信方式（即当一台计算机发送数据时，总线上所有计算机都能检测到这个数据）和半双工的模式（即接收和发送不能同时进行）。因此，计算机发送数据前，会先发一个探测包，看总线上是否有其他数据在传输，如果有，则执行指数随机退避算法，过一段时间再探测，直到总线空闲，开始发送数据包。因此，载波监听/冲突检测可以被视为最早的实现了发包控制的机制。到后来，互联网流量激增，为了提升了带宽利用率，开始采用交换式全双工以太网，交换机端口增加缓冲区，计算机可以在任意时刻发包。

全局时分复用：后来人们又想，那能不能在交换式以太网实现总线一样的零排队时延的效果？即通过控制发包开始时间，让一条流传输到目的地后，再开始传输下一条流，将全网总的看成一个时隙系统，进行全局时分复用。基于这种方法，在工业以太网中产生了Profinet和EtherCAT等实时以太网协议，在数据中心网络中，MIT联合Facebook也实现了Fastpass，一种通过SDN全网集中式控制、全局时分复用的零排队数据中心网络。

出端口时分复用：一条流传输的过程中，其实只会经过特定的交换机出端口，而全局时分复用却要求全网的端口时隙都为其预留，全局约束条件简单，但网络资源利用率低下。因此，人们发现其实可以在出端口的传输时间加约束，让出端口一条流传输完成后再到达另一条流，即出端口时隙不冲突就可以了，再反推得到发包开始时间，也就是第一节中的分开到达的场景。该方法在简单线性拓扑下十分有效，但在复杂情况下，要保证所有流在任意出端口和任何时刻的传输都不冲突，计算复杂度会指数增加，同时会在链路高负载时存在许多流不可被调度的情况。

出端口有界队长：再后来，人们发现也不需要严格的每个出端口都不冲突。如果存在如上一节中的同时到达的场景，只要出端口排队队列的最大队列长度是有界的，就能求出一个有界的交换机内部时延，从而保证端到端时延有界。基于这种思想，出现了时间感知整形、循环排队转发等调度整形机制。此外，确定性网络演算、带时延约束的交换矩阵等也可用于求解队列长度与排队时延的关系，通过边缘流量整形和接入控制来保证有界队长约束不被破坏。和出端口时分复用相比，最大队长约束使得流在冲突（发包时间排不开或者不可控）时依然可以被成功调度，提高了网络利用率。

三、时隙的相关关系

时隙与带宽的关系：首先，带宽有两层含义，一是指出端口的传输速率，或者说传输能力，比如带宽为1Gbps，那么任意大小的包在出端口都能以1Gpbs的速率被转发，二是指传输容量，1Gbps是指端口1秒钟能传输1Gbit的流量。需注意，比如说将某流进行端口限速到500Mbps时，限制的其实是该流的传输容量，端口依然是按1Gbps的能力在传输，只是1秒内最多只能传500Mbit的该包，多了就丢弃不传了。

因此，如下图所示，1500字节在传输速率为1Gbps时，时隙为12us，如果传输速率提升至10Gbps，则时隙为1.2us。传输带宽增大，则时隙变小，也就是车速提升了，则行驶时间缩短。行驶时间（时隙）是车速（带宽）的微观体现。

时隙与突发的关系：端口在输出到网线上时是串行输出的，不论带宽是1Gbps还是10Gbps，包都是一个一个被传出去，不能并行多个被同时传输，因此常用发送速率和突发尺寸来定义一条流。换句话说，如下图所示，如果没有突发，所有流都整整齐齐的排在马路上，按照发送速率行驶，则不会有拥挤和排队，而一旦有并道（突发、聚播），则会产生排队，导致多条流挤占同一个时隙，需要缓冲区提供缓存。理想情况下设计时隙一般不考虑突发（车辆间紧贴着），而若流具有较大的突发度，则需要将时隙划分更大（车辆间间距更大），即为流预留更多的网络资源，并考虑缓冲区大小的设计。

笔者认为，时隙是理解确定性网络相关机制的钥匙，是将网络从非实时系统演进到实时系统的关键元素。本文梳理了四种有代表性的时隙设计机制，并概括了时隙与带宽、突发的关系。要进一步理解时隙，读者可查阅网络演算等相关资料。