FALCON：使用离线和在线学习实现快速准确的多路径调度

原创

晓兵

修改于 2024-11-25 07:49:19

2380

文章被收录于专栏：AIAI

术语

FALCON: Fast Accurate Learning Network Conditions (快速精准学习网络状况)

概述

多路径传输协议支持同时使用不同的网络路径，有利于快速可靠的数据传输。多路径传输协议的调度程序决定如何在不同的路径上分发数据包。现有的多路径调度程序要么符合预定义的策略，要么符合在线训练的策略。第五代 (5G) 网络和无线局域网 (WLAN) 采用毫米波 (mmWave) 路径引入了随时间变化的网络条件，现有的调度程序难以实现快速准确的适应。在本文中，我们提出了 FALCON，这是一种基于学习的多路径调度程序，可以快速准确地适应随时间变化的网络条件。FALCON 建立在元学习的思想之上，其中离线学习用于创建一组表示粗粒度网络条件的元模型，在线学习用于引导当前细粒度网络条件的特定模型，以得出处理此类条件的调度策略。通过跟踪驱动的仿真实验，我们证明 FALCON 在静态和移动网络中的表现分别比最先进的调度程序高出 19.3% 和 23.6%。此外，我们还表明 FALCON 非常灵活，可以与不同类型的应用程序（如批量传输(Bulk)和 Web 服务）配合使用。此外，我们观察到 FALCON 的适应时间比所有其他基于学习的调度程序要快得多，与其中最好的调度程序相比，其速度提高了近 8 倍。最后，我们在真实环境中验证了仿真结果，表明 FALCON 能够很好地适应真实网络的动态性，始终优于所有其他调度程序

I. 简介

第五代移动通信 (5G) 对三个关键性能方面提出了更高的期望：极高的数据速率、超可靠和低延迟通信以及大规模连接。为了满足这些要求，同时使用多种无线接入技术 (RATs)，即多连接(multi-connectivity)，是 5G 系统中重点关注的关键解决方案之一 [1]。在几种 5G 多连接方案 [2] 中，多路径传输协议，例如多路径传输控制协议 (MPTCP) [3] 和多路径 QUIC (MPQUIC) [4]，最近引起了广泛关注。具体来说，这归功于第三代合作伙伴计划 (3GPP) [5] 的技术规范 (TS) 23.501 (Release 16)，其中讨论了 5G 系统如何利用多路径传输协议来支持接入流量控制、交换和拆分 (ATSSS) 架构，最终实现 3GPP 接入（例如长期演进 (LTE) 和 5G 新无线电 (NR: New Radio)）和非 3GPP 无线局域网 (WLAN)（例如 WiFi）之间的多连接。在多路径传输协议的功能中，多路径调度程序起着关键作用，因为它可以调节数据包在不同可用路径（即可用 RAT）上的分布，最终影响可实现的吞吐量、延迟和连接可靠性性能。设计高性能多路径调度器是一项具有挑战性的问题，尤其是在高时变网络条件下，例如在毫米波 (mmWave) 路径具有高传播损耗和对阻塞敏感的情况下 [6]。为了在这种具有挑战性的条件下运行良好，多路径调度器应该能够满足两个主要目标：

a) 快速适应，即快速根据网络条件调整其调度策略；

b) 准确适应，即调度策略应准确捕捉网络条件。

现有的多路径调度器要么基于预定义规则（例如，使用往返时间 (RTT) 最小的路径），要么基于机器学习 (ML) 方案（例如，使用强化学习 (RL) 算法在某些特定网络条件下选择最佳路径）。基于预定义规则的调度器会根据它们将适应的网络条件定义先验规则（参见第 II-B 节）。由于这些调度器不需要学习要使用的调度策略，因此它们的适应时间可以忽略不计，可以满足快速适应目标。然而，预定义规则通常会导致粗粒度的调度策略，可能无法很好地适应当前的网络条件，尤其是当这些条件变化迅速时。因此，基于预定义规则的调度器难以满足准确的适应目标。基于机器学习的调度器，特别是在线学习方法，会观察当前的网络条件并通过得出相应的调度策略来适应它们（参见第 II-B 和 II-C 节）。与基于预定义规则的调度器相比，它们需要额外的时间来学习策略，从而导致对网络条件的适应速度较慢，但可能更准确。事实上，这些调度器在快速适应和准确适应方面存在权衡。一方面，如果调度器（即学习代理）采用复杂的学习架构，例如深度神经网络 [7]、[8]，它可能会收敛到准确的策略，但这可能需要更多时间，从而抑制快速适应。另一方面，如果调度程序采用简单的学习方案，例如轻量级 RL 算法 [9]、[10]，它可能会以牺牲准确性为代价收敛得更快。为了解决在线学习调度程序面临的上述挑战，我们认为调度操作可能会受益于基于离线学习的进一步训练。事实上，调度程序可以利用以前在已经遇到的网络条件下的经验来为新遇到的条件推导出适当的模型；然后，在线学习算法可以利用这种模型来获得快速准确的调度策略。这个想法在第二节和第三节中得到了进一步的澄清和论证。

在上述背景下，本文提出了 FALCON，一种基于 ML 的多路径调度程序，结合了在线和离线学习。FALCON 建立在元学习 [11]、[12] 的思想之上，其中通过离线学习建立元模型并通过在线学习进行微调。在线学习经验还反馈给离线学习功能，形成一个闭环，以不断更新元模型。我们的工作贡献可以概括如下：

• 我们提出了多路径调度器能够快速准确地适应变化的网络条件的必要性，并表明现有的多路径调度器难以实现这一目标；

• 我们设计了 FALCON，一种基于 ML 的多路径调度器，它结合了离线和在线学习的好处在于，使用较少的输入数据即可获得训练有素的多路径调度策略。据我们所知，我们的工作是首次系统地研究多路径调度，该调度优化了适应速度和对时变网络条件的准确性；

•我们使用 quic-go 在 MPQUIC 中实现 FALCON 的协议方面，使用 keras-rl 实现 FALCON 的学习方面。FALCON 的所有软件组件均以开源形式提供给社区。1

•使用跟踪驱动的仿真，我们展示了快速准确的适应能力，因此与最先进的多路径调度程序相比，FALCON 在批量传输和支持多流的 Web 服务应用中具有卓越的性能。

•我们在实际环境中验证了仿真结果，并表明 FALCON 在现实网络条件下的表现优于所有其他调度程序。

本文的其余部分组织如下。我们首先在第二部分总结我们工作的基础和相关工作。然后，我们在第三部分中指定研究问题并概述 FALCON。接下来，我们将在第四部分详细介绍 FALCON 的设计。我们将在第五部分介绍实验设置，并在第六部分通过模拟和第七部分通过真实世界实验评估 FALCON 的性能。我们最终在第九部分总结我们的工作

II. 基础和相关工作

在本节中，我们总结了 FALCON 的基础和相关工作，包括与多路径传输（第 II-A 节）、多路径调度（第 II-B 节）和网络场景中的学习（第 II-C 节）相关的方面。

A. 多路径传输协议

多路径传输协议旨在实现比单路径协议更高的吞吐量和弹性，因为它们可以同时利用多条路径并支持无缝故障转移。具体来说，两种多路径协议得到了标准化和研究界的广泛支持：MPTCP 和 MPQUIC。MPTCP [3] 是 TCP 的多路径扩展，其目标是对更高和更低的协议层都透明。它的设计和操作受到中间件激增、干预端到端 TCP 连接、阻止 TCP 扩展以及部署新传输协议的影响。QUIC 采用了 TCP 的几个成功特性，最近成为一种有吸引力的替代方案，因为它集成了传输层安全性 (TLS) 并改善了连接启动时的延迟。与 TCP 不同，QUIC 会加密大部分协议头和所有有效载荷，以防止中间件的干扰。受 MPTCP 成功的推动，已经有一些 MPQUIC 实现被提议作为 QUIC 的多路径扩展 [4]，[13]。本文利用 MPQUIC 对多路径调度程序进行分析，因为我们相信它将在决定 5G 中的多连接性能方面发挥关键作用。

B. 多路径调度

多路径调度程序负责在可用路径上分发数据包。下面，我们描述两类多路径调度程序：基于预定义规则和基于 ML 方案。

基于预定义规则的调度程序：

传统的多路径调度程序遵循不会随时间改变的预定义规则。例如，循环 (RR) 调度程序会周期性地通过每条路径发送数据包，只要路径的拥塞窗口 (CWND) 中有空间即可。当可用路径具有相似的特征（即路径是同质的）时，RR 的性能可能相当好。但是，由于它没有考虑各个路径的特性，因此无法防止数据包无序到达接收方，这会损害多路径传输性能。最小 RTT (minRTT) 调度程序表明，考虑和利用路径特性（例如，通过在具有可用 CWND 和最低 RTT 的路径上发送数据包）可以实现更高的吞吐量 [14]。事实上，minRTT 是 MPTCP 和 MPQUIC 中的默认调度程序。多年来，已经提出了基于预定义规则的其他调度程序。阻塞估计 (BLEST) [14] 和最早完成优先 (ECF) [15] 尝试提供高吞吐量和低延迟。假设有两条可用路径，当两条路径都有 CWND 时，BLEST 和 ECF 的行为类似于 minRTT，即，它们选择具有最低 RTT 的路径。当 RTT 最低的路径没有 CWND 可用时，BLEST 和 ECF 使用不同的机制来决定是在 RTT 最高的路径上发送数据包还是等待 RTT 最低的路径再次可用。针对特定用例和应用，[16]、[17]、[18] 中的研究应用了自适应数据包复制机制来保证稳健性，当额外的数据使用和电池消耗不是限制因素时，这种机制被证明是有效的。[19] 中的研究提出了 Slide Together 多路径调度程序 (STMS) 来减少无序数据包到达，从而减少接收器缓冲区问题。

[20] 提出了一种针对丢失率超过 20% 的网络的丢失感知调度程序。[21] 提出了短传输时间优先 (STTF) 调度程序，针对短传输的低延迟，并考虑 TCP 特定方面，例如 TCP 小队列 (TSQ)。最后，[22] 提出了一种针对 IEEE 802.11 ad/ac WLAN 的 MPTCP 多路径调度程序。

基于 ML 的调度程序：

然而，面对复杂的网络条件，基于预定义规则的调度程序很难保证各种环境特征的准确性。多路径调度也可以看作是一个决策问题，因此自然适合 RL 方案旨在解决的场景，包括多臂老虎机问题 (MAB) 和马尔可夫决策过程 (MDP)。因此，人们对开发基于 ML 的多路径调度程序产生了浓厚的兴趣。 [9] 采用 MAB 框架，结合线性上限置信区间 (LinUCB) 算法和随机调整，在 MPQUIC 中设计了一个多路径调度器，即 Peekaboo，与基于预定义规则的调度器相比，它在动态异构网络中的性能有所提升。随后，[10] 通过扩展 Peekaboo 的路径选择学习方案，提出了 Modified-Peekaboo (M-Peekaboo)，旨在将适用范围扩展到 5G mmWave 网络。[7] 将调度问题定义为 MDP，利用深度 Q 网络 (DQN) 架构在 MPTCP 中设计了一个多路径调度器，即 Reles，其性能优于 minRTT。同样，[8] 也在 MPQUIC 中使用 DQN 设计了一个多路径调度器，但性能并没有明显优于 minRTT。

C. 网络中的学习概念

如第一部分所述，我们提出的调度器 FALCON 属于基于 ML 的调度器类别。但是，正如后面所澄清的，我们不仅要利用以前的基于在线学习的调度方法，还要包括离线学习，以提高整体性能。因此，在本节中，我们概述了目前在网络应用中更广泛考虑和采用的离线和在线学习方法，因此不仅限于多路径调度。然后，我们还提供了元学习的高级描述，这是 FALCON 中用于利用离线和在线学习功能的实际框架。

离线学习：

该范式假设，为了推导出通用环境的模型和/或策略，ML 算法使用环境特征，即在使用导出模型之前提前收集的数据。在下文中，我们将预先收集的数据称为离线数据。学习结果（例如网络协议要使用的策略）一旦从离线数据中导出就不会被修改。换句话说，无需重新训练。因此，假设离线数据包含一组足够完整的环境特征，这些特征在实际使用模型/策略时可能会遇到。举几个例子，离线学习用于推导基于离线数据的策略，用于使用优化方法 [23] 进行拥塞控制、使用 DQN [24] 或异步优势演员评论家 (A3C) [25] 进行自适应比特率 (ABR) 流式传输以及使用 DQN [26] 或支持向量机 (SVM) [27] 进行设备资源管理。据我们所知，离线学习目前不用于多路径调度。

在线学习：

该范式假设，为了推导模型和/或策略，ML 算法使用在推导和使用模型/策略时收集的数据。在下文中，我们将运行时收集的数据称为在线数据。与离线学习范式不同，学习结果因此在运行时进行修改和调整，利用新遇到的环境特征，即新的在线数据。这通常通过两种主要方法来实现，即使用或不使用放弃机制。在第一种方法中，当通过所谓的变化点检测 [9]、[28] 检测到环境特征发生显著变化或预定义计时器到期 [29]、[30]、[31] 时，将放弃模型 / 策略。Peekaboo [9] 和 M-Peekaboo [6] 是使用带有变化点检测的在线学习方法的调度程序的相关示例。在第二种方法中，在线学习算法不应用放弃机制，即模型 / 策略会不断更新，因为算法会不断输入在线数据 [32]。因此，在这种情况下，不会突然放弃模型 / 策略，这可能会导致对环境特征的突然变化的反应变慢。使用在线学习而没有放弃机制的多路径调度程序的示例有 [8]、[7]。值得一提的是，上述在线学习方法可能会面临众所周知的灾难性遗忘问题[33]。事实上，无论是否放弃机制，在线数据的持续输入都可能导致新模型 / 策略的产生；因此，那些对特定环境特征而言是最佳的旧模型 / 策略可能会被丢弃，如果相同的环境特征再次出现，就需要重新发现它们。作为一种补救措施，例如 [34] 尝试将终身学习应用于视频流，以缓解灾难性遗忘问题。

元学习：

元学习范式，也称为“学会学习” [35]，结合了在线和离线学习。元学习的目标是为 ML 算法需要解决的一组学习任务推导出 (离线) 一个所谓的元模型。元模型的构建使其能够快速适应 (在线) 可能遇到的任何新学习任务，只需利用新任务中的一些经验即可。 [11]、[12] 中的研究验证了一个可用于多种学习任务的元学习框架，例如，它可以应用于监督 ML（回归和分类）和 RL 场景。其他研究提出了针对更具体场景的元学习，即深度网络 [36]、[37]、[38] 和循环网络 [39]、[40]、[41] 的权重更新规则和选择性复制。在本文中，我们基于元学习范式设计了 FALCON，以获得快速准确的调度策略。

III. 问题陈述和解决方案概述

在本节中，我们解释研究问题（第 III-A 节）并概述我们的解决方案（第 III-B 节）

A.问题陈述

由于网络拥塞、用户移动性、无线信道的动态特性等原因，多路径调度器面临的网络条件随时间而变化。最近在蜂窝网络和 WLAN 中使用毫米波频谱进一步增加了这种多变性 [42]，[43]。因此，如第一部分所强调的，多路径调度器应该能够快速准确地适应具有挑战性的时变网络条件。当调度器检测到网络条件的变化时，快速适应表示实现适应策略的适应时间应尽可能短；准确适应表示适应策略应尽可能匹配当前网络条件。然而，这是一项艰巨的任务，设计一个能够快速准确地适应时变网络条件的多路径调度器是一个悬而未决的研究问题。在下文中，我们将阐明现有调度器（基于预定义规则或学习范例）在实现上述目标方面的局限性。然后，我们还分析了基于纯离线学习方法的调度器将面临的局限性。这项分析进一步激发了我们设计 FALCON 的方法，该方法在 III-B 节中进行了总结，并在 IV 节中进行了详细介绍，其中我们结合了离线和在线学习方法的优点。基于预定义规则的调度程序可以快速但不准确地适应随时间变化的网络条件。这是由于预定义了在可用路径上调度数据包所遵循的规则所导致的固有限制。事实上，规则通常相当简单和粗粒度（例如，选择具有最小平均 RTT 的路径），因此无法准确适应网络条件的复杂动态。基于在线学习的调度程序可以确保得出准确的调度策略。然而，一般来说，与基于预定义规则的调度程序相比，在线学习网络条件的需求使得适应速度较慢。为了加快适应速度，基于在线学习的调度程序可以牺牲准确性，从而利用有限量的数据（观察到的网络条件）和简单的学习架构来得出策略。在下文中，我们将这些调度程序称为基于在线学习的 I 型调度程序。如 [10] 中的经验所示，最先进的 I 型调度器在满足现代网络（例如 5G mmWave）的适应时间要求方面仍然面临挑战。如果精确适应优于快速适应，则在线调度器可以利用大量数据和更复杂的学习模型。在下文中，我们将这些调度器称为基于在线学习的 II 型调度器。基于离线学习的调度器直观上似乎是实现快速和准确适应的合理方法。基于离线学习的调度器可以快速适应，因为它是预先训练过的。此外，如果对所有可能遇到的网络条件进行训练，这样的调度器可能会实现准确的适应。然而，这种假设相当不切实际，主要有两个原因：

（1）收集所有可能的网络条件（过去和未来）几乎是不可能的 [44]，[45]；

（2）即使可以找到所有网络条件组合，也很难用数学准确地标记它们中的每一个。因此，预训练中可能涉及多种网络条件组合，而获得的模型与细粒度网络条件的匹配程度仍然很粗。

B. 解决方案概述

在这项工作中，我们设计并实现了一个基于学习的调度器。我们做出这样的选择是因为，与基于预定义规则的调度器相比，基于学习的调度器能够从遇到的网络条件中学习并适应其随时间的变化。为了解决研究问题并克服上述仅在线和仅离线学习的调度器的局限性，我们提出了 FALCON，这是一种结合离线学习和在线学习的多路径调度器。FALCON 的关键思想是使用元学习框架作为离线学习来创建一组表示网络条件的元模型。然后，在线学习算法使用该组元模型为当前网络条件引导特定模型并得出处理此类条件的调度策略。创建元模型的目的是使它们只需少量在线数据就可以收敛到任何特定模型。一方面，元模型集是特定模型的共同根源。它是一种全局视图，因此与特定模型相比，它对网络条件的变化不太敏感。因此，它可以以相对较慢的速度更新。另一方面，在线学习对元模型进行微调，最终

获得适合当前网络条件的特定模型。因此，在线学习操作以更快的速度执行，以适应网络条件的变化。换句话说，模型更新分为低频和高频更新。与仅离线学习方法相比，FALCON 能够适应当前环境，而无需专门标记当前网络条件，从而避免处理看不见的网络条件和将粗粒度模型与细粒度网络条件相匹配的问题。与基于 Type-I 在线学习的调度程序相比，FALCON 有效地使用了更多数据和精细的学习架构，从而在不牺牲快速适应性的情况下实现了更高的准确性。与基于 Type-II 在线学习的调度程序相比，元模型的创建和细化循环允许在不牺牲准确性的情况下实现更快的适应。图 1 说明了 FALCON 架构，其主要功能可以概括如下：离线学习：基于在线学习模块的经验，离线学习模块根据网络条件将经验分成不同的组。对于每一组经验，离线学习模块都会进行元学习并得出一个元模型。离线学习是为了应对现实场景中元模型的变化而设立的。元模型中存储的共享知识不会以非常快的方式发生变化，而是以极其渐进的方式与现实世界中的内部表示进行微调，因此更新频率非常慢。在线学习：在线学习模块持续监测网络条件的变化。根据变化检测的结果，在线学习模块可以选择部署当前模型（未检测到变化）或执行模型重新训练（检测到变化）。在第二种情况下，在线学习模块根据当前网络条件所属的组从选择的元模型进行训练。因此，在线学习循环以快速的频率更新。信息交换：在线和离线模块以递归循环的方式协作和交换经验和元模型，如图1所示。

IV. FALCON 设计

在本节中，我们通过展示 FALCON 的伪代码以及离线和在线学习模块中采用的学习策略来描述 FALCON 的算法（第 IV-A 节）。然后，我们进一步指定设置 FALCON 操作所需的学习元素（第 IV-B 节）。

A. 算法

算法 1 报告 FALCON 伪代码。如图 1 所示，FALCON 通过专用模块利用离线和在线学习，这些模块在递归循环中交换当前经验和元模型。下面，我们将提供有关这两个模块的更多详细信息。离线学习模块：此模块派生出一组元模型，从高层次上表示网络条件

FALCON 就是在这种环境下运行的。元模型使在线学习模块能够及时得出针对当前网络条件的准确调度策略。为此，FALCON 利用了元学习的概念，其主要思想是找到一个元模型（表示为 Θ），用于解决通用学习任务。元模型 Θ 代表可以从中得出许多精细模型的共同起点，这些模型可以映射到更具体的学习任务上。例如，元模型是 RL 代理可能拥有的关于如何导航迷宫（即通用任务）的高级知识。然后，当代理部署在具有特定特征的迷宫中（即特定任务）时，它可以利用高级知识来快速学习如何导航该特定迷宫 [11]。实际上，创建 Θ 是为了在几个梯度步骤中得出与特定任务相匹配的精细模型。Θ 的要求是从 Θ 开始，在线模型可以在几个在线梯度步骤内收敛以匹配所呈现的网络条件。换句话说，Θ 保证少量学习 [46], [47] 足以找到精炼模型。考虑到一个在线模型在参数空间内可能有几个收敛点，受制于常见的机器学习范式，Θ 确保不同在线模型的收敛点彼此接近。假设具有特定任务的分布，元模型 Θ 的推导遵循以下一般程序：

通过上述程序推导出元模型 Θ 后，便可将其作为起点，仅使用在新任务上收集的少量经验 [11]，[12]，找到适合新任务的任何特定模型。在我们的场景中，FALCON 的学习任务是它可能遇到的不同网络条件，它应该通过推导特定的调度策略来适应这些条件。具体而言，我们将数据包丢失率、平均 RTT 和可用路径的 RTT 变化率视为网络条件的指标。此外，FALCON 在在线学习模块中采用 DQN 来推导其调度策略。因此，Θ 被定义为在线学习模块中 DQN 使用的深度神经网络的初始参数集。在常见的梯度下降方法中，我们应用小批量梯度下降而不是随机梯度下降来迎合 DQN 的使用。请注意，为所有可能的网络条件创建唯一的元模型可能需要显著增加收敛到最佳 Θ 所需的梯度步骤数 (K)。因此，FALCON 不会为表示所有网络条件创建唯一的元模型，而是创建一组元模型，即 ΘS（下标 S 代表集合）。然后创建 ΘS 中的每个元模型，以便仅覆盖部分可能的网络条件范围。例如，假设有两条可用路径，ΘS 中的第 x 个元模型，即 Θx，覆盖的范围是：在路径 1 上，数据包丢失率在 [a, b] % 之间，平均 RTT 在 [c, d] 毫秒之间，RTT 变化率在 [e, f] % 之间，路径 2 也定义了类似的界限。元模型的数量和不同元模型涵盖的网络条件范围是预先定义的，如第 V 节所述。在下文中，RS 表示元模型运行的范围集合。如算法 1 所示，离线学习模块以预定义的更新间隔（即 Tupd）更新 ΘS。为此，它首先从在线学习模块收集有关当前部署的策略（状态、动作、奖励，如第 IV-B 节所定义）和当前网络条件（数据包丢失率、平均 RTT 和 RTT 变化率）的经验，表示为 Exp。然后，离线学习模块使用 Exp 中的网络条件集，并将它们与 RS 进行比较，按照上述程序更新 ΘS 中的相应元模型。在线学习模块：此模块连续运行，以得出在不同网络条件下使用的调度策略。FALCON 使用变化点检测机制来触发选择涵盖新条件的元模型，并利用所选元模型得出新策略。因此，变化点检测是 FALCON 中的一个重要方面，它在其面临的无线场景中尤其重要，因为这些场景通常会导致高动态性和网络变化，例如切换。直观地讲，可以固定一个检测间隔，并在该间隔内监控网络条件的统计数据。然后，如果统计数据的差异超过阈值，则检测到网络条件的变化。然而，如何设置检测间隔并不简单：如果间隔太短，变化检测可能会受到短期噪声的影响；如果间隔太长，实际变化可能会丢失。设置用于识别网络状况实际变化的阈值也存在类似的问题。简而言之，硬编码设置检测间隔和阈值不是一种可行的方法。因此，由于在动态和异构网络（例如 5G mmWave [42]）中预计会发生逐渐和突然的网络状况变化，我们利用漂移理论 [48] 来观察网络状况的变化。特别是，FALCON 采用众所周知的贝叶斯变化点检测算法 [49] 来监控可用路径上的丢失率和 RTT。一方面，RTT 是一个连续信号，因此可以按原样用于贝叶斯变化点检测算法；另一方面，数据包丢失是一种二进制信息（即数据包可以丢失也可以不丢失）。为了解决这个问题，FALCON 对数据包组进行数据包丢失计数，从而从伯努利分布转变为数据包丢失的二项分布，最终获得一个相对连续的信号。如算法 1 所示，在检测到网络条件发生变化后，在线学习模块通过在短时间内的数据传输中将网络条件与 RS 进行比较，选择 ΘS 中覆盖当前网络条件所属范围的元模型。在定位当前网络条件时，可能会因噪声而存在偏差。回想一下，FALCON 中的元模型涵盖了一系列链接特征，可以合理地容忍这些偏差。一旦选择了元模型，FALCON 就会执行 K 步 f对元模型进行微调，并通过 DQN 得出要采用的调度策略。最后，FALCON 部署并使用新策略，直到检测到新的变化。由于学习代理不会从零开始增长其知识库，而是从共享知识中增长，因此适应成本相当小，如第 VI 节所示

B. 学习元素

如第 IV-A 节所述，FALCON 使用 DQN 架构在运行时推导策略，并利用元学习范式在保持准确性的同时加快这种推导速度。因此，整个框架是一个 MDP，FALCON 通过元学习加 DQN 来解决。下面，我们将提供有关整个框架学习元素的更多详细信息。

状态空间：MDP 中的状态是学习代理在学习过程中观察到的有关代理所面临的环境状态的信息。在我们的场景中，FALCON 是学习代理，环境状态通过可用路径的传输层参数定义，即 CWND、飞行中数据包 (InP) 的数量、发送窗口 (SWND) 和 RTT。前三个特征由 RTT 标准化，以与吞吐量紧密相关，即 FALCON 在运行时获得的奖励，如下所述。

动作空间：此集合包括 FALCON 在部署调度策略时可以选择的动作，并根据这些动作获得奖励。在我们的场景中，可用的操作取决于可用路径的数量。在这项工作中，我们主要考虑两条可用路径，这是 5G 多连接场景中的常见假设 [5]。但是，FALCON 的动作集可以自然扩展并包含更多路径。因此，通过采取行动，FALCON 可以决定用于交换数据包的路径。在多路径调度的背景下，这表明当路径拥塞或不拥塞时，动作集可能会有所不同，这会使学习代理变得复杂。我们选择自然地从状态中继承此信息，同时以直接的方式指定路径，而不管路径当前的拥塞状态如何。

奖励函数：与 MDP 中常见的情况一样，FALCON 旨在最大化所谓的折扣回报，其中，与选择路径时获得的吞吐量相对应的瞬时奖励在通过所谓的折扣因子折扣后累积，这可以解释为调度程序对最大化短期回报与长期回报的兴趣。折扣因子的使用可确保当前操作的影响随时间减小。

RL 算法：如上所述，FALCON 在在线学习模块中使用 DQN 来推导调度策略。DQN 是一种众所周知的无模型算法，不需要任何状态转换概率分布和奖励函数的知识。相反，它只需要观察选择动作时获得的瞬时奖励以及相应的状态转换。在考虑复杂性作为主要因素的同时，我们选择 DQN 也是因为它的流行性，这使得可以直接与其他基于 DQN 的最先进的调度程序进行比较，如第 II-B 节所述。但值得一提的是，FALCON 基于一个相当灵活的框架，因此可以轻松扩展到在线学习模块中采用其他算法。

探索与利用：由于离线和在线学习模块之间存在信息交换，FALCON 需要在探索和利用之间取得一定程度的平衡。因此，它采用了固定的贪婪探索机制，不会随时间衰减。具体而言，在建立这些初始元模型时使用相对较大的值，表示为 l ，以提高采样效率；相反，在不断更新元模型以及对选定的元模型进行微调以得出调度策略时，使用相对较小的值，即 s。

同步与异步学习：在 DQN 的原始提议和常见的深度 RL 范式中，与环境的交互和神经网络的更新以同步方式发生。然而，这些同步操作在通常存在软实时或硬实时要求的实际系统中效果不佳。例如，在我们的案例中，神经网络的在线更新可能会阻塞通信堆栈中的调度例程。因此，我们采用异步更新 [50]，通过使用单独的在线学习进程来实现：网络进程负责数据收集并执行调度，而训练器进程负责根据收集的数据更新神经网络。

V. 实验配置

在本节中，我们介绍了实验设置，包括 FALCON 的配置、所选的基线多路径调度算法和实验环境

A. FALCON 的配置

我们基于流行的深度强化学习库 keras-rl [51] 实现了 FALCON 的学习组件。我们采用具有三个隐藏层的完全连接神经网络，以整流线性激活函数（ReLU）作为激活函数。神经网络的学习率为 0.001，l 和 s 分别为 0.3 和 0.1。小批量大小为 32，K 为 16。对于元模型在每条路径上覆盖的网络条件范围，我们实现的丢包率可以在 [0, 1)%、[1, 5)% 和 [5, 100]% 之间；平均 RTT 可以在 [0, 50) ms、[50, 200) ms 和 [200, +∞) ms 之间； RTT 偏差与平均 RTT 的比率可以在 [0, 40)%、[40, 80)% 和 [80, +∞)% 之间。因此，一条路径通过组合可以具有 27 种不同的粗粒度状态，而两条路径通过组合可以具有 729 种不同的粗粒度状态。因此，元模型的总数为 729。在线经验会定期写入逗号分隔值 (CSV) 文件中，代表元模型的神经网络会保存到分层数据格式版本 5 (HDF5) 文件中。我们根据第 VIII-A 节中的实验分析设置了 FALCON 的具体参数。我们相信这些是实践中合理的设计选择，并注意到我们的分析可以调整此参数以适应其他场景。除非另有说明，我们对 FALCON 的评估使用这些默认值。

B. 协议栈的配置

在传输层，我们使用 MPQUIC 进行分析，因为人们对基于 QUIC 的应用程序的兴趣日益浓厚。因此，QUIC 最初是在 quic-go [52] 中实现的，本文在此基础上实现并采用了 MPQUIC 的最早版本之一。此外，我们使用了所采用的 MPQUIC 代码库中的默认多路径拥塞控制算法，即机会性链接增加算法 (OLIA) [53]。在应用层，我们执行批量传输和 Web 下载以评估多路径调度程序的聚合能力。对于批量传输，每次实验运行都会对 2 MB 的文件执行 HTTP GET 请求，并记录下载时间。对于 Web 下载，我们考虑来自不同网站的网页，包括 Google、Github 和 Stackoverflow，如表 II 所示，并记录下载时间。每次请求之前都会重置传输层状态变量。为了确保结果具有统计意义，对于每种路径配置，我们对每个多路径调度程序重复实验 120 次。

C. 基准算法

我们选择 minRTT 和 BLEST 作为基于预定义规则的调度器的代表算法，原因有二：1）它们采用的策略不仅考虑了来自同质网络的挑战，还考虑了异构网络的挑战；2）最近的评估表明，它们的表现与属于同一类别的其他调度器（例如 RR 和 ECF）[6]，[9] 相似或更好。对于基于离线学习的调度器，由于文献中没有任何多路径调度算法，我们参考了 ABR 流领域的最新实现 [24]，并实现了一种基于 DQN 的多路径调度算法，称为 DQN-Off。在实现中，在保留离线训练概念的同时，我们利用 DQN 的离策略特性而不是模拟环境来实现这一目标。这意味着，DQN 离策略能够从从过去经验中检索到的信息中学习，而不是直接与环境交互。此外，我们使用了 FALCON 使用的相同学习元素，如第 IV-B 节所述。对于基于在线学习的 I 类调度器，我们参考了可以利用 linUCB 和随机调整算法来学习调度策略的 M-Peekaboo 算法 [6]。对于基于在线学习的 II 类调度器，[8] 中设计的基于 DQN 的调度器未能比基于预定义规则的调度器提供明显的性能提升，而 [7] 则显示出了性能提升。然而，[7] 的作者没有公开源代码，我们没有足够的信息来重现这项工作。因此，我们使用可以从 [8] 和 [7] 中提取的所有信息，并实现了基于 DQN 的在线多路径调度器，即 DQN-On。具体而言，在 [8] 提供的框架内，我们利用 FALCON 使用的相同状态空间、动作空间和奖励函数，在构建的 MDP 中获得更高粒度的表示。然后，我们还采用了 [7] 中使用的异步在线更新机制，该机制最初在 [50] 中提出，以加快 DQN 在实际应用中的训练时间。虽然 [7] 将这种异步在线更新机制称为在线和离线学习的结合，但我们强调，这本质上是进程间通信的实现选择，因此它不同于本研究定义的在线和离线学习的概念

D.实验环境

我们在模拟和现实世界的城市峡谷环境中进行了实验。在这两种情况下，我们都考虑了两种场景：静态，我们假设用户是静止的；移动，用户正在行走和/或驾驶车辆。在模拟实验中，为了进行可控但现实的评估，我们利用从实际测量中得出的链路特性，包括网络跟踪和统计值，如表 II 所示。该环境是使用 Mininet [56] 模拟的。关于路径特性（即带宽、延迟和数据包丢失），我们使用针对靠近无线电基础设施的内容服务器测量的值，模拟 5G 边缘部署。在静态场景中，我们展示了 4G 和 5G 路径之间、4G 和 WLAN 路径之间以及 5G 和 WLAN 路径之间的多径传输。我们评估所有这些选项的动机是由于 3GPP 提出的 ATSSS 架构。在移动场景中，我们展示了驾驶场景中两个 5G 网络的多径传输 [42]。在实际实验中，我们分析了静态场景下 5G 与 WLAN 之间的多路径传输。在移动场景中，我们在驾驶测试中展示了 4G 和 5G 之间的多路径传输。

VI. 模拟实验

在本节中，我们将在广泛的模拟实验中比较 FALCON 与最先进的多路径调度器的性能。我们使用批量传输案例来分析多路径调度器在静态和移动场景中的性能（第 VI-A 节），并在 FALCON 和其他调度器如何快速适应随时间变化的网络条件方面提供更多关于它们的行为的见解（第 VI-B 节）。最后，我们进一步验证了 FALCON 在网络下载场景中的稳健性（第 VI-C 节）。

A. 静态和移动场景中的表现

我们首先评估不同多路径调度器在静态和移动场景中的性能。我们重点分析基于学习的调度器，同时以基于预定义规则的调度器作为参考。对于基于在线学习方法的调度器（FALCON、DQN-On、M-Peekaboo），我们假设：

（i）它们没有事先在所检查的网络条件下进行训练，

（ii）它们在每次实验开始时没有缓冲的在线数据。另一方面，为了直接比较具有离线预先知识的方法的影响，我们假设 DQN-Off 事先在所检查的网络条件下进行训练。图 2 展示了不同调度器在不同场景下的性能，如第 V-D 节所述。对于静态情况（图 2 a-c），我们观察到所有基于学习的调度器（FALCON、DQN-On、DQN-Off、MPeekaboo）的表现都优于基于预定义规则（minRTT、BLEST）的调度器，中位下载时间缩短了 34.5%。对于基于学习的调度程序，我们观察到利用深度学习的调度程序（包括 FALCON、DQN-Off 和 DQN-On）的表现优于 M-Peekaboo，平均下载时间缩短了 19.3%。由于所有调度程序都适应所呈现的静态网络条件，这表明应用高复杂度模型有利于提高适应精度。我们还观察到 FALCON 的性能与 DQNOff 相似，明显优于 DQN-On。这表明 FALCON 可以比 DQN-On 更快地适应，这要归功于它的少样本在线学习，这可以实现与 DQN-Off 相同的精度。请注意，我们假设 DQN-Off 事先在检查的网络条件下进行了训练，并且能够部署准确的模型而无需额外的在线学习成本。但是，在现实设置下，在线数据很少与离线数据完全一致。为了捕捉这种影响，我们考虑了这样一种情况，即在训练期间获得的模型与当前网络条件的偏差仅在 RTT 变化和路径丢失率方面下降了 5%。我们将这些新的偏离网络条件下的 DQN-Off 表示为 DQN-Off∗。我们观察到 DQNOff∗ 与 DQN-Off 相比性能显著下降，平均下载时间最多延长 34.5%。其性能与具有预定义规则的调度程序相似。这表明 DQN-Off 缺乏适应能力，因此对其在现实环境下的实用性产生负面影响。接下来，我们在移动场景中评估 FALCON 和基线调度程序的性能。我们在图 2(d) 中说明了不同调度程序在跟踪驱动的移动网络条件下的性能。我们观察到，与基于预定义规则的调度程序相比，M-Peekaboo 的性能增益与静态情况相比有所降低，因为它不能足够快地适应网络条件的较难预测的变化。但是，M-Peekaboo 的表现比 DQN-On 好，中位下载时间缩短了 18.9%，因为它具有更轻量的学习机制，因此适应时间更短。DQN-On 的适应时间相当长，因为 DQN 固有的收敛时间很慢，我们将在第 VI-B1 节中单独研究这一点。得益于少样本在线学习，FALCON 的表现仍然明显优于基于在线学习的调度程序，与 M-Peekaboo 相比，中位下载时间缩短了 16%。DQN-Off 的表现略好于 FALCON，因为它没有在频繁的网络条件变化期间进行少样本学习的成本。但是，当我们引入模型偏差时（就像在静态场景中所做的那样），我们再次观察到 DQN-Off∗ 性能显着下降，因为它缺乏适应偏差网络条件的能力。

B. 进一步研究适应时间

现在，我们深入研究影响基于在线自适应学习的调度器（即 DQN-On、M-Peekaboo 和 FALCON）适应时间的因素。 1) 收敛测试：我们进行收敛测试以探索 DQN-On、M-Peekaboo 和 FALCON 的收敛行为。我们将相对分数定义为 DQN-Off 获得的中位文件下载时间与被测调度器获得的中位文件下载时间之间的比率。我们使用相对分数来说明在线学习算法如何随时间演变，因此，我们根据在线学习成本（即传输层的在线数据包数量）来评估该分数。对于每个调度器，我们进行 10 次测试。对于 DQN-On，我们还考虑了由于之前的训练而缓冲的在线数据的影响。因此，我们不仅研究了 DQNOn 在零缓冲在线数据（即没有先前的训练）下的收敛性（用 DQN-On(Z) 表示），而且还研究了在窄范围与宽范围缓冲在线数据下的收敛性（分别用 DQN-On(N) 和 DQN-On(W) 表示）。具体来说，DQN-On(N) 事先在两种网络条件下进行训练，与当前网络条件相比，可用路径上的 RTT 变化和丢失率分别减少 3% 或增加 3%。DQN-On(W) 是在四种网络条件下进行训练的，相同指标分别减少 3% 和增加 6%。通过利用在每种条件下交换的 100 个数据包的学习预算来获得对网络条件的经验。图 3 展示了具有不同数量缓冲在线数据的 DQNOn 的收敛测试结果。当我们比较 DQN-On 和 FALCON / M-Peekaboo 时，达到收敛所需的数据包数量非常不同；因此我们在图 3 中展示了 DQN-On 的结果，在图 4 中展示了 FALCON / M-Peekaboo 的结果。我们观察到 DQN-On 需要大量数据才能收敛，大约 100,000 个数据包。与 DQN-On(W) 相比，DQN-On(N) 在开始时得分相对较高，并且收敛更早。这主要归因于两个原因：首先，它训练的网络条件与当前网络条件的相似性更高；其次，其学习预算中的数据包总数较小（DQN-On(N) 为 200，而 DQN-On(W) 为 400），因此在 DQN-On(N) 中，来自当前网络条件的在线数据比缓冲的在线数据更快地占据主导地位，最终加快了适应速度。类似地，由于事先进行了训练，DQN-On(W) 在开始时的得分相对较高，但 DQN-On(Z) 收敛得比 DQN-On(W) 更早，因为它不需要消除与当前网络条件有偏差的缓冲在线数据的影响。分析表明，与当前条件有偏差的缓冲在线数据可能会损害收敛。请注意，我们分配了少量与当前网络条件相对接近的在线数据（偏差在 6% 以内）；在更现实的设置中，可以缓冲更多偏差范围更大的数据，从而导致 DQN-On 的适应时间持续变慢

接下来，我们在图 4 中展示了 M-Peekaboo 和 FALCON 的收敛测试结果。我们观察到 FALCON 和 M-Peekaboo 分别以大约 600 和 6,000 个数据包的学习成本实现收敛。这些值比 DQN-On 的值小得多。同时，FALCON 和 M-Peekaboo 的范例不受缓冲在线数据的影响。此外，我们观察到 M-Peekaboo 具有相对较快的收敛速度，但其相对得分低于 FALCON，因为它的学习模型更简单。另一方面，通过结合离线和在线学习，FALCON 不仅收敛速度更快，而且与 M-Peekaboo 相比，得分也更高。2）压力测试：我们还进行了压力测试，以检查 FALCON、DQN-On 和 M-Peekaboo 对不断变化的网络条件的适应速度和准确性。为了隔离自适应的影响，所有调度器都没有事先缓冲在线数据。我们定义一个变化间隔，在每个变化间隔下，我们生成 24 种不同的网络条件，其中每条路径的特征都是在表 II 中所示的特征的最小值和最大值形成的范围内随机生成的。在每个变化间隔结束时，我们使用第 VI-B1 节中介绍的方法计算多路径调度器的相对得分。图 5 分别显示了压力测试下每个多路径调度器的相对得分，变化间隔分别为 8.0、4.0、2.0、0.5 和 0.3 秒。我们观察到，当变化间隔为 8.0 秒时，DQN-On 已经陷入困境，相对得分远小于 1。这与第 VI-B1 节中关于 DQN-On 收敛行为的结果一致。我们还观察到，M-Peekaboo 在 2 秒的变更间隔下表现不佳，与变更间隔为 8.0 秒和 4.0 秒时获得的分数相比，其相对分数有所下降。我们进一步观察到，FALCON 在 0.5 秒的变更间隔内表现非常好。然后，当变更间隔等于 0.3 秒时，它的性能会下降。当 FALCON 和 M-Peekaboo 都能跟上网络条件的变化（例如，变更间隔为 4 秒）时，FALCON 的性能高于 M-Peekaboo。在所有情况下，FALCON 的得分都高于所有其他调度程序，最终突显出其显著更高的适应精度和速度

C. Web 服务的多流支持

在第 VI-A 和 VI-B 节中，我们研究了 FALCON 对批量传输服务的有效性。在本节中，我们将研究 FALCON 对 Web 服务的可扩展性。对于 Web 实验，我们使用 MPQUIC 的流复用特性，这是一项重要特性，计划在 HTTP/3 中利用。因此，我们遵循现有文献中处理流复用的方法，并利用加权循环流调度方法根据网页对象在网页依赖树中的位置下载网页对象 [57]，[58]，[59]。此外，考虑到 MPQUIC 的多流特性，我们在 FALCON 框架中插入了与批量传输框架部分不同的用于 Web 下载的内容。虽然两者都遵循相同的算法（即单流是多流的特例），但为了方便在实验中展示，我们将支持多流的称为FALCON-S，将支持单流的称为FALCON。FALCON和FALCON-S主要有两个区别：1）FALCONS将每个对象流的发送窗口作为状态信息，而FALCON将发送窗口作为整体来处理状态信息；2）FALCON-S根据并发流的权重将拥塞窗口拆分为每个流的状态信息，而FALCON将拥塞窗口作为整体来处理状态信息。我们在第六部分A中定义的移动场景中执行Web实验，以更好地说明该算法的适应能力。图6展示了minRTT、M-Peekaboo、FALCON和FALCON-S对不同网页的下载时间。我们观察到 FALCON 仍然比其他多路径调度程序具有明显的性能提升。此外，FALCON-S 的表现优于 FALCON，下载时间缩短了 13.6%。结果表明，可以在不同的应用程序中使用 FALCON，这表明 FALCON 具有很强的鲁棒性。此外，可以对 FALCON 进行简单的应用程序特定调整，以便针对特定应用程序进行定制，最终表明 FALCON 具有灵活性。

VII. 真实世界实验

我们现在介绍在静态和移动场景中对调度程序进行真实世界实验的评估。静态场景是通过网络提供商和 WLAN 的 5G 设置的，而移动场景是为以几乎恒定的 30 公里/小时速度行驶的车辆设置的，通过来自同一网络提供商的 5G 和来自不同网络提供商的 4G。评估在下午进行，而用于在 FALCON 中创建元模型和训练 DQN-Off 的数据是在评估前 5 天，即上午收集的。我们连续 5 天进行评估，每天结束时，FALCON 都会对元模型进行离线更新。为了说明离线更新的效果，我们还展示了没有离线更新的 FALCON 的性能，将其表示为 FALCON-N（在这些设置中，FALCON 和 FALCON-N 在评估的第一天是相同的）。图 7 说明了 FALCON 和其他多路径调度程序在实际网络条件下的性能。我们注意到，在静态和移动场景中，DQN-On 的性能始终低于所有调度程序，这是因为随着网络条件的变化，需要频繁重新训练。虽然在模拟环境中，DQN-On 可以收敛（参见第 VI-B1 节），但在实际环境中，即使在静态场景中，由于实际网络的动态性，状态转换也更频繁。 DQN-Off 的表现始终优于 DQN-On 和 minRTT，但不如 M-Peekaboo、FALCON 和 FALCON-N，因为它缺乏在线适应能力。受其适应时间的限制，MPeekaboo 在移动场景下的表现不如在静态情况下。FALCON 和 FALCON-N 的表现优于 MPeekaboo，平均下载时间分别缩短了 23.6% 和 18.7%。其中，FALCON 的表现优于FALCON-N，增益表明更新元模型的效果是渐进的。总而言之，结果显示，在网络条件分布上学习到的元模型具有相当高的通用性。

VIII. FALCON 的配置参数和开销

在本节中，我们研究 FALCON 的配置对获得的性能的影响（第 VIII-A 节）。然后，我们讨论 FALCON 的开销（第 VIII-B 节）。

A. FALCON 配置研究

我们研究 FALCON 采用的配置参数对观察到的性能的影响，例如适应速度和准确性。更具体地说，我们讨论 K 的选择和元模型的数量，这与 FALCON 操作直接相关。

K 的选择：我们首先研究 K 的选择及其对适应速度和准确性的影响。回想一下，K 是用于微调预先构建的元模型的在线训练步骤数。我们预计，对于任何给定的网络条件，在线模型应该在 K 步内收敛。由于我们每一步都执行一个大小为 32 的小批量梯度下降，因此数据包数量的学习开销变为步骤数乘以小批量大小。因此，我们寻求保证快速准确适应的最小 K 值。图 8 显示了 FALCON 的相对得分与 K 的关系。我们首先观察到，当 K 相对较小时，FALCON 没有显示出显着的收益。这是因为元学习机制很难找到可以在 K 步骤内收敛的元模型。当 K = 16 时，性能达到饱和，因此选择 K = 16 作为 FALCON 中采用的参数。
元模型数量：接下来，我们研究所采用的元模型数量的影响。回想一下，对于我们定义的链接特征范围的组合，我们训练一个元模型进行引导。为了在定义的链接特征范围内获得更多数量的元模型，我们将每个范围划分为多个子范围（例如，将 [0, 1)% 的丢失率范围划分为多个子范围），并为每个子范围组合训练一个元模型。图 9 显示了 K 的最小值（如第 VIII-A1 节中所分析的）作为每个链接特征范围的子范围数量的函数（原始值为 1）。我们观察到，随着每个范围的子范围数量的增加，K 的值会缓慢减小。但是，即使将数字设置为相对较大的数字（例如 100），最小 K 仍然相对较大。事实上，元模型仍然需要一定数量的训练步骤才能收敛到最优值。理论上，当子范围的数量（也是元模型的数量）足够高时，即离线和在线场景将收敛，K 的最小值将为零，这意味着不需要在线调整。然而，由于我们在第三部分 A 中提出的原因，这并不切实际。此外，FALCON 需要估计当前的网络条件，以便将这些条件映射到预先构建的元模型之一。如果元模型数量太大，估计误差很容易对选择元模型造成干扰。为此，我们保留了 FALCON 的原始元模型数量，这是切实可行的，并避免了估计误差，同时具有令人满意的性能和适应速度。
关于超参数选择的讨论：基于学习的系统无法避免在其算法中使用超参数的必要性。寻找要使用的超参数是一个优化问题，通常以试错法启发式地解决。在极端情况下，反复试验的过程可以自动化，这就是所谓的自动化机器学习 [60]。在所有情况下，模型和任务的复杂度越高，每次试验的时间就越长。因此，这种方法通常用于小型模型和数据集，以便可以完成优化迭代，直到找到一组参数。由于 FALCON 是在大量模型和数据上建立的，因此这种优化方法对 FALCON 来说是不可行的，就像大多数其他实际的机器学习系统一样，它们最终采用直观的超参数和人为的手动优化（调整）。因此，对于与 DQN 相关的参数，我们采用通用参数，因为它们已经为 FALCON 带来了相对于其他调度程序的显著收益。我们进一步观察到，这些参数的选择取决于机器学习工程方面，它们的优化可能会导致进一步的改进。

B. FALCON 的系统开销

深度学习系统通常由训练阶段和推理阶段（即神经网络的解释）组成。对于 FALCON，训练阶段部分离线完成，部分在线完成，同时进行推理阶段；推理阶段在线完成。离线训练阶段的系统开销较高，但不会影响 FALCON 的部署，因为它以离线方式发生。我们进行实验分析以研究 FALCON 在线阶段的系统开销。我们记录了 FALCON 和 minRTT 在 0.3 秒内的中央处理器 (CPU) 使用率和内存使用率，当时网络条件发生了一次变化。服务器的 CPU 是两个核心的 Inteli5 (2.50 GHz)，服务器的内存大小为 8 GB。图 10 显示了 FALCON 和 minRTT 的实时使用情况和平均使用情况。首先，我们观察到 FALCON 的平均 CPU 使用率仅比 minRTT 高 3%，FALCON 的内存使用率平均仅比 minRTT 高 6%。回想一下，我们在分析的 0.3 秒时间范围内改变了网络条件，即可以使用 FALCON 的最坏情况，当网络条件变化不太频繁时，FALCON 和 minRTT 之间的 CPU 和内存使用率差距可能会更小。因此，总体而言，FALCON 不会带来显著的系统开销。对于实时使用，我们确实观察到 CPU 和内存使用率的显著飙升。这种峰值发生在 FALCON 使用梯度计算进行在线训练时。然而，我们没有观察到在线推理阶段的任何额外系统开销，因为 FALCON 采用了具有相对简单架构的神经网络模型，因此计算复杂度较低。最后，在本文中，FALCON 部署在服务器中，因此额外的 CPU 和内存成本并不像在客户端设备上那么重要。然而，我们并不将 FALCON 的适用场景限制在服务器端部署。客户端的路径选择也可以使用 FALCON。在这种情况下，客户端将是受功耗限制的移动设备。对于在线推理端，如上所述，FALCON 和其他调度程序应该保持相似的功耗，这从相似的 CPU 和内存利用率推断出来。考虑到 FALCON 可能采用复杂度更高的神经网络 (NN) 模型，从而产生更大的推理开销，嵌入式软件和硬件解决方案（例如 ARM 通用微控制器软件接口标准 (CMSIS) NN 软件库 [61]、现场可编程门阵列 (FPGA) 和图形处理单元 (GPU)）可以提高推理效率。

IX. 讨论与结论

基于学习的网络系统近来备受关注，同时也引起了多路径调度领域的兴趣。然而，现有的基于学习的多路径调度程序的部署在实现快速和准确适应方面无法发挥作用。在本文中，我们提出了 FALCON，这是一种基于学习的多路径调度程序，它结合了在线和离线学习的优点，可以快速准确地适应随时间变化的网络条件。通过广泛的仿真，我们表明 FALCON 能够快速准确地适应网络条件，从而始终胜过所有最先进的调度程序。我们的真实世界实验证实，FALCON 在现实网络设置下也表现良好。我们认为这项工作未来有两个主要方向。首先，在本文中，我们展示了在 FALCON 中应用 DQN 的可能性，但我们也将考虑应用其他深度学习方法来增强 FALCON 的性能。其次，我们计划解释和理解 FALCON 的学习结果（即 NN 形式），以潜在地推断出保证的性能界限

参考文献

[1] J. G. Andrews、S. Buzzi、W. Choi、S. V. Hanly、A. Lozano、A. C. Soong 和 J. C. Zhang，“5g 将会是什么？”IEEE 通信选定领域期刊，第 32 卷，第 6 期，第 1065-1082 页，2014 年。

[2] M.-T. Suer、C. Thein、H. Tchouankem 和 L. Wolf，“多连接作为可靠低延迟通信的推动因素——概述，”IEEE 通信调查与教程，第 22 卷，第 6 期，第 1065-1082 页，2014 年。 1，第 156-169 页，2019 年。

[3] A. Ford 等人，“具有多个地址的多路径操作的 TCP 扩展”，互联网征求意见，RFC 编辑器，RFC 8684，2020 年 3 月，访问时间：2020 年 12 月。[在线]。可用：http://www.rfc-editor.org/rfc/rfc8684.txt

[4] Q. De Coninck 和 O. Bonaventure，“多路径 QUIC：设计和评估”，载于 ACM 国际新兴网络实验和技术会议论文集（CoNEXT'17）。ACM，2017 年。

[5] 23.501：5G 系统的系统架构，3GPP，2020 年 3 月，v16.4。

[6] H. Wu、G. Caso、S. Ferlin、O. Alay 和 A. Brunstrom，“5G 网络的多路径调度：评估与展望”，载于《IEEE 通信杂志》。IEEE，2021 年。

[7] H. Zhang、W. Li、S. Gao、X. Wang 和 B. Ye，“Reles：基于深度强化学习的神经自适应多路径调度器”，载于 IEEE INFOCOM 2019-IEEE 计算机通信会议。IEEE，2019 年，第 1648-1656 页。

[8] M. M. Rosello，“使用深度强化学习的多路径调度”，载于 2019 年欧洲网络与通信会议 (EuCNC)。IEEE，2019 年，第 400-405 页。

[9] H. Wu、O. Alay、A. Brunstrom、S. Ferlin 和 G. Caso，“Peekaboo：基于学习的动态异构环境多路径调度”，IEEE 通信选定领域杂志，第 38 卷，第 10 期，第 2295-2310 页，2020 年。

[10] H. Wu、G. Caso、S. Ferlin、O. Alay 和 A. Brunstrom，“5g 网络的多路径调度：评估与展望”，IEEE 通信杂志，第 59 卷，第 4 期，第 44-50 页，2021 年。

[11] C. Finn、P. Abbeel 和 S. Levine，“用于快速适应深度网络的模型无关元学习”，第 34 届国际机器学习会议论文集-第 70 卷。JMLR。 org，2017 年，第 1126-1135 页。

[12] A. Nichol、J. Achiam 和 J. Schulman，“论一阶元学习算法”，arXiv 预印本 arXiv:1803.02999，2018 年。

[13] Y. Liu、Y. Ma、Q. D. Coninck、O. Bonaventure、C. Huitema 和 M. Kuehlewind，“quic 的多路径扩展”，工作草案，IETF，Internet-Draft draft-lmbdhk-quic-multipath-00，2021 年 10 月。[在线]。可访问网址：https://datatracker.ietf.org/doc/draft-lmbdhk-quic-multipath/ 00/

[14] S. Ferlin 等人，“BLEST：基于阻塞估计的异构网络 MPTCP 调度程序”，载于国际信息处理网络联盟会议 (IFIP Networking’16) 论文集，2016 年。

[15] Y.-s. Lim 等人，“ECF：用于管理异构路径的 MPTCP 路径调度程序”，载于 ACM 国际新兴网络实验和技术会议 (CoNEXT’17) 论文集。 ACM，2017 年。

[16] A. Frommgen、T. Erbshaußer、A. Buchmann、T. Zimmermann 和 ¨ K. Wehrle，“ReMP TCP：低延迟多路径 TCP”，载于 IEEE ICC，2016 年。

[17] H. Lee、J. Flinn 和 B. Tonshal，“Raven：改善联网汽车的交互延迟”，载于 ACM MobiCom，2018 年。

[18] Y. E. Guo、A. Nikravesh、Z. M. Mao、F. Qian 和 S. Sen，“通过平衡子流完成加速多路径传输”，载于 ACM MobiCom，2017 年。

[19] H. Shi、Y. Cui、X. Wang、Y. Hu、M. Dai、F. Wang 和 K. Zheng，“STMS：提高异构网络下的 MPTCP 吞吐量”，载于 USENIX ATC， 2018。

[20] E. Dong、M. Xu、X. Fu 和 Y. Cao，“针对高损耗网络的丢包感知 MPTCP 调度程序”，计算机网络，2019 年。

[21] P. Hurtig、K.-J. Grinnemo、A. Brunstrom、S. Ferlin、O. Alay 和 N. Kuhn，“MPTCP 中的低延迟调度”，IEEE/ACM 网络事务 (ToN)，第 27 卷，第1，第 302-315 页，2019 年。

[22] S. K. Saha、S. Aggarwal、R. Pathak、D. Koutsonikolas 和 J. Widmer，“Musher：用于双频 802.11 ad/ac 无线局域网的敏捷多路径 TCP 调度程序”，第 25 届移动计算和网络国际会议，2019 年，第 1-16 页。

[23] K. Winstein 和 H. Balakrishnan，“Tcp ex machina：计算机生成的拥塞控制”，ACM SIGCOMM 计算机通信评论，第 43 卷，第4，第 123-134 页，2013 年。

[24] Z. Akhtar、Y. S. Nam、R. Govindan、S. Rao、J. Chen、E. Katz-Bassett、B. Ribeiro、J. Zhan 和 H. Zhang，“Oboe：根据网络条件自动调整视频 abr 算法”，载于 ACM 数据通信特别兴趣小组 2018 年会议论文集，2018 年，第 44-58 页。

[25] H. Mao、R. Netravali 和 M. Alizadeh，“使用 pensieve 进行神经自适应视频流传输”，载于 ACM 数据通信特别兴趣小组会议论文集，2017 年，第 197-210 页。

[26] H. Mao、M. Schwarzkopf、S. B. Venkatakrishnan、Z. Meng 和 M. Alizadeh，“学习数据处理集群的调度算法”，载于 ACM 数据通信特别兴趣小组论文集，2019 年，第 270-288 页。

[27] J. Ren, X. Wang, J. Fang, Y. Feng, D. Zhu, Z. Luo, J. Zheng 和 Z. Wang，“Proteus：异构移动系统上的网络感知网页浏览”，载于第 14 届新兴网络实验与技术国际会议论文集，2018 年，第 379-392 页。

[28] A. Padmanabha Iyer、L. Erran Li、M. Chowdhury 和 I. Stoica，“缓解移动数据分析系统中的延迟-准确性权衡”，载于第 24 届年度移动计算和网络国际会议论文集，2018 年，第 513-528 页。

[29] M. Dong、T. Meng、D. Zarchy、E. Arslan、Y. Gilad、B. Godfrey 和 M. Schapira，“{PCC} vivace：在线学习拥塞控制”，第 15 届 {USENIX} 网络系统设计和实施研讨会 ({NSDI} 18)，2018 年，第 343-356 页。

[30] J. Jiang、S. Sun、V. Sekar 和 H. Zhang，“Pytheas：使用基于组的探索利用实现数据驱动的体验质量优化”，第 14 届 {USENIX} 网络系统设计和实施研讨会 ({NSDI} 17)，2017 年，第 393-406 页。

[31] T. Gilad、N. Rozen-Schiff、P. B. Godfrey、C. Raiciu 和 M. Schapira，“Mpcc：在线学习多路径传输”，载于第 16 届新兴网络实验和技术国际会议论文集，2020 年，第 121-135 页。

[32] W. Li、H. Zhang、S. Gao、C. Xue、X. Wang 和 S. Lu，“Smartcc：一种用于异构网络中多路径 tcp 拥塞控制的强化学习方法”，IEEE 通信选定领域杂志，第 37 卷，第 1 期11，第 2621-2633 页，2019 年。

[33] R. Kemker、M. McClure、A. Abitino、T. L. Hayes 和 C. Kanan，“测量神经网络中的灾难性遗忘”，第三十二届 AAAI 人工智能会议，2018 年。

[34] T. Huang、C. Zhou、X. Yao、R.-X. Zhang、C. Wu、B. Yu 和 L. Sun，“具有终身模仿学习的质量感知神经自适应视频流”，IEEE 通信选定领域杂志，第 38

卷，第 10 期，第 2324-2342 页，2020 年。

[35] S. Thrun 和 L. Pratt，学会学习。 Springer Science & Business Media，2012 年。

[36] M. Andrychowicz、M. Denil、S. Gomez、M. W. Hoffman、D. Pfau、T. Schaul、B. Shillingford 和 N. De Freitas，“通过梯度下降学习”，载于《神经信息处理系统进展》，2016 年，第 3981-3989 页。

[37] S. Ravi 和 H. Larochelle，“优化作为小样本学习的模型”，2016 年。

[38] J. Schmidhuber，“最优有序问题求解器”，《机器学习》，第 54 卷，第 1 期，第 1771-1776 页。 3，第 211-254 页，2004 年。

[39] A. Santoro、S. Bartunov、M. Botvinick、D. Wierstra 和 T. Lillicrap，“使用记忆增强神经网络的元学习”，国际机器学习会议，2016 年，第 1842-1850 页。

[40] J. X. Wang、Z. Kurth-Nelson、D. Tirumala、H. Soyer、J. Z. Leibo、R. Munos、C. Blundell、D. Kumaran 和 M. Botvinick，“学习强化学习”，arXiv 预印本 arXiv:1611.05763，2016 年。

[41] T. Munkhdalai 和 H. Yu，“元网络”，机器学习研究文集，第 70 卷，第2554，2017 年。

[42] A. Narayanan 等人，“智能手机上商用 5G 性能初探”，载于网络会议论文集，2020 年，第 894-905 页。

[43] P. Zhou、K. Cheng、X. Han、X. Fang、Y. Fang、R. He、Y. Long 和 Y. Liu，“基于 IEEE 802.11 ay 的毫米波 WLAN：设计挑战和解决方案”，IEEE 通信调查与教程，第 20 卷，第 3 期，第 1654-1681 页，2018 年。

[44] J. Shi、M. Sha 和 X. Peng，“通过基于深度学习的域自适应将无线网状网络配置从模拟调整为现实。”载于 NSDI，2021 年，第 887-901 页。

[45] N. H. Rotman、M. Schapira 和 A. Tamar，“学习增强系统的在线安全保障”，载于第 19 届 ACM 网络热点问题研讨会论文集，2020 年，第 88-95 页。

[46] F. Sung、Y. Yang、L. Zhang、T. Xiang、P. H. Torr 和 T. M. Hospedales，“学习比较：用于小样本学习的关系网络”，载于 IEEE 计算机视觉与模式识别会议论文集，2018 年，第 1199-1208 页。

[47] Q. Sun、Y. Liu、T.-S. Chua 和 B. Schiele，“用于小样本学习的元迁移学习”，IEEE/CVF 计算机视觉与模式识别会议论文集，2019 年，第 403-412 页。

[48] J. Gama、I. Zliobait ˇ e、A. Bifet、M. Pechenizkiy 和 A. Bouchachia，“概念漂移适应调查”，ACM 计算调查 (CSUR)，第 46 卷，第 1 期。 4，第 1-37 页，2014 年。

[49] R. P. Adams 和 D. J. MacKay，“贝叶斯在线变点检测”，arXiv 预印本 arXiv:0710.3742，2007 年。

[50] S. Gu、E. Holly、T. Lillicrap 和 S. Levine，“使用异步离线策略更新进行机器人操作的深度强化学习”，2017 年 IEEE 国际机器人与自动化会议 (ICRA)。IEEE，2017 年，第 3389-3396 页。

[51] M. Plappert，“keras-rl”，https://github.com/keras-rl/keras-rl，2016 年。

[52] “Quic-go”，https://github.com/lucas-clemente/quic-go，2019 年。

[53] R. Khalili、N. Gast、M. Popovic 和 J.-Y. Le Boudec，“Mptcp 并非帕累托最优：性能问题和正态分布可行的解决方案”，IEEE/ACM 网络通讯，第 21 卷，第 5 期，第 1651-1665 页，2013 年。

[54] R. K. Sheshadri 和 D. Koutsonikolas，“论现代 802.11 网络中的数据包丢失率”，IEEE INFOCOM 2017-IEEE 计算机通信会议。IEEE，2017 年，第 1-9 页。

[55] C. Pei、Y. Zhao、G. Chen、R. Tang、Y. Meng、M. Ma、K. Ling 和 D. Pei，“Wifi 可能是野外往返网络延迟最薄弱的环节”，IEEE INFOCOM 2016-第 35 届 IEEE 国际计算机通信年会。IEEE，2016 年，第 1-9 页。

[56] N. Handigol、B. Heller、V. Jeyakumar、B. Lantz 和 N. McKeown，“使用基于容器的仿真进行可重复的网络实验”，载于 ACM CoNEXT，2012 年。

[57] J. Wang、Y. Gao 和 C. Xu，“用于移动 http/2 的多路径 quic 调度程序”，载于 2019 年第三届亚太网络研讨会论文集，2019 年，第 43-49 页。

[58] A. Rabitsch、P. Hurtig 和 A. Brunstrom，“用于异构路径的流感知多路径 quic 调度程序”，载于 QUIC 的演进、性能和互操作性研讨会论文集，2018 年，第 29-35 页。

[59] A. Langley、A. Riddoch、A. Wilk、A. Vicente、C. Krasic、D. Zhang、F. Yang、F. Kouranov、I. Swett、J. Iyengar 等人，“Quic 传输协议：设计和互联网规模部署”，载于 ACM 数据通信特别兴趣小组会议论文集，2017 年，第 183-196 页。

[60] Q. Yao、M. Wang、Y. Chen、W. Dai、Y.-F. Li、W.-W. Tu, Q. Yang 和 Y. Yu，“将人类从学习应用中解放出来：自动化机器学习调查”，arXiv 预印本 arXiv:1810.13306，2018 年。

[61] ARM，“Cmsis nn 软件库”，https://www.keil.com/pack/doc/CMSIS/NN/html/index.html，2021 年。

作者

Hongjia Wu 是 Simula 和 OsloMet 的博士候选人。他在代尔夫特理工大学获得了嵌入式系统硕士学位，在东北大学获得了自动控制学士学位。他的研究兴趣包括多路径协议和机器人系统。

Ozg ¨ u Alay ¨ Ozgu Alay 博士在土耳其中东技术大学获得了电气和电子工程学士和硕士学位，在纽约大学坦顿工程学院获得了电气和计算机工程博士学位。目前，她是挪威奥斯陆大学的副教授，也是挪威 Simula Metropolitan 移动系统和分析 (MOSAIC) 系主任。她的研究兴趣在于移动宽带网络、多路径协议和无线网络上的稳健多媒体传输领域。她是 70 多篇同行评审的 IEEE 和 ACM 出版物的作者，并积极担任主要会议和期刊的技术委员会成员。

Anna Brunstrom 获得了理学学士学位。 1991 年获得加州佩珀代因大学计算机科学与数学学士学位，1993 年和 1996 年分别获得弗吉尼亚州威廉玛丽学院计算机科学硕士和博士学位。1996 年，她加入瑞典卡尔斯塔德大学计算机科学系，目前担任该系分布式系统和通信研究组的全职教授和研究经理。她的研究兴趣包括互联网架构和协议、低延迟互联网通信技术、多径通信和包括 5G 在内的移动宽带系统性能评估。她撰写/合著了 170 多篇国际同行评审期刊和会议论文。

Giuseppe Caso 是瑞典希斯塔爱立信研究中心（无线电系统和标准）的资深研究员。2018-2021 年，他是挪威奥斯陆 SimulaMet MOSAIC 部门的博士后研究员。 2016 年，他获得了罗马大学博士学位，并在那里担任博士后研究员直至 2018 年。2012 年至 2018 年，他曾在汉诺威莱布尼茨大学、伦敦国王学院、柏林工业大学和卡尔斯塔德大学担任客座教授。他的研究兴趣包括认知和分布式通信、蜂窝系统中的资源分配、物联网技术和发展以及基于位置的服务。他是 IEEE 会员。

Simone Ferlin 是爱立信 AB 无线电网络软件研究员。她获得了 Dipl.- Ing. 2010 年获得德国弗里德里希-亚历山大埃尔朗根-纽伦堡大学信息技术学士学位（主修电信学），2017 年获得挪威奥斯陆大学计算机科学博士学位。她的兴趣在于蜂窝网络和互联网的交叉，她的研究重点是计算机网络、QoS 和跨层设计、传输协议、拥塞控制、网络性能、安全性和测量。她的论文重点研究了使用 MPTCP 提高异构网络多路径传输的稳健性。她积极担任这些领域主要会议和期刊的技术委员会成员