ContextVLM 使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别！

AIGC 先锋科技

发布于 2024-09-20 06:34:02

1600

近年来，自动驾驶车辆（AV）技术的开发有了显著提高，旨在改善交通系统中的安全性。尽管AV已经在实际环境中部署了一定程度，但要实现大规模部署，AV必须能够可靠地识别其运作环境中的物理属性。在本论文中，作者将语境识别定义为AV准确识别其需适当处理的环境属性的任务。具体而言，作者定义了24种环境语境，涵盖了各种天气、照明、交通和道路状况，AV mustaware。出于识别环境语境的需要，作者创建了一个语境识别数据集 called _DrivingContexts_，该数据集包含了与AV相关的超过16万的环境- Query 对。由于传统监督的计算机视觉方法很难扩展到多种环境，作者提出了一个框架 called _ContextVLM_，它使用视觉语言模型通过零样本和少样本方式检测语境。 ContextVLM 可以可靠地在作者数据集上检测到相关驾驶语境，准确率超过95%，同时在一辆具有每个 Query 10.5 ms延迟的4GB Nvidia GeForce GTX 1050 Ti GPU AV上实时运行。

I Introduction

自动驾驶(AV)在现实生活中部署需要详细规定和应用操作设计域(ODDs)。ODDs是指自动驾驶车辆在广泛测试和预计安全操作的地理位置的道路和环境条件。核心自动驾驶功能(如感知、规划、行为和定位)的性能很大程度上取决于操作环境。特别是，基于传感器的感知可能受到雪、雾、雨和低光照条件的影响。运动规划器生成的路径和速度轨迹也可以从操作域知识中受益，如道路是上坡还是下坡、是否铺砌、鹅卵石或未经铺设。在周围区域的工作区知识有重大的安全意义[1]。此外，AV在乡村地区、城市峡谷、隧道或公路上的驾驶对定位性能有显著影响[2]，例如，因为全球导航卫星系统(GNSS)精度的变化。然而，现有的研究通常忽略了可以喂养和影响自动驾驶堆叠的通用的上下文识别需求。

为了让自动驾驶安全运行，扩大ODDs并使自动驾驶得以广泛部署，它们必须可靠地识别一系列操作条件。对于深度学习模型的使用和测试，需要大量标注的数据集。然而，在最新的自动驾驶数据集，如NuScenes [3]和KITTI [4]中，许多相关的驾驶上下文被忽略，这些数据集主要侧重于城市驾驶，特别是在良好的天气条件和白天。

大型语言模型(LLMs)和大型视觉语言模型(VLMs)在过去的几年中变得流行，它们在多个领域都有应用。它们特别有吸引力，因为与视觉不同，语言数据庞大且多样化，可以应对许多实际任务的长尾性质。专门的视觉语言模型，如图像描述和视觉问答，是针对图像文本数据的训练。

VLMs展示出一些解决自动驾驶问题长尾性质的潜力，通过使用自然语言建模复杂场景。然而，据作者所知，VLMs尚未用于检测自动驾驶车辆的驾驶上下文。在这篇论文中，作者提出了一种实用且轻量级的视觉语言模型为基础的方法，以解决自动驾驶的上下文识别任务。为此，作者创建了一个基于视觉语言模型和DrivingContexts数据集的 Pipeline ，以提高上下文识别的性能。图1展示了一些作者DrivingContexts数据集中的实例，并标注了关键的驾驶上下文。第一行展示了几个不利于感知的光学和天气条件，下一两行则给出了需要专门自动驾驶定位方法或/和行为的各种情况。对于广泛的部署，自动驾驶车辆应当能够可靠地检测这些上下文并实时做出安全决策。论文的关键贡献如下。

II Related Work

自动驾驶汽车（AV）需要多个子系统安全及时地运行，包括感知、定位、规划、行为和控制。AV 必须适当地融合各种传感器（包括激光雷达、雷达、摄像头、红外传感器、全球导航卫星系统和惯性测量单元）的输出。此外，连接自动驾驶汽车（CAVs）的车辆到一切（V2X）通信子系统可以与其他车辆、行人和交通信号灯互动。这些传感器具有不同的限制和故障模式。因为各种 AV 子系统必须安全地处理各种情况，所以具有感知和定位模块的 AV 需要了解运行条件和环境背景，如本节 I.1 所讨论的。作者称自动驾驶汽车的环境条件识别问题为 _语境识别_。以前的工作，如 Feriol 等人的工作[5]讨论了将摄像头图像与基于 GNSS 的特征向量融合以推理一些驾驶情境，包括峡谷、露天、树木和城市环境。已经提出了可以推理白天和黑夜道路物体位置、形状和方向的神经网络[6]。图像中检测雨天也是一种研究兴趣[7]。在感知目标检测的背景下，结合激光雷达、雷达和摄像头融合网络在夜间、有雨雪和雪天条件下的知识，可以显著提高目标检测性能，如[8, 9]所提。在自动驾驶车辆定位的领域，如 LaneMatch 方法[] 关注于利用摄像头提供的车道标记信息，以融合车道标志附近的定位信息，提高在 GNSS 非友好区域如隧道和城市峡谷中的定位性能。自动驾驶车辆的规划和行为组件严重依赖于驾驶情境，包括车辆是否离路、是否在铺砌的道路上或在车道标记可用的情况下。对于依赖多种检测方法，如摄像头和激光雷达检测的 AV，有关雨天雪天状态的信息可以用于这些贡献模式的语境感知融合。矢田等人[10]强调了理解跨激光雷达、雷达和 GNSS 技术相对传感器重要性的重要性。然而，上述方法的主要 AV 数据集如 NuScenes34 主要缺少情境标注，且主要是理想运行条件。

近年来，在自动驾驶的背景下，使用视觉语言模型（VLMs）实现各种任务方面取得了一定进步[11, 12]。端到端视觉语言模型如 DriveLM[12]和运动预测模型如 MotionLM[13]已经引入。VLMs 也可以增强自动驾驶的鸟瞰图视角（BEV）地图[14]。

与上述方法不同，本文专注于利用 VLMs 在零样本和少样本设置下利用 VLMs 进行自动驾驶的环境理解。

III Our Methodology

在本节中，作者首先详细描述了上下文识别在驾驶软件堆栈中的问题及其重要性。然后，作者引入了作者的 DrivingContexts 数据集，并介绍了作者用于识别驾驶上下文的方法。

Driving Contexts

全功能的自动驾驶车辆（AVs）必须在各种道路环境（如城市、郊区、高速公路）以及不同的操作条件下运行（如天气、照明、交通堵塞等）。作者将这些环境条件称为“驾驶情境”（Driving Contexts）。一辆自动驾驶车辆可能装有多种车载传感器，如全球导航卫星系统（GNSS），激光雷达（lidar），雷达（radar），惯性测量单元（IMU），红绿灯/深度摄像头（RGB/D Cameras）和热摄像头，这些传感器在不同的驾驶情境下受到不同程度的干扰。例如，在地下隧道中，GNSS信号无法接收，但IMU的表现将保持不变。另一方面，在开放公路上的密集交通可能会严重影响基于摄像头的局部化系统，因为摄像头视野中存在遮挡，而基于GNSS的局部化可能仍然良好。传感器配置的动态变化反过来会影响高水平AV任务（如局部化、路径规划、目标检测和路线规划）如何适应当前的驾驶情境。因此，自动驾驶车辆不能依赖固定的传感器配置或硬编码设置来处理所有可能的驾驶情境。相反，AV应确定其当前的驾驶情境，并强调最适合其的传感器配置和软件功能。

在接下来的两个子节中，作者将给出各种驾驶情境如何影响不同AV传感器和功能的示例。讨论并不旨在全面覆盖，但涵盖了以下一组典型的例子，以突出自动驾驶汽车在AV中需要具有的情境意识。

Effects of Operating Conditions

作者列出以下一些对自动驾驶车辆（AV）主导条件及其如何影响驾驶性能的影响。

天气： 恶劣的天气（如雨、雪、雾和尘暴）严重影响自动驾驶车辆的摄像头图像。因此，在如此条件下，自动驾驶车辆不能仅依赖摄像头定位或目标检测。另一方面，自动驾驶车辆可以依赖不受天气影响的替代传感输入，例如雷达。GPS接收器可能仍可用于定位和路径规划。
照明： 光线条件差会影响摄像头，但诸如激光雷达、雷达、GPS和IMU等传感输入不会受到照明条件的影响。在这种情况下，自动驾驶车辆只能依赖摄像头感知以外的其他传感器，例如激光雷达和雷达进行目标检测和跟踪。
车道标记可见性： 褪色的车道标记严重阻碍基于视觉的车道线检测系统。在这种情况下，自动驾驶车辆可能需要依靠地图获取车道信息，也可能需要基于预定义地图的非常高精确度的激光雷达/IMU/GPS子系统来准确定位自己。
密集交通： 某些定位技术依赖于基于视觉理解的道路边缘和附近静止特征[15]。密集的交通 around 自动驾驶车辆可能导致相机和激光雷达视图中出现遮挡，使相机和激光雷达定价定位变得困难。在这种情况，GPS信号和预加载的地图可以帮助自动驾驶车辆安全驾驶。

Impact of Operating Environments

接下来，作者讨论驾驶环境对自动驾驶系统性能的影响。

城市峡谷（Urban Canyon）：由于城市峡谷中无法从足够多的卫星接收到GNSS信号，并且可能诱导出大量的多路径误差。因此，自动驾驶系统可能需要采用基于摄像头/雷达的局部定位、路径规划和导航。
隧道（Tunnels）：由于隧道内部完全遮挡了GNSS信号，因此移除了绝对位置信息的来源。隧道内部通常视觉上比较均匀，缺乏明显的视觉特征。在这种情况下，自动驾驶系统可能需要利用车道匹配和IMU（惯性测量单元）基的死 reckoning 进行局部定位。
工作区（Work Zones）：工作区对自动驾驶系统提出了非常具有挑战性的情况，原因在于工作区存在多个工作区物体（例如锥桶、桶、垂直面板、屏障和标志），被阻断的车道以及固定/移动的车辆（例如维修和维护卡车）。因此，可能需要使用融合摄像头和雷达的专用目标检测技术来进行工作区边界检测[1]。自动驾驶系统也可能能够依赖V2X基础设施和基于云的指示来获取工作区相关信息。

Our New DrivingContexts Dataset for Context Recognition in AVs

表1展示了作者为AV数据集所关注的驾驶情境。作者挑选了24个具有二进制值的实体，这导致了总共的或超过160万种组合，这是一个相当大的数字，用于生成训练数据的全部可能组合。这些情境都是基于影响AV任务的环境影响的情境的先验文献选择的。作者在一种情境可能不存在另一种情境的方式下选择了这些情境，尽管一个情境的存在可能使得其他情境更可能（或不太可能）。例如，在城市峡谷中的白天气气可能会与交通拥堵有关。为了训练神经网络可靠地检测现实世界中每个组合的条件，一个带有标注的图像数据集应该包含所有这样的组合以及每种类型的多个实例。然而，大多数公开可用的数据集缺乏这样的情境标注，并且相关的场景元数据相对无结构化[3]。由于这些约束，利用情境标注进行完全监督学习是不切实际的。为此，作者在第III-E节中提出零样本和少样本方法。

作者创建的数据集名为_DrivingContexts_。该数据集包含两个子集：_DrivingContexts_(手工标注或HA)和_DrivingContexts_(机器标注或MA)。手工标注子集包含车辆上的正面摄像头捕捉的图像，部分来源与诸如KITTI[4]和NuScenes[3]等流行的AV数据集。此外，作者还使用了在美国匹兹堡市内和周围地区驾驶CMU AV拍摄的照片。为了确保所有相关的情境都至少有一些实例，作者还从网络爬取了版权免费的前摄像头图像。作者将这些图像中的每一个都手动标注了表1中的情境分类。这手标注部分的数据集包括1467张图片，涉及各种情境，还包括1467×24的标注。具体来说，其中500张图片来自KITTI数据集，300张来自NuScenes，321张在匹兹堡拍摄，其余346张来自网络。由于手工标注子集由于手动标注的约束，图片数量相对较小，因此作者使用更大的_DrivingContexts(MA)子集来确保其有用性用于评估_Context Recognition_方法。

_DrivingContexts(MA)_子集包括66,647张驾驶图片。这些图片是使用作者CMU AV上的正面摄像头记录的。为了捕捉广泛的情境，CMU AV在匹兹堡和州学院，宾夕法尼亚州，美国驾驶并在连接这些城市的约215公里Route上收集了大量数据。大量该数据是在夜间，有雾，下雨的条件下收集的，这使得感知任务更具挑战性。由于每个图像有24个情境，作者总共有大约1.6百万图像-情境对。由于手工标注这是一个过于庞大的数字，作者就使用多个预训练的通用视觉语言模型进行标注。具体来说，只有在所有VLMs都预测它高于90%的信心时才会为数据集中的情境标签。此外，这个子集的大样本部分后来由手工验证以确保VLM标注的情境适当。有关这些VLMs的更多信息将在以下部分中详细说明。作者按照VQA v2数据集的标准化格式[16]在作者的_DrivingContexts_数据集中创建了情境 Query 和相应的标注，以便于与各种VLMs配合使用。作者的_DrivingContexts_数据集中的具体情境分布如图2所示。可以观察到，典型情境如高速公路，铺砌道路和晴天相当常见。此外，具有恶劣驾驶条件

Our Proposed VLM-based Approach

为利用作者的《DrivingContexts》数据集，作者提出利用视觉语言模型检测上下文以解决传统监督学习中由于缺乏适用的数据集所带来的困难。这些VLM模型使用来自LAION-400M和Contextual-12M等数据集的图像-文本对进行训练，这些数据集通过网络爬虫获取数据并表现出强大的零样本泛化能力。这些数据集中包含数百万的图像-文本对，有助于多模态表示学习和图像到文本对齐，从而帮助扩展到复杂的任务，如上下文检测，而无需针对特定领域的数据集进行微调。值得注意的是，像同时存在沙暴和雪这样的合乎逻辑但不合理的情况，或是在非铺砌道路上看到车道标记这样的情况，无需明确建模。

图3显示了作者的《ContextVLM》方法概述。作者使用AV生成的摄像头图像以及n个操作上下文 Query ，其中n代表感兴趣的相关上下文数量。这些作为输入传递给一个多模态视觉语言模型，该模型将操作上下文 Query 分词并从图像中提取相关特征。接下来，视觉语言模型根据上下文 Query 来识别相关文本，如图所示。

VLM试图找到与该问题相关的图像部分。在这个特定案例中，夜晚作业的上下文可以很可能是图像的上部，该部分代表了天空，这对决策有很大影响。根据相关图像部分的外观，VLM得出结论，上下文 Query 应得出"Yes"或"No"的答案。

这种策略用于处理所有上下文 Query ，创建一个列表。在作者的工作中，作者使用两个竞争模型作为图3中的VLM，分别是ViLT [17]和LLaVa [18]。这两个模型都是目前用于视觉问答（VQA）的最先进模型，复杂性和模型大小有所不同。ViLT是一个相对轻量级的模型，具有8740万个参数，而LLaVa是一个大的VLM，具有1300亿个参数。

Iii-B1 ViLT

作者将视觉语言Transformer（ViLT）模型作为作者的一种VLMs。它使用了一种不使用深度卷积编码器的视觉语言预训练范例，通常用于处理图像的时间消耗较大。ViLT将输入图像分割为patch，专门训练图像文本匹配的任务。它采用了一种与相似的方式，使用 Transformer 将视觉和文本模态进行嵌入，确保每个图像的patch（例如在AV情境下如“天空”、“隧道”或“车道标线”）都与相应的文本描述相关联。ViLT在包括MS COCO、视觉基因组（VG）、谷歌概念描述（GCC）和SBU描述句数据集 combinations 的预训练，而作者使用的版本是在VQA v2 数据集上进行微调的。从这些所有情境中，ViLT 表现出强大的零样本和少样本泛化能力，拥有超过1000万的图像文本对。

Iii-B2 LLaVa

像 GPT-4 这样的 VLMs（视觉语言模型）可以基于图像回答问题。大型语言视觉助手（LLaVA）是 GPT-4 的一个开源替代方案，它在视觉理解和 VQA 任务上的表现相当。LLaVA 具有视觉和语言编码器，其中 Vicuna 用于语言部分，而 Contrastive Language-Image Pretraining（CLIP）被用于视觉部分。由于 LLaVA 是一个更大的模型，但需要更多的推理时间，作者将比较这种方法对于上下文理解的有用性。

IV Experimental Results

在本节中，作者展示了来自多个实验的结果，用以证明作者数据集和模型的有用性。作者使用的 DrivingContexts 数据集包含不同图像大小，从由网络获取的低分辨率图像（尺寸为100100像素）到由CMU AV产生的高分辨率图像（尺寸为19201080）。实验结果表明，_ContextVLM_ 模型能有效处理各类图像大小，并输出一致的上下文预测。

Quantitative Evaluation

首先，作者展示一些定量的实验结果，证明 ContextVLM 在各种设置下的能力。

Iv-A1 Zero-shot Evaluation

作者需要为表1中的每个上下文类别进行二分类，并使用一种生成型的VLM方法来实现这个目标。文本提示的格式如3图所示。首先，作者在较小的_DrivingContexts（HA）_数据集上评估_ContextVLM_的性能及其适当的子集。表2中报告了每个子类别的准确率、精确率、召回率和F1分数。从表中可以看出，在考虑的两种VLMs中，_ContextVLM:ViLT在大多数情况下表现得更好。在整数据集上获得的准确率约为93%，说明使用VLMs进行上下文检测在各种真实世界数据上表现得还不错。此外，在各个子集中，KITTI对于两个_ContextVLM:ViLT和_ContextVLM:LLaVA_方法来说都是最易分类的，同时也获得了精确率和召回率均超过90%的准确率。作者注意到，由于上下文的真实性受到数据的不规则性和多样性的影响，再加上数据分辨率较低，对基于Web的数据的上下文识别更加困难。此外，既然确定使用ViLT作为VLM基础架构工作显著更好，作者将进一步关注ContextVLM与ViLT的实验。

图4展示了在《DrivingContexts（HA）》数据集上，表现更优的模型_ContextVLM:ViLT_在所有24个上下文中的性能。作者的零示例方法在像"隧道"和"大桥"这样的稀有类别的预测上表现非常好，以至于有监督方法难以预测。车道标记的准确识别相对较难，因为有道路上的其他标记，如人行横道，这些标记对增加误判产生了影响。作者期待"提示"工程技术和自动提示学习策略，如Co-op [22]，可以有助于进一步改进这些预测。

Iv-A2 Zero-shot vs Few-shot - An Ablation Study

针对多个模型在 DrivingContexts (HA) 子集上的零样本实验，作者现在关注少样本学习。这特指使用少量带有标签的新领域示例进行有监督微调的实验。在本实验的一部分中，作者使用 DrivingContexts 子集（HA 和 MA）进行广泛的评估。在图5中，作者在不熟悉的数据上评估 ContextVLM:ViLT 模型表现更好时的少样本能力，采用精确度、召回率、F1 分数和准确率为作者的评估指标。具体而言，作者使用用于零样本评估的预训练模型，并在 DrivingContexts 子集中用 4、16、64 和 256 个示例微调该模型。

作者对数据进行 70:30 的划分进行训练和测试。在训练中，作者在一个由 NVidia A6000 GPU 上的 256 个批次，并使用与金等[17]描述的设置训练 10 个周期来评估少样本性能。图5展示了一些强性能指标（如准确度和 F1 分数）在用预训练模型进行零样本推理的情况下，与既有模型相比显著提高。由于带有很少的示例进行微调，召回率在初始阶段会随着训练减少，但当示例数达到 64 或更多时，表现良好。值得注意的是，在 DrivingContexts 子集上只用 256 个示例进行少样本训练，F1 分数提高了大约 10%，准确度提高了超过 5%。对于作者 DrivingContexts 的较小 HA 子集，作者还对整个训练子集进行微调进行比较少样本方法。从图5中可以看出，改进性能的大部分是通过微调只用大约 64 个示例进行少样本学习的。

从更广泛的角度来看，与语言模型[25]的观察类似，《ContextVLM:ViLT_ 在少量示例的情况下泛化良好到新的 Context Recognition 任务。与需要大标注数据集的传统有监督计算机视觉模型相比，作者的 VLMs 很少样本方法可以泛化到具有少量标注的新驾驶情境。

Iv-B3 Evaluation on Public Video Streams

除了作者标注的数据集 _DrivingContexts_，作者还将在公共的恶劣天气视频流上评估 ContextVLM_。具体来说，作者将使用来自两个公共 AV 数据集 Boreas [23] 和 Adverse Weather Dataset (AWD) [24] 的视频，这些视频中的图像大多数来自积雪、下雨和夜间条件。因此，作者从视频中提取帧，并在这 4,000 幅额外标注图像上评估作者的方法。对于这个子集的数据，作者呈现了 ContextVLM_（ViLT 作为 VLM Backbone ）的性能，如图 III 所示。强调了正确分类的示例数量以及 "是" 或 "否" 回答的平均信心。作者发现，在恶劣的现实数据集中，_ContextVLM 成功识别驾驶情境，对于许多驾驶情境的准确率接近 100%。此外，作者的方法对于每个确定的正面回答都有超过 90% 的信心，并且预测错误答案的平均信心低于 0.2%。_ContextVLM 可以轻易地集成到 AV 感知系统，如 Hydrafusion [8] 中，这些系统依赖于天气和光线条件。

Iv-B4 Inference Time

Fig. 5: 《语境VLM：ViLT》在《DrivingContexts》数据集的HA和MA子集上的零样本和少样本性能对比，作者的问题复杂性。然而，作者也观察到，这种方法只能在几秒钟内检测到可能快速变化的环境，这可能是一个局限。相反，ViLT是一个更简单的模型，因此无法处理具有多个子问题的更复杂 Query 。因此，作者只评估了ViLT的个体选项。ViLT的推理时间是每 Query 39毫秒，这比《LLaVA (联合)》快28倍以上。这是可以预期的，因为ViLT在参数数量方面是一个更小的模型。然而，表2还表明，ViLT表现更好，是一个可行的选项。总之，虽然传统的大型视觉语言模型可能对于在AV上的实时推理速度过慢，但更轻量级的模型如ViLT在实时运行的同时能够进行精确的预测。此外，这种方法在运行时的GPU限制最小，使用不到1GB的GPU内存。

表4显示了作者在轻量级英伟达RTX A4000笔记本电脑GPU上分别对所有感兴趣的驾驶语境的推理时间每 Query 以及所有 Query 的总推理时间进行评估。此外，对于可以处理更复杂输入的LaLaVA模型，作者采用两种方法。首先，《LLaVA (单独)》一次处理一个问题，并以简单的“是/否”响应回答。其次，《LLaVA (联合)》将所有语境 Query 融合在一起，生成一个综合答案。从第一列可以看出，融合 Query 的方法每 Query 的推理时间较低（1.141秒vs 1.766秒）。因此，合并语境 Query 可以显著减少时间。另外，尽管作者对于一般化任务中每张图像有24个问题，但运行受限的AV可能会只对其中的一部分 contexts进行集成，以便将其与下游任务相结合。此外，诸如照明和天气条件的情景通常不会以子秒的间隔发生改变。稍后，在Section IV-C中，作者将讨论在AV上部署的时间和资源约束。

Visual Analysis

为了说明问题，作者在白天和夜间两张图像上评估 ContextVLM:ViLT_。图6左边的白天图像来自_DrivingContexts_，由CMU AV获取。_ContextVLM 识别出的相关上下文如下： "OUTSIDE"，"DAYTIME"，"SUNNY"，"HIGHWAY"，"RURAL"，"WORKZONE"，"PAVED ROAD" 和 "LANE MARKERS VISIBLE"。从图像中可以看出，汽车在一个晴天在高速公路上行驶， rural背景，车道被标线划出，表示工作区的锥子和警告标志。这种响应可以，例如，触发工作区的动态感知和行为计算适应，如Shi等人 [1] 和赵等人 [26] 讨论的那样。

对于图6右边的夜间图像，作者的方法生成了 "NIGHTTIME"，"RAINY"，"FOGGY"，"HIGHWAY" 和 "PAVED ROAD" 作为预测的上下文。图像显然是在雨夜驾驶，由挡风玻璃上的水滴和潮湿路面上的交通灯反射来证实。在此情况下生成的上下文识别输出可以作为多模态目标检测模型（如 ContextualFusion [9]）的输入，在夜间时，可以比在相机上赋予激光雷达和/或雷达数据更高的权重。

Edge Inference on an AV

根据上一、二小节的定量和定性结果，作者得出结论：_ContextVLM_与ViLT的综合表现最好，具有高准确率和相对低的整体推理时间。受其实用性的启发，作者将ContextVLM作为实时感知任务应用到作者的CMU AV上，使用分辨率为的前置摄像头。图像被发送到AV上的所有感知任务，包括作者自己的上下文检测任务。作为实例，作者专门问了一个问题：“周围有高楼吗？”以观察_ContextVLM_在拥有摩天大楼的城市区域中的性能。

作者通过在美国宾夕法尼亚州匹兹堡市的一个居民区驾驶来评估对 Query 的响应。“图7”的上半部分显示AV在无高楼的住宅区行驶。在这种情况下，_ContextVLM_对城市峡谷的存在回答得相当肯定（）。在图像的下半部分，市中心匹兹堡的左侧有摩天大楼，_ContextVLM_正确预测了城市峡谷的存在。

如图7所示：在CMU AV上的上下文推理产生了必要的上下文，GTX 1050 Ti GPU上的CMU AV的结果是每 Query 10.5毫秒延迟。在最坏的情况下，即使所有24个 Query 都需要提出，上下文识别的速度也可以达到4 Hz。作者预计未来的AV硬件将有更好的性能。对于需要关于雨的信息才能表现良好的其他感知任务，ContextVLM 可以通过仅改变上下文 Query 而无需进一步训练即可应用其当前形式。

这个上下文 Query 被选择性地用于帮助依赖GNSS等输入源的定位任务。

城市峡谷的存在会对GNSS传感器等定位算法的性能产生严重影响，这时其他定位算法需要发挥作用。在这里，_ContextVLM_的可靠输出具有显著的正比影响，同时以低延迟实时运行。运行这个任务在轻量级4GB Nvidia GeForce GPU上的CMU AV。作者对作者的数据集和代码进行了公开，以进一步在这个方向进行研究。

今后，作者可以将作者的工作扩展到包括产生合理证据以提高对驾驶上下文的理解的常识推理方法。这种方法需要在作者驾驶的环境的实时多种操作条件下进行大量验证。

结论

自动驾驶车辆的广泛部署要求它们能够在多种驾驶环境，包括不同的天气、光照、交通和道路条件下运行。在本文中，作者提出了一种名为ContextVLM的方法，该方法使用视觉-语言模型来识别自动驾驶车辆的环境和驾驶上下文。这种方法与传统用于检测特定驾驶上下文（如雨和夜间）的完全监督方法不同，后者在处理大量上下文时无法很好地扩展。此外，作者还创建了一个名为DrivingContexts的大型数据集，包含超过68,000张图片，总共有1.63百万个注释。

作者提出的 ContextVLM模型在未见数据上通过在整体DrivingContexts数据集上进行少量样本训练，达到了超过95%的准确率，验证了作者方法的有效性。

此外，仅需要从数据集中取出64个示例，就能在未见数据上显著提高F1分数超过10%，显示了作者工作对新驾驶上下文的适用性。

另外，作者实现了每个查询仅10.5毫秒的低延迟，使得可以在CMU自动驾驶车辆上的GPU上实时运行ContextVLM。作者将数据集和代码公开，以供进一步研究。

未来，作者的工作可以扩展到包含常识推理方法，这些方法生成理由以提高对驾驶上下文的理解。该方法还需要在各种操作条件下进行广泛的实时验证。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-09-18，如有侵权请联系 cloudcommunity@tencent.com 删除

自动驾驶

本文分享自 AIGC 先锋科技微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度