首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文精读 | 2024 [arXiv] LLMLight:大语言模型作为交通信号灯控制智能体

论文精读 | 2024 [arXiv] LLMLight:大语言模型作为交通信号灯控制智能体

作者头像
时空探索之旅
发布2024-11-19 16:06:22
发布2024-11-19 16:06:22
6040
举报
文章被收录于专栏:时空探索之旅时空探索之旅

作者:请听我说@知乎 原文链接:https://zhuanlan.zhihu.com/p/677275905 阅读原文跳转作者文章链接

最近LLM-based Agent成为了LLM一个重要的应用方向,本文是LLM在交通信号控制任务中的应用。

题目:LLMLight: Large Language Models as Traffic Signal Control Agents

作者:Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu, Hui Xiong

机构:香港科技大学(广州)

网址:https://arxiv.org/abs/2312.16044

代码:https://github.com/usail-hkust/LLMTSCS/

摘要

现存方法问题存在可迁移性差可解释性差的问题。本文提出LLMLight,使用LLM进行TSC任务。该框架将任务描述、当前交通状况和先验知识整合到Prompt中。然后使用LLM的思维链推理能力,给出当前信号灯的下一个相位,保证最优效率。LLMLight取得SOTA。

介绍

当前基于传统启发式算法的TSC方法问题:

  • 严重依赖人工设计,需要大量人力。

基于RL方法的问题:

  • 泛化能力差,在某些极端情况下,可能训练数据不被包含。

本文旨在利用LLM作为Agent,在交通信号控制任务中进行决策。首先在时间步中,将任务描述和交通状况组成Prompt。然后,让LLM Agent进行Zero-shot的思维链推理,以生成最优控制策略。为进一步提高生成策略的性能,还将先验知识加入提示,以指导LLM进行更复杂的决策。

LLMLight

在不同交通场景下对不同的变量进行实验,得出以下发现:

  • LLM在没有任何展示的提示下,能够提供有效的控制策略,并在交通信号控制任务中进行详细的解释;
  • LLM具有显著的泛化能力,在两个不同的道路网络和七个交通流数据集、不同交通流量以及极端交通条件下一致地获得最先进的或可比较的结果;
  • 利用先验知识构造Prompt能够有效提升生成策略质量,同时也表明预先训练的LLM缺乏智能交通管理方面的专业知识。

本文贡献:

  • 设计了LLMLight框架,将LLM整合进交通信号控制任务中,并在多场景上取得SOTA。
  • 对LLM在不同交通条件和不同Prompt下的控制策略进行了广泛的分析,强调了在交通信号控制任务中使用LLM的优势和局限性。
  • 确定了未来研究的有前景的途径,通过进一步整合该领域的低成本管理知识来推进智能交通的潜力。

理论基础

路网结构及信号相位设计

路网结构及信号相位设计如上图。

基于LLM的TSC任务

定义

\pi_i=LLM(Prompt(\mathcal{O}_i,\mathcal{A},\mathcal{D}))

其中

\mathcal{O}_i

是第

i

个路口当前交通状态的观测,

\mathcal{A}

是动作空间,

\mathcal{D}

是相关任务说明。

观测收集

观测包括:

  • 排队车辆数
  • 排队车辆平均等待时间
  • 运动车辆数
  • 运动车辆平均速度

这些特征都被列为文本信息并作为观测输入到LLM中。

Prompt生成

Prompt生成

Prompt中包含交通场景描述、任务描述、动作空间和先验知识。

  • 基础模板:包括场景、任务、动作空间描述、观测等信息;
  • 常识信息模板:提供基于常识的信息,用于指导LLM对排队车辆优先顺序。
  • 交通流协调提示:该级别不仅要求LLM要优化驶入车道的交通状况,还要防止驶出车道出现拥堵。
  • 预测等待时间进行指导:提出了一种结构化思维方法来支持LLM,促使LLM预测未来的累计排队时间。这包括某些车道在后续阶段不允许通过路口可能出现的延误进行假设分析。这一方法可以缓解未来出现交通拥堵的潜在可能。

动作执行

进行动作执行通过LLM直接输出动作或利用Python编写控制函数实现:

  • 输出动作:直接给出所选动作。
  • 输出策略函数(PAL做法):在Python中实现控制策略,将数学计算过程从LLM中剥离,LLM专注于逻辑策略生成。

实验

  • RQ1:LLMLight在Zero-shot推理情况下,相比于传统交通方法和RL方法的性能比较?
  • RQ2:LLMLight在多城市、多交通量的泛化能力?
  • RQ3:LLMLight在TSC任务中的可解释性?

实验设置

  • 数据集:杭州、济南
  • 模拟环境:CityFlow
  • 评价指标:平均行驶时间(ATT)、平均排队长度(AQL)、平均等待时间(AWT)

性能比较(RQ1)

整体性能比较

泛化能力(RQ2)

  • 可迁移性

其中不带-T的是非迁移方法。

  • 可扩展性

应用在路网规模更大的纽约(New York)数据集上

Scalability

  • 极限高交通流场景: 作者在杭州和济南数据集上生成了两个合成数据集,其中300秒间隔内到达的车辆数约为原始流量数据集的4倍。测试模型在杭州1和济南1上训练,在该合成数据集上测试。RL模型性能出现下降,难以处理极限场景。 在不常见场景(相当大车流连续出现在路口)下进行测试。

Extreme High-traffic Scenarios

Extreme High-traffic Scenarios

可解释性(RQ3)

Interpretability of LLMLight

Demo

未来展望

  • LLM增强的RL:实验表明LLM能够利用自然语言信息处理TSC任务。可将LLM整合到基于RL的TSC任务中,如特征工程、奖励工程。
  • 多路口TSC任务:本文未考虑多智能体相互作用,可探索多路口协作、Agent通信以及其他Agent的行为预测。
  • 基于LLM-Agent的TSC任务:实验揭示了LLM的局限性,即其缺乏TSC任务的专业知识。可整合交通管理知识、外部API(计算器、天气等)自主感知、分析和控制交通状态。

如果觉得有帮助还请分享,在看,点赞

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 介绍
  • 理论基础
  • 基于LLM的TSC任务
    • 定义
    • 观测收集
    • Prompt生成
    • 动作执行
  • 实验
    • 实验设置
    • 性能比较(RQ1)
    • 泛化能力(RQ2)
    • 可解释性(RQ3)
  • 未来展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档