首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Traffic-R1:让红绿灯也会“思考”的通用信控大模型

Traffic-R1:让红绿灯也会“思考”的通用信控大模型

作者头像
时空探索之旅
发布2025-10-11 13:44:03
发布2025-10-11 13:44:03
1720
举报
文章被收录于专栏:时空探索之旅时空探索之旅

论文标题:Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Control Systems

作者:Xingchen Zou,Yuhao Yang,Zheng Chen,Xixuan Hao, Yiqi Chen, Chao Huang , Yuxuan Liang

关键词:LLM,强化学习,智能交通,信控优化

机构:香港科技大学(广州),香港大学,佳都科技

论文链接https://arxiv.org/abs/2508.02344

点击文末阅读原文跳转本文arXiv链接

引言

你是否想过,如果红绿灯能够像人一样思考,是否还能让城市交通更顺畅?

你是否想过,当车流激增、突发事件频发时,AI 是否能替代人工执勤,实时做出高效又合理的信号控制决策?

基于这一愿景,香港科技大学(广州)联合佳都科技与香港大学的研究者们推出了全新的交通控制智能体——Traffic-R1。该模型无需额外训练,即可快速适应新路网与突发事件;仅需要3B参数规模,在多项交通任务中展现出卓越性能,不仅超越了现有最先进大模型(如 DeepSeek-R1-671B 与 GPT-4o),更全面领先传统规则模型和强化学习方法,为通用交通信控开辟了新的路径。目前,Traffic-R1 已在 Hugging Face 平台开源(https://huggingface.co/Season998/Traffic-R1),并引发海外关注,相关报道浏览量已突破 10 万次。

相关报道
相关报道

相关报道

该研究采用最先进的大模型强化学习微调训练范式,使模型通过语言为载体在交通环境中探索信号控制的最优策略,并将经验更新到模型内部参数中,在推理阶段通过文本形式展现推理过程和最终决策。研究通过离线与在线双阶段强化学习,引导大模型在交通信号控制任务中自主探索、推理和迭代,展现出强大的信控能力和“类人思考”能力。这套方法将大模型的语言通用能力与在强化学习中迭代的交通决策能力结合,实现跨路网、跨场景的zero-shot性能及模型对现实交通管理逻辑的泛化理解。

该模型不仅在信控效果和适用场景上完全兼容并取代传统信控规则模型和专家模型,还具备可解释、突发路况处理、优先放行紧急车辆及跨路况通信等先进能力,能够在真实场景中代替路口执勤人员做出参考决策,在城市场景的信控优化中发挥真正价值,

研究者们在文章中全面讨论了现有工作和真实信控部署之间的壁垒,并通过Traffic-R1的六大技术亮点正面回应了信控通用大模型需要解决的核心问题:

  1. 零样本推理:无成本的部署到任意路况/路网不需要额外的数据和训练微调。
  2. 意外事件处理:通过大模型的逻辑能力对交通意外事件做出合理和及时的信控方案调整。
  3. 高效率:仅3B的模型总参数量,支持移动级芯片部署,大幅降低计算资源需求。
  4. 极致性能:在多个通用的学术数据集上均取得最优结果。
  5. 可解释性:模型的思考和决策实时生成,所见即所得。
  6. 多路口协调:模型应该能像人类专家一样在相关路口间传送信息,实现高效联动。
descript
descript

Traffic-R1的突破性创新

两阶段RL微调引擎:Traffic-R1设计了数据生成与优化pipeline,通过专家协作数据集和模拟环境,让LLM自探索注入迭代出交通信号灯控制能力。这套引擎使模型获得卓越泛化性能,能从容应对多路网场景,展现出非凡的自适应能力,为实现通用型交通智能体奠定基础。

两阶段RL微调引擎
两阶段RL微调引擎

两阶段RL微调引擎

异步通信网络:为实现高效协调,Traffic-R1创新融合多智能体消息传递机制。通过奇偶分组异步机制,模型像人类专家般彼此发送协调信息,实现绿波同步和联动紧急响应,尤其适合复杂城市路网。

异步通信网络
异步通信网络

异步通信网络

全面性能测评:Traffic-R1同时在在学术数据集评测和真实场景部署对比实验中展现技术优势,刷新多项基准记录。在零样本TSC基准中,远超现有RL模型和DeepSeek大模型。在真实场景部署测试之后,Traffic-R1取得了优秀的优化成果并显著降低了路口监控和方案制定的人力成本。

研究细节

随着城市交通系统的数字化深化,信控智能体正重塑城市流动方式。一个完整信控智能体包括规划决策和信号执行两大阶段。在规划阶段,智能体分析路况制定策略;在执行阶段,将策略映射到相位选择,确保高效流动。

尽管LLMLight[1]等基于指令微调的信控大模型在指定路况理解和优化方面进步显著,但如何实现泛化、可解释的决策仍面临挑战。这些挑战主要在三个层面:1. 跨路网兼容:不同城市布局差异大,要求模型强适应;2. 事件多样性:真实路口突发场景变化多端,考验推理能力;3. 动态复杂性:多路口协调充满不确定,对实时响应要求高。这些挑战推动TSC技术的创新,也为更智能的交通解决方案指明方向。

青出于蓝胜于蓝:两阶段强化学习助力大模型模型理解交通

在开发Traffic-R1中,研究者剖析传统交通强化学习模型困境:传统基于模拟环境训练智能体的方法过度关注整体优化结果,而忽略了动作在真实实时局部决策时的合理性。在真实场景中,执勤人员往往依赖经验和逻辑对个别路口进行即时优化,而非严格全局最优,从而与传统RL决策存在偏差。这些偏差动作在训练LLM时,会误导模型产生幻觉和伪思考,最终制约跨场景表现。

针对此,Traffic-R1提出人类经验驱动的离线强化学习方案。通过自动化pipeline,打造高质专家协作QA数据集。Traffic-R1数据标注pipeline含两个关键步骤:Step1:交通观察生成,采用SUMO模拟器生成多样路口路况,并以文本形式收集描述。Step2:通过DeepSeek-R1生成建议动作,再经人类专家交叉验证,确保合理性。研究招募多名交通专家审阅,提供基于当前情景的正确动作,构建3000高质样本,为训练提供坚实基础。随后,基于专家数据集,通过离线GRPO优化,结合动作准确和格式奖励,促进模型学习专家建议并自思考。

专家协作数据集构建流程
专家协作数据集构建流程

专家协作数据集构建流程

模型在专家数据集上迭代获得基本能力后,为进一步实现“超越专家”效果,研究设计开放世界RL阶段。使用CityFlow模拟4x4路网,随机生成多达8000车辆流量。模型在模拟的多样和实时更新的交通流环境中自由探索多步交互,通过STPO基于队列长度/等待时间奖励迭代优化内部算法,降低计算需求,提供稠密奖励。同时,通过KL散度限制参数更新,避免模型对单一环境和任务过拟合,确保泛化能力和通用语言能力。凭借此架构,Traffic-R1实现突破:超越所有方法的信控能力,支持多路网泛化、灵活布局适配,在动态环境中展现强任务能力和适应性。

信控任务全面测评

研究者首先在公共数据集上评估Traffic-R1的零样本信控能力。测试数据集包括Jinan和Hangzhou流量数据,模型仅在内部训练数据集上训练,直接在测试数据集上进行零样本评估。同时,研究者基于真实交通执勤记录整理了大量路口突发事件及应对方式,如行人闯入车道、救护车通行、校园放学等,并将这些事件随机融入常规车流数据,测试模型是否能通过逻辑推理正确响应突发事件。

在常规数据集信控能力测试中,Traffic-R1表现最佳,车辆ATT(平均通行时间)/AWT(平均等待时间)指标领先基线。相较传统强化学习模型,Traffic-R1突破迁移性瓶颈,展现超强跨数据集泛化能力。其通过自迭代生成的交通控制经验和场景理解进行信控,类似人类专家,能稳定迁移至任意数据集和场景,保持优异性能。在突发事件应对测试中,模型需在未见过的突发事件上进行推理,权衡当前交通状况与事件优先级,基于信控相位理解做出正确响应。Traffic-R1以仅3B参数量,取得优异结果,EAA(突发事件响应准确率)达0.85,仅次于DeepSeek-R1(671B)和Qwen2.5(72B)模型。

城市场景真实部署测试

依托于佳都科技的信控平台,佳都路口雷视感应设备,Traffic-R1在真实城市路网中的10个相邻进行了内测部署,每日服务超55,000名司机。这些路口位于商业区,覆盖东南西北四个方向,路口间距600-800米,单路口日高峰车流量达21,000辆,交通负荷极高。相比模拟环境,真实路口每方向车道更多,研究者通过合并同向车道简化输入和推理复杂性。同时真实部署应该考虑早晚高峰时段的相位变化和额外的行人通行相位,这对模型信控通用能力提出更高要求。考虑到城市交通安全监管要求,研究者们为真实部署Traffic设计了在线与离线结合的调度框架。在线感知系统提供实时路况,离线专家验证确保决策安全性,平衡效率与可靠性。

在线和离线调度框架
在线和离线调度框架

在线和离线调度框架

在真实场景的并行试验中,Traffic-R1展现卓越实测性能:队列缩短:平均队列长度减少超5%。工作量减轻:操作员相位规划和事件响应工作量降低超50%。泛化能力:零样本应对高峰和突发事件,异步通信网络支持绿波同步和紧急车辆优先通行。

结语

Traffic-R1的突破性进展为“类人”交通信号控制开辟了新篇章。通过强化学习与大模型的深度融合,Traffic-R1以仅3B参数实现零样本泛化、可解释决策和高效部署,超越传统RL与大型LLM基线,在学术基准和真实城市路网中均展现卓越性能。其自迭代推理与异步通信网络模拟人类专家的逻辑与协作能力,不仅能应对复杂路况与突发事件,还显著降低人力成本,为城市交通管理注入智能化新动能。未来,随着数据与场景的进一步扩展,Traffic-R1以及背后的技术路线有望实现通用信控基础模型,助力全球城市迈向更高效、可持续的交通未来。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • Traffic-R1的突破性创新
  • 研究细节
    • 青出于蓝胜于蓝:两阶段强化学习助力大模型模型理解交通
    • 信控任务全面测评
    • 城市场景真实部署测试
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档