首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >CVPR 2026 Oral | Texvent:基于文本的异步事件数据生成

CVPR 2026 Oral | Texvent:基于文本的异步事件数据生成

作者头像
Amusi
发布2026-05-29 14:07:55
发布2026-05-29 14:07:55
390
举报
文章被收录于专栏:CVerCVer

转载自:HKBU计算机系

香港浸会大学计算机系博士生汪若飞及其导师万人杰教授、北京大学段沛奇博士、施柏鑫教授、以及NVIDIA AI Technology Center 張家俊博士和Simon See博士合作完成的最新研究成果“Texvent: Asynchronous Event Data Simulation via Text Prompt”近日被计算机视觉领域顶级国际会议CVPR2026收录为Oral论文。

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域的顶级会议之一,每年举办一次。CVPR26将于2026年6月3日至7日在将在美国丹佛举办。本届会议共收到有效投稿16092篇,录用4090篇论文,其中141篇入选oral展示。

Have a quick look!

由ChatGPT Image 2.0生成, 可能与原文存在略微差异。

摘 要

当前的事件模拟方法主要集中于利用视频数据来合成新的事件数据,但视频采集成本较高,且在视角、运动和光照等不同方面扩展性有限。为此,我们提出了一种文本到事件的模拟框架(Texvent),该框架能够直接从简单的文本提示生成异步事件数据。Texvnt首先通过多模态大型语言模型渲染提示词驱动的视频,然后应用一个新提出的物理模拟器生成事件流。具体而言,本文提出了一种自适应的亮度感知帧插值方法,以提高渲染视频的时间分辨率。此外,我们还在模拟器中引入了平衡对数强度比较策略和基于缓存的电压刷新机制来生成事件数据。为了缩小模拟与真实之间的差距,我们还引入了背景活动噪声注入和密集时间戳重建操作。大量实验证明了 Texvent 卓越的计算效率和生成能力。

背 景 与 动 机

事件相机是一种仿生视觉传感器,与传统相机相比,在时间延迟、功耗和动态范围方面展现出显著优势。这些优势使得基于事件的学习成为各种视觉任务中一种重要的方法。然而,大规模事件数据集的收集困难限制了基于事件的探索,因此迫切需要事件模拟。事件模拟是一种生成合成事件数据的技术,无需使用物理事件相机。这种技术能够将非事件数据集重新用于基于事件的下游探索。

目前,大多数方法都侧重于视频到事件的模拟(video-to-event, V2E),因为连续的视频帧有助于确定像素亮度变化,而像素亮度变化是事件激活的先决条件。然而,这些方法受到以下限制:视频采集成本高昂,且在不同视角、运动和光照条件下可扩展性有限。为此,文本到事件的模拟就被提了出来 (text-to-event, T2E),该方法可在简单的文本提示指导下生成事件数据。现有的方法仍然需要构建大量的文本事件对语料库去训练模型,这限制了其通用性。一种无需训练且具有通用模拟能力的 T2E 方法(如图1)是更符合实际应用的,因为它可以减少昂贵的数据收集成本,并有能够快速的应用于新领域。

图 1 可视化结果。从左到右依次为:取自 NT-ImageNet 数据集的真实图像-事件对、序列事件流以及Texvent 生成的单帧图像。Texvent 可以生成异步、稀疏且高分辨率的事件,并具有平滑的过渡和丰富的背景。蓝色红色分别表示正事件和负事件。

方 法

尽管在视频生成器之后级联一个现有的V2E模拟器也可以合成新的事件数据。但这中方案存在两个问题:1)效率低下,帧插值过程中的冗余的双向光流估计;2)保真度低,真实事件数据和模拟数据之间的差异建模不对齐,限制了基于这些数据训练的模型的泛化能力和可靠性。为此,本文提出了一种无需训练的文本到事件模拟方法(Texvent),该方法仅需文本提示即可实现通用事件数据模拟 (如图2所示)。所提出的架构主要包括高帧率视频生成和高效的事件数据模拟。对于高帧率视频生成,本方法采用了一种亮度感知插值方法,该方法最大限度地减少了冗余帧插值,从而确保了效率。为了提高模拟的保真度,本文提出了一种新的事件模拟器,该模拟器配备了平衡对数强度比较策略和基于缓存的电压刷新机制。这些单元分别旨在解决低光照和高光照条件下事件激活灵敏度不平衡的问题,并减少因频繁的参考亮度更新而导致的事件丢失。通过这些改进,Texvent 能够实现高保真度的事件数据模拟,有效支持基于事件的下游任务。

图 2 Texvent框架图, 包括高帧率视频生成和事件模拟(Eq. 3、Eq. 4)。在计算事件帧(E.F.)的过程中,本文引入亮度缓存来存储尚未激活事件数据的坐标处的亮度值。这些值在后续事件帧生成中仍作为参考亮度值(Eq. 5)。该缓存会定期重置为零,以避免在长期事件模拟中产生虚假事件。注入背景噪声(Eq. 6)后,计算每个坐标处的亮度变化率(V.R.)以重建密集时间戳(Eq. 7)。

主 要 实 验 结 果

为了评估各种事件模拟器,在实验中我们使用了视频到事件的数据集:ECD 和DSEC。此外,我们还收集了一个文本-事件对数据集:NT-ImageNet,以测试我们方法在文本到事件模拟方面的性能。具体来说,事件流直接采样自N-ImageNet的验证集。然后,我们从ImageNet 数据集中采样相应的图像,并使用 LLaVA-v1.5-13B 和文本提示:“Caption the image in detail.” 来生成文本提示。对比方法包括几种现有的视频到事件方法:VID2E、V2E、V2CE、DVS-Voltmeter和 SENPI。对于视频生成器,我们测试了多种多模态大型语言模型,包括 Cosmos、Wan、Open-Sora和 CogVideoX。图像重建方法包括E2VID、HyperE2VID 和 ETNet。三种评估策略被应用于评价我们的方法。在帧级评估中,我们测试了事件到视频重建结果的图像指标:PSNR、SSIM、LPIPS和MSE。在事件级评估中,我们使用事件质量评分(event quality score, EQS)。在应用级评估中,我们在下游任务(例如,目标识别、图像重建、深度估计等)上测试了模拟事件数据,以验证其在各种基于事件的模型中的实用性。

表1显示了对事件帧 (E.F.) / 重建图像 (R.I.) 的定量评估,评估指标包括均方误差 (MSE)、结构相似性 (SSIM) 和校准感知损失 (LPIPS)。最佳和次佳得分以粗体和下划线突出显示。

表1定量评估了不同模拟器的事件帧和重建图像,评估指标包括均方误差(MSE)、结构相似性指数(SSIM)和校准感知损失(LPIPS)。对于事件帧,Texvent取得了最佳的MSE(0.045)和具有竞争力的SSIM(0.488),同时保持了最低的LPIPS值(0.339),表明其事件模拟质量很高。对于重建图像,本文方法表现出均衡的性能,拥有最高的SSIM(0.472)和最佳的LPIPS值(0.296)。DVS-Voltmeter 实现了最低的MSE(0.096),比我们的模拟器略好,0.02。这些结果验证了我们的方法不仅能够生成准确的事件数据,还能确保高保真度的图像重建,优于现有方法。

图3:事件帧及其对应的重建图像的可视化结果。采用 E2VID 将事件数据转换为图像。蓝色红色分别表示正事件和负事件。

图3展示了事件帧及其对应的重建图像的可视化结果。我们将Texvent与 VID2E、V2E、V2CE、DVS-Voltmeter和 SENPI 在 ECD 和 DSEC数据集上进行了比较。VID2E和V2E生成的事件相对稀疏,事件分布中存在明显的间隙。V2CE生成的事件时间分辨率较低,导致一些事件在运动过程中丢失,SENPI 也存在同样的问题。DVS-Voltmeter显示出分散的噪声状模式,破坏了自然的事件分布。相比之下,我们的模拟器生成的事件模式更接近真实值 (GT),具有均衡的密度和清晰的物体边界。就模拟数据的保真度而言,重建层面上,我们的方法优于其他对比基线方法。V2E重建图像出现了一些模糊和细节丢失。

图 4 真实数据(第一行)和模拟数据(第二行)的对比。事件视频采集系统由DAVIS346传感器和RGB摄像机(480p,30fps)组成,具体参见正文。蓝色红色分别代表正事件和负事件。

为了在实际场景中验证Texvent,我们搭建了一个数据采集系统(DAVIS346传感器+RGB摄像头)。RGB摄像头拍摄的视频直接输入到我们的模拟器中,生成合成事件。该实验装置使我们能够在实际条件下直接评估模拟事件与真实事件数据的吻合度。如图4所示,我们观察到模拟事件在时间动态和空间分布特征方面与真实事件数据高度吻合。这一实际验证证明了我们模拟方法的实用性和可靠性。

图5校正的事件和模拟事件数据的深度图。

图5展示了校正事件帧和深度估计图, 用于评估了各种模拟事件数据的质量。总体而言,Texvent 的性能优于其他基线方法。校正事件最清晰、对齐最锐利,重影最小。深度图平滑,同时保留了场景结构,近远分离清晰。V2CE 紧随其后,显示出相当清晰的校正事件和连贯的深度图,但边缘处存在更多稀疏性和少量伪影。这是由于其分辨率较低造成的。VID2E 和 V2E 在校正事件中表现出明显的错位(双边、细节缺失),深度图中存在条纹和空洞。DVS-Voltmeter 得到的矫正事件噪声较大,深度图粗糙。SENPI 的性能居中,恢复了一些结构,但校正事件中存在残余重影,深度图中存在块状伪影。

总 结 与 展 望

本文介绍了一种新的文本到事件模拟框架Texvent,该框架利用了多模态大型语言模型来实现文本到事件的映射。我们的方法无需训练,并在视频到事件模拟中展现出高效性和准确性。此外,所提出的事件模拟器被开发为一个即插即用的模块,可以轻松兼容不同的视频生成模型和标准摄像机。本文还收集了一个新的文本-事件对数据集,用于评估文本到事件模拟器。在各种数据集和真实场景上的综合实验有效地展示了本文方法的优势。

作 者 简 介

汪若飞

香港浸会大学计算机科学系博士生,研究方向为神经形态视觉,数字水印,后门攻击。

万人杰

香港浸会大学计算机科学系助理教授。主要研究方向包括计算摄影、3D 视觉和AI 安全。他的研究成果已在多个顶级期刊和会议上发表,如 TPAMI、IJCV、TIP、CVPR、ICCV 和ECCV。他是ICCV 2019 杰出审稿人和VCIP 2020 最佳论文奖的获得者

本文系学术转载,如有侵权,请联系CVer小助手删文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档