前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >犀牛鸟硬核 | CVPR 2023腾讯部分入选论文报告视频

犀牛鸟硬核 | CVPR 2023腾讯部分入选论文报告视频

作者头像
腾讯高校合作
发布2023-08-08 08:49:54
8380
发布2023-08-08 08:49:54
举报
文章被收录于专栏:腾讯高校合作

CVPR 2023(The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023,国际计算机视觉与模式识别会议)于6月18日-22日在加拿大温哥华召开。

本文以腾讯产学科研合作项目产出论文为主,收集了CVPR2023腾讯部分入选论文的报告视频,涉及三维计算机视觉、图像及三维内容生成、多模态预训练、人脸识别、目标检测等研究领域,希望有助于读者了解相关领域研究进展。

三维计算机视觉

1. High-Fidelity Clothed Avatar Reconstruction from a Single Image

产学科研合作项目团队:中国科学院自动化研究所雷震团队、腾讯AI Lab

报告嘉宾:朱翔昱,中国科学院自动化研究所模式识别国家重点实验室副研究员。长期从事三维人脸/人体重建、人脸识别、可解释神经网络等方面的相关理论研究与应用。

论文摘要:本文提出了一个高效的三维可动人型(avatar)重建框架。通过结合优化方法的高精度和学习方法的高效率,提出了一种从粗到细的方法来实现从单一图像到高保真的可动人形的重建方法。具体来说,在第一阶段,通过一个隐式模型以基于学习的方式学习人在标准姿态空间中的人体形状。在第二阶段,以优化的方式通过估计非刚性形变来细化表面细节。其中,一个超网络被用来为重建网络生成一个良好的初始化,大大加快了优化过程的收敛。在各种数据集上进行的大量实验表明,所提出的方法成功重建了高保真可动人型。

(点击上方图片查看论文报告视频)

2.HRDFuse: Monocular 360°Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions

产学科研合作项目团队:香港科技大学 (广州)王林教授团队、腾讯PCG ARC Lab

报告嘉宾:王林,香港科技大学(广州)人工智能学域助理教授及香港科技大学计算机系联署助理教授,并同时担任人工智能学域本科事务主任。王老师博士毕业于韩国科学技术院(KAIST, QS Top 40) 人工智能专业并留校开展博士后研究。王老师主要学术研究方向为基于生物感知驱动的机器视觉、三维视觉、智能系统(XR,机器人)、视觉与人机交互等。近三年在视觉、机器人、人机交互等期刊会议发表高质量论文30余篇,部分研究成果用于工业领域。担任视觉、机器人、人机交互等会议及期刊 CVPR, IEEE TPAMI, IEEE RA-L等程序委员会委员,并任深圳锐思科技专家顾问、广州市元宇宙专家库成员、云从科技项目评审专家库成员等。曾获KAIST博士最高博士研究成果奖、CCF-腾讯犀牛鸟基金学者等荣誉。

论文摘要:由于360° 图像对场景的整体感知,单目 360° 图像的深度估计是一个很受关注的问题。最近,一些方法,例如 OmniFusion,已经应用切线投影 (TP) 来表示 360° 图像并通过 回归预测每一张切线投影切片的深度值,合并这些切片的深度值以获得等距柱状投影 (ERP) 格式的深度图。然而,这些方法存在以下问题:1)合并大量补丁的过程复杂并且困难;2)通过直接回归每个像素的深度值并不能很好的捕捉全面和区域协同的上下文信息。在本文中,我们提出了一个新颖的框架 HRDFuse,它巧妙地结合了卷积神经网络 (CNN) 和转换器的潜力,并通过协同学习分析来自 ERP 的整体上下文信息和来自 TP 的区域结构信息。首先,我们提出了一个空间特征对齐 (SFA) 模块,该模块学习 TP 和 ERP 之间的特征相似性,以将 TP 特征以像素方式聚合成完整的 ERP 特征图。其次,我们提出了一个协作深度分布分类 (CDDC) 模块,该模块学习 ERP 和 TP 深度分布的整体区域直方图,并直方图分布中心的线性组合因此来预测最终的深度值。最后,我们自适应地结合来自 ERP 和 TP 的深度预测以获得最终的深度图。大量实验表明,我们的方法可以预测更平滑和准确的深度结果,同时取得比 SOTA 方法更好的结果。

(点击上方图片查看论文报告视频)

3.NeAT: Learning Neural Implicit Surfaces With Arbitrary Topologies From Multi-View Images

报告嘉宾:孟晓旭,腾讯游戏研发效能部数字内容技术中心研究员。2015年本科毕业于上海交通大学,2020年于美国马里兰大学帕克分校获得博士学位。主要研究方向为可微分渲染,注视点渲染,光线追踪的渲染与降噪。

论文摘要:神经辐射场结合可微分渲染可以说是当前最流行的三维重建方法,然而当前的可微分渲染方法只支持重建闭合曲面(表面紧凑且没有边界的表面,如球体),不支持重建开放曲面(具有开放边界的表面,如服装、纸张、植物叶片)。因此,各类游戏场景中常见的植物叶片、花朵,以及游戏人物身上的服装等等含有开放曲面的三维模型无法直接通过可微分渲染进行重建,只能依赖手工建模。手工建模增加了游戏内容制作的时间成本和人力成本,为游戏开发带来大量额外开销。来自腾讯数字内容技术中心的研究者们提出了一种创新的可微分渲染管线,支持从多视角图片重建的任意隐式曲面,并支持快速导出高质量三维模型。

(点击上方图片查看论文报告视频)

4. PanelNet_Understanding 360 Indoor Environment via Panel Representation

报告嘉宾:Haozheng Yu, 腾讯多媒体实验室实习生,明尼苏达大学,研究领域为三维重建,深度学习,计算机视觉。

论文摘要:室内 360 度全景图像具有两个基本属性:(1) 全景图在水平方向上是连续且无缝的;(2)重力对于室内环境的设计至关重要。基于这些属性,我们提出了PanelNet,一个通过新颖的360 度全景图像的面板表示方法进行室内环境理解的框架。我们将全景图表示为连续的纵向面板以及相应的三维几何坐标。为了减小全景图畸变带来的负面影响,我们引入了一个面板几何嵌入网络。该网络能够编码面板的局部和全局几何特征。为了捕捉室内设计中的几何上下文关系,我们设计了Local2Global Transformer, 它能够聚合面板内的局部信息以及面板之间的全局上下文信息,并以较小的训练开销极大地提升了模型的性能。我们的方法在室内深度估计任务中展现出了优于现有方法的性能,并且在室内布局估计以及语义分割任务中也展现出了与最优方法相比富有竞争力的结果。

(点击上方图片查看论文报告视频)

图像及三维内容生成

5. LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation

产学科研合作项目团队:浙江大学李玺教授团队、腾讯PCG ARC Lab

报告嘉宾:李玺,浙江大学求是特聘教授,IET Fellow,IEEE Senior Member,国家杰青,科技部科技创新2030新一代人工智能重大项目负责人,国家自然科学基金委联合基金重点项目负责人,教育部重点规划研究项目负责人,第七届中国图象图形学学会理事。在国际权威期刊和顶级会议发表或录用文章180余篇,拥有多篇ESI高被引论文。担任CVPR、ICCV、ECCV、ACM Multimedia等国际顶级会议的Area Chair,担任IEEE TNNLS、IEEE TCSVT、IEEE TMM和IEEE TCDS的Associate Editor,中国图形图像学报青年编委。获得2021年世界人工智能大会SAIL奖,一项最佳学生论文奖,2019年和2020年中国图象图形学报最佳封面文章和年度优秀论文,ICIP 2015 Top 10%论文奖,华为2022年度华为火花价值奖和2021年度优秀技术合作成果奖,2021年中国图象图形学学会自然科学奖二等奖,2021年中国电子学会科技进步一等奖,2021年中国产学研合作促进会产学研合作创新与促进奖。

论文摘要:近期,扩散模型在图像生成领域取得了巨大成功。但在生成图像对应由多个物体构成的复杂场景布局图时,如何对每个物体既施加较强布局图全局引导又对物体局部细节进行精准控制,仍是一项富有挑战性的任务。在本工作中,我们提出了一种LayoutDiffusion 扩散生成模型,它相比之前所有模型具有更好的图像生成质量和更强的可控性。在具体模块设计上,为了解决图像和布局图多模态融合的困难,我们将图像分为若干表征局部信息的结构图像块,并将结构图像块认为是一种特殊的布局,以统一的布局形式与布局图中的正常布局进行融合。此外,我们提出了对物体位置信息敏感的布局融合模块(LFM)和对象感知交叉注意力机制(OaCA),来建模多个物体之间的关系,以便精确控制物体之间的空间位置关系。在多个数据集上的实验表明,LayoutDiffusion 在 FID、CAS等指标上优于之前的最优模型,具体而言,在 COCO-stuff 上的FID、CAS分别为 46.35%、26.70%,在 VG 上分别为 44.29%、41.82%。

(点击上方图片查看论文报告视频)

人脸识别

6.Sibling-Attack:Rethinking Transferable Adversarial Attacks against Face Recognition

产学科研合作项目团队:加州大学河滨分校刘聪老师团队、腾讯优图实验室

报告嘉宾:尹邦杰,腾讯优图实验室计算机视觉研究员,主要研究方向为人脸安全,对抗攻防,视频编辑检测以及活体检测,目前在人脸识别对抗攻防领域发表多篇顶会文章,同时在视频人脸编辑检测和活体检测领域也发表了相关论文并支持了多个相关业务,发挥了重要的作用。

论文摘要:在人脸识别攻击领域,我们研发了高迁移性的黑盒攻击方法。传统方法都是通过多个人脸识别模型来联合生成高迁移性的对抗样本,经我们的探究发现,人脸属性识别模型和人脸识别模型联合生成的对抗样本具有更强的黑盒攻击迁移性。实验结果表明,本方法的攻击迁移成功率超过基本上所有的前沿黑盒迁移性攻击方法,特别是在目前的主流商用人脸识别平台上,攻击迁移性更佳。

(点击上方图片查看论文报告视频)

7.Instance-Aware Domain Generalization for Face Anti-Spoofing

产学科研合作项目团队:上海交通大学马利庄教授团队、腾讯优图实验室

报告嘉宾:张克越,腾讯优图实验室研究员,研究方向主要涵盖计算机视觉,深度学习,长期从事人脸活体检测方面的研究,推动活体检测技术在微信、手Q、微众银行等多个产品中应用落地,支持刷脸支付、人脸核身等场景,为用户刷脸提供安全保障。

论文摘要:基于域泛化(DG)的人脸活体检测(FAS)技术在近年来被广泛研究,用以提高人脸活体检测模型在未知场景的泛化性。现有的方法通常依赖域标签来对齐每个域的分布以学习域不变的特征表示。然而,这种人工定义的域标签是粗粒度且比较主观的,不能准确地反映真实的域分布。此外,这种域感知的域泛化方法主要关注不同域的对齐,而该种对齐方式不够细致,无法确保学习到的表征对域风格不敏感。为了解决这些问题,本文针对DG FAS任务提出了一个新的视角:通过在样本级别进行特征对齐,摆脱了对于域标签的依赖,从而实现域泛化活体检测。针对性地,本文提出了样本感知的域泛化人脸活体检测框架,通过弱化对样本风格敏感的特征来学习可泛化特征。具体而言,本文提出了非对称实例自适应白化算法消除对风格敏感的特征以增强泛化性。此外,本文提出了动态卷积核生成器和类别风格重组模块,首先提取样本特定的特征,然后生成具有较大风格偏移的多样化风格特征,以进一步促进对风格不敏感的特征的学习。大量的实验和分析证明了所提方法的有效性,并且在多个数据集取得领先结果。

(点击上方图片查看论文报告视频)

8.Rethinking the Learning Paradigm for Dynamic Facial Expression Recognition

产学科研合作项目团队:华东师范大学周爱民教授团队、腾讯优图实验室

报告嘉宾:王晗阳,腾讯优图实验室实习生,华东师范大学计算机科学与技术系,研究方向为情感计算。

论文摘要:动态面部表情识别(DFER)是一个快速发展的领域,专注于识别视频中的面部表情。之前的研究认为非目标帧是噪声帧,但我们提出应将其视为弱监督问题。我们还发现DFER中,短期和长期时间关系的不平衡。因此,我们引入了M3DFEL框架,利用多实例学习(MIL)处理不精确的标签。M3DFEL生成3D实例来建模强的短期时间关系,并利用3DCNN进行特征提取。然后利用动态长期实例聚合模块(DLIAM)学习长期时间关系并动态聚合实例。我们在DFEW和FERV39K数据集上的实验表明,M3DFEL在使用简单的R3D18骨干网络时优于现有的最先进方法。

(点击上方图片查看论文报告视频)

目标检测

9.Multimodal Industrial Anomaly Detection via Hybrid Fusion

产学科研合作项目团队:上海交通大学马利庄教授团队、腾讯优图实验室

报告嘉宾:彭瑾龙,腾讯优图高级研究员,有着多年计算机视觉领域的研究经验,主要研究方向为多目标跟踪、通用目标跟踪、视频跟踪分割、异常检测等,曾在CVPR/ECCV/NeurIPS/IJCAI等国际人工智能顶级会议上发表过多篇论文,多次刷新MOT Challenge记录,获得ACMMM2020 举办的HiEve多目标跟踪挑战赛冠军。

论文摘要:基于2D的工业异常检测已经被广泛研究,然而基于3D点云和RGB图像的多模态工业异常检测仍有许多未涉及的领域。现有的多模态工业异常检测方法直接连接多模态特征,这导致特征之间发生强干扰并损害检测性能。本文提出了一种新的多模态异常检测方法Multi-3D-Memory (M3DM),采用多模态融合方案:首先,我们设计了一种无监督特征融合方法,采用基于图像块的对比学习来促进不同模态特征之间的交互;其次,我们使用多个存储器库的决策层融合来避免信息丢失,并使用额外的分类器来做出最终决策。我们进一步提出了一种点特征对齐操作,以更好地对齐点云和RGB特征。大量的实验表明,我们的多模态工业异常检测模型在MVTec-3D AD数据集上的检测和分割精度均优于现有的最先进方法。

(点击上方图片查看论文报告视频)

10. MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection

报告嘉宾:刘亮,腾讯优图实验室算法研究员,2021年博士毕业于浙江大学,研究方向为工业视觉检测、图像语义分割等领域,在计算机视觉、人工智能顶级会议期刊发表论文20余篇,Google Scholar 引用数 600+。

论文摘要:实例间的尺度变化是目标检测中的一个关键挑战。虽然现代检测模型在处理尺度变化方面取得了显著进展,但在半监督情况下仍然存在问题。大多数现有的半监督目标检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签。然而,我们观察到具有极端尺度的目标往往具有较低的置信度,这使得这些目标的正向监督缺失。在本文中,我们深入探讨了尺度变化问题,并提出了一种新的框架,通过引入混合尺度教师来改进伪标签生成和尺度不变学习。此外,由于混合尺度特征的更好预测,我们提出利用跨尺度预测的分数的相对提升来挖掘伪标签。在不同的半监督设置下,对 MS COCO 和 PASCAL VOC 基准进行了大量实验,证明我们的方法实现了新的最先进性能。

(点击上方图片查看论文报告视频)

数据压缩

11. Efficient Hierarchical Entropy Model for Learned Point Cloud Compression

产学科研合作项目团队:北京大学李革教授团队、腾讯多媒体实验室

报告嘉宾:宋睿,北京大学,研究领域为点云压缩,深度学习。

论文摘要:精确的熵模型对于去除点云压缩中的冗余而言是非常重要的。基于八叉树的自回归式熵模型可以实现优秀的压缩性能。它使用自注意力机制建模大规模上下文中的依赖关系。然而,昂贵的自注意力运算和自回归式的上下文结构不能适应实际应用的需求。为了提升注意力模型的计算效率,我们提出了一种分层注意力结构。它的复杂度与上下文规模呈线性关系,同时仍然可以实现全局感受野。此外,我们提出了一种分组上下文结构。它解决了自回归式模型引起的串行编码问题,而且几乎不会引起压缩性能的损失。实验证明我们提出的模型实现了最先进的压缩性能,同时相较于大规模自回归式熵模型而言显著减少了解码时间。

(点击上方图片查看论文报告视频)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯高校合作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 4. PanelNet_Understanding 360 Indoor Environment via Panel Representation
  • 5. LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
  • 产学科研合作项目团队:浙江大学李玺教授团队、腾讯PCG ARC Lab
  • 报告嘉宾:李玺,浙江大学求是特聘教授,IET Fellow,IEEE Senior Member,国家杰青,科技部科技创新2030新一代人工智能重大项目负责人,国家自然科学基金委联合基金重点项目负责人,教育部重点规划研究项目负责人,第七届中国图象图形学学会理事。在国际权威期刊和顶级会议发表或录用文章180余篇,拥有多篇ESI高被引论文。担任CVPR、ICCV、ECCV、ACM Multimedia等国际顶级会议的Area Chair,担任IEEE TNNLS、IEEE TCSVT、IEEE TMM和IEEE TCDS的Associate Editor,中国图形图像学报青年编委。获得2021年世界人工智能大会SAIL奖,一项最佳学生论文奖,2019年和2020年中国图象图形学报最佳封面文章和年度优秀论文,ICIP 2015 Top 10%论文奖,华为2022年度华为火花价值奖和2021年度优秀技术合作成果奖,2021年中国图象图形学学会自然科学奖二等奖,2021年中国电子学会科技进步一等奖,2021年中国产学研合作促进会产学研合作创新与促进奖。
  • 6.Sibling-Attack:Rethinking Transferable Adversarial Attacks against Face Recognition
  • 7.Instance-Aware Domain Generalization for Face Anti-Spoofing
  • 产学科研合作项目团队:上海交通大学马利庄教授团队、腾讯优图实验室
  • 8.Rethinking the Learning Paradigm for Dynamic Facial Expression Recognition
  • 产学科研合作项目团队:华东师范大学周爱民教授团队、腾讯优图实验室
  • 9.Multimodal Industrial Anomaly Detection via Hybrid Fusion
  • 产学科研合作项目团队:上海交通大学马利庄教授团队、腾讯优图实验室
  • 论文摘要:基于2D的工业异常检测已经被广泛研究,然而基于3D点云和RGB图像的多模态工业异常检测仍有许多未涉及的领域。现有的多模态工业异常检测方法直接连接多模态特征,这导致特征之间发生强干扰并损害检测性能。本文提出了一种新的多模态异常检测方法Multi-3D-Memory (M3DM),采用多模态融合方案:首先,我们设计了一种无监督特征融合方法,采用基于图像块的对比学习来促进不同模态特征之间的交互;其次,我们使用多个存储器库的决策层融合来避免信息丢失,并使用额外的分类器来做出最终决策。我们进一步提出了一种点特征对齐操作,以更好地对齐点云和RGB特征。大量的实验表明,我们的多模态工业异常检测模型在MVTec-3D AD数据集上的检测和分割精度均优于现有的最先进方法。
  • 10. MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection
  • 论文摘要:实例间的尺度变化是目标检测中的一个关键挑战。虽然现代检测模型在处理尺度变化方面取得了显著进展,但在半监督情况下仍然存在问题。大多数现有的半监督目标检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签。然而,我们观察到具有极端尺度的目标往往具有较低的置信度,这使得这些目标的正向监督缺失。在本文中,我们深入探讨了尺度变化问题,并提出了一种新的框架,通过引入混合尺度教师来改进伪标签生成和尺度不变学习。此外,由于混合尺度特征的更好预测,我们提出利用跨尺度预测的分数的相对提升来挖掘伪标签。在不同的半监督设置下,对 MS COCO 和 PASCAL VOC 基准进行了大量实验,证明我们的方法实现了新的最先进性能。
  • 11. Efficient Hierarchical Entropy Model for Learned Point Cloud Compression
  • 论文摘要:精确的熵模型对于去除点云压缩中的冗余而言是非常重要的。基于八叉树的自回归式熵模型可以实现优秀的压缩性能。它使用自注意力机制建模大规模上下文中的依赖关系。然而,昂贵的自注意力运算和自回归式的上下文结构不能适应实际应用的需求。为了提升注意力模型的计算效率,我们提出了一种分层注意力结构。它的复杂度与上下文规模呈线性关系,同时仍然可以实现全局感受野。此外,我们提出了一种分组上下文结构。它解决了自回归式模型引起的串行编码问题,而且几乎不会引起压缩性能的损失。实验证明我们提出的模型实现了最先进的压缩性能,同时相较于大规模自回归式熵模型而言显著减少了解码时间。
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档