文章/答案/技术大牛

发布

社区首页 >专栏 >NeurIPS 2024｜腾讯优图实验室10篇论文入选，含持续学习、大型语言模型、深度伪造检测等研究方向

NeurIPS 2024｜腾讯优图实验室10篇论文入选，含持续学习、大型语言模型、深度伪造检测等研究方向

小腾资讯君

发布于 2024-10-23 01:05:33

6750

近期，第38届神经信息处理系统大会（NeurIPS 2024）公布了录取结果。会议共收到了15671篇有效论文投稿，共有超四千篇收录，录取率为25.8%。NeurIPS是CCF推荐的A类国际学术会议，在人工智能及计算机理论领域享有较高学术声誉。NeurIPS 2024将于12月9日至15日在加拿大温哥华举行，届时，众多学术界和工业界的专家将共聚一堂，探讨人工智能的最新进展。

今年，腾讯优图实验室共有10篇论文被录用，内容涵盖持续学习、大型语言模型、数据集浓缩、深度伪造检测等研究方向，展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。

以下为腾讯优图实验室的入选论文概览：

DF40：面向下一代的深度伪造检测

DF40: Toward Next-Generation Deepfake Detection

Zhiyuan Yan (北京大学), Taiping Yao, Shen Chen, Yandan Zhao, Xinghe Fu, Junwei Zhu, Donghao Luo, Chengjie Wang, Shouhong Ding, Yunsheng Wu, Li Yuan (北京大学)

我们构建了一个全新的综合基准，致力于推动当前深度伪造检测技术向下一代迈进。在深度伪造检测领域，大多数现有研究遵循一个普遍认可的方法来评估顶尖的检测算法：即在特定的数据集（例如FF++）上训练检测器，并在其他常用的深度伪造数据集上进行测试。这种研究协议通常被视为寻找最先进检测器的“黄金标准”。然而，这些在测试中脱颖而出的“佼佼者”是否真的能够应对现实世界中大量真实且多样化的深度伪造挑战？如果不能，又是什么潜在因素导致了这种差距？在本研究中，我们发现数据（包括训练和测试数据）可能是导致这一问题的主要原因，主要原因包括：

伪造多样性不足：深度伪造技术通常包括面部伪造（如换脸和面部重现）以及整个图像生成（如AIGC）。大多数现有的数据集只涵盖了部分类型，且实现的伪造方法有限。

伪造真实感不足：主流的训练数据集FF++包含的是五年前的伪造技术。仅通过这些旧技术的数据训练，难以确保能有效检测当前最先进的深度伪造。

评估协议的局限：大多数检测研究仅对一种类型的伪造进行评估，例如仅在换脸上进行训练和测试，这限制了通用深度伪造检测器的发展。

为了解决这一困境，我们构建了一个高度多样化且大规模的深度伪造基准，名为DF40，涵盖了40种不同的深度伪造技术。我们随后使用4种标准评估协议和7个代表性检测器进行了全面评估，总计超过2,000次评估。通过这些评估，我们从多个角度进行了深入分析，得出了12项对该领域具有重要贡献的新颖见解。此外，我们还提出了5个宝贵但此前未充分探索的研究问题，以启发未来的研究工作。

DiffusionFake：基于引导型稳定扩散模型提升泛化性深度伪造检测模型的泛化性

DiffusionFake: Enhancing Generalization in Deepfake

Detection via Guided Stable Diffusion

Ke Sun (厦门大学)，Shen Chen，Taiping Yao，Hong Liu（大阪大学），Xiaoshuai Sun（厦门大学），Shouhong Ding，Rongrong Ji(厦门大学)

针对人工智能生成内容(AIGC)技术的快速发展,特别是Deepfake等换脸技术的广泛应用所带来的安全挑战, 本文提出了一种新颖的人脸篡改检测方法。本文通过分析Deepfake图像的生成过程,发现了一个关键洞见:Deepfake图像本质上融合了源图像和目标图像的信息,而真实图像则保持一致的身份特征。基于这一洞见,论文提出了DiffusionFake框架,这是一种即插即用的方法,通过利用预训练的Stable Diffusion模型来指导检测器学习Deepfake中固有的源和目标特征。DiffusionFake通过反转生成过程来增强现有检测器的泛化能力,无需额外的推理参数即可显著提高检测模型在未见数据集上的性能。实验结果表明,该方法在各种检测器架构上都取得了显著的跨域泛化性能提升,为应对日益复杂的人脸篡改技术提供了一种有效的解决方案。

SAFE: 慢速与快速高效微调在预训练模型上的持续学习

SAFE: Slow and Fast Parameter-Efﬁcient Tuning for Continual Learning with Pre-Trained Models

Linglan Zhao, Xuerui zhang (浙江大学), Ke Yan, Shouhong Ding, Weiran Huang (上海交通大学)

在数据流中持续学习新概念，同时抵抗遗忘旧知识，是人工智能领域的一个重要挑战。随着强大预训练模型的崛起，越来越多的研究者开始关注如何利用这些基础模型进行增量学习，而不是从零开始训练。现有的方法通常将预训练模型视为一个强大的初始点，并在增量学习的第一个阶段直接应用高效微调方法来适应下游任务。在随后的阶段，大多数方法选择冻结模型参数，以应对遗忘问题。然而，直接将高效微调策略应用于下游数据并不能充分挖掘预训练模型中的内在知识。此外，在后续增量阶段冻结参数会限制模型对第一阶段未覆盖的新概念的适应能力。为了解决上述问题，我们提出了一种基于快慢学习的新框架。具体来说，为了继承预训练模型中的通用知识，我们基于预训练模型中的通用知识对慢速子网络进行微调，使得慢速子网络可以捕捉到更多有用的特征，从而提高对新类别的泛化能力；此外，为了进一步融入新概念，我们在慢速子网络指引下持续更新快速子网络。通过集成两者的预测，整体框架在稳定性和可塑性之间取得平衡。在六个基准数据集上的大量实验验证了我们方法的有效性，显著超越了当前的最先进方法。

LLM-ESR: 大模型增强长尾序列推荐

LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation

Qidong Liu（西安交通大学）, Xian Wu, Xiangyu Zhao（香港城市大学）, Yejing Wang（香港城市大学）, Zijian Zhang（香港城市大学）, Feng Tian（西安交通大学）, Yefeng Zheng（西湖大学）

顺序推荐系统（SRS）旨在基于用户的历史交互来预测用户的后续选择。然而，在现实系统中，大多数用户只与少数几个项目进行交互，而大部分项目很少被消费。这两个问题，被称为长尾用户和长尾项目挑战，常常给现有的SRS带来困难。因此解决它们至关重要。尽管有一些工作已经解决了这些挑战，但由于交互的内在稀缺，他们仍然在处理秋千或噪声问题上挣扎。大型语言模型（LLMs）的进步从语义角度为这些问题提供了一个有前景的解决方案。我们提出了大型语言模型增强顺序推荐（LLM-ESR）框架。这个框架利用从LLMs中得到的语义嵌入来增强SRS，而不增加额外的推理负担。为了解决长尾项目的挑战，我们设计了一个双视图建模框架，它结合了来自LLMs的语义和来自传统SRS的协作信号。对于长尾用户的挑战，我们提出了一种检索增强的自我蒸馏方法，使用来自相似用户的更多信息交互来增强用户偏好表示。为了验证我们提出的增强框架的有效性和通用性，我们在三个真实世界的数据集上使用三种流行的SRS模型进行了广泛的实验。结果一致地显示，我们的方法超过了现有的基线。实现代码可以在补充材料中找到。

Samba:用于跨域医学图像分级的严重度感知模型

Samba: Severity-aware Recurrent Modeling for Cross-domain Medical Image Grading

Qi Bi（西湖大学）, Jingjun Yi（武汉大学）, Hao Zheng, Wei Ji（耶鲁大学）, Haolan Zhan（蒙纳士大学）, Yawen Huang, Yuexiang Li（广西医科大学）, Yefeng Zheng（西湖大学）

疾病分级是医学图像分析中的一项关键任务，但由于疾病的发展的连续性，同一级别内的个体间差异和相邻阶段之间的相似性使得准确的分期极具挑战。此外，在实际应用中，在有限的源域数据集上训练的模型要能够处理其他医院或中心的图像。而源域和目标域之间的特征分布可能存在显著差异，导致模型性能大幅下降。为了解决跨域疾病分级中的挑战，本文提出了一种基于严重度感知的分期模型（Samba）。由于大多数分级任务的核心目标是识别最严重的病灶，而这些病灶可能仅出现在图像的一小块区域，我们提出以序列的方式对图像块进行编码，借助状态空间模型以隐藏状态存储和传递严重度信息。此外，为了减轻域间差异的影响，本文设计了一种基于期望最大化（EM）的状态重校准机制，将表征映射到更紧凑的空间。我们通过高斯混合模型（GMM）对不同病灶的特征分布进行建模，并基于可学习的严重度感知基重构中间特征。大量实验表明，本文提出方法在不同医学模态下具有更强的跨域分级能力。

用于跨域语义分割的视觉基座模型频域微调方法

Learning Frequency-Adapted Vision Foundation Model for Domain Generalized Semantic Segmentation

Qi Bi（西湖大学）, Jingjun Yi（武汉大学）, Hao Zheng, Haolan Zhan（蒙纳士大学）, Yawen Huang, Wei Ji（耶鲁大学）, Yuexiang Li（广西医科大学）, Yefeng Zheng（西湖大学）

视觉基座模型（VFM）的涌现为各种类下游任务提供了更强的固有域泛化能力。其中，域泛化语义分割（DGSS）的关键挑战在于跨域风格变化导致的域间差异，如不同城市景观和环境的变化。因此，在不同域风格下保持表征的不变性成为利用VFM进行DGSS的关键。经过Haar小波变换后的频率空间提供了一种可行的方式来解耦域特征中的内容和风格信息，具体的，内容和风格信息主要保留在该空间的低频和高频分量中。为此，我们提出了一种新颖的频率自适应学习方法，其总体思路是将冻结的基座模型特征在低频分支和高频分支中分别进行微调。前者用于巩固特定场景中内容相关的表示，而后者关注于风格变化并消除其对DGSS的影响。在多种DGSS设置上的实验表明，本文提出的方法具有领先的性能，并可适配于不同的VFM基座。

MedJourney: 大模型在患者流程中的评估

MedJourney: Benchmark and Evaluation of Large Language Models over Patient Clinical Journey

Xian Wu, Yutian Zhao, Yunyan Zhang, Jiageng Wu（浙江大学）, Zhihong Zhu（北京大学）, Yingying Zhang, Yi Ouyang, Ziheng Zhang, Huimin WANG, Zhenxi Lin, Jie Yang（哈佛医学院）, Shuang Zhao（湘雅医院）, Yefeng Zheng（西湖大学）

大型语言模型（LLMs）在语言理解和生成方面展示了显著的能力，在各种领域得到了广泛应用。其中，医疗领域特别适合LLMs的应用，因为许多医疗任务可以通过大模型得到增强。尽管存在用于评估LLMs在医疗问题回答和考试中的表现，但在评估LLMs在支持患者在整个医院访问过程中的表现方面，仍存在显著的差距。在本文中，我们通过将典型的患者医院访问过程划分为四个阶段来解决这个差距：计划、接入、交付和持续护理。对于每个阶段，我们都引入了多个任务，能够覆盖整个患者旅程，从而提供了对LLMs有效性的全面评估。我们还评估了三类LLMs对其的表现：1）专有的LLM服务，如GPT-4；2）公共的LLMs，如QWen；以及3）专门的医疗LLMs，如HuatuoGPT2。通过这种全面的评估。

Fetch and Forge：用于目标检测的数据蒸馏

Fetch and Forge: Dataset Condensation for Object Detection

Ding Qi（同济大学）, Jian Li, Jinlong Peng, Bo Zhao（上海交通大学）, Shuguang Dou（同济大学）, Jialin Li, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cairong Zhao（同济大学）

数据集浓缩（DC）是一种新兴技术，能够从大型原始数据集中创建紧凑的合成数据集，同时保持相当的性能。这对加速网络训练和减少数据存储需求至关重要。然而，目前关于DC的研究主要集中在图像分类上，而对目标检测的探索较少。这主要是由于两个挑战：（i）目标检测的多任务特性使浓缩过程变得复杂；（ii）目标检测数据集的规模大、分辨率高，使现有的DC方法难以处理。为此，我们提出了DCOD，这是第一个针对目标检测的数据集浓缩框架。它分为两个阶段：获取（Fetch）和构建（Forge），最初将关键的定位和分类信息存储到模型参数中，然后通过模型反演重建合成图像。针对图像中多个对象的复杂性，我们提出了前景背景解耦，以集中更新多个实例的前景，并提出增量补丁扩展，进一步增强前景的多样性。在多个检测数据集上进行的广泛实验表明DCOD的优越性。即使在极低的压缩率1%下，我们在VOC和COCO上分别实现了46.4%和24.7%的AP@50，显著减少了检测器的训练时间。

基于扩散模型的人脸识别数据合成

ID^3:Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition

Jianqing Xu, Shen Li(NUS), Jiaying Wu(NUS), Miao Xiong(NUS), Ailin Deng(NUS), Jiazhen Ji, Yuge Huang, Guodong Mu, Wenjie Feng(NUS), Shouhong Ding, Bryan Hooi(NUS)

合成人脸识别 (SFR) 旨在生成模拟真实人脸数据分布的合成人脸数据集，从而允许以保护隐私的方式训练人脸识别模型。尽管扩散模型在图像生成方面具有巨大潜力，但当前基于扩散模型的 SFR 很难推广到现实世界的人脸。为了解决这一限制，我们列出了 SFR 的三个关键目标：(1) 促进跨身份的多样性（类间多样性），(2) 通过注入各种面部属性（类内多样性）来确保每个身份的多样性，以及维护每个身份组内的身份一致性类内身份保存）。受上述目标的启发，我们引入了一种名为 ID^3 的扩散模型，用于SFR研究。 ID^3 采用 ID 保留损失来生成多样化但身份一致的面部外观。从理论上讲，最小化这种损失相当于最大化 ID 保留数据的调整后条件对数似然的下界。这种等价性激发了 ID 保留采样算法，该算法在调整后的梯度矢量场上运行，从而能够生成近似真实世界人脸分布的合成人脸识别数据集。我们在五个具有挑战性的基准上，广泛测试验证了 ID^3 的优势。

MambaAD: 探索用于多类别无监督异常检测的状态空间模型（高校合作）

Mambaad: Exploring state space models for multi-class unsupervised anomaly detection

Haoyang He (浙江大学), Yuhu Bai (浙江大学), Jiangning Zhang, Qingdong He, Hongxu Chen (浙江大学), Zhenye Gan, Chengjie Wang, Xiangtai Li (南洋理工大学), Guanzhong Tian (浙江大学), Lei Xie (浙江大学)

过去基于CNN和Transformer的结构的算法被广泛应用于异常检测领域取得了一定的效果。但是CNN无法处理长距离信息的关联性，而Transformer受限于其平方级别的计算复杂度。最近基于Mamba的模型凭借着其长距离建模的出色能力与线性计算复杂度引起了广泛的研究。在本文中，我们首次将Mamba应用于多类无监督异常检测领域并提出MambaAD如图1所示包含一个预训练的CNN编码器和由不同尺度的局部增强状态空间(LSS)模块成的Mamba解码器。被提出的LSS 模块包含并行的连续混合状态空间(HSS)模块和多核的卷积操作，能够同时具有长距离的建模能力与局部信息的建模能力。HSS模块所包含的混合扫描(HS)编码器将特征图编码至5种不同的扫描方式和8种不同的扫描方向并输送至SSM中建立全局的联系。其中我们采用了Hilbert扫描方式和8种扫描方向有利于提升特征序列的建模能力。大量实验表明，我们在6种不同异常检测数据集上、7种不同的指标上取得了SoTA，证明了Mamba AD方法了有效性。

论文链接：

https://arxiv.org/abs/2404.06564

项目主页：

https://lewandofskee.github.io/projects/MambaAD

项目主页：

https://github.com/lewandofskee/MambaAD

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能