1.CLR: Channel-wise Lightweight Reprogramming for Continual Learning(ICCV 2023)
标题:CLR:用于持续学习的通道轻量级重编程
作者:Yunhao Ge, Yuecheng Li, Shuo Ni, Jiaping Zhao, Ming-Hsuan Yang, Laurent Itti
文章链接:https://arxiv.org/abs/2307.11386
项目代码:https://github.com/gyhandy/Channel-wise-Lightweight-Reprogramming
摘要:
持续学习的目的是模仿人类在连续任务中不断积累知识的能力。主要挑战是在学习新任务后保持先前学习任务的表现,即避免灾难性遗忘。我们提出了一种通道式轻量级重编程(CLR)方法,帮助卷积神经网络(CNN)克服持续学习过程中的灾难性遗忘。我们展示了在旧任务(或自监督代理任务)上训练的 CNN 模型可以通过使用我们提出的轻量级(非常便宜)重编程参数来“重新编程”以解决新任务。在 CLR 的帮助下,我们有更好的稳定性-可塑性权衡来解决持续学习问题:为了保持稳定性并保留先前的任务能力,我们使用一个通用的与任务无关的不可变部分作为共享的“锚”参数集。然后,我们添加特定于任务的轻量级重编程参数来重新解释不可变部分的输出,以实现可塑性并整合新知识。为了学习顺序任务,我们只训练轻量级重编程参数来学习每个新任务。重新编程参数是特定于任务的并且是每个任务独有的,这使得我们的方法免受灾难性遗忘的影响。为了最大限度地减少重新编程学习新任务的参数要求,我们通过仅调整基本内核并学习从锚参数到特定任务领域知识的通道线性映射来使重新编程变得轻量级。我们表明,对于一般的 CNN,任何新任务的 CLR 参数增加都小于 0.6%。我们的方法在 53 个图像分类数据集的新的具有挑战性的序列上优于 13 个最先进的持续学习基线。代码和数据可在此 https URL 获取
2.Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning
标题:主题扩散:开放域个性化文本到图像生成,无需测试时微调
作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu
文章链接:https://arxiv.org/abs/2307.11410
项目代码:https://oppo-mente-lab.github.io/subject_diffusion/
摘要:
使用扩散模型生成个性化图像的最新进展非常显着。然而,开放域和非微调个性化图像生成领域的发展进展相当缓慢。在本文中,我们提出了主题扩散(Subject-Diffusion),这是一种新颖的开放域个性化图像生成模型,除了不需要测试时微调之外,还只需要单个参考图像即可支持任何域中单个或多主题的个性化生成。首先,我们构建了一个自动数据标记工具,并使用 LAION-Aesthetics 数据集构建了一个由 76M 图像及其相应的主题检测边界框、分割掩模和文本描述组成的大规模数据集。其次,我们设计了一个新的统一框架,通过结合粗定位和细粒度参考图像控制来结合文本和图像语义,以最大限度地提高主题保真度和泛化能力。此外,我们还采用注意力控制机制来支持多主体生成。广泛的定性和定量结果表明,我们的方法在单个、多个和人类定制图像生成方面优于其他 SOTA 框架。
3.FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields(ICCV 2023)
标题:FaceCLIPNeRF:使用可变形神经辐射场进行文本驱动的 3D 面部操作
作者:Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo
文章链接:https://arxiv.org/abs/2307.11418
摘要:
随着神经辐射场 (NeRF) 的最新进展实现了高保真 3D 人脸重建和新颖的视图合成,其操作也成为 3D 视觉中的一项重要任务。然而,现有的操作方法需要大量的人力,例如用户提供的语义掩码和不适合非专家用户的手动属性搜索。相反,我们的方法被设计为需要单个文本来操纵用 NeRF 重建的面部。为此,我们首先在动态场景上训练场景操纵器(潜在代码条件可变形 NeRF),以使用潜在代码控制面部变形。然而,用单个潜在代码表示场景变形不利于合成在不同实例中观察到的局部变形。因此,我们提出的位置条件锚合成器(PAC)学习用空间变化的潜在代码来表示被操纵的场景。然后,对场景操纵器的渲染进行优化,以产生与 CLIP 嵌入空间中的目标文本的高余弦相似度,以进行文本驱动的操作。据我们所知,我们的方法是第一个解决用 NeRF 重建的面部的文本驱动操作的方法。广泛的结果、比较和消融研究证明了我们方法的有效性。