1.Dual-Stream Diffusion Net for Text-to-Video Generation

标题:用于文本到视频生成的双流扩散网络
作者:Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Zhen Cui, Jian Yang
文章链接:https://arxiv.org/abs/2308.08316
项目代码:https://rl-at-scale.github.io/





摘要:
随着扩散模型的出现,最近文本到视频的生成引起了越来越多的关注。但其中的一个重要瓶颈是生成视频往往会带有一些闪烁和伪影。在这项工作中,我们提出了一种双流扩散网络(DSDN)来提高生成视频时内容变化的一致性。特别是,设计的两个扩散流,视频内容和运动分支,不仅可以在它们的私人空间中单独运行以产生个性化的视频变化和内容,而且还可以通过利用我们设计的在内容和运动域之间良好地对齐。跨变压器交互模块,这将有利于生成视频的流畅性。此外,我们还引入了运动分解器和组合器来方便对视频运动的操作。定性和定量实验表明,我们的方法可以产生闪烁更少的令人惊叹的连续视频。
2.Link-Context Learning for Multimodal LLMs

标题:多模态大模型的链接上下文学习
作者:Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
文章链接:https://arxiv.org/abs/2308.07891
项目代码:https://github.com/isekai-portal/Link-Context-Learning






摘要:
从上下文中学习新概念并提供适当响应的能力在人类对话中至关重要。尽管当前的多模态大型语言模型(MLLM)和大型语言模型(LLM)正在大规模数据集上进行训练,但以免训练的方式识别看不见的图像或理解新概念仍然是一个挑战。上下文学习(ICL)探索免训练的小样本学习,鼓励模型从有限的任务中“学会学习”并泛化到未见过的任务。在这项工作中,我们提出了链接上下文学习(LCL),它强调“因果推理”来增强 MLLM 的学习能力。LCL 超越了传统的 ICL,明确强化了支持集和查询集之间的因果关系。通过提供因果关系的演示,LCL 引导模型辨别不仅是类比,还包括数据点之间的潜在因果关系,这使 MLLM 能够更有效地识别看不见的图像并理解新概念。为了方便评估这种新方法,我们引入了 ISEKAI 数据集,该数据集专门包含看不见的生成图像-为链接上下文学习而设计的标签对。大量实验表明,我们的 LCL-MLLM 对新颖概念的链接上下文学习能力优于普通 MLLM。代码和数据将在此 https URL 发布。
3.Improving Generalization of Adversarial Training via Robust Critical Fine-Tuning(ICCV 2023)

标题:通过稳健的关键微调提高对抗训练的泛化能力
作者:Kaijie Zhu, Jindong Wang, Xixu Hu, Xing Xie, Ge Yang
文章链接:https://arxiv.org/abs/2308.02533
项目代码:https://github.com/microsoft/robustlearn






摘要:
深度神经网络容易受到对抗性例子的影响,在关键应用中构成重大安全风险。对抗训练(AT)是一种行之有效的增强对抗鲁棒性的技术,但它通常以泛化能力下降为代价。本文提出了鲁棒性关键微调(RiFT),这是一种在不影响对抗鲁棒性的情况下增强泛化性的新方法。RiFT 的核心思想是通过在其非鲁棒关键模块上微调经过对抗训练的模型来利用冗余能力来实现鲁棒性。为此,我们引入了模块鲁棒临界性(MRC),这是一种评估给定模块在最坏情况权重扰动下对模型鲁棒性的重要性的度量。使用这种方法,我们将具有最低 MRC 值的模块识别为非鲁棒关键模块,并对其权重进行微调以获得微调权重。随后,我们在对抗训练的权重和微调权重之间进行线性插值,以得出最佳的微调模型权重。我们展示了 RiFT 在 CIFAR10、CIFAR100 和 Tiny-ImageNet 数据集上训练的 ResNet18、ResNet34 和 WideResNet34-10 模型上的功效。我们的实验表明,\ 方法可以将泛化和分布外稳健性显着提高约 1.5%,同时保持甚至稍微增强对抗性稳健性。代码可从此 https URL 获取。