1.Discriminative Class Tokens for Text-to-Image Diffusion Models(ICCV 2023)

标题:文本到图像扩散模型的判别类标记
作者:Idan Schwartz, Vésteinn Snæbjarnarson, Hila Chefer, Ryan Cotterell, Serge Belongie, Lior Wolf, Sagie Benaim
文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf
项目代码:https://rl-at-scale.github.io/







摘要:
文本到图像扩散模型的最新进展使得能够生成多样化的高质量图像。虽然令人印象深刻,但这些图像通常无法描绘微妙的细节,并且由于输入文本的模糊性而容易出错。缓解这些问题的一种方法是在类标记数据集上训练扩散模型。这种方法有两个缺点:(i)与训练文本到图像模型的大规模抓取的文本图像数据集相比,监督数据集通常较小,从而影响生成图像的质量和多样性,或者(ii)输入是硬编码标签,而不是自由格式的文本,限制了对生成图像的控制。在这项工作中,我们提出了一种非侵入式微调技术,该技术利用自由格式文本的表达潜力,同时通过来自预训练分类器的判别信号实现高精度。这是通过迭代修改文本到图像扩散模型的添加输入标记的嵌入、根据分类器将生成的图像转向给定目标类别来完成的。与之前的微调方法相比,我们的方法速度更快,并且不需要收集类内图像或重新训练耐噪分类器。我们广泛评估了我们的方法,表明生成的图像:(i)比标准扩散模型更准确且质量更高,(ii)可用于在资源匮乏的情况下增强训练数据,以及(iii)揭示信息关于用于训练引导分类器的数据。该代码位于 \url{ 此 https URL}。
2.BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

标题:BLIVA:一个简单的多模式LLM,可以更好地处理文本丰富的视觉问题
作者:Wenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu
文章链接:https://arxiv.org/abs/2308.09936
项目代码:https://github.com/mlpc-ucsd/BLIVA







摘要:
视觉语言模型(VLM)通过整合视觉理解能力扩展了大型语言模型(LLM),在解决开放式视觉问答(VQA)任务方面表现出了显着的进步。然而,这些模型无法准确解释注入文本的图像,这在现实场景中很常见。从图像中提取信息的标准过程通常涉及学习一组固定的查询嵌入。这些嵌入旨在封装图像上下文,并随后在法学硕士中用作软提示输入。然而,这个过程仅限于标记计数,可能会限制对具有丰富文本上下文的场景的识别。为了改进它们,本研究引入了 BLIVA:带有 Visual Assistant 的 InstructBLIP 的增强版本。BLIVA 结合了来自 InstructBLIP 的查询嵌入,还直接将编码的补丁嵌入投影到 LLM 中,这是一种受 LLaVA 启发的技术。这种方法有助于模型捕获查询解码过程中可能丢失的复杂细节。经验证据表明,我们的模型 BLIVA 显着提高了处理富含文本的 VQA 基准(在 OCR-VQA 基准中高达 17.76%)和执行典型 VQA 基准(在视觉空间推理基准中高达 7.9%)的性能,与我们的基线 InstructBLIP 进行比较。BLIVA 展示了解码现实世界图像的强大能力,无论文本是否存在。为了展示 BLIVA 实现的广泛行业应用,我们使用一个新数据集来评估该模型,该数据集包含 YouTube 缩略图以及 13 个不同类别的问答集。对于有兴趣进一步探索的研究人员,可以通过此 https URL 免费访问我们的代码和模型
3.StableVideo: Text-driven Consistency-aware Diffusion Video Editing(ICCV 2023)

标题:StableVideo:文本驱动的一致性感知扩散视频编辑
作者:Wenhao Chai, Xun Guo, Gaoang Wang, Yan Lu
文章链接:https://arxiv.org/abs/2308.09592
项目代码:https://github.com/rese1f/StableVideo






摘要:
基于扩散的方法可以生成逼真的图像和视频,但它们很难在编辑视频中的现有对象的同时保留其外观。这阻碍了扩散模型应用于实际场景中的自然视频编辑。在本文中,我们通过向现有的文本驱动扩散模型引入时间依赖性来解决这个问题,这使得它们能够为编辑的对象生成一致的外观。具体来说,我们开发了一种用于扩散视频编辑的新颖的帧间传播机制,该机制利用分层表示的概念将外观信息从一帧传播到下一帧。然后我们基于该机制构建了一个文本驱动的视频编辑框架,即StableVideo,它可以实现一致性感知的视频编辑。大量的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比,我们的方法显示出卓越的定性和定量结果。我们的代码位于\href{此 https URL}{此 https URL}。