1.Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation(ACM MM )
标题:侏罗纪世界重制版:通过零镜头长图像到图像翻译让古代化石复活
作者:Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
文章链接:https://arxiv.org/abs/2308.07316
摘要:
凭借对自然语言目标领域的深入理解,我们在跨越大领域差距的翻译和使骨架复活方面取得了有希望的结果。在这项工作中,我们使用文本引导的潜在扩散模型进行跨大域间隙(longI2I)的零样本图像到图像转换(I2I),其中需要生成大量新的视觉特征和新的几何形状才能进入目标域。能够跨大领域差距进行翻译在犯罪学、占星学、环境保护和古生物学等现实世界中具有广泛的应用。在这项工作中,我们引入了一项新任务 Skull2Animal,用于在头骨和活体动物之间进行翻译。在这项任务中,我们发现无引导的生成对抗网络(GAN)无法跨大域间隙进行翻译。我们探索了引导扩散和图像编辑模型的使用,而不是这些传统的 I2I 方法,并提供了一个新的基准模型 Revive-2I,能够通过文本提示的潜在扩散模型执行零样本 I2I。我们发现,对于 longI2I 来说,指导是必要的,因为为了弥合巨大的领域差距,需要有关目标领域的先验知识。此外,我们发现提示提供了有关目标域的最佳和最具可扩展性的信息,因为分类器引导的扩散模型需要针对特定用例进行重新训练,并且由于训练的图像种类繁多,因此对目标域缺乏更强的约束。
2.VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use
标题:VisIT-Bench:受现实世界使用启发的视觉语言教学基准
作者:Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
文章链接:https://arxiv.org/abs/2308.06595
项目代码:http://visit-bench.github.io/
摘要:
我们介绍 VisIT-Bench(视觉指令基准),这是用于评估实际使用的指令跟踪视觉语言模型的基准。我们的出发点是策划 70 个“指令族”,我们设想指令调整的视觉语言模型应该能够解决这些问题。除了 VQAv2 和 COCO 等评估之外,任务范围还包括从基本识别到游戏和创意生成。经过整理后,我们的数据集包含 592 个测试查询,每个查询都有一个人工编写的指令条件标题。这些描述体现了特定于指令的因素,例如,对于询问轮椅使用者店面可达性的指令,指令条件标题描述了坡道/潜在障碍。这些描述使得 1) 收集每个实例的经人工验证的参考输出;2)使用纯文本法学硕士自动评估候选多模式生成,与人类判断保持一致。我们使用人工和自动评估来量化模型和参考之间的质量差距;例如,性能最佳的指令跟踪模型仅在 27% 的比较中胜过 GPT-4 参考模型。VisIT-Bench是动态参与的,从业者只需在项目网站上提交他们的模型响应即可;数据、代码和排行榜可从此 http URL 获取。
Subjects: cs.AS
3.SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
标题:SpeechX:神经编解码器语言模型作为多功能语音转换器
作者:Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
文章链接:https://arxiv.org/abs/2308.06873
项目代码:https://www.microsoft.com/en-us/research/project/speechx/
摘要:
基于音频文本提示的生成语音模型的最新进展带来了显着的创新,例如高质量的零样本文本到语音。然而,现有模型在处理各种音频文本语音生成任务时仍然面临局限性,这些任务涉及转换输入语音和处理在不利声学条件下捕获的音频。本文介绍了 SpeechX,这是一种多功能语音生成模型,能够执行零样本 TTS 和各种语音转换任务,同时处理干净信号和噪声信号。SpeechX 使用任务相关提示将神经编解码器语言建模与多任务学习相结合,从而实现统一和可扩展的建模,并为在语音增强和转换任务中利用文本输入提供一致的方式。实验结果表明,SpeechX 在各种任务中的功效,包括零样本 TTS、噪声抑制、目标说话人提取、语音去除以及有或没有背景噪声的语音编辑,在跨任务中实现了与专用模型相当或更好的性能。请参阅此 https URL 以获取演示示例。