CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
1.The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
标题:LMM 的黎明:GPT-4V(ision) 的初步探索
作者:Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
文章链接:https://arxiv.org/abs/2309.17421
摘要:
大型多模态模型 (LMM) 通过视觉理解等多感官技能扩展大型语言模型 (LLM),以实现更强大的通用智能。在本文中,我们分析了最新的模型 GPT-4V(ision),以加深对 LMM 的理解。分析重点关注 GPT-4V 可以执行的有趣任务,包括测试样本来探究 GPT-4V 功能的质量和通用性、其支持的输入和工作模式以及提示模型的有效方法。在探索 GPT-4V 的方法中,我们策划和组织了一系列精心设计的定性样本,涵盖各个领域和任务。对这些样本的观察表明,GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性共同使 GPT-4V 成为强大的多模态通用系统。此外,GPT-4V独特的理解输入图像上绘制的视觉标记的能力可以催生新的人机交互方法,例如视觉参考提示。我们在报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。我们希望这一初步探索能够激发未来对下一代多模态任务制定的研究,开发和增强 LMM 解决现实问题的新方法,并更好地理解多模态基础模型。
2.Guiding Instruction-based Image Editing via Multimodal Large Language Models(CVPR 2023)
标题:通过多模态大语言模型指导基于指令的图像编辑
作者:Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, Zhe Gan
文章链接:https://arxiv.org/abs/2309.17102
项目代码:https://mllm-ie.github.io/
摘要:
基于指令的图像编辑通过自然命令提高了图像操作的可控性和灵活性,无需详细描述或区域掩模。然而,人类指令有时太简短,当前的方法无法捕获和遵循。多模态大语言模型 (MLLM) 在跨模态理解和通过 LM 生成视觉感知响应方面表现出了良好的能力。我们研究 MLLM 如何促进编辑指令并提出 MLLM 引导图像编辑 (MGIE)。MGIE 学习导出表达性指令并提供明确的指导。编辑模型共同捕捉这种视觉想象力,并通过端到端训练进行操作。我们评估 Photoshop 风格的修改、全局照片优化和本地编辑的各个方面。大量的实验结果表明,表达指令对于基于指令的图像编辑至关重要,我们的 MGIE 可以显着改进自动指标和人工评估,同时保持有竞争力的推理效率。
3.MotionLM: Multi-Agent Motion Forecasting as Language Modeling(ICCV 2023)
标题:MotionLM:作为语言建模的多智能体运动预测
作者:Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
文章链接:https://arxiv.org/abs/2309.16534
摘要:
对道路代理未来行为的可靠预测是自动驾驶车辆安全规划的关键组成部分。在这里,我们将连续轨迹表示为离散运动标记序列,并将多智能体运动预测作为该领域的语言建模任务。我们的模型 MotionLM 提供了几个优点:首先,它不需要锚或显式潜变量优化来学习多模态分布。相反,我们利用单一标准语言建模目标,最大化序列标记的平均对数概率。其次,我们的方法绕过了事后交互启发法,其中个体代理轨迹生成是在交互评分之前进行的。相反,MotionLM 在单个自回归解码过程中生成交互式代理未来的联合分布。此外,模型的顺序分解可以实现暂时因果条件的推出。所提出的方法在 Waymo 开放运动数据集上为多智能体运动预测建立了新的最先进性能,在交互式挑战排行榜上排名第一。