1.UnLoc: A Unified Framework for Video Localization Tasks(ICCV 2023)
标题:UnLoc:视频本地化任务的统一框架
作者:Shen Yan, Xuehan Xiong, Arsha Nagrani, Anurag Arnab, Zhonghao Wang, Weina Ge, David Ross, Cordelia Schmid
文章链接:https://arxiv.org/abs/2308.11062
项目代码:https://github.com/google-research/scenic
摘要:
虽然大规模图像文本预训练模型(例如 CLIP)已用于修剪视频上的多个视频级任务,但它们在未修剪视频中的时间定位仍然是一个相对未经探索的任务。我们为此设计了一种名为 UnLoc 的新方法,它使用预先训练的图像和文本塔,并将标记提供给视频文本融合模型。然后,融合模块的输出用于构建特征金字塔,其中每个级别连接到头部以预测每帧相关性得分和开始/结束时间位移。与以前的工作不同,我们的架构可以通过单阶段模型实现时刻检索、时间定位和动作分割,而不需要动作建议、基于运动的预训练特征或表示掩蔽。与专业模型不同,我们使用统一的方法在所有三种不同的本地化任务上取得了最先进的结果。
2.SPEGTI: Structured Prediction for Efficient Generative Text-to-Image Models
标题:SPEGTI:高效生成文本到图像模型的结构化预
作者:Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit, Ayan Chakrabarti, Sanjiv Kumar
文章链接:https://arxiv.org/abs/2308.10997
摘要:
现代文本到图像生成模型可生成逼真且忠实于文本提示的高质量图像。然而,这种质量是以巨大的计算成本为代价的:几乎所有这些模型都是迭代的,并且需要对大型模型进行多次运行推理。需要这个迭代过程来确保图像的不同区域不仅与文本提示对齐,而且彼此兼容。在这项工作中,我们提出了一种轻量级方法,使用马尔可夫随机场(MRF)模型来实现图像不同区域之间的兼容性。该方法被证明可以与最近提出的 Muse 模型结合使用。MRF 对不同空间位置的图像标记之间的兼容性进行编码,使我们能够显着减少所需的 Muse 预测步骤数量。使用 MRF 进行推理的成本要低得多,并且可以通过将 MRF 推理建模为可微神经网络层,通过反向传播快速学习其参数。我们的完整模型 SPEGTI 使用这个提出的 MRF 模型将 Muse 速度提高 1.5 倍,并且输出图像质量没有损失。
Subjects: cs.CL
3.Graph of Thoughts: Solving Elaborate Problems with Large Language Models
标题:思维图:用大型语言模型解决复杂的问题
作者:Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Lukas Gianinazzi, Joanna Gajda
文章链接:https://arxiv.org/abs/2304.06018
摘要:
我们引入了思想图(GoT):一个框架,它可以提高大型语言模型(LLM)中的提示能力,使其超越思想链或思想树(ToT)等范式所提供的能力。GoT 的关键思想和主要优点是能够将 LLM 生成的信息建模为任意图,其中信息单位(“LLM 思想”)是顶点,边对应于这些顶点之间的依赖关系。这种方法可以将任意的法学硕士思想组合成协同结果,提炼整个思想网络的本质,或使用反馈循环增强思想。我们证明,GoT 在不同任务上比现有技术具有优势,例如,与 ToT 相比,排序质量提高了 62%,同时成本降低了 31% 以上。我们确保 GoT 可通过新的思维转变进行扩展,从而可用于引领新的提示方案。这项工作使法学硕士的推理更接近人类思维或递归等大脑机制,两者都形成了复杂的网络。