点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Retrieval-Enhanced Contrastive Vision-Text Models
标题:检索增强对比视觉文本模型
作者:Ahmet Iscen, Mathilde Caron, Alireza Fathi, Cordelia Schmid
文章链接:https://arxiv.org/abs/2306.07196
摘要:
诸如 CLIP 之类的对比图像文本模型构成了许多最先进系统的构建块。尽管他们擅长识别常见的通用概念,但他们仍然难以识别预训练数据集中罕见甚至不存在的细粒度实体。因此,他们成功的一个关键因素是使用大规模精选的预训练数据,旨在扩展他们在预训练阶段可以记住的概念集。在这项工作中,我们探索了一种将细粒度知识直接编码到模型参数中的替代方法:我们训练模型从外部存储器中检索这些知识。具体来说,我们建议为现有的视觉文本模型配备在推理时从内存中检索到的跨模态信息来改进它们的嵌入的能力,这大大提高了它们的零样本预测。值得注意的是,我们证明这可以通过在冷冻 CLIP 上放置一个轻型单层融合变压器来完成。我们的实验验证了我们的检索增强对比 (RECO) 训练在几个具有挑战性的细粒度任务上显着提高了 CLIP 性能:例如 Stanford Cars 的 +10.9,CUB-2011 的 +10.2 和最近的 OVEN 基准测试的 +7.3。
2.GPT-Calls: Enhancing Call Segmentation and Tagging by Generating Synthetic Conversations via Large Language Models (Microsoft)
标题:GPT-Calls:通过大型语言模型生成合成对话来增强呼叫分段和标记
作者:Itzik Malkiel, Uri Alon, Yakir Yehuda, Shahar Keren, Oren Barkan, Royi Ronen, Noam Koenigstein
文章链接:https://arxiv.org/abs/2306.07941
项目代码:https://github.com/microsoft/AdaM
摘要:
电话转录在销售、客户服务、医疗保健和执法等不同领域具有重要价值。然而,分析这些记录的对话可能是一个艰巨且耗时的过程,尤其是在处理扩展或多方面的对话时。在这项工作中,我们提出了一种新方法,即 GPT 提取的呼叫分割和标记 (GPT-Calls),用于高效准确的呼叫分割和主题提取。GPT-Calls 由离线和在线阶段组成。离线阶段对给定的主题列表应用一次,涉及使用 GPT 模型为每个主题生成合成句子的分布并提取锚向量。在线阶段分别应用于每个呼叫,并对转录的对话与离线阶段找到的主题锚点之间的相似性进行评分。然后,将时域分析应用于相似性分数,将话语分组并用主题标记。所提出的范例为不需要标记数据的呼叫分割和主题提取提供了一种准确有效的方法,从而使其成为适用于各种领域的通用方法。我们的算法在 Dynamics 365 Sales Conversation Intelligence 下运行,我们的研究基于从各种 Dynamics 365 Sales 租户收集的真实销售对话。
3.One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
标题:万能的:用于参数高效微调的通用 LoRA
作者:Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen
文章链接:https://arxiv.org/abs//2306.07967
项目代码:https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA
摘要:
我们提出了广义 LoRA (GLoRA),这是一种用于通用参数高效微调任务的高级方法。增强低秩适应 (LoRA),GLoRA 采用通用提示模块来优化预训练模型权重并调整中间激活,从而在不同的任务和数据集上提供更大的灵活性和能力。此外,GLoRA 通过采用可扩展、模块化、逐层结构搜索来学习每一层的单个适配器,从而促进有效的参数自适应。GLoRA 源于一个统一的数学公式,表现出强大的迁移学习、少样本学习和领域泛化能力,因为它通过权重和激活的额外维度来适应新任务。综合实验表明,GLoRA 在自然、专业和结构化基准测试中优于所有以前的方法,在各种数据集上以更少的参数和计算实现更高的准确性。此外,我们的结构重新参数化设计确保 GLoRA 不会产生额外的推理成本,使其成为资源受限应用程序的实用解决方案。代码位于:此 https URL。
语音领域“GPT”来了!Meta 发布生成式语音系统Voicebox,一个通用模型解决多项任务
阿里大模型新作VideoComposer | 时间、空间可控的视频生成走进现实
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
SIGIR 2023 | 推荐系统何去何从,经典ID范式要被颠覆?
点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!