前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文领读|tDRO:面向大模型稠密检索的任务级分布鲁棒优化

论文领读|tDRO:面向大模型稠密检索的任务级分布鲁棒优化

原创
作者头像
澜舟科技
修改于 2024-11-04 09:26:15
修改于 2024-11-04 09:26:15
720
举报

研究背景

随着基础模型的持续进步和数据量的显著增加,以大语言模型(LLM)为基座的稠密检索(Dense Retrieval, DR)模型已展现出卓越的检索性能。大模型稠密检索(LLM-DR)基于大量异质的微调数据集进行训练,这些异质数据集在领域、语言、对称性等方面展现出巨大的差异性。然而,如何确定一个理想的数据分布或配比,以最大化这些数据集联合训练的效果,成为提升大模型稠密检索(LLM-DR)性能的核心挑战。

目前,关于大模型稠密检索(LLM-DR)的数据分布优化(Data Distributional Optimization) 的研究仍处于空白状态。在现有实践中,决定使用哪些数据集、每个数据集使用的比例以及如何用更少的数据实现更优性能,主要依赖于研究人员的经验性判断和反复的实验。但这种方法不仅试错成本高,而且不能穷尽所有可能的数据配比,导致模型鲁棒性不足,往往只能达到次优状态,从而影响大模型稠密检索(LLM-DR)的性能表现。

为了解决上述异质数据集联合训练的分布优化问题,我们提出了一种面向大模型稠密检索(LLM-DR)的任务级分布鲁棒优化(Task-level Distributionally Robust Optimization, tDRO)算法,该算法可以端到端地学习鲁棒的数据分布。在大规模的开源文本检索训练集的联合训练场景中,实现了数据集用量的减少(高达30%)。同时,在大规模的单语、多语、跨语言检索基准测试中,tDRO显著提升了不同尺寸(500M、1.8B、4B、7B、8B)和不同基座(Qwen1.5、LLaMA3、Mistral-0.1)的大模型稠密检索(LLM-DR)的性能表现。

研究方法

问题定义

假设大模型稠密检索(LLM-DR)的训练集 Dtrain 包含 k 个数据集,每个数据集按照权重 α 的比例进行随机均匀采样 U,则本联合训练的数据分布定义如下:

面向大模型稠密检索(LLM-DR)的分布鲁棒优化 (DRO) 问题,旨在找到一组最优的 α,以最大化模型在下游任务上的性能。

研究挑战

在针对大模型稠密检索(LLM-DR)进行微调时,分布鲁棒优化(DRO) 面临两大挑战:

挑战 1: 采样策略冲突

经典的分布鲁棒优化(如 GroupDRO)算法,在一个批次(Batch)内读取并对比来自所有领域的数据。然而,稠密检索 (LLM-DR) 微调基于对比学习原理,为保证批次内负样本 (In-batch negatives)与跨批次负样本(Cross-batch negatives)的质量,一个批次(Batch) 内仅能读取来自同一领域的数据,否则将会影响最终性能表现。

挑战 2: 领域损失不可比

分布鲁棒优化(GroupDRO)等算法在鲁棒优化中,动态对比不同领域的损失(Loss)大小,损失越高,权重越大。然而,这种方法并不适用于大模型稠密检索(LLM-DR)中的异质数据。以下表中三个数据集的损失大小为例,在 Qwen1.5-0.5B模型上,Yahoo answers 的损失是 MS-MARCO 的 3 倍,DuReader 的 5 倍。如果直接以领域损失作为权重分配的依据,那么 Yahoo answers 将始终会得到更高的权重,这种优化方式显然是不合理的。

Table 1: Yahoo answers (Title-Answer),MS-MARCO 和 DuReader 数据集损失大小对比。LLM-DR 模型以 Qwen1.5-0.5B 为基座,均匀采样训练了 1k steps。

tDRO:任务级分布鲁棒优化

为了解决上述两个挑战,我们创新性地设计了任务级分布鲁棒优化(Task-level Distributionally Robust Optimization, tDRO)算法。整体优化流程如下图所示:

为了解决 LLM-DR 和 DRO 之间的采样冲突,tDRO算法将分布鲁棒优化(DRO)与稠密检索微调(LLM-DR Fine-tuning)两个过程进行分离。首先,利用代理模型 (Proxy Model)只使用困难负样本(Hard Negatives, HN)来学习鲁棒的数据分布。随后,将数据分布迁移到 LLM-DR 中,结合三种负样本(困难负样本、批次内负样本、跨批次负样本)进行完整训练。

针对领域损失不可比的问题,tDRO 算法额外引入了 一个已训练好的参考模型(Reference Model),通过“代理损失 / 参考损失”的比值作为领域损失度量 M(Group Loss Measurement),来代表对应领域的进步空间。具体的损失定义、优化目标、 权重更新公式如下:

InfoNCE Loss

在对比学习的 step t 中,代理模型以 1/k 的比例采样所有数据,并为每一条数据生成一组 [查询 q,正例文档 d+,困难负例文档 d−hard]。代理模型使用 InfoNCE loss 作为损失函数,其计算过程如下:

其中,代理模型初始化自 Qwen1.5-0.5B,τ 是对比学习的温度系数,实验中设置为 0.002。

优化目标

tDRO 将每个数据集视为一个领域(Group),并通过双优化目标交替更新领域权重 α 与代理模型参数 θ,以降低表现最差领域损失度量(Worst Group Loss Measurement) 的上确界:

权重 α 更新。tDRO 通过指数梯度上升更新权重 α,领域 g 的损失度量 M 越大,权重更新量越大。

*其中 ηα 为权重的学习率。

相对损失度量。如何获取一个可比的、有代表性的损失度量是 tDRO 优化的关键之处。tDRO 以平均采样策略额外训练了一个参考模型(Reference Model)。通过代理损失除以参考损失得到相对损失度量 M,以代表模型在该领域的进步空间。M 越大,代表进步空间越大,其权重更新量也越大。

代理模型更新。权重 α 更新后,代理模型以 α 作为系数计算 InfoNCE Loss,并利用 AdamW 优化器进行梯度下降更新。

LLM-DR 微调

在 tDRO 阶段学习到鲁棒的权重分布后,这些权重将按以下两种方式迁移至 LLM-DR 微调过程:

  • Top-rated dataset selection:直接选取权重较大的前几组,以均匀采样策略进行训练。实验中我们发现,选取前 70% 的数据集性能最优。
  • Sample Ratio Reweighting:直接按照 tDRO 的权重分布采样所有数据集。

LLM-DR 微调同样使用了 InfoNCE Loss,并结合了困难负样本(Hard Negatives)、批次内负样本(In-batch negatives)、跨批次负样本(Cross-batch negatives)三种负样本进行训练。需要注意的是,LLM-DR 在同一个批次(Batch)只采样一个来源的负样本,以保证负样本的质量。

实验结果

实验设置

本文实验概括如下表所示,在LLM-DR 训练的 base model 中,我们选择了 Qwen-0.5B、1.8B、4B、7B,Mistral-7B 和 LLaMA3-8B。

检索性能

本次对检索基线性能与 tDRO 优化后的鲁棒权重进行了实验。实验结果显示,tDRO 优化在多语言检索 MIRACL、跨语言检索 MKQA、单语言 BeIR 三个检索基线上带来了显著的性能增益。同时,我们将 tDRO 和其他领域损失度量所得权重分布进行了对比,发现 tDRO 将大约 9 个(占总体数量的 30%)单语数据集的权重降低至 0.01 以下。

进一步地,在 Dataset Selection Top-70% 实验组中,我们尝试将它们从训练中全部去掉,所有的 LLM-DR 的多语言、跨语 言、单语言检索性能均得到了提升,这证明了 tDRO 方法的有效性。

此外,我们还对比了不同领域损失度量优化后的权重变化。如上图所示,无论是直接使用领域损失,还是使用“领域损失-参考损失”,两者均明显偏向于 Yahoo 数据集;而 tDRO 通过“相对领域损失度量”,在不同任务之间,得到了更加合理的进步空间。下表的基线测试也证明,tDRO 的性能增益最好,而其他设计则稍显逊色。

实际应用与价值

优化大模型应用的检索增强框架

在大模型落地应用中,检索增强框架发挥着举足轻重的作用,不仅极大地提升了大模型的知识获取能力和问题回答的事实准确性,还有效降低了大模型的幻觉现象。澜舟科技始终致力于满足澜舟智库、澜舟智会和澜舟智搭系列产品的独特需求特点,持续优化检索增强相关技术,并成功设计和应用了多跳RAG、大跨度RAG、RAG指令微调等多种技术。在此基础上,我们进一步推出了tDRO技术,这一创新成果不仅实现了检索模型的大模型化,还进一步提高了检索模型的效果,使得检索增强框架在这些产品中发挥更加出色的作用,从而为客户带来更好的产品使用体验。

支撑跨语言、跨领域的应用场景

随着全球化和多领域知识的快速,大模型应用系统正面临着跨语言和跨领域应用的巨大挑战。本研究提出的技术框架为这些挑战提供了坚实的技术支撑。基于该框架训练的检索模型具备强大的跨语言和跨领域能力,能够在不同语言环境中实现精准检索,助力国际化企业跨越语言障碍,提高用户体验。同时,通过整合金融、医疗、法律等多个领域的训练数据,该框架显著增强了系统的多领域适用性,为企业跨部门的知识管理和协作提供了有力支持。此外。该技术还能整合多种数据来源,促进跨领域知识共享,帮助企业构建统一的知识中心,实现信息的全面覆盖与高效获取。

总结

在这篇文章中,我们设计了一种面向大模型稠密检索的任务级分布鲁棒优化(Task-level Distributionally Robust Optimization, tDRO)算法。该算法通过学习不同领域任务的鲁棒数据分布,成果减少了30%的数据集用量。在多种不同基座与不同大小参数量的大模型稠密检索微调中,tDRO算法均展现出了显著的检索性能提升。这一成果不仅证明了tDRO算法的有效性和实用性,也为大模型应用的检索增强框架的优化提供了新的思路和方法。

代码开源地址https://github.com/tdro-llm/tdro

模型、数据开源地址https://huggingface.co/tdro-llm

完整论文地址https://arxiv.org/pdf/2408.10613

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RbFT:针对RAG中检索缺陷的鲁棒性微调
这篇论文旨在提高大型语言模型(LLMs)在检索增强型生成(Retrieval-Augmented Generation, RAG)系统中对检索缺陷的鲁棒性。具体来说,论文关注以下几个关键问题:
致Great
2025/02/11
1970
RbFT:针对RAG中检索缺陷的鲁棒性微调
神经网络中的损失函数
在《神经网络中常见的激活函数》一文中对激活函数进行了回顾,下图是激活函数的一个子集——
半吊子全栈工匠
2023/09/02
1.7K0
神经网络中的损失函数
论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧
欢迎来到「澜舟NLP论文领读」专栏!快乐研究,当然从研读 paper 开始——澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘、交流 NLP「黑科技」,踩在「巨人」肩上触碰星辰!
澜舟科技
2022/06/13
8002
论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧
扩散模型概述:应用、引导生成、统计率和优化
An overview of diffusion models: Applications, guided generation, statistical rates and optimization 扩散模型概述:应用、引导生成、统计速率和优化
CreateAMind
2024/07/05
8110
扩散模型概述:应用、引导生成、统计率和优化
双塔模型的瓶颈究竟在哪?
开放域问答系统的泛化性和鲁棒性一直是一个业界难题,其中位于最顶层的稠密检索模型(Dense Retriever)常常被诟病其OOD泛化能力不如传统的BM25算法。
NewBeeNLP
2024/04/26
2870
双塔模型的瓶颈究竟在哪?
每周AI论文速递(250127-250131)
基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而,这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%,这限制了对先进 LLM 能力的有根据测量。作为回应,我们介绍了“人类的最终考试”(HLE),这是一个多模式基准测试,在人类知识前沿设计,旨在成为同类中最后的封闭式学术基准测试,涵盖广泛的主题。 HLE 包含 3,000 个问题,跨越数十个学科,包括数学、人文学科和自然科学。HLE 由全球主题专家开发,包含适合自动化评分的多项选择题和简答题。每个问题都有一个已知的明确且易于验证的解决方案,但无法通过快速互联网检索获得答案。 先进的 LLMs 在 HLE 上表现出低准确性和校准度,突显了当前 LLM 能力与专家人类前沿之间的显著差距,在封闭式学术问题上的表现存在巨大差异。为了基于对模型能力的清晰理解来指导研究和政策制定,我们公开发布了 HLE,地址为https://lastexam.ai。
叶子的技术碎碎念
2025/04/08
630
每周AI论文速递(250127-250131)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
960
每周AI论文速递(241216-241220)
减少yolo检测模型误检的优化和调整
数据集质量:确保你的训练数据集质量良好,包含足够多的代表性样本,并且标注准确无误。低质量的训练数据集可能导致模型学习到错误的特征,从而产生误报。
机器学习AI算法工程
2024/06/21
1.4K0
减少yolo检测模型误检的优化和调整
文本分类之样本不均衡处理及模型鲁棒性提升trick总结
每天给你送来NLP技术干货! ---- 写在前面 文本分类是NLP中一个非常重要的任务,也是非常适合入坑NLP的第一个完整项目。 文本分类看似简单,但实则里面有好多门道。作者水平有限,只能将平时用到的方法和trick在此做个记录和分享,并且尽可能提供给出简洁、清晰的代码实现。希望各位看官都能有所收获。 本文主要讨论文本分类中处理样本不均衡和提升模型鲁棒性的trick。文章内容是根据平时阅读论文、知乎、公众号和实践得到的,若有表述不够清楚、详尽的地方可参考文末相关链接。 1. 缓解样本不均衡 样本不均衡现象
zenRRan
2022/10/11
1.8K0
文本分类之样本不均衡处理及模型鲁棒性提升trick总结
【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰
【导读】近日,深度学习顶会ICLR2018评审结果出炉,得分最高的论文是 《Certifiable Distributional Robustness with Principled Adversarial Training》,得到的是9,9,9的高分,三个评审人都给出了非常肯定的评价,这篇论文主要是针对在有对抗样本时,神经网络会非常脆弱,训练集中有个别的对抗样本常常就会导致训练的模型完全失效的问题,如何利用神经网络学到鲁棒的数据分布是一个非常重要的研究方向,论文提出一种称作分布鲁棒优化的方法来确保模型在有
WZEARW
2018/04/11
3.2K0
【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
随着VLMs规模的增大,用全参数更新来提高VLMs的对抗鲁棒性的传统对抗训练方法将导致高昂的计算和存储成本。近年来,由于在调整大规模预训练模型方面的显著成功,参数高效微调(PEFT)技术作为新型的适应范式受到了广泛关注。PEFT技术可以使用极小的额外可调参数调整VLMs,并且在性能上与FFT方法相当或更优。尽管PEFT技术在自然场景中取得了显著的成功,但在对抗攻击场景中的应用仍然很大程度上未被探索。但简单地在传统适应方法上应用对抗训练将导致1)防御性能有限和2)计算和存储成本高昂。为了验证作者的观点,作者在图2中可视化了不同对抗适应方法的对抗鲁棒性性能和可调参数数量。从结果中,作者发现FFT和UniAdapter等现有适应方法会导致大的参数成本。此外,LoRA、LP和Aurora对对抗攻击并不鲁棒。
AIGC 先锋科技
2024/07/08
4490
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
全面增强LLM的多领域性能,新型微调框架,实现LLM的跨领域知识均衡 !
大型语言模型(LLMs)已成为人工智能(AI)领域的基石,特别是在自然语言处理任务方面,改变了AI研究和应用的领域,如法律、医疗、金融、科学和编程。为了进一步激励这些领域的能力,LLM通常会在特定数据集上进行监督微调(SFT)阶段。
AIGC 先锋科技
2024/12/30
3280
全面增强LLM的多领域性能,新型微调框架,实现LLM的跨领域知识均衡 !
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。
机器之心
2024/04/12
2400
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
🚀 KaLM-Embedding-V2: 小模型,大能量!重新定义高效文本嵌入
在当今由大型语言模型(LLM)驱动的时代,检索增强生成(RAG)技术已成为提升模型性能的关键 。然而,一个强大的RAG系统的核心瓶颈,往往在于其检索模块的基石——文本嵌入(Text Embedding)模型 。
Yuki121
2025/06/29
1040
🚀 KaLM-Embedding-V2: 小模型,大能量!重新定义高效文本嵌入
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
指令微调阶段使用了已标注数据。这个阶段训练的数据集数量不会像预训练阶段那么大,最多可以达到几千万条,最少可以达到几百条到几千条。指令微调可以将预训练的知识“涌现”出来,进行其他类型的任务,如问答类型的任务。一般指令微调阶段对于在具体行业上的应用是必要的,但指令微调阶段一般不能灌注进去新知识,而是将已有知识的能力以某类任务的形式展现出来。
汀丶人工智能
2024/05/26
8970
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024/07/31
3730
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
CVPR 2021 Oral | 长尾分布下的对抗鲁棒性
AI 科技评论本文介绍一篇发表在 CVPR 2021 的一篇工作:《Adversarial Robustness under Long-Tailed Distribution》,并分享作者将长尾分布 (Long-Tailed Distribution) 这一条件引入对抗鲁棒性 (Adversarial Robustness) 任务中的一些理解。
AI科技评论
2021/07/27
7840
CVPR 2021 Oral | 长尾分布下的对抗鲁棒性
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
大语言模型(LLMs)的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中,Segment Anything Model(SAM)是最先进的图像分割基础模型。
机器之心
2024/04/12
2450
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
每周AI论文速递(241021-241025)
本文介绍了 UCFE: 用户中心化金融专业知识基准,这是一个创新框架,旨在评估大语言模型 (LLMs) 处理复杂现实世界金融任务的能力。UCFE 基准采用了一种混合方法,结合了人类专家评估与动态、任务特定的交互,以模拟不断变化的金融场景的复杂性。首先,我们进行了一项涉及 804 名参与者的用户研究,收集了他们对金融任务的反馈。其次,基于这些反馈,我们创建了一个涵盖广泛用户意图和交互的数据集。该数据集作为基础,用于使用 LLM-as-Judge 方法对 12 个 LLM 服务进行基准测试。结果显示,基准分数与人类偏好之间存在显著的一致性,Pearson 相关系数为 0.78,证实了 UCFE 数据集和我们的评估方法的有效性。UCFE 基准不仅揭示了 LLMs 在金融领域的潜力,还提供了一个强大的框架,用于评估其性能和用户满意度。基准数据集和评估代码已公开。
叶子的技术碎碎念
2025/04/08
570
每周AI论文速递(241021-241025)
推荐阅读
相关推荐
RbFT:针对RAG中检索缺陷的鲁棒性微调
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档