Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/AMS-Regular.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度解析DPO及其变体在多种任务上的表现如何,该如何选择

深度解析DPO及其变体在多种任务上的表现如何,该如何选择

作者头像
zenRRan
发布于 2024-05-11 06:15:05
发布于 2024-05-11 06:15:05
1.5K0
举报

深度学习自然语言处理 原创 作者:wkk

单位:亚利桑那州立大学 paper:Insights into Alignment:Evaluating DPO and its Variants Across Multiple Tasks Link:https://arxiv.org/pdf/2404.14723

今天,我要带大家深入了解一项关于大型语言模型(LLMs)的研究,这是由亚利桑那州立大学的Amir Saeidi、Shivanshu Verma和Chitta Baral三位专家带来的前沿成果。他们的最新论文《Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks》为我们揭开了直接偏好优化(DPO)及其衍生方法的神秘面纱,这些方法在优化模型以符合人类偏好方面展现出了巨大潜力。

引言

LLM在一系列任务中表现出了卓越的性能。直接偏好优化(DPO)作为一种RL-free的优化人类偏好的策略模型的方法出现了。然而,一些限制阻碍了这种方法的广泛采用。为了解决这些缺点,引入了各种版本的DPO。然而,在不同的任务中对这些变量的综合评估仍然缺乏。

在本研究中,通过研究三种不同场景下对齐方法的性能来弥合这一差距:

  • 场景一:保留监督微调(SFT)部分。
  • 场景二:跳过SFT部分。
  • 场景三:跳过SFT部分并利用指令微调调整模型。

此外,还探讨了不同训练规模对其性能的影响。本文的评估涵盖了一系列任务,包括对话系统、推理、数学问题解决、问题回答、真实性和多任务理解,包括MT-Bench、Big Bench和Open LLM Leaderboard等13个基准。

简介

LLM引发了一场解决现实世界挑战的革命,展示了跨不同领域令人印象深刻的能力,需要推理和专业知识。这些模型擅长数学推理/解决问题、代码生成/编程、文本生成、摘要和创造性写作等其他任务。

其中,基于监督微调(SFT)和来自人类反馈的强化学习(RLHF)的对齐方法,LLM在人类偏好方面取得了显着的性能。虽然与SFT相比,RLHF表现出显著的性能,但它面临着reward hacking等限制。相比之下,直接偏好优化(DPO)是一种最先进的离线强化学习方法,已被提出在不需要RL过程的情况下优化人类偏好。

对齐方法的局限性包括过度拟合、低效的学习和内存使用、偏好排名等问题,以及对对话系统等各种场景的偏好的依赖、摘要、情感分析、有用和有害的问答和机器翻译。尽管这些研究很重要,但都没有彻底研究对齐中的关键歧义,例如没有SFT出现的对齐方法的可学习性、这些方法之间的公平比较、SFT后对其性能的评估、数据量对性能的影响以及这些方法固有的弱点。它们在语言推理和推理中起着至关重要的作用。

研究创新

本文深入研究了基于无RL算法的对齐方法,如DPO、IPO、KTO和CPO的性能。这些方法通常包括两个步骤:

  • 策略模型的监督微调,
  • 使用对齐算法(如DPO)优化SFT模型。

本文实验涵盖了各种任务,包括对话系统、推理、数学问题解决、问题回答、真实性和多任务理解。并在13个基准上评估了这些对齐方法。

本文的贡献可以分为以下几点:

  1. 探索对齐方法的学习能力,旨在减轻DPO框架内的过拟合挑战。研究结果表明,在MT-Bench中跳过SFT部分,CPO和KTO表现出相当的性能。
  2. 在三种不同的场景中广泛地研究了跨对话系统、推理、数学问题解决、问答、真实性和多任务理解的对齐方法的有效性。
  3. 综合评估表明,对齐方法在推理任务中表现出缺乏性能,但在解决数学问题和真实性方面表现出令人印象深刻的性能。
  4. 在标准对齐过程中,使用一小部分训练数据对具有所有对齐算法的SFT模型进行微调可以产生更好的性能。

相关工作

随着预训练LLM的发展,在各种任务的零样本和少样本场景中取得了出色的性能。然而,当应用于下游任务时,LLM的性能往往会下降。虽然使用人工微调模型有助于对齐和性能提升,但获得人类对响应的偏好通常更可行。因此,最近的研究转向使用人类偏好微调LLM。以下是各种任务的对齐方法:

  • 人类反馈的强化学习(RLHF):提出通过使用近端策略优化(PPO)等强化算法,使用Bradley-Terry(BT)模型训练的奖励模型来优化最大奖励操作。虽然RLHF增强了模型的性能,但它要应对强化学习中固有的不稳定性、reward hacking和可扩展性等挑战。
  • 序列似然校准(SLiC):引入了一种新的方法来对监督微调(SFT)模型产生的偏好进行排名,在训练期间使用校准损失和正则化微调损失。同时,假设每个输入有多个排序响应,使用零边际似然对比损失训练SFT模型。
  • 统计拒绝抽样优化(RSO):结合了SLiC和DPO的方法,同时引入了一种通过统计拒绝抽样收集偏好对的增强方法。
  • KTO:受到Kahneman和Tversky关于前景理论的开创性工作的启发,旨在直接最大化LLM的效用,而不是最大化偏好的对数可能性。这种方法消除了对同一输入的两个偏好的需要,因为它专注于辨别一个偏好是可取的还是不可取的。
  • Self-Play fIne tuNing(SPIN):一种使用SFT步骤中使用的数据集来增强DPO的自我训练方法。这种方法的关键思想是利用生成的合成数据作为拒绝响应,并利用来自SFT数据集的gold response作为chosen response。同时,收缩偏好优化(CPO)提出了一种将最大似然损失和DPO损失函数相结合的有效学习偏好方法,旨在提高记忆和学习效率。

上述工作缺乏对完成和偏好学习的对齐方法的比较研究。虽然这些研究解决了DPO需要SFT步骤,但有必要进一步探索替代方法。尽管高质量偏好的重要性已被广泛认可,但仍然需要探索数据量对对齐方法性能的影响。此外,泛化的关键方面仍未得到探索。虽然对齐模型旨在增强所有类别的性能,但改进对齐方法通常以牺牲其他领域的性能为代价。

对齐方法

通常RL调整过程分为三个阶段:

  • 使用监督微调(SFT)微调策略模型,
  • 训练奖励模型,
  • 使用强化学习(RL)进一步微调初始策略模型,其中奖励模型提供反馈机制。

DPO最近的研究引入了一种RL-free的方法,旨在通过优化首选和非首选响应的可能性来对齐策略模型。DPO损失函数数学方式表述如下:

尽管DPO通过RTL-free的方法超越了RLHF,但它面临着过度拟合和需要大量正则化等约束,这可能会阻碍策略模型的有效性。为了解决这些限制,研究学者引入了IPO算法,该算法定义了DPO的一般形式并重新制定它以解决过度拟合和正则化。IPO损失函数如下式所示:

IPO算法解决了过度拟合的问题和DPO中存在的需要广泛正则化的缺陷,但基于两种偏好的对齐方法有不同的复杂性。KTO研究旨在通过实施仅利用单一偏好的策略来提高DPO方法的有效性。KTO损失函数表达式如下所示:

IPO和KTO增强了DPO模型的性能并解决了其中部分缺点。然而,当两个模型的同时加载时,会导致DPO算法的学习效率低下。为了改进这一点,研究学者开发了CPO方法,提高了DPO方法的效率。研究表明,在训练期间不需要加载参考策略模型。通过省略内存的参考模型,CPO提高了操作效率,与DPO相比,能够以更低的成本训练更大的模型。CPO损失函数表达式如下所示:

实验

研究团队设置了三个不同的实验场景,以评估DPO和其他几种对齐方法(如IPO、KTO、CPO)的性能:

  • 监督微调(SFT):首先训练一个SFT模型,然后使用对齐方法进行进一步的优化。
  • 预训练模型微调:绕过SFT阶段,直接在预训练模型上应用对齐方法。
  • 指令调整模型微调:跳过SFT阶段,使用指令调整的模型作为基础,再进行对齐方法的微调。这些实验覆盖了对话系统、推理、数学问题解决、问答、真实性和多任务理解等13个基准测试,包括MT-Bench、Big Bench和Open LLM Leaderboard。

方法

为了评估推理方法,实验利用ARC、HellaSwag、Winogrande、Big Bench体育理解(BBsports)、Big Bench因果判断(BB-casual)、Big Bench形式谬误(BB-formal)和PIQA。为了评估各种方法的数学问题解决能力,使用GSM8K基准。使用TruthfulQA基准评估真实性。此外,使用MLU基准来衡量它们在多任务理解方面的表现。OpenBookQA和BoolQ基准用于评估它们在问答任务中的表现。最后,为了评估它们在对话系统中的有效性,利用MT-Bench 基准,它由八个知识领域的 160 个问题组成,GPT-4在0到10的范围内对模型生成的答案进行评分。

实验结果

图1

图2

图3

图4

图5

表1

表2

表3

表4

场景

结论

场景一:监督微调

结合图1-2和表1中,可以看出,除了MLU之外,KTO在MT-Bench中超越了其他对齐方法,并且在所有学术基准测试中都表现出卓越的性能。特别值得注意的是KTO在GSM8K上的卓越性能,突出了其解决数学问题的强大能力。另外,没有采用任何对齐方法在MMLU中优于SFT。这表明SFT仍然优于其他多任务理解方法。此外,除了推理、真实性和问答中的KTO算法外,SFT表现出相当的性能。这表明对齐方法难以在这些任务中取得显著的性能改进。

场景二:预训练模型微调

图3中的研究结果表明,跳过SFT阶段导致Mistral+IPO和Mistral+TPO在对话系统中表现不佳,因为与SFT相比,它们的得分较低。然而,Mistral+KTO和Mistral+CPO的得分与Mistral+SFT相当。图1所示的结果揭示了几个关键发现。首先,跳过SFT阶段会导致推理性能的边际提高,而不会产生显著影响。其次,除了GSM8K的IPO之外,GSM8K和TruthfulQA基准中的所有比对方法都有显著且一致的改进。此外,在MMLU基准中,跳过SFT阶段不仅提高了性能,而且导致所有对齐方法都优于SFT基准。

场景三:指令调整模型微调

表3中显示的结果表明,KTO和IPO在 TruthfulQA 上的表现优于SFT,而基于预训练模型的KTO在TruthfulQA上的表现优于SFT。这强调了指令调整模型的高有效性,尤其是在真实性方面。此外,表4显示,IPO在MT-Bench中优于其他方法。表2和表3中显示的结果表明,SFT在推理、数学、问答和多任务理解基准上表现出相当的性能。虽然对齐方法表现出比 SFT 更好的性能,但准备偏好数据集的挑战仍然很重要,在大多数情况下使用SFT更可取。值得注意的是,在MT-Bench中,与SFT相比,CPO的性能更差,这表明与使用SFT进行微调的模型相比,使用CPO微调的模型在对话系统中表现出较弱的性能。图4显示,虽然提高了整体性能,但模型在某些领域的能力有所下降。图5中另一个有趣的发现是,不仅KTO在人文方面与GPT-4实现了相同的分数,而且CPO在STEM领域也优于GPT-4。这一发现突出了对齐方法与GPT-4等最先进模型相媲美的能力。

总结

本文评估了RL-free在各种任务上的性能,包括推理、数学问题解决、真实性、问答和多任务理解三个不同的场景。结果表明,在大多数情况下,KTO优于其他对齐方法。然而,这些技术在常规对齐过程中并没有显着提高推理和问答中的模型性能,尽管它们显着提高了数学问题解决。研究还表明,对齐方法对训练数据量特别敏感,在较小的数据子集下表现最佳。值得注意的是,与DPO不同,KTO和CPO可以绕过SFT部分并在MT-Bench上实现相当的性能。

这项研究不仅为LLMs的对齐方法提供了一个全面的评价框架,还为未来的研究方向——如何开发出更加健壮的模型来应对对齐挑战——提供了宝贵的见解。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面,一种有效的方法是根据人类反馈的强化学习(RLHF)。尽管经典 RLHF 方法的结果很出色,但其多阶段的过程依然带来了一些优化难题,其中涉及到训练一个奖励模型,然后优化一个策略模型来最大化该奖励。
机器之心
2024/06/04
3190
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
1560
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
《论文翻译》KIMI K1.5:用大语言模型扩展强化学习
通过预测下一个标记进行语言模型预训练,已被证明在扩展计算规模方面是有效的,但它受限于可用训练数据的数量。扩展强化学习(RL)为人工智能的持续改进开辟了新的途径,大语言模型(LLMs)有望通过学习利用奖励进行探索,来扩展其训练数据。然而,先前已发表的研究并未取得具有竞争力的成果。有鉴于此,我们在此报告Kimi k1.5的训练实践,这是我们最新的通过强化学习训练的多模态大语言模型,内容包括其强化学习训练技术、多模态数据方法以及基础设施优化。长上下文扩展和改进的策略优化方法,是我们方法的关键要素,它们构建了一个简单而有效的强化学习框架,且无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。值得注意的是,我们的系统在多个基准测试和模态中,均取得了最先进的推理性能,例如在AIME竞赛中得分为77.5、在MATH 500测试中达到96.2、在Codeforces平台上位于第94百分位、在MathVista测试中为74.9,与OpenAI的o1模型相当。此外,我们提出了有效的长到短(long2short)方法,利用长思维链(long-CoT)技术改进短思维链(short-CoT)模型,从而在短思维链推理方面取得了领先成果,比如在AIME竞赛中得分为60.8、在MATH500测试中达到94.6、在LiveCodeBench测试中为47.3,大幅超越了现有的短思维链模型,如GPT-4o和Claude Sonnet 3.5(提升幅度高达550%)。
码事漫谈
2025/01/24
3530
《论文翻译》KIMI K1.5:用大语言模型扩展强化学习
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
群体相对策略优化 (GRPO,Group Relative Policy Optimization) 是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。
致Great
2025/02/12
2.1K0
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !
直接偏好优化(DPO)作为一种比从人类反馈中学习的强化学习(RLHF)更具有计算效率的替代方案,结合了接近策略优化(PPO),消除了奖励模型和在线采样的需求。
AIGC 先锋科技
2025/01/01
1640
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位  !
Deita: 有限高质量数据在LLM的潜力是真的大
数据工程在指令调优中的有着关键作用。当选择适当时,只需要有限的数据就可以实现卓越的性能。然而,什么是良好的指令调优数据以进行对齐,以及如何自动有效地选择数据仍需研究。本文深入研究了对齐的自动数据选择策略。在复杂性、质量和多样性三个维度上评估数据。并提出DEITA(Data-Efficient Instruction Tuning for Alignment),一个从LLaMA和Mistral模型中微调的模型
zenRRan
2024/01/05
6060
Deita: 有限高质量数据在LLM的潜力是真的大
当LLM学会左右互搏,基础模型或将迎来集体进化
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。
机器之心
2024/01/11
2100
当LLM学会左右互搏,基础模型或将迎来集体进化
解密prompt24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
解密prompt24. RLHF新方案之训练策略:SLIC-HF & DPO & RRHF & RSO
风雨中的小七
2024/02/21
1.3K0
解密prompt24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
【学习强化学习】十三、模仿学习介绍[通俗易懂]
模仿学习(imitation learning,IL)又叫做示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。
全栈程序员站长
2022/11/04
2.1K0
【学习强化学习】十三、模仿学习介绍[通俗易懂]
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
该研究目标是创建一个与用户意图更符合的小型语言模型。通过应用蒸馏监督微调(distilled supervised fine-tuning, dSFT)和蒸馏直接偏好优化(distilled direct preference optimization, dDPO)以及利用AI反馈(AI Feedback, AIF)的偏好数据,研究者成功提升了模型的任务准确性和意图对齐度。ZEPHYR-7B模型以7B参数在聊天基准测试中创立了新标准,无需人工注释,且在MT-Bench测试中超过了之前的模型。此方法的优势包括较短的训练时间和无需额外采样,为开放大型语言模型(LLMs)的发展和微调提供了新方向。同时,研究未考虑模型安全性如可能产生有害输出等问题。
唐国梁Tommy
2023/11/02
7420
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
使用KTO进行更好、更便宜、更快速的LLM对齐
KTO全称为Kahneman-Tversky Optimisation,这种对齐方法使在我们的数据上对大型语言模型(LLM)进行对齐变得前所未有地容易和便宜,而且不会损害性能。大型语言模型的成功在很大程度上得益于与人类反馈的对齐。如果ChatGPT曾经拒绝回答您的问题,很可能是因为它被训练为避免说出有争议的内容。然而,对于公司来说,对他们自己的LLM进行对齐一直是困难的。下面我们简单介绍下KTO方法,这种方法可以提高LLM的整体性能和质量,同时节省成本。
致Great
2024/01/20
2K0
使用KTO进行更好、更便宜、更快速的LLM对齐
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
Richard Sutton 在 「The Bitter Lesson」中做过这样的评价:「从70年的人工智能研究中可以得出的最重要教训是,那些利用计算的通用方法最终是最有效的,而且优势巨大。」
机器之心
2024/05/14
2570
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
只进行过「预训练」的模型是没办法直接使用的,存在输出有毒、危险信息的风险,也无法有效遵循人类指令,所以通常还需要进行后训练(post-train),如「指令微调」和「从人类反馈中学习」,以使模型为各种下游用例做好准备。
新智元
2025/02/15
730
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
Zephyr模型详解
Zephyr利用dDPO,显著改善了意图对齐和AI反馈(AIF)偏好数据,该方法遵循与InstructGPT相似的步骤。
deephub
2023/11/20
5950
Zephyr模型详解
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。
机器之心
2024/06/27
5050
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers
VincentLee
2024/09/12
1350
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
YOLO再战大雾天气 | IA-YOLO数据增强+感知损失,做到大雾天气无痛即可完成YOLO检测器的场景升级
基于图像增强的技术试图生成无雾图像。然而,从有雾图像中恢复无雾图像比在雾天图像中检测物体要困难得多。另一方面,基于领域适应的方法并不使用目标领域中的标记数据集。这两类方法都在尝试解决一个更难的问题版本。 FogGuard特别设计用来补偿场景中存在的雾天条件,确保即使在雾天也能保持稳健的性能。作者采用YOLOv3作为基准目标检测算法,并引入了一种新颖的“教师-学生”感知损失,以提高雾天图像中的目标检测准确度。 在如PASCAL VOC和RTTS等常见数据集上的广泛评估中,作者展示了作者网络性能的提升。作者证明,FogGuard在RTTS数据集上达到了69.43%的mAP,而YOLOv3为57.78%。 此外,作者表明,尽管作者的训练方法增加了时间复杂度,但在推理过程中与常规的YOLO网络相比,它并没有引入任何额外的开销。
集智书童公众号
2024/03/29
2.2K0
YOLO再战大雾天气 | IA-YOLO数据增强+感知损失,做到大雾天气无痛即可完成YOLO检测器的场景升级
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。
deephub
2024/04/16
2.3K0
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
在开放和动态的环境中,目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略,跨模态目标检测方法已达到高精度,例如CFT(杨等人,2017年)、GAFF(杨等人,2017年)和CFR
集智书童公众号
2024/05/10
1.7K0
浙江理工 &  谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
教会羊驼说话:Instruction Tuning的最新进展
大型语言模型(LLM),凭借其数十亿的参数和数万亿token的庞大训练数据,展现了强大的功能。为了成为一种全能的任务解决工具,LLM必须学会根据用户指令作出连贯且有益的回应,而不仅仅是重复网络上的语言模式。基于此,开放式指令调整open-ended instruction tuning[1]应运而生。这种方法对LLM进行微调,使其能够按照用户的指令作出有用、诚实和无害的回应。随着ChatGPT取得巨大成功,人们对这种方法的兴趣日益浓厚。开放式指令调整通常包括两个阶段:
zenRRan
2023/12/15
5000
教会羊驼说话:Instruction Tuning的最新进展
推荐阅读
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
3190
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
1560
《论文翻译》KIMI K1.5:用大语言模型扩展强化学习
3530
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
2.1K0
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !
1640
Deita: 有限高质量数据在LLM的潜力是真的大
6060
当LLM学会左右互搏,基础模型或将迎来集体进化
2100
解密prompt24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
1.3K0
【学习强化学习】十三、模仿学习介绍[通俗易懂]
2.1K0
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
7420
使用KTO进行更好、更便宜、更快速的LLM对齐
2K0
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
2570
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
730
Zephyr模型详解
5950
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
5050
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
1350
YOLO再战大雾天气 | IA-YOLO数据增强+感知损失,做到大雾天气无痛即可完成YOLO检测器的场景升级
2.2K0
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
2.3K0
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
1.7K0
教会羊驼说话:Instruction Tuning的最新进展
5000
相关推荐
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档