前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >提升开源LLMs推理能力!清华 | 构建高质量对齐数据集,公布「 Eurus」系列模型

提升开源LLMs推理能力!清华 | 构建高质量对齐数据集,公布「 Eurus」系列模型

作者头像
ShuYini
发布2024-04-12 21:05:27
4540
发布2024-04-12 21:05:27
举报
文章被收录于专栏:自然语言处理(NLP)论文速递

引言

为了提升开源大模型(LLMs)的复杂推理能力,缩小与专有模型之间的差距。本文作者构建了一个大规模、高质量对齐数据集ULTRAINTERACT,它包含了多样化的指令和偏好树结构。作者基于该数据集训练得到了Eurus系列模型,实验表明,模型在数学解答、代码生成和逻辑推理等多种测试基准测试集上取得了开源模型中的SOTA

https://arxiv.org/pdf/2404.02078v1.pdf

背景介绍

当前,开源LLMs在人类价值观对齐方面取得了显著进展,尤其是在编程(coding)、解决数学问题(math problem-solving)等特定应用场景下。然而,对比当前专有大模型(例如GPT-4、Claude3等),这些开源模型在处理多样化的复杂问题方面仍有很大差距。

面对这种困境,研究人员认为这种性能差距主要归因于两大原因:一是缺乏高质量的对齐数据(High-quality alignment data),二是对改进模型复杂推理能力的偏好学习技术(Preference learning techniques)的探索不足。

基于该背景,本文作者专为复杂推理任务设计了一个大规模、高质量数据集(ULTRAINTERACT),用于大模型的监督微调和偏好学习;然后基于该数据集作者对Mistral-7B、CodeLlama-70B等模型进行调优得到了Eurus系列模型,实验表明它们在数学解答、代码生成和逻辑推理等多种测试基准测试集上取得了开源模型中的SOTA。

ULTRAINTERACT数据集

ULTRAINTERACT数据集是本文模型效果出彩的关键,该数据集目的是提升大语言模型(LLMs)在数学解答、代码编程、逻辑推理等问题上的能力。ULTRAINTERACT采用了树状结构(tree-structured)来组织数据,这种结构有助于模型学习如何通过多轮交互来优化其推理过程。如下图所示:

具体来说,ULTRAINTERACT数据集其主要有以下三个特点:

「多样高质量数据」 为了确保数据的质量,研究者们选择了那些即使是先进的GPT-3.5-Turbo模型也无法解决的具有挑战性的问题。这种选择旨在提供高质量的监督数据,而不是依赖于LLM作为评判的注释。为了确保数据集多样性,作者从不同类别的数据集中选择了问题,确保每个数据集都包含基于问题类别或解决问题所需的独特推理模式;为确保有效的生成反馈,数据集中的 Gold solutions也被用作批评模型的参考。

「多轮交互」 如下图所示,在每一轮中,Actor模型都会生成推理链,代码解释环境和批评模型分别提供观察和文本批评。这个过程不是一次性的,而是通过多轮迭代来完成的。在每一轮中,模型都会根据前一轮的反馈来调整其行动。这种迭代过程有助于模型逐步接近问题的最终解决方案。

通过分解、交互的多轮轨迹,为模型提供了丰富的学习材料。这些轨迹不仅包含了正确的解决方案,还包括了错误的尝试和相应的反馈,使得模型能够从中学习如何有效地解决问题。

「偏好学习」 为每个指令收集了一个偏好树,其中每个节点代表一个行动(action),而树的根是初始指令(instruction)。从根到叶的路径(trajectory)代表了一系列行动的序列,这些行动是模型在尝试解决问题的过程中生成的。在每个偏好树中,所有正确行动的节点和所有以正确行动结束的轨迹都可以用于监督式微调(SFT),而成对的正确和错误的节点或轨迹则用于偏好学习。

Eurus系列模型

基于ULTRAINTERACT数据集,本文训练调优得到了Eurus系列模型,其中:

Eurus系列模型主要包括「Eurus-7B」「Eurus-70B」:这两个模型分别基于Mistral-7B和CodeLlama-70B模型优化训练得到,它们在多个推理基准测试中取得了优异的结果。

「Eurus-RM-7B」:这是一个奖励模型,它通过奖励建模来增强Eurus-7B模型的推理性能,特别是在偏好学习方面。

实验结果

实验评估了Eurus模型在单轮和多轮推理任务上的性能。单轮评估涵盖了HumanEval、MBPP和LeetCode等编码任务,以及GSM-Plus、MATH、TheoremQA、SVAMP和ASDiv等数学和逻辑推理任务。多轮评估使用了MINT框架,主要针对编码和数学问题。评估指标包括准确率和成功率等。

下图展示了Eurus-7B和Eurus-70B模型在「LeetCode」「TheoremQA」两个挑战性基准测试上的性能,Eurus-70B模型在这些任务上与GPT-3.5 Turbo相当,甚至在某些情况下表现更好。

Eurus模型与其他开源模型和专有模型在不同任务上的比较,如下图所示。其中包括了各种模型在编码、数学、推理和多轮交互任务上的性能指标。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • ULTRAINTERACT数据集
  • Eurus系列模型
  • 实验结果
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档