首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4

prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4

作者头像
zenRRan
发布2023-09-25 15:56:55
发布2023-09-25 15:56:55
6850
举报

「深度学习自然语言处理」公众号分享

今天突然看到prompt概念提出者刘鹏飞(现上交大副教授)在twitter上的消息:

SFT的潜力仍未完全释放!!!无需使用工具,无需在数学语料库上进行持续预训练,无需RLHF,仅仅使用SFT,我们在GSM8k(83.62)和MATH(28.26)数据集上实现了开源LLM的SoTA(不使用外部工具):https://github.com/GAIR-NLP/abel。

这个仅仅由大学生为主导的项目,超越了商业多十亿美元模型MathGPT和GPT4。

下面是具体内容,速览~

摘要

📝 Abel是为了向尼尔斯·亨里克·阿贝尔( Niels Henrik Abel)致敬而创建的,他在代数和分析领域的开创性工作对我们的模型也有相对较好的影响。尽管我们还有很长的路要走 🏃‍♂️🏃‍♀️🏁🏃‍♂️🏃‍♀️。

我们展示了:

  • 需工具
  • 需持续预训练
  • 需奖励模型
  • 需RLHF(强化学习自我模型训练)
  • 使用SFT(监督微调)

我们在开源LLMs(不使用外部工具的模型)上建立了GSM8k(83.62)和MATH(28.26)基准的SoTA。具体来说:

  • GSM8K的性能为83.62%,超过了顶尖模型,如PaLM-1、Minerva(Google)、Claude-instant(Anthropic)、ChatGPT(OpenAI),仅落后于Google最新模型PaLM-2-Flan 1个百分点。
  • 在高度具有挑战性的数学竞赛问题上,实现了28.26%的准确率(相对于GPT4的42.5%),它在其他开源模型中保持了显著领先,超过了以前最好的开源模型5.56%。
  • 7B和13B模型在GSM8K和MATH的开源模型性能方面实现了历史性的里程碑
  • GAIRMath-Abel在排名前十名中占据了3个位置,并作为唯一的大学主导项目出现在列表中(其他项目要么是明星初创公司,要么是大型科技公司)。
  • 使用我们的方法,我们不仅在GSM8K和MATH上取得了出色的结果,而且在提供新数据集(TALSCQ-EN)时,我们很快就达到了SoTA,超越了商业多十亿美元模型MathGPT和GPT4。

我们证明了:

  • SFT的能力被严重低估,研究人员应该对SFT持适当的敬意和谨慎的态度
  • 仅通过SFT,可以实现出色的数学问题解决能力,这在未来的探索中引发了更多的想象可能性。

模型和性能

方法

我们提出了“监护监督”(Parental Oversight),一种用于监督微调的保姆策略,

监护监督(Parental Oversight)并不局限于任何特定的数据处理方法。相反,它定义了应该在生成式人工智能(GAI)时代指导监督微调的数据处理理念。我们认为,在GAI时代,数据结构工程已经成为一种新的范式。在这个范式内,微调数据的处理方式显著影响了经过训练的GAI的性能。我们预计社区中将有越来越多的研究关注这种数据处理理念。

监护监督”的原则强调要谨慎对待和审慎处理监督微调,这类似于鼓励父母教育他们的孩子的方式。不同类型的数据,以及它们的呈现格式(例如,逐步推理、迭代改进),可以类比为不同的教育方法。正如父母谨慎选择最有效的方式来教育他们的孩子一样,GAI从业者应该谨慎选择最有效的数据处理方法,以更好地教育他们的LLMs。

此外,“数据越多越好”的理念并不总是成立的。标注样本的质量和相关性通常可以超过其数量。在SFT中使用的训练样本不仅应该呈现正确答案,还应该根据LLM的知识告诉模型正确答案是如何得出的。另外,如果LLM的知识不足以回答一个问题,监护监督应该迅速介入以解决知识上的缺口。

数学推理排行榜

🔒代表未开源模型,而🌍代表开源模型

🎓表示模型的开发由学术大学主导(而不是由公司主导)

我们只考虑不使用任何工具(例如Python)的模型。

超越好未来MathGPT

我们展示了Abel-70B不仅在GSM8k和MATH数据集上实现了SoTA,而且在TAL-SCQ5K-EN 2K上也表现出很好的泛化性能,这是数学LLM提供商TAL(好未来)新发布的数据集。我们的分析表明,我们的SFT方法能够成功地将Abel泛化到不同分布的数据集。我们将进行进一步的分析和实验,以探索和改进Abel的泛化能力。

一个字:👍🏻

示例

Llama2 v.s. Abel on gsm8k question

Llama2 v.s. Abel on MATH question

后续

我们持续优化我们的模型,并将发布更新。请保持关注!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-22 15:58,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 模型和性能
  • 方法
  • 数学推理排行榜
  • 超越好未来MathGPT
  • 示例
  • 后续
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档