
「深度学习自然语言处理」公众号分享
今天突然看到prompt概念提出者刘鹏飞(现上交大副教授)在twitter上的消息:

SFT的潜力仍未完全释放!!!无需使用工具,无需在数学语料库上进行持续预训练,无需RLHF,仅仅使用SFT,我们在GSM8k(83.62)和MATH(28.26)数据集上实现了开源LLM的SoTA(不使用外部工具):https://github.com/GAIR-NLP/abel。
这个仅仅由大学生为主导的项目,超越了商业多十亿美元模型MathGPT和GPT4。
下面是具体内容,速览~
📝 Abel是为了向尼尔斯·亨里克·阿贝尔( Niels Henrik Abel)致敬而创建的,他在代数和分析领域的开创性工作对我们的模型也有相对较好的影响。尽管我们还有很长的路要走 🏃♂️🏃♀️🏁🏃♂️🏃♀️。
我们展示了:
我们在开源LLMs(不使用外部工具的模型)上建立了GSM8k(83.62)和MATH(28.26)基准的SoTA。具体来说:
GAIRMath-Abel在排名前十名中占据了3个位置,并作为唯一的大学主导项目出现在列表中(其他项目要么是明星初创公司,要么是大型科技公司)。我们证明了:

我们提出了“监护监督”(Parental Oversight),一种用于监督微调的保姆策略,
监护监督(Parental Oversight)并不局限于任何特定的数据处理方法。相反,它定义了应该在生成式人工智能(GAI)时代指导监督微调的数据处理理念。我们认为,在GAI时代,数据结构工程已经成为一种新的范式。在这个范式内,微调数据的处理方式显著影响了经过训练的GAI的性能。我们预计社区中将有越来越多的研究关注这种数据处理理念。
“监护监督”的原则强调要谨慎对待和审慎处理监督微调,这类似于鼓励父母教育他们的孩子的方式。不同类型的数据,以及它们的呈现格式(例如,逐步推理、迭代改进),可以类比为不同的教育方法。正如父母谨慎选择最有效的方式来教育他们的孩子一样,GAI从业者应该谨慎选择最有效的数据处理方法,以更好地教育他们的LLMs。
此外,“数据越多越好”的理念并不总是成立的。标注样本的质量和相关性通常可以超过其数量。在SFT中使用的训练样本不仅应该呈现正确答案,还应该根据LLM的知识告诉模型正确答案是如何得出的。另外,如果LLM的知识不足以回答一个问题,监护监督应该迅速介入以解决知识上的缺口。
🔒代表未开源模型,而🌍代表开源模型
🎓表示模型的开发由学术大学主导(而不是由公司主导)
我们只考虑不使用任何工具(例如Python)的模型。


我们展示了Abel-70B不仅在GSM8k和MATH数据集上实现了SoTA,而且在TAL-SCQ5K-EN 2K上也表现出很好的泛化性能,这是数学LLM提供商TAL(好未来)新发布的数据集。我们的分析表明,我们的SFT方法能够成功地将Abel泛化到不同分布的数据集。我们将进行进一步的分析和实验,以探索和改进Abel的泛化能力。

一个字:👍🏻

Llama2 v.s. Abel on gsm8k question

Llama2 v.s. Abel on MATH question
我们持续优化我们的模型,并将发布更新。请保持关注!