info: T. B. Brown et al., “Language Models are Few-Shot Learners,” 2020, doi: 10.48550/ARXIV.2005.14165.
A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, and others, “Improving language understanding by generative pre-training,” 2018.
A. Radford et al., “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, p. 9, 2019.
OpenAI在18、19与20年接连发布了GPT三部曲,其模型分别被称为GPT-1 、GPT-2 和GPT-3。其中GPT-1借鉴CV领域的预训练思路,基于Transformer模型的解码器,实现了利用无标签文本预训练再有监督微调以适应下游子任务的语言模型,并在9个子任务上取得最佳得分。也许是受其启发,Google的团队随即发布了BERT与之针锋相对,BERT使用了Transformer的编码器,并增大了预训练数据集,效果也逼GPT-1好。OpenAI在次年继续改进,然而模型结构并无太大变化,且继续增大数据集并没有让精度起飞,效果并不显著。于是GPT-2的文章找了个偏僻的角度看问题,从多任务学习和零样本学习发力,这个方向的其它方案自然比不过砸海量预训练数据的GPT-2了。而从GPT-2开始不再进行有监督微调而强调零样本。而20年的GPT-3,也就是本篇论文,其模型方面与GPT-2一致,通篇都在讲结果、讨论,都是各种各样的分析,而其关键的训练部分比较模糊。
最近几年语言模型在NLP任务中应用广泛,通常需要在特定任务的数据集上进行微调,而参数巨大的模型在微调时存在较大代价。本文提出使用大规模预训练语言模型,在推理时进行少样本学习,以适应不同任务,减少对特定任务数据集的依赖。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有