采用编码器-解码器架构(encoder-decoder)的Alexa教师模型在少样本学习任务中显著优于仅使用解码器的其他大型语言模型。该模型在摘要生成和机器翻译等任务中展现出色性能。
该20B参数生成模型名为AlexaTM 20B,其独特之处在于:
模型训练打破传统,采用80%去噪任务和20%因果语言建模任务的混合预训练策略:
在Flores-101数据集上,该模型在几乎所有支持的语言对中都实现了最先进的少样本机器翻译性能。特别是在马拉地语、泰米尔语和泰卢固语等低资源语言的翻译中取得显著提升(例如阿拉伯语到泰米尔语的BLEU得分达到21.8,而监督式模型仅为0.9)。
该模型支持在有限GPU内存的八块GPU上进行推理,为研究人员提供更灵活的使用方式。但需注意:
这项研究证明了所提出的预训练方法使序列到序列模型在少样本学习和微调设置中都能超越更大的仅解码器模型,为大型语言模型训练提供了强有力的替代方案。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。