大语言模型已在多种语言中取得显著进展。然而,藏语作为典型的低资源语言,由于高质量训练语料的稀缺,在现有模型中代表性严重不足。为弥补这一差距,研究团队构建了迄今规模最大的藏语预训练语料库,聚合多源数据并应用专为藏语设计的数据清洗与处理流程。基于该语料库,通过持续预训练/后训练多语言基础模型,显著提升了其藏语生成能力。为评估模型的藏语能力,研究团队创建了高质量的藏语基准测试集,并与现有公开基准形成互补。实验结果表明,该模型在广泛任务中持续且显著优于同等规模的开源模型及专门针对藏语的模型。
通过精心构建的大规模藏语语料库和持续预训练方法,成功提升了多语言大语言模型在藏语任务上的性能。该研究为低资源语言的自然语言处理提供了可行的技术路径,实验证明该方法在多个维度显著优于现有解决方案。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。