MASSIVE数据集包含100万条标注语料,涵盖51种类型学多样语言,包含18个领域、60种意图和55个槽位。该平行数据集的特点是每条语句均提供全部51种语言版本,支持跨语言训练和知识迁移。
该数据集通过专业翻译人员将英语SLURP数据集本地化为50种语言,采用CC BY 4.0许可促进学术和工业界使用。零样本学习技术有望将NLU能力扩展至全球7000多种语言中的低资源语言。
多语言模型通过学习跨语言共享表示,实现从高资源语言向低资源语言的知识迁移,显著提升语言理解的覆盖范围和技术普惠性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。