首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >51种语言理解数据集发布与多语言NLU技术突破

51种语言理解数据集发布与多语言NLU技术突破

原创
作者头像
用户11764306
发布2025-09-26 21:24:31
发布2025-09-26 21:24:31
720
举报

某中心发布51种语言理解数据集

数据集概览

MASSIVE数据集包含100万条标注语料,涵盖51种类型学多样语言,包含18个领域、60种意图和55个槽位。该平行数据集的特点是每条语句均提供全部51种语言版本,支持跨语言训练和知识迁移。

技术特性

  • 多语言建模:基于XLM-R和mT5模型建立基线结果
  • 零样本学习:支持仅用英语数据训练后泛化至50种非英语语言
  • 任务支持:支持意图分类、槽位填充等自然语言理解任务
  • 扩展应用:可应用于机器翻译、多语言复述等NLP任务

竞赛与工作坊

  • MMNLU-22竞赛:包含全语言训练和零样本学习两个赛道
  • 评估时间线:7月25日发布评估集,8月8日截止提交
  • EMNLP工作坊:12月在阿布扎比和线上同步举行,展示竞赛成果

技术意义

该数据集通过专业翻译人员将英语SLURP数据集本地化为50种语言,采用CC BY 4.0许可促进学术和工业界使用。零样本学习技术有望将NLU能力扩展至全球7000多种语言中的低资源语言。

模型优势

多语言模型通过学习跨语言共享表示,实现从高资源语言向低资源语言的知识迁移,显著提升语言理解的覆盖范围和技术普惠性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 某中心发布51种语言理解数据集
    • 数据集概览
    • 技术特性
    • 竞赛与工作坊
    • 技术意义
    • 模型优势
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档