【天极网IT新闻频道】在2018年中央电视台春节联欢晚会上,以百度无人车等为代表的高科技产品登上了电视荧屏,这使人工智能再次成为社会热议的话题。2月21日,百度自然语言处理团队研发的 V-Net 模型以46.15的 Rouge-L得分登上微软的 MS MARCO 机器阅读理解测试排行榜首,机器阅读理解领域再次引起内业关注。
为了进一步提升机器阅读理解的研究水平,推动语言理解和人工智能领域技术研究和应用的发展,2018机器阅读理解技术竞赛孕育而生。本次大赛的任务是对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,要求参评阅读理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。为了便于参赛选手快速了解竞赛任务,竞赛还提供了两个开源的阅读理解基线系统,并采用ROUGH-L和BLEU作为评价指标。
此外,百度公司将提供30万个来自于百度搜索的真实问题的数据集,每个问题对应5个候选文档文本,以及人工撰写的优质答案,这些数据集将被划分为28万的训练集,1万开发集和1万测试集。该数据集中包含了DuReader中已发布的20万问题数据,用于预训练和测试,成功报名竞赛的团队将获得新增的10万问题数据集。
通过本次竞赛,百度公司将提供应用于真实场景的大规模中文阅读理解数据集,为研究者提供学术交流的平台,一方面进一步提升机器阅读理解技术的研究水平,提升算法优化的验证效率,吸引、发掘优质AI人才,助力我国高素质AI人才培养,为高质量的算法工程师打下基础,培养中国人工智能领域的精英技术储备人才;另一方面,希望鼓励探索人工智能学科的应用价值,用AI技术增强用户体验、优化产品功能,提升用户获取精准信息的效率,以技术落地改善未来生活。百度公司希望本次比赛能从学术与行业赋能机器阅读理解,提升中国在人工智能领域的影响力。
作为技术型互联网企业,百度多年深耕的AI技术已处于世界领先水平,在语音识别、图像识别、无人驾驶、深度学习等领域遍地开花,同时逐步将AI技术融合到各行业中去,以技术为驱动改变现实生活。不久前,在美国权威杂志《麻省理工科技评论》公布的2018年“全球十大突破性技术”中,百度成为本年度唯一入选的中国公司,也是史上首个连续3年入选该榜单的中国公司。
未来,百度公司将做出更大努力,开放海量优质的数据,助力机器阅读理解技术的迅速崛起与落地,降低机器学习、深度学习的门槛,进一步培养和挖掘人工智能人才,使 AI 能够理解人类的语言、用自然语言与人类交流,让 AI 更‘懂’人类。在此,百度诚邀所有AI数据集有兴趣的技术人才了解和关注百度阅读理解数据集。已公开的阅读理解数据集可以自由下载https://ai.baidu.com/broad/introduction?dataset=dureader,并通过平台提交测试集结果进行系统效果测试。除了阅读理解数据集,百度AI公开数据集计划BROAD(Baidu Research Open-Access Dataset)还发布了视频和图像数据集,更多数据集参见:https://ai.baidu.com/broad 。
领取专属 10元无门槛券
私享最新 技术干货