【天极网IT新闻频道】随着人工智能的快速崛起与落地,数据成为困扰人工智能进一步发展的主要障碍。针对这一困境,百度近期宣布向国内外高校免费开放AI数据集。作为百度AI公开数据集计划的重要组成部分,这一举措将降低机器学习、深度学习的门槛,对高校师生的AI研究有着直接显著的帮助,并将进一步吸引、挖掘与培养高校中的AI人才。
百度开放海量优质数据 解决当下高校研发难题
如今,人工智能模型和算法获取的渠道虽多,但数据数量的缺失和质量的瑕疵成为横亘在科研机构和个人面前的巨大障碍。对此,许多高校师生表示,目前国内特别是高校能接触到的数据非常有限,国外的数据集又难以获取。数据的缺失与数据采集、标注的高成本,大大阻碍了学生进行算法优化与发表学术论文的进程,成为了高校师生开展AI前沿技术研究和探索的一大障碍。
在2017百度世界大会AI技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布推出目前全球规模最大的开放数据集——百度AI公开数据集计划“BROAD”(Baidu Research Open-Access Dataset),面向公众开放包括室外场景理解数据集、视频精彩片段数据集、阅读理解数据集在内的三大数据集,AI数据集的开放也恰好解决了科研及学习中的数据来源困境。而重点面向海内外高校科研学子推广使用百度AI数据集这一举措,更将显著降低机器学习、深度学习的门槛,进一步吸引、挖掘校园中潜在的AI开发者。
百度开放的三大AI数据集之一——室外场景理解数据集来源于百度自动驾驶事业部,其中包括世界上第一个带像素级语义标签的室外3D视频。视频精彩片段数据集囊括1500个长视频以及18000个精彩小视频,能够提供视频帧的图片特征序列。而首次亮相的百度阅读理解数据集DuReader,则是迄今为止规模最大的中文开放领域阅读理解数据集。
覆盖海内外百所高校 为千万师生提供强大学习驱动力
目前,百度通过对海内外重点高校AI强相关院系的定向宣传、普及活动,已吸引海内外近160所高校关注和下载使用,其中既涵盖了清华大学、北京大学、浙江大学、中国科学技术大学等国内重点院校,也覆盖了斯坦福大学、加州大学洛杉矶分校、麻省理工学院等海外知名学府,获得了海内外高校师生的积极响应。
这些开源的数据集,将在AI时代发挥长远的价值。数据开源化可以有效地帮助实验室研究者提升算法优化的验证效率,让难以获取数据集这一问题不再成为科研人员的困扰,对其进行算法优化有直接显著的帮助。另一方面,对于日常教学而言,开源的数据集可以作为学生日常算法训练的评判依据,方便学生们获取测试数据。此外,其对学生在高校从事科研工作也同样具有重要意义,不仅使学生能够接触、使用开源的数据集进行开发,提前得到算法模型优化的训练,更能为今后成为高质量的算法工程师打下基础。
未来,百度还将持续着力向广大高校开源不同方向和研究领域的数据集,为高校AI技术提供强大的学习驱动力,鼓励高校探索人工智能学科领域当中最有价值的技术问题,并在百度完善的AI人才培养机制下,进一步吸引、发掘和培养中国人工智能领域的精英技术储备人才,让未来充满无限可能。
领取专属 10元无门槛券
私享最新 技术干货