前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个耗资数百万的AI数据集,和它背后的90后超人们

一个耗资数百万的AI数据集,和它背后的90后超人们

作者头像
量子位
发布2018-03-27 14:37:05
7810
发布2018-03-27 14:37:05
举报
文章被收录于专栏:量子位
李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。

1994年出生的巨丹,属于清楚知道原因的那部分人。

这个23岁的化工大学化学专业毕业生,从第一份实习工作开始,核心任务就是人工智能中“人工”的那部分,现在她是一个AI视觉数据集审核团队的leader。每当一个新成员加入,她总会引用她的leader曾经向她解释的话:人工智能人工智能,先有人工才有智能,有多少人工才会有多少智能。

“人工要不够,就会从智能变智障。”

超人90后

巨丹领导的是一个12人规模的团队,完全由来自北京高校的实习生组成,专业不限,年龄不限,被核心在意的只有实习的时间。

今年立夏前后,他们开始了每天为期8小时的工作,主要内容就是为审核已被初步标注的数据集。其中一部分人阅读速度快,被分到了审核“看图说话”的工作,另一部分人则较为细心,于是领到了复核“人体骨骼关键点”标注的任务。

数据标注公司给他们开发了专门的审核平台,这些大学在校生人手一个帐号,他们需要审核的工作对象,要么是那些被框定的人物,要么是被标出14个人体骨骼节点的图像。

这是个枯燥的工作,但不时发生一些小趣事。

在验收中,有一张图片的“描述”写道:一个男孩拿着话筒坐在椅子上。但审核验收的同学认为如此秀气的一个女孩儿,怎么就被描述成“男生”了?理所当然驳回让标注组返工。

然而来自标注组的电话随之到来,电话那头一脸懵逼地反问说:难道鹿晗不是男孩吗?图片中拿着话筒端坐的人物正是鹿晗呀。

这样的例子还有很多,有时也确实是标注组的“错误”。比如有一张图片里,他们把王俊凯标注成了李宇春……

其实参与标注、审核验收的都是94、95年出生的年轻人,他们正是鹿晗和王俊凯影响辐射范围里的核心群体,但机械、重复的审核工作,对于青春偶像的认知变得更为“客观”、“理性”和“AI化”。

这样的工作任务日复一日,持续进行了很久,甚至在上线日期紧迫的前几周,他们这12人小组还在周末加班加点,以保证首批数据集如期推出。

5个月辛苦工作后,巨丹等到了第一批反馈。

9月4日,AI Challenger(全球AI挑战赛)数据集正式上线。数小时后,有参赛选手完成了第一波数据集评价,参与这个视觉数据集打造并最终审核验收的产品经理梁睿收到反馈:“数据集很赞,竟然有针对图片的如此丰富的中文场景描述,前所未见”。

听到这样的评价,23岁的巨丹为之前的辛苦工作感到值得。她告诉量子位,一线负责数据集审核验收的工作并不轻松,但收到这样的反馈会让他们由衷开心。

作为数据集审核验收组组长,巨丹比同组其他人更明白数据集的意义和价值,其中大部分来自程序员和工程师的“言传身教”。

毕业于康奈尔大学、本职为创新工场AI工程院产品经理的梁睿告诉她,人工智能之所以被称为人工智能,就是先有人工再有智能,如果人工付出不够,就会变成人工智障。而人工的多少,最后反应为数据集质量的高低。

尽管巨丹并无法详述数据集具体如何让AI算法更智能,但她知道核心原理:“数据不好,就会影响牛逼技术的产生”。

巨丹从事这份工作已有1年多的时间,她表示现在看到的世界“与众不同”,比如在商场人群密集区,她满眼望去都是“人体骨骼节点”的图像,哪些属于上肢,哪些又属于下肢,哪些很清晰,哪些又被遮挡住了……她好几次这样看着就自己笑出声来,觉得自己拥有了一项“超人”的新技能。

之前有外界对这样的工作表达过悲观,认为数据标注审核完全就是新时代的富士康工作,但显然巨丹不这样认为,她觉得有站在前面研发算法和技术应用的人,也不能缺像她一样的背后服务者,即便看起来没有那么光鲜。

AI Challenger数据集验收中

巨丹的观点也得到倪笑海认同,后者是Face++的第4号员工,也是此次AI Challenger提供的三个视觉数据集之一图像中文描述数据集的标注团队负责人。

倪笑海正在打造起一支数据标注方面的正规军,他常对自己的团队说,他们所做的工作可以说是“数字工人”,也可以看做AI前线的认知者,在每一个领域的数据标注中,他们都会因此成为对该领域AI化结合认知最深刻的人。

数据标注的工作,确实不轻松,但也并非外界想象的缺乏前景。

耗资数百万

在Face++,倪笑海承担了这家全球闻名的人脸识别公司光鲜背后的那部分工作,他出身金融财务专业,被印奇、唐文斌和杨沐等人拉拢参与创业,“负责了技术之外所有的事情”。

现在,倪笑海最核心的工作,是为Face++每一个垂直领域的开拓铺垫基础、准备好数据粮草。在Face++,每一名博士都会配备3-4名数据标注人员当助手。而倪笑海领导的300人规模的团队,有些类似于京东壮大过程中的“京东物流”。

这一次给AI Challenger提供图像中文描述数据集标注服务,倪笑海动用了团队中的250人,其中200人标注,50人检查,从2月份正式开工启动,直至近期才基本结束,历时超过7个月时间。

但这还未计入“标准定义”时期的时间。倪笑海认为,这才是一个数据集标注最具挑战的部分。

原本这个数据集标注项目2016年10月就开始寻找团队接手,但在公开标注市场找寻一圈之后,并没有在“客服和运营转型”而来的标注公司中寻得满意的供应商。

于是创新工场投资公司Face++的标注团队进入主办方视野,希望借助经验丰富的Face++标注团队来实现借图像中文描述数据集”标注这一具有挑战的任务。

实际的标注工作并没有马上开始,AI Challenger组委会与Face++标注团队聚在一起,又花了一个月多时间进行任务的“重新定义”。如果不把这个标准工作变成一个可标准化执行的工作,那后期一定问题不少。例如标注的数据会偏,训练出来的模型准确性也会大打折扣。

他认为这个前期定义的需求,需要“产品经理”式的人物定义和梳理,把每一个“描述点”抠清楚。

这也是人类传授机器“智慧”、使其更加“智能”的过程。

比如在最初的设想概念中,图像中文描述数据集中标注“描述”的任务,原始概念是“看图说话,描述图片中的场景”。

但在实际情况出发,这是一个无法标准化完成的任务,因为每一个标注人员之间的主观重心不同、关注点不同,最后描述出的图片可能也会差别巨大。于是在正式启动标注前,组委会和标注团队会花很多时间去明确“场景描述”里的主体,哪些主体需要描述,哪些可以忽略,如何量化描述的正确度。

主干线索明确后,还需要通过多个主观描述让机器算法在学习中找到“客观”,于是在多组对比尝试后,最终选用了5人独立描述1张图片的方式,确保描述的多样性。这是一项对于标注团队来说前所未有的任务。

因为之前的数据集标注,更偏向于垂直领域的算法或自家技术的自检自查,但这次更多出于产业化去做事,试图覆盖学术界到产业界,从落地的角度去看问题,于是标注起来的普适性要求更明显——涉及场景更多,需要的图片数据更广泛,而按照关键词分类,场景数量超过了250个。

倪笑海还透露,在沟通“定义”的过程中,他可以感受到AI Challenger执行委员王咏刚的期望:希望能够倾力投入,从无到有打造一个中文世界的数据集和竞赛,让更多人才和AI交流愈加活跃起来。

量子位请倪笑海对比AI Challenger和ImageNet、MS COCO等数据集,他表示现在后二者在垂直领域上的高精尖地位还无法马上被撼动。此次的数据集建设,创新工场、搜狗、今日头条等主办方致力于广泛参与和影响力,但在将来持续的数据集建设中,超过ImageNet等经典数据集并非没有可能。

关于未来的规划,AI Challenger执行委员兼创新工场AI工程院副院长王咏刚说,主办方将会花几年时间,建成一个具有世界级影响力的科研数据集和竞赛平台。今年的“图像中文描述”、“人体骨骼关键点”、和“翻译数据集”在各自的领域,都形成了独特的优势。但这仅仅是一个开始。接下来,主办方将与最顶尖的学者一起,为最前沿的科学研究建设更多顶级数据集。

然而这并不意味着一切轻而易举,背后的付出很容易被忽略。

王咏刚告诉量子位,这次AI Challenger的数据标注,光成本就花费了数百万元,严格时间投入超过7个月,熟练标注员工投入400人。至少从数据集的角度将,这已是中文世界最具标志意义的AI开发大赛。

数据集

在AI狂飙突进的这几年中,最成功也最经典的数据集,非李飞飞和她的ImageNet莫属。

ImageNet诞生于2009年,在2017年CVPR宣布合并到kaggle,在这8年历程中,完全改变了AI研究的认知、方法,以及留下一个全新的数据集驱动的AI世界。短短7年内,ImageNet优胜者的识别率就从71.8%提升到97.3%,超过了人类,并证明了更庞大的数据可以带来更精确的结果。

很多人都将此视作当今这轮人工智能浪潮的催化剂。更为关键的是,“数据集重新定义了AI从业者对模型的思考方式。”

参与ImageNet挑战赛的企业遍布科技行业的每个角落。2010年的第一场竞赛优胜者都出任了百度、谷歌和华为的高管。马修·泽勒(Matthew Zeiler)利用2013年赢得ImageNet挑战赛时的程序创办了Clarifai公司,目前获得了4000万美元风险投资。

2009年以来,数十个新开发的人工智能研究数据集已经引入了计算机视觉、神经语言处理和语音识别等子领域。如何打造一个ImageNet一样的经典数据集,成为后来者最核心讨论的关键。

在中科院自动化所研究员王亮博士看来,打造ImageNet一样的经典数据集,至少要有三方面的核心投入。

一方面是数据规模,至少是100万级以上的规模,这样才更有说服力;

二是多样性,能够有不同场景下的覆盖,比如人脸识别中,光照、表情、各种角度的多样性是否丰富,都会影响最后结果的准确性和泛化;

三则是数据最好接近真实应用,这样不仅对于学术研究有正向作用,对于技术和产品研发落地,也能不断补足算法开发。

这位国家模式识别重点实验室副主任坦承,做到以上几方面并不容易。

在以往国家模式识别重点实验室的研究中,他们通常的做法是先找可共享的数据集,再不行就自建数据集,但自建则意味着精力和成本投入,即便国家项目中有专门为数据集创建留出的预算,但承担上限也极为清晰,他们尚未有超过50万元规模的投入,这其中还不包括采集相关的费用,真是一件耗时费力的事情。

此外,更便利的方式是和企业合作,企业中的数据集偏向应用,规模和场景也符合,但涉及企业版权、保密等原因,企业开放数据需要机会和运气。

这是王亮博士对此次AI Challenger饱含期待的原因之一。也是这个AI挑战赛从无到有背后最大的挑战。

发起这样的比赛,不仅要投入时间、金钱、人力等各种资源,还要找到并说服合作企业开放数据,而且从结果看,最后搜狗和今日头条开放的数据,也在中国互联网史上堪称前所未见。

在AI challenger宣布推出后的第二天,赛事发起人李开复写下了一篇题为《从1983到2017,我的幸运与遗憾》的文章,详细回顾了1983年至1988年李开复的博士研究往事。

当时在卡内基-梅隆大学攻读计算机博士学位的他,从无到有用统计学的方法,通过建立大型的数据库提升语音识别准确率,并打破了导师坚持的专家系统的研究方式。这让26岁的李开复一战成名。不仅是当年《商业周刊》评选的“1988最重要科学发明”,也让李开复破格留校,成为卡耐基-梅隆大学的助理教授。

其间幸运的是,李开复的博士导师瑞迪(Raj Reddy)给予了这个当时“离经叛道”的学生莫大的支持和鼓励,这位图灵奖得主、CMU终身教授,不仅在精神上表现出“和而不同”的风度,而且在数据库打造和计算资源支持方面,提供了共计30万美元的研发经费支持。

“这在30多年前,我还是一个AI科研人员的时代,能接触到真实世界里如此海量的数据,是个遥不可及的梦想”,谈到这次开放出来的数据集李开复说:“我当年受惠于瑞迪教授的帮助和指导,今天也非常希望能给更多和我一样的年轻人,创造研究机会和条件”。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 超人90后
  • 耗资数百万
  • 数据集
相关产品与服务
人工智能与机器学习
提供全球领先的人脸识别、文字识别、图像识别、语音技术、NLP、人工智能服务平台等多项人工智能技术,共享 AI 领域应用场景和解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档