人工智能应用,数据的重要性不言而喻,但是,实际的例子更能说明问题。
1995年,Yarowsky的一项语义识别研究中有一个问题,“plant”这个词,到底是指“植物”,还是“厂房”?以往的方法,是使用人工标记数据,即利用大量真人阅读上下文(国内已经出现大量人力密集的图片标注公司,大有“数据工厂”的趋势),标注出正确含义,然后使用机器学习算法进行学习。但是研究者发现,利用大量未标记数据(语料库-Corpus)和辞典释义,由算法自行即可达成超过96%的准确识别。
另外一个例子是,Hays和Efros在2007年讨论了一个图片应用,用PS抠除照片上的某个人,如何填补上合适的背景。他们构建了一个算法来完成这个工作,实际应用中发现,当使用1万张照片的时候,算法的表现非常差,超过2百万张照片后,同样的算法,表现极为优异。
以上的两个例子说明了AI的“知识瓶颈”,建立需要处理各种场景的知识和规则体系,与其使用人工定义的规则和知识库,不如采用机器学习的方法,与此同时,知识瓶颈,就变成了数据瓶颈。
当我们询问能够处理多少数据的时候,仿佛听到AI对我们说:
阁下读万卷书,行万里路,或可将数据20亿字节有余,
在下,多多益善。
*参考:《Artificial Intelligence. A mordern approach》
*题图来自网络
领取专属 10元无门槛券
私享最新 技术干货