最近读到了一篇有关无人驾驶的文章,作者@硅星人的观点,我深以为然。如果你这辈子输入过网页验证码,那么我接下来要说的,绝对会颠覆你的认知。
我们都遭了哪些罪?
作为互联网时代的居民,你一定接触过各式各样的网页验证码。常见的是下面这样的:
稍微变态一些的是以12306为代表的,这种样式的:
超级表态版的,可能是这样的:
但是最令人体验度差到想砸手机的可能是来自谷歌的人机验证验证码了吧,喏:
它会各种问你:找出所有的大巴、红绿灯、消防栓、山峰......一轮又一轮。
好了,向你确认完这件事后,话题就可以展开了——你真的以为你是在输入验证码?其实你是在给谷歌的无人驾驶和 数据标注 做义务劳动!
当前,应用最广的验证码系统是reCAPTCHA,全称Completely Automated Public Turing Test To Tell Computers and Humans Apart,译作图灵 全自动 人机区分 测试系统。
如今,这家开发这项技术的公司已被 Google 收购,谷歌使之承担了世界上大部分网络的人机验证工作。国内情况有些不同,但是大家的用途几乎都是——数据标注。
啥是数据标记哇?
人类有数以亿计的书籍,书籍数字化是大趋势。但问题是,怎么多快好省地完成这项工作?人工录入?速度太慢,疲劳和重复性劳动不是人的专长;这时你可能会跳出来反驳,OCR技术不是挺好的吗,QQ上都可以“识别图片中的文字”了。问题是,理想很丰满现实很骨感——光学文字识别技术录入文字。听起来很美,但有些年代久远或本身质量就差的文本扫描出来后效果很勉强。
将这种“残次品”留给我们的子孙后代,显然是不可行的。
2007 年,reCAPTCHA 的创始人路易斯提出了这么一个问题:“如果人类与计算机各有擅长,能否找到一个媒介,让人类和计算机共同解决某些问题呢?”很不幸,路易斯大佬盯上了网页验证码系统。
随后,路易斯推出了新的验证码系统 reCAPTCHA。在 reCAPTCHA 验证码系统里,一个验证码会由两部分构成。
验证码的第一部分和之前一样,是自动生成并且经过变形处理的文字,人眼能够很轻松的识别出来(这一步,你就完成了人机区分)
验证码的第二部分,则是从无法识别的某些文本中截取出来的字词。
你输入的第二部分,会和成千上万的其他网友提交的验证码一起回传给reCAPTCHA 的主机。随着反馈数据的增多,输入正确率自然也会提高,你和其他人提交的正确答案便成为了文本识别系统改进算法的基础。
你以为这样就完了,那么我标题写的“谷歌欠你车”不就成标题党了吗?
别忘了,2009年,谷歌收购了开发reCAPTCHA的公司。当这套系统到了谷歌的手里,我们的梦魇就诞生了。谷歌开始把认门牌、认路标、认红绿灯、认山脉、认自行车等等的和交通有关的图片加入这一验证码系统中。
现在,Google AI 对于路牌的识别准确率已经可以和人眼相媲美了。在谷歌的AI规划中,无人驾驶成为了该系统的首个受益项目,Google AI帮助使之成为世界无人驾驶领域的绝对领导者之一。
谷歌:我又没打算藏着掖着
在 reCAPTCHA 官网上,Google 公开说明了 reCAPTCHA 集众人之力标注数据、训练 AI 的“众包”模式。
不过,并不是人人都乐意支持这一行为。有位网友在推特上抱怨道:“这就好像让几百万个人每人为你干 5 秒钟活儿,然后一分钱都不给一样,这合适么!”
2019年,谷歌的自动驾驶汽车就要正式上路了。跟谷歌要一台属于你自己的车吧,记住,这并不可耻(doge脸,保命)。
领取专属 10元无门槛券
私享最新 技术干货