前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Google 验证码进化史:我们越来越方便,但也交出了越来越多的隐私

Google 验证码进化史:我们越来越方便,但也交出了越来越多的隐私

作者头像
猿哥
发布于 2019-07-15 07:32:03
发布于 2019-07-15 07:32:03
1.3K0
举报
文章被收录于专栏:Web技术布道师Web技术布道师

即使现在互联网已经渗透到我们生活的方方面面,但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。

这就意味着自动化程序同样可以模仿人的行为,同时,因为机器速度更快且不知疲倦,它会被用于批量在论坛、网站、app 中发布营销信息。而且,在监管不足的情况下,利润更高的行业往往底线更低,自动机器人发布的垃圾信息经常也和赌博、诈骗、色情等灰色产业有关。一些自动化程序还会尝试以「撞库」的方式窃取用户帐号、密码,给网站带来巨大的安全隐患。

验证码正是为了解决这样的问题而生的。它也是个自动化程序,不过存在目的是区分用户到底是机器人还是真实的人。

自动生成的扭曲的文字和图案是最常见的验证码,虽然它可以有效地识别出很大一部分自动化程序,但它对真人用户的体验并不好。而且随着机器学习的发展,它的破解也越来越容易。

▲验证码风格的艺术品. 图片来自: Becky Stern

Google 的验证码团队做了很多创新,比如创造性地把验证码用于纸质典籍数字化。而在扭曲文字、图片的主流路线之后,Google 的团队还尝试了新的思路,通过追踪点击行为等来识别用户是否是真人,用户只需要点击「我不是机器人」的复选框进行验证即可。

在最新版本的 Google 验证码 reCAPTCHA v3 中,你甚至什么都不用做,系统就在悄悄核验当前的用户是不是机器人。技术正在让「验证码」越来越隐形,人类不必再为了自证身份去做「反向图灵测试」,但验证码的进步也带来了一些新的问题。

初代验证码 CAPTCHA:歪歪扭扭的文字是为了故意让机器人看不懂

卡内基梅隆大学校舍不大,学校排名也和常春藤盟校也有一定差异,但它有全美排名第一的计算机科学专业。

这所学校出了 13 名图灵奖得主,其中的一位,Herbert Simon 还因为把计算机科学和系统理论、运筹学结合用于管理决策问题,开创了「决策理论」而在 3 年后获得了诺贝尔经济学奖。

在严肃的学术研究之外,卡内基·梅隆大学还有一些对计算机和互联网行业影响深远的「小发明」,比如给了 emoji 产业灵感的第一个笑脸符号 :-),以及「烦人」的验证码。

2000 年,从杜克大学数学系毕业,来到卡内基梅隆大学读计算机科学博士的路易斯·冯·安(Luis von Ahn)和导师一起提出了验证码的概念,全称是全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称 CAPTCHA)。

▲路易斯·冯·安. 图片来自: EneasMx

图灵测试由计算机先驱人物,「人工智能之父」阿兰·图灵提出,如果一台计算机能和人类对话而不被识别出是机器人即被认为通过图灵测试。验证码也是一种图灵测试,不过它的目的不是为了筛选出人工智能,而是识别出真实的人类用户。

一种最常见的验证码是由算法生成的扭曲的文字,这么做是为了防止被光学字符识别程序(OCR)自动识别出来。

还有一些更现代的方法包括在字母上加一条曲线、将不同的字母叠在一起或者添加复杂的背景。

图片验证码也大行其道,包括要求用户识别图片的物体,以及把缺失的部分拖到正确的位置和拼图等。

不管形式如何,这些验证码有一个共同的原则:人类很容易识别,但对计算机来说非常困难。一位人工智能研究者在自己的播客中有一个更详细的解释,为避免 CAPTCHA 过难而使网站损失用户,通常要求人类用户通过测试的时间小于 30 秒,用户通过率大于 90%(引用自 CSDN 用户 luolan9611 )。

还有一个不被普通人知道的点,验证码被称为一种「图灵测试」,所以它在设计之初就有促进人工智能发展的初衷。

根据定义,验证码的算法必须公开,这样做的目的是为了让破解验证码的过程是在解决对应的人工智能问题,例如图像识别、准确度更高的 OCR 等,破解者不必花费心思通过逆向工程推演算法。

再次引用上文提到的研究者的博文:

CAPTCHA 机制的研究是一个双赢的局面。CAPTCHA 的设计和破解研究呈现出「设计 – 识别 – 再设计 – 再识别」的互相攀升现象,促使 CAPTCHA 研究不断向前发展,从而带来 CAPTCHA 机制的鲁棒性和可用性的不断提升。

reCAPTCHA:验证码还能用于纸质典籍数字化

验证码发明人路易斯·冯·安除了是个计算机科学家,还是一位企业家,但是是那种相信人性美好,希望借助技术,在创造商业价值的同时能附带创造社会价值的人。

冯·安的博士论文完成于 2005 年,他创造了一个新概念「人本计算」(Human-based Computation),即把人的脑力和计算机的能力结合起来,完成两者都无法单独完成的工作。具体的实现方式上,「众包」是最典型的一种,冯·安也被工人是众包的先驱。

不仅是理论提出者,冯·安也是实践的先驱。验证码已经被广泛用于各大网站、app 中,有数据显示,这项技术在推出后的短短五年内,每天就有 2 亿个验证码在被使用。

很快,他提出一个新的项目 reCAPTCHA,主要用于把互联网出现前的纸质典籍数字化。思路是这样的:验证码系统会向用户出示两个单词,第一个是正常的自动生成扭曲文字,另外一个则来自纸质典籍的扫描版,它们通常因为年代久远、纸上有污点等原因难以被 OCR 程序识别。

用户输入验证码时,只要第一个单词输入正确就可以被判别为人类,输入第二个单词就成了「义务劳动」。系统会默认这个单词输入正确,并与其他用户的输入结果进行对比,如果多名用户的答案一致,这个词的数字化就完成了。

不要小看这样一个词一个词的积累,推出之初,reCAPTCHA 每天就能录入 3000 万个字符。2011 年,它已经完成了全部的《纽约时报》数字化的工作,这份从 1851 年开始出版的老报纸有大量纯纸质版的内容。

2009 年,Google 看上了这个项目的价值,并出手收购了 reCAPTCHA,它也被 Facebook、Twitter、CNBC 等使用。在帮助这些流量最大的网站抵御自动化程序骚扰的同时,Google 图书中难以被自动识别的扫描版的古老典籍同样借助 reCAPTCHA 得以数字化。

此后,reCAPTCHA 还被用于帮助机器学习系统提高图像识别率,运作原理和前述方法一样,机器难以辨别的门牌号、猫狗照片都被拿来当做验证码考人类。

识别验证码的同时,用户实际在帮机器学习系统标注训练集,所以,AlphaGo 背后的人工智能技术,可能早就有你的功劳。

顺便提一下,在 reCAPTCHA 被 Google 收购后,冯·安还有很多基于「人本计算」的项目,比如「带着目的玩游戏」(Games With A Purpose,简称 GWAPs),游戏由两个人同玩,如果两名玩家对一张图片的描述一致即可得分,实际上,游戏的同时也在给人工智能标注数据。

2014 年,冯·安创办了一家更知名的公司——多邻国(Duolingo),这个学外语的应用同样采用「众包」的模式,用户在免费学习一种外语时,也在反过来协助建构多邻国的语言课程,让其他人也能多学习一种语言。

NoCAPTCHA:不用输入字符的新验证码,以及它带来的隐私风险

一家公司的「基因」通常和个人一样,与生俱来难以改变。

收购 reCAPTCHA 后,Google 对它进行了改进,以 Google 的方式。

2014 年,Google 推出了新的验证码系统——NoCAPTCHA reCAPTCHA,名字有点拗口,核心是不需要输入验证码的验证系统,用户只需要点击一个「我不是机器人」的复选框,Google 就能判别你是不是真正的人类。

reCAPTCHA 的口号也从「别发垃圾信息了,读点书吧」(Stop Spam. Read Books),变成了验证码最初的目的「对人类简单,对机器人困难」(Easy on Humans, Hard on Bots)。

NoCAPTCHA 的工作机制是跟踪用户点击验证框之前、当时和之后的行为,比如在网页上花费的时间,从而来判断是否是人为操作。

如果你被误判为机器人,还有一个「申诉」的机会,还是从一堆图片中选出正确的目标。

2018 年,Google 再次升级了 reCAPTCHA,在这个被称为 v3 的版本中,用户已经连「我不是机器人」的复选框也看不到了,系统会在背后悄悄分析用户浏览网站的方式,并根据其行为的恶意程度给出一个风险评分。如果用户评分过低,网站可能会要求用户输入更多的信息来证明自己的身份。

目前,已经有 65 万个网站使用了最新的 reCAPTCHA v3,而使用 reCAPTCHA 的网站超过了 450 万,包括 top 1000 网站中的 25%。

在 Google 看来,这是最好的体验,用户不需要任何输入,而且它很难被破解程序学习。唯一的问题是,Google 掌握了越来越多的用户隐私。

据 FastCompany 报道,两位研究者对 reCAPTCHA v3 进行了测试后发现,用户是否使用 Google Cookies 是决定评分的一个重要因素。也就是说,如果用户选择让 Google 记住登录信息的话,会得到更高的分数,没有登录 Google 帐号,或者使用 V** 或者洋葱浏览器通常会被提示高风险。

另外,使用 reCAPTCHA v3 的网站被鼓励在网站的每个页面放置 reCAPTCHA v3 代码,而不只是在登录页面,因为 reCAPTCHA 系统会跟踪用户的所有浏览行为进行分析。

两个因素结合,Google 可以获得几乎所有的用户行为。在 FastCompany 的报道发出后,Google 确认,用户使用的硬件信息即设备上的软件会被发送回 Google 服务器,但它表示,获得的结果「只用于分析用户行为,不用于个性化广告推荐」。

2018 年,Facebook 遭遇了史上最大的危机,除了商业上的广告收入增速放缓,在监管和公众层面,作为最大的社交网络和在线广告公司之一,Facebook 对用户隐私保护不力激起了前所未有的质疑。Google 也牵连其中。但一个不可逆转的趋势是,我们的一举一动都在被互联网巨头「记录在案」,从这个层面来看,在隐私保护上,监管部门应该对大公司有更高的要求。

原文:https://www.ifanr.com/1234644

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PHP技术大全 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
网络验证码的进化:从简单图文到无感验证
2018年全国硕士研究生招生考试预报名的第一天,成都大学的一名大四女生,在网上报名时,竟出现了“别考”字样的验证码,同时在验证码上边显示一行红字:您输入的用户名或密码有误。专门负责全国研究生报名的“中国研究生招生信息网”相关负责人回应说,验证码出现“别考”字样纯属巧合。
问题先森
2020/07/29
1.5K0
使用Java制作验证码
  验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个***对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。验证码这个词最早是在2002年由卡内基梅隆大学的路易斯·冯·安、Manuel Blum、Nicholas J.Hopper以及IBM的John Langford所提出。卡内基梅隆大学曾试图申请此词使其成为注册商标, 但该申请于2008年4月21日被拒绝。一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,也就是图文验证码,扭曲变形是为了避免被光学字符识别(OCR, Optical Character Recognition)之类的电脑程序自动辨识出图片上的文数字而失去效果。由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,人们有时称CAPTCHA是一种反向图灵测试。为了无法看到图像的身心障碍者,替代的方法是改用语音读出文数字,为了防止语音辨识分析声音,声音的内容会有杂音,这种就是手机语音验证码,通过拨打手机的方式告诉用户验证码是什么。
端碗吹水
2020/09/23
1.4K0
使用Java制作验证码
验证码的故事 (2)
上次我们说到了路易斯·冯·安(Luis von Ahn)发明的,既能拦截网络垃圾 spam、又能顺便帮助进行古籍的数字化工作的验证码工具--reCAPTCHA。今天继续这个话题的后续故事。 reCAPTCHA 在 2009 年被 Google 收购。在其作为验证码本职工作之外,承担了数字化 Google Books 和 Google 新闻档案计划的部分任务。到了近两年,有很多使用 reCAPTCHA 服务的网站上,验证码的内容发生了变化:一半仍然是扭曲的单词,而另一半则是一张带有数字的照片。这其实是 Goo
Crossin先生
2018/04/16
1K0
PHP实现验证码功能
借用百度的解释:验证码这个词最早是在2002年由卡内基梅隆大学的路易斯·冯·安、Manuel Blum Nicholas J.Hopper以及IBM的John Langford所提出。卡内基梅隆大学曾试图申请此词使其成为注册商标, 但该申请于2008年4月21日被拒绝。一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,扭曲变形是为了避免被光学字符识(OCR, Optical Character Recognition)之类的电脑程序自动辨识出图片上的文数字而失去效果。由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,人们有时称CAPTCHA是一种反向图灵测试。
兔云小新LM
2020/05/19
2.6K0
谷歌收购的这家公司值多少钱?
大数据文摘编辑 如需转载,请后台留言申请 垃圾邮件危机 20世纪90年代后期,网络逐渐变得拥堵起来。有人开发了一款名为“Spambots”的垃圾邮件程序软件,向成千上万名用户批量发送广告信息,淹没收件人的电子邮箱。他们会在各种网站上注册,然后在评论部分留下成百上千条广告。网络因此成了一个不守规矩、不受欢迎、不够友善的地方。而且,这种软件似乎打破了网络原有的开放性和易用性模式,要知道,正是这种模式向人们提供了各种便利,比如免费电子邮件。当票务公司根据“先到先服务”的原则提供演唱会门票网上订票服务时,作弊软件
大数据文摘
2018/05/21
1.4K0
阻碍你抢票的“罪魁祸首”竟然是他?
我们在使用互联网的过程中,可以看到网站往往会通过验证码来辨别用户是否是机器人,验证码实际上就是人类和计算机的一场战争。但有时候你会发现,验证码也是让人感到十分无奈,有的时候严重扭曲到不能通过人眼来识别。 随着电脑信息技术的飞速发展,有效图像识别技术已经被开发出来,但目前大部分网站使用的文本验证码还是有用的。尖端的图像识别技术需要花费大量时间金钱成本,黑客们是不会用它们来破解你的博客、窥探你中午打算吃什么的。只有那些涉及机密、金钱利益的网站,比如网上银行、购物网站等受到了较大的威胁。为了防止财产损失,这些网站
企鹅号小编
2018/01/23
8020
阻碍你抢票的“罪魁祸首”竟然是他?
验证码的未来:扒一扒reCAPTCHA的那些事
reCAPTCHA的诞生及意义 CMU(卡耐基梅隆大学)设计了一个名叫reCAPTCHA的强大系统,让电脑去向人类求助。具体做法是:将OCR(光学自动识别)软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回CMU。 reCAPTCHA是利用CAPTCHA的原理(CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试),借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说,reCA
FB客服
2018/02/05
3.9K0
验证码的未来:扒一扒reCAPTCHA的那些事
从技术角度看验证码是什么?
俗话说得好,“常在网上走,哪有不验证”。我们爱也好恨也罢,每天谁不抓耳挠腮输入几个验证码呢?
问题先森
2020/07/21
9100
12306图片验证12小时内被破解,验证安全的出路到底在哪?
03月16日上午,12306网站更新了自己的验证码形式,将原有的验证码从英文字符变换到8张小图片,用户必须根据问题提示来点击选中正确的图片,然后才能预定车票。紧接着,各路媒体开始发稿,《12306官网放大招:启用图片验证码所有抢票软件将失效》《12306官网推出全新图片验证码抢票软件将失效》等新闻层出不穷。作为一个程序员,看到这样的标题,十分困惑这些媒体是怎么用上帝视角这么直接断定抢票软件将全部失效的,可以想象一大波刷票公司正准备捋起袖子干活就直接听到12306宣布自己胜利了。当然,我们反对一切的黄牛党,本
我是攻城师
2018/05/11
1.6K0
验证码破解全流程实战
验证码,全称为“Completely Automated Public Turing test to tell Computers and Humans Apart”,即全自动区分计算机和人类的图灵测试,Captcha。早在上个世纪90年代,为了防止恶意的网络机器人行为,像邮件轰炸、暴力破解密码等,验证码应运而生。
TechLead
2023/10/21
2.3K0
验证码破解全流程实战
机器人喊话Google:防我?没门!
互联网公司拥有同一个长期性的棘手课题:如何屏蔽自动软件,如何防止机器的恶意注册,如何禁止一系列“非人类用户”的恶意操作等等。Google近些年对于算法研发的热情不减,本月3号,Google推出全新的验
机器人网
2018/04/13
1.3K0
机器人喊话Google:防我?没门!
图片验证码把我逼成了人工智障
Completely Automated Public Turing test to tell Computers and Humans Apart。
量子位
2021/08/12
7740
如何使用 CAPTCHA 保护您的 WordPress 网站
除非您以前从未上网,否则您肯定会遇到过 CAPTCHA 测试——可能每个版本也是如此。 如果您曾经不得不在方框中输入波浪线、模糊的文本或单击网格中带有消防栓(或其他基本视觉效果)的每个图像,那么您已经通过了 CAPTCHA 测试。 这是保持 WordPress 网站安全的最基本且最有效的方法之一。 有了这么多可用的专用插件,确保您的网站安全,尤其是在黑客首先攻击的地方,比您想象的要简单。
星姮十织
2022/01/02
4.1K0
Google新一代智能验证码
Google新一代智能验证码 图灵测试 来自图灵的论文《计算机与智能》,该测试的内容是:如果计算机能在一定时间内回答由参与测试的人类提出的一系列问题,且其超过30%的回答让测试者误认为是人类所回答,则认为计算机通过人工智能测试。 中文屋子 中文屋子由美国哲学家希尔勒设计的一个思维实验:只要计算机拥有了一定量的数据与规则,例如掌握大量的中文预料与中文词法语法句法规则,就能够回应一切“中文提问”:1)此时计算机根本不理解“中文提问”的含义 2)如果计算机被放在一个屋子里,中文提问者无法区分屋内回答问题的人是人还
架构师之路
2018/02/28
1.1K0
Google新一代智能验证码
机器学习算法太厉害,导致人类也通不过谷歌验证码
如果你发现网上使用的各种身份验证码越来越难以识别,你肯定不是个例,这都是因为人工智能越来越聪明导致的。
量子位
2019/04/24
6230
机器学习算法太厉害,导致人类也通不过谷歌验证码
Selenium+2Captcha 自动化+验证码识别实战
本文深入探讨了使用Selenium库进行网页自动化操作,并结合2Captcha服务实现ReCAPTCHA验证码的破解。内容涵盖Selenium的基础知识、验证码的分类、2Captcha服务的使用,以及通过实例进行的详细讲解,最后对实践进行总结和优化思考,为读者提供了一条完整的验证码破解实践路线图。
TechLead
2023/10/21
1.9K0
Selenium+2Captcha 自动化+验证码识别实战
ASP.NET Core 使用 Google 验证码(reCAPTCHA v3)代替传统验证码
Google reCAPTCHA(v3下同) 的使用不需要“梯子”,但申请账号的时候需要!
乔达摩@嘿
2020/09/11
2.2K0
ASP.NET Core 使用 Google 验证码(reCAPTCHA v3)代替传统验证码
身价7亿美元的41岁数学教授-路​易斯·冯·安
数学教授路易斯·冯·安(Luis Von Ahn),一位创建了验证码(CAPTCHA)和“多邻国”(Duolingo)。令人恐惧的天才。
银河1号
2020/06/23
1.2K0
谷歌最新验证系统又双叒被「破解」了,这次是强化学习
对于谷歌浏览器的用户来说,上面这幅画面想必并不陌生。这是谷歌开发的验证码系统 reCaptcha,旨在确认访问者是人还是程序,并防止恶意程序的入侵。
机器之心
2019/04/29
2.5K0
谷歌最新验证系统又双叒被「破解」了,这次是强化学习
reCAPTCHA 项目
要说 reCAPTCHA,就要先说一说 CAPTCHA,全称是 Completely Automated Public Turing test to tell Computers and Humans Apart,即全自动区分计算机和人类的图灵测试,也就是通常说的 “验证码”,目的就是要把计算机和人区分开来。在互联网站上,为了防止不安全的、重复暴力的登陆密码破解等操作,需要使用验证码来将机器行为拒之门外。
四火
2022/07/15
7430
reCAPTCHA 项目
推荐阅读
相关推荐
网络验证码的进化:从简单图文到无感验证
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档