我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。
2014 年 5 月初,被告人翁秀豪发现淘宝店铺源码存在漏洞,利用该漏洞可以在店铺源码中植入一个 url,执行该 url 指向的 javascript,以获取访问被植入 url 的淘宝店铺的所有淘宝用户的 cookie(淘宝用户登录时产生的一组认证信息,利用 cookie 可以执行对应帐号权限内的所有操作,无需帐号、密码),并利用其中的卖家 cookie 将 url 再次植入卖家淘宝店铺源码,实现自动循环,获取更多的淘宝用户 cookie。
被告人翁秀豪向被告人黄后荣报告该情况,经黄后荣的授意,以非法获取 cookie 数据为目的,编写了用于获取 cookie 的 javascript,存储在其租用的阿里云服务器中。自同年 5 月 15 日开始,通过上述方法非法获取淘宝用户 cookie 达 2600 万余组,并将获取的 cookie 存放在虚拟队列中。被告人黄后荣利用被告人翁秀豪事先编写的网络爬虫程序读取虚拟队列中的 cookie 并获取淘宝用户的交易订单数据(内容包含用户昵称、姓名、商品价格、交易创建时间、收货人姓名、收货人电话、收货地址等)达 1 亿余条。
浙江淘宝网络有限公司技术人员王某称,浙江淘宝网络有限公司在例行检查中发现淘宝卖家订单详情页面被大批量访问,且均使用卖家登录时浏览器创建的用户 cookie 即登陆身份认证信息进行登陆,说明用户的 cookie 被人盗用,对卖家店铺的源代码进行分析后发现源代码里有一段获取用户 cookie 的 javascript 程序,获取的 cookie 数据会发送到一个域名为 log.tbstat.cn 的站点,该域名轮巡解析到 8 台阿里云服务器,之后通过反向连接将获取的 cookie 数据传输到阿里云内网一阿里云服务器,该阿里云服务器的外网 ip 地址是 112.124.59.209,服务器上有一域名为 tml.damaibao.cn、首页提供给“淘名录”客户端软件的站点,首页还注明该站点拥有 500 万细分行业买家数据和 5 亿买家实时在线交易数据,该阿里云服务器又通过反向连接将 cookie 数据传输到一台 ip 地址为 110.87.189.5、归属在福建省福州市的服务器中。
经查询,上述 9 台服务器均是被告人黄后荣注册的,被告人黄后荣另外还注册了两台阿里云服务器做“云派券”业务,以及通过订单详情页面可以知道交易双方的淘宝帐号、昵称、联系方式、交易创建时间、商品价格、数量、收货地址、收货人姓名和联系电话等,正常情况下需要使用淘宝账号和密码登陆后才能访问订单页面,使用用户 cookie 相当于绕开了账号和密码的验证过程,据统计,2014 年 5 月 21 日当天就有 330 万个 cookie 被获取。
被告人黄后荣辩称:
被告人翁秀豪辩称:
被告人黄后荣、翁秀豪违反国家规定,侵入计算机信息系统,获取该计算机信息系统中存储、处理、传输的数据,情节特别严重,其行为均已构成非法获取计算机信息系统数据罪。被告人对通过 javascript 获取的全部 cookie 均具有概括的故意,且获取的均为有效的 cookie,之后 cookie 是否失效,是否被实际使用,指向的是否为同一淘宝用户等均不影响其非法获取计算机信息系统数据这一事实的认定,也不影响对二被告人的定罪量刑,上述辩解及辩护意见,均不予采纳。
本案被告人主要违反了以下法律法规:
一、被告人黄后荣犯非法获取计算机信息系统数据罪,判处有期徒刑六年,并处罚金人民币六万元(刑期自判决执行之日起计算。判决执行前先行羁押的,羁押一日折抵刑期一日。即自 2014 年 5 月 28 日起至 2020 年 5 月 27 日止。罚金限判决生效后十日内缴纳);
二、被告人翁秀豪犯非法获取计算机信息系统数据罪,判处有期徒刑五年八个月,并处罚金人民币五万五千元(刑期自判决执行之日起计算。判决执行前先行羁押的,羁押一日折抵刑期一日。即自 2014 年 5 月 28 日起至 2020 年 1 月 27 日止。罚金限判决生效后十日内缴纳)。
(2014)杭余刑初字第1231号
cookie 的作用有很多,本案中提到的 cookie,主要作用为会话管理,也就是在用户与网站进行交互时跟踪会话,通过在用户访问网站时设置一个会话 cookie,网站可以在用户浏览网页时识别用户,并在整个会话期间保持登录状态。
举个例子,第一次进入某个网站时,会要求登录账号,首次登录之后,一段时间内,再次访问该网站,就不用再次登录了。而过段时间可能需要重新登录,这就是因为之前的 cookie 过了有效期,失效了。
cookie 也是有一些缺陷的,比如数据安全保障能力不足,存在被跨站点脚本攻击(XSS)的可能。
交易订单数据只有卖家能看到,本案被告人通过一定的方法(非爬虫技术)获取了大量的卖家登录态的 cookie,搭建 cookie 池,从而对买家的用户昵称、商品价格、交易创建时间、收货人姓名、收货人电话、收货地址等数据进行爬取,收货人姓名、收货人电话、收货地址这些都属于隐私数据,这些数据是正常用户无法看到的,这是违背爬虫原则的行为,侵害了公民的个人隐私信息,触犯了法律法规!
技术本身是无罪的,但谨记不要利用技术来实施可能违法犯罪的行为,法律的重锤降到头顶的那一刻再后悔就什么都晚了。即便是公司的需求,也要仔细权衡后再执行,不然一旦违法,不仅不会保你,还有可能成为上层脱罪的说辞(参考本案)。
近年来公民的个人隐私数据频繁泄露,所有人都该敲响警钟,网络安全的维护刻不容缓,望各位都能成为铸盾的斗士!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。