摘要:
“数据本身公开,获取与使用不损害他人利益”可能就不容易违法。理解这句话,就可以退出本文的无效阅读啦。
网络爬虫(Spider)是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。在网络快速发展和信息爆炸的背景下,伴随着高效抓取特定数据的需要而产生[1]。
百度百科里这样写:法律是统治阶级意志的体现,是国家的统治工具[2]。但是在这里,不太能直接理解。
所以撇开不谈。
直观理解是(专业人士请不要打我):
法律用于制定社会规则,实现自己利益的同时不(过分)损害他人利益。
规划领域面对的直接对象是广大的城乡地域,及地域上的城乡社会,以人为核心内容建设美好人居。因为客体内容庞杂,所以很容易地产生群体信息需要,用于识别特征、分析需求——包括空间底图、社会经济运行等
——大数据虽然带有一定迷惑性,但能有效减轻实地调研工作量,提供部分决策支持。大数据可以粗糙地分为开源、封闭两种。在这里的具体涵义:开源是不带排他性地为所有公众获取,封闭是限定一定门槛为特定群体使用。
——爬虫作为一种高效抓取特定信息的工具,本身是不区分对象的,即使是封闭数据,通过特定手段绕过门槛即可。问题在于法律有可能划定了一个边界,是不能跨越的。
本章节都是瞎扯,可以不看。
很简单,不得损害他人利益。所以使用爬虫获取、使用数据都不能损害他人利益,直接或间接损害可能都算。
——个人隐私、商业秘密、国家秘密等
——对应着要减小爬虫的访问频率、强度
——对应着数据使用应该仅限于自己,且不能用于商业用途(数据本身出售或对数据进行加工后出售)
好像科研、教育一直都拥有很大的责任豁免权,也许是因为教育、科研对数据的利用方式是“深加工”,最后的结论总是会脱离数据本身,而且“深加工产品”一般很难直接获利。
设想一个极端情况,商业教育机构?贩卖科研成果?
在具体项目里面呢?里面参杂了科研的部分,“深加工”但“直接获利”……(想不清楚)
有时候,网站数据来源不是自己生产或不具备数据的所有权、使用权等等,即使付出了数据维护等成本,如果有限制使用、以此牟利的行为,是不是其本身就不具备合法性?
——我在想社交平台上的个性化广告联动,合法吗?
网站为了维护自己即网站及用户利益,减少可能的风险会设置很多“反爬机制”——可以认为是网站服务协议的一部分,不遵守协议,网站可以拒绝为你开放服务(不讨论协议本身的合法性),造成损害甚至可能追责。
那么“反爬机制”存在,是否就不能突破了?——似乎不是个问题,仍然是“数据本身公开,获取与使用不损害他人利益”。当然,对方保有发现违反协议行为后的拒绝提供服务、追责的权力
——所以,“数据本身公开,获取与使用不损害他人利益”的前提下,不要被对方发现。
这里指的是已经封装好、简单易用的那些爬虫工具,有通用的、专用的——其实代码、爬取思路等的分享也是通用的,通用的东西似乎问题不大——简单来说,就是工具本身设计主要指向合法用途,被不怀好意的人使用造成其他损害,可能也不太好追责,比如菜刀等能用来造成人身伤亡的工具、被电信诈骗利用的电信公司通讯服务……
比较难的是,专用类的爬虫工具,前提可能还是“数据本身公开,获取与使用不损害他人利益”……(其他再想不到了,来自门外汉的迷惘)
当然了,提供工具时应当有所预知,尽力排除可能的违法与造成损害的使用方式。
也不好讲清楚,有一些法律条文,如《刑法》、《数据安全管理办法》等,也有很多裁决的案例(法律条文活在案例的解释中)。
举刑法里面的条文
[二百八十五条][3]
非法获取计算机信息系统数据罪
非法获取计算机信息系统数据、非法控制计算机信息系统罪
提供侵入、非法控制计算机信息系统程序、工具罪[4]
总结起来,我感觉和上面直白理解的“数据本身公开,获取与使用不损害他人利益”一致,不知道有没有误读。
比较推荐阅读这篇文章:数据爬虫的罪与罚—兼论非法获取计算机信息系统数据罪的适用[5],结合一个绕过反爬机制抓取视频数据的案例对爬虫、计算机系统安全、定罪等做了比较细致和深刻的解读。主要观点是:
一般情况下,公开的网页或APP页面,如果仅仅采用了UA校验、IP校验等方式实施反爬虫,那么爬虫程序对于页面公开内容的访问和数据获取,本身不具有刑事违法性。但是,如果爬虫程序在实施访问时,采用破解用户密码或利用系统安全漏洞,访问了非公开的系统,则应按照非法获取计算机信息系统数据罪论处。如果侵入系统后,获取的是公民个人信息,则涉及与侵犯公民个人信息罪的竞合问题。
只能说不清楚,目前做了很多从高德地图偷数据的工作,高德的服务协议这样写[6]:
无疑,我提供的一系列工具,都违反了高德开放平台的协议(网络上的很多其他人也是)。虽然数据本身公开,但是可能对他人(主要是高德)造成了一定的利益损害,主要侵害的是高德基于数据获利的途径,比如高德的AOI数据接口是收费的。
但是,地图数据还是很有必要的,“白嫖”的需求也很大,所能做的也许只能降低对高德的利益损害,具体?
——可能是降低数据获取强度。以接近人工截图、人工描图、使用坐标拾取平台(https://lbs.amap.com/tools/picker)等正常方式的强度
目前:POI数据一个点约2.4s,AOI数据一个面约1.3s,其他数据单位获取时间应该差不多也是1s左右——比人工稍快一点吧
——合理使用获取到的数据。就目前的数据获取效率、最后的数据结果来说,可能还不足以供给商业化用途使用(长舒一口气)。不过,可能不能在共享盘共享大家获取的数据了,个人时间成本开始上升~
最后,如果确实造成了很大的损害,行为不合法,请与我联系(狗头保命)
在此之前,也是能苟一会儿就苟一会儿啦,且用且珍惜
“各位是啥子观点呐?法盲人士尽管瞎聊
[1]百度百科:网络爬虫词条
[2]百度百科:法律词条
[3]百度百科,中华人民共和国刑法词条,https://baike.baidu.com/item/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E5%88%91%E6%B3%95/721359;二百八十五条的司法补充解释:http://www.court.gov.cn/fabu-xiangqing-3085.html;
[4]案例解读:https://zhuanlan.zhihu.com/p/373371398;
[5]吴卫明,数据爬虫的罪与罚—兼论非法获取计算机信息系统数据罪的适用[EB/OL]. [2021-03-17]. [2021-05-24]. https://www.allbrightlaw.com/CN/10475/3a742750e4a53fcc.aspx
[6]高德地图开放平台服务协议,[2021-04-22]. [2021-05-24].https://lbs.amap.com/pages/terms/