前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >讨论:数据爬虫的法律边界

讨论:数据爬虫的法律边界

作者头像
Sidchen
发布2021-09-15 11:21:15
1.1K0
发布2021-09-15 11:21:15
举报
文章被收录于专栏:规划领域技术

摘要:

数据本身公开,获取与使用不损害他人利益”可能就不容易违法。理解这句话,就可以退出本文的无效阅读啦。

-1st-

绪论

01 网络爬虫

网络爬虫(Spider)是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。在网络快速发展和信息爆炸的背景下,伴随着高效抓取特定数据的需要而产生[1]。

02 法律

百度百科里这样写:法律是统治阶级意志的体现,是国家的统治工具[2]。但是在这里,不太能直接理解。

所以撇开不谈。

直观理解是(专业人士请不要打我):

法律用于制定社会规则,实现自己利益的同时不(过分)损害他人利益。

03 聚焦:规划领域对爬虫的需求

规划领域面对的直接对象是广大的城乡地域,及地域上的城乡社会,以人为核心内容建设美好人居。因为客体内容庞杂,所以很容易地产生群体信息需要,用于识别特征、分析需求——包括空间底图、社会经济运行等

——大数据虽然带有一定迷惑性,但能有效减轻实地调研工作量,提供部分决策支持。大数据可以粗糙地分为开源、封闭两种。在这里的具体涵义:开源是不带排他性地为所有公众获取,封闭是限定一定门槛为特定群体使用。

——爬虫作为一种高效抓取特定信息的工具,本身是不区分对象的,即使是封闭数据,通过特定手段绕过门槛即可。问题在于法律有可能划定了一个边界,是不能跨越的。

-2nd-

爬虫的法律边界在哪?

01 直白的理解

本章节都是瞎扯,可以不看。

1. 边界

很简单,不得损害他人利益。所以使用爬虫获取、使用数据都不能损害他人利益,直接或间接损害可能都算。

  • 数据:不能是机密数据,要是公开数据(比较好理解的“机密”:需要特定用户身份才能访问的数据,比如需要登录、需要特定IP)

——个人隐私、商业秘密、国家秘密等

  • 获取:显然不能影响对方网站的正常运行

——对应着要减小爬虫的访问频率、强度

  • 使用:不能减少对方网站潜在的客户群(网站基于访问获利)或可能的收益(网站基于数据获利)­;同时也不能损害对方网站之外的第三方人员的利益(网站数据指向第三方时)

——对应着数据使用应该仅限于自己,且不能用于商业用途(数据本身出售或对数据进行加工后出售)

2. 教育科研、项目等用途

好像科研、教育一直都拥有很大的责任豁免权,也许是因为教育、科研对数据的利用方式是“深加工”,最后的结论总是会脱离数据本身,而且“深加工产品”一般很难直接获利。

设想一个极端情况,商业教育机构?贩卖科研成果?

在具体项目里面呢?里面参杂了科研的部分,“深加工”但“直接获利”……(想不清楚)

3. 数据源本身的合法性

有时候,网站数据来源不是自己生产或不具备数据的所有权、使用权等等,即使付出了数据维护等成本,如果有限制使用、以此牟利的行为,是不是其本身就不具备合法性?

——我在想社交平台上的个性化广告联动,合法吗?

4. 服务协议

网站为了维护自己即网站及用户利益,减少可能的风险会设置很多“反爬机制”——可以认为是网站服务协议的一部分,不遵守协议,网站可以拒绝为你开放服务(不讨论协议本身的合法性),造成损害甚至可能追责。

那么“反爬机制”存在,是否就不能突破了?——似乎不是个问题,仍然是“数据本身公开,获取与使用不损害他人利益”。当然,对方保有发现违反协议行为后的拒绝提供服务、追责的权力

——所以,“数据本身公开,获取与使用不损害他人利益”的前提下,不要被对方发现。

5. 提供爬虫工具

这里指的是已经封装好、简单易用的那些爬虫工具,有通用的、专用的——其实代码、爬取思路等的分享也是通用的,通用的东西似乎问题不大——简单来说,就是工具本身设计主要指向合法用途,被不怀好意的人使用造成其他损害,可能也不太好追责,比如菜刀等能用来造成人身伤亡的工具、被电信诈骗利用的电信公司通讯服务……

比较难的是,专用类的爬虫工具,前提可能还是“数据本身公开,获取与使用不损害他人利益”……(其他再想不到了,来自门外汉的迷惘)

当然了,提供工具时应当有所预知,尽力排除可能的违法与造成损害的使用方式。

02 法律上

也不好讲清楚,有一些法律条文,如《刑法》、《数据安全管理办法》等,也有很多裁决的案例(法律条文活在案例的解释中)。

举刑法里面的条文

[二百八十五条][3]

非法获取计算机信息系统数据罪

非法获取计算机信息系统数据、非法控制计算机信息系统罪

提供侵入、非法控制计算机信息系统程序、工具罪[4]

总结起来,我感觉和上面直白理解的“数据本身公开,获取与使用不损害他人利益”一致,不知道有没有误读。

比较推荐阅读这篇文章:数据爬虫的罪与罚—兼论非法获取计算机信息系统数据罪的适用[5],结合一个绕过反爬机制抓取视频数据的案例对爬虫、计算机系统安全、定罪等做了比较细致和深刻的解读。主要观点是:

一般情况下,公开的网页或APP页面,如果仅仅采用了UA校验、IP校验等方式实施反爬虫,那么爬虫程序对于页面公开内容的访问和数据获取,本身不具有刑事违法性。但是,如果爬虫程序在实施访问时,采用破解用户密码或利用系统安全漏洞,访问了非公开的系统,则应按照非法获取计算机信息系统数据罪论处。如果侵入系统后,获取的是公民个人信息,则涉及与侵犯公民个人信息罪的竞合问题。

-3rd-

我违法了吗

只能说不清楚,目前做了很多从高德地图偷数据的工作,高德的服务协议这样写[6]:

  • 若您以非商业目的使用本服务(不包括需另行购买的产品和服务)的,则您仅需在网站注册和登录开发者帐号并签署本协议,之后您即可享有一定额度内的服务使用次数和并发服务量免费额度(……)
  • 您只可使用在平台相应官方文档中所列明和开放的本服务的功能来对相关服务数据的结果进行展示,但是您不得直接存储、缓存或技术手段抓取、使用本服务内部数据、图片、程序、模块或是任何其他服务或功能。
  • 您不能为本服务创造或提供封装。例如,您不得进行如下行为:(1)在您向其他人提供的任何应用接口中使用或提供本服务或相关内容的任何部分;或(2)创造一个网站或应用程序以重现或复制高德地图或本服务的全部或部分。

无疑,我提供的一系列工具,都违反了高德开放平台的协议(网络上的很多其他人也是)。虽然数据本身公开,但是可能对他人(主要是高德)造成了一定的利益损害,主要侵害的是高德基于数据获利的途径,比如高德的AOI数据接口是收费的。

但是,地图数据还是很有必要的,“白嫖”的需求也很大,所能做的也许只能降低对高德的利益损害,具体?

——可能是降低数据获取强度。以接近人工截图、人工描图、使用坐标拾取平台(https://lbs.amap.com/tools/picker)等正常方式的强度

目前:POI数据一个点约2.4s,AOI数据一个面约1.3s,其他数据单位获取时间应该差不多也是1s左右——比人工稍快一点吧

——合理使用获取到的数据。就目前的数据获取效率、最后的数据结果来说,可能还不足以供给商业化用途使用(长舒一口气)。不过,可能不能在共享盘共享大家获取的数据了,个人时间成本开始上升~

最后,如果确实造成了很大的损害,行为不合法,请与我联系(狗头保命)

在此之前,也是能苟一会儿就苟一会儿啦,且用且珍惜

“各位是啥子观点呐?法盲人士尽管瞎聊


[1]百度百科:网络爬虫词条

[2]百度百科:法律词条

[3]百度百科,中华人民共和国刑法词条,https://baike.baidu.com/item/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E5%88%91%E6%B3%95/721359;二百八十五条的司法补充解释:http://www.court.gov.cn/fabu-xiangqing-3085.html;

[4]案例解读:https://zhuanlan.zhihu.com/p/373371398;

[5]吴卫明,数据爬虫的罪与罚—兼论非法获取计算机信息系统数据罪的适用[EB/OL]. [2021-03-17]. [2021-05-24]. https://www.allbrightlaw.com/CN/10475/3a742750e4a53fcc.aspx

[6]高德地图开放平台服务协议,[2021-04-22]. [2021-05-24].https://lbs.amap.com/pages/terms/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 规划人在路上 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • -1st-
  • 绪论
    • 01 网络爬虫
      • 02 法律
        • 03 聚焦:规划领域对爬虫的需求
        • -2nd-
        • 爬虫的法律边界在哪?
          • 01 直白的理解
            • 1. 边界
            • 2. 教育科研、项目等用途
            • 3. 数据源本身的合法性
            • 4. 服务协议
            • 5. 提供爬虫工具
          • 02 法律上
          • -3rd-
          • 我违法了吗
          相关产品与服务
          大数据
          全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档