爬虫技术本身是中立工具,但其使用是否合法完全取决于具体实施方式、目标对象和用途。以下是关键法律边界和合规要点,帮助你避免踩坑:
robots.txt
禁止规则)robots.txt
协议/product/
目录常禁止爬取)User-Agent
(如MyCrawlerBot/1.0 (+http://mywebsite.com/bot)
)429 Too Many Requests
或CEASE-AND-DESIST
律师函应立即停止案例 | 关键点 |
---|---|
美国hiQ vs LinkedIn | 爬取公开个人资料被判合法,但需规避登录区 |
大众点评诉百度地图 | 百度爬取用户点评并商用,被判赔偿323万元(不正当竞争) |
Facebook诉Power Ventures | 绕过登录机制爬取数据,被告赔偿$3.7亿+刑事指控 |
📌 关键结论:爬虫的合法性 = 数据来源合法 + 技术手段合法 + 用途合法。 当涉及商业用途或大规模爬取时,务必咨询法律团队,避免天价赔偿(近年国内判赔额超百万案件增长267%)。
建议在项目启动前查阅最新司法解释(如中国《数据安全法》第32条)或使用专业合规爬虫工具(如Apache Nutch、Scrapy + AutoThrottle扩展)。技术无罪,但鲁莽使用可能让你付出惨痛代价!