之前分享过一篇:不用写代码的爬虫工具教程——推荐,对于一般的爬取是没问题的,如果有些复杂的场景,可能还是需要写爬虫代码的,一般我也就用爬虫做一些自动化的工作,主要下载一些数据。
写爬虫程序,很多人会担心写爬虫触犯一些法律什么的,事实上不侵犯损害他人利益以及不影响网站正常工作,只是娱乐正常使用是没问题的,尤其是批量化大规模操作的时候,所以一开始写爬虫代码时,了解一些还是有必要的。
比如我自己在课程中第一次进行批量操作的时候就会告知可能的影响。
爬虫程序其实就是用代码来模拟打开网页的一个过程。如果你表现的和一个正常访问网页的人一样,那是没什么问题的,比如限制一下爬取的速度。
第一个:http://www.glidedsky.com/
首先需要注册登录,进入后依次闯关,到第三关就要小心了,你的IP可能会被屏蔽访问不了了。
第二个:https://cuiqingcai.com/9522.html
上面的链接是各个爬虫网站的入口,《python3 网络爬虫开发实战》这本书的作者发布的一站式爬虫练习平台,里面有各种可以练习的场景。
感兴趣的可以去看看。