这个网站是我和文亮今年1月2号的爬的一个网站,我不会告诉你第一个网站是个妹子图网站,爬到了40万~60万张图片。。。这个彼岸图网的图片比较少,大概是2万张,我记得。
又是一个激动人心的夜晚,这是振兴和我爬取的第2个网站:
[]。
基础爬虫的套路:通过copy命令得到网页源代码,然后将源代码读入Stata,进行字符串的处理,最终整合成我们需要的信息。这是我爬取的第2个网站,是因为第1个是 [] ,不过最后命令写完了才发现,copy命令并不能爬取到我们所要的图片(因为妹子图设置了防盗链)。看来“网络爬虫最难的不是字符串处理,而是如何得到目标数据的源代码。”真是灵验,后续这个问题我们用curl命令解决。
所以目前我们可随便的从彼岸图网找一张图片,比如[这张]:(http://pic.netbian.com/d/file/dbigfile/9de3a4a8226155e21baecd3a6ab6fd9a.jpg):
使用命令:
发现可以copy下来(说明没有设置反爬),方有后文。
思路如下:爬取彼岸图网类别和每个类对应的网址信息,然后在每个类下爬取每个图片的链接和每个类的页数。本来看到这个网站更新了,想写点啥,后来发现每个类的页数是爬出来的,实在没什么好写的了。。。代码如下(理解后面总结的第一点后对代码的整体能更好的把握):
领取专属 10元无门槛券
私享最新 技术干货