我是今年实习的时候接触的Python,接触了具体的代码,以前只知道Python比较好玩,但是没用过。然后在公司以后项目用的是Python的Django框架,就一直学习Python,学习框架。现在在学习Python的爬虫框架scrapy,一直是挺喜欢爬虫的,因为基本可以爬到所有的公开数据,也挺好玩的,然后最开始是直接的基础的requests和urlib包,最后就决定试试一些比较大型的网站。
美团的是我爬虫爬取的第一个网站,也就是一边学习,一边写代码。从最基本的地区信息,一直爬到最详细的美食模块数据。中间也踩了很多坑,也学习了好多。最后是由于爬取详细的美食数据必须要有一个比较稳定的代理IP,最好是动态的,这样是最容易拿到所有的数据,这是需要花钱的,我就没在做了。但是具体的数据怎么拿到,怎么做,怎么保存,还是学到很多的。
下一步,我是想拿智联的数据,做一些数据分析。数据爬到其实挺容易的,但是如何做好数据分析是最重要的。然后也在慢慢学习这方面的知识。
从我爬取美团数据来看,我觉得主要是:
1、查看网页的内容,确定你所需要的东西。
2、再去看response中的内容,找到你需要的东西的位置
3、拿到该链接的请求头,模拟请求,特别是反爬做的比较好的网站
4、再就是写代码了,写你的xpath.
当然还有很多不对的地方,有什么错误,请指出
可以一起交流,本人也是初步学习
本文分享自 Python爬虫scrapy 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!