python版本:python3.7
编译器:pycharm
所爬取的网址:http://www.weather.com.cn/weather/101020100.shtml (中国天气网上海)
所用方法:lxml的css选择器
最后运行结果示例如图:
爬取思路
1. 检查网站的robots.txt文件
2. 查看网页源代码找到所要爬取的内容
3. 写表达式爬取想要的内容
4. 写入csv文件
检查网站的robots.txt文件
robots.txt文件定义了对爬虫的限制,可以直接手动在想要爬的网址后输入robots.txt查看
也可以通过代码实现,这样在爬取其他网页时也可以复用,爬多网页时比较方便。
查看网页源代码找到所要爬取的内容并爬取
写入csv文件
领取专属 10元无门槛券
私享最新 技术干货