用python实现从豆瓣网上爬取王祖贤的照片
准备工作
安装好python、chromedriver、浏览器的XPath Helper插件python学习:http://www.runoob.com/python3/python3-tutorial.htmlXPath语法学习:http://www.w3school.com.cn/xpath/xpath_syntax.asp
实战
这次爬取的数据分别为json格式和HTML格式
json格式
json格式在www.douban.com网站中,搜索王祖贤,通过开发者模式可以找到请求的地址 https://www.douban.com/j/search_photo?q=%E7%8E%8B%E7%A5%96%E8%B4%A4&limit=20&start=0,如下图所示:
然后我们访问这个url,可以看到返回了json的数据:
解析代码示例
HTML格式
HTML格式的访问https://movie.douban.com,搜索 王祖贤,通过查看源码,了解结构,然后用XPath Helper插件做试验,按住ctrl+shift+x 同时鼠标点击王祖贤图片,根据XPath的语法同时根据HTML的结构写解析表达式:
XPath语法学习:http://www.w3school.com.cn/xpath/xpath_syntax.asp
解析代码示例
完整代码
成果
总结
用python实现爬虫一直是我想学习的,但却迟迟没有行动,趁着放假,跟着数据分析的专栏做了几个实战的练习,很高兴最后成功了,思路和代码参考了老师的例子和大家的评论,因为我是python零基础,所以通过实战也顺便学了python。整个过程下来的感悟是,还是实战学东西快,以后更要多多实操,而不仅仅看理论。小小的实战成功能激发自己学习的动力,希望大家也能亲自尝试下。
领取专属 10元无门槛券
私享最新 技术干货