用python从豆瓣上爬取王祖贤的照片

文章来源：企鹅号 - 每天晒白牙

用python实现从豆瓣网上爬取王祖贤的照片

准备工作

安装好python、chromedriver、浏览器的XPath Helper插件python学习：http://www.runoob.com/python3/python3-tutorial.htmlXPath语法学习：http://www.w3school.com.cn/xpath/xpath_syntax.asp

实战

这次爬取的数据分别为json格式和HTML格式

json格式

json格式在www.douban.com网站中，搜索王祖贤，通过开发者模式可以找到请求的地址 https://www.douban.com/j/search_photo?q=%E7%8E%8B%E7%A5%96%E8%B4%A4&limit=20&start=0，如下图所示：

然后我们访问这个url，可以看到返回了json的数据：

解析代码示例

HTML格式

HTML格式的访问https://movie.douban.com，搜索王祖贤，通过查看源码，了解结构，然后用XPath Helper插件做试验，按住ctrl+shift+x 同时鼠标点击王祖贤图片，根据XPath的语法同时根据HTML的结构写解析表达式：

XPath语法学习：http://www.w3school.com.cn/xpath/xpath_syntax.asp

解析代码示例

完整代码

成果

总结

用python实现爬虫一直是我想学习的，但却迟迟没有行动，趁着放假，跟着数据分析的专栏做了几个实战的练习，很高兴最后成功了，思路和代码参考了老师的例子和大家的评论，因为我是python零基础，所以通过实战也顺便学了python。整个过程下来的感悟是，还是实战学东西快，以后更要多多实操，而不仅仅看理论。小小的实战成功能激发自己学习的动力，希望大家也能亲自尝试下。

发表于: 2019-01-312019-01-31 11:20:27
原文链接：https://kuaibao.qq.com/s/20190131G0DYG000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

用python从豆瓣上爬取王祖贤的照片

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐