Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >圣诞来临,爬取女神美图放松下

圣诞来临,爬取女神美图放松下

作者头像
周萝卜
发布于 2019-07-17 07:11:07
发布于 2019-07-17 07:11:07
4980
举报
文章被收录于专栏:萝卜大杂烩萝卜大杂烩

站在巨人的肩膀上,才能看得更高、更远!

大神徐麟(公众号“数据森麟”)写过一篇爬取懂球帝女神大会数据的文章,非常棒,自己闲来无事,也尝试着做一下。(关键是年尾了,墙裂需要女神们来养养眼)

01.准备

  1. 懂球帝APP一枚(其实可有可无)
  2. Python基础知识(这不废话嘛)
  3. 耐心,耐心,耐心!!!

02.处理API

从巨人(徐麟)的文章中看到了一个宝贝,那就是懂球帝居然有个API可以调用,拿来主义搞一下:

http://api.dongqiudi.com/search?keywords=%E5%A5%B3%E7%A5%9E%E5%A4%A7%E4%BC%9A&type=all&page=1

尝试着在浏览器访问,发现当page等于7的时候就不会返回数据了,所以处理API代码如下

这里的print只是调测时使用的,可以注释掉,这里结果也不贴出来了,比较长。

代码里维护了两个列表nvshen_id_list和nvshen_id_picture都是留待后面使用的。主要获取API里的id和thumb字段,分别存储的是女神HTML页面ID和女神美照。

03.处理页面数据

页面数据的获取及整理还是处理了很久的,因为是循环处理不同的HTML页面,期间还是遇到了一些问题的,先上代码:

KENG1

这个页面是有一个小小的反爬机制的,需要校验cookies和headers,这里用chrome浏览器的F12查看浏览器访问页面时的cookies和headers是怎么样的:

可以看到,cookies还是比较多的,经过测试使用laravel_session里面的cookie是可以的,然后headers添加了User-Agent和Connection两个参数,这样就能正常获取到响应了。

KENG2

因为上面提到的API返回的数据,有一些对我们来说是无用的,所以代码里使用try-except(continue)来处理,当API返回的内容里包含的id并不是我们想要的页面时,代码处理逻辑出错,需要continue下去,循环其他的id页面,继续抓取。

KENG3

因为是循环获取列表nvshen_id_list里的数值,然后拼接成网页,再获取网页信息并处理网页数据,但是这些网页的内容格式不尽相同

,同一套处理逻辑不能完全通用,所以才使用了比较多的if语句来加以判断。比如获取女神评分的时候,很多页面的格式都是不统一的,需要特殊处理下,当时的内心其实是崩溃的

KENG4

最后再来说说get_picture函数,其实思想差不多,封装一个函数就是为了代码简洁一些(虽然这个爬虫代码已经写的很菜了)。

KENG5

最后的最后,还有三位女神没法统一用代码处理

(我是不会承认我菜的

),其实应该是可以同样用代码来处理的,但是因为就三个,索性偷懒啦,不想再写过多的逻辑判断了,自己也觉得没有必要(强行为菜开脱

)。

好了,历尽艰辛,终于整理出了自己想要的数据,下面就把数据保存起来吧。

04. 保存到文件

使用了投票人数作为加权分数

,默认认为投票越多,该女神越受关注,那么相应的分数也要高一些,这样可以避免女神们的分数很多都一样,不好排名的问题。最后文件的内容大概是这样的

04. 终极排名

群众的眼睛是雪亮的,球迷的眼睛那更不用说了。不过话说数据分析才是最最看功力的地方,这里我只是做了简单的处理,其他分析留待以后好好研究吧

不对啊,说好的女神照片呢

,哈哈哈,到生成的女神文件里点链接吧

https://github.com/zhouwei713/dqd_goddess

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 萝卜大杂烩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
没有忍住,还是用Python爬了N多个女神
不是知道有多少人知道“懂球帝”这个 APP(网站),又有多少人关注过它的一个栏目“女神大会”,在这里,没有足球,只有女神哦。 画风是这样的
周萝卜
2019/08/08
5860
没有忍住,还是用Python爬了N多个女神
用Python解读“女神大会”,直男心目中的女神是这样的?
都说直男审美不可靠,而程序员作为直男一大代表,更是经常被调侃穿衣风格、外在形象。但场主发现,直男(程序员)的审美,似乎,还是有点靠谱的?
养码场
2019/03/01
4650
用Python解读“女神大会”,直男心目中的女神是这样的?
4K美女壁纸爬取
4K美女壁纸爬取 一、前言 拍了zhenguo的课程,今天继续学习课程同时,尝试使用BeautifulSoup4这个网页解析的方法爬取图片,看完后心血来潮,想自己也试一下。 爬完后并总结这篇投稿给zhenguo,奖励我50元稿费,很开心。 最先想到的是彼岸图网,这个网站上有很多4k壁纸,打开网页后,我选择了4k美女壁纸作为本次爬虫的目标,爬取到的图片截图如下: 二、过程 1.首先,我们拿到前三页的网页地址。 2.通过分析可以看出,当页面变化时,index后面会发生改变,但在第一页时并没有数字显示,所以
double
2022/06/13
2.7K0
4K美女壁纸爬取
【爬虫】爬取女神套图
目标URL:http://www.win4000.com/meinvtag4_1.html
天道Vax的时间宝藏
2021/08/11
9180
硬核看球,数据分析足坛转会窗口各队表现
各大联赛在7月初都打开了转会窗口,各路豪强纷纷出巨资对阵容进行补强,比如格列兹曼加盟巴塞罗那(文章图片源于懂球帝):
数据森麟
2019/09/27
5280
硬核看球,数据分析足坛转会窗口各队表现
爬取近千张女神赫本的美照,做成网站并给其中的黑白照片上色,好玩!
对于赫本相信大家都非常熟悉了,绝对是一代女神,今天我们就来爬取女神的近千张美照,在一饱眼福的同时,还可以学习下如何做网站,对于老旧的黑白照片,还有一键上色功能可以玩,真是一举多得
周萝卜
2021/10/25
6210
二十行Python代码爬取微博高质量美女视频(福利)
大家关注我这么久了,当然要来一点正经的教学视频,毕竟不是正经的大家都不看,今天就给大家爬个小姐姐。
秃头程序员
2021/12/23
5970
二十行Python代码爬取微博高质量美女视频(福利)
Python 懂车帝口碑分爬虫
先来web端试下能否找到需要的数据接口,随便找个车型打开口碑页面F12查看Network
拉灯的小手
2022/04/03
9080
爬取B站评论:Python技术实现详解
在当今信息爆炸的互联网时代,用户生成的内容不断涌现,其中包括了各种各样的评论。而B站作为一个充满活力的视频分享平台,其评论区更是一个充满了各种各样精彩评论的宝藏地。那么,有没有一种简单的方法可以将这些评论收集起来呢?答案是肯定的!本文将介绍如何使用Python编写一个爬虫程序,轻松实现爬取B站视频的评论,为我们探索互联网数据的奥秘带来便利。
小白学大数据
2024/04/30
9430
【爬虫实践】爬取官方新闻标题、正文、时间
要求爬取济南市政务网中“滚动预警”菜单中的文章,包括文章标题,文章正文,文章时间,并保存为txt文件。
zstar
2022/06/14
1.3K0
【爬虫实践】爬取官方新闻标题、正文、时间
深爬笑死人不偿命的知乎沙雕问题排行榜!哈哈哈哈哈
这两天偶然上网的时候,被知乎上一个名为“玉皇大帝住在平流层还是对流层”的问题吸引,本以为只是小打小闹,殊不知这个问题却在知乎上引发了强烈共鸣,浏览次数500W+,7000+关注:
Python数据科学
2019/11/12
2.5K0
Python 懂车帝综合口碑数据
先来web端试下能否找到需要的数据接口,随便找个车型打开口碑页面F12查看Network
拉灯的小手
2022/04/04
5180
R语言爬虫实战——知乎live课程数据爬取实战
本文是一篇R语言爬虫实战练习篇,同样使用httr包来完成,结合cookies登录、表单提交、json数据包来完成整个数据爬取过程,无需书写复杂的xpath、css路径甚至繁琐的正则表达式(尽管这三个技能对于数据爬取而言意义非凡)。 之前已经演练过如何使用httr来完成网易云课堂的课程爬取,其中用到POST方法和表单提交。 今天爬取对象是知乎live课程信息,用到的GET方法,结合cookies登录和参数提交来完成,这一篇会给大家稍微涉猎一些细节技巧。 library("httr") library("dp
数据小磨坊
2018/04/11
1.5K0
R语言爬虫实战——知乎live课程数据爬取实战
Python爬虫 | 批量爬取某图网站高质量小姐姐照片
自从上次爬取了虎牙1000多位小姐姐照片《Python爬虫 | 爬取虎牙直播星秀区1000多位漂亮小姐姐照片并做颜值评分》之后,有粉丝反馈说 虎牙这些小姐姐照片都太俗气了,建议去爬爬 图虫网美女标签(https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3)上的高质量小姐姐照片。
可以叫我才哥
2021/08/05
9910
笑死人不偿命的知乎沙雕问题排行榜
作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)
用户1564362
2019/11/12
6950
笑死人不偿命的知乎沙雕问题排行榜
Python爬取小说并写入word文档
目标网站就是我们知名的笔趣阁:https://www.biquzw.la/,知名的搬运网站,受众很大,书源也是海量的,主要是没限制的话,好爬!
MinChess
2023/03/08
9070
Python爬取小说并写入word文档
新手向-爬取分析拉勾网招聘信息
然后在拉勾网搜索关键词 算法工程师 回车,然后点击下一页、下一页,此时开发者工具里的Network 下XHR(表示该网站是以Ajax方式获取刷新信息的)应当如下图(图中已标明了一些关键信息):
爱写bug
2019/07/05
6850
新手向-爬取分析拉勾网招聘信息
从零开始:用Python爬取懂车帝网站的汽车品牌和价格数据
场景:在一个现代化的办公室里,工程师小李和产品经理小张正在讨论如何获取懂车帝网站的汽车品牌和价格数据。
jackcode
2025/02/12
4290
从零开始:用Python爬取懂车帝网站的汽车品牌和价格数据
Echarts统计拉勾网招聘信息(scrapy 爬取)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/j_bleach/article/details/78945771
j_bleach
2019/07/02
7900
Echarts统计拉勾网招聘信息(scrapy 爬取)
用 Python 登录主流网站,我们的数据爬取少不了它
项目地址:https://github.com/CriseLYJ/awesome-python-login-model
机器之心
2019/03/19
1.2K0
用 Python 登录主流网站,我们的数据爬取少不了它
推荐阅读
相关推荐
没有忍住,还是用Python爬了N多个女神
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档