前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深爬笑死人不偿命的知乎沙雕问题排行榜!哈哈哈哈哈

深爬笑死人不偿命的知乎沙雕问题排行榜!哈哈哈哈哈

作者头像
Python数据科学
发布于 2019-11-12 02:50:09
发布于 2019-11-12 02:50:09
2.5K02
代码可运行
举报
文章被收录于专栏:Python数据科学Python数据科学
运行总次数:2
代码可运行

前言

这两天偶然上网的时候,被知乎上一个名为“玉皇大帝住在平流层还是对流层”的问题吸引,本以为只是小打小闹,殊不知这个问题却在知乎上引发了强烈共鸣,浏览次数500W+,7000+关注:

于是乎就激发了去探索知乎上“沙雕”问题的想法,通过Python爬取这些问题的内容,浏览次数,关注人数,总结一份权威(搞笑)的“沙雕”问题排行榜

数据来源

知乎非常“贴心”地专门有一个问题可以满足我们的需求,出人意料的是这个问题居然有243个回答,并且陶飞同学获得了3W+的赞同

我们从中爬取了所有回答中出现的问题链接,共用400多个问题,其中陶飞就提供了200+,在此向陶飞同学表示感谢,帮助我们构建了“沙雕数据库”,这部分代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import reimport seleniumfrom selenium import webdriverimport requestsfrom bs4 import BeautifulSoupimport pandas as pdimport time
driver = webdriver.Chrome()driver.maximize_window()
url = 'https://www.zhihu.com/question/37453271'js='window.open("'+url+'")'driver.execute_script(js)driver.close()driver.switch_to_window(driver.window_handles[0])for i in range(100):     js="var q=document.documentElement.scrollTop=10000000"       driver.execute_script(js)
all_html = [k.get_property('innerHTML') for k in driver.find_elements_by_class_name('AnswerItem')]all_text = ''.join(all_html)
#all_text = all_text.replace('\u002F','/')all_text = all_text.replace('questions','question')pat = 'question/\d+'questions = list(set([k for k in re.findall(pat,all_text)]))

获得到了问题的对应的编号后,就可以去各自的页面获取各个问题对应的的标题、浏览数等信息,如下图所示:

这部分代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0','Connection': 'keep-alive'}cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'cookie = {}for line in cookies.split(';'):    name, value = cookies.strip().split('=', 1)    cookie[name] = value
questions_df = pd.DataFrame(columns = ['title','visit','follower','answer','is_open'])
for i in range(len(questions)):    try:        url = 'https://www.zhihu.com/'+questions[i]        html = requests.get(url,cookies=cookie, headers=header).content        bsObj = BeautifulSoup(html.decode('utf-8'),"html.parser")        text = str(bsObj)        title = bsObj.find('h1',attrs={'class':'QuestionHeader-title'}).text        visit = int(re.findall('"visitCount":\d+',text)[0].replace('"visitCount":',''))        follower = int(re.findall('"followerCount":\d+',text)[0].replace('"followerCount":',''))        answer = int(re.findall('"answerCount":\d+',text)[0].replace('"answerCount":',''))        is_open = int(len(re.findall('问题已关闭',text))==0)        questions_df = questions_df.append({'title':title,'visit':visit,                                            'follower':follower,'answer':answer,                                            'is_open':is_open},ignore_index=True)        time.sleep(2)        print(i)    except:        print('错误'+str(i))

数据分析

在分享出最终的“沙雕排行榜”前,我们首先严肃认真(lixinggongshi)的进行一波分析,主要看一下问题中的关键词,首先是所有词云的词云:

看来这些问题大多是源自于大家对于人生的探索,否则“为什么”,“如果”,“怎么办”也不会出现那么多,出人意料的是“体验”这个知乎专属tag居然并不多,可能是出于对知乎的尊重,和“体验”相关的问题都不会问得那么“沙雕”。

下面把这些助词去掉,再来看下结果:

这个图看来,读者关注的问题还是很极端,一方面在关注男女朋友“你冷酷、你无情、你无理取闹”这种问题,另一方面却在关注宇宙、地球这种关乎全人类的问题,很符合知乎“人均985,各个过百万”的人设。

这两个图实际上都是基于一个表情,不知道有没有看出来:

好吧,其实看不出来才是正常,能看出来的可能现在去知乎提个问题,下期就会上榜

,最后把部分问题做出词云:

不知道大家能不能看清,说实话我自己是看不清的,也没准备让大家看清

,目的就是引出下面真正的排行榜

沙雕问题排行榜

通过综合问题观看数,关注数,回答数,关注占比,回答占比,综合得到分数的流量指数和新奇指数,最终获得一个整体的分数,如下图所示:

听起来是不是很复杂,实际上最终还是通过90%10%的数据+10%90%的主观来进行了排名,为大家精选了15个最为“沙雕”的问题,后台回复“沙雕”可以获取更多问题,也选取部分网友的回答,问问题的操作诚然很风骚,面对这些“沙雕”问题,认真回答的绝对是风骚PLUS,特此声明,以下回答来自于知乎网友:

TOP 15

Q:李白写那么多诗,他自己都会背吗?

原问题链接: https://www.zhihu.com/question/276876453

森麟小结:写自己的诗,让别人去背吧,真乃人生最高境界

TOP 14

Q:猪八戒是黑猪还是白猪?

原问题链接: https://www.zhihu.com/question/37160000

森麟小结:后经多方考证,证明了猪八戒的黑猪身份,这下子身价进一步暴增,对此我们表示:黑猪白猪,不涨价的猪就是好猪

TOP 13

Q:邹市明能一拳把自己打晕吗?

原问题链接: https://www.zhihu.com/question/36805199

森麟小结:知乎上各种关于邹市明能打多少人的问题层出不穷,没想到最终还是要向自己动手了

TOP 12

Q:生蚝煮熟了还可以叫生蚝么?

原问题链接: https://www.zhihu.com/question/25016659

森麟小结:这个问题就好比有些叫帅帅的人,无论长成什么样,别人都要叫他帅帅

TOP 11

Q:被袋鼠暴打是一种怎样的体验?

原问题链接: https://www.zhihu.com/question/27387052

森麟小结:珍爱生命,远离袋鼠,切莫为了一个高赞回答去和袋鼠亲身肉搏,否则可能还没来得及分享“刚编出来的故事”就……

TOP 10

Q:秃顶的人洗头,应该用洗发水还是洗面奶?

原问题链接: https://www.zhihu.com/question/48119206

森麟小结:希望广大程序员朋友保护好头发,不要有朝一日被邀请回答这个问题

TOP 9

Q:如果地球上所有人同时用激光笔指着月亮,月亮会不会变颜色?

原问题链接: https://www.zhihu.com/question/48119206

森麟小结:会不会变色无从考究,但是在月亮变色前,我的眼睛一定会先被闪瞎

TOP 8

Q:玉皇大帝住在平流层还是对流层?

原问题链接: https://www.zhihu.com/question/304133742/

森麟小结:这个问题应该就是“一本正经的胡说八道”集大成者,评论区好多相关领域人士进行了认真解答,不过究竟住哪也没搞明白,可能只能只有孙悟空知道答案了

TOP 7

Q:把一个变色龙绑在不断变换颜色的灯上,它会不会心力交瘁而死?

原问题链接: https://www.zhihu.com/question/32052499

森麟小结:变色龙属于国家级保护动物,很可能还没看到结果,先被带走接受教育

TOP 6

Q:如果把皮卡丘的耳朵塞到插座里,皮卡丘会被电死么?

原问题链接: https://www.zhihu.com/question/52083864

森麟小结:皮卡丘会不会被电死不好说,但是你会不会被电死还是很清楚的

TOP 5

Q:西瓜除了被吃还有什么生存意义?

原问题链接: https://www.zhihu.com/question/24393996

森麟小结:提问之前最好先想想自己除了吃,还有什么生存意义

TOP 4

Q:为什么外国超级英雄趴着飞,而中国神仙竖着飞?

原问题链接: https://www.zhihu.com/question/26992616

森麟小结:这是怎样的神仙读者,居然问出了这种“惊天地,泣鬼神”的问题,想必各路神仙也在跃跃欲试,准备拉他过去现场讲解

TOP 3

Q:向日葵晚上在干嘛,跟着月亮吗?

原问题链接: https://www.zhihu.com/question/21370688/

森麟小结:自产自销,果然够厉害,而且不要用人类“996”的思想去要求向日葵,人家太阳落山就下班了,不多说了,已泪崩

TOP 2

Q:苍蝇被搭载到另一个城市怎么办?它的家人孩子怎么办?

原问题链接: https://www.zhihu.com/question/20831390/

森麟小结:这位朋友为了苍蝇的生活操碎了心,不如把让他们大家族都在自己的家里生活,实现大团圆的美好结局

TOP 1

Q:女朋友生气心烦的时候爱爬树怎么办?

原问题链接: https://www.zhihu.com/question/30914451/

森麟小结:你们两确定不是猴子派来的逗比

写在最后

本文主要是通过这些问题图大家一乐,只有你在看文章的时候笑了,我们的目的就达到了,知乎上实际上还是有很多很有价值的问题,即使是这些“沙雕”的问题,也有些非常有意思的回答,大家可以多去了解了解,开拓视野。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python数据科学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
笑死人不偿命的知乎沙雕问题排行榜
作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)
用户1564362
2019/11/12
6930
笑死人不偿命的知乎沙雕问题排行榜
python盘点:知乎沙雕问题排行榜
这两天偶然上网的时候,被知乎上一个名为“玉皇大帝住在平流层还是对流层”的问题吸引,本以为只是小打小闹,殊不知这个问题却在知乎上引发了强烈共鸣,浏览次数500W+,7000+关注:
朱小五
2019/11/26
7600
笑死人不偿命的知乎沙雕问题排行榜
于是乎就激发了去探索知乎上“沙雕”问题的想法,也参照了shenzhongqiang文章《75条笑死人的知乎神回复,用60行代码就爬完了》,通过Python爬取这些问题的内容,浏览次数,关注人数,总结一份权威(搞笑)的“沙雕”问题排行榜。
IT阅读排行榜
2019/11/12
5.5K0
笑死人不偿命的知乎沙雕问题排行榜
凡尔赛沙雕语录,究竟有多沙雕?
去掉 answer 以及后面的部分就是这个问题的网址,这个网址我们会在后面的爬虫中用到。
小一不二三
2021/01/19
5110
凡尔赛沙雕语录,究竟有多沙雕?
一分钟爬取知乎5646个知乎回答(内附代码)
有人说,我知道可以去看豆瓣评分,按照评分高低排序选书,但是往往评分高的书却不容易阅读,比如下图介绍的《量子力学》,评分高达9.6,五星好评,可惜工作时间繁忙阻碍了我与它的交流(不是智商)
行哥玩Python
2020/07/14
4.6K1
一分钟爬取知乎5646个知乎回答(内附代码)
如何爬取知乎漂亮妹纸照片
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Firefox,Safari,Google Chrome,Opera等。
HuangWeiAI
2019/10/14
1K0
如何爬取知乎漂亮妹纸照片
卧槽!GitHub 又诞生一个沙雕项目?!
前两天发了一个文章,盘点了GitHub上比较沙雕的项目这 7 个 GitHub 项目太沙雕了!,今天再盘点一个。
哲洛不闹
2020/09/17
7870
卧槽!GitHub 又诞生一个沙雕项目?!
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。
梦想橡皮擦
2019/03/04
4430
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
知乎爬虫-指定问题采集全回答
只需运行主程序html.py即可。书籍信息保存在read2.txt中  源代码保存已注释。
十四君
2020/03/03
5660
Java 爬知乎某个问题下的所有图片
前言 网上有许多关于知乎的爬虫,但都是用 Python 来实现的,由于我的主语言是 Java 所以想用 Java 来实现下。 本次用到了一个国人开发的优秀的爬虫框架:WebMagic 。 思路 首先打
一份执着✘
2018/06/04
1.7K0
用Python扒出B站那些“惊为天人”的阿婆主!
作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)
数据森麟
2020/02/12
4970
用Python扒出B站那些“惊为天人”的阿婆主!
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
GitHub上,这个富有灵魂的项目名吸引了众人的目光。项目诞生一周,便冲上了趋势榜榜首。
磐创AI
2019/11/14
7470
爬取知乎真福利回答内容
女生身材好是什么体验?:https://www.zhihu.com/question/328457531
爱写bug
2019/07/08
1.3K0
知乎大神爬了这些网站的数据,发现价值巨大!
一个网站背后的数据是一座巨大的宝库,对于如何爬取数据,如何利用好这些数据,很多人还是一头雾水。在知乎的提问“有哪些网站用爬虫爬取能得到很有价值的数据?”中,@何明科为读者分享了自己的爬虫经验:
钱塘数据
2018/07/30
1.9K0
知乎大神爬了这些网站的数据,发现价值巨大!
APP热搜榜接口提供 --- 知乎
目的地-Destination
2024/08/07
2771
APP热搜榜接口提供 --- 知乎
利用Scrapy爬取所有知乎用户详细信息并存至MongoDB
崔庆才
2017/04/27
3.9K2
平常人可以漂亮到什么程度?教你爬取知乎大神们的回答一探究竟!
最近呢,可能是因为写了几篇关于爬虫获取美女照片的文章的缘故?总是收到知乎推送这个话题,由于关注才哥颜值得到蹭蹭上涨,现在终于敢点开这个问题,然后一探究竟啦!
可以叫我才哥
2021/08/05
9760
Python有趣|寻找知乎最美小姐姐
本月将更新八篇Python有趣系列文章。本系列通过多个有趣案例,讲解Python的玩法,其中包含如下内容,一一推进讲解。
罗罗攀
2019/03/15
2.9K1
Python爬虫实战:抓取知乎问题下所有回答
好久不见,工作有点忙...虽然每天都是在写爬虫,也解锁了很多爬虫实战新技能,但由于工作里是用 NodeJS,已经好久没动手写 Python 了。
TTTEED
2021/09/23
6.3K4
用Python寻找知乎最美小姐姐
导读:最近知乎老是给我推送两个问答,一个是「长得好看是种什么体验?」,另一个是「女朋友长得好看是怎样的体验?」。
IT阅读排行榜
2019/04/24
1.1K0
用Python寻找知乎最美小姐姐
相关推荐
笑死人不偿命的知乎沙雕问题排行榜
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验