Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从《流浪星球》1000条评论中看看这部电影到底咋样

从《流浪星球》1000条评论中看看这部电影到底咋样

作者头像
TeamsSix
发布于 2019-09-24 08:46:18
发布于 2019-09-24 08:46:18
45200
代码可运行
举报
运行总次数:0
代码可运行

在豆瓣上有很多关于《流浪星球》的评论,评论太多了,那么到底这部电影怎么样呢?Python可以给出我们答案,这就需要用到Python的词云了。

什么是词云?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。

首先我们需要准备的python库包括:requests,BeautifulSoup,jieba,matplotlib,wordcloud和imageio,可以通过pip install —-进行安装。其中jieba用于分词;matplotlib基础的画图库;wordcloud用于生成词云对象;imageio用于读取背景图片。

接下来进行代码实现:

获取评论。每页评论有20条,通过修改url中的start参数可以实现查看不同页面评论,同时每部电影在豆瓣中都有对应的id,因此将《流浪星球》的id值与需要抓取的页面开始值放入到comment(id,i)中即可获取当前页面评论,并返回评论数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def comment(id,i):
   result = []
   inres = requests.get('https://movie.douban.com/subject/{}/comments?start={}&limit=20&sort=new_score&status=P'.format(id,i),headers = headers)
   insoup = BeautifulSoup(inres.text,'html.parser')
   for comment in insoup.select('.comment-item'):
       result.append(comment.select('p')[0].text)
   return result

将评论存入text变量。range(0,1001,20)函数中从0到1001,以20个数分割,以实现抓取不同页面评论的效果,最终将抓取1000条评论。同时《流浪星球》的id通过访问网页url中可以知道为26266893,最终评论数据将被去除换行后以字符型传入text中。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import jieba
import requests
from imageio import imread
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
from wordcloud import WordCloud
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}pools = []
for j in range(0,1001,20):
   pools.append(comment(26266893,j))
text = str(pools).replace('\\n','')

这里放张图片,看看一千条评论有多少内容,总共32479个字。

将中文剪切后存入变量wl中。这里删除掉了一些无关紧要的词,通过jieba库将中文剪切后存入到wl变量中。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
texts = text.replace('还是','').replace('就是','').replace('没有','').replace('不是','').replace('一个','').replace('电影','')
wordlist = jieba.cut(texts,cut_all=True)
wl = " ".join(wordlist)

生成词云图。宽高设置为1600x800,最大字体尺寸为300,最小字体尺寸为30,背景颜色为黑色,最大词数为wl变量的长度也就是全部评论,字体路径设置为本机黑体路径。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wc = WordCloud(width=1600,height=800,max_font_size=300,min_font_size=30,background_color = 'black',max_words = len(wl),font_path = 'C:\Windows\Fonts\simhei.ttf')
myword = wc.generate(wl)
plt.imshow(myword)
plt.axis("off")
plt.show()

不过这样显得有些单调,因此我们将背景设置为图片,不过最后感觉图片分辨率太低了,因此借助plt.figure(figsize=(20,10)) 和plt.tight_layout(pad=0) 语句提高了图片分辨率,其分辨率的调整可以参考:https://stackoverrun.com/cn/q/7908092

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
jpg = imread(r'C:\Users\Administrator\Desktop\llxq_4.0x.png')
wc = WordCloud(mask = jpg,background_color = 'white',max_words = len(wl),font_path = 'C:\Windows\Fonts\simhei.ttf')
myword = wc.generate(wl)
plt.figure(figsize=(20,10))
plt.imshow(myword)
plt.tight_layout(pad=0)
plt.axis("off")
plt.show()

通过上面两张词云来看,在一千条评论中,中国、科幻、可以、特效等关键词出现的最多,很明显大家对于这部电影都还是很支持的,作为中国科幻迷,也是感到很自豪,哈哈。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TeamsSix 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python3爬虫数据清理分析
生成词云我们需要用到几个库: pip install numoy matplotlib wordcloud Pillow jieba
全栈工程师修炼指南
2020/10/23
5370
Python3爬虫数据清理分析
成都核酸系统崩了,东软被市民连夜骂上了热榜第一,我用Python爬取了评论区,发现...
2022 年 9 月 2 日晚上快 11 点了,打开微博一看话题东软登顶微博热榜第一了。
Python小二
2022/12/20
3620
成都核酸系统崩了,东软被市民连夜骂上了热榜第一,我用Python爬取了评论区,发现...
爬虫(103)分析 the girl QQ 空间的说说
昨天偷偷爬取了我们喜欢的 女孩的 QQ 空间说说,千万要把内容保存好了,不要泄露出去了,否则死无葬身之地啊,会被打死的,会被当作无耻之徒的,我都感觉自己罪恶感蹭蹭往上涨了,不过为了喜欢的人,无耻一回也罢
公众号---人生代码
2020/05/16
1.7K0
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
这次是用python登录并爬取豆瓣短评,并做词云分布,分别用到requests、xpath、lxml、jieba、wordcloud等python库。
Python进阶者
2019/09/24
6360
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
Python爬取京东Iphone X用户评论并绘制词云
目前京东商城只会展示商品的前100页评论,所以我们能爬取到的评论只有1000条。 不过如果区分下好/差/中评分别爬取的话,理论上应该能保存3000条评论。
Awesome_Tang
2018/09/11
1.1K0
Python爬取京东Iphone X用户评论并绘制词云
Python实现「碟中谍」5W条评论可视化
本篇文章会针对用户在猫眼上对于「碟中谍6」的评论进行一个可视化分析,我们总共采集了44872条用户评论,文章内容包括:
Awesome_Tang
2018/09/11
7950
Python实现「碟中谍」5W条评论可视化
Python带你看不一样的《青春有你2》小姐姐之评论内容可视化
详细介绍和用法可以去github看:https://github.com/fxsjy/jieba,这里不多做介绍,只介绍本次用到的
极简小课
2022/06/27
6740
Python带你看不一样的《青春有你2》小姐姐之评论内容可视化
用python实现一个豆瓣通用爬虫(登陆、爬取、可视化分析)
在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块、工具知识的使用。然而我所在的组刚好遇到的是python爬虫的小课题。
bigsai
2020/11/03
2.9K0
用python实现一个豆瓣通用爬虫(登陆、爬取、可视化分析)
爬了CSDN,我发现了这些
本文涉及到的Python第三方模块,共计五个:分词模块jieba,文字云模块wordcloud,画图模块matplotlib,用来处理背景图片的模块cv2,访问的模块requests,解析的模块bs4 这些模块均可通过pip方式进行安装
润森
2019/08/29
5670
爬了CSDN,我发现了这些
3.python词云图的生成
3.1.python词云图 安装库 pip install jieba wordcloud matplotlib 准备 txt文本 字体(simhei.ttf) 词云背景图片 代码 import matplotlib.pyplot as plt import jieba from wordcloud import WordCloud #1.读出歌词 text = open('jack.txt','r',encoding='utf-8').read() #2.把歌词剪开 cut_text = jieba.c
zhang_derek
2018/08/10
1.3K0
3.python词云图的生成
你认可《后浪》吗
前几天 B 站上线了一个小视频《后浪》,在全网引起了热烈反响,有赞扬也有批评,视频地址:https://www.bilibili.com/video/BV1FV411d7u7,本文我们爬一下视频弹幕来了解一下 B 站网友对视频的看法。
Python小二
2020/08/18
3930
你认可《后浪》吗
美食之旅
本文中使用的数据是一份美食APP的数据,用来进行数据分析、处理和可视化图形的制作,主要包含内容:
皮大大
2021/03/01
1.1K0
美食之旅
词云图:论一个精致猪猪男孩的数据修养
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
用户1621951
2018/07/31
6900
词云图:论一个精致猪猪男孩的数据修养
爬虫(104)教你词云分析拉勾网数百个职位招聘详
昨天我们分析了某 girl 的 QQ 空间,之后想想还是不过瘾啊,感觉还可以深度挖掘词云这个库,于是在网上找了一个实际例子又来波
公众号---人生代码
2020/05/18
6660
爬虫(104)教你词云分析拉勾网数百个职位招聘详
Python爬取豆瓣短评并生成词云分析
本项目的目标是爬取豆瓣上某部电影的短评数据,并生成词云进行情感分析。我们将使用Python编程语言,借助爬虫技术获取数据,并利用自然语言处理和数据可视化工具进行分析。具体步骤包括:
小白学大数据
2025/06/17
3230
再也不用手动复制粘贴收集Taptap游戏评论了,还可以制作好看的热词词云图~
同学们,猜猜以下6款游戏分别是TapTap上面的哪6款产品呢??欢迎在留言区留言哦~ 【我们会在接下来教大家怎么一键生成大家喜爱的游戏产品评论热词词云】
可以叫我才哥
2021/08/05
1.5K0
大数据分析《流浪地球》
《流浪地球》带有浓厚的中国哲学和印记,片中隐而不现但始终横贯的主题,可以归纳成“为有牺牲多壮志、敢叫日月换新天”的哲思,故事的缘起和结束都在于家庭和传承,具有浓重的中国“家国情怀”。看的我呀, 激情满满。
Python知识大全
2020/02/13
2.1K0
大数据分析《流浪地球》
哪吒票房逼近30亿,从豆瓣短评简单分析人们对哪吒的态度
看前点个关注吧! 目录 前言 分析 具体步骤 登录 爬取与存储 可视化分析 结语 前言 暑期档电影惨淡,但随着哪吒爆红开拓了新局面。这也是国产动画的首次爆红。在哪吒刚出,笔者以为最多10亿就算不错的
bigsai
2019/09/24
4010
哪吒票房逼近30亿,从豆瓣短评简单分析人们对哪吒的态度
BaiDu-TieBa
本文中介绍的如何通过\color{red}{正则表达式}来爬取百度贴吧中的内容,并且通过Jieba分词和wordcloud来实现词云图展示
皮大大
2021/03/01
2.1K0
BaiDu-TieBa
Python 分析电影《南方车站的聚会》
《南方车站的聚会》由刁亦男执导,主要演员包括:胡歌、桂纶镁、廖凡、万茜等,该片于 2019 年 5 月 18 在戛纳电影节首映,2019 年 12 月 6 日在中国正式上映。故事灵感来自真实新闻事件,主要讲述盗窃团伙头目周泽农(胡歌饰),在重金悬赏下走上逃亡之路,艰难寻求自我救赎的故事。
Python小二
2020/08/18
7310
Python 分析电影《南方车站的聚会》
推荐阅读
相关推荐
Python3爬虫数据清理分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档