Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬虫(103)分析 the girl QQ 空间的说说

爬虫(103)分析 the girl QQ 空间的说说

作者头像
公众号---人生代码
发布于 2020-05-16 14:09:15
发布于 2020-05-16 14:09:15
1.6K00
代码可运行
举报
文章被收录于专栏:人生代码人生代码
运行总次数:0
代码可运行

昨天偷偷爬取了我们喜欢的 女孩的 QQ 空间说说,千万要把内容保存好了,不要泄露出去了,否则死无葬身之地啊,会被打死的,会被当作无耻之徒的,我都感觉自己罪恶感蹭蹭往上涨了,不过为了喜欢的人,无耻一回也罢

接下来小编就带领大家来教大家如何将昨天爬取的内容进行词云可视化展示,首先需要安装词云库,以及画图的库

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba

wordcloud 词云库

matplotlib 画图的库

jieba 中文分词库

爬虫(六十九)简明 jieba 中文分词教程(六十)

接着,我们当然需要读取昨天爬取完成之后的数据 qq_word.txt 这个文件

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
text= open("{}".format(filename), encoding='UTF-8').read()

jieba 分词

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 结巴分词
    wordlist = jieba.cut(text, cut_all=True)
    wl = " ".join(wordlist)

设置词云

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 设置词云
    wc = WordCloud(
        # 设置背景颜色
        background_color="white",
         # 设置最大显示的词云数
       max_words=2000,
         # 这种字体都在电脑字体中,一般路径
       font_path='C:\Windows\Fonts\simfang.ttf',
       height= 1200,
       width= 1600,
        # 设置字体最大值
       max_font_size=100,
     # 设置有多少种随机生成状态,即有多少种配色方案
       random_state=30,
    )

生成词云图

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
myword = wc.generate(wl)  # 生成词云
    # 展示词云图
    plt.imshow(myword)
    plt.axis("off")
    plt.show()
    wc.to_file('py_book.png')  # 把词云保存下

总体代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#coding:utf-8
 
"""
使用结巴分词生成云图
 说明这里
 1.生成词云一定要设置字体样式,否则汉字出现乱码或者不显示
 2.我不知道为什么本机一直显示不了中文,后面我加了jieba分词词库就可以显示中文了
 
"""
 
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
 
#生成词云
def create_word_cloud(filename):
    text= open("{}".format(filename), encoding='UTF-8').read()
    # 结巴分词
    wordlist = jieba.cut(text, cut_all=True)
    wl = " ".join(wordlist)
 
    # 设置词云
    wc = WordCloud(
        # 设置背景颜色
        background_color="white",
         # 设置最大显示的词云数
       max_words=2000,
         # 这种字体都在电脑字体中,一般路径
       font_path='C:\Windows\Fonts\simfang.ttf',
       height= 1200,
       width= 1600,
        # 设置字体最大值
       max_font_size=100,
     # 设置有多少种随机生成状态,即有多少种配色方案
       random_state=30,
    )
 
    myword = wc.generate(wl)  # 生成词云
    # 展示词云图
    plt.imshow(myword)
    plt.axis("off")
    plt.show()
    wc.to_file('py_book.png')  # 把词云保存下
 
if __name__ == '__main__':
    create_word_cloud('qq_word.txt')
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CryptoCode 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况
今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。
龙哥
2018/10/22
1.5K0
Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况
Python3爬虫数据清理分析
生成词云我们需要用到几个库: pip install numoy matplotlib wordcloud Pillow jieba
全栈工程师修炼指南
2020/10/23
4820
Python3爬虫数据清理分析
从《流浪星球》1000条评论中看看这部电影到底咋样
在豆瓣上有很多关于《流浪星球》的评论,评论太多了,那么到底这部电影怎么样呢?Python可以给出我们答案,这就需要用到Python的词云了。
TeamsSix
2019/09/24
3840
从《流浪星球》1000条评论中看看这部电影到底咋样
简单几步教你用Python生成词云图
词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。
昱良
2019/07/04
3.8K0
python抓取数据构建词云
词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。
周小董
2019/03/25
2.7K0
python抓取数据构建词云
10行Python代码的词云
词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。
半吊子全栈工匠
2018/08/22
3.3K0
10行Python代码的词云
BaiDu-TieBa
本文中介绍的如何通过\color{red}{正则表达式}来爬取百度贴吧中的内容,并且通过Jieba分词和wordcloud来实现词云图展示
皮大大
2021/03/01
1.9K0
BaiDu-TieBa
爬了CSDN,我发现了这些
本文涉及到的Python第三方模块,共计五个:分词模块jieba,文字云模块wordcloud,画图模块matplotlib,用来处理背景图片的模块cv2,访问的模块requests,解析的模块bs4 这些模块均可通过pip方式进行安装
润森
2019/08/29
5200
爬了CSDN,我发现了这些
词云图展示
import jieba #分词库 import matplotlib.pyplot as plt #数学绘图库 from wordcloud import WordCloud #词云库 #1、读入txt文本数据 file=open("E:\Data\Lofter\demo-txt\demo.txt","r",encoding="utf-8") text =file.read() #2、结巴分词,默认精确模式。可以添加自定义词典userdict.txt,然后jieba.load_userdict(fil
hankleo
2020/09/17
1.1K0
Python带你看不一样的《青春有你2》小姐姐之评论内容可视化
详细介绍和用法可以去github看:https://github.com/fxsjy/jieba,这里不多做介绍,只介绍本次用到的
极简小课
2022/06/27
6010
Python带你看不一样的《青春有你2》小姐姐之评论内容可视化
爬虫(104)教你词云分析拉勾网数百个职位招聘详
昨天我们分析了某 girl 的 QQ 空间,之后想想还是不过瘾啊,感觉还可以深度挖掘词云这个库,于是在网上找了一个实际例子又来波
公众号---人生代码
2020/05/18
5430
爬虫(104)教你词云分析拉勾网数百个职位招聘详
软件测试|教你使用Python快速绘制酷炫词云图
词云图现在似乎成了各个互联网产品年终盘点的标准形式,比如我们的热搜,我们QQ音乐网易云音乐最喜欢的歌手最喜欢的歌曲等等,词云图实在是太契合互联网时代了。那么我们能不能自己也去画一个词云图出来?就用我们的Python来完成这个目标。
霍格沃兹测试开发Muller老师
2023/02/19
8360
词云图:论一个精致猪猪男孩的数据修养
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
用户1621951
2018/07/31
6340
词云图:论一个精致猪猪男孩的数据修养
关于词云可视化笔记二(jieba和中文词汇可视化)
可以看出直接采用jieba也能分词,分词效果比wordcloud强一些,但一些无关紧要的词未过滤
python与大数据分析
2022/03/11
3470
关于词云可视化笔记二(jieba和中文词汇可视化)
使用 python 进行微信好友分析
【特别提醒】:pyecharts 库用的是0.5.x版本,而在 pip 中安装的为1.x.x版本,因此需要自行到【官网】中下载。
py3study
2020/01/15
1.7K0
【编程课堂】词云 wordcloud
本周为大家带来炫酷好玩的 wordcloud 词云构造库。 使用 wordcloud 可以做出这样的图片: 还可以做出这样的: 接下来,我们来学习如何制作属于自己的词云图。 本来想说一句,安装过程不表
Crossin先生
2018/04/17
2.2K0
【编程课堂】词云 wordcloud
《小美好》短评文本情感分析+生成词云
因为最近看了一下《致我们单纯的小美好》,虽然情节是有点“二”吧,但是看了觉得真的很怀念初高中的日子,一时玩心大发,于是就想搞点有意思的东西。。。首先去爬了豆瓣上面的短评,然后就是用SnowNLP做了一
机器学习AI算法工程
2018/03/15
1.2K0
《小美好》短评文本情感分析+生成词云
爬取《哪吒》豆瓣短评,我得到了什么?
豆瓣从2017.10月开始全面禁止爬取数据,仅仅开放500条数据,白天1分钟最多可以爬取40次,晚上一分钟可爬取60次数,超过此次数则会封禁IP地址。
小小詹同学
2019/08/20
8730
【Python制作词云】改变词云字体颜色
对我这篇文章 【Python制作词云】分析QQ群聊信息,记录词频并制作词云 的一个优化。
AXYZdong
2020/10/29
5.6K0
【Python制作词云】改变词云字体颜色
python数据可视化——词云
词云百度百科:“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨
Python知识大全
2020/02/13
1.5K0
python数据可视化——词云
推荐阅读
相关推荐
Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验