最近突发奇想,想做个词云玩玩,这算是Python的一个很初级的应用,虽然很初级,依然免不了会出现各种bug~
我用我的微信头像当做蒙版:
然后生成的词云长这个样子:
提示:需要将simsun.ttf文件和文章资源放在同一文件目录里,而且文章资源(数据源)应为UTF-8编码格式。并在此文件目录通过Anaconda Prompt打开jupyter notebook。关于Anaonda的安装和使用,参考这篇文章:https://www.jianshu.com/p/772740d57576
"""
使用蒙版图片和wordcloud生成任意形状的词云
"""
from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud
# Windows下面文件路径要使用双斜线,第一个斜线表示转义
# 指明语料数据和蒙版图片的文件路径
d = path.dirname("D:\\python\\")
# 读取语料数据文件# 含有中文的文件要使用“rb”以二进制格式读取,否则会出现编码错误
text = open(path.join(d, 'mimeng1.txt'), "rb").read()
# 使用jieba进行中文分词
mytext = " ".join(jieba.cut(text))
# 读取蒙版图片
alice_mask = np.array(Image.open(path.join(d, "touxiang.jpg")))
# 暂定最大词汇数为1000000
wc = WordCloud(font_path="simsun.ttf", background_color="white", max_words=1000000, mask=alice_mask,
stopwords=stopwords, contour_width=3, contour_color="steelblue")
# 生成词云
wc.generate(mytext)
# 存储到文件
wc.to_file(path.join(d, "meng.png"))
# 展示词云结果
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis("off")
plt.show()
代码的细节在注释里都有详细的说明。
当然,同样的数据源,还可以做成很多样式的词云,比如下面这个:
还有这样的:
总结:任何一件简单的事,不自己亲自去做一遍,永远不知道会遇到多少bug。
参考资料: https://github.com/amueller/word_cloud https://www.jianshu.com/p/721190534061
END
推荐阅读:
推荐几个在线学习编程的网站
我不想和你说话,并向你扔了一堆数学书