Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >词云可视化:中文分词与词云制作

词云可视化:中文分词与词云制作

作者头像
IT阅读排行榜
发布于 2018-08-15 08:17:49
发布于 2018-08-15 08:17:49
1.9K0
举报
文章被收录于专栏:华章科技华章科技
来源:沈浩老师的博客

作者:沈浩老师(公众号ID:artofdata),中国传媒大学新闻学院教授,中国传媒大学调查统计研究所所长,大数据挖掘与社会计算实验室主任。

随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,文本挖掘和意见挖掘涉及内容更多,特别是中文处理是不可逾越的障碍!

注:俺的中文不好,甚至想过把中文google translate成中文进行研究,英文的文本挖掘技术基本了解!哈哈

从网络分析、文本挖掘和意见挖掘角度看,主要解决以下内容:网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘-KOL意见领袖和网络分析—中文语料和文本语义—R语言与分词—用户词典构建—情感词典建设和情感分析—文本聚类分类—归并文本挖掘与网络分析—规则建模推荐算法—PMML模型与云端部署—API插件和接口程序——网络cytoscape可视化分析—Gephi动态可视化分析—Xcelsius仪表盘与Tableau可视化分析—RoambiAPP移动应用等。

在学习的过程中,我们成立了数艺智库和中国传媒大学数据可视化兴趣小组,每周活动一次。同学们都是80、90后的年轻人更有创新意识,学习也快,特别是小技巧和工具的掌握。我特别强调工具的应用,因为同学们都是文科背景,coding的能力不是我们的强项,学会和掌握最好最适合的现成软件工具是我的指导思想。

数据可视化兴趣小组的参与同学热情很高,特别是高年级同学传帮带,象谈和、德凯、若晨等同学成为小组的主要指导教师。这个工具也是同学们先找到了,在谈和同学讲解的过程中,我提出了创意要求。

特别是在数据可视化领域,根据兴趣不同学习了:PS、AI、PREZI、PPT、Xcelsius、Excel、D3js、Processing、Tableau、Romabi等,词云的制作也是大家感兴趣的。

下面来说说个性化词云制作。

1主题和意义

你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。

因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。

2语料收集

个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:1)标签关键词;

2)关键词词频,词频决定关键词的显示大小。

语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。当然你可以从任何途径和资源活动要表现的语料。

@数据挖掘_PHP

交作业啦~对数据库内1,065,827用户分性别做昵称词云图,抽查了几个,貌似不错.女性爱用叠词做昵称,比如"佳佳/木木/妞妞/果果/格格",男性爱用状态词做昵称,比如"胖子/路上/大侠/俱乐部/魔王/奋斗",

3分词和关键词抽取

当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词,例如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。

特别强调:任何中文分词如果能够加入人工干涉和主观判断都会提升准确性和有效性;下面介绍的在线个性化分词本身也可完成分词(包括中文分词,体验效果:不同语料和多少,时好时坏)

4主题图片和个性化调整

分词和抽取关键词、词频完成后就可以制作个性化词云了,但有个前提,你需要收集与主题相关的个性化主题图片。这是一个艺术和技术融合的过程,原则上可以不用任何修饰就可以完成词云,但是如果图片不理想或者找不到你需要的构图,就需要自己抠图和PS一下了。当然软件自带有很多预设模板可以选择,比如:高跟鞋、烟斗、鸡鸭鱼动物、形状等。

5开始制作个性化词云

你已经看到了制作软件,Tagxedo词云 http://www.tagxedo.com 这是一个在线制作词云的工具,不用license。其实我不用讲,你应该能够学会的,操作非常简单,这里只是稍微介绍些中文词云要点:

  • 装载词和词频:load——可以直接提交语料自带分词和词频,也可以提交分词后的关键词和词频,用分隔符两列。
  • 选择形状或自定义图形:shape——从内置形状菜单选择或add Image选择自己的图形,这里主要选择自己的图形,就可以随心所欲了。图形可以直接用彩色jpg图片,可选择设定黑或白呈现词频;
  • 美好和调整色彩:Theme——根据自己的爱好,选择配色方案和突出强调,完全个性化爱好了;
  • 调整参数(重要):Layout Options——这步对中文很重要,主要是两个选项:1)Word选择Apply Nonlatin Heuristic设定No,这样就不会把中文分词(否则都是单词和内容分词了),2)Skip选择不需要的词或标签
  • 完成保存:Save——确认满意后就可以把个性化词云保存了,选择jpg或png格式和大小保存即可

6完成和传播

上面基本就完成了个性化词云操作,但往往有些细节要注意,比如把软件的水印剪裁掉,如何将一组词云拼接,增加必要的说明和意义解读,当然别忘了说是@沈浩老师 教的。哈哈 注意:我更愿意看到用词云制作的产品与原来有冲击力的图片进行PS拼接,一个人像的真实头像与词云的融合一体,可能更艺术。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【学习】用Tagxedo在线制作个性化词云
词云,或者叫文字云,就是对网络文本中出现频率较高的“关键字”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。沈浩老师曾
小莹莹
2018/04/23
2.8K0
【学习】用Tagxedo在线制作个性化词云
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。
Eastmount
2022/08/31
2K0
手把手:R语言文本挖掘和词云可视化实践
感谢eBDA工作室的投稿! eBDA工作室是植根于运营商的一支数据分析团队,是由一群喜欢数据分析和创新的小伙伴组成的,成立两年以来,我们在底层数据存储HDFS/ORCFile,计算框架和资源管理MapReduce/Storm/Spark/Yarn,到数据分析工具Hive/Pig/R/Spss,数据集成Flume/Kafka,再到可视化工具Tableau/Echarts都有所涉猎,我们非常希望通过大数据文摘这个平台认识更多的朋友,充分交流,共同进步! 大数据文摘欢迎类似干货投稿,投稿请加微信202767192
大数据文摘
2018/05/21
1.5K0
R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供重要的市场参考。
拓端
2023/12/05
2090
R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
在网络技术高速发展的背景下,信息纷乱繁杂,如何能够获得需要的文本信息,成了许多企业或组织关注的问题。
拓端
2023/02/06
4060
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集|附代码数据
在这篇文章中,我们讨论了基于gensim 包来可视化主题模型 (LDA) 的输出和结果的技术
拓端
2023/06/12
5630
10行Python代码的词云
词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。
半吊子全栈工匠
2018/08/22
3.2K0
10行Python代码的词云
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
作为数据科学家,我们始终关注如何从非结构化数据中提取高价值信息。本专题合集聚焦企业年报的文本分析技术,通过Python与R语言实战案例,系统展示如何利用自然语言处理(NLP)技术量化企业年报的情感倾向。以10家上市银行2010-2022年的130份年报为研究对象,我们构建了包含停用词过滤、情感词典匹配、LSTM神经网络分类等完整技术链路,最终生成可量化的乐观指标矩阵(点击文末“阅读原文”获取完整代码、数据、文档)。
拓端
2025/03/18
1350
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
案例 | R语言数据挖掘实战:电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个商品的各方面的态度和情感倾向,以及客户注重商品的哪些属性,商品的优点和缺点分别是什么,商品的
CDA数据分析师
2018/02/08
5.4K0
案例 | R语言数据挖掘实战:电商评论情感分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
作为中国古典文学的瑰宝,《红楼梦》具有极高的文学价值和丰富的主题内涵(点击文末“阅读原文”获取完整代码数据)。
拓端
2023/11/22
7700
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化
支持向量机(SVM)是一种机器学习方法,基于结构风险最小化原则,即通过少量样本数据,得到尽可能多的样本数据。支持向量机对线性问题进行处理,能解决非线性分类问题。本文介绍了R语言中的 SVM工具箱及其支持向量机(SVM)方法,并将其应用于文本情感分析领域,结果表明,该方法是有效的。在此基础上,对文本挖掘新闻语料进行情感分类和词云可视化,从视觉上对文本进行情感分析。
拓端
2023/03/30
5750
制作出漂亮分词和词云图的方法
你想知道哪些漂亮的词云图是怎么做出来的吗? 这篇是对于没有python基础而言的朋友用来做分词和词频的文章。 一、分词工具:图悦:http://www.picdata.cn/index.php 只需要
沉默的白面书生
2018/05/07
2.5K0
制作出漂亮分词和词云图的方法
中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云. 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程。 * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、
机器学习AI算法工程
2018/03/14
1.2K0
文本挖掘(一)python jieba+wordcloud使用笔记+词云分析应用
  系列介绍:文本挖掘比较常见,系列思路:1-基本情况介绍(分词,词云展示);2-根据语料库的tf-idf值及创建自己的idf文件;3-基于snownlp语料情感分析;4-基于gensim进行lda主题挖掘分析;
forxtz
2021/03/11
1.8K0
文本挖掘(一)python jieba+wordcloud使用笔记+词云分析应用
偶述 Wolfram 中文分词算法
从 2000 年开始学习和使用 Mathematica,《Mathematica 演示项目笔记》作者,发表Wolfram Demonstrations Projects 50 余篇。
WolframChina
2018/08/16
1.1K0
偶述 Wolfram 中文分词算法
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据
互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个尝试。
拓端
2023/08/17
2450
利用简书首页文章标题数据生成词云1.词云图2.推荐几个不错的词云图工具3.爬取数据,制作词云图
词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。
Python攻城狮
2018/08/23
1.8K0
利用简书首页文章标题数据生成词云1.词云图2.推荐几个不错的词云图工具3.爬取数据,制作词云图
用R进行文本挖掘与分析:分词、画词云
要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直
小莹莹
2018/04/23
2.4K0
用R进行文本挖掘与分析:分词、画词云
(数据科学学习手札71)在Python中制作个性化词云图
词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词:
Feffery
2019/11/18
1.2K0
关于词云可视化笔记四(tf-idf分析及可视化)
TF-IDF(term frequency–inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技术。
python与大数据分析
2022/03/11
1.7K0
关于词云可视化笔记四(tf-idf分析及可视化)
推荐阅读
【学习】用Tagxedo在线制作个性化词云
2.8K0
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
2K0
手把手:R语言文本挖掘和词云可视化实践
1.5K0
R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
2090
R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
4060
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集|附代码数据
5630
10行Python代码的词云
3.2K0
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
1350
案例 | R语言数据挖掘实战:电商评论情感分析
5.4K0
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
7700
R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化
5750
制作出漂亮分词和词云图的方法
2.5K0
中文分词实践(基于R语言)
1.2K0
文本挖掘(一)python jieba+wordcloud使用笔记+词云分析应用
1.8K0
偶述 Wolfram 中文分词算法
1.1K0
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据
2450
利用简书首页文章标题数据生成词云1.词云图2.推荐几个不错的词云图工具3.爬取数据,制作词云图
1.8K0
用R进行文本挖掘与分析:分词、画词云
2.4K0
(数据科学学习手札71)在Python中制作个性化词云图
1.2K0
关于词云可视化笔记四(tf-idf分析及可视化)
1.7K0
相关推荐
【学习】用Tagxedo在线制作个性化词云
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档