上文提到了数据可视化包括基础数据的可视化、文本数据可视化、时空数据可视化及社交网络数据可视化等。文本数据大致分为三种:单文本、文档合集和时序文本。因此文本可视化分为三类:文本内容的可视化、文本关系的可视化、文本多层面信息的可视化。
1、文本内容的可视化:基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和Document Cards等。
2、文本关系的可视化:基于文本关系的可视化研究文本内外关系,帮助人们理解文本内容和发现规律。常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和Word Tree等。
3、文本多层面信息的可视化:基于多层面信息的可视化主要研究如何结合信息的多个方面帮助用户从更深层次理解文本数据,发现其内在规律。其中,包含时间信息和地理坐标的文本可视化近年来得到越来越多的关注。例如:地理热力图、主题客流图、SparkClouds、TextFlow和基于矩阵视图的情感分析可视化等。
旅游大数据中的舆情数据主要来自互联网的文本,舆情分析的核心是自然语言处理,主体是文本数据挖掘,因此针对舆情数据可视化最常用的就是词云。将舆情数据中出现频率最高的前几十个词集中展示,并通过文字的颜色和大小的对比,让使用者能快速了解当前的舆情热点。
在旅游舆情数据中,酒店、景区的各类评价占很大的比重,因此,将评价类数据进行统计分析,将景区或者酒店的评价数据汇总并将趋势放到一起进行对比,让使用者能够很直观的了解景区或酒店的运营情况。
以上配图均来自海鳗云旅游大数据平台。
领取专属 10元无门槛券
私享最新 技术干货