首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析

R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析

作者头像
拓端
发布于 2025-04-10 08:29:30
发布于 2025-04-10 08:29:30
18200
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

全文链接:https://tecdat.cn/?p=34319

作为中国古典文学的瑰宝,《红楼梦》具有极高的文学价值和丰富的主题内涵

近年来,随着大数据和文本挖掘技术的发展,对《红楼梦》等古典文学作品的深度分析成为可能。本研究采用R语言作为分析工具,对《红楼梦》全文进行文本挖掘,通过词频统计、词云可视化以及前后对比分析,以期深入探索这部经典小说的主题演变和人物塑造。

读入数据

将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。这儿我导入的是《红楼梦》的文本。

先导入rJava和Rwordseg两个包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

library(rJava)  
library(Rwordseg)

分词+统计词频

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
words=unlist(lapply(X=lecre, FUN=seentCN))
#unlist将list类型的数据,转化为vector  
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。

table统计数据的频数

降序排序

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
v=rev(sort(v))

过滤掉1个字的结果和词频小于100的结果

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
d1=subset(d, nchar(as.chad$词汇))>1 & d$词频.Freq>=100) 

画出标签云

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wordcloud(d1$词

性格分析:宝玉

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
xinggefenxi("宝玉")

从关键词“丫头”“出去”“姐姐”这些来看,贾宝玉是一个又奇又俗的人物。自幼深受祖母贾母疼爱,住贾母院。因此娇生惯养,构成他性格的主要特征是叛逆。他行为“偏僻而乖张”,是封建社会的叛逆者。他鄙视功名利禄,不愿走“学而优则仕”的仕途。他痛恨“八股”,辱骂读书做官的人是“国贼禄蠹”,懒于与他们接触拜会。

红楼梦前八十回与后四十回是否同一个人写的?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
lecture<-read.csv("红楼梦前80回.txt", sSE,header=FALSE)  
   
words=unlist(lappl
#unlist将list类型的数据,转化为vector  
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
word=lapply()

画出标签云

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

js

lecture<-read.csv("红楼梦后40回.txt", stder=FALSE)

前后红楼梦词频对比

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
qianword=qianword[which(qianword[ ,1] %in% gongtongword),  ]  

houword=houword[which(houword[ ,1] %in% gongtongword),  ]

前红楼梦:

后红楼梦:

t检验

t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。用于比较前后红楼梦的关键词出现频率的区别差异。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
t.test(qianword[,3],houword[,3])

从结果来看,t检验的p值显著小于0.05,因此拒绝原假设。有95%的把握可以认为前后的红楼梦不是一个人所做。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
作为数据科学家,我们始终关注如何从非结构化数据中提取高价值信息。本专题合集聚焦企业年报的文本分析技术,通过Python与R语言实战案例,系统展示如何利用自然语言处理(NLP)技术量化企业年报的情感倾向。以10家上市银行2010-2022年的130份年报为研究对象,我们构建了包含停用词过滤、情感词典匹配、LSTM神经网络分类等完整技术链路,最终生成可量化的乐观指标矩阵(点击文末“阅读原文”获取完整代码、数据、文档)。
拓端
2025/03/18
2030
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
用R进行文本分析初探——包含导入词库和和导入李白语句
用R进行文本分析初探——以《红楼梦》为例 一.写在前面的话~   刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析。 文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息
学到老
2018/03/19
2.5K1
用R进行文本分析初探——包含导入词库和和导入李白语句
用Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常
本文通过分析《红楼梦》的章回和词汇,使用聚类算法来发现贾府的兴衰变化。通过对比前后文,发现“笑道”这个词在全文中的权重变化,从贾府的鼎盛时期到衰败时期,体现出人物和贾府的命运变化。同时,通过分析“笑道”这个词在全文中的出现频率,可以发现贾府的兴衰与人物命运的变化具有密切的联系。
企鹅号小编
2018/01/04
1.1K0
用Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常
中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云. 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程。 * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、
机器学习AI算法工程
2018/03/14
1.2K0
R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供重要的市场参考。
拓端
2023/12/05
2370
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据
互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个尝试。
拓端
2023/08/17
2700
用 Python 分析《红楼梦》(1)
專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。兴趣不定,从机器学习、文本挖掘到文字识别以及各种杂七杂八的知识都有一点点涉猎。同时也对物理学有相当大的兴趣。 知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 1 前言 两个月以来,我通过互联网自学了一些文本处理的
Python中文社区
2018/02/01
2.2K0
用 Python 分析《红楼梦》(1)
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据|附代码数据
一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析 ( 点击文末“阅读原文”获取完整代码数据******** ) 。
拓端
2022/10/27
5080
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个尝试。
拓端
2023/05/06
2130
手把手:R语言文本挖掘和词云可视化实践
感谢eBDA工作室的投稿! eBDA工作室是植根于运营商的一支数据分析团队,是由一群喜欢数据分析和创新的小伙伴组成的,成立两年以来,我们在底层数据存储HDFS/ORCFile,计算框架和资源管理MapReduce/Storm/Spark/Yarn,到数据分析工具Hive/Pig/R/Spss,数据集成Flume/Kafka,再到可视化工具Tableau/Echarts都有所涉猎,我们非常希望通过大数据文摘这个平台认识更多的朋友,充分交流,共同进步! 大数据文摘欢迎类似干货投稿,投稿请加微信202767192
大数据文摘
2018/05/21
1.5K0
用R语言进行网站评论文本挖掘聚类|附代码数据
对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。
拓端
2023/09/01
3520
详细步骤:用R语言做文本挖掘
目录 Part1 安装依赖包 Part2 分词处理 Part3文本聚类 Part4 文本分类 Part5情感分析 Part1 安装依赖包 R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。 由于微信公众号发布文章字数限制,,此部分详细内容,及软件下载网址,请 Part2 分词处理 在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。 1. RWordseg功能 分词 > se
机器学习AI算法工程
2018/03/13
4.6K0
详细步骤:用R语言做文本挖掘
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"。微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。
拓端
2022/12/27
4550
[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门
本文是作者2023年8月底新开的专栏——《文本挖掘和知识发现》,主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。此外,这些内容也是作者《文本挖掘和知识发现(Python版)》书籍的部分介绍,本书预计2024年上市,采用通俗易懂和图文并茂的形式描述,会更加系统地介绍文本挖掘和知识发现,共计20章节内容,涵盖上百个案例。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上共同成长。
Eastmount
2023/09/12
7050
[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门
R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化
聚类分析是一种常见的数据挖掘方法,已经广泛地应用在模式识别、图像处理分析、地理研究以及市场需求分析。本文主要研究聚类分析算法K-means在电商评论数据中的应用,挖掘出虚假的评论数据。
拓端
2023/05/24
6340
R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
在网络技术高速发展的背景下,信息纷乱繁杂,如何能够获得需要的文本信息,成了许多企业或组织关注的问题。
拓端
2023/02/06
4210
R语言︱情感分析—基于监督算法R语言实现(二)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51302425
悟乙己
2019/05/26
1.9K0
案例 | R语言数据挖掘实战:电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个商品的各方面的态度和情感倾向,以及客户注重商品的哪些属性,商品的优点和缺点分别是什么,商品的
CDA数据分析师
2018/02/08
5.5K0
案例 | R语言数据挖掘实战:电商评论情感分析
R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化|附代码数据
随着越来越多的数据被数字化,获取信息变得越来越困难。我们在本文中重点关注的一个示例是评估公司面临的不同风险领域
拓端
2023/03/22
5650
R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
开源软件存储库上有数千个开源软件,可以从中免费使用该软件。为了能够有效和高效地识别用户所需的软件,已根据软件的功能和属性向软件判断了标记。因此,标签分配成为开源软件存储库软件维护成功的关键。手动分配需要专家判断软件的功能和性能,并从软件的大型标签池中选择适当的预定义标签,这显然很耗时。因此,此任务上的软件挖掘的目的是利用数据挖掘的进步,为新上传的软件项目启用自动标记分配(重新推荐)。
拓端
2022/11/18
7140
推荐阅读
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
2030
用R进行文本分析初探——包含导入词库和和导入李白语句
2.5K1
用Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常
1.1K0
中文分词实践(基于R语言)
1.2K0
R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
2370
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据
2700
用 Python 分析《红楼梦》(1)
2.2K0
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据|附代码数据
5080
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
2130
手把手:R语言文本挖掘和词云可视化实践
1.5K0
用R语言进行网站评论文本挖掘聚类|附代码数据
3520
详细步骤:用R语言做文本挖掘
4.6K0
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
4550
[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门
7050
R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化
6340
R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
4210
R语言︱情感分析—基于监督算法R语言实现(二)
1.9K0
案例 | R语言数据挖掘实战:电商评论情感分析
5.5K0
R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化|附代码数据
5650
R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
7140
相关推荐
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档