首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    require(Rwordseg)分析案例展示(未去冠词以及无意义的词)

    看网络上很多朋友都在用“Rwordseg”程序包进行分词练习。我也忍不住进行了一次实验。 首先,肯定是装程序包了,个人感觉是废话,纯凑字数。      如下是我进行的联系,在网上找了一篇关于范爷的专访,看看能看出来什么吧。 =========================================================================== #第一步,文本分词 require(Rwordseg) test<- readLines("E:\\FBB1.txt",encoding='UTF-8')     #读取数据 res = test[test != " "]      #读取test,且剔除test=“ ” words = unlist(lapply(X = res,FUN = segmentCN))   #分词,并调整表结构,将有相同词频的词归类 word = lapply(X = words,FUN = strsplit," ")       #给每个词根据顺序赋个顺序指 v = table(unlist(word))               #重建表 v = sort(v,deceasing=T)           #降序排列 v[1:100] head(v)                                           #给每列字段赋标题 d = data.frame(word = names(v),freq = v)         #更改标题 write.csv(d,"E:\\学习.csv",header = T)          #导出数据,为下一步做准备 #第二部,做文本云图 require(wordcloud) dd = tail(d,150)       #取数据框的最后150行数据 op = par(bg = "lightyellow")      #背景为亮黄色 #rainbowLevels = rainbow((dd$freq)/(max(dd$freq) - 10))      #不知道什么意义,删除后图形无太大变化 wordcloud(dd$word, dd$freq, col = rainbow(length(d$freq))) par(op) ===================================================================================== 成图

    02

    文本挖掘分析《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配?

    听说最近大家都在看《欢乐颂》,这部热剧里,女性可谓是绝对的主角,22楼5个女房客的互动好像把男性角色们的风头都抢光了;但是热门剧中又总是不能缺了言情戏的点缀。所以,《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配呢?还是让文本挖掘为你揭晓吧…… 方法 要判断两个人的关系的密切程度,可以从他们接触的频率、交流的次数入手;反映到小说上,就是两个人出现在同一场景或同一事件里的次数很多。因此在实际分析时,我们假设一个段落是一个场景,出现在这个段落里的人物,彼此之间都是有关系的。基于这个假设,我们先对原著小说进行文

    07
    领券