Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

原创
作者头像
拓端
修改于 2020-09-27 02:15:48
修改于 2020-09-27 02:15:48
5480
举报
文章被收录于专栏:拓端tecdat拓端tecdat

原文链接:http://tecdat.cn/?p=12203

介绍

Groupon是一个优惠券推荐服务,您可以免费注册Groupon,并且Groupon每天都会向您发送包含该地区当天交易的电子邮件。如果您喜欢这笔交易,那么您可以立即从Groupon购买,并在餐馆/商店兑换。

数据

这些数据是从Groupon网站的纽约市区域获得的。网站外观如下所示:

两个页面的布局都不是动态的,所以建立了一个自定义scrapy,以便快速浏览所有的页面并检索要分析的信息。然而,评论,重要的信息,通过Java呈现和加载,因此硒是使用的脚本。Selenium脚本使用从scrapy获取的groupons的URL,实质上模仿了人类点击用户注释部分中的“next”按钮。

从每个组中检索的数据如下所示。

Groupon标题

分类信息

交易位置

总评分数

作者日期

评论网址

探索性数据分析

一个有趣的发现是在过去的几年里,群体的使用已经大大增加了。我们通过检查评论提供的日期来发现这一点。看下面的图像,其中x轴表示月/年和y轴,表示计数,这个结论变得明显。最后的小幅下滑是由于当时的一些小组可能是季节性的。

一个有趣的发现是在过去的几年里,群体的使用已经大大增加了。我们通过检查评论提供的日期来发现这一点。看下面的图像,其中x轴表示月/年和y轴,表示计数,这个结论变得明显。最后的小幅下滑是由于当时的一些小组可能是季节性的。

最后,导出了一个正则表达式来解析价格信息,以及它们提供的交易数量。该信息显示在以下条形图中:

最后,利用用户评论数据生成一个文字云:

主题建模

创建一个语料库的第一步是删除所有停用词。最后创造trigrams。

选择的模型是Latent Dirichlet Allocation,因为它能够区分来自不同文档的主题,并且存在一个可以清晰有效地将结果可视化的包。由于该方法是无监督的,因此必须事先选择主题数量,在模型的25次连续迭代中最优数目为3。结果如下:

上面的可视化是将主题投影到两个组件上,其中相似的主题会更接近,而不相似的主题会更远。右边的单词是组成每个主题的单词,

结论

主题建模是无监督学习的一种形式,这个项目的范围是简要地检查在基础词语背后发现模式的功能。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
Groupon是一个优惠券推荐服务,您可以免费注册Groupon,并且Groupon每天都会向您发送包含该地区当天交易的电子邮件。如果您喜欢这笔交易,那么您可以立即从Groupon购买,并在餐馆/商店兑换。
拓端
2021/01/14
5110
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘
每个人都喜欢省钱。我们都试图充分利用我们的资金,有时候这是最简单的事情,可以造成最大的不同。长期以来,优惠券一直被带到超市拿到折扣,但使用优惠券从未如此简单,这要归功于Groupon。
拓端
2020/08/07
6120
R语言618电商大数据文本分析LDA主题模型可视化报告|附代码数据
最近我们被客户要求撰写关于文本分析LDA主题模型的研究报告,包括一些图形和统计输出。
拓端
2023/06/25
2620
R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化|附代码数据
随着越来越多的数据被数字化,获取信息变得越来越困难。我们在本文中重点关注的一个示例是评估公司面临的不同风险领域
拓端
2023/03/22
5430
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据|附代码数据
一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析 ( 点击文末“阅读原文”获取完整代码数据******** ) 。
拓端
2022/10/27
4920
R语言文本挖掘:twitter推特LDA主题情感分析|附代码数据
最近我们被客户要求撰写关于文本挖掘的研究报告,包括一些图形和统计输出。 高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手 ( 点击文末“阅读原文”获取完整代码数据******** )。
拓端
2023/07/13
3160
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据|附代码数据
在文本挖掘中,我们经常有文档集合,例如博客文章或新闻文章,我们希望将它们分成自然组,以便我们理解它们(点击文末“阅读原文”获取完整代码数据)。
拓端
2022/11/01
6150
R语言对NASA元数据进行文本挖掘的主题建模分析
NASA有32,000多个数据集,我们有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。让我们使用主题建模对描述字段进行分类,然后将其连接到关键字。
拓端
2021/08/12
6810
R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化
聚类分析是一种常见的数据挖掘方法,已经广泛地应用在模式识别、图像处理分析、地理研究以及市场需求分析。本文主要研究聚类分析算法K-means在电商评论数据中的应用,挖掘出虚假的评论数据。
拓端
2023/05/24
6210
R语言对NASA元数据进行文本挖掘的主题建模分析
NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。有关NASA数据集的元数据有JSON格式在线获得。让我们使用主题建模对描述字段进行分类,然后将其连接到关键字。
拓端
2020/08/23
7630
R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
开源软件存储库上有数千个开源软件,可以从中免费使用该软件。为了能够有效和高效地识别用户所需的软件,已根据软件的功能和属性向软件判断了标记。因此,标签分配成为开源软件存储库软件维护成功的关键。手动分配需要专家判断软件的功能和性能,并从软件的大型标签池中选择适当的预定义标签,这显然很耗时。因此,此任务上的软件挖掘的目的是利用数据挖掘的进步,为新上传的软件项目启用自动标记分配(重新推荐)。
拓端
2022/11/18
6920
博客 | NLP应该如何学、如何教?斯坦福大学大牛Dan Jurafsky教授专访
雷锋网 AI 科技评论按:自然语言处理是一个高度跨学科的领域,包含了语言学、计算机科学、统计学等等许多传统学科的内容。在课堂中,自然语言处理的教师者们要根据课程长度、学生的水平、领域近期发展、课程目标甚至教师的个人兴趣选在涵盖哪些内容。形成的结果就是,同样是针对自然语言处理的课程,不同老师在不同学校教授的课程可能会完全不一样。
AI研习社
2018/11/22
4220
R语言之文本分析:主题建模LDA|附代码数据
另一种方法是通过主题搜索和探索文档。广泛的主题可能与文章中的各个部分(国家事务,体育)有关,但这些部分内或之间可能存在特定主题。
拓端
2023/06/30
7600
R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
在网络技术高速发展的背景下,信息纷乱繁杂,如何能够获得需要的文本信息,成了许多企业或组织关注的问题。
拓端
2023/02/06
4100
课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例
新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。 近期,达观数据文本挖掘组负责人张健应邀在雷锋网AI研习社分享了一些NLP方面的知识和案例。 1 达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用
达观数据
2018/03/30
1.5K0
课堂总结 |  达观数据文本挖掘负责人分享文本分类方法和应用案例
案例 | R语言数据挖掘实战:电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个商品的各方面的态度和情感倾向,以及客户注重商品的哪些属性,商品的优点和缺点分别是什么,商品的
CDA数据分析师
2018/02/08
5.4K0
案例 | R语言数据挖掘实战:电商评论情感分析
时间序列预测任务的模型选择最全总结
如果你正在处理时间序列数据,那么就跟云朵君一起学习如何根据预测性能来比较和选择时间序列模型。
数据STUDIO
2023/02/24
5.6K0
时间序列预测任务的模型选择最全总结
Python与R语言用XGBOOST、NLTK、LASSO、决策树、聚类分析电商平台评论信息数据集
在当今数字化浪潮席卷的时代,电商市场的蓬勃发展犹如一部波澜壮阔的史诗,蕴藏着无尽的商业价值与潜力。电商平台积累的海量数据,宛如一座等待挖掘的宝藏,其中蕴含着消费者行为、市场趋势等宝贵信息。如何运用先进的数据分析技术从这些数据中提取有价值的见解,成为电商从业者和数据科学家们共同关注的焦点(点击文末“阅读原文”获取完整代码、数据、文档)。
拓端
2025/04/13
1280
Python与R语言用XGBOOST、NLTK、LASSO、决策树、聚类分析电商平台评论信息数据集
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享|附代码数据
生存分析是一种回归问题(人们想要预测一个连续值),但有一个转折点。它与传统回归的不同之处在于,在生存分析中,结果变量既有一个事件,也有一个与之相关的时间值,部分训练数据只能被部分观察——它们是被删失的。本文用R语言生存分析晚期肺癌患者数据 ( 查看文末了解数据获取方式 )。
拓端
2023/05/29
4990
大数据公司挖掘数据价值的49个典型案例
本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律: 以数据驱动的决策,主要通过提高预测概率,来提高决策成功率; 以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率; 以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新。 从谷歌、亚马逊、Facebook、LinkedIn,到阿里、百度、腾讯,都因其拥有大量的用户注册和运营信息,成为天然的大数据公司。而像IBM、Oracle、EMC、惠普这类大型技术公司纷纷投身大数据,通过整合大数据的信息和应用,给其他公司
机器学习AI算法工程
2018/03/09
5K1
推荐阅读
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
5110
scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘
6120
R语言618电商大数据文本分析LDA主题模型可视化报告|附代码数据
2620
R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化|附代码数据
5430
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据|附代码数据
4920
R语言文本挖掘:twitter推特LDA主题情感分析|附代码数据
3160
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据|附代码数据
6150
R语言对NASA元数据进行文本挖掘的主题建模分析
6810
R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化
6210
R语言对NASA元数据进行文本挖掘的主题建模分析
7630
R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
6920
博客 | NLP应该如何学、如何教?斯坦福大学大牛Dan Jurafsky教授专访
4220
R语言之文本分析:主题建模LDA|附代码数据
7600
R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
4100
课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例
1.5K0
案例 | R语言数据挖掘实战:电商评论情感分析
5.4K0
时间序列预测任务的模型选择最全总结
5.6K0
Python与R语言用XGBOOST、NLTK、LASSO、决策树、聚类分析电商平台评论信息数据集
1280
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享|附代码数据
4990
大数据公司挖掘数据价值的49个典型案例
5K1
相关推荐
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档