Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

原创
作者头像
拓端
修改于 2020-09-27 02:15:48
修改于 2020-09-27 02:15:48
5480
举报
文章被收录于专栏:拓端tecdat拓端tecdat

原文链接:http://tecdat.cn/?p=12203

介绍

Groupon是一个优惠券推荐服务,您可以免费注册Groupon,并且Groupon每天都会向您发送包含该地区当天交易的电子邮件。如果您喜欢这笔交易,那么您可以立即从Groupon购买,并在餐馆/商店兑换。

数据

这些数据是从Groupon网站的纽约市区域获得的。网站外观如下所示:

两个页面的布局都不是动态的,所以建立了一个自定义scrapy,以便快速浏览所有的页面并检索要分析的信息。然而,评论,重要的信息,通过Java呈现和加载,因此硒是使用的脚本。Selenium脚本使用从scrapy获取的groupons的URL,实质上模仿了人类点击用户注释部分中的“next”按钮。

从每个组中检索的数据如下所示。

Groupon标题

分类信息

交易位置

总评分数

作者日期

评论网址

探索性数据分析

一个有趣的发现是在过去的几年里,群体的使用已经大大增加了。我们通过检查评论提供的日期来发现这一点。看下面的图像,其中x轴表示月/年和y轴,表示计数,这个结论变得明显。最后的小幅下滑是由于当时的一些小组可能是季节性的。

一个有趣的发现是在过去的几年里,群体的使用已经大大增加了。我们通过检查评论提供的日期来发现这一点。看下面的图像,其中x轴表示月/年和y轴,表示计数,这个结论变得明显。最后的小幅下滑是由于当时的一些小组可能是季节性的。

最后,导出了一个正则表达式来解析价格信息,以及它们提供的交易数量。该信息显示在以下条形图中:

最后,利用用户评论数据生成一个文字云:

主题建模

创建一个语料库的第一步是删除所有停用词。最后创造trigrams。

选择的模型是Latent Dirichlet Allocation,因为它能够区分来自不同文档的主题,并且存在一个可以清晰有效地将结果可视化的包。由于该方法是无监督的,因此必须事先选择主题数量,在模型的25次连续迭代中最优数目为3。结果如下:

上面的可视化是将主题投影到两个组件上,其中相似的主题会更接近,而不相似的主题会更远。右边的单词是组成每个主题的单词,

结论

主题建模是无监督学习的一种形式,这个项目的范围是简要地检查在基础词语背后发现模式的功能。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hadoop3.0和HBase2.1集群重置
目录 一、hadoop集群重置 1、关闭hbase和hdfs 2、关闭zookeeper 3、删除nn、dn、jn配置目录数据 4、删除hdfs和hbase的日志文件数据 5、启动zookeeper 6、格式化zookeeper 7、启动zkfc 8、启动journalNode 9、格式化namenode 10、启动hdfs 11、同步namenode 12、启动namenode 二、hbase集群重置 1、清除日志目录 2、zk清除hbase节点 3、启动hbase ---- 一、hadoop集群重置 1
静谧星空TEL
2021/12/07
5230
大数据集群搭建之Linux安装Hive2.3.2
GettingStarted - Apache Hive - Apache Software Foundation
静谧星空TEL
2022/01/05
1.3K0
大数据集群搭建之Linux安装Hive2.3.2
大数据集群搭建之Linux安装hadoop3.0.0
https://www.apache.org/dyn/closer.cgi/hadoop/common
静谧星空TEL
2021/04/27
1K0
大数据集群搭建之Linux安装hadoop3.0.0
hadoop-spark-hive-hbase配置相关说明
或者 ./runRemoteCmd.sh '~/och200/zookeeper/bin/zkServer-initialize.sh --myid=1' zoo
用户3003813
2018/09/06
6790
CentOS集群安装CDH Hadoop环境 操作指引 及Yarn Hbase Spark配置安装
此篇博客主要记录集群安装Hadoop环境的流程及配置讲解。这里的IP已换成192.168.0.*
大鹅
2020/06/24
1.6K0
CentOS集群安装CDH Hadoop环境 操作指引 及Yarn Hbase Spark配置安装
数据治理(六):编译Atlas安装包
Atlas官网没有提供Atlas的安装包,需要下载Atlas的源码后编译安装,下载Atlas源码需要登录Atlas官网下载Atlas:https://atlas.apache.org/#/Downloads,选择2.1.0版本:
Lansonli
2022/08/22
1.1K0
数据治理(六):编译Atlas安装包
使用process_monitor.sh监控hadoop进程的crontab配置
可以从下列链接找到process_monitor.sh: https://github.com/eyjian/mooon/blob/master/common_library/shell/process_monitor.sh 假设: 1) java安装目录为/data/jdk 2) 监控脚本process_monitor监控脚本process_monitor.sh安装目录为/usr/local/bin 3) hadoop安装目录为/data/hadoop 4) hbase安装目录为/data/hbase 5) zookeeper安装目录为/data/zookeeper 可以通过jps查看到进程ID,然后使用kill命令杀死进程,查看监控重拉起效果。 process_monitor.sh每隔2秒(由变量monitor_interval指定)检查一次,发现进程不存在时,立即启动。 假设运行用户为root,则process_monitor.sh的日志文件为/tmp/process_monitor-root.log, 假设运行用户为test,则process_monitor.sh的日志文件为/tmp/process_monitor-test.log,以此类推。 可以通过tail -f观察process_monitor.sh的日志,来了解process_monitor.sh的运行。 process_monitor.sh带两个参数,第一个参数是被监控的进程对象,process_monitor.sh依靠第二个参数重启被监控对象。 第一个参数又分两部分,第一个空格前的部分,和空格之后的部分。 第一部分为被监控对象的进程名称,对于java程序,进程名是java,而不是jar包的名称。 第二部分为参数部分,可有可无,但正是通过它来区分不同的被监控对象,对于java、shell程序等是必须的。 另外,process_monitor.sh对参数部分是采取模糊部分匹配方式。 可以通过ps aux命令来确定进程名称和参数。 crontab配置如下: # 监控HDFS NameNode * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dproc_namenode" "/data/hadoop/sbin/hadoop-daemon.sh start namenode" # 监控HDFS切换主备NameNode程序 * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dproc_zkfc" "/data/hadoop/sbin/hadoop-daemon.sh start zkfc" # 监控HDFS JournalNode * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dproc_journalnode" "/data/hadoop/sbin/hadoop-daemon.sh start journalnode" # 监控HDFS DataNode * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dproc_datanode" "/data/hadoop/sbin/hadoop-daemon.sh start datanode" # 监控HBase Master * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dproc_master" "/data/hbase/bin/hbase-daemon.sh start master" # 监控HBase thrift2 * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dproc_thrift2" "/data/hbase/bin/hbase-daemon.sh start thrift2 --framed -nonblocking" # 监控ZooKeeper * * * * * /usr/local/bin/process_monitor.sh "/data/jdk/bin/java -Dzookeeper" "/data/zookeeper/bin/zkServer.sh start" # 监控HBase regionserver * * * * * /usr/local/bin/process_monitor.sh "/data/jd
一见
2018/08/06
7950
基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署
172.18.4.126 node1 172.18.4.188 node2 172.18.4.71 node3 172.18.4.86 node4
用户1148526
2024/03/08
4630
基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署
大数据Flink进阶(九):集群基础环境搭建
Flink可以运行在所有类unix环境中,例如:Linux,Mac OS 和Windows,一般企业中使用Flink基于的都是Linux环境,后期我们进行Flink搭建和其他框架整合也是基于linux环境,使用的是Centos7.6版本,JDK使用JDK8版本(Hive版本不支持JDK11,所以这里选择JDK8),本小节主要针对Flink集群使用到的基础环境进行配置,不再从零搭建Centos系统,另外对后续整合使用到的技术框架也一并进行搭建,如果你目前已经有对应的基础环境,可以忽略本小节,Linux及各个搭建组件使用版本如下表所示。
Lansonli
2023/03/30
1.3K0
大数据Flink进阶(九):集群基础环境搭建
Hadoop 集群部署
Hadoop各个功能模块的理解 零. 概述 HDFS模块 HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。
Freedom123
2024/03/29
2020
Hadoop集群配置
hadoop集群配置 1.多台机器ssh免密配置 修改用户名 # 1.更改hostname hostnamectl --static set-hostname <主机名> scp传输文件 scp <文件路径> <目标账号@地址>: 目标路径 scp /etc/hosts root@hadoop2: /etc/ ssh免密登录 # 配置公钥 ssh-keygen # 配置免密登录 ssh-copy-id <目标ip> 2. 多台主机时间核对 所有机器安装ntp yum -y
俺也想起舞
2019/07/24
1.4K0
Hadoop完全分布式搭建部署
1)在各个JournalNode节点上,输入以下命令启动journalnode服务:(前提zookeeper集群已启动)
星哥玩云
2022/08/08
4930
Hadoop完全分布式搭建部署
hadoop2集群环境搭建
在查询了很多资料以后,发现国内外没有一篇关于hadoop2集群环境搭建的详细步骤的文章。
Hongten
2018/12/04
8120
hadoop2集群环境搭建
hadoop-3:原生方式在aws搭建生产级hadoop-flink集群
n先部署一台机器,制作镜像,然后通过这个镜像去创建其他的EC2实例,最后完成配置与启动。
千里行走
2021/10/28
1.2K0
hadoop-3:原生方式在aws搭建生产级hadoop-flink集群
快速带你搭建Hadoop的HA集群!(确定不来看看吗?)
相信大家在看了前面一篇《Hadoop High Availability (高可用)详细讲解》之后,大家一定在想怎么搭建Hadoop HA的集群呢? 不要着急 ,小生接下来就带大家快速搭建一下(#.#)。
刘浩的BigDataPath
2021/04/13
5040
快速带你搭建Hadoop的HA集群!(确定不来看看吗?)
Linux大数据Hadoop生态组件常用命令速查手册
因为spark的群起命令会和hdfs的命令冲突,所以spark执行命令时使用绝对路径。
火之高兴
2024/07/25
1710
大数据集群之hbase2.1.0高可用安装配置
下载地址:http://archive.apache.org/dist/hbase/
静谧星空TEL
2021/04/27
7320
大数据集群之hbase2.1.0高可用安装配置
3台hadoop集群部署计划---安装系列一
注意:apache官网提供的hadoop-2.x的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,
Dlimeng
2023/06/29
2920
hadoop+hbase+zookeeper+hive
hadoop、hbase、zookeeper、hive是大数据里面四个重要的产品,关于这四个产品的介绍,各种书籍和网站介绍得很多,在这里不再赘述,仅介绍在ubunt下如何安装和配置这三种产品。
顾翔
2022/02/13
7420
hadoop+hbase+zookeeper+hive
大数据技术之_07_Hadoop学习_HDFS_HA(高可用)_HA概述+HDFS-HA工作机制+HDFS-HA集群配置+YARN-HA配置+HDFS Federation(联邦) 架构设计
1、修改ip 2、修改主机名及主机名和ip地址的映射 3、关闭防火墙 4、ssh免密登录 5、安装JDK,配置环境变量等
黑泽君
2019/02/25
1.9K0
相关推荐
Hadoop3.0和HBase2.1集群重置
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档