mahout - 腾讯云开发者社区

文章/答案/技术大牛

发布

mahout学习之推荐算法

所有mahout对基于内容的推荐涉及很少。...为了解决上述问题，mahout的PearsonCorrelationSimilarity 方法引入了权重的概念，将Weighting.WEIGHTED作为第二个参数传递进去即可使得统计较多数量的物品时，...但是mahout中并没有具体的方法实现，因为当两个输入序列均值为0时，余弦相似度和皮尔逊距离归结为同一个计算过程。所以在协同过滤的时候直接使用皮尔逊相似度即可。...慢到mahout in action这本书是这么说的： Run it, and take a long coffee break. Turn in for the night....sort=created 《Mahout In Action》 http://blog.csdn.net/xidianliutingting/article/details/51916578

1.8K3 0

mahout-0.7-cdh4.5.0安装

1、下载mahout:http://archive.cloudera.com/cdh4/cdh/4/mahout-0.7-cdh4.6.0.tar.gz 2、解压:mahout-0.7-cdh4.5.0....tar.gz 3、改名:mv mahout-0.7-cdh4.5.0 mahout 4、添加环境变量/tec/profile: export MAHOUT_HOME=/usr/local/mahout...:$CLASSPATH:$MAHOUT_HOME/lib export PATH=$PATH:$MAHOUT_HOME/bin 5、验证： 5.1)、下载测试数据:wget http://archive.ics.uci.edu...mkdir testdata 5.3)、上传文件:hadoop fs -put synthetic_control.data testdata 5.4)、运行程序:hadoop jar /usr/local/mahout.../mahout-examples-0.5-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job 由此可见，安装mahout的服务器必须先安装

3341 0

您找到你想要的搜索结果了吗？

是的

没有找到

Apache Mahout的KMeans算法测试

Mahout是Hadoop中实现数据挖掘的包，虽然现在一般用spark mlib，但是为了做比较，想着将mahout的算法进行验证测试一下。。...Mahout的安装还是非常简单的，只需要解压一下再进行如下配置就可以。...# Mahout export MAHOUT_HOME=/home/ndscbigdata/soft/mahout-0.11.0 export PATH=MAHOUT_HOME/bin:PATH export...CLASSPATH=CLASSPATH:MAHOUT_HOME/lib 由于算法有很多博客或者书籍上均有介绍，所以在此就不再重复。...而关于这个数据集mahout提供了三种算法，如下所示：因此进行kmeans测试，其结果如图所示。

7103 0

Mahout-Pearson correlation的实现

计算公式：并通过以下代码对Mahout in Action的结果进行了验证：代码例如以下： ` package com.example.mahout; public

3081 0

如何使用Mahout在hadoop进行集群分析

Mahout从设计开始就旨在建立可扩展的机器学习软件包，用于处理大数据机器学习的问题，当你正在研究的数据量大到不能在一台机器上运行时，就可以选择使用Mahout，让你的数据在Hadoop集群的进行分析...Mahout某些部分的实现直接创建在Hadoop之上，这就使得其具有进行大数据处理的能力，也是Mahout最大的优势所在。...，但前面提到过Mahout并不是“又一个机器学习软件”，而是要成为一个“可扩展的用于处理大数据的机器学习软件”，但是我相信会有越来越多的机器学习算法会在Mahout上面实现。...3，运行配置Mahout环境：在Apache官网下载Mahout的版本，我选择的是0.5。...在mahout目录下执行bin/mahout命令，检测系统是否安装成功。

1.9K5 0

【大数据分析与挖掘技术】Mahout推荐算法

推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，购物、社交等。...；最后给出一个实例进行算法演示，示范如何利用Mahout进行数据分析，并得出对用户的推荐结果。...在Mahout中，推荐引擎通常需要输入用户偏好数据，Mahout使用preference对象标识一个数据对象，它中三部分构成，包括用户ID、物品ID和偏好值。...三、对GroupLens数据集进行推荐与评价这一节中，以GroupLens数据集为例来演示Mahout进行推荐的具体流程。...为了提高数据存储和使用效率，Mahout使用PreferenceArray和其他一些数据结构来改造前两者，使得对大量数据的存储变的高效。

4041 0

Apache mahout中HMM（隐马尔可夫）算法的测试

（1）按照mahout官方文档给的例子进行测试。...（https://mahout.apache.org/users/classification/hidden-markov-models.html 首先定义一个输入： $ echo "0 1 2 2...=true $ $MAHOUT_HOME/bin/mahout baumwelch -i hmm-input -o hmm-model -nh 3 -no 4 -e .0001 -m 1000 ...最后返回预测的结果值： $ $MAHOUT_HOME/bin/mahout hmmpredict -m hmm-model -o hmm-predictions -l 10 轻松试验成功，搞定。...（2）进行mahout例子中的词性判断例子验证，其结果如图所示：

4102 0

用R解析Mahout用户推荐协同过滤算法(UserCF)

，并用R语言实现，与Mahout的结果进行对比。...Mahout是Hahoop家族用于机器学习的一个框架，包括三个主要部分，推荐，聚类，分类！我在这里做的是推荐部分。...目录 Mahout的模型介绍 R语言模型实现算法实现的原理–矩阵变换算法总结参考资料 1. Mahout的模型介绍 ?...Mahout版本 org.apache.mahout mahout-core <version...算法总结我这里只是用R语言现实了Mahout的基于“用户的”，“欧氏距离”，“最近邻”的协同过滤算法。实现过程中发现，Mahout做各种算法时，都有自己的优化。

1.2K12 0

【大数据分析与挖掘技术】Mahout聚类算法

实际上，这就是一个聚类过程，本章将介绍聚类的基本概念，以及在Mahout中如何使用聚类算法对数据进行分析。...二、常见的Mahout数据结构在Mahout中，许多数据结构是通用的，如向量（Vector）在聚类算法和分类算法中都会用到。...Mahout中也实现了这些算法，本节将对这几种比较常用的算法及其在Mahout中的实现进行简单介绍。...发认情况下Mahout中的K-means实现使用RandomSeedGenerator类生成包含k个向量的SeguenceFile。...1、向量化数据 Mahout安装文件中包含了处理这个数据集的一个解析器，存放在Mahout安装目录下D的example/directory中，只需要运行这个目录中的org.apache.lucene.benchmark.utils.ExtractReuters

3301 0

Hadoop集群中的Mahout-distribution-0.7安装与配置

Hadoop集群中的Mahout-distribution-0.7安装与配置系统配置： Ubuntu 12.04 hadoop-1.1.2 jdk1.6.0_45 Mahout是Hadoop的一种高级应用...运行Mahout需要提前安装好Hadoop，Mahout只在Hadoop集群的NameNode节点上安装一个即可，其他数据节点上不需要安装。 1、下载二进制解压安装。... /etc/profile 3、启动hadoop 4、mahout --help 检查Mahout是否安装完好，看是否列出了一些算法当然，这种方法并不准确，可以通过接下来的步骤进行验证。...5、mahout使用准备 a....-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job 6.查看结果 hadoop

5151 0

Mahout0.9 打patch使其支持 Hadoop2.2.0

引言 Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本，但很多情况下，由于集群环境的Hadoop已经是2.2.0以上版本，又必须使用Mahout，此时就需要编译源码，使得Mahout...Hadoop2.2+Mahout0.9实战 http://www.linuxidc.com/Linux/2014-04/99856.htm 造好的车轮让Mahout在Hadoop2.2.0上运行是需求十分广泛的...步骤一：为Mahout源码打patch 到 http://archive.apache.org/dist/mahout/ 或者 https://github.com/apache/mahout/releases...到源码根目录下执行以下命令打patch： yarn@singletest:~/Mahout/mahout-distribution-0.9$ patch -p0 < .....步骤二：针对Hadoop2.2.0编译源码到源码根目录下执行以下命令针对Hadoop2.2.0编译源码 yarn@singletest:~/Mahout/mahout-distribution-0.9

4643 0

【大数据分析与挖掘技术】Mahout分类算法

本节介绍Mahout 中学习算法的最后一个部分——分类算法。本节由三小节构成，我们首先要明确分类的概念，再对常用的专用名词、分类程序运行的基本过程进行了解。...随后介绍一些在Mahout中的常见的训练分类器的算法。对于使用Mahout 进行分类器训练，我们并不需要了解太多算法底层的数学原理与推导过程，因此，我们仅对不同的分类算法的特点进行描述。...Mahout中关于SGD算法的实现主要有以下几个类：OnlineLogisticRegression、 CrossFoldLearner和AdaptiveLogisticRegression。...Mahout实现的朴素贝叶斯仅限于基于单一文本型变量进行分类，对于很多问题来说，包括典型的大规模数据问题，影响不是很大。...至此，Mahout机器学习算法就介绍完成！

3101 0

深入了解推荐引擎组件（基于Apache Mahout和Elasticsearch）

其关键部分是基于Apache Mahout的协同过滤算法来建立和训练机器学习模型，以及基于Elasticsearch的搜索技术来简化推荐系统的开发。什么是推荐？...基于Mahout的协同过滤基于Mahout的协同过滤引擎着眼于用户的历史行为，并试图猜测在今后某个场景下用户可能喜欢什么。这是通过分析用户过去交互过的产品和内容来完成的。...Mahout尤其关注物品是如何在用户历史记录中共同出现的。共同出现是Apache Mahout计算被推荐物品显著性标识的基础。假设Ted喜欢电影A、B和C，Carol喜欢电影A和B。...标识符矩阵 Mahout同时并行地运行多个MapReduce作业来计算物品的共同出现（Mahout 1.0运行在 Apache Spark之上）。...Mahout ItemSimilarity作业的输出，给出了物品两两之间哪些总是共同出现、哪些能作为推荐依据。

1.9K5 0

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

（mahout本来是指一个骑在大象上的人）。...到Apache官网下载mahout8.0 　　解压 tar -zxvf mahout-distribution-0.8.tar.gz 　　移动 sudo mv tar mahout-distribution...-0.8 /usr/local/mahout-8 　　配置 sudo gedit /etc/profile 　　输入以下内容： export MAHOUT_HOME=/usr/local/mahout-...输入mahout -version测试是否安装成功。数据准备　　到http://fimi.ua.ac.be/data/下载一个购物篮数据retail.dat。　　...一两分钟后执行完毕，生成的文件被序列化了，直接查看会是乱码，因此需要用mahout还原回来： mahout seqdumper -i /user/hadoop/patterns/fpgrowth/part-r

9374 0

mahout学习之聚类（1）——向量的引入与距离测度

将数据转换为向量在mahout中，向量被实现为三个不同的类来针对不同的场景： 1....未来解决单词的相互依赖问题，mahout提供了一种被称为搭配的方法。...Mahout实现这个度量的类为：SquaredEuclideanDistanceMeasure。...Mahout实现这个度量的类为：TanimotoDistanceMeasure....加权距离测度 mahout还提供了一个基于欧式距离或者曼哈顿距离的测度实现，WeightedDistanceMeasure类。

1.3K4 0

用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

步骤一：将20news的文件都上传到hdfs yarn@singletest:~/Mahout/mahout-distribution-0.7$ hadoop fs -ls /workspace/mahout.../mahout seqdirectory -i /workspace/mahout/week4/data/20news -o /workspace/mahout/week4/data/20news_seq...yarn@singletest:~/Mahout/mahout-distribution-0.7/bin$ hadoop fs -ls /workspace/mahout/week4/data/20news_seq...yarn@singletest:~/Mahout/mahout-distribution-0.7/bin$ ..../mahout trainnb -i /workspace/mahout/week4/data/train-vectors -el -o /workspace/mahout/week4/nbmodel

2873 0

Hadoop 2.0 大家族（四）

（一）Mahout简介目前Mahout主要包含分类、聚类和协同过滤三种类型算法，需要注意的是Mahout算法处理的数据类型必须是矩阵类型的二进制数据，若数据为文本类型，用户须通过Mahout提供的数据转换工具完成转换...（二）Mahout入门 1、Mahout部署作为Hadoop的一个客户端，Mahout只要在集群中或集群外某台客户机上部署即可，实验中选择在iClient上部署Mahout。...[root@iClient ~]# sudo yum install mahout 2、Mahout访问接口 Mahout提供了程序和命令行接口，通过参考Mahout已有的大量机器学习算法，程序员也可实现将某算法并行化.../tmp/mahout/20news-all mahout/20news-all #使用工具类seqdirectory 将文本数据转换成二进制数据 mahout seqdirectory -i mahout...sequential #训练Naive Bayes模型 mahout trainnb -i mahout/20news-train-vectors -el -o mahout/model -li mahout

2060 0

Hadoop2.3.0上部署Mahout0.10，并测试单机版与分布式版个性化推荐程序

Hadoop2.3.0上部署Mahout0.10，并测试单机版与分布式版个性化推荐程序 1 Eclipse中Hadoop2.3.0及Mahout0.10相关jar包部署 Hadoop2以上需要使用...Mahout0.10以上版本才可以直接运行，否则需要重新编译Mahout相关jar包。...本文直接使用Mahout0.10版本，执行前在Eclipse中分别倒入Hadoop2.3.0和Mahout0.10相关jar包即可。...; import org.apache.mahout.cf.taste.eval.IRStatistics; import org.apache.mahout.cf.taste.eval.RecommenderBuilder...; import org.apache.mahout.cf.taste.model.DataModel; import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood

8536 0

商品搜索引擎—推荐系统设计

3.4、Mahout介绍目前选择采用协同过滤框架Mahout进行实现。...3.5、Mahout实现协同过滤实例协同过滤在mahout里是由一个叫taste的引擎提供的，它提供两种模式，一种是以jar包形式嵌入到程序里在进程内运行，另外一种是MapReduce Job形式在...3.5.1、依赖 org.apache.mahout mahout-coreMahout为DataModel提供了以下几种实现： org.apache.mahout.cf.taste.impl.model.GenericDataModel org.apache.mahout.cf.taste.impl.model.GenericBooleanPrefDataModel...HDFS的DataModel，有人实现了一个，请参考MAHOUT-1579（https://issues.apache.org/jira/browse/MAHOUT-1579）。

1.8K4 0

协同过滤推荐算法Java代码实现

9K8 1

点击加载更多

mahout学习之推荐算法

mahout-0.7-cdh4.5.0安装

Apache Mahout的KMeans算法测试

Mahout-Pearson correlation的实现

如何使用Mahout在hadoop进行集群分析

【大数据分析与挖掘技术】Mahout推荐算法

Apache mahout中HMM（隐马尔可夫）算法的测试

用R解析Mahout用户推荐协同过滤算法(UserCF)

【大数据分析与挖掘技术】Mahout聚类算法

Hadoop集群中的Mahout-distribution-0.7安装与配置

Mahout0.9 打patch使其支持 Hadoop2.2.0

【大数据分析与挖掘技术】Mahout分类算法

深入了解推荐引擎组件（基于Apache Mahout和Elasticsearch）

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

mahout学习之聚类（1）——向量的引入与距离测度

用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

Hadoop 2.0 大家族（四）

Hadoop2.3.0上部署Mahout0.10，并测试单机版与分布式版个性化推荐程序

商品搜索引擎—推荐系统设计

协同过滤推荐算法Java代码实现

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐