我正在Apache中设计一个MapReduce。我得到的数据包括:客户的唯一标识符,他们的邮政代码,购买日期,以及他们购买的产品。
一个示例数据如下所示:
CustId 10001,
PostCode 111111,
DoP 19/11/2000,
ProdP 1
我想分析一下这个查询:
How many products a customer has purchased in the last 12 months?
我已经在Apache : MapReduce中为MapReduce设计了这个设计:。我想检查我使用过的(键,值)对是否正确,以及这个设计是否处理所有的边缘情况。
任何帮助都是非
我已经通过一个弹性MapReduce交互式会话创建了一个配置单元表,并使用CSV文件填充它,如下所示:
CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
LOAD DATA LOCAL INPATH '/home/hadoop/file.csv' OVERWRITE INTO TABLE csvimport;
现在,我希望将配置单元表存储在S3存储桶中,以便在终止MapReduce实例后保留该表。
我刚接触过Amazon服务,我试图在亚马逊弹性地图上运行作业流,使用命令行接口工具减少作业。
我遵循了指南的步骤,这个aws.But开发人员指南对我来说还不清楚。
如果我执行命令./弹性-mapreduce- list 来列出作业流。显示以下错误。
/home/pdurai/Applications/elastic-mapreduce-cli/amazon/coral/httpdestinationhandler.rb:23: warning: else without rescue is useless
/usr/local/rbenv/versions/1.9.3-p194/lib/rub