首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >与在Amazon EMR上运行配置单元/Sqoop相关的查询?

与在Amazon EMR上运行配置单元/Sqoop相关的查询?
EN

Stack Overflow用户
提问于 2012-04-23 07:36:05
回答 3查看 3.2K关注 0票数 1

我的用例:

我想通过SQOOP将大数据从EC2导入到Hive中。在Hive中导入的数据将通过应用某种算法在Hive中进行处理,并将生成一些结果(以表格形式,仅在Hive中)。并且生成的结果将再次通过SQOOP导出回Ec2。

我是Amazon Web Services的新手,希望在AWS EMR的帮助下实施此用例。我已经在本地机器上实现了它。

我已经阅读了一些与AWS EMR相关的链接,用于启动实例,以及什么是EMR,它是如何工作的,等等。

我对电子病历有一些怀疑,比如:

1)电子病历使用Hadoop存储桶,它保存输入和输出数据S3处理(以对象的形式)。->我不知道如何在S3上以对象的形式存储数据(我的数据将是文件)

2)如前所述,我已经为我的Java用例实现了一个任务。因此,如果我创建程序的JAR并使用Custom JAR创建Job Flow。是否可以像这样实现,或者需要为此做一些额外的事情?

3)正如我在我的用例中所说的,我希望在SQOOP的帮助下将结果导出回Ec2。EMR是否支持SQOOP?

--编辑的第4部分)我还将每天/每周从SQL Server导入我的数据,因为我在SQL Server中的数据每天/每周都会更新。如果我想导入S3上的数据并将其提供给配置单元,那么我该如何做到呢?(因为Hive将其数据存储在HDFS上的/user/hive/ stores目录下)。如何链接到HDFS中的S3和/user/hive/warehouse目录。

请尽快回复我。我想尽可能早地做这件事。

非常感谢。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-04-24 02:35:30

可以在AWS EMR上安装Sqoop。您不需要使用S3来存储文件,可以使用本地(临时) HDFS。安装Sqoop后,您可以将数据导入HDFS,在HDFS中运行计算,然后再次使用Sqoop导出数据。

这是我写的一篇关于如何在AWS EMR上安装Sqoop的文章:http://blog.kylemulka.com/2012/04/how-to-install-sqoop-on-amazon-elastic-map-reduce-emr/

票数 5
EN

Stack Overflow用户

发布于 2012-04-25 00:21:49

与我在Hive邮件列表中的回复相同:

回答您的问题:

1) S3术语使用“对象”这个词,我相信他们有很好的理由来解释为什么对我们蜂巢来说,S3对象和存储在S3上的文件是一样的。文件的完整路径将是亚马逊所说的存储桶“键”,相应的值将是文件的内容,例如S3 ://my_ S3 /tables/log.txt将是键,文件的实际内容将是S3对象。您可以使用AWS web控制台创建存储桶,并使用S3cmd (http://s3tools.org/s3cmd)等工具将数据放入S3。

但是,您不一定需要使用S3。S3通常仅在您想要持久存储数据时使用。大多数人会将他们的输入日志/文件存储在S3上,以便进行配置单元处理,还会将最终的聚合和结果存储在S3上,以供将来检索。如果您只是临时将一些数据加载到配置单元中,对其进行处理并将其导出,则不必担心S3。组成集群的节点具有组成HDFS的临时存储。你可以直接用它。唯一的副作用是,一旦终止集群,您将丢失HDFS中的所有数据。如果没问题,不用担心S3。

电子病历实例基本上是EC2实例,并在其上进行了一些额外的设置。我认为,在EC2和EMR实例之间传输数据应该很简单。如果您的数据存在于EBS卷中,您可以考虑添加一个EMR引导程序操作,将相同的EBS卷挂载到您的EMR实例上。不过,如果你不需要所有花哨的安装业务,这可能会更容易。

此外,请记住,在亚马逊数据中心之间传输数据可能会有成本,如果可能,您会希望将S3存储桶、EMR集群和EC2实例保持在同一区域。在同一地域内,不应该有任何额外的转移成本。

2)是的,EMR支持自定义jars。您可以在创建集群时指定它们。这应该只需要对jar本身进行最小程度的移植更改,因为它运行在Hadoop和Hive上,而Hadoop和Hive与您安装的本地集群和EMR上安装的jar是相同的(好吧,足够接近)。

3)带EMR的Sqoop应该可以。

参考资料:http://mail-archives.apache.org/mod_mbox/hive-user/201204.mbox/%3CCAGif4YQv1RVSoLt+Yqn8C1jDN3ukLHZ_J+GMFDoPCbcXO7W2tw@mail.gmail.com%3E

票数 2
EN

Stack Overflow用户

发布于 2018-07-25 05:22:27

@mark-grover提到,您可以将s3://与hdfs://互换使用,这并不完全准确。但是,在某些情况下,您可以使用apache sqoop中内置的AWS EMR和它抱怨的import命令;

ERROR tool.ImportTool: Imported Failed: Wrong FS: s3://<my bucket path>, expected: hdfs://ip-<private ip>.ap-southeast-2.compute.internal:8020

(我这里显然没有足够的代表发表评论,但可以回答go数字)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10276573

复制
相关文章
在Linux系统中安装LAMP出现的错误总结
总结一下用源代码安装LAMP环境中遇到常见的错误,从错误3开始是因为安装php后面带参数,导到没有找到开发包例如:./configure --with-gd  --with-libjpeg会出现如下错误。
星哥玩云
2022/06/28
3.2K0
在Linux系统中安装LAMP出现的错误总结
在HTML页面中引入公共的部分的代码
在做前端网页的时候,会涉及到很多界面,有的时候,这些界面都会有重复的代码,比如侧边栏菜单的重复代码,头部导航的 重复代码,底部的重复代码,这个时候,为了使每个页面的代码看起来简洁明了,我们需要把这些重复的代码放到公共的页面里面,在具体页面只需引用即可。
王小婷
2019/05/17
5.3K0
FFmpeg代码导读——HEVC在RTMP中的扩展
为推进HEVC视频编码格式在直播方案中的落地,经过CDN联盟讨论,并和主流云服务厂商达成一致,规范了HEVC在RTMP/FLV中的扩展,具体修改内容见下。
LiveVideoStack
2021/09/02
1.7K0
FFmpeg代码导读——HEVC在RTMP中的扩展
4个代码中,出现频率最高的字符串
在程序员的代码里,字符串是经常出现的形式。有些语句虽然没有什么意义,但却无孔不入,我们经常见到它的身影。
xjjdog
2020/05/29
7170
在 Karma 中测试覆盖率
最近自己用vue造轮子开发UI框架 https://zyqq.github.io/wheel/,为了使代码更健壮,采用了Karma做单元测试,并尝试测试覆盖率以检测测试质量。以下是测试覆盖率过程。
EchoROne
2022/08/15
1.1K0
在 Karma 中测试覆盖率
IDEA中调试Topology出现的错误
在IDEA的maven项目中编写Topology出错: NoClassFound找不到主类:解决– 在pom.xml中,找到中的storm,添加<>compi<>
ZONGLYN
2019/08/08
1.4K0
算法-删除字符串中的公共字符
该文讲述了如何删除字符串中的公共字符,通过创建一个hash表来存储字符串中每个字符的出现次数,然后遍历字符串,将不需要删除的字符保留,需要删除的字符则用另一个数组存储,最后将修改后的字符串全部替换回来。这种方法的时间复杂度为O(n),空间复杂度为O(256)
chaibubble
2018/01/02
3.6K0
算法-删除字符串中的公共字符
angular2中在使用路由懒加载时候出现的错误
ERROR in Cannot use 'in' operator to search for 'providers' in null 出现这个问题的原因是,在使用懒加载的时候,没有指定module,没有找到相关的提供信息。 const routes: Routes = [ {path:'login',component:loginComponent}, { path: 'about', loadChildren: './home/home/home.module'},] 以上是修改之前报错的代码:
杭州前端工程师
2018/06/15
5.1K0
在Kubernetes集群中扩展CoreDNS
我正在分享在Kubernetes(1.12)中使用CoreDNS(1.2.5)运行的一些测试结果,以便为将CoreDNS调整到您的集群提供一些参考点。除了在默认配置中测试CoreDNS之外,我还测试了CoreDNS并启用了可选的autopath插件。autopath插件是一种优化,有助于透明地缓解由于Kubernetes臭名昭着的ndots:5问题而导致的Pod性能损失。这些测试在启用autopath时量化了内存/性能交易。
CNCF
2019/12/05
2.2K0
在Kubernetes集群中扩展CoreDNS
[译] 在 vue-test-utils 中 mock 全局对象
原文:https://itnext.io/mocking-global-objects-in-vue-test-utils-a8822df013a8
江米小枣
2020/06/15
1.6K0
VS2013中Python学习笔记[基础入门]
        在上一节中简单的介绍了在VS2013中如何进行开发Hello World,在VS2013中进行搭建了环境。本节主要来简单的学习一下关于Python的基础。
aehyok
2018/08/31
5230
VS2013中Python学习笔记[基础入门]
字符串中字符出现重复字符
下面是总结的一些常见问题,以供大家参考 第一次出现重复字符 出现的重复字符 出现字符串、字符还有次数 出现次数最多的字符及次数 class Eclass{ public static void main(String[] args) { String str = "eeeejwurihewweafa"; Eclass e = new Eclass(); //问题一 int index = e.Method(str); S
崔笑颜
2020/06/08
1.7K0
windows系统下VS2013或者VS2017的C4996错误解决方法
由于微软在VS2013中不建议再使用c的传统库函数scanf,strcpy,sprintf等,所以直接使用这些库函数会提示C4996错误,在源文件中添加以下指令就可以避免这个错误提示: 法一: #define _CRT_SECURE_NO_WARNINGS 把这个宏定义一定要放到.c文件的第一行。 法二: 在主函数任意一行加上如下代码: #pragma warning(disable:4996) 如下图所示:
黑泽君
2018/10/11
7890
VS2013中Python学习笔记[环境搭建]
Python的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。
aehyok
2018/08/31
7180
VS2013中Python学习笔记[环境搭建]
工作负载不要全部放在公共云的篮子中
有些东西并不属于公共场合,与此类似,公共云可能不总是适合所有工作负载。 这个声明从来没有像最近两次非常公开的云中断那样更加相关。亚马逊和微软公司对此都必须迅速采取行动,安抚那些无法连接到存储在其AWS
静一
2018/03/27
9860
工作负载不要全部放在公共云的篮子中
VS2013中Python学习笔记[环境搭建]
Python的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。
aehyok
2019/02/25
5930
讨论覆盖函数中偏函数扩展的复杂性
摘要:覆盖函数是子模块函数的重要子类,可用于机器学习,博弈论,社交网络和设施位置。我们研究了覆盖函数的偏函数扩展的复杂性。也就是说,给定由[m]的子集族和每个点的值组成的部分函数,​​是否存在在[m]的所有子集上定义的扩展该偏函数的覆盖函数?偏函数扩展以前是针对其他函数类进行研究的,包括布尔函数和凸函数,并且在许多领域都很有用,例如在学习这些函数类时获得边界。
罗大琦
2019/07/18
8080
错误票据test
本文最后更新于 1163 天前,其中的信息可能已经有所发展或是发生改变。 #include<iostream> #include<cstring> #include<algorithm> #include<vector> #include<cmath> using namespace std; int main(){ int n; vector<string> vec; vector<string> vecarr; cin>>n; cin.ignore(); for(int i=0;i<n;i
Yuyy
2022/06/28
1360
在input中回车后页面提交导致出现HTTP 错误 405.0 - Method Not Allowed
前些时间在做一个搜索功能时发现一个比较有意思的现象,场景是这样的:在一个模态窗口中是一个订单列表,页面的顶部有若干个状态筛选框和一个搜索关键字输入框,当焦点在关键字输入框时按回车,本来是对input的keyup事件做了监听,当发现是按了回车键时便自动提交搜索请求的,但输入关键字后按回车时页面竟然跳转了,并且出现“HTTP 错误 405.0 - Method Not Allowed无法显示您正在查找的页面,因为使用了无效方法(HTTP 谓词)”的错误,非常纳闷。
风柏杨4711
2021/03/15
1.9K0
点击加载更多

相似问题

Django DRP post方法如何传递参数

23

使用POST方法的Django问题

42

AJAX传递POST请求,Django问题

24

hyperledger composer post方法:如何在post方法中传递参数

10

如何传递参数删除方法?(django)

15
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文