腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
用于
在
hadoop
中
转换
表
的
Python
代码
、
、
通过创建一个新
表
,
在
customer
表
上选择TRANSFORM。新
的
目标
表
应该只有三列:c_custkey (无更改)、c_address和c_city。对于c_city,添加一个空格和一个#以表示末尾
的
数字(例如,UNITED KI2 => UNITED KI #2或INDONESIA4 => INDONESIA #4)。c_city STRINGROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
浏览 4
提问于2020-05-12
得票数 0
2
回答
应用
转换
后,需要将数据从
Hadoop
加载到Druid。如果我使用Spark,我们可以直接从Spark RDD或dataframe加载数据到Druid吗?
、
、
我
在
hive
表
中
显示了数据。
在
将数据加载到druid之前,我想应用一系列
的
转换
。所以有一些方法,但我不太确定。1.
转换
后保存该
表
,然后通过
hadoop
摄取方式进行批量加载。但我希望避免
在
服务器上进行额外
的
写入。2.使用宁静。但它是针对Spark Streaming
的
,仅适
用于
Scala和Java,而不适
用于
Python
。我说<e
浏览 40
提问于2019-11-04
得票数 2
1
回答
在
apache spark/Storm
中
运行
python
脚本
、
、
我有一个用
python
编写
的
算法(不兼容
hadoop
,即不兼容mapper.py和reducer.py),它在本地系统(不是
hadoop
)上运行得很好。我
的
目标是
在
hadoop
中
运行它。选项1:
Hadoop
流。但是,我需要将这个
python
脚本
转换
为mapper和reducer。还有别的办法吗? 选项2:通过Storm运行此
python
脚本。但是,我使用
的
是cl
浏览 0
提问于2014-11-29
得票数 0
1
回答
Spark将字节保存为音频文件
、
我有一堆序列文件,其中键是字符串,值本身是组成整个音频文件
的
字节。我可以
在
Spark
中
成功加载这些序列文件:我想将这些值单独存储
在
HDFS上,作为音频文件,但我不知道如何做到这一点。做这件事最好
的
方法是什么?
浏览 1
提问于2018-01-31
得票数 0
1
回答
如何在外部源和azure synapse分析之间传输数据
、
、
我将从外部源(例如crm源)获取数据,然后将这些数据以表格
的
形式发送到azure synapse analytics,我将使用
Python
for ETL。但是我分析了很多网站,但是我没有找到好
的
信息,怎么做呢?
浏览 19
提问于2021-10-14
得票数 0
2
回答
是否有
Hadoop
/Mapreduce无法处理
的
业务逻辑?
、
、
我目前有五个
表
,它们经常接收复制
的
数据。PL/SQL
用于
基于复杂
的
业务逻辑来
转换
、清理和聚合这些数据。然后将结果放在三个报告
表
中
。然而,我认为
Hadoop
将是一个比MongoDB更好
的
选择。我现在正在学习
Hadoop
和Mapreduce,但我感觉
Ha
浏览 5
提问于2013-10-18
得票数 1
2
回答
您能从Dataproc触发
Python
脚本吗?
、
、
、
、
我
在
Hadoop
有一个本地环境。它由存储
在
HDFS上
的
文件和一堆编写API调用并触发猪作业
的
python
脚本组成。这些
python
作业是通过cron调度
的
。 我想了解
在
GCP
中
做类似事情
的
最佳方法。我知道我可以使用GCS作为HDFS
的
替代品。该Dataproc可
用于
拆分
Hadoop
集群并运行Pig作业。是否有可能将这些
Python</em
浏览 10
提问于2022-03-31
得票数 2
回答已采纳
7
回答
python
中出现
Hadoop
流作业失败错误
、
、
在
中
,我已经成功地运行了示例练习。但是在运行我
的
mapreduce作业时,我得到了以下错误java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2 else: id_list=[(tweet
浏览 0
提问于2010-12-16
得票数 22
回答已采纳
2
回答
如何使外部引用
表
或数据库可
用于
Hadoop
MapReduce作业?
、
、
、
我正在分析
Hadoop
MapReduce作业
中
的
大量文件,输入文件为.txt格式。我
的
映射器和缩减程序都是用
Python
编写
的
。但是,我
的
映射器模块需要访问外部csv-file
的
内容,该文件基本上只是一个很大
的
表
,
用于
查找映射器正在执行
的
转换
的
引用值。到目前为止,我只是让映射器将文件从本地目录加载到内存
中
,以使其作为
P
浏览 0
提问于2011-07-22
得票数 0
1
回答
是否有方法使用
python
脚本将特定
的
平面文件(.txt或.csv)摄取到HDFS
中
?
、
、
我正在尝试将本地系统
中
的
一个平面文件加载到HDFS存储
中
。实际上,我们有GB
的
数据上传到
hadoop
内部
表
。我们使用传统
的
过程加载数据,比如从文件
中
读取数据,然后分割成小块,然后使用
python
的
hive查询将每个块加载到内部
表
中
。此过程需要数小时
的
时间才能加载到
表
中
。我需要一种有效
的
方法,可以减少数据从文件加
浏览 0
提问于2020-07-24
得票数 0
回答已采纳
1
回答
在
嵌套JSON上创建配置单元
表
、
、
我正在尝试基于
hadoop
中
的
一些JSON数据
在
hive
中
创建一个
表
。最困难
的
部分是,我有一个嵌套
的
JSON,其中
的
数据没有
在
key:value对
中
干净地定义: "trafficSource":{
浏览 1
提问于2015-08-12
得票数 2
1
回答
配置单元:
python
UDF给出“关闭运算符时
的
配置单元运行时错误”
、
、
、
我需要
转换
几种日期格式,并根据一些业务逻辑将其
转换
为布尔条件。import sys year=0 trygetYearMonthFromStringDate(accountgl0s) output_list = [accountgl0s, ag
浏览 2
提问于2016-12-02
得票数 0
1
回答
Hive -从zip文件创建
表
、
、
我有一堆CSV
的
压缩文件,我想从这些文件创建Hive
表
。我想找出什么是最好
的
方法。 解压缩文件,将它们上传到HDFS。有方法将文件复制到HDFS,解压缩,还是有其他更好
的
/推荐
的
方法?
浏览 0
提问于2011-06-16
得票数 4
回答已采纳
3
回答
对于
hadoop
来说,java是必需
的
吗?
、
、
、
有人知道是否有必要了解java来学习
hadoop
吗?如果有人在
hadoop
上工作,那么请告诉我们
在
hadoop
工作需要什么?
hadoop
的确切用途是什么?
在
hadoop
之前有什么?
浏览 11
提问于2015-09-06
得票数 1
1
回答
Hadoop
与SAS
的
连接
、
、
、
、
我想使用SAS/ACESS 9.3M2接口连接sas和我
的
蜂巢。我
的
问题是,sas是否将蜂巢立方体导入到sas环境
中
并在那里进行查询?或者,为了报告
的
目的,它再次命中蜂巢,从而运行MR,从而将我
的
报告性能降低到超过2-4秒。 如果它将蜂窝
表
导入到它
的
环境
中
,那么与普通
的
sql多维数据集相比,它
的
性能如何?我对sas完全陌生,我希望
在
2-4秒内生成我
的
报告,其中我
的
浏览 4
提问于2013-08-21
得票数 2
回答已采纳
3
回答
Hadoop
作为ETL工具
的
替代品,如SSIS、Informatica?
、
、
、
、
我非常了解SSIS,Informatica,
用于
执行ETL过程&将数据加载到数据仓库。我们可以用
Hadoop
代替ETL工具,比如Informatica
用于
ETL过程吗? 在这里,我基本上是在谈论关系
表
结构。我知道
hadoop
可以
用于
从非结构化数据中提取信息。
浏览 7
提问于2014-05-29
得票数 1
1
回答
将
Python
数据帧
转换
为JSon格式,并通过使用
Python
添加其列名将其保存到MongoDB数据库
中
、
、
、
、
在
Json中
转换
DataFrame,
在
MongoDB集合中保存后添加列名,如所需
的
输出技巧和建议所示 0 1 2 3 4c++ hdfs
python
hadoop
java php html c++ c++ c
python
hdfs
hadoop
hdfs
hadoop
浏览 3
提问于2017-05-24
得票数 0
回答已采纳
1
回答
以文本文件和oracle
表
为源
的
Hive或Pig或performance将提供最佳性能?
、
、
、
、
数据源是文本文件(80 GB)和Oracle
表
(15 GB)。两者都是结构化数据。我听说Hive将套件
的
结构数据和
Python
减少流
的
概念,也将有较高
的
性能比蜂箱和猪。请澄清。使用ORC格式
表
存储连接结果,因为数据大小很大 现在,使用Hive和
P
浏览 2
提问于2015-04-10
得票数 2
1
回答
如何在HDP 2.6上启用
Python
3支持
、
、
、
HDP 2.6 (HortonWorks数据平台)不支持
Python
3。尽管
Python
3 (或Anaconda3)受到许多数据科学家
的
高度赞赏。 如何在HDP 2.6上启用
Python
3支持?
浏览 1
提问于2018-10-18
得票数 2
回答已采纳
1
回答
我可以
在
分区
的
hive
表
上使用mrjob
python
库吗?
、
、
、
、
我拥有对
hadoop
服务器/集群
的
用户访问权限,该服务器/集群包含仅存储
在
配置单元(avro)
的
分区
表
/文件
中
的
数据。我想知道我是否可以在这些
表
上使用
python
mrjob执行mapreduce?到目前为止,我已经
在
CDH5上存储
的
文本文件上对mrjob进行了本地测试,其开发
的
简单性给我留下了深刻
的
印象。经过一些研究,我发现有一个名
浏览 0
提问于2014-09-17
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
顺序表数据结构在python中的应用
Starlight:帮助Python代码在Go中运行的工具
在 Rust 代码中编写 Python 是种怎样的体验?
python中的哈希表数据结构
在PyCharm中如何在RMarkdown中同时编写R和Python代码
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券