用于在hadoop中转换表的Python代码

、、

通过创建一个新表，在customer表上选择TRANSFORM。新的目标表应该只有三列：c_custkey (无更改)、c_address和c_city。对于c_city，添加一个空格和一个#以表示末尾的数字(例如，UNITED KI2 => UNITED KI #2或INDONESIA4 => INDONESIA #4)。c_city STRINGROW FORMAT DELIMITED FIELDS TERMINATED BY '|'

浏览 4提问于2020-05-12得票数 0

2回答

应用转换后，需要将数据从Hadoop加载到Druid。如果我使用Spark，我们可以直接从Spark RDD或dataframe加载数据到Druid吗？

、、

我在hive表中显示了数据。在将数据加载到druid之前，我想应用一系列的转换。所以有一些方法，但我不太确定。1.转换后保存该表，然后通过hadoop摄取方式进行批量加载。但我希望避免在服务器上进行额外的写入。2.使用宁静。但它是针对Spark Streaming的，仅适用于Scala和Java，而不适用于Python。我说<e

浏览 40提问于2019-11-04得票数 2

1回答

在apache spark/Storm中运行python脚本

、、

我有一个用python编写的算法(不兼容hadoop，即不兼容mapper.py和reducer.py)，它在本地系统(不是hadoop)上运行得很好。我的目标是在hadoop中运行它。选项1: Hadoop流。但是，我需要将这个python脚本转换为mapper和reducer。还有别的办法吗？选项2:通过Storm运行此python脚本。但是，我使用的是cl

浏览 0提问于2014-11-29得票数 0

1回答

Spark将字节保存为音频文件

、

我有一堆序列文件，其中键是字符串，值本身是组成整个音频文件的字节。我可以在Spark中成功加载这些序列文件：我想将这些值单独存储在HDFS上，作为音频文件，但我不知道如何做到这一点。做这件事最好的方法是什么？

浏览 1提问于2018-01-31得票数 0

1回答

如何在外部源和azure synapse分析之间传输数据

、、

我将从外部源(例如crm源)获取数据，然后将这些数据以表格的形式发送到azure synapse analytics，我将使用Python for ETL。但是我分析了很多网站，但是我没有找到好的信息，怎么做呢？

浏览 19提问于2021-10-14得票数 0

2回答

是否有Hadoop/Mapreduce无法处理的业务逻辑？

、、

我目前有五个表，它们经常接收复制的数据。PL/SQL用于基于复杂的业务逻辑来转换、清理和聚合这些数据。然后将结果放在三个报告表中。然而，我认为Hadoop将是一个比MongoDB更好的选择。我现在正在学习Hadoop和Mapreduce，但我感觉Ha

浏览 5提问于2013-10-18得票数 1

2回答

您能从Dataproc触发Python脚本吗？

、、、、

我在Hadoop有一个本地环境。它由存储在HDFS上的文件和一堆编写API调用并触发猪作业的python脚本组成。这些python作业是通过cron调度的。我想了解在GCP中做类似事情的最佳方法。我知道我可以使用GCS作为HDFS的替代品。该Dataproc可用于拆分Hadoop集群并运行Pig作业。是否有可能将这些Python</em

浏览 10提问于2022-03-31得票数 2

回答已采纳

7回答

python中出现Hadoop流作业失败错误

、、

在中，我已经成功地运行了示例练习。但是在运行我的mapreduce作业时，我得到了以下错误java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2 else: id_list=[(tweet

浏览 0提问于2010-12-16得票数 22

回答已采纳

2回答

如何使外部引用表或数据库可用于Hadoop* MapReduce作业？*

、、、

我正在分析Hadoop MapReduce作业中的大量文件，输入文件为.txt格式。我的映射器和缩减程序都是用Python编写的。但是，我的映射器模块需要访问外部csv-file的内容，该文件基本上只是一个很大的表，用于查找映射器正在执行的转换的引用值。到目前为止，我只是让映射器将文件从本地目录加载到内存中，以使其作为P

浏览 0提问于2011-07-22得票数 0

1回答

是否有方法使用python脚本将特定的平面文件(.txt或.csv)摄取到HDFS中？

、、

我正在尝试将本地系统中的一个平面文件加载到HDFS存储中。实际上，我们有GB的数据上传到hadoop内部表。我们使用传统的过程加载数据，比如从文件中读取数据，然后分割成小块，然后使用python的hive查询将每个块加载到内部表中。此过程需要数小时的时间才能加载到表中。我需要一种有效的方法，可以减少数据从文件加

浏览 0提问于2020-07-24得票数 0

回答已采纳

1回答

在嵌套JSON上创建配置单元表

、、

我正在尝试基于hadoop中的一些JSON数据在hive中创建一个表。最困难的部分是，我有一个嵌套的JSON，其中的数据没有在key:value对中干净地定义： "trafficSource":{

浏览 1提问于2015-08-12得票数 2

1回答

配置单元: python* UDF给出“关闭运算符时的配置单元运行时错误”*

、、、

我需要转换几种日期格式，并根据一些业务逻辑将其转换为布尔条件。import sys year=0 trygetYearMonthFromStringDate(accountgl0s) output_list = [accountgl0s, ag

浏览 2提问于2016-12-02得票数 0

1回答

Hive -从zip文件创建表

、、

我有一堆CSV的压缩文件，我想从这些文件创建Hive表。我想找出什么是最好的方法。解压缩文件，将它们上传到HDFS。有方法将文件复制到HDFS，解压缩，还是有其他更好的/推荐的方法？

浏览 0提问于2011-06-16得票数 4

回答已采纳

3回答

对于hadoop来说，java是必需的吗？

、、、

有人知道是否有必要了解java来学习hadoop吗？如果有人在hadoop上工作，那么请告诉我们在hadoop工作需要什么？ hadoop的确切用途是什么？在hadoop之前有什么？

浏览 11提问于2015-09-06得票数 1

1回答

Hadoop与SAS的连接

、、、、

我想使用SAS/ACESS 9.3M2接口连接sas和我的蜂巢。我的问题是，sas是否将蜂巢立方体导入到sas环境中并在那里进行查询？或者，为了报告的目的，它再次命中蜂巢，从而运行MR，从而将我的报告性能降低到超过2-4秒。如果它将蜂窝表导入到它的环境中，那么与普通的sql多维数据集相比，它的性能如何？我对sas完全陌生，我希望在2-4秒内生成我的报告，其中我的

浏览 4提问于2013-08-21得票数 2

回答已采纳

3回答

Hadoop作为ETL工具的替代品，如SSIS、Informatica？

、、、、

我非常了解SSIS，Informatica，用于执行ETL过程&将数据加载到数据仓库。我们可以用Hadoop代替ETL工具，比如Informatica用于ETL过程吗? 在这里，我基本上是在谈论关系表结构。我知道hadoop可以用于从非结构化数据中提取信息。

浏览 7提问于2014-05-29得票数 1

1回答

将Python数据帧转换为JSon格式，并通过使用Python添加其列名将其保存到MongoDB数据库中

、、、、

在Json中转换DataFrame，在MongoDB集合中保存后添加列名，如所需的输出技巧和建议所示 0 1 2 3 4c++ hdfs python hadoop java php html c++ c++ c python hdfs hadoophdfs hadoop

浏览 3提问于2017-05-24得票数 0

回答已采纳

1回答

以文本文件和oracle表为源的Hive或Pig或performance将提供最佳性能？

、、、、

数据源是文本文件(80 GB)和Oracle表(15 GB)。两者都是结构化数据。我听说Hive将套件的结构数据和Python减少流的概念，也将有较高的性能比蜂箱和猪。请澄清。使用ORC格式表存储连接结果，因为数据大小很大现在，使用Hive和P

浏览 2提问于2015-04-10得票数 2

1回答

如何在HDP 2.6上启用Python3支持

、、、

HDP 2.6 (HortonWorks数据平台)不支持Python3。尽管Python3 (或Anaconda3)受到许多数据科学家的高度赞赏。如何在HDP 2.6上启用Python3支持？

浏览 1提问于2018-10-18得票数 2

回答已采纳

1回答

我可以在分区的hive表上使用mrjob python库吗？

、、、、

我拥有对hadoop服务器/集群的用户访问权限，该服务器/集群包含仅存储在配置单元(avro)的分区表/文件中的数据。我想知道我是否可以在这些表上使用python mrjob执行mapreduce？到目前为止，我已经在CDH5上存储的文本文件上对mrjob进行了本地测试，其开发的简单性给我留下了深刻的印象。经过一些研究，我发现有一个名

浏览 0提问于2014-09-17得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

应用转换后，需要将数据从Hadoop加载到Druid。如果我使用Spark，我们可以直接从Spark RDD或dataframe加载数据到Druid吗？

在apache spark/Storm中运行python脚本

Spark将字节保存为音频文件

如何在外部源和azure synapse分析之间传输数据

是否有Hadoop/Mapreduce无法处理的业务逻辑？

您能从Dataproc触发Python脚本吗？

python中出现Hadoop流作业失败错误

如何使外部引用表或数据库可用于Hadoop* MapReduce作业？*

是否有方法使用python脚本将特定的平面文件(.txt或.csv)摄取到HDFS中？

在嵌套JSON上创建配置单元表

配置单元: python* UDF给出“关闭运算符时的配置单元运行时错误”*

Hive -从zip文件创建表

对于hadoop来说，java是必需的吗？

Hadoop与SAS的连接

Hadoop作为ETL工具的替代品，如SSIS、Informatica？

将Python数据帧转换为JSon格式，并通过使用Python添加其列名将其保存到MongoDB数据库中

以文本文件和oracle表为源的Hive或Pig或performance将提供最佳性能？

如何在HDP 2.6上启用Python3支持

我可以在分区的hive表上使用mrjob python库吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐