在dataproc集群中，将Sqoop导入到avrodatafile或Parquet文件失败

当我们在GCP dataproc集群中对avrodatafile或parquetfile运行sqoop import时，它会失败，并显示以下错误。但是，导入到文本文件是有效的。使用的命令： gcloud dataproc jobs submit hadoop \ --region=us-centra

浏览 103提问于2019-10-02得票数 1

1回答

如何使用Sqoop将数据保存为parquet avro文件格式？

、、、

我需要将数据从关系数据库移动到HDFS，但我希望将数据保存为文件格式。看一下，我的选项似乎是--as-parquetfile或--as-avrodatafile，但不是两者的混合。根据我对下面这个/picture的理解，parquet-avro的工作方式是，它是一个嵌入了avro模式的镶嵌文件，以及一个转换和保存avro对象到镶嵌文件的转换器，反之亦然。我最初的假设是，如果我使用sqoop选项--as-parquetfile，那么保存到<em

浏览 21提问于2017-03-14得票数 0

3回答

将Avro转换为Parquet格式

、、、、

我想从数据库中导出数据，并转换为Avro + Parquet格式。Sqoop支持Avro导出，但不支持拼图。我尝试使用Apache Pig，Apache Crunch等将Avro对象转换为Parquet，但都没有结果。Apache Crunch总是抛出:java.lang.ClassNotFoundException: Class Hadoop not found“，尽管我将它添加到了Hadoop lib路径中。

浏览 5提问于2014-05-06得票数 2

1回答

Sqoop 1.4.7和Hadoop 2.7.3以Avro的形式导入数据失败

、、、、

我正在处理的问题是，我试图使用Apache将大量数据从前提下的PostgreSQL从副本导入到的Avro格式。导入默认格式的数据可以正常工作，但我的数据池需要将数据导入Avro格式，但是由于过去多次报告的原因，这一直失败，举个例子：我试图按照上述问题中的指示使用参数-Dmapreduce.job.user.classpath.first: org.apache.avro.reflect.ReflectData.addLogicalTypeConversion(Lorg/apache/avro

浏览 0提问于2019-01-31得票数 2

回答已采纳

1回答

Sqoop: Avro与Gzip Codec失败

、、

当尝试使用Sqoop和-as-avrodatafile和GzipCodec将表导入到HDFS时，它在下面的异常中失败，我运行的是CDH7 Cloudera快速启动对接程序映像。注意事项：Gzip在没有-as avrodatafile开关的情况下工作。at org.apache.avro.file.CodecFactory.fromString(CodecFactory.java:102) at org.apache.sqoop<

浏览 1提问于2018-03-04得票数 1

回答已采纳

2回答

创建DataProc集群时出现问题:组件游标器未能激活后hdfs

、、

我正在使用Dataproc集群设置来测试所有特性。我已经创建了一个集群模板，几乎每天都在使用creation命令，但是本周它停止了工作。/solr2,dataproc:ranger.cloud-sql.instance.connection.name=gcp-project:us-central1:ranger-metadata,dataproc/sqoop/sqoop.sh \ --metadata livy-timeout-sess

浏览 10提问于2022-03-03得票数 2

1回答

在sqooping数据之后，配置单元抛出错误

、、、、

我想将数据从数据库导入到HDFS中，然后填充hive表。我不能使用sqoop import --hive-import，因为sqoop会将数据从--target-dir移动到配置单元的metastore目录。因此，我必须创建hive模式sqoop create-hive-table，将hive表转换为parquet SET FILEFORMAT parquet，将hive表的位置更改为指向HDFS中合适的文件

浏览 1提问于2017-05-12得票数 0

1回答

如何将Avro作为数据文件使用Sqoop增量加载数据？

、、、

获取以下错误：gcloud dataproc jobs submit hadoop \ --cluster='sqoop-gcp-ingest-d3' \ --class=or

浏览 0提问于2019-08-16得票数 2

2回答

表未使用sqoop导入-all创建。

、、

我可以看到具有.avro扩展名的所有数据文件的正确目录结构，但是当我登录到HIVE &执行显示表时，在retail_avro.db模式下没有表。sqoop import-all-tables \--connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" \--warehouse-dir=/user/hive/ware

浏览 5提问于2016-12-31得票数 1

回答已采纳

1回答

在AWS EMR中作为avro导入时Sqoop失败

、、

我正在尝试在Amazon EMR(Hadoop2.8.5sqoop 1.4.7)中执行sqoop import。当未指定avro选项(--as-avrodatafile)时，导入会进行得很好。但是一旦设置好，作业就会失败，因为 19/10/29 21:31:35 INFO mapreduce.Job: Task Id : attempt_1572305702067_0017_m_000000在本地(在我的机器中)运

浏览 27提问于2019-10-30得票数 0

1回答

蜂巢导入与导入AVRO格式不兼容。

、

我有以下代码： --username root \ --compression-codec org.apache.org.io.compress.GzipCodec \ --as-avrodatafile蜂巢导入与导入到AVRO格

浏览 0提问于2018-02-23得票数 1

1回答

Dataproc Spark 3.1中的Sqoop和Avro依赖问题

、、、

我正在将GCP Dataproc中的spark 2.4.7升级到spark 3.1。我正在执行sqoop import并将数据加载到Parquet文件。该代码在Spark 2.4.7版本上运行良好，但在Spark 3.1中出现以下错误。(Sqoop.java:182)

浏览 21提问于2021-01-29得票数 1

回答已采纳

1回答

使用导入Bigtable中的CSV数据

、

我试图使用Dataproc集群的一个实例将大型CSV文件导入到HDFS，然后将它们导出为格式，最后将最新版本导入到Bigtable，如下所述：我似乎无法让HBase shel

浏览 4提问于2015-09-30得票数 3

1回答

Datalake环境下Dataproc元数据存储的功能

、、、

在Google环境中，Dataproc Metastore服务用于什么？所以最近推出了Dataproc Metastore，所以这是一个高兼容的Metastore。它是基于高Metastore。因此，这将允许您注册数据，特别是结构化数据，以便您可以使用Spark、PRESTO或Hive查询数据。目前，我无法找到将数据目录中的条目同步到Metastore的方法(我知道从Metastore同步数据到数据目录是可能的)。更新1：这是从GCS加载Parquet</em

浏览 15提问于2022-05-10得票数 4

5回答

无法导入表

、、

我在sqoop上运行命令。sqoop import --connect jdbc:mysql://localhost/hadoopguide --table widgets 我的sqoop版本：Sqoop 1.4.4.2.0.6.1所有的路径，如HADOOP_HOME，HCAT_HOME，SQOOP_HOME都是正确设置的。通过在sqoop中运行list-database、list -table命令，我可

浏览 7提问于2014-02-06得票数 3

3回答

Apache Sqoop和Spark

、

为了将大量SQL数据加载到Spark & ML中，下面哪个选项的性能更好。请建议以上哪一种方法可以很好地将大型SQL数据加载到Spark。

浏览 12提问于2015-11-18得票数 3

回答已采纳

3回答

使用带有--as-avrodatafile选项的Sqoop时的日期字段问题

、

环境: Hadoop 2 (CDH5.1)数据库: oracle 11g 场景:我将事实表和维度表从数据库中sqooping到hdfs中。最初，我在处理空值(使用--null-string和--non-null-string处理)时遇到了挑战，根据建议将其设置为\N。我已经在avro数据上构建了hive表，并且我能够查询表。现在，我需要创建配置单元连接，并将所有字段转换为它们所需的类型，如日期为日期/时间戳，数字为int/bigint等。我不明白sqoop是如何处理空

浏览 1提问于2014-08-27得票数 2

1回答

直接在GCP dataproc集群上启动的交互式pyspark会话默认表单元的错误

、、、、

在GCP上，我有时会收到这样的消息从我所做的研究中，我了解到这与蜂箱表有关。我没有任何特殊的选择来启用蜂巢或定位蜂巢。我没有显式地使用hive，我只是在读取parquet文件，而我的所有SQL都是通过pyspark接口来实现的，比如 df = spark.read.parquet('gs://path/to

浏览 0提问于2019-01-23得票数 1

1回答

Sqoop增量导入“无法将文件追加到目标dir”

、、、

我在使用Sqoop将数据从MySQL导入到Hive时遇到了问题。database.db/datatable \返回此错误：文件以这种方式位于/user/root/_sqoop

浏览 0提问于2015-01-14得票数 1

1回答

火花"basePath“选项设置

、、

当我这么做时：我是星火的新手。我相信我的数据源实际上是“文件夹”的集合(类似于base/to

浏览 4提问于2016-11-15得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Sqoop将数据保存为parquet avro文件格式？

将Avro转换为Parquet格式

Sqoop 1.4.7和Hadoop 2.7.3以Avro的形式导入数据失败

Sqoop: Avro与Gzip Codec失败

创建DataProc集群时出现问题:组件游标器未能激活后hdfs

在sqooping数据之后，配置单元抛出错误

如何将Avro作为数据文件使用Sqoop增量加载数据？

表未使用sqoop导入-all创建。

在AWS EMR中作为avro导入时Sqoop失败

蜂巢导入与导入AVRO格式不兼容。

Dataproc Spark 3.1中的Sqoop和Avro依赖问题

使用导入Bigtable中的CSV数据

Datalake环境下Dataproc元数据存储的功能

无法导入表

Apache Sqoop和Spark

使用带有--as-avrodatafile选项的Sqoop时的日期字段问题

直接在GCP dataproc集群上启动的交互式pyspark会话默认表单元的错误

Sqoop增量导入“无法将文件追加到目标dir”

火花"basePath“选项设置

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐