spark使用orc格式存储_无法使用Spark合并小的ORC文件_将以orc格式存储的配置单元表从本地HDFS传输到Google云存储 - 腾讯云开发者社区

、、、、

用蜂巢火花2.0 假设我正在尝试写一个火花数据，irisDf到orc ，把它保存到蜂巢亚稳态在星火中我会这样做， irisDf.write.format("orc") .mode("overwrite") .option("path", "s3://my_bucket/iris/") .saveAsTable("my_database.iris") 在sparklyr中我可以使用spark_write_table函数， data("iris") iris_spark <

浏览 0提问于2018-08-16得票数 4

回答已采纳

1回答

为什么在spark中spark.sql.orc.filterPushdown默认是false？

、、

为什么spark中的spark.sql.orc.filterPushdown默认值是false？将spark的值设置为true是否会导致一些性能开销，或者在spark.sql.orc.filterPushdown的orc读取功能中存在一些限制？

浏览 0提问于2019-03-14得票数 0

1回答

星火任务未能将行写入ORC表

、、

我在几何学字段上运行了空间连接的以下代码： val coverage = DimCoverageReader.apply(spark, params) coverage.createOrReplaceTempView("dim_coverage") val uniqueGeometries = spark.table(params.UniqueGeometriesTable) uniqueGeometries.createOrReplaceTempView("unique_geometries") spark

浏览 8提问于2020-10-30得票数 4

2回答

如何使用Scala更新ORC蜂巢表

、、、、

我想更新一个以orc格式的hive表，我可以从我的ambari hive视图中进行更新，但是无法从sacla运行相同的update语句(星火壳)。 objHiveContext.sql("select * from table_name ")能够看到数据，但当我运行时 ObjHiveContext.sql(“table_name set column_name=‘the’")无法运行，出现了一些可注意的异常(更新附近的无效语法等)，因为我可以从Ambari视图进行更新(因为我设置了所有必需的配置，即TBLPROPERTIES "orc.compress"

浏览 0提问于2015-12-30得票数 5

回答已采纳

1回答

用火花将CSV转换为ORC

、、

我见过Hortonworks通过数据源支持Spark1.2中的ORC的。它涵盖了1.2版本，它解决了来自对象的ORC文件的问题或创建，而不是从csv到ORC的转换。我还看到了，正如我想要的那样，在Hive中完成这些转换。请有人提供一个简单的例子，说明如何从星火1.6+加载普通的csv文件，并将其保存为ORC，然后将其加载为星火中的数据帧。

浏览 10提问于2016-04-05得票数 3

回答已采纳

1回答

无法在星火中配置ORC属性

、、、、

我正在使用Spark1.6(Cloudera5.8.2)并尝试下面的方法来配置ORC属性。但它不会影响输出。下面是我尝试过的代码片段。 DataFrame dataframe = hiveContext.createDataFrame(rowData, schema); dataframe.write().format("orc").options(new HashMap(){ { put("orc.compress","SNAPPY");

浏览 0提问于2017-01-20得票数 3

回答已采纳

1回答

将写入ORC文件引发错误

、、

我试图写一个Spark作为ORC文件，它抛出以下错误。我去叫IndexOutOfBoundsException..。日志： Caused by: org.apache.spark.SparkException: Task failed while writing rows at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.

浏览 0提问于2018-08-09得票数 0

1回答

用Snappy压缩用ORC格式编写火花数据

、、、

我成功地读取了一个存储在S3中的文本文件，并使用Spark以ORC格式将它写回S3。- inputDf.write().orc(outputPath); 我不能做的是转换为ORC格式与snappy压缩。我已经尝试给出选项，而写作为设置编解码器为snappy，但火花仍然是正常的兽人写。如何使用Spark实现对S3的快速压缩，以ORC格式编写？

浏览 6提问于2016-04-26得票数 4

回答已采纳

2回答

配置单元“alter table <table name> concatenate”是如何工作的？

、、、

我有n(large)数量的小尺寸的orc文件，我想合并成k(small)数量的大的orc文件。这是使用配置单元中的alter table table_name concatenate命令完成的。我想了解Hive是如何实现这一点的。如果需要的话，我希望使用Spark来实现这一点。任何指针都会很棒。

浏览 36提问于2017-01-24得票数 3

5回答

如何读取Python Pandas中本地存储的ORC文件？

、、、、

我是否可以将ORC文件视为类似于包含数据的列标题和行标签的CSV文件？如果是这样，我能以某种方式将其读入一个简单的pandas数据帧吗？我对Hadoop或Spark这样的工具不是很熟悉，但仅仅为了在Python中查看本地ORC文件的内容，有必要理解它们吗？文件名为someFile.snappy.orc 我可以在网上看到spark.read.orc('someFile.snappy.orc')可以工作，但即使在import pyspark之后，它也会抛出错误。

浏览 2提问于2018-10-19得票数 8

1回答

在java中通过Spark存储orc格式

、、、

我正在使用spark 1.3.1，我想以ORC格式以蜂巢形式存储数据。在下面显示错误的行中，看起来orc不支持spark 1.3.1中的数据源。 dataframe.save("/apps/hive/warehouse/person_orc_table_5", "orc"); java.lang.RuntimeException: Failed to load class for data source: orc at scala.sys.package$.error(package.scala:27) at org.apache.spark

浏览 5提问于2015-08-18得票数 0

回答已采纳

1回答

spark奇怪的兽人NullPointerException

、、、、

在调用任何处理所有数据的操作时，我在spark中得到了一个奇怪的NullPointerException。有趣的是， val dOverallTotal = spark.read.orc("/path/to/file.orc/") dOverallTotal.distinct.count // NPE! 失败并引发空指针异常，而有趣的是： val dOverallTotal = spark.read.orc("/path/to/file.orc/partition=part_value") dOverallTotal.distinct.count // work

浏览 87提问于2020-04-06得票数 1

1回答

每种格式的写入或读取选项的参考在哪里？

、、

我使用Spark 1.6.1。我们正在尝试使用HiveContext和DataFrameWriter将ORC文件写入HDFS。虽然我们可以使用 df.write().orc(<path>) 我们更愿意做这样的事情 df.write().options(Map("format" -> "orc", "path" -> "/some_path") 这是为了让我们可以根据使用此帮助器库的应用程序灵活地更改格式或根路径。我们在哪里可以找到可以传递到DataFrameWriter中的选项的引用？我在这里的文件里什么

浏览 2提问于2017-06-05得票数 16

回答已采纳

2回答

如何在Spark中设置ORC条带大小

、

我正在尝试在Spark(2.3)中生成一个数据集，并将其编写为ORC文件格式。我正在尝试为ORC条带大小和压缩大小设置一些属性。我从那里得到了一些提示，所以发了帖子。但是spark没有遵守这些属性，并且我在生成的ORC文件中的条带大小比我设置的要小得多。 val conf: SparkConf = new SparkConf().setAppName("App") .set("spark.sql.orc.impl", "native") .set("spark.sql.hive.convertMetastoreOrc",

浏览 24提问于2018-08-29得票数 1

1回答

无法覆盖从adls位置读取的ORC文件的架构

、、、

我必须更改ORC文件的模式。ORC保存在adls位置。 orc文件中的原始模式是旧模式列标题：(C1，C2，C3，C4 ) 我想用新的模式(从StructType和StructField创建)覆盖原来的模式。新架构列标题：(名称、年龄、性别、时间) 我使用的spark命令是: val df2 = spark.read.format("orc").schema(schema).load("path/") 只要我运行df2.show(2，false) 所有列的数据都变为null。当我没有覆盖已经存在的旧模式并运行 val路径=spark.read.format(“

浏览 1提问于2021-05-26得票数 0

1回答

用新模式读取ORC文件

、、、

我最初使用以下模式将csv数据转换为orc格式。这是每天发生的拉力。 MySchema = StructType([ StructField("RetailUnit", StringType()), StructField("RetailUnitSysCode", IntegerType())]) 大约一个月后，我遇到了其中一个列的一些问题，需要将类型更改为字符串，如下所示： MySchema = StructType([ StructField("RetailUnit", StringType()), Struc

浏览 1提问于2020-06-25得票数 1

回答已采纳

1回答

如何解决spark读取hive orc文件遇到错误

、、、

jdk 1.8 scala 2.12.11 spark 3.0.1当我在scala spark中读取配置单元表并写入导出orc文件时 df.write.option("compression", "none").mode(SaveMode.Overwrite).orc(dump_path) 它运行成功当我想从python pyspark中的句号导出orc文件中读取orc文件时，它正在成功运行。 dfs = spark.read.orc("/Users/muller/Documents/gitcode/personEtl/knowledge_source

浏览 29提问于2021-02-19得票数 1

1回答

火花数据集写入之间的差异

、、

我使用的是Spark。我需要知道以下对Hadoop方法的写入是否存在任何差异(性能等)： ds.write().mode(mode).format("orc").save(path); 或 ds.write().mode(mode).orc(path); 谢谢。

浏览 1提问于2018-07-30得票数 0

回答已采纳

1回答

如何在spark应用中验证orc矢量化是否有效？

、、

我已经在我的spark streaming应用程序中启用了以下列出的配置，但我无法推断设置这些参数后的性能优势，如果你们中的任何一个知道任何方法来验证矢量化是否按预期/正确启用！注意:我正在使用Spark 2.3，并将我的应用程序中的所有数据转换为原生orc格式1.4版本。 sparkSqlCtx.setConf("spark.sql.orc.filterPushdown", "true") sparkSqlCtx.setConf("spark.sql.orc.enabled", "true") sparkSqlCtx.se

浏览 3提问于2018-05-23得票数 1

1回答

如何在Spark中加入大数据格式？(最佳做法、稳定性、绩效)

、、、

在Spark中加入大型数据格式时，我得到了与相同的错误。建议设置MEMORY_AND_DISK和/或spark.shuffle.memoryFraction 0。但是，在Spark 1.6.0中不推荐使用spark.shuffle.memoryFraction，如果我没有缓存任何>=或Dataframe，那么设置MEMORY_AND_DISK就不会有帮助了，对吧？此外，我还得到了许多其他警告日志和任务重试，这使我认为任务是不稳定的。因此，我的问题是：在Spark >= 1.6.0中加入大型数据格式的最佳实践是什么？更具体的问题是：如何调整执行程序的spark

浏览 2提问于2016-06-23得票数 12

回答已采纳

1回答

通过Spark读取时忽略损坏的Orc文件

、、

我在HDFS中有多个Orc文件，目录结构如下： orc/ ├─ data1/ │ ├─ 00.orc │ ├─ 11.orc ├─ data2/ │ ├─ 22.orc │ ├─ 33.orc 我正在使用Spark阅读这些文件： spark.sqlContext.read.format("orc").load("/orc/data*/") 问题是其中一个文件已损坏，因此我想跳过/忽略该文件。我看到的唯一方法是获取所有的Orc文件，并在将其传递给Spark之前逐个验证(通过读取它们)。但是这样我将读取相同的文件两次。有什么方法可以避免我重复读取这些文

浏览 45提问于2021-06-18得票数 1

回答已采纳

1回答

Spark sql优化技术将csv加载到hive的orc格式

、、、、

嗨，我有90 GB的数据在csv文件中，我正在加载这些数据到一个临时表，然后从临时表到orc表使用select insert命令，但转换和加载到orc格式的数据，它花了4个小时在火花sql.Is有任何一种优化技术，我可以用来减少这个time.As的现在我没有使用任何一种优化技术，我只是使用spark sql和加载数据从CSV文件到表(文本格式)，然后从这个临时表到orc表(使用选择插入)使用spark提交为： spark-submit \ --class class-name\ --jar file 或者我可以在spark submit中添加任何额外的参数来改进优化。

浏览 2提问于2020-04-02得票数 0

2回答

将ORC文件转换为拼图文件

、、、

是否有任何已知的库/方法可以将ORC文件转换为Parquet文件？否则，我正在考虑使用Spark将ORC导入到dataframe中，然后输出到parquet文件中

浏览 26提问于2018-02-21得票数 2

回答已采纳

4回答

如何在星火中创建架构文件

、、、

我正在尝试读取一个Schema文件(这是一个文本文件)，并将它应用到我的CSV文件中，而没有头文件。因为我已经有了一个模式文件，所以我不想使用InferSchema选项，这是一种开销。我的输入模式文件如下， "num IntegerType","letter StringType" 我正在尝试下面的代码来创建一个模式文件， val schema_file = spark.read.textFile("D:\\Users\\Documents\\schemaFile.txt") val struct_type = schema_file.flat

浏览 1提问于2018-05-24得票数 5

回答已采纳

1回答

AWS EMR Spark:写入S3 - IllegalArgumentException时出错-无法从空字符串创建路径

、、、

我已经尝试解决这个问题很长一段时间了。不知道为什么我会有这个吗？仅供参考，我在AWS EMR群集上的群集上运行Spark。我调试过并清楚地看到了提供的目标路径...就像s3://my-bucket-name/一样。spark作业创建orc文件，并在创建分区后写入这些文件，例如：date=2017-06-10。有什么想法吗？ 17/07/08 22:48:31 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Can not create a Path from an

浏览 9提问于2017-07-09得票数 2

回答已采纳

1回答

加入ORC部件并创建CSV

、

将HDFS上多个部分的现有ORC存储转换为一个CSV文件的最简单方法是什么？我可以使用hive和/或spark，但我想保持较小的内存需求，所以我不想使用spark.read和coalesce。

浏览 0提问于2018-04-11得票数 1

2回答

使用Spark saveastable方法的Bucketby属性采用spark 'default‘数据库而不是hive数据库: HDP 3.0

、、

我正在使用saveAsTable方法保存Spark DataFrame，并编写以下代码。 val options = Map("path" -> hiveTablePath) df.write.format("orc") .partitionBy("partitioncolumn") .options(options) .mode(SaveMode.Append) .saveAsTable(hiveTable) 它工作得很好，并且我能够在配置单元表格中看到数据。但是当我再使用一个属性bucke

浏览 3提问于2020-05-26得票数 0

1回答

在pyspark数据帧计数函数中获取`java.nio.BufferOverflowException`

、、、

我正在使用以下环境：spark = 2.0.0、hdp = 2.5.3.0、python = 2.7、yarn-client 我的PySpark代码大部分时间都工作得很好。然而，有时我在df.count()函数上遇到以下异常适用于我的代码： df= spark.read.orc("${path}") df.count() 我得到异常的代码： df= spark.read.orc("${path}") df = df.cache() df.count() 堆栈跟踪： Job aborted due to stage failure: Task 0 in s

浏览 0提问于2017-01-19得票数 0

2回答

星星之火DataFrame saveAsTable：

、

我想知道如何定制DataFrameWriter#saveAsTable使用的表设置。有没有办法调整存储格式(例如使用Avro或ORC)、压缩(使用"snappy“等)？用DataFrame建造的桌子的位置呢？我正在寻找的是Spark2 DataFrameWriter#saveAsTable等效于创建一个托管 Hive表，该表具有一些通常传递给Hive CREATE TABLE命令的定制设置，如下所示： STORED AS <format> LOCATION <hdfs_path> TBLPROPERTIES("orc.compress&#

浏览 0提问于2019-02-12得票数 1

1回答

如何在星火2.3.3中使用orc-core-1.5.5？

、、、、

我的代码依赖于orc-core-1.5.5，我需要它在Spark-2.3.3环境下运行。但Spark-2.3.3只有orc-core-1.4.4。出于某种原因，我的案子不允许“--罐子”。所以我尝试使用Maven Shade插件将orc 1.5.5添加到我的最后一个jar中。但是当我将这个jar提交给Spark-2.3.3时，它仍然是java.lang.NoSuchMethodError: org.apache.orc.OrcFile$ReaderOptions.getUseUTCTimestamp()Z (它只存在于1.5.5版本中)。我的应用程序似乎没有在我的jar中使用orc 1.5.

浏览 0提问于2019-08-21得票数 1

回答已采纳

2回答

Spark删除Apache Orc文件

、

我使用spark shell将spark数据帧存储为orc-file，如下所示： jdbcDF.write.format("orc").partitionBy("ID").save("applicationsPartitioned") 我发现数据现在位于windows\system32\applicationsPartitioned中如何正确删除orc-file？我可以直接关闭spark并自行删除目录，但是这个目录中是否存储了一些元数据？

浏览 18提问于2017-07-12得票数 0

回答已采纳

2回答

HiveContext没有读取Orcfile的架构

、、、、

当我运行以下命令时： val df1 = sqlContext.read.format("orc").load(myPath) df1.columns.map(m => println(m)) 这些列被打印为'_col0‘、'_col1’、'_col2‘等，而不是它们的实名，例如'empno’、'name‘、'deptno’。当我在Hive中“描述mytable”时，它会正确地打印列名，但当我运行'orcfiledump‘时，它也会显示_col0、_col1、_col2。我是否必须指定“读取上的模式”或其他什么？如

浏览 5提问于2016-08-02得票数 3

回答已采纳

1回答

ORC模式演变

、、、

通过一个示例ORC文件本身，我了解到ORC文件格式没有存储任何列信息，实际上所有的列名都将被_c0替换为_cn，在这种情况下，如何才能为ORC表实现适当的模式演变？

浏览 12提问于2019-01-31得票数 2

1回答

如何向BigQuery外部表添加列

、

我在Google Cloud Storage中有一堆存储在分区的ORC文件中的数据。我的存储桶看起来像下面这样： my_bucket - folder_of_orc_files - - partition1=abc - - - file1.orc - - - file2.orc 我在BigQuery中定义了一个外部表，它指向上面创建的数据，如下所示： CREATE OR REPLACE EXTERNAL TABLE my_dataset.my_external_table WITH PARTITION COLUMNS ( partition1 STRING, ) OPTIONS (

浏览 55提问于2021-01-06得票数 0

回答已采纳

2回答

电火花数据中的顺序操作

、

我有一个关于处理dataframe (df)转换的最佳方法的问题。假设我有一个主df，我需要将这个df与其他3个dfs连接起来。以下哪一种是实现这一目标的最佳方式(更好的性能)？创建多个dfs或将其重新分配到现有的dfs？ 1-每个步骤都有一个数据 df = spark.read.orc(file) df2 = spark.read.orc(file2) df3 = spark.read.orc(file3) df4 = spark.read.orc(file4) df5 = df.join(df2, df.col==df2.col, 'inner') df6 = df5.j

浏览 2提问于2020-05-06得票数 0

回答已采纳

2回答

为事务启用的配置单元存储区表

、、、

因此，我们尝试使用以下语句创建一个ORC格式的Hive表，并为事务设置存储桶并启用该表 create table orctablecheck ( id int,name string) clustered by (sno) into 3 buckets stored as orc TBLPROPERTIES ( 'transactional'='true') 该表是在Hive中创建的，并且还反映在Metastore和Spark SQL(我们已配置为在Hive JDBC之上运行)中的Beeline中。我们现在正在通过配置单元将数据插入到这个表中。然而，我们看到

浏览 1提问于2015-11-23得票数 2

1回答

如何读取和写入多个子文件夹？

、、、

在/mypath/orc/ path下面有几个用于不同日期的子文件夹： /mypath/orc/mydate=20170817/part1.orc /mypath/orc/mydate=20170817/part2.orc /mypath/orc/mydate=20170820/part1.orc /mypath/orc/mydate=20170820/part2.orc /mypath/orc/mydate=20170821/part1.orc /mypath/orc/mydate=20170821/part2.orc 我想要的输出与此类似(文件的实际名称并不重要)： /mypath/par

浏览 0提问于2018-04-05得票数 0

回答已采纳

2回答

如何使用Spark会话在Spark2中重载UDF

、、

如何使用Spark会话实现Spark2中UDF的方法重载。 scala> spark.udf.register("func",(a:String)=>a.length) scala> spark.udf.register("func",(a:Int)=>a*1000) 以下是我的蜂巢表，名为“orc”及其描述 scala> spark.sql("desc orc").collect.foreach(println) [id,int,null] [name,string,null] [time_stamp,ti

浏览 0提问于2018-03-21得票数 0

回答已采纳

1回答

我是不是错过了什么来激活pyspark中蜂巢的酸？

、、、

我想要更新我的hive表中的一些行。因为pyspark根本无法识别更新，所以我选择了DELETE和INSERT，但在DELETE操作上得到了"Operation not allowed“。为了解决这个问题，我将表指定为orc，并尝试了这个站点上提到的其余要求：我还设置了tableproperty "transactional"="true“。下面您将看到我如何尝试设置属性的一些代码 sqlCtx.sql("""SET spark.hadoop.hive.support.concurrency=true""")

浏览 17提问于2019-07-26得票数 0

1回答

Spark-Scala无法推断模式(将输入路径验证推迟到DataSource)

、、、

加载空的orc文件夹时。不管怎样绕过这一步。 val df = spark.read.format("orc").load(orcFolderPath) org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC. It must be specified manually.; at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185) at org.ap

浏览 0提问于2018-11-11得票数 0

1回答

Spark /谓词下推是否在ORC文件中不正常工作？

、、、

而"spark.sql.orc.filterPushdown“等于false (默认情况下)。下面的语句花了3分钟执行。 val result = spark.read.schema(schema).orc("s3a://......./*") result.select("a","b").where(col("a")===1318138224).explain(extended = true) result.select("a","b").where(col("a")===

浏览 0提问于2019-09-09得票数 3

1回答

Spark加载ORC文件不使用Hive Metastore中的确切架构，导致类型转换错误

、、、

我正在尝试从Hive表中加载一些数据，其中一列如下： id - bigint 当我将表加载到dataframe中并执行printSchema时，我看到Spark与Hive Metastore一致，即id是long类型。然而，当我尝试对表做任何事情时，我得到了这个错误： SparkException: Job aborted due to stage failure: Task 0 in stage 14.0 failed 4 times, most recent failure: Lost task 0.3 in stage 14.0 (TID 218, 10.139.64.41, execu

浏览 3提问于2019-11-28得票数 0

1回答

打开火花1.5.0时出错

、

下载最新的tar of Spark (1.5.0)后，我收到以下错误 $ tar -xf spark-1.5.0.tar tar: copyfile unpack (spark-1.5.0/python/test_support/sql/orc_partitioned/SUCCESS.crc) failed: No such file or directory 我又试了一次 tar: copyfile unpack (spark-1.5.0/python/test_support/sql/orc_partitioned/SUCCESS.crc) failed: File exists

浏览 3提问于2015-09-18得票数 3

回答已采纳

3回答

如何在spark中读取orc事务单元表？

、、、

如何在spark中读取orc事务单元表？我在读取ORC事务性表时遇到了问题，通过spark我得到了hive表的架构，但无法读取实际数据。请参阅完整的场景： hive> create table default.Hello(id int,name string) clustered by (id) into 2 buckets STORED AS ORC TBLPROPERTIES ('transactional'='true'); hive> insert into default.hello values(10,'abc'

浏览 0提问于2018-05-09得票数 4

1回答

从hdfs读取ocr文件后不可思议地触发数据帧

、、、、

我在Ambari上使用spark 2.1.1和hadoop 2.6时遇到了问题。我首先在本地计算机上测试了我的代码(单节点，本地文件)，一切工作正常： from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .master('yarn')\ .appName('localTest')\ .getOrCreate() data = spark.read.format('orc').load('mydata/*.orc'

浏览 9提问于2017-07-13得票数 7

回答已采纳

1回答

使用Scala数据from创建带有分区的单元表

、、、、

我需要一种方法来从创建一个蜂箱表。hive表应该具有按日期分区的S3位置中的ORC格式的底层文件。到目前为止，我得到的是：我用ORC格式将scala数据写入S3。 df.write.format("orc").partitionBy("date").save("S3Location) 我可以在S3位置看到ORC文件。我现在在这些ORC文件的顶部创建一个单元表： CREATE EXTERNAL TABLE "tableName"(columnName string) PARTITIONED BY (date string) STORED

浏览 3提问于2020-10-30得票数 0

2回答

如何控制Spark job在写入时创建的输出部品文件的数量？

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。完成工作后，我通常使用以下代码进行保存 finalJavaRDD.saveAsParquetFile("/path/in/hdfs"); OR dataFrame.write.format("orc").save("/path/in/hdfs") //storing as ORC file as of Spark 1.4 Spark job在最终输出目录中创建了大量的小零件文件。据我所知，Spark为每个分区/任务创建零件文件，如果我错了，请纠正我。我们如何控制Spark创

浏览 4提问于2015-07-06得票数 2

回答已采纳

3回答

使用Spark 1.4 API读取ORC文件时的NPE

、、、

我在Spark中读取了许多ORC文件，并对其进行了处理，这些文件基本上都是Hive分区。大多数情况下，处理过程都很顺利，但对于少数文件，我得到了以下异常，不知道为什么？这些文件在使用配置单元查询的配置单元中工作得很好。 DataFrame df = hiveContext.read().format("orc").load("/path/in/hdfs"); java.lang.NullPointerException at org.apache.spark.sql.hive.HiveInspectors$class.unwrapperFor(Hive

浏览 1提问于2015-09-08得票数 1

2回答

hive -如何将parquet/ORC设置为默认输出格式

、、

单元格使用文本作为默认格式，如果需要parquet/ORC文件格式，则必须添加额外的“存储为parquet/ORC”子句。如何将parquet/ORC设置为默认输出格式？

浏览 2提问于2017-05-18得票数 2

回答已采纳

1回答

无法使用Spark合并小的ORC文件

、、、

我有一个外部的ORC表与大量的小文件，这是来自每天的来源。我需要将这些文件合并到更大的文件中。我尝试将ORC文件加载到spark并使用覆盖方法保存 val fileName = "/user/db/table_data/" //This table contains multiple partition on date column with small data files. val df = hiveContext.read.format("orc").load(fileName) df.repartition(1).write.mode(SaveMod

浏览 10提问于2018-09-06得票数 2

回答已采纳