使用预定义的模式更新Spark推断的DataFrame模式

、

对于传入的数据集，我有一个预定义的架构(基本架构)。但在某些情况下，dataset可能具有略微不同的架构，其中包含一些附加列或嵌套列字段。在处理数据时，我希望使用组合模式(基本模式+推断模式)，以便考虑所有列/字段。我现在遵循下面的方法。我想知道是否有更好/更快的方法来实现这一点。predefinedSchema = (StructType) DataType.fromJson(predefine

浏览 14提问于2021-09-07得票数 1

1回答

JSON字符串的DataFrame转换

、、

是否可以使用Spark2.4将包含JSON字符串的DataFrame转换为包含JSON字符串类型化表示的DataFrame？例如:给定下面的定义，我希望使用从JSON字符串推断的模式来转换jsonDF中的单个列。val jsonDF = spark.sparkContext.parallelize(Seq("""{"a&qu

浏览 0提问于2019-05-03得票数 0

回答已采纳

6回答

Spark structured streaming kafka转换不带模式的JSON (推断模式)

、、、

我读到Spark Structured Streaming不支持将Kafka消息读取为JSON的模式推断。有没有一种方法可以像Spark Streaming一样检索模式：dataFrame.printschema

浏览 1提问于2018-01-21得票数 13

1回答

生成Spark模式代码/持久化和重用模式

、、、、

我正在从一个Parquet数据源实现一些Spark结构的流转换。为了将数据读入流DataFrame，必须指定模式(不能自动推断)。模式确实很复杂，手动编写模式代码将是一项非常复杂的任务。目前，我正在预先创建一个批处理DataFrame (使用相同的数据源)，Spark推断模式，然后将模式保存到Scala对象，并将其用作结构化流媒

浏览 3提问于2020-11-12得票数 0

1回答

如何在Spark结构化流中将JSON数据转换为DataFrame

、、

我正在使用星火结构化流处理来自卡夫卡的数据。我将每条消息转换为JSON。但是，spark需要一个显式的模式才能从JSON获得列。使用DStreams的火花流允许执行以下操作其中jsons是RDD[String]。在星火结构流的情况下类似的方法(jsons是Dat

浏览 1提问于2018-02-05得票数 2

2回答

Pyspark-Mongo缺少一些字段

、、

所以我正在尝试使用mongo-spark连接器将集合表单MongoDB读入spark，但是文档中的一些字段丢失了，以前有人遇到过这个问题吗？如果是，解决方案是什么？下面是我用来读取MongoDB集合的命令： .option"total" : 64.96, "sub

浏览 0提问于2018-03-24得票数 3

1回答

无法使用Spark读取json数据

、、、、

我正在尝试使用Apache Spark读取Json数据。下面是我到目前为止尝试过的代码： .setAppName("ExplodeDemo")df.printSchema() 当我将文件名作为参数传递给sqlContext.read.json时，它工作得很好，但我的要求是直接

浏览 0提问于2018-02-05得票数 0

1回答

对于spark结构化流式处理Json记录，架构是否为必填项

、、

我正在浏览下面的博客中的spark structured。 .add("apiVersion", StringType)下面是实际的spark例如，在spark batch streaming中，我们在下面的代码行中不提供任何模式</

浏览 3提问于2018-03-23得票数 1

1回答

如何将包含序列化的json的列转换为dataframe本身？

、、

get_json_object --我试图使用它，但是运行get_json_object的结果本身就是一个字符串，让我回到第一步。此外，(从exprs语句中)看来-再次-作者期望预先了解模式，而不是推断模式。之前，我不知道json模式是什么，因此需要推断它。spark.read.json似乎是推断模式的最佳案例，但我遇到的所有示例都从文件中加载了json。在

浏览 1提问于2019-01-10得票数 3

1回答

使用Struct和Array类型定义模式

、

我有一个Spark dataframe，它有一个模式(我读了它并推断出来)，如下所示： record_id stringrecord_timestampcategories array<string> geo struct<coordinates:array<double>,type:string> 接下来，我希望预先定义模式，

浏览 49提问于2020-10-24得票数 1

2回答

火花推断器模式在read.csv期间有限制

我想从一个CSV文件目录中，使用一小部分行(例如，Spark.DataFrame )来推断一个CSV模式。但是，将inferSchema设置为True意味着FileScanRDD的Input Size / Records似乎总是等于所有CSV文件中的行数。是否有一种方法可以使FileScan更具选择性，例如在推断模式时，Spark可以查看更少的行？注意:将设置为< 1.0并不具有所

浏览 0提问于2019-04-29得票数 4

回答已采纳

23回答

如何在PySpark中更改dataframe列名？

、、、、

我来自熊猫背景，习惯于将CSV文件中的数据读入dataframe，然后使用简单的命令将列名更改为有用的内容：但是，在使用PySpark我能想出的唯一简单的解决方案是： df = sqlContext.read.format("com.databricks.spark.csv").options(header='false',

浏览 12提问于2015-12-03得票数 304

回答已采纳

3回答

如何用模式推理将RDD[String]写到拼图文件中？

、、、

我的Spark Streaming作业需要处理RDD[String]，其中字符串对应于csv文件的一行。我事先不知道模式，所以需要从RDD推断模式，然后将其内容写入parquet文件。如果我从磁盘中读取一个csv文件，我只需使用模式推断将所有内容加载到DataFrame中，并立即将其写入parquet。不过，在我的场景中，我的起点是一个RDD[String]，它是流的</e

浏览 5提问于2017-06-14得票数 2

1回答

星星之火SQL - createDataFrame错误的结构模式

、、、、

当尝试使用Spark创建DataFrame时，向它传递如下所示的行列表：得到的DataFrame模式是： |-- some-column: array (nullablecontain

浏览 1提问于2018-11-19得票数 0

回答已采纳

2回答

在同一目录中创建具有和不具有标头的多个文件的PySpark DataFrame

、

我正在尝试从包含多个文件的目录创建数据帧。在这些文件中，只有一个文件有头。我想使用infer schema选项从头部创建模式。但是，当我读取目录中的所有文件时File &q

浏览 0提问于2018-04-26得票数 1

2回答

从dataframe可以推断星火的模式吗？

、、、、

我正在使用Spark2.0。需求是从选择值到dataframe中创建一个新的表。另外，如果该表不存在于单元中，spark.write.saveasTable会在单元中创建一个新表并自动推断模式吗？

浏览 4提问于2017-04-20得票数 1

回答已采纳

1回答

如何使用SparkSession动态推断模式

、、

我知道，如果我们将inferSchema选项设置为true，则模式将自动推断。我正在读一个简单的csv文件。如何在代码中不指定任何自定义架构的情况下动态推断架构。我尝试使用readStream并将我的格式指定为csv，完全跳过了地狱模式选项，但在任何情况下我似乎都需要提供这个选项。val ds1: DataFrame = spark .format("

浏览 2提问于2019-08-12得票数 0

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。= sparkSession.createDataFrame(rddStringToRowRDD,dfschema) val rDDToDataSet

浏览 0提问于2016-10-07得票数 6

回答已采纳

2回答

pyspark:在创建数据时，模式中指定的数据类型不反映在数据中

、、、、

我正在Spark中创建一个dataframe，并且我已经将模式定义如下： StructField('max_length', LongType())]) 我有许多行遵循这个精确的模式，并且我正在创建数据文件，具

浏览 0提问于2018-02-05得票数 0

3回答

如何在Hive表中为数据集创建模式？

、、、、

我需要重新组织和组的用户id互动的基础上附加的json图像格式准备。 ]return schema 这个模式正确吗如何将DataFrame转换为下面的json模式类型。

浏览 0提问于2017-05-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

JSON字符串的DataFrame转换

Spark structured streaming kafka转换不带模式的JSON (推断模式)

生成Spark模式代码/持久化和重用模式

如何在Spark结构化流中将JSON数据转换为DataFrame

Pyspark-Mongo缺少一些字段

无法使用Spark读取json数据

对于spark结构化流式处理Json记录，架构是否为必填项

如何将包含序列化的json的列转换为dataframe本身？

使用Struct和Array类型定义模式

火花推断器模式在read.csv期间有限制

如何在PySpark中更改dataframe列名？

如何用模式推理将RDD[String]写到拼图文件中？

星星之火SQL - createDataFrame错误的结构模式

在同一目录中创建具有和不具有标头的多个文件的PySpark DataFrame

从dataframe可以推断星火的模式吗？

如何使用SparkSession动态推断模式

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

pyspark:在创建数据时，模式中指定的数据类型不反映在数据中

如何在Hive表中为数据集创建模式？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐