Spark: dataframe扁平化中的嵌套数据结构

、、、

我需要扁平化一个数据帧，以便将其与Spark (Scala)中的另一个数据帧连接起来。基本上，我的2个数据帧具有以下模式：root|-- field2: long (nullable = true)|-- field11: timestamp (nullable = true) 老实说，我不知道如何才能使DF2扁平化最后，

浏览 1提问于2017-03-02得票数 0

回答已采纳

5回答

展平嵌套的Spark数据帧

、、

有没有办法扁平化一个任意嵌套的Spark Dataframe？我看到的大多数工作都是为特定的模式编写的，我希望能够用不同的嵌套类型(例如StructType、ArrayType、MapType等)来通用地扁平化数据帧。希望将其调整为具有如下结构的扁平表：field2nested_array.nested_fie

浏览 0提问于2015-12-14得票数 14

3回答

如何使用spark scala解析Hive/Hbase列中可用的嵌套JSON

、、

如何使用spark scala解析和扁平化Hive/Hbase列中的嵌套JSON？LineNumber": 2, }} |Apple | Large| Red | 2 | 123 | +------+----

浏览 1提问于2019-04-17得票数 0

1回答

Spark中Dataset.filter的一个错误

、、

我只想过滤数据集以包含可以在MySQL中找到的记录。dataset.show()| id| name|| 1| a|| 3| c|下面是MySQL中的表：| id| name|| 1| a|| 4| d|这是我的代码(运行在火花壳中)= data.map { case

浏览 3提问于2016-01-15得票数 3

回答已采纳

1回答

PySpark -保存配置单元表- org.apache.spark.SparkException:无法识别配置单元类型字符串

、、

我正在将spark数据帧保存到hive表中。spark dataframe是一个嵌套的json数据结构。我可以将数据帧另存为文件，但它在上面创建了一个配置单元表时失败了，上面写着org.apache.spark.SparkException: Cannot recognize hive type string我不能先创建一个hive表模式，然后再将其插入其中，因为数据框由数百个嵌套列组成。

浏览 1提问于2018-08-11得票数 2

1回答

访问BroadCasted数据时获取空指针异常

、

当广播Dataframe并试图在Spark中访问它们时，我得到了Null指针异常。test_udf(parm1,parm2,parm3) AS test FROM table_b").take(1) 在这行之后，我将在B.value.take(1).foreach { println }行下方的UDF中获得空指针异常。

浏览 1提问于2016-07-07得票数 1

回答已采纳

1回答

如何计算一个元素在RDD连接后有两个相同字段的次数(Spark)

、、

因此，在将两个RDDs连接在一起之后，我现在就有了这种格式的数据：第一个字段是userID，然后是关于它们的信息。我遇到的问题

浏览 0提问于2019-11-28得票数 0

2回答

Spark/Scala和flatMap没有在DataFrame上工作

、

我有一个DataFrame，包含三个相同类型的DataFrames (相同的拼花模式)。它们仅在所包含的内容/值上有所不同：我希望将结构扁平化，以便将三个DataFrames合并到一个包含所有内容/值的DataFrame中。我尝试过使用flatten和flatMap，但是我总是会遇到错误： Error: No implicit view available from org.apache.spark.s

浏览 0提问于2015-10-30得票数 0

回答已采纳

2回答

将海量JSON文件读入Spark Dataframe

、、、

我有一个很大的嵌套NDJ (新行分隔的JSON)文件，我需要将其读取到单个spark dataframe中并保存到parquet中。flattenSchema(st, colName) } }val df = sqlCtx.read.json(sparkContext.

浏览 2提问于2016-12-10得票数 5

4回答

R: JSON到data.frame的泛型扁平化

、、、、

这个问题是关于一种通用机制，用于将任何非循环、同构或异构数据结构的集合转换为数据帧。这在处理许多JSON文档的摄取或作为字典数组的大型JSON文档时特别有用。有几个问题涉及操作深度嵌套的JSON结构，并使用plyr、lapply等功能将它们转换为数据帧。我找到的所有问题和答案都是关于特定案例的，而不是提供处理复杂JSON数据结构集合的通用方法。在Python和Ruby中，我实现了一个通用的<

浏览 2提问于2012-07-19得票数 11

回答已采纳

2回答

嵌套json扁平化spark数据帧

、、

我正在尝试从一个嵌套的jsonString创建一个数据帧，并拆分成多个数据帧，即外部元素数据将转到一个数据帧，嵌套子数据将转到另一个dataframe.There，也可以是多个嵌套元素。我看了看其他的帖子，他们都没有为下面的scenario.Below提供一个工作样本，其中状态的数量是动态的，我想将国家信息和状态信息存储在2个单独的hdfs文件夹中。因此，父dataframe包含如下所示的<

浏览 0提问于2020-10-07得票数 1

2回答

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

、、、、

考虑这里给出的代码， val training = sparkContext.parallelize我们是否应该继续这样做或者，当传递dataFrame时，fit函数将自动处理计算/数据的并行化致以敬

浏览 0提问于2016-06-01得票数 14

回答已采纳

4回答

如何在保留现有模式的同时从行中创建DataFrame？

、、、、

如果我调用map或mapPartition，并且我的函数接收来自PySpark的行，那么创建本地PySpark或Pandas DataFrame的自然方法是什么？合并行并保留架构的东西？目前，我所做的事情如下： rows = [x for x in partition] dfpart = pd.DataFrame(rows

浏览 0提问于2015-12-23得票数 2

回答已采纳

1回答

有什么好方法可以将星火RDD的内容读入Dask结构吗？

、、、、

目前，在处理复杂的嵌套结构时，星火结构与Dask之间的集成显得非常简单。具体来说，倾倒一个星火数据拉梅嵌套结构，由达斯克似乎是不太可靠的，虽然拼板装载是一个巨大的持续努力的一部分(快速拼板，皮箭)；因此，我接下来的问题--让我们假设我可以在Spark中进行一些转换，并将DataFrame转换为包含自定义类对象的RDD；是否有一种方法可以可靠地转储带有自定义类对象的Spar

浏览 0提问于2018-11-06得票数 1

回答已采纳

2回答

分解Spark* Dataframe中的嵌套结构*

、、

) | | |-- lng: double (nullable = true) 位置Struct中的因此，具有精确和不精确位置的行应该分解为两行。分解这些数据帧的最好方法是什么？-- lat: double (nullable = true) |-- lng: double (nullable = true) 我一直关注Exploding nested Struct in Sparkdata

浏览 37提问于2020-01-16得票数 0

回答已采纳

2回答

火花字典键作为列？

、、、、

将任何嵌套字典转换为星火DataFrame。.|通过spark 加载与json相同的字典+---------+-------------+--------------------+--------+ 需要的行为是第二种行为。如何确保数据结构直接加载到<e

浏览 9提问于2022-05-07得票数 0

2回答

如何使用扁平嵌套Json结构

、、、、

试图使用dataframe来平平嵌套的json响应。我成功地平平了“调查”结构，但当我尝试使用相同的“问题”代码时，会出现错误。附加的是我正在使用的json响应和databricks代码。file_exists(ta_team_customer_experience_survey_raw_path): ta_team_customer_experience_survey_raw = spark.read

浏览 13提问于2022-04-25得票数 0

3回答

pyspark向dataframe添加新行

、

我正在尝试向dataframe添加新行，但无法添加。我的代码：newDF= df.insertInto(newRow)newDF= df.union(newRow)AttributeError: _jdf AttributeError: 'DataFrame' object has no attribute 'insertInto'

浏览 0提问于2017-11-29得票数 12

回答已采纳

1回答

从文档中获取嵌套子集合

、、、、

所以我有一个如下所示的数据结构。用户有一个月的集合，月有一个类别的集合，类别有一个事务的集合。我很难从我的查询中获得所需的数据。我可以获得如下所示的月份，但我很难弄清楚如何从月份文档中获得所有类别文档。these docs transaction - amount, date 这里是我可以获取月份的地方，但是现在我需

浏览 2提问于2018-06-21得票数 1

1回答

使用spark展平嵌套的json文档并加载到Elasticsearch中

、、、、

我对Spark和java编程比较陌生。给定一个包含嵌套对象的json文件，我需要扁平化其结构(对内容进行反格式化)，并使用spark加载到Elastisearch中。例如,{ "body": "Making your money work...将其加载到ES中。4,

浏览 0提问于2017-04-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

展平嵌套的Spark数据帧

如何使用spark scala解析Hive/Hbase列中可用的嵌套JSON

Spark中Dataset.filter的一个错误

PySpark -保存配置单元表- org.apache.spark.SparkException:无法识别配置单元类型字符串

访问BroadCasted数据时获取空指针异常

如何计算一个元素在RDD连接后有两个相同字段的次数(Spark)

Spark/Scala和flatMap没有在DataFrame上工作

将海量JSON文件读入Spark Dataframe

R: JSON到data.frame的泛型扁平化

嵌套json扁平化spark数据帧

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

如何在保留现有模式的同时从行中创建DataFrame？

有什么好方法可以将星火RDD的内容读入Dask结构吗？

分解Spark* Dataframe中的嵌套结构*

火花字典键作为列？

如何使用扁平嵌套Json结构

pyspark向dataframe添加新行

从文档中获取嵌套子集合

使用spark展平嵌套的json文档并加载到Elasticsearch中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐