如何在Spark dataframe中使用嵌套列进行连接

、、、

string (nullable = true) | | | | |-- Line_A2: string (nullable = true) 如何将这两个数据帧与Agreement_A1列连接在一起

浏览 11提问于2019-08-22得票数 2

回答已采纳

17回答

在Apache Spark DataFrame中连接列

、、、

如何在Apache Spark DataFrame中连接两列？Spark SQL中有没有我们可以使用的函数？

浏览 7提问于2015-07-16得票数 159

1回答

查询嵌套数据的spark问题

、

有人熟悉spark来查询嵌套的数据吗？爆炸()作用是正确的吗？代码应该是什么样子的？data = spark.read.parquet("s3:path").filter("Btype == 'a' and marketplaceId = 1").select(explode("myData.productData

浏览 6提问于2022-12-01得票数 0

回答已采纳

4回答

如何读取Spark中的嵌套集合

、、、、

我有一张镶木镶木桌上有一根柱子在Spark文档中找不到任何与此相关的引用。提前感谢您提供的任何信息！ ps。我觉得在谈判桌上提供一些统计数据可能会有所帮助。主表中的列数约为600。行数~200m。嵌套集合

浏览 191提问于2015-05-03得票数 19

回答已采纳

1回答

我怎样才能在Scala中加入星火数据的列表呢？

、

我有一个Seq of Spark (即Seq[org.apache.spark.sql.DataFrame])，它可以包含一个或多个元素。有一个列的列表对每个数据文件都是通用的，每个dataframe也有一些额外的列。我想要做的是使用连接条件中的那些公共列将所有这些数据文件连接在一起(记住，数据格式的数量是未知的) 我怎样才能把所有这些数据文件连接起来？我想我可以对它们进行

浏览 0提问于2018-05-15得票数 4

回答已采纳

1回答

Derby的另一个实例可能已经启动了数据库/home/cloudera/metastore_db

、、、

我正在尝试使用Spark将普通文本文件加载到配置单元表格中。我使用的是Spark版本2.0.2。我已经在Spark version: 1.6.0中成功地做到了这一点，我正在尝试在version 2x中做同样的事情，我执行了以下步骤： import spark.implicits._ 到目前为止没

浏览 62提问于2017-07-03得票数 0

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

、、

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列

浏览 31提问于2020-12-20得票数 0

1回答

火花DataFrame* --如何在没有联接的情况下改变一列的排列*

、

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。# for some dataframe spark_df new_df = spark_df

浏览 0提问于2019-06-06得票数 0

3回答

Spark SQL广播哈希连接

、

我正在尝试使用SparkSQL对数据帧执行广播散列联接，如下所示：我遇到的问题是，我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表，并且不想手动编写这个SQL语句)。How do I tell spark</

浏览 7提问于2016-05-27得票数 16

回答已采纳

2回答

我可以在火花数据帧中使用循环吗？

、、

Store 1/accounts1 10ID Amount为此目的，我可以使用循环在星火数据会不会是集群中的一个问题？while storecount<=50: DF =spark.sql

浏览 3提问于2017-09-19得票数 1

回答已采纳

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

、、

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

1回答

spark.default.parallelism等价于火花数据仓库

问题背景显然，RDD和DataFrame的分娩控制是不同的。Dataframe有spark.sql.shuffle.partitions来控制重装分区(如果我正确理解的话，可以进行广泛的转换)，而"spark.default.parallelism“不会产生任何影响如果您正在使用RDDs…，那么实际上没有什么问题。但是有了数据处理，情况就不一样了

浏览 6提问于2019-11-18得票数 2

回答已采纳

1回答

我有一个包含大约1亿条记录(~25 100，~5列)的单表的MySQL数据库。使用Apache，我通过JDBC连接器提取这些数据，并将其存储在DataFrame中。我已经在Spark的Java中实现了这一点，但是它太慢了(就我的目的而言)，因为我将大量数据从DataFrame复制到java.util.Vector和java.util.List (以便能够迭代所有记录并进行预处理)，然后返回到DataFrame (因为

浏览 2提问于2016-06-02得票数 0

回答已采纳

1回答

Scala:使用嵌套json结构转换和替换Spark* DataFrame的值*

、、、、

我有一个嵌套的json文件，我将其读取为Spark DataFrame，并且希望在使用自己的转换时替换某些值。现在，让我们假设它看起来如下所示(遵循this) import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions.DataFrame中的某些值应用以下转换(将小写转换为大写 import org.apache.spark.

浏览 16提问于2020-08-12得票数 0

1回答

在.NET火花中遍历数据帧

、

我在Spark中有一个dataframe (通过读取csv创建)，如何在C#中遍历这个数据文件中的行。dataframe中有10行3列，在逐行导航时，我希望获得每个列的值。以下是我正在尝试的：{} foreach语句不能对“DataFrame”类型的变量进行操作，因为“DataFr

浏览 4提问于2022-11-09得票数 0

回答已采纳

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

、、、、

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with strea

浏览 25提问于2021-05-24得票数 0

回答已采纳

2回答

如何在Java中使用带有gt条件的联接？

、、

我想根据以下条件连接两个数据文件:如果df1.ol(“name”)==df2.ol(“name”)和df1.ol(“starttime”)大于df2.ol(“starttime”)。条件的第一部分是ok，我在spark中使用列类的“相等”方法，但是对于“大于”条件，当我在java中使用以下语法时：它不工作，它似乎是星火sql中列的&quo

浏览 2提问于2017-04-03得票数 1

回答已采纳

1回答

将嵌套的JSON列转换为Pyspark列

、、、

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据：我的pyspark da

浏览 8提问于2022-06-07得票数 0

1回答

在缓存嵌套列时，Spark是否会优化存储

、、

我从parquet中读取了一个DataFrame，并希望在选择一些嵌套结构后对其进行缓存。df.select($"a.b.c" as "c").cache() 我知道整个a列将从输入中读取(Spark2.5。

浏览 0提问于2018-10-02得票数 0

1回答

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

、、

按照官方的，我们不能向DataFrame添加特定的单元分区DataFrame df = hiveContext.read如果给出如下所示的基路径，它不包含我希望在DataFrame中包含的实体列，如下所示- DataFrame df = hiveContext.read().format("orc").load("

浏览 3提问于2016-01-07得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Apache Spark DataFrame中连接列

查询嵌套数据的spark问题

如何读取Spark中的嵌套集合

我怎样才能在Scala中加入星火数据的列表呢？

Derby的另一个实例可能已经启动了数据库/home/cloudera/metastore_db

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

火花DataFrame* --如何在没有联接的情况下改变一列的排列*

Spark SQL广播哈希连接

我可以在火花数据帧中使用循环吗？

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

spark.default.parallelism等价于火花数据仓库

避免在Apache中使用Java数据结构以避免复制数据

Scala:使用嵌套json结构转换和替换Spark* DataFrame的值*

在.NET火花中遍历数据帧

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

如何在Java中使用带有gt条件的联接？

将嵌套的JSON列转换为Pyspark列

在缓存嵌套列时，Spark是否会优化存储

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐