循环中的联合spark数据集

、、

我正在尝试将一个数据集追加到循环中的一个空数据集。但结果数据集始终为空。我试图通过执行代码中的第1行注释来消除循环中的变量failedRows，但是仍然得到了空的failedRows数据集。failedRows.union(filteredDs);//Line 2

浏览 8提问于2019-12-13得票数 0

回答已采纳

1回答

相似数据集上的联合操作

我想对具有相同结构(相同名称和列类型)的小型数据集执行联合操作，以获得一个大型数据集。如何在JAVA / SPARK中做到这一点？PS :我尝试过使用union()，但是这个方法只接受一个数据集，而不接受我想要的数据集联合列表。谢谢

浏览 9提问于2021-04-17得票数 1

回答已采纳

2回答

Spark联合列顺序

、、、

我最近在Spark遇到了一些奇怪的事情。据我所知，根据spark dfs的基于列的存储方法，列的顺序实际上没有任何意义，它们就像字典中的键。在df.union(df2)期间，列的顺序重要吗？，但数据似乎是按照原始数据帧的顺序连接的。这仅仅是因为它是pyspark.sql的一部分，或者是因为Spark中有一些我在理解上搞砸了的底

浏览 3提问于2019-07-09得票数 26

回答已采纳

1回答

将流数据集追加到Spark中的批处理数据集

、、、

我们在Spark中有一个用例，我们希望将历史数据从数据库加载到Spark，并不断向Spark添加新的流数据，然后我们可以对整个最新数据集进行分析。据我所知，Spark SQL和Spark Streaming都不能将历史数据与流数据结合起来。然后我发现Spark 2.0中的结构化流媒体似乎就是为这个问题而构建的。

浏览 0提问于2016-10-03得票数 3

1回答

Spark联合使用1个长时间运行的任务需要很长时间

、、

嗨，在我的spark工作中，在某个阶段，我正在合并(联合)3个数据集，每个数据集有300个分区。这是包含900个任务的作业的联合阶段。如您所见，有一个任务的运行时间超过一个小时。我知道不看数据很难弄清楚，但这种情况有什么共同的原因和解决它的指导方针吗？

浏览 4提问于2021-02-01得票数 0

1回答

StructuredStream中流和批处理数据帧/数据集的联合

、

我正在努力使流式和批处理数据文件的联合操作。但是，我发现了以下错误：这个特性在

浏览 0提问于2019-08-23得票数 1

回答已采纳

1回答

我应该缓存还是不缓存统一的数据帧？

、、、

我不熟悉Spark中的缓存。我需要在一个循环中做多个DF联合。每个联合增加几百万行。我应该在每个联合后df.cache我的结果吗？Database4", "Database5", "Database6", "Database7", "Database8", "Database9", "Database10") var df = getDF(

浏览 15提问于2019-09-11得票数 0

回答已采纳

1回答

PySpark序列化结果在星火循环中太大的OOM

、、、

我很难理解为什么不能运行一个转换，在等待了这么多分钟(有时是几个小时)之后，转换返回“序列化结果太大”的错误。在转换中，我有一个日期列表，我在for循环中迭代这些日期，以便在特定的时间间隔内进行增量计算。Date_list = [All weeks from: '2021-01-01',

浏览 12提问于2022-01-22得票数 2

1回答

使用不同的sampleIds和位置组合两个VCF文件

、、

浏览 1提问于2021-09-30得票数 1

1回答

如何使用spark 2.1将联合数据帧并行到一个数据帧

、、

我希望将联合数据放入另一个数据帧的foreach循环中，但似乎丢失了一些数据。本地set master(“/** *”)会丢失数据，set master("local1")不会丢失数据。**/import scala.util.Random import org.a

浏览 6提问于2019-08-01得票数 0

回答已采纳

1回答

在循环中将spark数据集(以增量方式)与更大的数据集合并

、、、

我有一个大约1000万个键的列表，作为字符串列表(“xxx”，“yyx”……)。我想查询一个数据库，在一个循环中获取这10M个键的记录，因为它一次可以处理最多1M个键。数据库返回记录的数据集。所以我想单独调用1M个键，最后联合所有键的输出。(spark.sparkContext.emptyRDD[(Array[Byte])])

浏览 2提问于2021-07-23得票数 1

2回答

提高Spark SQL处理数十亿行数据的性能

、、、

在我的公司项目中，我需要使用Spark SQL将一个超过十亿行的数据集与另一个大约一百万行的数据集进行交叉连接。由于使用了交叉连接，我决定将第一个数据集分成几个部分(每个部分大约有2.5亿行)，并将每个部分与百万行的部分进行交叉连接。然后我使用了“联合所有”。现在，我需要提高连接进程的性能。我听说可以通过对数据进行分区并将工作分配给Sp

浏览 56提问于2020-01-08得票数 0

1回答

联合+窗口与联接+窗口+ dropDuplicates的火花/火花效率

、、、、

我的任务是对两个表/星火数据执行窗口聚合(即根据表2中的输入日期t-，回顾表1中的t-x)。参数使用变通方法，因为我的spark版本目前还没有更新为≥版本3.1.0。解决方法的基础是在每个数据文件中创建在执行unionByName之前不存在的列(基于此)。我目前了解到，spark中的联接操作通常效率很低，因为它们往往需要在合并之前对数据集进行排序和洗牌，

浏览 5提问于2022-10-15得票数 1

回答已采纳

1回答

从循环中的Spark数据集中读取行数据

、、、

我想用Java在循环中读取spark数据集行，并且我必须在其中读取其他数据集。假设ds是数据集，如果如下所示的写入循环，我可以读取其他数据集 ds.toJavaRDD().collect().forEach() 但我删除了collect()和JavaRDD()并直接应用 ds.foreach() 那么我就不能读取其他数据集。

浏览 48提问于2021-08-26得票数 1

2回答

如何并行化数据帧分区上的操作

、、

我希望将数据帧重新分区为多个分区，并将每个分区元素作为list传递给返回spark dataset的数据库api调用。 val result = spark.readcustom.databse") .load最后

浏览 2提问于2021-07-06得票数 1

1回答

如何在星火中并行运行重复任务而不是按顺序循环？

、、

我刚刚开始使用星火，我知道应该避免使用非功能性的顺序循环方式，这样才能使我获得最大的性能。var myNewDF = sqlContext.createDataFrame(sc.emptyRDD[Row], minority_set.schema) for (myNewDF.unionAll(sqlContext.createDataFrame(sc.parallelize(makeD

浏览 1提问于2017-06-07得票数 0

回答已采纳

1回答

“DataFrame”对象没有属性“orderby”

、、、、

我在我的应用程序上使用了azure数据。并且我使用ML来执行推算。在我得到结果之后，我想要加入和联合，使它成为一个完整的数据集，这样我就可以将它写入blob存储。df3 = spark.sql(""" FULL OUTER JOIN df2 df5 = spark

浏览 4提问于2020-09-22得票数 1

1回答

有没有一种方法可以在分区的spark数据集上并行运行操作？

、、、

我有一个数据集的列表，我希望按所有数据集共有的特定键进行分区，然后运行一些连接/分组，这对所有分区的数据集都是相同的。我正在尝试以这样一种方式设计算法:我使用Spark的partitionBy根据特定的键创建分区。现在，一种方法是在循环中对每个分区运行操作，但效率不高。我想看看我是否有手动分区的数据，我可以在这些<e

浏览 0提问于2019-07-02得票数 1

1回答

如何在scala中访问和合并未来类型的多个DataFrame

、、、、

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member of scala.concurrent.Future[

浏览 2提问于2020-01-22得票数 0

1回答

循环mysql select查询时的Union结果

、、、

我想从一个循环select语句的过程中返回一个数据集。在我的特殊情况下，我尝试获取两个日期之间每个日期的每行的值。@today = DATE_ADD(NOW(),INTERVAL +1 DAY);当包装在proc中并被调用时，我会在每个循环中返回一个单独的数据集我想要一个单一的数据集，所有的

浏览 0提问于2012-08-01得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

相似数据集上的联合操作

Spark联合列顺序

将流数据集追加到Spark中的批处理数据集

Spark联合使用1个长时间运行的任务需要很长时间

StructuredStream中流和批处理数据帧/数据集的联合

我应该缓存还是不缓存统一的数据帧？

PySpark序列化结果在星火循环中太大的OOM

使用不同的sampleIds和位置组合两个VCF文件

如何使用spark 2.1将联合数据帧并行到一个数据帧

在循环中将spark数据集(以增量方式)与更大的数据集合并

提高Spark SQL处理数十亿行数据的性能

联合+窗口与联接+窗口+ dropDuplicates的火花/火花效率

从循环中的Spark数据集中读取行数据

如何并行化数据帧分区上的操作

如何在星火中并行运行重复任务而不是按顺序循环？

“DataFrame”对象没有属性“orderby”

有没有一种方法可以在分区的spark数据集上并行运行操作？

如何在scala中访问和合并未来类型的多个DataFrame

循环mysql select查询时的Union结果

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐