如何在spark rdd中执行vlook

、、

我有两个rdd我想执行一个操作，将第一个rdd的第一个元素与第二个rdd的第二个元素重新关联起来<code>A1</code> 请向我推荐一种执行此操作的方法

浏览 33提问于2019-12-05得票数 0

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

spark dataframe到rdd的转换需要很长时间

、、

我正在将一个社交网络的json文件读入spark。我从这些数据中得到一个数据帧，我将其分解以获得对。这个过程运行得很完美。稍后，我想将其转换为RDD (用于GraphX)，但RDD的创建需要很长时间。val social_network = spark.read.json(my/path) // 200MB val exploded_network = social_network., "id_account", "relationship&qu

浏览 1提问于2017-03-20得票数 3

2回答

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

、、、、

考虑这里给出的代码， val training = sparkContext.parallelize

浏览 0提问于2016-06-01得票数 14

回答已采纳

1回答

无法理解scala操作是如何在Apache spark中运行的

、、、、

我所了解到的是，火花作业在有任务要在RDDS上操作的阶段上工作，在这些阶段中，它们是通过从spark控制台开始的惰性转换创建的。Scala的编码有RDD上的操作，据我所知，RDD是逻辑的，还有其他类型的数据结构，我可以对它们进行操作，如列表、流、向量等。所以我的问题是更正式地说，RDDS是什么，它们与火花

浏览 0提问于2019-07-07得票数 0

1回答

如何在pyspark dataframe中将groupby转换为reducebykey？

、、、、

请在下面找到我的场景，Step2:输入列总数为15列，其中5列为关键字段，其余为数值。如何用spark方式和map和reducebykey选项来做类似的逻辑。

浏览 0提问于2017-09-21得票数 1

1回答

在foreachRDD中执行rdd.count()会将结果返回给驱动程序还是执行器？

、

对于下面的代码，.count()是将值返回给驱动程序还是仅返回给执行器？ long count = rdd.count();我知道count()通常会将值返回给驱动程序，但我不确定当它在foreacRDD中时会发生什么？对于将来的

浏览 5提问于2017-07-11得票数 2

回答已采纳

1回答

在这种情况下，火花是如何内部工作的？

、、

我有一个带有四核的单机processor.Here是我的理解火花如何在这里实现并行根据步骤2中的分区大小，它将生成线程。如果有3个分区，它将生成三个线程。

浏览 3提问于2017-06-13得票数 0

2回答

NullPointerException在Scala Spark中，似乎是由集合类型引起的？

、

sessionIdList的类型为：res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct:20:46 ERROR Executor: Exception in task ID 80 at org.apache.spark.rdd.RDD.filter= null) kDis

浏览 0提问于2014-05-22得票数 14

回答已采纳

1回答

Rdd持久性如何支持容错

、

我想了解spark的rdd持久性是如何帮助容错的。假设我的集群中有3个节点，即N1、N2、N3。我以Rdd1->Rdd2->Rdd3的形式执行spark任务(转换映射)。我已经持久化了rdd2(在rdd3计数上它是第一次成功)。在持久化方面，假设它有6个分区，我的每个节点都有2个分区，在持久化方面，它们在RAM(内存中)中。现在，在第二次调用Rdd3.count()时

浏览 0提问于2018-01-31得票数 1

1回答

添加到字符串Spark列表

、、、、

我有以下Java Spark代码： //do some operations rdd.foreach(msg -> {//Kafka messages writeJsons(jsonList);/&

浏览 1提问于2018-07-05得票数 2

1回答

"spark.memory.fraction“似乎没有任何效果

、、

在Spark中，当从函数中从HDFS读取大约1GB的字符串时，我会得到java.lang.OutOfMemoryError: Java heap space错误。不过，我使用的执行器内存是6GB。为了增加用户内存，我甚至将spark.memory.fraction减少到了0.3，但仍然会出现相同的错误。似乎降低这一价值没有任何影响。我正在使用星火1.6.1和编译与星火1.6核心库。

浏览 2提问于2016-10-22得票数 11

回答已采纳

1回答

如何优化大窗口上的窗口聚合？

、、

WIth没有进一步的配置，我必须为我的执行程序分配大量内存以避免这个OOM：at org.apache.spark.rdd.RDD

浏览 6提问于2020-01-15得票数 4

1回答

在RDD中展平Scala Map

、

我有一个RDD，看起来像这样：如何在RDD中展平地图以获得以下结果： org.apache.spark.rdd.RDD[(Long, String, Double)]

浏览 3提问于2015-04-24得票数 3

1回答

火花-火花RDD是一个逻辑集合的指令？

、、

快速浏览一下面向初学者的非常有趣的Apache体系结构指南，如本所示，我遇到了一些关于RDD处理的查询，如下所示，让存储在hdfs中的20 GB的文件由spark应用程序处理。该文件将在hadoop集群中分发以进行存储。那么，如果Datanode拥有3个大小为192 MB的块，那么这3个块将在dataNode A的同一个执行器

浏览 1提问于2016-08-18得票数 1

回答已采纳

1回答

火花执行器由于GC开销限制而丢失，即使使用20个执行器每个使用25 GC。

、

我有20个执行者使用25 GB，我完全不明白它怎么能抛出GC开销，我也不是那个大数据集。一旦这个GC错误发生在执行器中，它就会丢失，其他执行程序也会慢慢丢失，因为IOException、Rpc客户端断开、洗牌找不到等等。 at org.apache.spark.rdd.MapPar

浏览 0提问于2015-08-18得票数 1

回答已采纳

2回答

如何为Scala中的函数分配不同的返回类型？

、、、

我已经重写了Scala中的"+ -/ *“以供我的特定用途。每个实现( +，-，*，/)都有三个基于输入的实现。现在，我有了一个解析器，它从输入(如: RDD+1 )读取表达式，解析它并创建后缀，以使计算更容易，比如: RDD1+，然后我想使用实现的+进行计算。在的帮助下，我试图对其进行修改，使其能够根据我的输入表达式执行计算。[(Int, Array[Float])])org.apache.spark.rdd.RDD[(

浏览 3提问于2015-07-02得票数 0

回答已采纳

1回答

不使用迭代scala获取列表中的所有元素

、、、

我在spark中工作，我必须从List的元素创建RDD(Double，Doubleval list1: List[Double] = List(16.0,5.0)val rdd= sc.parallelize (Seq(list1))val <e

浏览 16提问于2018-01-29得票数 0

2回答

Apache星火库中的转换过程

、

转换基于现有的RDD创建新的RDD。基本上，RDDs是不可变的，而Spark中的所有转换都是惰性的。RDDs中的数据在执行操作之前不会被处理，但是如果不处理数据，如何创建新的RDDs？例如，在filter操作中，如何在不实际将RDD加载到内存并进行处理的情况下创建新的RDD？

浏览 2提问于2016-09-03得票数 4

回答已采纳

1回答

坚持Spark* 2.0指的是什么？*

、

我有一个RDD，rdd = sc.Textfile(file.txt)，我调用rdd.persist()，然后重新分配它：rdd = rdd.filter(lambda x: 'hi' in x)。现在是将sc.Textfile(file.txt)持久化在内存中，还是将rdd.filter(lambda x: 'hi' in x)持久化？

浏览 0提问于2018-02-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在使用PySpark时，如何在Spark中实现Python数据结构？

spark dataframe到rdd的转换需要很长时间

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

无法理解scala操作是如何在Apache spark中运行的

如何在pyspark dataframe中将groupby转换为reducebykey？

在foreachRDD中执行rdd.count()会将结果返回给驱动程序还是执行器？

在这种情况下，火花是如何内部工作的？

NullPointerException在Scala Spark中，似乎是由集合类型引起的？

Rdd持久性如何支持容错

添加到字符串Spark列表

"spark.memory.fraction“似乎没有任何效果

如何优化大窗口上的窗口聚合？

在RDD中展平Scala Map

火花-火花RDD是一个逻辑集合的指令？

火花执行器由于GC开销限制而丢失，即使使用20个执行器每个使用25 GC。

如何为Scala中的函数分配不同的返回类型？

不使用迭代scala获取列表中的所有元素

Apache星火库中的转换过程

坚持Spark* 2.0指的是什么？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐