spark scala类型与groupbykey中的zipwithIndex不匹配

文章/答案/技术大牛

发布

1回答

、、

我正在尝试测试groupByKey，以找到某一科目的第n个最高分我的数据如下所示 scala> a | }).take(15).

浏览 14提问于2019-02-03得票数 0

回答已采纳

2回答

在星火中“by”和“`union`”后面跟着“`groupByKey`”的区别？

、、、、

我找不到一个很好的理由：应有别于：但是，后者给了我一个错误，而前者没有。如果绝对需要的话，我可以提供一个例子，但是我想从函数抽象的角度来了解。我问过的人都不能给我一个很好的解释。

浏览 2提问于2015-12-13得票数 0

回答已采纳

1回答

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

、、

不错的散文，但它真正意味着什么呢？这里是一个人为的琐碎例子，不管我是否将true或false传递给mapPartitions，对于新的RDD，每个分区的数据分区仍然是相同的，即使我改变了K，V的K值，那么，意义是什么呢？一定是我错过了一些基本的东西。import org.apache.spark.HashPartitionerdef myfunc(iter: Iterator[

浏览 0提问于2020-01-02得票数 2

回答已采纳

2回答

针对Scala中的某个特定ID向数据文件添加值

、、

我有以下数据：1 Ali swl3 Ahad khi以及(1，2，1)这样的值列表：我想在ID == 3中添加这些值。

浏览 3提问于2020-05-03得票数 0

回答已采纳

1回答

坚持编写一个多态转置函数，该函数接受并返回数组或Seqs/Vectors的RDDs

、、、

我正在重构一个与Spark接口的Scala库，以便在有意义的地方使用Vectors。我想提供直接与Spark接口的函数，可以使用数组或向量。其中一个函数是转置函数。然而，我似乎不能获得正确的类型签名来使类型推断工作。我尝试过用下面的方法定义函数签名，但这似乎行不通，而是在我以String Vector RDDs为例运行测试时，给出了以下关于类型推断的消息。def

浏览 19提问于2019-05-23得票数 0

1回答

Scala和Spark中的"zip“方法是什么？

、

在Scala、Spark和许多其他“大数据”-type框架、语言、库中，我看到了名为"zip*“的方法。例如，在Scala中，List类型有一个固有的zipWithIndex方法，您可以这样使用：for((name,i) <- listOfNames.zipWithIndex) { println(s"Names

浏览 0提问于2018-05-17得票数 1

回答已采纳

3回答

scala:用重载拉皮条库

、

}a foreach { (el, i) => println(el, i) }; 当我使用fsc 2.8.1编译它时，我得到以下错误：“错误的参数数目我是不是做错了什么，或者根本没有办法通过“给我的库拉皮条”来添加一个重载的方法？附注:我不想知道如何实现foreach的带有当前索引的迭代风格(我知道zipWithIndex方法)，而是想知道重载和隐式转换是如何一起发挥作用的。

浏览 1提问于2010-12-19得票数 2

回答已采纳

1回答

循环中的Scala计数器在运行时引发问题

我有以下在REPL中很好地工作的函数，本质上它所做的是检查模式的数据类型，并在我稍后将文件平铺和zipWithIndex时将其匹配到列： at org.apache.spark.de

浏览 1提问于2015-06-23得票数 0

回答已采纳

2回答

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。val rdd = df.rdd.zipWithIndex().map(indexedRow => Row.fromSeq(indexedRow._2.toString ++ indexedRow._1$$ano

浏览 4提问于2016-05-02得票数 0

回答已采纳

2回答

如何优化Spark的groupBy()操作

、、

我的问题是关于RDD上的groupBy()操作的选择/优化。我有数以百万计的Message实例，需要基于某些ID进行分组。我使用groupBy()来实现这个目标，但我知道这是一个昂贵的事实，需要大量的处理时间。因此，我尝试了reduceByKey(func)和combineByKey()作为一种替代方案，这是在我所使用的一些资源中提出的，但是它不适合于我的场景，在这种情况下，我的需求只是分组。但是我

浏览 4提问于2016-11-23得票数 1

回答已采纳

1回答

为什么我的星火应用程序不能运行"NoSuchMethodException: org.apache.spark.util.SystemClock"？

、、

我正在尝试使用Java而不是scala从apache流连接到Kafka。我收到以下错误： JavaStreamingContext jssc = new Jav

浏览 3提问于2017-06-28得票数 0

回答已采纳

3回答

星火Scala:无法从字符串转换为int，因为它可能会截断

、、

我玩星火的时候得到了这个例外。线程"main“org.apache.spark.sql.AnalysisException中的异常:不能将强制转换的price从string提升到int，因为它可能截断目标对象的类型路径：- field(class："scala.Int"，name：”scala.Int“)- root类："org.spark.code.executable.Ma

浏览 5提问于2017-07-31得票数 17

回答已采纳

1回答

Spark .toBlockMatrix得到的矩阵为0.0

、、、

我设法将数据从数据文件中读取并以IndexedRowMatrix和CoordinateMatrix格式存储。当我在.toBlockMatrix上使用CoordinateMatrix时，结果是一个只包含0.0的块矩阵，其维数与CoordinateMatrix相同。sc.textFile("/user/cloudera/data/data.txt").map(line => Vectors.dense(line.split(" ").map(_.toDoubl

浏览 2提问于2016-01-06得票数 2

回答已采纳

2回答

如何在KeyValueGroupedDataset上使用agg()并保持类型安全

、

我知道这个问题以前在这里发布过，但答案对我的情况并不满意。 How to use the agg method of Spark KeyValueGroupedDataset?实际上，这里发布的问题与给定的内容不一致，因为它围绕的是数据集及其组()函数，而不是KeyValueGroupedDataset。我正在尝试使用case类并保持类型安全。因此，在上面的例子中，答案不是类型安全的，而是在Dataframe上使用

浏览 51提问于2021-03-26得票数 1

回答已采纳

3回答

火花-如何减少洗牌大小的JavaPairRDD<Integer，Integer[]>？

、、、

groupByKey的动作给了我一个：从Spark2.0.0开始，当使用简单类型、简

浏览 4提问于2017-03-11得票数 6

回答已采纳

3回答

通过类型的大小写匹配根据SparkSQL中的类型转换值

、

在Scala中可以匹配参数类型吗？假设我有一个函数，它接收两个参数：value和type。我想使用模式匹配来进行类型转换。=> return BigDecimal(value)，我得到：错误:模式类型与预期类型不兼容；找到: org.apache.spark.sql.types.DecimalType.type必需:org.apache.spark.sql.types.Da

浏览 1提问于2016-01-06得票数 9

回答已采纳

1回答

java.lang.NoSuchMethodError: scala.Predef$.refArrayOps在Scala的火花工作

、、、、

完全错误：线程"main“java.lang.NoSuchMethodError: java.lang.NoSuchMethodError中的异常在org.spark_module.SparkModule第62行包含：for ((elem, i) <- args.zipWithIndex)。为了确定，我注释掉了其余的代码，并且错误一直显示在该行上。一开始我以为是zipWithIndex的错，然后我把它改成了for (elem <- args)，

浏览 0提问于2020-05-08得票数 4

1回答

为什么火花会因FetchFailed错误而失败？

、、、

我的星火作业是在一个小的事务数据集和一个大型事件数据集之间进行关联。我想根据时间和ID (事件时间和事务时间、ID和ID)将每个事务与最近的事件匹配。val groupRDD = event .groupByKeyreduce((v1,v2) => minDelay(b.dateTime,v1,v2)) SomeCl

浏览 2提问于2016-03-10得票数 2

1回答

SparkSession未使用almond Jupyter初始化

、、、

在spark.ipynb图像中，带有NotebookSparkSession的行上显示错误 import $ivy.`org.apache.spark::spark-sql:2.4.0` org.apache.spark.sql.ammonitesparkinternals.AmmoniteSparkSessionBuilder.getOrCreate(Ammo

浏览 19提问于2019-08-25得票数 1

3回答

星星之火:在集群模式下部署到OpenShift时的OpenShift

、、

我正试着向我的星火大师提交一份星火申请。主人和几个奴隶正在一个OpenShift环境中运行。星火主站的网络UI显示了连接的工人。spark-submit2.cmd --conf "spark.driver.extraClassPath=/jars" --conf &qu

浏览 1提问于2017-09-15得票数 4

回答已采纳

点击加载更多