在Spark中循环scala列表

、

我有一个scala列表，如下所示。${tgtTbl}") 代码中的以下命令基于partList中存在的event_date上的过滤条件创建数据帧。existingTable).filter(s"event_date in ('${partList.mkString("','")}')") 由于它正在创建包含大量数据的dataframe，因此我希望循环partlist中的每个日期，并将数据读取到dat

浏览 11提问于2021-10-26得票数 0

回答已采纳

1回答

从java.util.List转换到spark数据集

、

我仍然是非常新的火花和scala，但非常熟悉Java。我有一些java，它的函数返回一个整数列表(java.util.List)，但是我希望将它们转换为一个火花数据集，这样我就可以将它附加到另一个列中，然后执行一个联接。有什么简单的方法吗？Integer]()testDSArray.add(7) val testDS : Dataset[Integer] = spark.createDataset

浏览 0提问于2019-01-28得票数 0

回答已采纳

2回答

spark (java) -打开的文件太多

我正尝试在spark2中运行一个批处理作业，它接受一个巨大的列表作为输入，并在该列表上迭代以执行处理。(IndexShuffleBlockResolver.scala:144) at org.apache.spark.sc

浏览 0提问于2017-06-22得票数 0

1回答

在spark中使用forEach Iterator时的空指针异常

、、、、

(Iterator.scala:1336)，org.apache.spark.rdd.RDD$$anonfun$foreach$1$$anonfun$apply$28.apply(RDD.scala:918)，org.apache.spark.rdd.RDD$$anonfun$foreach$1$$anonfun$apply$28.apply(RDD.scala:918)，org.apache.spark.SparkContext$$anonfun$runJob$5.在

浏览 2提问于2020-04-07得票数 0

1回答

从scala中的for循环向ArrayBuffer中添加元素

、

import scala.collection.mutable.ArrayBuffer spark.sql("set table=member_testtempArray += tempprintln(temp) // getting blank string 嗨，我是scala我尝试遍历一个数据

浏览 72提问于2020-09-15得票数 0

回答已采纳

1回答

前环内火花NullPointerException

、、、、

我有RDD，我想循环它。<init>(RDD.scala:125) at org.apache.spark.rdd.PairRDDFunctions.cogroup(PairRDDFunctions.scala:651) at org.apache.spark.rdd.PairRDDFunc

浏览 0提问于2014-10-27得票数 1

回答已采纳

1回答

为什么在流数据集中使用缓存会导致"AnalysisException:必须用writeStream.start()执行流源查询“而失败？

、、、、

readStream .json("src/test/data") .writeStream .awaitTerminationat org.apache.spark.sql.execution.QueryExecution.withCachedData(QueryExecutio

浏览 1提问于2017-02-06得票数 13

回答已采纳

2回答

星星之火:写入数据时“请求的数组大小超过VM限制”

、、、、

我在AWS EMR集群上运行此作业，其组成如下：核心:1 r3.4×32 vCore，122个GiB内存 spark-shell --conf spark.driver.memory=40G --conf spark.driver.maxResultSize=25G，其中包含这些对象的列表。，并将其添加到一行

浏览 0提问于2018-03-30得票数 0

1回答

如何在Pandas数据转换过程中处理时间戳类型？

、、、、

我看了一下“createDataFrame”()中的pyspark源代码，它们似乎将数据转换为numpy记录数组，并将其转换为列表： at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) at org.apache.spark.rdd.MapPartitionsRDD.computejava.util.co

浏览 2提问于2017-07-25得票数 5

1回答

由于较长的RDD沿袭而导致的堆栈溢出

、、

我在HDFS中有数千个小文件。需要处理一个稍微小一点的文件子集(同样是以千为单位)，fileList包含需要处理的文件列表。.map(line => (filePath, line)) //一旦退出循环org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) at org

浏览 0提问于2015-12-25得票数 18

回答已采纳

1回答

forEach循环中的任务不可串行化异常

、、、

我试图在JavaPairRDD上迭代并使用JavaPairRDD的键和值执行一些计算。然后将每个JavaPair的结果输出到processedData列表中。我已经尝试过的内容： make变量，在lambda函数静态内部使用。生成方法，我从lambda foreach循环静态调用。(SparkContext.scala:1623)at org.apa

浏览 0提问于2018-03-15得票数 2

回答已采纳

1回答

PySpark -使用df.select(*column_list)后错误"IndexOutOfBoundsException: No group 2“

、、

它所做的就是输出一个列列表(在源DataFrame中找到)。我调用这个排序列名列表col_list，并使用它作为df.select()的参数。df = df.select(*col_list)org.apache.spark.SparkExceptionYes，的，它是一个真正的列表，并且它不是nested.Do -- col_list中的

浏览 11提问于2022-04-13得票数 0

1回答

用Pyspark内核读取Jupyter notebook中的Spark Avro文件

、、

我想在Jupyter笔记本上读一个Spark Avro文件。它能够在浏览器中打开jupyter笔记本，然后我可以运行以下命令，它可以正确读取。例如，如果我必须使用Spark-csv包，我就会这样做在终端中，它打开了一个jupyter笔记本电脑与火花-csv封装。我不需要特别为spark-csv给出包命令。我已经在配置设置中将iphython/jupyter

浏览 10提问于2017-02-07得票数 1

回答已采纳

3回答

从数据集行中选择列

、、

我想在Spark数据集上循环，并根据每行的特征将特定值保存在Map中。我是Spark和Scala的新手，所以我加入了一个简单的例子来说明我在python中要做的事情。python中的最小工作示例：for row in data: mydict[row['id']] = row[

浏览 15提问于2019-10-22得票数 0

回答已采纳

1回答

Xgboost4j - java.lang.NoClassDefFoundError: scala/产品$class错误

、、、

我在这里运行示例代码来训练xgboost模型：https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html 我已经在集群中安装了以下jar文件：https://mvnrepository.com/artifact/ml.dmlc/xgboost4j-spark/0.90 https://mvnrep

浏览 90提问于2021-09-08得票数 1

7回答

如何在spark的数据中“负选择”列

、、、

="B")) 结果：我做错了什么？

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

Pyspark中的循环导致sparkException

、、、

在我找到正确的方法之前(Last over A Window)，我有一个循环，它将前一行的值逐个扩展到它自己(我知道循环是不好的做法)。为了避免这个错误(在我发现最后一个命令之前)，我让这个循环运行了几百次，以获得一个中点condition=1000，并转储结果。(DAGScheduler.scala:2200) at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)

浏览 25提问于2019-08-30得票数 0

回答已采纳

1回答

Spark Twitter流媒体

、、

我是Spark和Scala的新手。我写了一个使用Spark Streaming在Twitter上获取标签或推文的程序。twitter4j.oauth.accessTokenSecret", accessTokenSecret); val h

浏览 1提问于2015-12-20得票数 0

1回答

IllegalArgumentException +Spark1.6

我在CDH5.7上运行Spark1.6.0，并将我的原始应用程序从1.4.1升级到1.6.0。(SparkSubmit.scala) 我已经为驱动程序(和执行器)类路径尝试了完全路径，但这也给了我同样的问题。从源代码中我看到，唯一没

浏览 2提问于2016-10-05得票数 0

1回答

有没有一个与Scala的Seq.fill()等同的高效的PySpark/Python？

、、

下面的Scala代码基本上就是我想要的，但是我找不到一种在PySpark中复制seq.fill()的有效方法。def randomStringGen(length: Int) = scala.util.Random.alphanumeric.take(length).mkString val df = sparkContext.parallelizerandomStringGen(4), randomStringGen(4), randomStringGen(6))}, 10).toDF("col_1"

浏览 0提问于2021-08-06得票数 1

点击加载更多