使用Scala计算spark的平均误差

使用Scala计算Spark的平均误差可以通过以下步骤实现：

导入必要的Spark相关库和函数：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("Average Error Calculation")
  .getOrCreate()

读取数据源并创建DataFrame：

val data = spark.read.format("csv")
  .option("header", "true")
  .load("path/to/data.csv")

其中，"path/to/data.csv"是数据源文件的路径。

对数据进行处理和转换，计算误差：

val calculatedError = data.withColumn("error", abs(col("predicted_value") - col("actual_value")))

这里假设数据源中有"predicted_value"和"actual_value"两列，分别表示预测值和实际值。

计算平均误差：

val averageError = calculatedError.agg(avg("error")).first().getDouble(0)

打印平均误差：

println("Average Error: " + averageError)

以上是使用Scala计算Spark的平均误差的基本步骤。在实际应用中，可以根据具体需求进行更复杂的数据处理和计算。对于Spark的更多功能和用法，可以参考腾讯云的Spark产品文档：Spark产品介绍。

Apache火花简单连接会导致密码错误。

、、

我有两个数据集，可以单独查询和显示()。一张有17张唱片，另一张有3张。 Dataset<Row> attReader = spark .read() .format("org.apache.spark.sql.cassandra") .option("table", "table_1") .load(); Dataset<Row> surReader = spark .read() .format("org.apache.spark.sql.cassandra&#

浏览 0提问于2018-10-08得票数 0

回答已采纳

1回答

火花-外壳不工作安装apache火花。错误:系统找不到指定的路径

、、、、

我安装了Apache，还安装了java和python。按照本文设置环境变量：我还安装了winutils.exe。一开始，我收到了一个错误，比如：缺少默认为‘C：\spark\bin.’的Python可执行文件对于SPARK_HOME环境变量。请在PYSPARK_DRIVER_PYTHO N或PYSPARK_PYTHON环境变量中安装Python或指定正确的Python可执行文件，以安全地检测SPARK_HOME。为了解决这个问题，我添加了一个环境变量名: PYSPARK_DRIVER_PYTHON值: C:\Program \Python310 310 现在，在终端上，C：\spark\b

浏览 5提问于2022-06-03得票数 0

1回答

如何在sparkcontext.parallelize(.......).map()内部执行配置单元查询？

、

我无法执行下面的代码。此代码尝试在SparkContext runJob()方法中使用SparkSession从配置单元表执行配置单元查询。 val lines = sparkSession.sparkContext.parallelize(Seq("hello world"),1) sparkSession.sparkContext.runJob(lines, (t: TaskContext, it: Iterator[String]) => { val conf = new SparkConf().setAppName("Testing") val

浏览 4提问于2018-12-17得票数 1

4回答

窗口上的星星之火-初始化SparkContext时出错，Spark无效

、、

我试图在Windows8.1上运行Apache，当我调用shell命令时，我得到了以下堆栈： C:\spark\spark-2.3.0-bin-hadoop2.7\bin>"C:\new\spark\spark-2.3.0-bin-hadoop2.7\bin\spark-submit2.cmd" --class org.apache .spark.repl.Main --name "Spark shell" 2018-04-17 20:30:21 WARN NativeCodeLoader:62 - Unable to load native-hadoo

浏览 0提问于2018-04-17得票数 0

1回答

不是环境问题: Py4JJavaError:调用Py4JJavaError时发生了错误

、

我试图处理"“中的数据 # the session declearation in order to use toDF() import pyspark from pyspark.sql import SparkSession from pyspark.storagelevel import StorageLevel spark = SparkSession.builder \ .appName("dbscan") \ .config("master","local[4]") \ .en

浏览 16提问于2022-10-07得票数 0

回答已采纳

1回答

为什么DataFrame.stat.approxQuantile在n个任务的序列化结果(1030.8 MB)的大小大于spark.driver.maxResultSize时失败？

、、

val postsQuantiles = posts.stat.approxQuantile("_score", Array(0.25, 0.75), 0.0)失败，有以下错误。显然，我可以设置spark.driver.maxResultSize来克服这个错误，但是我很好奇为什么会收集数据给驱动程序呢？ [Stage 3:==================> (7 + 15) / 22]19/06/01 20:46:30 ERROR TaskSetManager: Total size of se

浏览 0提问于2019-06-02得票数 1

回答已采纳

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

、

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

1回答

火花机学习: RDD变得不可读

、、、

我正在尝试将向量数据类型提供给一个名为mllib的Word2Vec函数。当Word2Vec返回一个包含所需向量的“结果”列的DataFrame时，需要一些代码。最后，当代码在Spark中成功运行时，我尝试使用.foreach来println几行代码。火花在这一步崩溃，有以下错误：NullPointerException。如果删除println命令，代码将运行良好。我试过使用RDD的示例方法，但同样的火花错误出现了。不知何故，RDD变得不可读了。若要了解此ML任务的背景，请参阅此。 import org.apache.spark._ import org.apache.spark.rdd._

浏览 0提问于2018-03-19得票数 1

回答已采纳

2回答

Spark:迭代过大抛出stackoverflowError时的PageRank示例

、、、

我测试了spark默认PageRank示例，并将迭代设置为1024，然后它抛出stackoverflowerror。我在我的另一个program.How中也遇到了这个问题，我能解决它吗？ object SparkPageRank { def main(args: Array[String]) { if (args.length < 3) { System.err.println("Usage: PageRank <master> <file> <number_of_iterations>") Syst

浏览 3提问于2014-03-11得票数 8

1回答

将DataSourceRegister保存为cvs时触发2.0 DataFrame配置错误

、、、、

我试图在Spark2.0，Scala2.11(从Spark1.6迁移代码的过程)中将一个数据帧保存到cvs中。 sparkSession.sql("SELECT * FROM myTable"). coalesce(1). write. format("com.databricks.spark.csv"). option("header","true"). save(config.resultLayer) 火花会话的构建是否正确？ implicit val sparkSe

浏览 3提问于2017-01-06得票数 4

1回答

Scala:星星之火用于拟合多项式曲线，got“类型(char[])不能转换为字符串类型”错误

、、、

我试图在类似于下面的星火数据框架上进行多项式曲线拟合(使用Spark版本2.4.0.7.1.5，ScalaVersion2.11.12 (OpenJDK 64位服务器VM，1.8.0_232))。我为此编写了一个联非新议程，它可以注册，但在运行时得到一个错误。我是斯卡拉和联非新议程的新手。你能帮我看看我的功能，看看它有什么问题吗？谢谢, 示例df val n = 2 val data = Seq( (1,80.0,-0.361982467), (1,70.0,0.067847447), (1,50.0,-0.196768255), (1,40.0,-0.135489192)

浏览 21提问于2022-04-07得票数 0

回答已采纳

1回答

Spark streaming 2.11 - java.util.NoSuchElementException:执行SQL函数时出现None.get错误

、、、、

问题我正在使用Spark来连接CSV文件的内容。在我做了第一个join之后，使用流式CSV文件，我能够没有错误地写入流，并且可以看到它有很多行被输出，但是一旦我尝试写入我的第二个流，我就会得到一个错误消息。代码 SparkSession spark = SparkSession .builder() .appName("MySparkApp") .config("spark.master", "local") .getOrCreate(); Da

浏览 269提问于2018-07-17得票数 3

3回答

火花-卡桑德拉-连接器火花误差

、、、

我试图与卡桑德拉-梅索斯-火花一起工作，我想问一下是否有人能帮我解决这个错误，我用了火花2.2试连接器1.6.11和其他，但我不知道为什么我要得到这个。环境： spark-2.3.0-bin-hadoop2.7.tgz datastax:spark-cassandra-connector:2.0.7-s_2.11 scala 11 Mesos簇 Python应用程序代码： import sys from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext sp_c

浏览 2提问于2018-04-07得票数 0

1回答

退出状态：-100。诊断:容器在丢失节点上释放

、、、

我有两个输入文件(一个在JSON中，另一个在parquet中)，我试图在这两个大数据帧上做一个连接，并将连接的数据帧写入s3(作为JSON)。该作业将永远停滞不前(将联接的JSON写入s3)。我使用的是70 r3.4xlarge (从)。 df1.rdd.partitions.size = 34234 (大小约4 TB) df2.rdd.partitions.size = 1200 (大小约58) 我已经尝试过了，但仍然没有改进：最大资源设置为真正静态分配的动态分配: spark.executor.cores =5 spark.executor.memory = 40G spark.exec

浏览 0提问于2019-02-12得票数 1

2回答

Greenplum Spark Connector org.postgresql.util.PSQLException:错误:将数据写入gpfdist时出错

、、、

我在Azure上有一个Greenplum集群，我正尝试从本地计算机使用spark连接到该集群(使用Pivotal Greenplum Spark Connector)。我在我的scala代码中做了这样的事情： var options = Map[String, String]() options += ("url" -> url) options += ("user" -> credential("user")) options += ("password" -> credential("passwo

浏览 134提问于2020-03-25得票数 0

1回答

spark中的分区和自定义分区中的重新分区和排序以及spark中的数组越界异常

、

6我尝试实现了所解释的东西。当我在自定义分区中保持分区数等于1时，它是有效的，但当我更改它时，保留任何其他值，它会给出超出边界的数组异常 Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 6, deenbandhu): java.lang.ArrayIndexOutO

浏览 2提问于2016-06-10得票数 2

1回答

sparkR : sparkException on createDataFrame

、、

我正在尝试使用RStudio运行示例dataframe示例。我有以下代码： Sys.setenv(SPARK_HOME = "C:\\Users\\himanshu.babbar\\Desktop\\Babbar\\Softwares\\spark-1.6.0-bin") Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.11:1.2.0" "sparkr-shell"') .libPaths(c(f

浏览 1提问于2016-03-03得票数 1

回答已采纳

1回答

在groupBy之后过滤数据并在Pyspark中使用用户定义聚合函数将导致java.lang.UnsupportedOperationException。

、、、、

我在编写代码时发现了一些奇怪的错误。在调用groupBy函数和agg函数之后，我想从剩余的数据中过滤一些数据，但它似乎不起作用。我的示例代码如下。 >>> from pyspark.sql.functions import pandas_udf, PandasUDFType, col >>> df = spark.createDataFrame( ... [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ... ("id", "v")) >>&

浏览 0提问于2019-07-22得票数 0

1回答

当jar在HDFS中时，Spark作业不运行

、、

我正尝试在独立模式下运行spark作业，但是命令没有从HDFS文件中拾取，jar文件存在于HDFS.The位置，并且当我在本地模式下运行它时，它工作得很好。下面是我正在使用的命令 spark-submit --deploy-mode client --master yarn --class com.main.WordCount /spark/wc.jar 下面是我的程序： val conf = new SparkConf().setAppName("WordCount").setMaster("yarn") val spark = new S

浏览 52提问于2019-01-19得票数 0

回答已采纳

1回答

与星火DataSource API V2蜂巢串流水槽发生故障的抵消

、、、、

我使用接收器将Spark2.3结构化流DataFrame保存到带有的Hive表中。代码如下。 val df = spark.readStream.format("socket").option("host", "localhost").option("port", 19191).load().as[String] val query = df.map { s => val records = s.split(",") assert(records.length >= 4) (rec

浏览 0提问于2018-05-23得票数 1

回答已采纳

3回答

LogesticRegression fit()函数正在抛出此错误

、、

我在跟踪，当我执行以下行时，会得到这个错误 best_lr = lr.fit(training) 误差 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-102-88042cb88c20> in <module>() ----> 1 best_lr = lr.fit(training)

浏览 0提问于2018-12-04得票数 0

2回答

火花连接器错误:警告NettyUtil:找到Netty的本地epoll传输，但不在基于linux的操作系统上运行。使用NIO代替

、、、、

这是我的规格： Casssandra版本: 3.0.0 操作系统: Mac 10.10.5 火花版本: 1.4.1 上下文：我在Cassandra中创建了一个键空间的“电影”和一个表"movieinfo“。我按照这个的指导安装和组装了一个jar文件。我编写了一个小脚本(下面)来测试我的连接： scala> sc.stop scala> import com.datastax.spark.connector._ import com.datastax.spark.connector._ scala> import org.apache.spar

浏览 0提问于2015-11-24得票数 7

回答已采纳

1回答

如何在齐柏林飞艇中用Spark sql查询spark StreamingContext？

、、、、

我正在尝试使用spark sql来查询来自kafka的数据，使用zeppelin进行实时趋势分析，但没有成功。下面是我在zeppelin中运行的简单代码片段 //Load Dependency %dep z.reset() z.addRepo("Spark Packages Repo").url("http://repo1.maven.org/maven2/") z.load("org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.1") z.load("

浏览 0提问于2016-12-03得票数 1

2回答

使用雪花火花连接器获得零指针异常

、、、

我有一个3节点的星系团。并尝试使用雪花火花连接器和jdbc驱动程序访问雪花。 jdbc:雪花-jdbc-3.12.4.jar火花-连接器:火花-雪花_2.11-2.7.0-火花_2.4.jar 这是我的代码： sfOptions = { "sfURL" : "{}.snowflakecomputing.com".format(ACCOUNT_NAME), "sfUser" : "{}@fmr.com".format(USER_ID), "sfAccount" : "{}".format(

浏览 4提问于2020-04-26得票数 2

1回答

火花。~1亿行。大小是否超过Integer.MAX_VALUE？

(这是在一个三台机器的小型Amazon EMR集群上运行的Spark 2.0 ) 我有一个PySpark作业，它将一些大的文本文件加载到Spark RDD中，count()成功返回158,598,155。然后，该作业将每一行解析为一个pyspark.sql.Row实例，构建一个DataFrame，并执行另一次计数。DataFrame上的第二个count()在Spark内部代码Size exceeds Integer.MAX_VALUE中导致异常。这适用于数据量较小的情况。有人能解释一下为什么/怎么会发生这种情况吗？ org.apache.spark.SparkException: Job a

浏览 0提问于2016-08-16得票数 3

1回答

火花误差-十进制精度39超过最大精度38

、、

当我试图从收集数据时，我会得到一个错误声明 "java.lang.IllegalArgumentException:要求失败:十进制精度39超过最大精度38“。 Spark数据中的所有数据都来自Oracle数据库，在那里，我相信十进制精度小于38。有什么办法可以做到这一点，而不修改数据？ # Load required table into memory from Oracle database df <- loadDF(sqlContext, source = "jdbc", url = "jdbc:oracle:thin:usr/pass@ur

浏览 7提问于2017-05-23得票数 9

1回答

存储到S3时，Apache Hudi抛出数据集未找到异常

、

我正在尝试将一个简单的数据帧作为Hudi数据集加载到S3中，但我在这样做时遇到了麻烦。我是Apache Hudi的新手，我正在尝试通过在我的Windows机器上本地运行代码来加载数据。下面提到了我用来实现这一点的所有Maven依赖项以及代码和异常 inputDF.write.format("com.uber.hoodie") .option(HoodieWriteConfig.TABLE_NAME, tablename) .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "GameId") .opti

浏览 1提问于2019-09-16得票数 0

1回答

Apache : Master删除了我们的应用程序:在大型RDD上使用saveAsTextFile时失败

、

我在一台有4GBRAM和2个核的机器上加载一个20 GB的文件，在一个4GBRAM和2个核的机器上，做一些处理，然后尝试使用saveAsTextFile将结果保存到一个文本文件中(用于测试)。如果我从原始输入文件中手动提取几千行代码并在其上运行代码，它的工作方式就像一个魅力，从而产生预期的部分-xxxxx文件。但是，如果我提供整个20 as文件作为输入，它将很好地开始，然后挂在进程的某个地方，当让它在夜间运行时，它将在上午失败，其中包含以下消息： Py4JJavaError: An error occurred while calling o219.saveAsTextFile. : or

浏览 13提问于2015-04-30得票数 0

2回答

org.apache.spark.SparkException:不可序列化的错误任务

、、、

..。 val cols: Seq[String] = Seq("item", "SR", "RP") val vecToSeq = udf((v:org.apache.spark.ml.linalg.Vector) => v.toArray) val exprs = cols.zipWithIndex.map{ case(c,i) => $"_tmp".getItem(i).alias(c)} val DoubleDF = result5.select(vecToSeq($"vectorCol").

浏览 0提问于2017-02-28得票数 0

6回答

如何计算星火数据表中的列数？

、、、

我在星火中有这个数据，我想计算其中可用列的数量。我知道如何计数列中的行数，但我希望计数列数。 val df1 = Seq( ("spark", "scala", "2015-10-14", 10,"rahul"), ("spark", "scala", "2015-10-15", 11,"abhishek"), ("spark", "scala", "2015-10-16", 12,"J

浏览 0提问于2018-07-27得票数 17

回答已采纳

1回答

无法连接到EC2中的火花放电集群

、、

我遵循了斯派克网站上的指示，在我的亚马逊上运行了1名主人和1名奴隶。但是，我无法使用pyspark连接到主节点我可以使用SSH连接到主节点，没有任何问题。这是我的命令火花-EC2-键对=图形-集群-标识-文件=/Users/..ssh/pem.pem-区域=Users 1-zone=us-east-1a启动图-集群我可以去看到星火已经启动并运行，我也看到了这个火种大师 spark://ec2-54-152-xx-xxx.compute-1.amazonaws.com:7077 但是，当我运行命令时 MASTER=spark://ec2-54-152-xx-xx.compute-1.am

浏览 2提问于2015-09-16得票数 2

回答已采纳

1回答

ModuleNotFoundError在PySpark Worker上的rdd.collect()

、、、

我在python中运行一个Apache程序，我收到了一个错误，我无法理解，也无法开始调试。我有一个驱动程序，它在一个名为hound.py的文件中定义了一个名为hound的函数。在同一个目录中，我有一个名为hound_base.py的文件，它定义了一个名为hound_base_func的函数。因此，为了将其称为猎犬，我导入“从hound_base导入hound_base_func”。这是可行的，我调用这个函数并传递一个。hound_base_func将其作为参数，对其底层的rdd进行一些工作，并调用rdd.collect()。这实际上会导致代码崩溃，错误消息是"ModuleNotFoun

浏览 1提问于2018-06-14得票数 7

回答已采纳

1回答

火花镶嵌:在推断架构为java.lang.IllegalArgumentException时出现问题:无效的小数位数：-1

、、、

Spark版本2.4.0集群: AWS EMR 我正在将tsv.gz输入文件读入到spark dataframe中，当尝试将其存储回来时，无论是否进行一些转换，如果推断模式为真，则会得到如下所示的异常。 tsv_data = spark. \ read. \ format("csv"). \ option("delimiter", "\t"). \ option("header", "true"). \ option("inferSchema", "t

浏览 3提问于2019-09-04得票数 1

1回答

火花作业陷入局部模式

我正面临一个问题，我的火花工作被困在当地，而运行在IntelliJ的想法。我的工作一直持续到一个阶段，比如完成200个任务中的199个，或者完成3个任务中的一个，然后被困在那里。我试图在IDE中使用评估表达式查看正在发生的事情，并注意到了一个奇怪的问题。如果我使用的是myDf.rdd.map(r => r).cache() java.io.IOException: Class not found at org.apache.xbean.asm5.ClassReader.a(Unknown Source) at org.apache.xbean.asm5.ClassReader.<

浏览 1提问于2018-03-15得票数 1

1回答

向EC2集群提交作业时的超时

、、

到目前为止，我一直试图在没有运气的情况下完成这项工作。我启动一个集群 ./spark-ec2 -k keyname -i ~/.keys/key.pem --region=us-east-1 -s 5 launch "my test cluster" 然后我提交一份工作 bin/spark-submit --verbose --class com.company.jobs.AggregateCostDataWorkflow --master spark://ec2-54-157-122-49.compute-1.amazonaws.com:7077 --deploy-mode

浏览 5提问于2015-06-06得票数 0

回答已采纳

1回答

PySpark和Jupyter中的Collect()出错--notebook

、、、

我正在学习如何使用PySpark和Jupyter-notebook进行编程。在第一个例子中，我得到了一个我不理解的错误。我已经在C:\ProgramFiles\Java\jdk1.8.0_201文件夹中安装了Java。由于我了解到如果Java安装文件夹名中有空格可能会产生问题，因此我将其安装在上面提到的文件夹中。Java的版本是8。我按照安装了Spark，并配置了不同的变量 import findspark findspark.init() from pyspark import SparkContext sc = SparkContext(master="local[4]&

浏览 1提问于2019-01-31得票数 0

1回答

对pyspark dataframe执行重复数据删除时遇到内存错误

、

我对pyspark还是个新手，在对数据帧进行重复数据删除时遇到了问题。我的数据帧中有3个字段: PersonId、PlaceId和ThingId。下面是一个示例： PersonTest = [1,1,2,2,2,3,4] PlaceTest = [['A', 'B'],['A', 'B', 'C'],['C'],['C','D','E','F'],['C','D','F'],['

浏览 10提问于2020-09-02得票数 1

回答已采纳

2回答

无法在56 local空闲的PySpark本地模式下加载25 to数据集

、、、、

I在本地模式下，在12核/64 12内存.的单台机器上加载和处理25 12的Parquet数据集( stackoverflow.com posts)时遇到困难。我的机器上有比Parquet数据集大小更多的空闲内存和分配给pyspark的内存(更不用说数据集的两列)，但是加载DataFrame后，我无法在它上运行任何操作。这太让人困惑了，我不知道该怎么办。具体来说，我有一个25 is的Parquet数据集： $ du -sh data/stackoverflow/parquet/Posts.df.parquet 25G data/stackoverflow/parquet/Posts.df

浏览 0提问于2019-07-01得票数 3

1回答

火花流访问天蓝色水珠

、、、、

我试图注册我的天蓝色的blob存储到我的火花流，但得到以下代码&错误：- 代码：- SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount"); JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.seconds(1)); ssc.textFileStream("wasb[s]://mycontainer@rtest.blob.core.windows.

浏览 2提问于2017-09-21得票数 0

2回答

Pyspark -无法在hadoop二进制文件路径中找到winutils二进制文件

、、

我正在尝试集成pyspark和python2.7 (Pycharm IDE)。我需要运行一些巨大的文本文件。这就是我正在做的事情。下载Spark (2.3.0-bin-hadoop-2.7)并解压，安装JDK 然后我尝试运行这个脚本 spark_home = os.environ.get('SPARK_HOME'，无) os.environ"SPARK_HOME“= "C:\spark-2.3.0-bin-hadoop2.7”从pyspark导入SparkContext，SparkConf从pyspark.sql导入SparkSession conf = S

浏览 0提问于2018-06-01得票数 5

2回答

当联合大量的RDD抛出堆栈溢出错误时引发火花

、

当我使用"++“来组合大量的RDDs时，我得到的是错误堆栈，而不是流错误。火花版本1.3.1环境:纱线-客户端。-驱动器-内存8G RDDs的数量超过4000。每个RDD从大小为1GB的文本文件中读取。它就是这样产生的。 val collection = (for ( path <- files ) yield sc.textFile(path)).reduce(_ union _) 当files的尺寸很小时，它可以很好地工作。这是个错误错误会重复发生。我想它是一个递归函数，调用时间太多了吗？ Exception at org.apache.spark.rdd.RDD

浏览 6提问于2015-05-29得票数 15

回答已采纳

1回答

SparkContext在同伴对象中不可串行化

、、、

我目前正在尝试扩展一个使用Scala和Spark的机器学习应用程序。我使用的是我在Github上找到的Dieterich Lawson以前的一个项目的结构这个项目基本上使用SparkContext来构建一个训练样本块的RDD，然后对其中的每一个集执行局部计算(例如求解一个线性系统)。我遵循同样的方案，但是对于我的本地计算，我需要在每个训练样本块上执行local算法。为了做到这一点，我想使用来自mlLib的L算法，该算法具有以下签名。 runLBFGS(RDD<scala.Tuple2<Object,Vector>> data, Gradient gradient,

浏览 4提问于2015-07-16得票数 6

回答已采纳

1回答

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob.时出错ModuleNotFoundError:没有名为“numpy”的模块

、、、、

有人能帮助解决这个问题吗？它没有显示名为'numpy‘的模块，但我已经在笔记本中安装并导入了它。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 223.0 failed 1 times, most recent failure: Lost task 0.0 in stage

浏览 118提问于2019-12-03得票数 0

2回答

Amazon : rdd.distinct.count()传真

、、、、

我目前正在使用一个连接到RDS的EMR集群来收集两个表。创建的两个RDD相当庞大，但我可以执行其他的.take(x)操作。我还可以执行更复杂的操作，例如： info_rdd = somerdd.map(lambda x: (x[1], x[2])).groupByKey().map(some_lambda) apps_rdd = apps.join(info_rdd).map(lambda x: (x[0], (x[1][0], x[1][1][0], x[1][1][1]))) 但是，执行以下操作来计算从RDS导入的不同用户的数量不起作用： unique_users = rdd.dist

浏览 2提问于2017-02-14得票数 2

回答已采纳

5回答

java.lang.OutOfMemoryError:无法获得100个字节的内存，获得0

、、、、

我使用以下命令在本地模式下使用Spark2.0调用Pyspark： pyspark --executor-memory 4g --driver-memory 4g 输入数据正在从tsv文件中读取，并且有580 Kx28列。我正在对dataframe做一些操作，然后我尝试将它导出到tsv文件中，我得到了这个错误。 df.coalesce(1).write.save("sample.tsv",format = "csv",header = 'true', delimiter = '\t') 任何关于如何消除这个错误的提示。我可以很容易

浏览 7提问于2016-08-15得票数 24

回答已采纳

1回答

我在Spark上使用PCA模型进行了降维，但它的错误如下：

、

16/01/13 15:34:07 INFO DAGScheduler: Job 3 finished: first at RowMatrix.scala:65, took 0.013421 s Exception in thread "main" java.lang.IllegalArgumentException: Argument with more than 65535 cols: 262144 at org.apache.spark.mllib.linalg.distributed.RowMatrix.checkNumColumns(RowMatrix.sca

浏览 0提问于2016-01-13得票数 0

1回答

斯卡拉星火- java.lang.UnsupportedOperationException: empty.init

、、、

我对scala和它的MLlib还不熟悉，目前我正在努力克服一个错误，我不知道为什么会发生这种错误。我有一个具有多个分区的RDD，其中包含这样的数据(来自RDD(#)的输出)： Array[TermDoc] = Array(TermDoc(142389495503925248,Set(NEU),ArrayBuffer(salg, veotv, día, largooooo)), TermDoc(142389933619945473,Set(NEU),ArrayBuffer(librar, ayudar, bes, graci)), TermDoc(142391947707940864,Set(

浏览 3提问于2017-03-13得票数 0

回答已采纳

1回答

用于加载RDD或捕获错误并创建RDD的Scala代码模式？

、

我想要加载RDD，或者，如果失败，创建RDD。我认为下面的代码可以工作，但是即使sc.textFile()在try块中，它仍然失败。我遗漏了什么，或者我如何正确地做到这一点？谢谢! // look for my RDD, load or make it val rdddump = "hdfs://localhost/Users/data/hdfs/namenode/myRDD.txt" val myRdd = try { sc.textFile(rdddump) } catch { case _ : Throwable => { println("

浏览 1提问于2014-08-14得票数 0

3回答

Django raise AppRegistryNotReady(“应用程序还没有加载。”)django.core.exceptions.AppRegistryNotReady:应用程序尚未加载

、、

我正在尝试使用pyspark对预测模型的数据进行预处理。当我从我的preprocessing.Is中尝试spark.createDataFrame时，我得到了一个错误，有没有办法在把它变成数据帧之前检查processedRDD的样子？ import findspark findspark.init('/usr/local/spark') import pyspark from pyspark.sql import SQLContext import os import pandas as pd import geohash

浏览 26提问于2019-10-24得票数 0

2回答

星星之火SQL:按DESC计数订购失败？

、

有一个包含这些书籍的books和readers两列的表，其中books和readers分别是图书ID和读者ID。当我试图按读者阅读的图书数量订购时，我得到了AbstractSparkSQLParser例外： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.log4j.Logger import org.apache.log4j.Level import org.apache.spark.s

浏览 0提问于2015-06-04得票数 1

回答已采纳