在spark ML中，L代表种子值

、

我知道什么是种子值以及它是如何工作的，但我不知道在下面的例子中"L“代表种子值是什么： val splits = data.randomSplit(Array(0.6, 0.4), seed = 1234L

浏览 8提问于2017-08-24得票数 0

回答已采纳

1回答

现在使用set.seed与Sparklyr一起工作吗？

、、

上一次我和斯帕克利( Sparklyr )一起玩的时候(10月17日)，在和斯帕克利合作的时候，我遇到了使用set.seed的问题。我不知道到底是什么问题，而且我似乎在任何地方都找不到它的任何地方。

浏览 1提问于2018-02-04得票数 3

回答已采纳

1回答

流水线中的火花存取估计器

、

类似于，我想访问估计器，例如管道中的最后一个元素。这里提到的方法似乎不再适用于火花2.0.1。现在它是怎么工作的？

浏览 3提问于2016-11-11得票数 3

回答已采纳

1回答

带Sparklyr的矩阵数学

、、、

尝试开始使用Sparklyr扩展，但对Spark非常陌生，并且有问题:(第一步是使用linalg库创建一个对象：library(dplyr)cols <- as.integer(2) mat <- invoke_new(sc, "

浏览 2提问于2017-06-17得票数 14

回答已采纳

1回答

L1正则化在火花MLlib中的应用

、、、

默认情况下使用：L2正则化如何使用L1？

浏览 0提问于2016-06-05得票数 3

回答已采纳

1回答

在1.6中工作的火花毫升管道不能在2.0中工作。类型错配误差

、、、

所有，我有下面的代码，在Spark1.6中工作。import org.apache.spark.storage.StorageLevel._ import org.apache.spark.ml.Pipeline(Array.concat(discretizers.toArray, Array(assembl

浏览 0提问于2017-03-24得票数 1

回答已采纳

1回答

如何设置火花源初始中心

、、、、

我用Spark来运行Kmeans。我有大量的数据和三个现有的中心，例如，三个中心是：[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].我看到Kmean对象有种子参数，但是种子参数是一个长类型而不是数组。那么，我如何告诉Spark只使用现有的中心进行聚类。或者说，我不明白种子在星火中意味着什么，我认为种子应该是一个向量数组，它在运行聚类之前代表指定的中心。

浏览 0提问于2017-04-18得票数 3

回答已采纳

1回答

在星火图形X中创建图形

、、

我有spark 2.3，我在sbt中使用scala。我想用图形创建一个图形。这是我的代码：import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql._import org.apache.sp

浏览 0提问于2018-07-10得票数 0

回答已采纳

2回答

technique(nr) difficult cluster(id)令我惊讶的是，当我在Stata 12/SE中自上而下运行整个过程时，每次运行它时，ml display报告的一个系数得到了不同的结果起初，我认为这是在不同的计算机上运行相同代码的问题，但即使我在同一台计算机上多次运行相同的代码，问题也会发生。然后我认为这是一个随机数生成器问题，但是，正如您所看到的，即使我在主do文件的开头修复了种子，我也可以复制这个

浏览 4提问于2014-01-24得票数 2

3回答

scala中的MinMax规范化

、、、

我有一个多列的org.apache.spark.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax )，将数据扩展到-1和1之间，并将数据类型保留为org.apache.spark.sql.DataFrame。scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.spark.sql.DataFrame = [gst_id_matched:

浏览 2提问于2015-11-25得票数 10

回答已采纳

1回答

如何从CrossValidatorModel中获取权重？

、、

我使用的以下代码使用交叉验证训练了一个logistic回归模型AttributeError：'CrossValidatorModel‘对象没有属性’权重*与(trainingSummary = cvModel.summary)相同的问题 from pyspark.ml.classificationpyspark.ml.feature import HashingTF, Tokenizer

浏览 2提问于2017-07-27得票数 1

回答已采纳

2回答

如何使用Spark* org.apache.spark.ml.clustering预测kmeans集群。{KMeans，KMeansModel}*

、、、、

我对两种不同的MLLIB实现(org.apache.spark.ml.和org.apache.spark.mllib)和KMeans。我使用的是org.apache.spark.ml的新实现，它使用了Dataframe，但是我正在为文档和如何预测集群索引而苦苦挣扎。import org.apache.spark.ml.clustering.{KMeans, KMeansModel} import org.apache.spark.ml

浏览 15提问于2017-01-10得票数 1

回答已采纳

2回答

使用PySpark计算Jaccard距离时，对的数量少于应有的数量

、、、、

from pyspark.ml.feature import MinHashLSHfrom pyspark.sql.functions数据中总共有45k个身份，因此输出应该包含大约45k*45k对。此外，当我将1k ids与45k ids进行比较时，我得到了所有可能的ids对，并以这种方式执行所有ids，有点像批处理。我在emr集群上运行代码，并且有资源来增加集群大小。以下脚本可用于生成具有id和人工生成的稀疏向量的样本数据。for j in

浏览 104提问于2021-01-16得票数 1

1回答

火花结构化流2.2和k-方法

、、、

我是从存储在HDFS上的文件夹中读取的流数据。我有以下一小部分代码： at org.apache.spark.ml.clustering.KMeans.transformSchema(KMeans.s

浏览 0提问于2018-03-09得票数 1

2回答

训练随机森林分类器火花

、

基本上，我已经清理了我的数据集，删除了标题，错误的值等等。我现在试着训练一个随机的森林分类器，这样它就能做出预测。到目前为止：import org.apache.spark.SparkContext._ import org.apache.spark.SparkConfimport org.apache.spark.ml.classification.{RandomForestClassificationMode

浏览 1提问于2016-01-06得票数 1

回答已采纳

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

、、、

我试图运行简单的逻辑回归程序在火花。我得到了这个错误:我试图包含各种语言来解决问题，但这并不是解决问题。java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleType;import org.apache.sp

浏览 7提问于2017-06-30得票数 2

1回答

CrossValidator调谐火花ML失败在params上“发现了无关的Param”在模型保存上

、、、、

(ValidatorParams.scala:110) at org.apache.spark.ml.tuning.ValidatorParams$$anonfun$validateParams$1$$$.validateParams( )( org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelWriter.:242) at org.apache.spark.ml.util.MLWritable$class.

浏览 0提问于2018-05-23得票数 0

1回答

在ml算法中使用dataframe

、、、

我了解到，为了使用ml.clustering Kmeans算法(实际上任何ml的algos?)使用dataframe，我需要将我的数据数据以特定的形状：(id，vector[])或类似的东西。如何应用正确的转换将正则表(存储在df中)转换为所需的结构？= SparkSession \.appName("Python Spark SQL basic example") \ .config("spark.some.config.optio

浏览 2提问于2016-11-28得票数 3

1回答

Spark.ml回归不计算与科学学习相同的模型。

、、

我在scikit中建立了一个非常简单的logistic回归问题--学习和spark.ml，结果不同:他们学习的模型是不同的，但是我不知道为什么(数据相同，模型类型相同，正则化是一样的……)。我应该如何设置scikit或spark.ml，以找到与其对应的相同模型？e = LogisticRegression(

浏览 3提问于2017-03-10得票数 8

1回答

为什么Spark输出标签与培训数据不同？

、、、、

我在 (1.5.1版)中使用分类器来预测某些文本类别。但是，分类器输出的标签与我的培训集中的标签不同。我做错了吗？下面是一个可以粘贴到Zeppelin笔记本中的小例子：import org.apache.spark.ml.classification.NaiveBayesimport org.apache.spark.ml.feature.{HashingTF, Tokenize

浏览 4提问于2015-11-14得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

现在使用set.seed与Sparklyr一起工作吗？

流水线中的火花存取估计器

带Sparklyr的矩阵数学

L1正则化在火花MLlib中的应用

在1.6中工作的火花毫升管道不能在2.0中工作。类型错配误差

如何设置火花源初始中心

在星火图形X中创建图形

相同的文件，同一台计算机，有时结果不同

scala中的MinMax规范化

如何从CrossValidatorModel中获取权重？

如何使用Spark* org.apache.spark.ml.clustering预测kmeans集群。{KMeans，KMeansModel}*

使用PySpark计算Jaccard距离时，对的数量少于应有的数量

火花结构化流2.2和k-方法

训练随机森林分类器火花

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

CrossValidator调谐火花ML失败在params上“发现了无关的Param”在模型保存上

在ml算法中使用dataframe

Spark.ml回归不计算与科学学习相同的模型。

为什么Spark输出标签与培训数据不同？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐