腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
ML
中
,
L
代表
种子
值
、
我知道什么是
种子
值
以及它是如何工作的,但我不知道在下面的例子
中
"
L
“
代表
种子
值
是什么: val splits = data.randomSplit(Array(0.6, 0.4), seed = 1234
L
浏览 8
提问于2017-08-24
得票数 0
回答已采纳
1
回答
现在使用set.seed与Sparklyr一起工作吗?
、
、
上一次我和斯帕克利( Sparklyr )一起玩的时候(10月17日),
在
和斯帕克利合作的时候,我遇到了使用set.seed的问题。我不知道到底是什么问题,而且我似乎在任何地方都找不到它的任何地方。
浏览 1
提问于2018-02-04
得票数 3
回答已采纳
1
回答
流水线
中
的火花存取估计器
、
类似于,我想访问估计器,例如管道
中
的最后一个元素。 这里提到的方法似乎不再适用于火花2.0.1。现在它是怎么工作的?
浏览 3
提问于2016-11-11
得票数 3
回答已采纳
1
回答
带Sparklyr的矩阵数学
、
、
、
尝试开始使用Sparklyr扩展,但对
Spark
非常陌生,并且有问题:(第一步是使用linalg库创建一个对象:library(dplyr)cols <- as.integer(2) mat <- invoke_new(sc, "
浏览 2
提问于2017-06-17
得票数 14
回答已采纳
1
回答
L
1正则化
在
火花MLlib
中
的应用
、
、
、
默认情况下使用:
L
2正则化 如何使用
L
1?
浏览 0
提问于2016-06-05
得票数 3
回答已采纳
1
回答
在
1.6
中
工作的火花毫升管道不能在2.0
中
工作。类型错配误差
、
、
、
所有,我有下面的代码,
在
Spark
1.6
中
工作。import org.apache.
spark
.storage.StorageLevel._ import org.apache.
spark
.
ml
.Pipeline(Array.concat(discretizers.toArray, Array(assembl
浏览 0
提问于2017-03-24
得票数 1
回答已采纳
1
回答
如何设置火花源初始中心
、
、
、
、
我用
Spark
来运行Kmeans。我有大量的数据和三个现有的中心,例如,三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].我看到Kmean对象有
种子
参数,但是
种子
参数是一个长类型而不是数组。那么,我如何告诉
Spark
只使用现有的中心进行聚类。或者说,我不明白
种子
在
星火中意味着什么,我认为
种子
应该是一个向量数组,它在运行聚类之前
代表
指定的中心。
浏览 0
提问于2017-04-18
得票数 3
回答已采纳
1
回答
在
星火图形X
中
创建图形
、
、
我有
spark
2.3,我
在
sbt中使用scala。我想用图形创建一个图形。这是我的代码:import org.apache.
spark
.sql.SparkSessionimport org.apache.
spark
.sql._import org.apache.
sp
浏览 0
提问于2018-07-10
得票数 0
回答已采纳
2
回答
相同的文件,同一台计算机,有时结果不同
technique(nr) difficult cluster(id)令我惊讶的是,当我
在
Stata 12/SE
中
自上而下运行整个过程时,每次运行它时,
ml
display报告的一个系数得到了不同的结果起初,我认为这是
在
不同的计算机上运行相同代码的问题,但即使我
在
同一台计算机上多次运行相同的代码,问题也会发生。然后我认为这是一个随机数生成器问题,但是,正如您所看到的,即使我
在
主do文件的开头修复了
种子
,我也可以复制这个
浏览 4
提问于2014-01-24
得票数 2
3
回答
scala
中
的MinMax规范化
、
、
、
我有一个多列的org.apache.
spark
.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax ),将数据扩展到-1和1之间,并将数据类型保留为org.apache.
spark
.sql.DataFrame。scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.
spark
.sql.DataFrame = [gst_id_matched:
浏览 2
提问于2015-11-25
得票数 10
回答已采纳
1
回答
如何从CrossValidatorModel
中
获取权重?
、
、
我使用的以下代码使用交叉验证训练了一个logistic回归模型AttributeError:'CrossValidatorModel‘对象没有属性’权重*与(trainingSummary = cvModel.summary)相同的问题 from pyspark.
ml
.classificationpyspark.
ml
.feature import HashingTF, Tokenizer
浏览 2
提问于2017-07-27
得票数 1
回答已采纳
2
回答
如何使用
Spark
org.apache.
spark
.
ml
.clustering预测kmeans集群。{KMeans,KMeansModel}
、
、
、
、
我对两种不同的MLLIB实现(org.apache.
spark
.
ml
.和org.apache.
spark
.mllib)和KMeans。我使用的是org.apache.
spark
.
ml
的新实现,它使用了Dataframe,但是我正在为文档和如何预测集群索引而苦苦挣扎。import org.apache.
spark
.
ml
.clustering.{KMeans, KMeansModel} import org.apache.
spark
.
ml
浏览 15
提问于2017-01-10
得票数 1
回答已采纳
2
回答
使用PySpark计算Jaccard距离时,对的数量少于应有的数量
、
、
、
、
from pyspark.
ml
.feature import MinHashLSHfrom pyspark.sql.functions数据
中
总共有45k个身份,因此输出应该包含大约45k*45k对。 此外,当我将1k ids与45k ids进行比较时,我得到了所有可能的ids对,并以这种方式执行所有ids,有点像批处理。我
在
emr集群上运行代码,并且有资源来增加集群大小。 以下脚本可用于生成具有id和人工生成的稀疏向量的样本数据。for j in
浏览 104
提问于2021-01-16
得票数 1
1
回答
火花结构化流2.2和k-方法
、
、
、
我是从存储
在
HDFS上的文件夹
中
读取的流数据。我有以下一小部分代码: at org.apache.
spark
.
ml
.clustering.KMeans.transformSchema(KMeans.s
浏览 0
提问于2018-03-09
得票数 1
2
回答
训练随机森林分类器火花
、
基本上,我已经清理了我的数据集,删除了标题,错误的
值
等等。我现在试着训练一个随机的森林分类器,这样它就能做出预测。到目前为止:import org.apache.
spark
.SparkContext._ import org.apache.
spark
.SparkConfimport org.apache.
spark
.
ml
.classification.{RandomForestClassificationMode
浏览 1
提问于2016-01-06
得票数 1
回答已采纳
1
回答
为什么LogisticRegression
在
"IllegalArgumentException: IllegalArgumentException“
中
失败?
、
、
、
我试图运行简单的逻辑回归程序
在
火花。我得到了这个错误:我试图包含各种语言来解决问题,但这并不是解决问题。java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.
spark
.
ml
.linalg.VectorUDT@3bfc3ba7类型,但实际上是DoubleType;import org.apache.
sp
浏览 7
提问于2017-06-30
得票数 2
1
回答
CrossValidator调谐火花
ML
失败在params上“发现了无关的Param”
在
模型保存上
、
、
、
、
(ValidatorParams.scala:110) at org.apache.
spark
.
ml
.tuning.ValidatorParams$$anonfun$validateParams$1$$$.validateParams( )( org.apache.
spark
.
ml
.tuning.CrossValidatorModel$CrossValidatorModelWriter.:242) at org.apache.
spark
.
ml
.util.MLWritable$class.
浏览 0
提问于2018-05-23
得票数 0
1
回答
在
ml
算法中使用dataframe
、
、
、
我了解到,为了使用
ml
.clustering Kmeans算法(实际上任何
ml
的algos?)使用dataframe,我需要将我的数据数据以特定的形状:(id,vector[])或类似的东西。如何应用正确的转换将正则表(存储
在
df
中
)转换为所需的结构?= SparkSession \.appName("Python
Spark
SQL basic example") \ .config("
spark
.some.config.optio
浏览 2
提问于2016-11-28
得票数 3
1
回答
Spark
.
ml
回归不计算与科学学习相同的模型。
、
、
我
在
scikit
中
建立了一个非常简单的logistic回归问题--学习和
spark
.
ml
,结果不同:他们学习的模型是不同的,但是我不知道为什么(数据相同,模型类型相同,正则化是一样的……)。我应该如何设置scikit或
spark
.
ml
,以找到与其对应的相同模型?e = LogisticRegression(
浏览 3
提问于2017-03-10
得票数 8
1
回答
为什么
Spark
输出标签与培训数据不同?
、
、
、
、
我
在
(1.5.1版)中使用分类器来预测某些文本类别。但是,分类器输出的标签与我的培训集中的标签不同。我做错了吗?下面是一个可以粘贴到Zeppelin笔记本
中
的小例子:import org.apache.
spark
.
ml
.classification.NaiveBayesimport org.apache.
spark
.
ml
.feature.{HashingTF, Tokenize
浏览 4
提问于2015-11-14
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用随机森林分类算法进行Iris 数据分类训练,是怎样的体验?
Spark机器学习库之线性回归
大数据聚类算法知多少?如何无需编程快速实践?算法干货
用神经网络算法,预测乳腺肿瘤性质
XGBoost缺失值引发的问题及其深度分析
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券