腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
大
数据
集
在
Spark
上
训练
BloomFilter
、
、
、
我正在尝试为
数据
帧中的大量字符串创建一个bloom过滤器--大约1.2亿。平均每个字符串有20-25个字符,总
数据
大小超过了1 1GB的默认
spark
.driver.maxResultSize。我不想更改maxResultSize,因为将来当输入
数据
的大小增加时,我将不得不再次更改它。
在
Spark
中,有没有什么方法可以让我以小块的形式流式传输
数据
帧中的
数据
,并通过调用
BloomFilter
.putString()来
训练</em
浏览 10
提问于2017-08-12
得票数 0
2
回答
用case类连接dataset
、
、
、
、
我正在
使用
case类将dataframe转换为dataset,该类具有另一个案例类的序列。Byte, city: String, country: String) 现在我有了另一个只有I的字符串
数据
集
我试图
在
IP
数据
集
上
使用
布卢姆筛选器来搜索该
数据
集
,但是它效率低下,而且在一般情况下不能很好地工作。我想
使用
浏览 6
提问于2021-11-19
得票数 0
回答已采纳
2
回答
使用
静态
训练
数据
初始化StreamingKmeans模型
、
、
、
我可以
使用
训练
数据
集
构建
Spark
Kmeans模型。我想让我的模型适应新的
数据
,所以
Spark
StreamingKmeans对我来说似乎很棒。然而,似乎星火的StreamingKmeans只能在
数据
流上进行
训练
。没有办法用默认的kmeans模型初始化它,
在
一些静态
训练
数据
上
训练
,然后随着时间的推移用新的流式输入
数据
训
浏览 13
提问于2016-07-25
得票数 0
回答已采纳
2
回答
如何将
数据
集
列值传递给函数,同时
使用
火花筛选器和scala?
、
、
val df =
spark
.read...val
bloomFilter
=
BloomFilter
.create(100) searchers.foreach(
bloomFilter
.putString(_))df.filter(
bloomFilter
.m
浏览 0
提问于2018-04-16
得票数 0
回答已采纳
1
回答
Spark
MLLIB并行多节点
、
由"
spark
mllib“提供的机器学习算法可以像naive byes,随机森林一样
在
spark
集群
上
以并行模式运行吗?或者我们需要修改代码?请提供一个并行运行的示例?不确定MLLIB中的并行性是如何工作的(map) -因为每个处理都需要整个
训练
数据
集
。计算是否与
训练
数据
的子集并行运行?谢谢
浏览 0
提问于2016-03-06
得票数 3
1
回答
使测试
数据
与
训练
数据
在
特征选择后的特征相同
、
、
、
、
),(5,[0,2,4],[1,1,2]),(2,[1],[2])]PS:当我想让测试
数据
与功能选择的火车
数据
相同时
浏览 2
提问于2016-03-09
得票数 2
回答已采纳
1
回答
pyspark
数据
库中分类逻辑回归模型的标签无效
、
、
、
、
我
使用
Spark
ML库来解决
使用
逻辑回归的分类问题。 我已经将输入特征矢量化,并创建了
训练
数据
集
和测试
数据
集
。
在
拟合模型时,我遇到了无效标签问题。 ?
训练
数据
集
为: 其中我的输入特征为Independent_features,我的目标特征为Category_con。 ?
浏览 13
提问于2021-03-20
得票数 0
1
回答
理解python中
Spark
的LinearRegressionWithSGD示例中的问题?
、
、
、
、
因此,我是machine learning和
Spark
的新手,并且正在阅读关于Regression的MLlibs文档,特别是LinearRegressionWithSGD at 。这里提供了我到目前为止所理解的信息--代码加载
数据
,然后形成labeledpoint。然后建立模型,根据
训练
数据
对模型进行评价,并计算出MSE值。现在,让我困惑的是,
在
正常的machine learning过程中,我们首先将
数据
划分为
训练
集
和测试
集
。利用<e
浏览 4
提问于2015-09-15
得票数 3
回答已采纳
2
回答
必须
使用
writeStream.start();执行流源查询;
、
、
、
、
我试图从卡夫卡读取
数据
使用
火花结构化流和预测形式的传入
数据
。我用的是我用
Spark
训练
的模型。val
spark
= SparkSession .appName("
Spark
SQL basic example") .getOrCreatepredict.writeStream .form
浏览 7
提问于2017-10-03
得票数 2
回答已采纳
1
回答
使用
两个独立的
数据
集
对模型进行
训练
和测试
、
、
我有一个大
数据
集
(14K科目)和一个小
数据
集
(100个科目)。两者具有相同的数目和相似的特性(20)。它们没有重叠。 我的问题是,我应该在小
数据
集
或大
数据
集
上
训练
模型吗?如果我
浏览 0
提问于2020-12-22
得票数 -1
回答已采纳
1
回答
使用
OpenNLP
训练
大
数据
集
、
、
我有
数据
集
与.train文件和它的非常
大
的文件,比如说100MB的文件。我想执行NER来提取组织名称。我
使用
OpenNLP进行了
训练
。有没有办法
使用
openNLP为NER
训练
大型
数据
集
?你能发布示例代码吗? 当我
在
谷歌
上
搜索时,我发现Class和DataIndexer接口可以用来
训练
大型
数据
集
,但我确实知道如何
训练
?
浏览 1
提问于2012-12-05
得票数 1
1
回答
如何在Java
Spark
MLLib中
使用
映射和还原来合并文本文件?
、
、
、
、
我有一个非常
大
的
数据
集
存储
在
Hadoop (纱线集群)
上
,我想用它来
训练
一个支持向量机分类器。从
数据
集中的每个
数据
点提取特征,并以格式保存。
Spark
MLLib可以
使用
(JavaSparkContext上下文,字符串目录)读取这些文件。每个文件都有一行,其中双精度以换行符结尾。这条线表示要素的值。我可以
在
某种.join或.union语句中
使用
.textFile("..&
浏览 0
提问于2015-04-29
得票数 2
1
回答
如何在databricks集群上高效地运行非
spark
模型
训练
任务(
使用
fasttext)?
、
、
、
、
我想
使用
fasttext
训练
一些模型,因为它不
使用
spark
,所以它将在我的驱动程序
上
运行。将同时运行的
训练
作业的数量非常
大
,
数据
的大小也是如此。有没有办法让它在不同的工作者
上
运行,或者
在
不同的工作者之间分发?这是最好的方法,还是
使用
大型单节点集群更好? 仅供参考,我正在
使用
Databricks。因此,特定于此的解决方案也是可以的。
浏览 28
提问于2021-11-12
得票数 2
3
回答
利用PySpark在
数据
模型
上
应用sklearn
训练
模型
、
、
、
我用Python
训练
了一个随机森林算法,并希望用PySpark
在
一个大
数据
集
上
应用它。我首先加载了经过
训练
的sklearn模型(
使用
joblib),将包含这些特性的
数据
加载到
Spark
数据
框架中,然后添加了一个带有预测的列,该列具有用户定义的函数,如下所示: def predictClass(不
使用
Spark
)
浏览 6
提问于2017-05-31
得票数 8
回答已采纳
1
回答
如何
使用
Spark
上
的交叉验证对SVM和DT进行
数据
分割
、
、
我
在
我的项目中
使用
Spark
MLlib。我
使用
了支持向量机,决策树和随机森林。我已经将
数据
集
分为
训练
和测试(60%的
训练
,40%的测试),并得到了我的结果。我想重复我的工作,但
使用
交叉验证来分割
数据
,而不是
使用
SVM、DT和RF的百分比分割。 我怎么能在
Spark
上
做到这一点呢?我找到了几个
使用
logistic回归和管道进行拆分的代码,这些代码
浏览 48
提问于2019-01-01
得票数 1
1
回答
用于大型csv文件的sparklyr
、
、
我正在尝试
使用
sparklyr加载一个包含一百万行和1000列的
数据
集
。我在工作中的一个非常
大
的集群
上
运行
Spark
。尽管如此,
数据
的规模似乎太大了。我尝试了两种不同的方法:1) -将路径放入hdfs -
spark
_read_csv(
spark
_context,.csv ) 2) -将csv文件作为常规R dataframe读取-
s
浏览 2
提问于2017-05-30
得票数 0
1
回答
用于实时分析的Apache火花(MLLib)
、
、
我有几个与
使用
Java进行实时分析的Apache有关的问题。当
Spark
应用程序提交时,存储
在
Cassandra
数据
库中的
数据
将通过机器学习算法(支持向量机)加载和处理。当新的
数据
到达时,
在
Spark
的流扩展过程中,它们被持久化在
数据
库中,对现有的
数据
集
进行重新
训练
,并执行支持向量机算法。此进程的输出也存储在
数据
库中。这些实现不是基于
Spark
的
浏览 0
提问于2014-06-24
得票数 7
2
回答
为什么我
在
scikit-learner中
使用
支持向量机模型来识别MNIST中的手写数字时得不到满意的结果?
、
、
、
我
使用
scikit-learner中的svm模型来预测MNIST中的手写。
在
处理测试
数据
时,我只获得了大约11%的准确率。 除了过度拟合之外,我找不到原因。过度拟合对结果有这么
大
的影响吗?
浏览 9
提问于2015-06-30
得票数 0
1
回答
为什么机器学习工程师坚持
使用
比验证
集
更多的
数据
进行培训?
、
、
、
、
在
我的同事中,我注意到一种奇怪的坚持,就是坚持用70%或80%的
数据
进行培训,并对其余的
数据
进行验证。我对此感到好奇的原因是缺乏任何理论推理,而且它带有五倍交叉验证习惯的影响。是否有任何理由选择一个更大的
训练
集
时,试图发现过度拟合在培训期间?换句话说,为什么不
使用
n^{0.75}进行培训,
使用
n - n^{0.75}进行验证,如果影响确实来自于从线性建模理论中继承下来的交叉验证实践,正如我在这答案中所建议的那样?我
在
stats.stackexchang
浏览 0
提问于2020-12-28
得票数 3
回答已采纳
3
回答
星星之火-mllib再培训保存的模型
、
、
我正在尝试
使用
spark
进行分类,特别是
使用
RandomForestModel。我看了一下
spark
(RandomForestClassificationExample.scala)的这个例子,但是我需要一种稍微扩展的方法。我需要能够
训练
一个模型,为将来的
使用
保留模型,但也能够加载它和进一步的
训练
。比如,扩展
数据
集
,然后再进行
训练
。
浏览 7
提问于2017-01-03
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在RLHF偏好数据集上,SFT模型怎样来训练
Tensorflow Object Detection API(2)—训练自己的数据集(上)
Spark如何读取一些大数据集到本地机器上
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券