如何在PySpark ML中创建自定义标记器

、、、、

我是Spark SQL DataFrames和ML on它们(PySpark)的新手。如何创建自定义标记器，例如删除停用词并使用中的一些库？我可以扩展默认的吗？

浏览 1提问于2015-09-01得票数 31

回答已采纳

1回答

、、、、

， words=['Hi','I','heard','about','spark']) 有没有办法通过PySpark中的Tokenizer或RegexTokenizer来实现这一点？

浏览 8提问于2018-01-16得票数 2

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

= {}d['old_DenseVector'] = pyspark.mllib.linalg.DenseVector(data)d['old_SparseVector&#

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

为什么PySpark只执行自定义`SQLTransformer`中的默认语句

、、、

我用PySpark编写了一个自定义的SQLTransformer。并且必须设置默认SQL语句才能执行代码。我可以在Python中保存自定义转换器，加载它并使用Scala或/和Python执行它，但是尽管_transform方法中还有其他东西，但只执行默认语句。

浏览 1提问于2018-11-13得票数 0

1回答

如何在Spark2.4中加载自定义变压器

、、

我试图在Spark2.4.0中创建一个自定义转换器。保存它很好。$.load(<console>:40)这意味着它找不到我的变压器的构造函数，这对我来说是没有意义的。令我困惑的是，等效的PySpark代码工作得很好：from pyspark.ml import Transformerfrom

浏览 0提问于2019-04-18得票数 2

回答已采纳

2回答

我正在尝试在PySpark MLlib中构建一个简单的自定义Estimator。我有一个，它可以编写一个自定义的转换器，但我不确定如何在Estimator上做到这一点。PySpark -learn似乎有一个适合自定义模型()的文档，但是Scikit没有。((x-self.model['mean']) > self.threshold * self.model['std']) def decision

浏览 2提问于2016-05-17得票数 22

2回答

如何在pyspark中可视化决策树模型/对象？

、、、

有没有办法在pyspark中可视化/绘制使用mllib或ml库创建的决策树？另外，如何获取信息，如叶节点中的记录数。谢谢

浏览 2提问于2017-08-16得票数 4

1回答

SparseVector与DenseVector在使用StandardScaler时的比较

、、、、

我使用下面的代码来规范PySpark DataFramefrom pyspark.mlorg.apache.spark.mllib.feature.StandardScalerModel.transform(StandardScaler.scala:160) at org.apache.spark.ml.feature.StandardScale

浏览 5提问于2016-12-21得票数 3

回答已采纳

1回答

如何将稀疏向量作为列添加到Pyspark Dataframe

、

我想将一个(1*8)稀疏向量作为列添加到Pyspark数据框架中。

浏览 21提问于2021-10-28得票数 1

2回答

无法将<class‘pyspark.ml.linalgs.parseVector’>类型转换为向量

、、、、

row.clicked>>> row.features>>> type(row.features) <class 'pyspark.ml.linalg.SparseVector

浏览 2提问于2016-12-10得票数 6

回答已采纳

1回答

火花放电中ML算法的训练

、、、

我对Pyspark还不熟悉，我试图在Pyspark中创建一个ML模型--我的目标是创建一个TFidf向量器并将这些特性传递给我的支持向量机模型。我试过这个findspark.init() #dataset is a pandas dataframe w

浏览 0提问于2018-02-26得票数 0

回答已采纳

1回答

如何使JSON方法可序列化为用于自定义火花变压器

、

我正在使用pyspark(2.3.0) api来创建一个自定义转换器。我想要创建一个简单的转换器，它将任何功能作为param。我试着在TypeConverters中使用标识来实现它。密码有效。我在param中发送一个函数对象，因为我想用它来处理_transform方法中的数据。因此，问题是如何修改这段代码，以便通过将转换器设置为PipelineModel对象中的一个阶段，并使用该对象的pyspark编写器</

浏览 3提问于2020-05-12得票数 0

2回答

如何从Spark中的“Set Set Sum of Squared Error”值计算K-means聚类模型的精度？

、、

我正在与Spark合作，想知道如何获得创建的K-means聚类模型的精确值。有没有办法计算从“Set Sum of Squared Error”值创建的模型的精确度？提前感谢:)

浏览 0提问于2018-05-17得票数 1

2回答

如何打印用于预测PySpark中特定行的示例的决策路径/规则？

、、

如何在星火DataFrame中打印特定样本的决策路径？下面的代码打印出整个模型的决策路径，如何使其打印特定样本的决策路径？import pyspark.sql.functions as Ffrom pyspark.sql importDataFrame from pyspark.ml.class

浏览 3提问于2018-07-31得票数 8

回答已采纳

1回答

实例化时将SparkSession传递给自定义变压器

、

我正在为我的皮斯喀特项目写我自己的变压器，我遇到了一个问题：from pyspark import keyword_onlyfrom pyspark.ml.param.shared import (HasInputCol, HasInputCols, HasOutputCol然而，它不起作用： &quo

浏览 1提问于2019-05-17得票数 0

回答已采纳

1回答

PySpark中的分层交叉验证

、

我正在使用python中的Apache Spark API，PySpark (--version 3.0.0)，理想情况下，我希望以分层的方式执行标记数据的交叉验证，因为我的数据非常不平衡！from pyspark.ml.tuning import CrossValidator 在scikit-learn中，这可以通过定义一个StratifiedKFold并将其放在任何网格搜索函数的cv参数中来实现这确保了训练给定估计器的每个K倍都以比例表示的方式包含

浏览 23提问于2020-09-01得票数 1

1回答

如何设置自定义PySpark变压器的参数，一旦它是一个适合的ML管道中的阶段？

、、

我已经为我自己的Python算法编写了一个自定义的ML Pipeline Estimator和Transformer，它遵循所示的模式。然而，在该示例中，估计者的_fit()方法将_transform()所需的所有参数方便地传递到模型/转换器中。但是我的转换器有几个参数来控制应用转换的方式。当我在ML Pipeline之外使用我的估计器和转换器时，这种方法工作得很好。但是，一旦我的估计器对象作为阶段添加到P

浏览 14提问于2018-02-06得票数 0

回答已采纳

2回答

Spark/Pyspark: SVM -如何获得曲线下面积？

、、

在这里，您可以看到我到目前为止是如何做到的： svm = LinearSVC(maxIter=5, regParam

浏览 2提问于2018-01-25得票数 1

回答已采纳

2回答

保存ML模型以供将来使用

、、、

我对一些数据应用了一些机器学习算法，如线性回归、Logistic回归和朴素贝叶斯，但我试图避免使用RDDs，并开始使用DataFrames，因为比火星雨下的数据更多(见图1)。我使用DataFrames的另一个原因是，ml库有一个非常有用的类来调优模型-- --这个类在拟合模型后返回模型，很明显，这个方法必须测试几种场景，然后返回一个 (参数的最佳组合)。

浏览 5提问于2015-10-08得票数 23

回答已采纳

1回答

使用PySpark和Step函数处理Sagemaker作业

、、、、

这就是我的问题:我必须使用PySpark编写的自定义代码来运行Sagemaker处理作业。framework_version="2.4", instance_count=2, role=role_arn, instance_type="

浏览 1提问于2020-11-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在PySpark ML中创建自定义转换器