访问转换器setInputCol()方法中的嵌套列

、、、

我正在尝试使用Databricks XML解析器和Spark的管道方法来解析Wikipedia转储。目标是计算文本字段的特征向量，这是一个嵌套列。= spark.read.format("com.databricks.spark.xml").option("rowTag", "page").load("some.xml") 我可以使用以下命令访问相应的文本_VALUE").show

浏览 2提问于2017-08-02得票数 0

回答已采纳

1回答

是将复杂类型用作spark ml转换器的输入列的一种方法。

、

我尝试使用结构内部的Vector作为spark mllib转换的输入列。像这样..。|-- id: string (nullable = true)但不能将_1.features作为输入列传递给转换器...setInputCol("_1.features").setK(3).java

浏览 21提问于2019-07-16得票数 0

2回答

使用火花矢量汇编程序，需要预先定义要装配的列。但是，如果在管道中使用向量-汇编程序(前面的步骤将修改数据框架的列)，那么我如何才能不手动硬编码所有值而指定列呢？由于df.columns将在向量--汇编程序--调用构造函数时包含正确的值，因此我看不到处理该值或拆分管道的另一种方法，这也很糟糕，因为CrossValidator将不再正常工作。您可以看到，nan值将被估算为原始列的最频繁的和一些派生<e

浏览 4提问于2017-01-11得票数 1

回答已采纳

2回答

可以使值转换器只能由我的用户控件访问吗？(WPF)

、、

所以我已经养成了使用WPF/C#值转换器的习惯，因为它们太棒了。我通常只是为值转换器设置一个文件夹，然后在我可能需要它们的任何xaml文件中访问它们。我目前正在开发一个用户控件，它将具有一些我不希望其他类能够访问的值转换器。换言之，值转换器存在于代码隐藏文件中，应该只能从该文件和关联的xaml中访问。我的第一个想法是将

浏览 0提问于2010-08-06得票数 2

回答已采纳

2回答

Apache管道:在dataset中过滤空行

、、、、

在我的Spark管道(Spark2.3.0)中，我使用这样的RegexTokenizer： .setInputCol("text") .setMinTokenLength(3)text| words ------------------------

浏览 1提问于2018-11-19得票数 0

回答已采纳

1回答

TypeError：“JavaPackage”对象在google collab上不可调用

、、、

sparknlp.start() documentAssembler = DocumentAssembler().setInputCol5 from sparknlp.base import DocumentAssembler ----> 6 documentAssembler = DocumentAssembler().setInputCol

浏览 0提问于2021-03-26得票数 1

1回答

加/减两个pyspark CountVectorizer稀疏向量列

、、、

我想以CountVectorizer转换的文档对的不同为例。换句话说，取两列稀疏向量之间的差。我将相同的转换器应用于dfdoc1和dfdoc2，因此结果向量对(df'X1‘- df'X2')的维度将始终一致。.transform(df) .setOutputCol('X2') \ .tr

浏览 3提问于2019-08-09得票数 1

1回答

用Spark计算PCA时的IllegalArgumentException

、

我有一个包含id和features列的拼花文件，我想应用pca算法。.setInputCols(Array("id", "features" ))val pca = new PCA()pca.save("/usr/local/spark/dataset/out")

浏览 3提问于2020-01-26得票数 2

回答已采纳

1回答

将嵌套的json反序列化为string属性

、、

我有一个包含嵌套json的json文件，我想在配置绑定时将它反序列化为string属性。JsonConverter(typeof(JsonStringConverter))]} 我尝试使用自定义的json转换器将嵌套的json转换为string，但是绑定机制忽略了该转换器(在转换器的方法中有断点，但没有命中一个)，尽管我在C

浏览 0提问于2018-03-24得票数 1

2回答

如何确定logistic回归火花中的标签和特征？

、

我使用星火mlib，用Logistic回归模型进行分类。我跟踪了这个链接：import org.apache.spark.ml.classification.LogisticRegressionModel;import org.apache.spark.sql.Row; // Load training da

浏览 0提问于2017-04-27得票数 2

回答已采纳

1回答

在火星雨中找不到字段

、、、

我目前正在从事scala/scala家庭作业项目ibn的工作，我将在一个包含数千部电影评论的csv文件中阅读该项目。然后，我将分析这些审查，并培训一个模型，以检测审查是积极的还是消极的。我遇到的问题是，到目前为止我编写的代码没有找到指定的标题字段"word“，该字段是由regex令牌程序输出的。我的代码写在下面，以及控制台输出。我感谢你的帮助，并感谢任何关于我如何正确/

浏览 2提问于2018-03-13得票数 0

回答已采纳

1回答

将数据从Dataframe传递到现有的ML VectorIndexerModel时出错

、、、、

当使用我的模型的转换方法时，我会得到一个错误。我的Dataframe的架构： |-- PM10: double (nullable = false) |-- rain_3h: double

浏览 7提问于2017-09-16得票数 3

回答已采纳

1回答

如何在星火DataFrame中将字符串值编码为数值

、、

我有一个有两列的DataFrame： Col1 Col2 ccc aaa .setInputCol("("Col1Index") val indexer2 = new StringIndexer()

浏览 4提问于2018-01-03得票数 0

回答已采纳

1回答

IndexToString在星火特征向量中的应用

、、

(col).setOutputCol(s"${col}Indexed") 然后，我使用VectorAssembler来向量化所有特性列(包括索引的分类列)。我希望将我的功能向量展开为单独的列，以便将索引的值转换回原来的字符串形式。，或者是将预测列附加到测试数据框架的最佳方法？").setOutputCol(s"${col}Indexed").s

浏览 3提问于2016-02-16得票数 6

回答已采纳

2回答

如何在多列上使用火花量化器

、、、、

._1)val model = pipeline.fit(df) 当我运行这个程序时，spark似乎将每个离散化器设置为一个单独的作业是否有一种方法可以将所有的离散化器作为一个单独的作业运行，有或没有管道？谢谢你的帮助，非

浏览 2提问于2017-04-26得票数 6

回答已采纳

1回答

用Spark的Logistic回归模型进行MultiClass分类误差:列预测已经存在

、、

我使用Spark的Logistic回归模型来解决100个类别(0-99)的分类问题。我在dataset中的列是"_c0、_c1、_c2、_c3、_c4、_c5“，其中_c5是目标变量，rest是特性。我的代码如下：val _c1Indexer = new StringIndexer().setI

浏览 0提问于2017-06-15得票数 0

回答已采纳

1回答

重写Apache管道以使用现有模型

、、

我有一个管道(请参阅pipelineBefore方法)：  获取预测 。如何通过管道API重构代码以使用现有模型而不是手动调用转换器？澄清。我需要集成一个简单的模型，例如org.apache.spark.ml.classification.LogisticRegression，，而不是以前训练过的org.apache.spark.ml.PipelineModelval tokenizer

浏览 0提问于2019-07-08得票数 0

1回答

如何在Spark中创建一组ngram？

、

我使用Scala从Spark 2.2 dataframe列中提取Ngrams，因此(本例中为trigram)：如何创建包含所有1到5克的输出列？所以它可能是这样的： val ngram = new NGram().setN(1:5).setInputCol("incol").s

浏览 14提问于2018-01-26得票数 3

回答已采纳

1回答

火花: FlatMap和CountVectorizer管道

、、、

我在管道上工作，并在将列值传递给CountVectorizer之前尝试拆分它。 final def getOutputCol: String = $(outputCol) DataTypes.createStructField($(outputCol), DataTypes.StringType, fals

浏览 4提问于2020-05-26得票数 2

回答已采纳

1回答

火花数据格式udf不提供TypeTag

、

之后，我尝试用过滤器转换器扩展spark ml管道模型。extends RuleTransformer with HasInputCol { /** @group setParam */class PriceFilter extends RuleFilter { def createFilterFunc(val: Double

浏览 3提问于2016-05-30得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

是将复杂类型用作spark ml转换器的输入列的一种方法。

用VectorAssembler处理动态列

可以使值转换器只能由我的用户控件访问吗？(WPF)

Apache管道:在dataset中过滤空行

TypeError：“JavaPackage”对象在google collab上不可调用

加/减两个pyspark CountVectorizer稀疏向量列

用Spark计算PCA时的IllegalArgumentException

将嵌套的json反序列化为string属性

如何确定logistic回归火花中的标签和特征？

在火星雨中找不到字段

将数据从Dataframe传递到现有的ML VectorIndexerModel时出错

如何在星火DataFrame中将字符串值编码为数值

IndexToString在星火特征向量中的应用

如何在多列上使用火花量化器

用Spark的Logistic回归模型进行MultiClass分类误差:列预测已经存在

重写Apache管道以使用现有模型

如何在Spark中创建一组ngram？

火花: FlatMap和CountVectorizer管道

火花数据格式udf不提供TypeTag

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐