腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
访问
转换器
setInputCol
()
方法
中
的
嵌套
列
、
、
、
我正在尝试使用Databricks XML解析器和Spark
的
管道
方法
来解析Wikipedia转储。目标是计算文本字段
的
特征向量,这是一个
嵌套
列
。= spark.read.format("com.databricks.spark.xml").option("rowTag", "page").load("some.xml") 我可以使用以下命令
访问
相应
的
文本_VALUE").show
浏览 2
提问于2017-08-02
得票数 0
回答已采纳
1
回答
是将复杂类型用作spark ml
转换器
的
输入列
的
一种
方法
。
、
我尝试使用结构内部
的
Vector作为spark mllib转换
的
输入列。像这样..。|-- id: string (nullable = true)但不能将_1.features作为输入列传递给
转换器
...
setInputCol
("_1.features").setK(3).java
浏览 21
提问于2019-07-16
得票数 0
2
回答
用VectorAssembler处理动态
列
、
、
使用火花矢量汇编程序,需要预先定义要装配
的
列
。 但是,如果在管道中使用向量-汇编程序(前面的步骤将修改数据框架
的
列
),那么我如何才能不手动硬编码所有值而指定
列
呢?由于df.columns将在向量--汇编程序--调用构造函数时包含正确
的
值,因此我看不到处理该值或拆分管道
的
另一种
方法
,这也很糟糕,因为CrossValidator将不再正常工作。您可以看到,nan值将被估算为原始
列
的
最频繁
的
和一些派生<e
浏览 4
提问于2017-01-11
得票数 1
回答已采纳
2
回答
可以使值
转换器
只能由我
的
用户控件
访问
吗?(WPF)
、
、
所以我已经养成了使用WPF/C#值
转换器
的
习惯,因为它们太棒了。我通常只是为值
转换器
设置一个文件夹,然后在我可能需要它们
的
任何xaml文件
中
访问
它们。我目前正在开发一个用户控件,它将具有一些我不希望其他类能够
访问
的
值
转换器
。换言之,值
转换器
存在于代码隐藏文件
中
,应该只能从该文件和关联
的
xaml
中
访问
。我
的
第一个想法是将
浏览 0
提问于2010-08-06
得票数 2
回答已采纳
2
回答
Apache管道:在dataset
中
过滤空行
、
、
、
、
在我
的
Spark管道(Spark2.3.0)
中
,我使用这样
的
RegexTokenizer: .
setInputCol
("text") .setMinTokenLength(3)text| words ------------------------
浏览 1
提问于2018-11-19
得票数 0
回答已采纳
1
回答
TypeError:“JavaPackage”对象在google collab上不可调用
、
、
、
sparknlp.start() documentAssembler = DocumentAssembler().
setInputCol
5 from sparknlp.base import DocumentAssembler ----> 6 documentAssembler = DocumentAssembler().
setInputCol
浏览 0
提问于2021-03-26
得票数 1
1
回答
加/减两个pyspark CountVectorizer稀疏向量
列
、
、
、
我想以CountVectorizer转换
的
文档对
的
不同为例。换句话说,取两
列
稀疏向量之间
的
差。我将相同
的
转换器
应用于dfdoc1和dfdoc2,因此结果向量对(df'X1‘- df'X2')
的
维度将始终一致。.transform(df) .setOutputCol('X2') \ .tr
浏览 3
提问于2019-08-09
得票数 1
1
回答
用Spark计算PCA时
的
IllegalArgumentException
、
我有一个包含id和features
列
的
拼花文件,我想应用pca算法。.setInputCols(Array("id", "features" ))val pca = new PCA()pca.save("/usr/local/spark/dataset/out")
浏览 3
提问于2020-01-26
得票数 2
回答已采纳
1
回答
将
嵌套
的
json反序列化为string属性
、
、
我有一个包含
嵌套
json
的
json文件,我想在配置绑定时将它反序列化为string属性。JsonConverter(typeof(JsonStringConverter))]} 我尝试使用自定义
的
json
转换器
将
嵌套
的
json转换为string,但是绑定机制忽略了该
转换器
(在
转换器
的
方法
中有断点,但没有命中一个),尽管我在C
浏览 0
提问于2018-03-24
得票数 1
2
回答
如何确定logistic回归火花中
的
标签和特征?
、
我使用星火mlib,用Logistic回归模型进行分类。我跟踪了这个链接:import org.apache.spark.ml.classification.LogisticRegressionModel;import org.apache.spark.sql.Row; // Load training da
浏览 0
提问于2017-04-27
得票数 2
回答已采纳
1
回答
在火星雨中找不到字段
、
、
、
我目前正在从事scala/scala家庭作业项目ibn
的
工作,我将在一个包含数千部电影评论
的
csv文件
中
阅读该项目。然后,我将分析这些审查,并培训一个模型,以检测审查是积极
的
还是消极
的
。我遇到
的
问题是,到目前为止我编写
的
代码没有找到指定
的
标题字段"word“,该字段是由regex令牌程序输出
的
。我
的
代码写在下面,以及控制台输出。我感谢你
的
帮助,并感谢任何关于我如何正确/
浏览 2
提问于2018-03-13
得票数 0
回答已采纳
1
回答
将数据从Dataframe传递到现有的ML VectorIndexerModel时出错
、
、
、
、
当使用我
的
模型
的
转换
方法
时,我会得到一个错误。我
的
Dataframe
的
架构: |-- PM10: double (nullable = false) |-- rain_3h: double
浏览 7
提问于2017-09-16
得票数 3
回答已采纳
1
回答
如何在星火DataFrame中将字符串值编码为数值
、
、
我有一个有两
列
的
DataFrame: Col1 Col2 ccc aaa .
setInputCol
("("Col1Index") val indexer2 = new StringIndexer()
浏览 4
提问于2018-01-03
得票数 0
回答已采纳
1
回答
IndexToString在星火特征向量
中
的
应用
、
、
(col).setOutputCol(s"${col}Indexed") 然后,我使用VectorAssembler来向量化所有特性
列
(包括索引
的
分类
列
)。我希望将我
的
功能向量展开为单独
的
列
,以便将索引
的
值转换回原来
的
字符串形式。,或者是将预测
列
附加到测试数据框架
的
最佳
方法
?").setOutputCol(s"${col}Indexed").s
浏览 3
提问于2016-02-16
得票数 6
回答已采纳
2
回答
如何在多列上使用火花量化器
、
、
、
、
._1)val model = pipeline.fit(df) 当我运行这个程序时,spark似乎将每个离散化器设置为一个单独
的
作业是否有一种
方法
可以将所有的离散化器作为一个单独
的
作业运行,有或没有管道?谢谢你
的
帮助,非
浏览 2
提问于2017-04-26
得票数 6
回答已采纳
1
回答
用Spark
的
Logistic回归模型进行MultiClass分类误差:
列
预测已经存在
、
、
我使用Spark
的
Logistic回归模型来解决100个类别(0-99)
的
分类问题。我在dataset
中
的
列
是"_c0、_c1、_c2、_c3、_c4、_c5“,其中_c5是目标变量,rest是特性。我
的
代码如下:val _c1Indexer = new StringIndexer().
setI
浏览 0
提问于2017-06-15
得票数 0
回答已采纳
1
回答
重写Apache管道以使用现有模型
、
、
我有一个管道(请参阅pipelineBefore
方法
): 获取预测 。 如何通过管道API重构代码以使用现有模型而不是手动调用
转换器
? 澄清。我需要集成一个简单
的
模型,例如org.apache.spark.ml.classification.LogisticRegression,,而不是以前训练过
的
org.apache.spark.ml.PipelineModelval tokenizer
浏览 0
提问于2019-07-08
得票数 0
1
回答
如何在Spark
中
创建一组ngram?
、
我使用Scala从Spark 2.2 dataframe
列
中提取Ngrams,因此(本例
中
为trigram):如何创建包含所有1到5克
的
输出列?所以它可能是这样
的
: val ngram = new NGram().setN(1:5).
setInputCol
("incol").s
浏览 14
提问于2018-01-26
得票数 3
回答已采纳
1
回答
火花: FlatMap和CountVectorizer管道
、
、
、
我在管道上工作,并在将
列
值传递给CountVectorizer之前尝试拆分它。 final def getOutputCol: String = $(outputCol) DataTypes.createStructField($(outputCol), DataTypes.StringType, fals
浏览 4
提问于2020-05-26
得票数 2
回答已采纳
1
回答
火花数据格式udf不提供TypeTag
、
之后,我尝试用过滤器
转换器
扩展spark ml管道模型。extends RuleTransformer with HasInputCol { /** @group setParam */class PriceFilter extends RuleFilter { def createFilterFunc(val: Double
浏览 3
提问于2016-05-30
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从下料问题看整数规划中的列生成方法
LabVIEW中访问数据库的几种不同方法
Java中成员变量和方法的默认访问修饰符
Python中的类属性访问:跨文件使用set和get方法的实现技巧
4种方法,在Word里面的已有表格中插入新的行和列
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券