腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
与
数值
相关
的
Pyspark
分类
数据
向
量化
、
、
我是
Pyspark
编程
的
新手。我需要些帮助。 我有一个带有
分类
特征
的
数据
集和一些
与
之
相关
的
数值
。我想对
分类
值进行矢
量化
,包括
与
之
相关
的
数值
。我有大约300万个
分类
数据
列
的
可能值。 ?
浏览 22
提问于2021-01-22
得票数 0
1
回答
如何在Apache Mahout中对
数值
数据
进行
分类
?
、
、
、
、
我有一个格式为class, unigram count, bigram count, sentiment
的
数值
数据
集。我浏览了一些Apache Mahout文档,它们都是关于文本
数据
的
。我知道我需要执行3个步骤来
分类
:转换为序列文件,矢
量化
序列文件,通过它来训练朴素贝叶斯
分类
器。但我很难理解在Mahout中对文本
数据
集进行
分类
与
对
数值
数据
集进行
分类</em
浏览 4
提问于2014-09-15
得票数 0
2
回答
分类
数据
的
矢量
量化
、
矢量
量化
软件通常只在
数值
数据
上工作。Python
的
scipy.cluster.vq.vq ()就是一个这样
的
例子,它执行矢量
量化
。对于大多数集群软件来说,数字
数据
的
需求也很明显。许多人指出,您总是可以将
分类
变量转换为一组二进制
数值
变量。但在处理大
数据
时,这会变得很尴尬,因为在大
数据
中,单个
分类
变量可能有数百或数千个类别。 另一种明显
的
选择是改变距
浏览 2
提问于2014-12-30
得票数 1
1
回答
多元线性回归问题
的
数据
预处理
、
、
、
对于多元线性回归问题,
数据
中既有
分类
变量,也有
数值
变量。我正在检查EDA
的
数值
变量
的
相关
性,并通过日志将它们标准化。对于
分类
变量
的
其余部分,列包含2个值(0或1)。所以我想知道,我们是否应该考虑
相关
矩阵中
的
范畴变量,并将它们
与
对数转换
的
数值
变量放在回归模型
的
输入中保持不变。请指点。
浏览 0
提问于2022-07-24
得票数 0
1
回答
我们可以在ANN模型中使用
分类
变量作为输入吗
在使用R运行ANN模型时,“我们是否可以在ANN模型中使用目录变量作为输入”。
浏览 1
提问于2018-08-19
得票数 0
2
回答
用于文档
分类
、阈值检测
的
质心算法
、
、
、
、
我有一个
与
特定领域
相关
的
文档集合,并根据该集合训练了质心
分类
器。我想要做
的
是,我将
向
分类
器提供来自不同领域
的
文档,并确定它们
与
经过训练
的
域有多大
的
相关
性。我可以用余弦相似度来得到一个
数值
,但我
的
问题是,确定阈值
的
最佳方法是什么? 为此,我可以从不同
的
领域下载几个文档,并检查它们
的
相似度,以确定
浏览 0
提问于2012-08-04
得票数 0
2
回答
DataMining /对多项选择问题
的
回答分析
、
、
我有一套培训
数据
,包括20个选择题(A/B/C/D),由100名受访者回答。答案纯粹是绝对
的
,不能与
数值
相比例。其中50人被选中进行免费产品试验。甄选过程尚不清楚。从这些信息中可以挖掘出什么有趣
的
知识?以下是我到目前为止想出
的
一个清单- 关于百分比
的
研究(例如,在Qs.5上回答B并获得免费产品trial)Conditional概率的人
的
百分比(例如,假设一个人回答了B)朴素贝叶斯
分类
器(朴素贝叶斯
分类
器)
浏览 1
提问于2010-05-24
得票数 0
回答已采纳
1
回答
CrossValidator.fit() - IllegalArgumentException:列预测
的
类型必须等于.[array<double>,array<double>],但类型为double
、
、
、
下面是我为Python3.9和Spark3.1.1使用
的
包:from
pyspark
.ml.feature import VectorAssembleimport LogisticRegression我正在尝试将一个矢
量化
的
.
的
数值
这是一个带有6标签
浏览 1
提问于2021-04-25
得票数 0
2
回答
数据
读取作为
数据
框架,生成一定
的
分类
变量因子,并对某些
数值
变量进行变换。
我有一个csv文件
与
分类
和数字
数据
。我希望读取csv文件中
的
数据
框架,但我希望将某些
分类
变量转换为因子,并希望使用log10转换来转换某些
数值
变量
的
数据
。我知道
相关
的
函数是read.csv() (以
数据
帧
的
形式自动读取
数据
)、factor()和log10(),但我一直无法找到这样做
的
方法。这是怎么做
的
?
浏览 3
提问于2020-08-10
得票数 0
回答已采纳
1
回答
回归任务中如何处理不平衡
的
范畴变量?
、
、
、
、
我
的
数据
集包含数字和
分类
预测器。我已经排除了
数值
变量
的
离群值。现在,我想知道如何处理
分类
变量
的
“异常值”(即不平衡类),但是我在这个主题上找不到任何东西。我是否必须处理不平衡
的
类(离群值),还是只
与
分类
任务
相关
? 附带注意,如果重要的话:我使用一个热编码对
分类
变量进行编码。
浏览 0
提问于2022-07-15
得票数 0
1
回答
将所有标称变量转换为拟火花中
的
范畴变量
、
、
、
、
我刚刚找到了一种将我
的
String
数据
run中
的
所有
PySpark
类型变量转换为
分类
变量
的
方法,这样我就可以在dataframe上运行决策树了。由于资源
的
限制,我不能使用熊猫,只能使用
PySpark
库。我已经确定了VectorIndexer是一种可能
的
解决方案,但是,我不明白如何转换所有String类型列,而认为这些列都是可能
的
。谁能帮我弄清楚怎么做
的
语法吗?我想要
的
是这样
浏览 1
提问于2017-10-10
得票数 0
回答已采纳
1
回答
范畴变量
的
多重共线性
、
、
对于
数值
/连续
数据
,为了检测预测变量之间
的
共线性,我们使用了皮尔逊
相关
系数,并确保了预测变量之间没有
相关
性,而是
与
响应变量
相关
。但是,如果我们有一个
数据
集,那么如何检测multicollinearity,其中
的
预测器都是
分类
。我正在共享一个
数据
集,其中我试图找出预测变量是否
相关
。Yes Yes Yes > No Yes Yes
浏览 1
提问于2015-10-28
得票数 11
1
回答
回归问题中
的
范畴变量处理采用哪种方法?
、
、
、
通常,如果我有回归问题,并且我
的
初始
数据
集包含
分类
变量,如:MathScience 我会把这个非
数值
变量转换成
数值
变量,例如:数学: 0然而,我最近发现一个教程说这个解决方案是没有性能
的
,因为在其他方面没有最喜欢
的
类,这意味着这些类之间没有增加,如果它存在,我们就不能
量化
它。 有人能为我解释一下吗?因为我通常是用解决方案一
的
?
浏览 0
提问于2020-08-26
得票数 2
回答已采纳
1
回答
如何计算python中二进制变量之间
的
相关
性?
、
、
、
两个二进制变量(x和y)为熊猫Dataframe中
的
多个日期形成两列。我想要计算x和y之间
的
相关
分数,它
量化
了x=1
与
y=1 ( x=0
与
y=0)之间
的
相关
性。 [计]1,2,2,2,0,000,000,000,000,000,000,000,000,000 说明:这是两种
分类
。有几天<e
浏览 2
提问于2018-09-14
得票数 4
回答已采纳
1
回答
范畴变量分析
、
我
的
数据
集由一个
数值
变量(称为"N4")和几个影响
数值
变量
的
分类
变量组成。例如,有一个名为"die“
的
分类
变量,如果它等于"alpha”,那么N4
的
值大约为100,如果它等于"beta“,那么N4
的
值大约为300。 我
的
目标是找出哪些类别变量对我
的
数值
变量影响最大。将
分类
变量转化为
数值</
浏览 0
提问于2022-01-04
得票数 0
回答已采纳
1
回答
MLR和向量值
分类
器/多任务学习
、
、
R package MLR支持多标签
分类
,该多标签
分类
将特征向量映射到一组离散标签Y_1,Y_2,...,Y_k。例如,Y_1,...,可能是
分类
人口统计特征,如年龄,收入,性别,并且这些特征中
的
多个可能适用于训练
数据
中
的
给定示例。我认为,这有时被称为多任务学习。一些回归任务,如典型
相关
分析,具有类似的风格,其中我们
的
标签是连续
的
和向量值
的
。在MLR中表示此类任务
的
最佳方式是什么?我已经将鞋角典型<
浏览 2
提问于2017-06-06
得票数 0
1
回答
如何测试标签是否具有对特性
的
实际依赖关系?
、
我正在尝试训练一个LSTM(多到一)模型
的
多元时间序列输入和
分类
输出。在进行堆栈交换之前,我在网上做了一些研究,发现有人说我们应该使用PCA来测试标签是否依赖于特性,这让我非常困惑。我认为PCA是用来对特征进行降维,并且
与<
浏览 0
提问于2022-02-14
得票数 1
1
回答
如何在包含连续、类别和日期类型
的
混合
数据
中查找
相关
性
、
、
我有一个包含不同类型
的
数据
: a <- data.frame(x=c("a","b","b","c","c","c","d","d","e","f"),y=c(1,2,2,2,3,1,4,7,10,2),m=c("a","d","ab","ac","ac",
浏览 7
提问于2017-03-08
得票数 0
回答已采纳
1
回答
预测
分类
和
数值
输出
的
模型
、
、
、
我正在为一个时间序列模型构建一个RNN,它有一个
分类
输出。例如,如果珍贵
的
3种模式是"A","B","A","B“模型预测
的
下一个是"A”。还有一个
与
每个类别
相关
的
数值
级别。对于现实生活中
的
例子,你有国家
的
天气
数据
。您正在预测未来几天
的
天气类型(晴天、刮风、下雨等)。同时,这将是一个很好
的
模型也将预测温
浏览 2
提问于2017-05-17
得票数 1
1
回答
日期、时间、类别和数字变量之间
的
相关
性
、
我有一个非常大
的
数据
集,包含所有类型
的
变量:日期、时间、
分类
和
数值
变量。它是引用雇用记录
的
数据
集。我想知道它们之间是否存在
相关
变量。我知道,要建立一个正常
的
相关
矩阵,我应该只对
数值
变量进行规范化,但事实并非如此。有别的选择吗?
浏览 7
提问于2022-10-03
得票数 -1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
Python中的数据库查询结果处理:打印十进制数值的方法与技巧
与数据隐私相关的 AI 关键问题
与大数据相关的部分论文集目录
加州监管机构向五家与AI相关的加密投资欺诈公司发出停止令
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券