无法在具有其他数值和类别变量的数据集中创建基于时间的要素

、、

我想让featuretools基于我在实体集中声明的时间索引和截止时间来创建特征。我有一个包含时间变量、数值变量和分类变量的数据集。有一个ITEMID列，每个ITEMID有2到12行数据。有像开始日期和交易日期这样的列，各种数字和分类列。

浏览 19提问于2019-04-03得票数 1

1回答

如何将数值类转换为WEKA中的因子？

、、

在具有类中的数值的数据集中，例如： data$Class = as.factor(data$Class)

浏览 1提问于2019-05-01得票数 0

1回答

房价的数据集解释连续vs分类

、、、

我正在使用英国的房价数据集，并希望创建一个ML模型来预测基于城市(加上其他一些类别)的房价。作为这一切的新手，我被难住了。我可以创建具有连续变量的模型，甚至可以对其他一些有4个不同选项(例如房屋类型)的类别执行一次性编码(虚拟变量)。然而，当涉及到城市时，数据集中大约有12

浏览 1提问于2020-07-03得票数 0

2回答

为什么频率编码工作？

、、、

频率编码是Kaggle竞赛中广泛使用的一种技术，多次证明是一种非常合理的处理基数高的分类特征的方法。我真的不明白为什么会起作用。它是在非常具体的情况下工作的频率是相关的目标，还是它更普遍？这背后的理由是什么？

浏览 0提问于2019-11-25得票数 15

2回答

我正在尝试使用LGBMClassifier，但由于某些原因，他不接受我的数据类型(所有功能都不接受，我测试了一下)。当我们查看我的数据时，我们可以清楚地看到所有的数据类型都是category、float或int (pd.DataFrame.info()) dtypes: category(275), float64(115), int64(9) 当我最终尝试训练我的LGBMClassifier时，我得到了以下错误： ValueError: Series.dtypes must be in

浏览 369提问于2020-10-13得票数 0

回答已采纳

5回答

分类和预测有什么区别？

、、、

机器学习中的分类和预测有什么区别？

浏览 14提问于2015-04-15得票数 17

回答已采纳

1回答

在R中，是否有一种基于条件将一个范畴变量分成三个的方法？

、、

我试图创建一个随机森林机器学习算法，对一些零售项目的性能。我用R Studio来做这个。在我的数据集中，我混合了数值变量和分类变量。月份供应商ItemName UnitsSoldTY UnitsSoldLY价格类别NumberStores 我相信，“供应商”变量将是非常重要的模型。为了将53个因素限制为一个分类变量，我想将“供应者”列分成三列。但是，我希望第一列包

浏览 1提问于2019-05-12得票数 0

2回答

对倾斜的验证数据的限制

、、、

我有一个严重倾斜的数据集，由20个类组成，其中最小的类包含1000个样本，最大的几百万个。因为我的数据集有如此大的偏差，对我的验证数据集的选择添

浏览 0提问于2017-11-03得票数 3

1回答

如何使用其他变量值和序列有条件地创建类别

、、、、

我希望能有任何帮助来创建一个函数，它允许我使用一组其他变量值的顺序来创建一个变量的类别。具体来说，我想要一个功能：创建变量E1的类别variable，即变量A、B和ID的每个组合出现在数据集中的first时间。创建变量<

浏览 1提问于2019-02-02得票数 1

回答已采纳

1回答

SSRS图表数据-筛选值的选项？

、、、

系统使用以下字段创建归档数据表：-TIMESTAMP，记录变量值的时间，诸若此类。我所关注的数据集包含3个变量：Level、BatchTimer和BatchID。目标:我想要实现的是Level作为Y值，BatchTimer作

浏览 0提问于2019-05-23得票数 0

回答已采纳

1回答

如何使用MicroStrategy可视化洞察中的Case/If函数将具有数字值的属性转换为文本值？

、、、

我有两个要在Visual Insight中创建仪表板的报告/数据集。其中一个数据集来自Teradata (直接连接到MicroStrategy)。另一个数据集来自谷歌BigQuery (通过智能立方体连接器连接到MicroStrategy )。这两个数据集的关键是类别。问题是Teradata中的类别属性是数值，即55、45、14、29、30等，而BQ数据集中</e

浏览 27提问于2019-02-19得票数 0

2回答

SQL -管理字符与单个变量中的数值

、、、

也许是一个相对简单的SQL问题：我有个变数。它表示时间序列数据集中的月份计数。对于每个条目，当满足某些条件时，计数将递增1。它可以有一个从0到任何实际值的整数值，尽管它不会比大约160更高。但是，如果没有关于月数的数据，变量的值将为"X“，这就是问题所在。我试图用WHERE条件组合一个查询，该条件指定上述变量大于或等于2(或3，或6-它是任意的)。正如

浏览 2提问于2015-11-03得票数 1

回答已采纳

1回答

是否有Stata函数将日期(月/日/年/时间)的字符串变量更改为月份/日期/年份和数字？

我有一个具有时间戳的字符串变量。例如，一个条目看起来是："4/25/2022 17:26“。我有一千多个观察结果。我需要对日期进行分类(如时间段A，时间段B.)。我想每月一个类别，所以我会有25个类别(因为我有超过2年前的数据)。我想我首先应该让字符串变量成为一个连续/数值变量，这样我就可以执行一个if...then语句，<

浏览 4提问于2022-04-26得票数 0

2回答

用numeric+text数据训练支持向量机分类器

、、、

训练数据在Excel文件中，包含数字和文本字段/列。当我将这些数据导出到MATLAB时，它要么是表格格式，要么是单元格格式。如何将其转换为矩阵格式？附注:使用xlsread函数不会导入文本数据。

浏览 2提问于2014-11-11得票数 0

1回答

如何在预测模型中编码因子预测器

、、、

我的数据集中的response变量和所有predictor变量都是因子。我想建立一个模型来预测响应变量。据我所知，我必须首先对我的预测变量进行编码。我需要关于如何在R中做同样的建议。我尝试构建knn和随机森林模型，但这不起作用，因为执行永远不会完成。 "rs“是响应变量，所有其他变量都是预测变量。&q

浏览 1提问于2019-10-20得票数 0

1回答

异长多变量时间序列的相似性度量

、、

我对使用python聚类T‘值的多变量N个时间序列(不同长度)感兴趣。每个变量都有许多趋势和值，这些趋势和值同时是数值和名义值。数据集中的示例T_{i}具有以下格式：2015-02-05 11:30|<Min | On |0.00012 2015-02-07 11:3

浏览 0提问于2016-08-16得票数 6

回答已采纳

3回答

对使用插入符号的randomForest ()使用公式训练的对象使用predict()时出错

、、、、

在64位Linux机器上使用R3.2.0和插入符6.0-41和randomForest 4.6-10 .当尝试在使用使用公式从predict()包中的train()函数训练的randomForest对象上使用caret方法时，该函数返回一个错误。predict.randomForest方法使用rownames(object$importance)来确定用于训练随机林object的变量的名称。train()函数时，会更改randomFo

浏览 2提问于2015-05-07得票数 11

回答已采纳

1回答

为什么高基数的范畴变量不是首选变量，而不是数值变量？

、

我在网上研究了一些高基数的范畴变量。许多帖子和论文只是简短地总结出“它扭曲了模型的性能”，而没有详细说明为什么和有多高的基数会影响模型的性能？( i)在某些编码方法下，如一维编码，会导致维数性的诅咒. ( ii)在</

浏览 0提问于2021-12-24得票数 1

1回答

验证数据中缺少类别

、、、

我在R中建立了一个基于训练数据集的分类模型，其中包含12个分类预测器，每个变量包含几十到数百个类别。问题是，在我用于验证的dataset中，一些变量的类别比在培训数据中少。例如，如果我在训练数据变量v1中有三个类别-- 'a','b','c&

浏览 4提问于2016-02-16得票数 2

回答已采纳

1回答

K-均值聚类中范畴变量的最大范畴

、、、、

我试图在数据集上执行K均值聚类，我的一个分类特性有96个可能的选项。对于一个变量来说，这是否是太多的特性？另一种方法是尝试通过证据权重将其转换为一个数值变量，或者干脆放弃它。你们觉得怎么样？

浏览 0提问于2023-02-14得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将数值类转换为WEKA中的因子？

房价的数据集解释连续vs分类

为什么频率编码工作？

LightGBM不接受我的数据的数据类型

分类和预测有什么区别？

在R中，是否有一种基于条件将一个范畴变量分成三个的方法？

对倾斜的验证数据的限制

如何使用其他变量值和序列有条件地创建类别

SSRS图表数据-筛选值的选项？

如何使用MicroStrategy可视化洞察中的Case/If函数将具有数字值的属性转换为文本值？

SQL -管理字符与单个变量中的数值

是否有Stata函数将日期(月/日/年/时间)的字符串变量更改为月份/日期/年份和数字？

用numeric+text数据训练支持向量机分类器

如何在预测模型中编码因子预测器

异长多变量时间序列的相似性度量

对使用插入符号的randomForest ()使用公式训练的对象使用predict()时出错

为什么高基数的范畴变量不是首选变量，而不是数值变量？

验证数据中缺少类别

K-均值聚类中范畴变量的最大范畴

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐