Python使用均匀分散的响应变量准备训练数据集

文章/答案/技术大牛

发布

2回答

、

我正在做一个小的机器学习项目。我使用的数据集有56个输入参数和一个分类响应变量(0/1)。我的问题是响应变量不是均匀分布的。现在我的问题是，我想准备训练数据集，即响应是均匀分布的。这就是数据的

浏览 37提问于2020-11-24得票数 0

1回答

在培训、测试和生产过程中如何准备数据？

、、、、

大多数真实世界的数据集都有缺少值的特性。将缺失值替换为适当的值(如平均值)是特征工程中的一个很好的步骤。有时，我们还会在输入特性列以训练模型之前对其进行标准化/规范化。在建模之前，我们还将数据集拆分为培训和测试集。我的第一个问题是如何在这个分裂的数据集中进行特性工程？我们是使用未分割特征的全局平均值

浏览 0提问于2020-12-16得票数 4

1回答

可以在GPU模式下从Java应用程序运行TensorFlow吗？

、

我想使用一个预先训练的模块来训练我自己的数据集，使用Python对象检测模块，然后，我想在Java中运行经过训练的数据集。我已经安装并测试了TensorFlow for Java。当我在互联网上搜索时，用Java训练TensorFlow是不可能的，所以为了训练，我使用Python</e

浏览 2提问于2018-02-09得票数 0

回答已采纳

1回答

如何为spacy的自定义命名实体识别准备数据？

、、、

我正在准备一个训练数据集，以便使用spacy进行自定义命名实体识别。我的数据有一个变量'Text'，它包含一些句子，一个变量‘name’，它有来自前一个变量(句子)的人的名字。在浏览了一些示例和spacy的文档之后，我意识到在准备数据集时必须传递实体的索引。我想知道在准备<

浏览 0提问于2019-08-08得票数 0

回答已采纳

1回答

训练和测试数据集是否应该使用相同的计算机系数？

、、

我正在学习如何准备数据，构建估计器，并使用训练/测试数据拆分进行检查。我的问题是如何正确地准备测试数据集。我将我的数据分成测试和训练集。正如"Hands on with machine learning with Scikit-Learn"教我的那样，我为我的数据准备<

浏览 19提问于2019-08-21得票数 0

1回答

小批量梯度下降是否消除了分层对训练数据集的影响？

、、

在数据预处理中，使用分层洗牌确保原始数据集的分布反映在培训、测试和验证数据集中。小型批处理梯度下降使用随机洗牌来确保小批中的随机性.我的疑问是-为什么我们应该在我们的数据集上执行分层洗牌，如果它要在训练期间以随机的方式被洗牌？

浏览 0提问于2020-08-08得票数 2

回答已采纳

1回答

使用大型数据集训练对话框

、、、

我有拥有用户查询和响应的数据集。数据集大小约为50K。数据存储在csv文件中，文件中分别有两列用于查询和响应。如何使用此数据集训练对话框流？我能用python训练它吗？这是在他们的文档中提到的- 。但我想不出怎么训练它？我想像这样训练- 。但我不能完全理解如何做到这一点。

浏览 0提问于2019-01-10得票数 4

回答已采纳

1回答

如何在模型训练期间使用图像/对象/视图、图像/对象/截断和图像/对象/困难？

、

使用TF Object Detection为模型训练准备TF记录数据时，需要指定以下变量：image/object/truncated我想知道在模型训练期间它们是如何使用的，以及image/object/view变量的可能值是什么，感觉这应该是一些预定义

浏览 0提问于2017-07-15得票数 0

回答已采纳

1回答

training+testing集是否必须与预测集不同(因此需要对所有列应用时间偏移)？

、、、

我知道的一般规则是，我们应该测试一个训练有素的分类器，只有在测试集。p.s.1：的一般方法在数据挖掘工具(用于多元统计和机器学习)中，为因变量指定角色作为目标变量(或在某些工具中

浏览 4提问于2019-12-06得票数 0

回答已采纳

2回答

哪一个是最好的？

、、、、

该模型是在一个包含400,000多个短语的大型数据集上进行培训的，并且已经用大约1000个技术关键字进行了注释，其中只有我在数据集中提供的关键字才能被识别出来。培训数据集中的注释包括短语中技术关键字的特定位置，例如在下面的示例中，技术关键字"php“位于0-3和43-46位置。parallel', {'entities': [[27, 37, 'javascript']]

浏览 0提问于2023-01-11得票数 0

回答已采纳

1回答

Mahout:如何分割成均匀分布的训练集

、、

我正在使用Mahout的朴素贝叶斯算法将亚马逊评论分类为正面或负面评论。数据集不是均匀分布的。正面的评论比负面的评论多得多。随机挑选的测试和训练集使用随机挑选的元组进行mahout分裂，可以获得良好的阳性分类结果，但假阳性率也非常高。负面评论很少被归类为负面评论。我猜测，具有相同数量的正负tupels的均匀分布的</e

浏览 0提问于2014-08-08得票数 0

2回答

如何在一个循环中训练几个模型

、、、、

我想用caret包(7个响应变量中的一个)在的一个循环中训练几个模型。} 我的变量Ynames包含所有响应。每个模型必须使用一个响应变量进

浏览 6提问于2017-05-02得票数 0

回答已采纳

2回答

在这里使用lmr3verse包。假设我对用于训练Learner的训练集应用了以下预处理 preprocess <- po("scale", param_vals = list(center = TRUE, scale = TRUE)),param_vals = list(method = "one-hot")) 我想用predict(Learner, newdata = pred, predict_type="prob")命令预测数

浏览 32提问于2020-10-06得票数 0

回答已采纳

1回答

TreeBagger() (MATLAB)和不同数量的训练和测试集上的变量

、、

我正在使用MATLAB函数TreeBagger()进行随机森林分类，以完成一项任务。当测试数据的变量数量与训练数据的变量数量不同时，它会给出错误。我被告知，变量选择应该只在训练数据上进行，而不是在测试数据上，这样测试数据上就没有偏见。因此，在将初始数据集(50个变量)拆分为训练集</e

浏览 0提问于2015-12-20得票数 1

1回答

关于使用tf.train.shuffle_batch()创建批处理

在中，它给出了关于tf.train.shuffle_batch()的以下示例image_batch, label_batchnum_threads=4, min_after_dequeue=10000) 我不太清楚capacity和min_after_dequeue的含义这种设置的逻辑是什么，或者这意味着什么。如果输入有200张图片和200个标签，会发生什么？

浏览 9提问于2016-09-02得票数 17

1回答

当我的CNN没有假阴性时，这意味着什么？

、、、

我正在使用卷积神经网络对具有二进制标签(0或1)的图像数据集进行分类。在训练网络时，每个时代最终都有零个假阴性，这是否意味着我的网络只是将所有东西都归类为1，而不是费心去匹配0？数据集是不均匀的，但有更多的0。对于训练集，0:1的比率约为8000:5000，对于验证，比率为700:500。

浏览 19提问于2020-12-21得票数 0

1回答

验证数据中缺少类别

、、、

我在R中建立了一个基于训练数据集的分类模型，其中包含12个分类预测器，每个变量包含几十到数百个类别。问题是，在我用于验证的dataset中，一些变量的类别比在培训数据中少。例如，如果我在训练数据变量v1中有三个类别-- 'a','b','c'，那么在验证数据集中，v1只有两个类别-- 'a&#

浏览 4提问于2016-02-16得票数 2

回答已采纳

1回答

原因变量或变换因变量预测性能度量的评价

、、、、

我正在建立一个机器学习模型来预测scikit-learn的未来价格。因变量价格不是正态分布的，因此，我将只使用price对因变量np.log(price)执行日志转换。在此之后，我将把完整的数据集分成训练集和测试组.因此，y_train和y_test现在都是经过日志转换的价格。经过机器学习模型拟合后，对拟合模型进行预测性能指标的计算，如MAPE误差。在对price方法和y_test集</em

浏览 1提问于2018-06-27得票数 2

2回答

关于不平衡的多标签数据集

、、

我在python language.The数据集中做多标签新闻分类，我有两个文件。第一个CSV包含每一行的文章。第二，CSV包含每一篇文章的相应标签。以下是标签文件的快照这是dropbox链接.https://www.dropbox.com/s/7huzh41je735oqn/labelset.csv?dl=0 数据集是否不平衡？如何正确地将此数据集分发到培训集

浏览 0提问于2019-06-12得票数 1

1回答

NLP API的现状(Api.ai，Wit.ai，Luis等)？

、、

我工作的公司需要选择一个可用的NLP API供应商。对于POC，我已经集成了Api.Ai，我必须说它工作得很好。控制台UI是平滑和易于使用的。REST也是如此。尽管我还需要检查和比较其他提供者(Luis、Wit.ai等)人们说Wit.ai (Facebook)控

浏览 5提问于2017-06-12得票数 2

点击加载更多