不同规模的分层抽样

文章/答案/技术大牛

发布

1回答

、

我正在尝试创建一个用于分层采样的函数，该函数采用使用faker模块创建的数据帧，以及层、样本大小和随机种子。对于样本大小，我希望每个层中的样本数量根据用户输入而变化。这是我用于创建数据的代码： import pandas as pdimport random as rn#generating random numbers from任何帮助都是非常感谢的。

浏览 28提问于2020-10-04得票数 0

回答已采纳

2回答

只读取一次文件进行分层采样

、、

如果不知道每个子种群(阶层)的分布(或大小/概率)，也不知道总体规模，是否可以只读取一次文件进行分层抽样？谢谢。你好，林

浏览 3提问于2016-06-07得票数 1

回答已采纳

1回答

使用词嵌入从大型语料库中查找概念

、、

我正在尝试从Konkani语言的语料库中发现新的概念。我在1)领域特定语料库上训练了两个模型，2)在报纸语料库上。我已经使用Gensim word2vec来训练模型，但是我无法在向量空间中获得具有相似含义的术语。我做错了什么？

浏览 1提问于2016-02-28得票数 1

1回答

PySpark比例分层抽样"sampleBy“

、

问题:如果您使用PySpark的sampleBy实现比例分层抽样，这不是与随机抽样相同吗？在PySpark中通过分数的sample

浏览 7提问于2021-10-08得票数 1

回答已采纳

1回答

分层抽样大小因R组的不同而变化

、

我对R相当陌生，现在我被分层抽样困住了，当样本大小根据组发生变化时。样本的大小因不同的群体或阶层而异：我采用分层抽样，但不知道样本的大小。

浏览 3提问于2017-10-09得票数 0

回答已采纳

1回答

我目前正在完成一本关于机器的练习本，学习如何让我的脚湿润，这样就可以说是在训练了。目前，我正在研究一个房地产数据集:每个实例都是加州的一个区，有几个属性，包括该地区的中等收入，其规模和上限为15。作者希望根据收入中值进行分层抽样。他提供了创建收入类别属性的下一段代码。我不明白的是为什么划分每个实例的median_income来创建地层在数学上是合理的？这一划分的结果到底意味着什么？还有其他方法

浏览 3提问于2019-04-06得票数 0

1回答

无k褶皱分层抽样

、、

我可以使用分层抽样与80%的训练20%的测试，分裂的数据在蟒蛇？我已经对此进行了调查，这是为了进行九层分层抽样。我不确定我是否只是把0作为迭代的次数才能工作，因为它是在交叉验证包中实现的，并且它们至少假定了2倍！

浏览 8提问于2015-11-09得票数 0

回答已采纳

3回答

在理解一个小例子时需要帮助

、、

对不起，我同意问题的题目不清楚。我想知道以下步骤的理解，这些步骤是从教科书“机器学习的手”中挑选出来的。> 3.0 7236 4.0 3639 1.0 822 2.0 0.318847 5.0 0.114438接下来，

浏览 0提问于2018-06-03得票数 1

回答已采纳

1回答

关于Knn和拆分验证的问题

、、、

我有一个很大的数据库，里面有40k个分类器和2个分类类。在这个大型数据库中，76%的记录属于第一类。我使用了一个70-30分割的分层抽样，K-nn在k= 20上给出了最好的精度。( 2)即使我使用分层抽样，那么k的这么大值是否可能是由于数据库中两个类的不均衡造成的呢？

浏览 0提问于2018-05-12得票数 1

回答已采纳

1回答

从不同的输入集中获取相同分布的数据

、、、

我正在尝试创建一个在多个列表之间平均分布的训练数据集，每个列表都有不同类型的数据。我该怎么做？我查看了GroupKMeansFold和StratifiedFold，但我并不完全理解它。a = [a1, a2, a3.... a10000] c = [c1, c2, c3.... c10000] 我希望我的训练，测试，和val我还希望70%的培训数据在列表a、b、c之间均匀分布，与测试和val数据相同。我希望训练数据有来自a、b和c的<

浏览 0提问于2022-07-29得票数 1

1回答

数据分区中的类标签

、、

假设将数据划分为训练/验证/测试集，以便进一步应用某种分类算法，而训练集并不包含完整数据集中存在的所有类标签--比如一些标签为"x“的记录只出现在验证集中，而不是在培训中。这是有效的分区吗？以上结果可能会导致混淆矩阵不再是正方形，而且在算法中我们可能会评估一个错误，这会受到训练集中看不见的标签的影响。第二个问题是:用训练集具有所有现有标签的方式来处理上述问题并对数据进行分区是否是分区算法的共同之处？

浏览 2提问于2013-12-07得票数 2

回答已采纳

3回答

如何对多标签多类分类进行分层抽样？

、、、

我提出这个问题，理由不多：我不知道为什么会出现这个错误。所以，我想自己去实施分层抽样。在此，我需要帮助破译问题的原因，并在多标签分类中实施分层抽样，以便在培训期间也能很好地适用于个别批次。

浏览 0提问于2018-06-13得票数 12

1回答

如何从数据集中获取保持相同类平衡的示例？

、、

一种是对一两行的评论。第二是评级，在0到4之间，条目总数为8533。数据分布情况如下：现在，我想从这个大小数据集(例如10、20、30等)中获取一个样本

浏览 1提问于2018-10-24得票数 0

1回答

是否有一种“简单”的方法来使用h2o.ai创建分层的框架分割？

、

分层抽样是很古老的，而且非常重要。下面是在h2

浏览 6提问于2019-11-22得票数 0

1回答

不同比例的随机分层抽样

、

我试图分裂的位置，这是一个因素与4个水平，但每个水平没有得到平等的抽样。在1892年的样本中-Location2: 615Location4: 502 如前所述，我正在尝试拆分整个数据集80/20，但我也希望每个位置被拆分为80/20，以便在培训和测试集中从每个位置得到一个均匀的比例。我看过一篇关于使用stratified包中的splitstackshape函数的文章，但是它似乎不想把我的</e

浏览 2提问于2016-08-09得票数 1

回答已采纳

1回答

分层抽样变量选择

、、

我试图在R中进行分层抽样，从我的数据中抽取样本，其中一个参数是组，它从保持数据集的相同初始分布取变量名到样本。是否将响应作为分组变量包括在内是常见的，包括/排除它意味着什么？

浏览 0提问于2017-11-08得票数 2

2回答

蟒蛇前科分层抽样

、、

上下文其目标是创建一个函数，使之能够从分层抽样中筛选出来，但使用考虑到的变量的某些比例，而不是原始数据集比例。return df_sampled column：--这是一个用于执行分层sampling.prior_dict：的分类变量，它包含按类别划分的百分比，在所选的variable.df：中，输入dataset.sample_size

浏览 8提问于2022-09-16得票数 4

回答已采纳

2回答

不同单位的规模

、、、

如何使用D3转换和显示来自不同单元的正确信息所有数据都在mm中。label: 'sample2', x: 1200 }, ] 所以，问题是，我如何创建一个刻度来理解sample3应该是在4之后和5之前的同一位置

浏览 1提问于2017-03-15得票数 2

回答已采纳

1回答

不平衡数据的分层平衡抽样(机器学习)

、、、

我很抱歉我的粗心大意。如果需要平衡抽样的方法，请访问下面的链接.有各种各样的答案。我需要解决40个班的分类问题。数据属于0类，意味着进程的正常状态，其余的表示异常状态和产生问题的位置。数据由13列和368816行组成。每一行都意味着每个数据集。368816数据集中的每个数据集都属于0到40类。但是，这是不平衡的。103260类数据集的数量为103260

浏览 2提问于2017-09-21得票数 0

回答已采纳

2回答

使用多列的PySpark sampleBy

、、、

我想从PySpark上的数据框架中进行分层抽样。有一个sampleBy(col, fractions, seed=None)函数，但它似乎只使用一个列作为一个层。有没有办法使用多列作为一个地层？

浏览 5提问于2017-05-09得票数 5

回答已采纳

点击加载更多