模拟总体分布的分层抽样方法

、、、、

我是R的新手，我最近对训练和测试分割使用了分层抽样，以确保两者的目标标签是相等的比例。现在我想使用下采样训练数据，以便总体分布/训练分布类似于新的下采样分布。我想要下采样的原因是因为我有1100万行和56列，通过网格/随机/贝叶斯搜索进行参数调优需要几天时间如果有人能在这方面帮助我，我将不胜感激。下面是我的</

浏览 23提问于2020-03-04得票数 2

2回答

只读取一次文件进行分层采样

、、

如果不知道每个子种群(阶层)的分布(或大小/概率)，也不知道总体规模，是否可以只读取一次文件进行分层抽样？谢谢。你好，林

浏览 3提问于2016-06-07得票数 1

回答已采纳

1回答

分层抽样变量选择

、、

我试图在R中进行分层抽样，从我的数据中抽取样本，其中一个参数是组，它从保持数据集的相同初始分布取变量名到样本。是否将响应作为分组变量包括在内是常见的，包括/排除它意味着什么？

浏览 0提问于2017-11-08得票数 2

3回答

在理解一个小例子时需要帮助

、、

对不起，我同意问题的题目不清楚。我想知道以下步骤的理解，这些步骤是从教科书“机器学习的手”中挑选出来的。> 3.0 7236 4.0 3639 1.0 822 2.0 0.318847 5.0 0.114438接下来，

浏览 0提问于2018-06-03得票数 1

回答已采纳

1回答

生成不涉及指数的排序随机数？

、、、、

我正在寻找一个数学方程或算法，它可以在0,1的范围内，不借助除法，按升序产生均匀的随机数。我热衷于跳过除法操作，因为我正在硬件中实现它。谢谢。

浏览 2提问于2013-11-09得票数 2

回答已采纳

1回答

在机器学习中，使用分层抽样来选择测试集数据有什么意义？

、

我目前正在学习机器学习，通过这本书“用Sci-kit学习和Tensorflow进行的手工机器学习”，由Aurelien著。在第76和77页，作者谈到使用分层抽样，以便您的测试集将更有代表性的整个数据。我真的不明白这一点，因为它不会影响你的训练模式的准确性？或者，选择更好的测试集将如何影响您的培训模型的准确性？

浏览 0提问于2019-02-06得票数 2

回答已采纳

2回答

蟒蛇前科分层抽样

、、

上下文其目标是创建一个函数，使之能够从分层抽样中筛选出来，但使用考虑到的变量的某些比例，而不是原始数据集比例。return df_sampled column：--这是一个用于执行分层sampling.prior_dict：的分类变量，它包含按类别划分的百分比，在所选的variable.df：中，输入dataset.sa

浏览 8提问于2022-09-16得票数 4

回答已采纳

1回答

由bootstrap方法得到的经验分布计算置信区间

、、

我已经使用bootstrap方法计算了样本均值的经验分布，但现在我还需要使用我找到的经验分布来计算总体均值的置信区间。在给定我的状态的情况下，有没有办法在Matlab中自动完成？如果不是，你如何找到总体均值的95%置信区间？

浏览 0提问于2015-12-16得票数 2

1回答

R中简单蒙特卡罗积分的错误结果

、、、

我是关于数值积分的演讲的一部分。虽然讨论本身将进入更好的数值积分形式(主要是重要抽样和分层抽样)，但我在我的部分章节中提到，蒙特卡罗积分抽样来自均匀分布。我发现：是给出了0.636597的答案，而不是预期的1。这个答案似乎与增加样本数量相当一致，我不知道为什么会有这么多的错误。其他计算，例如：给0.00053

浏览 2提问于2016-12-05得票数 2

回答已采纳

2回答

如何在R中将总体分布箱图与分组箱图放在一起

、

要根据一个组制作列"xcolumn“的多个箱图，我可以简单地这样做： boxplot(xcolumn ~ group, data = df) 并绘制总体分布： boxplot(df$xcolumn)但是，是否可以将xcolumn的总体分布与分组的boxplot放在同一个图中？我希望将总体分布作为第一个箱图，然后是每个组的箱图。

浏览 53提问于2019-06-12得票数 0

回答已采纳

1回答

我目前正在执行分类，但我的分类器无法预测测试集上的阳性类。正负分布是10:90。我使用分层抽样进行了5折交叉验证，结果似乎在所有折叠中都是连续的，而在测试中它预测所有类别都是阳性的。= cross_val_score(clf1, X, y, cv=skf.split(X, y), scoring='roc_auc')scores 相同的输出是0.6286471235534742 array([0.6295

浏览 16提问于2019-04-23得票数 1

1回答

R中不同周转度物种丰度的模拟数据集

、

我正在使用一个数据集，其中包含了100+物种在50+地点的丰富程度，超过20+时间点。我要模拟具有不同程度的群落周转量的等价数据集，即丰富的物种，保持丰富的/稀有的，稀有的我见过有人提到使用引导重采样模拟技术，其中可以根据两个组合中存在的所有物种的比例来指定“模板”和模拟数据集之间的期望差异我想知道这是否是获得所需的模拟数据集的最佳<e

浏览 0提问于2016-10-14得票数 0

回答已采纳

1回答

真正的误差和样本误差是什么？

我的重点是评估低渗的概念。error_D(h)=Pr_{x\in D}[f(x)\neq h(x)]error_S(h)=\frac{1}{n}\sum _{x\in S}

浏览 0提问于2020-08-01得票数 1

回答已采纳

1回答

PySpark比例分层抽样"sampleBy“

、

问题:如果您使用PySpark的sampleBy实现比例分层抽样，这不是与随机抽样相同吗？在PySpark中通过分数的sampleBy方法实现比例分层抽样是很自然的。但是，这种方法是通过Bernoulli试验(硬币翻转)来实现的。对于分层

浏览 7提问于2021-10-08得票数 1

回答已采纳

1回答

R中对数正态分布Mu的置信区间

、、、

假设我们有一个大小为n=8的随机样本，样本的对数正态分布参数是mu和σ。由于它是一个小样本，从一个非正常的总体，我将使用t置信区间。我进行了一个模拟，以确定90% t的真实(模拟) CI，其中mu=1和sigma= 1.5。我的问题是，下面的代码遵循正态分布，它需要一个对数正态分布。我知道rnorm必须变成rlnorm，这样随机变量就来自于日志分布。但我需要改变穆和西格玛是什么。

浏览 3提问于2014-02-18得票数 0

2回答

半球分层余弦加权样本的生成

、、、

我的应用程序是在光映射器中收集间接样本。

浏览 0提问于2017-02-09得票数 3

回答已采纳

1回答

从概念上理解模拟退火

我刚刚被介绍到模拟退火，并希望更好地理解它，然后再深入研究代码，因为我觉得我不完全理解它，尽管我阅读了代码从我到目前为止的资源。因此，请随时纠正我目前对算法的理解：模拟退火算法的总体目标是根据预先定义的计算方法(如TSP中的旅行距离或生物信息学中的密码子对分布)来达到最小(或最大)分数。然而，为了避免陷入局部最优状态，可以接受暂时较低(或更高)的分数，以获得更好的</em

浏览 0提问于2011-03-23得票数 1

回答已采纳

1回答

不平衡数据的分层平衡抽样(机器学习)

、、、

我很抱歉我的粗心大意。如果需要平衡抽样的方法，请访问下面的链接.有各种各样的答案。我需要解决40个班的分类问题。数据属于0类，意味着进程的正常状态，其余的表示异常状态和产生问题的位置。数据由13列和368816行组成。每一行都意味着每个数据集。368816数据集中的每个数据集都属于0到40类。但是，这是不平衡的。103260类数据集的

浏览 2提问于2017-09-21得票数 0

回答已采纳

2回答

什么时候用t分布代替正态分布？

、

根据学生t分布 wiki的文章，t分布被用来代替正态分布，“在样本规模小且总体标准差未知的情况下，估计正态分布种群的平均值”。一个未知的总体标准差意味着它将不得不从样本本身估计，这是不准确的，与小样本的大小。根据Z-试验 wiki的文章，样本大小>= 30意味着使用正态分布，样本大小< 30意味着使用t分布。(T检验

浏览 0提问于2019-11-10得票数 2

1回答

模拟t -distributions -随机样本

我是新的模拟演习在R，我想创建1000个样本大小25从t分布与自由度10。singlevector <- rt(5000, 10)，它从大小为5000的t分布中生成数据，df = 10。因此，我将把它作为我的总体，然后从它中取样。或者，我应该创建我的1000个样本调用这个随机的t生成器每次？换句话说，创建一个包含25行和1000列

浏览 4提问于2016-11-23得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

只读取一次文件进行分层采样

分层抽样变量选择

在理解一个小例子时需要帮助

生成不涉及指数的排序随机数？

在机器学习中，使用分层抽样来选择测试集数据有什么意义？

蟒蛇前科分层抽样

由bootstrap方法得到的经验分布计算置信区间

R中简单蒙特卡罗积分的错误结果

如何在R中将总体分布箱图与分组箱图放在一起

为什么我的分类器无法学习正类？

R中不同周转度物种丰度的模拟数据集

真正的误差和样本误差是什么？

PySpark比例分层抽样"sampleBy“

R中对数正态分布Mu的置信区间

半球分层余弦加权样本的生成

从概念上理解模拟退火

不平衡数据的分层平衡抽样(机器学习)

什么时候用t分布代替正态分布？

模拟t -distributions -随机样本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐