从R中的数据集中获取不成比例的样本

、、

如果我在R中有一个很大的数据集，我如何在考虑原始数据分布的情况下随机抽取数据样本，特别是如果数据是倾斜的，并且只有1%属于一个小类，而我想要对数据进行有偏见的抽样？

浏览 0提问于2012-04-20得票数 13

1回答

从R中的数据集中获取多个样本

我的问题是，我必须从数据集中获取多个样本，以便使用得到的样本进行多个线性回归。使用下面的代码，我可以一次获得一个样本，但我想更有效地完成它。mysample <- mydf[sample(1:32619,25),] 数据集的前25行如下所示；总共有32,61979 45 81

浏览 1提问于2014-11-01得票数 1

1回答

关于团体归属的培训和测试集

我在R中使用下面的函数将受试者/样本分割成训练和测试集，它工作得很好。然而，在我的数据集中，受试者被分为两组(病人和对照组)，因此，我希望将数据分成两组，同时保持每个培训和测试集中患者和对照组所占比例与完整数据集的比例相同。我怎样才能在R中做到这一点？如何修改以下功能，使其在将数据拆分为培训和测试集时考虑到组间的隶属关系？这个数据集有1

浏览 3提问于2013-09-22得票数 1

回答已采纳

3回答

如何获取r中数据集中的多个样本的距离

、

我试图计算和保存一个输出文件，该文件给出了与R中的多个样本相关联的长/拉特坐标的所有距离。数据示例：A 70 141C71 143我目前正在使用r中的地球圈包，特别是distVince

浏览 6提问于2016-05-12得票数 1

回答已采纳

1回答

R:海量数据的简单随机样本

、

我有一个庞大的(8GB)数据集，我无法使用我现有的设置读取到R。试图在dataset上使用fread会立即使R会话崩溃，并且试图从底层文件中随机读取行是不够的，因为：(1)我无法很好地了解数据集中的总行数；(2)我的方法不是真正的“随机抽样”。这些获取行数的尝试都失败了(只要简单地读取数据就可以了)： length(coun

浏览 6提问于2017-12-08得票数 3

回答已采纳

1回答

Keras flow_from_directory会遍历目录中的每个样本吗？

、、

在Keras预处理迭代器模块中，flow_from_directory方法用于从包含图像的子目录的目录创建ImageDataGenerator。迭代器无限运行，创建多批图像。我的问题是，它是否遍历每个时期的每个样本？例如，如果我总共有300张图片，批处理大小是30，如果我做了10个步骤，它会遍历每个样本一次吗？或者每个步骤都是整个数据集中的独立随机样本？如果我们确实迭代了每个<e

浏览 8提问于2018-03-01得票数 0

1回答

R (R指挥官)-样本

、、、

我在为示例函数而挣扎，如何从dataset变量中抽取50个样本？在我的数据集中，有82个变量，我不知道如何从一个变量中取样.；我只想从R指挥官(或R)的一个变量(或R)中随机抽取50个样本。

浏览 4提问于2014-10-12得票数 1

回答已采纳

1回答

从tensorflow数据集中获取错误分类的样本

、

读取图像数据时 '.image_size=(img_height, img_width), crop_to_aspect_ratio=True它们存储在tensorflow数据集中我用相同的例程读取验证数据。为了分析我的NN (一个顺序的tensorflow NN)，我想绘制错误分类

浏览 10提问于2022-01-02得票数 0

1回答

如何从数据集中采样并获取初始数据集中样本的索引

、、、、

我有一个形状为(1000，10)的数据集A。我想做这样的采样：怎样才能得到包含B的A的索引？或者我如何根据B对A进行排序，以便在A的开头有200行B？

浏览 0提问于2021-02-15得票数 1

3回答

如何在r中选择子样本？

、、

我需要用交叉验证的方法在R中回溯预测模型。x1 <- x[1:80, ] 通过这种方式，我从数据集中的<

浏览 2提问于2015-07-04得票数 0

回答已采纳

1回答

如何每次从数据集中抽取相同的随机样本

、、

我有一个由近700万个观测数据组成的数据集，我想要随机抽取数据样本来分析一个子集。我知道如何对数据进行随机抽样：flights <- flight[index, ] 是否有一种方法来获取一个随机样本，但一旦在我的数据集中创建，总是给我相同的随机样本？我希望这样做，而不必依赖于拯救我<em

浏览 0提问于2015-06-07得票数 3

回答已采纳

1回答

在dplyr，R中取一个没有分组的样本。

、、、

我知道如何使用dplyr中的sample_n或sample_frac从数据中抽取每个组的随机样本，可以这样做， group_by(user_id) %>%然而，我有一个稍微不同的问题。我想从整个数据集中随机抽取一个样本。应该像这个一样简单，但是，由于在前面的示例中，我

浏览 2提问于2016-08-18得票数 2

回答已采纳

1回答

tf.data.Dataset.repeat()与iterator.initializer的区别

、、

Tensorflow有tf.data.Dataset.repeat(x)，可以迭代数据x次数。我的问题是，在使用tf.data.Dataset.repeat(x)技术与iterator.initializer技术时，是否存在差异？

浏览 0提问于2019-08-29得票数 3

回答已采纳

1回答

文本数据集(NLP)抽样方法

、、、、

我正在处理两个文本数据集，一个是68k文本样本，另一个是100k文本样本。我已将文本数据集编码为bert嵌入。NLP模型，但是dataset很大，可以快速测试模型的性能。要快速检查不同的模型，最好的方法是从整个种群中获取一小部分数据集，并将其提供给不同的算法。最后，选择最优算法对整个数据集进行拟合。我计划至少从68k数据

浏览 0提问于2020-08-30得票数 1

3回答

R中的简单样本循环

我有一个由52个数字组成的数据集(有些是相同的数字)，我需要从这个数据集中获取2000个大小为5的样本。如何在R控制台中使用示例和循环函数执行此操作？

浏览 1提问于2013-10-11得票数 1

1回答

sas测量柱上的挠曲选择

我试图创建一个基于2列的带有proc surveyselect的唯一样本数据集。我有一张带有person_id和household_id的简单桌子。在本例中，person_id是我的“主键”，它是创建示例的主要输入。但是，我需要确保不要在样本数据和基本数据之间混合household_id。因此，如果household_id = 123是示例，则不允许它出现在基本数据中</e

浏览 2提问于2017-03-28得票数 0

回答已采纳

2回答

R分阶段抽样

、

我正在运行一些人口普查数据的抽样模拟，我想分两个阶段进行抽样。但是，我想从每个村庄的25个抽样家庭中</e

浏览 1提问于2013-03-12得票数 1

回答已采纳

1回答

将大型数据集转换为随机样本块

、、

我有一个很大的100 to的数据集，我想要做一个由500个数据组成的随机样本。我试过使用下面的方法，但是数据正在重复吗？

浏览 13提问于2022-07-21得票数 1

回答已采纳

2回答

如何从具有相同标签的数据集(如sklearn.digit数据集)生成子示例

、、、

在我们的演示中，我们将只使用sklearn中的10位数据集。五位数数据集由从数字0到数字9的10个类组成。load_digits()print(digits.target.shape)(1797, 64)因此，每个数字都由一些样本数据集组成我想从数据集中获得每个类的子

浏览 1提问于2022-07-21得票数 1

3回答

向上采样不平衡数据集的次要类

、、

我正在使用scikit-学习分类我的数据，目前我正在运行一个简单的DecisionTree分类器。我有三节课有一个很大的不平衡问题。类是0,1和2，小班是1和2。为了让您了解这些类的样本数量：1 = 15/20 less or more因此，次要类约占数据集的0.06%。我解决这个不平衡问题的方法是辅导班的UP

浏览 0提问于2018-11-09得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从R中的数据集中获取多个样本

关于团体归属的培训和测试集

如何获取r中数据集中的多个样本的距离

R:海量数据的简单随机样本

Keras flow_from_directory会遍历目录中的每个样本吗？

R (R指挥官)-样本

从tensorflow数据集中获取错误分类的样本

如何从数据集中采样并获取初始数据集中样本的索引

如何在r中选择子样本？

如何每次从数据集中抽取相同的随机样本

在dplyr，R中取一个没有分组的样本。

tf.data.Dataset.repeat()与iterator.initializer的区别

文本数据集(NLP)抽样方法

R中的简单样本循环

sas测量柱上的挠曲选择

R分阶段抽样

将大型数据集转换为随机样本块

如何从具有相同标签的数据集(如sklearn.digit数据集)生成子示例

向上采样不平衡数据集的次要类

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐