腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
R
中
的
数据
集中
获取
不成比例
的
样本
、
、
如果我在
R
中有一个很大
的
数据
集,我如何在考虑原始
数据
分布
的
情况下随机抽取
数据
样本
,特别是如果
数据
是倾斜
的
,并且只有1%属于一个小类,而我想要对
数据
进行有偏见
的
抽样?
浏览 0
提问于2012-04-20
得票数 13
1
回答
从
R
中
的
数据
集中
获取
多个
样本
我
的
问题是,我必须
从
数据
集中
获取
多个
样本
,以便使用得到
的
样本
进行多个线性回归。使用下面的代码,我可以一次获得一个
样本
,但我想更有效地完成它。mysample <- mydf[sample(1:32619,25),]
数据
集
的
前25行如下所示;总共有32,61979 45 81
浏览 1
提问于2014-11-01
得票数 1
1
回答
关于团体归属
的
培训和测试集
我在
R
中使用下面的函数将受试者/
样本
分割成训练和测试集,它工作得很好。然而,在我
的
数据
集中
,受试者被分为两组(病人和对照组),因此,我希望将
数据
分成两组,同时保持每个培训和测试
集中
患者和对照组所占比例与完整
数据
集
的
比例相同。我怎样才能在
R
中
做到这一点?如何修改以下功能,使其在将
数据
拆分为培训和测试集时考虑到组间
的
隶属关系?这个
数据
集有1
浏览 3
提问于2013-09-22
得票数 1
回答已采纳
3
回答
如何
获取
r
中
数据
集中
的
多个
样本
的
距离
、
我试图计算和保存一个输出文件,该文件给出了与
R
中
的
多个
样本
相关联
的
长/拉特坐标的所有距离。
数据
示例:A 70 141C71 143我目前正在使用
r
中
的
地球圈包,特别是distVince
浏览 6
提问于2016-05-12
得票数 1
回答已采纳
1
回答
R
:海量
数据
的
简单随机
样本
、
我有一个庞大
的
(8GB)
数据
集,我无法使用我现有的设置读取到
R
。试图在dataset上使用fread会立即使
R
会话崩溃,并且试图
从
底层文件
中
随机读取行是不够
的
,因为:(1)我无法很好地了解
数据
集中
的
总行数;(2)我
的
方法不是真正
的
“随机抽样”。这些
获取
行数
的
尝试都失败了(只要简单地读取
数据
就可以了): length(coun
浏览 6
提问于2017-12-08
得票数 3
回答已采纳
1
回答
Keras flow_from_directory会遍历目录
中
的
每个
样本
吗?
、
、
在Keras预处理迭代器模块
中
,flow_from_directory方法用于
从
包含图像
的
子目录
的
目录创建ImageDataGenerator。迭代器无限运行,创建多批图像。我
的
问题是,它是否遍历每个时期
的
每个
样本
? 例如,如果我总共有300张图片,批处理大小是30,如果我做了10个步骤,它会遍历每个
样本
一次吗?或者每个步骤都是整个
数据
集中
的
独立随机
样本
?如果我们确实迭代了每个<e
浏览 8
提问于2018-03-01
得票数 0
1
回答
R
(
R
指挥官)-
样本
、
、
、
我在为示例函数而挣扎,如何
从
dataset变量
中
抽取50个
样本
?在我
的
数据
集中
,有82个变量,我不知道如何从一个变量
中
取样.;我只想从
R
指挥官(或
R
)
的
一个变量(或
R
)
中
随机抽取50个
样本
。
浏览 4
提问于2014-10-12
得票数 1
回答已采纳
1
回答
从
tensorflow
数据
集中
获取
错误分类
的
样本
、
读取图像
数据
时 '.image_size=(img_height, img_width), crop_to_aspect_ratio=True它们存储在tensorflow
数据
集中
我用相同
的
例程读取验证
数据
。为了分析我
的
NN (一个顺序
的
tensorflow NN),我想绘制错误分类
浏览 10
提问于2022-01-02
得票数 0
1
回答
如何
从
数据
集中
采样并
获取
初始
数据
集中
样本
的
索引
、
、
、
、
我有一个形状为(1000,10)
的
数据
集A。我想做这样
的
采样:怎样才能得到包含B
的
A
的
索引?或者我如何根据B对A进行排序,以便在A
的
开头有200行B?
浏览 0
提问于2021-02-15
得票数 1
3
回答
如何在
r
中选择子
样本
?
、
、
我需要用交叉验证
的
方法在
R
中
回溯预测模型。x1 <- x[1:80, ] 通过这种方式,我
从
数据
集中
的<
浏览 2
提问于2015-07-04
得票数 0
回答已采纳
1
回答
如何每次
从
数据
集中
抽取相同
的
随机
样本
、
、
我有一个由近700万个观测
数据
组成
的
数据
集,我想要随机抽取
数据
样本
来分析一个子集。我知道如何对
数据
进行随机抽样:flights <- flight[index, ] 是否有一种方法来
获取
一个随机
样本
,但一旦在我
的
数据
集中
创建,总是给我相同
的
随机
样本
?我希望这样做,而不必依赖于拯救我<em
浏览 0
提问于2015-06-07
得票数 3
回答已采纳
1
回答
在dplyr,
R
中
取一个没有分组
的
样本
。
、
、
、
我知道如何使用dplyr
中
的
sample_n或sample_frac
从
数据
中
抽取每个组
的
随机
样本
,可以这样做, group_by(user_id) %>%然而,我有一个稍微不同
的
问题。我想从整个
数据
集中
随机抽取一个
样本
。应该像这个一样简单,但是,由于在前面的示例
中
,我
浏览 2
提问于2016-08-18
得票数 2
回答已采纳
1
回答
tf.data.Dataset.repeat()与iterator.initializer
的
区别
、
、
Tensorflow有tf.data.Dataset.repeat(x),可以迭代
数据
x次数。我
的
问题是,在使用tf.data.Dataset.repeat(x)技术与iterator.initializer技术时,是否存在差异?
浏览 0
提问于2019-08-29
得票数 3
回答已采纳
1
回答
文本
数据
集(NLP)抽样方法
、
、
、
、
我正在处理两个文本
数据
集,一个是68k文本
样本
,另一个是100k文本
样本
。我已将文本
数据
集编码为bert嵌入。NLP模型,但是dataset很大,可以快速测试模型
的
性能。要快速检查不同
的
模型,最好
的
方法是
从
整个种群
中
获取
一小部分
数据
集,并将其提供给不同
的
算法。最后,选择最优算法对整个
数据
集进行拟合。我计划至少
从
68k
数据
浏览 0
提问于2020-08-30
得票数 1
3
回答
R
中
的
简单
样本
循环
我有一个由52个数字组成
的
数据
集(有些是相同
的
数字),我需要从这个
数据
集中
获取
2000个大小为5
的
样本
。如何在
R
控制台中使用示例和循环函数执行此操作?
浏览 1
提问于2013-10-11
得票数 1
1
回答
sas测量柱上
的
挠曲选择
我试图创建一个基于2列
的
带有proc surveyselect
的
唯一
样本
数据
集。我有一张带有person_id和household_id
的
简单桌子。在本例
中
,person_id是我
的
“主键”,它是创建示例
的
主要输入。但是,我需要确保不要在
样本
数据
和基本
数据
之间混合household_id。因此,如果household_id = 123是示例,则不允许它出现在基本
数据
中</e
浏览 2
提问于2017-03-28
得票数 0
回答已采纳
2
回答
R
分阶段抽样
、
我正在运行一些人口普查
数据
的
抽样模拟,我想分两个阶段进行抽样。 但是,我想从每个村庄
的
25个抽样家庭
中</e
浏览 1
提问于2013-03-12
得票数 1
回答已采纳
1
回答
将大型
数据
集转换为随机
样本
块
、
、
我有一个很大
的
100 to
的
数据
集,我想要做一个由500个
数据
组成
的
随机
样本
。我试过使用下面的方法,但是
数据
正在重复吗?
浏览 13
提问于2022-07-21
得票数 1
回答已采纳
2
回答
如何
从
具有相同标签
的
数据
集(如sklearn.digit
数据
集)生成子示例
、
、
、
在我们
的
演示
中
,我们将只使用sklearn
中
的
10位
数据
集。五位数
数据
集由
从
数字0到数字9
的
10个类组成。load_digits()print(digits.target.shape)(1797, 64)因此,每个数字都由一些
样本
数据
集组成我想从
数据
集中
获得每个类
的
子
浏览 1
提问于2022-07-21
得票数 1
3
回答
向上采样不平衡
数据
集
的
次要类
、
、
我正在使用scikit-学习分类我
的
数据
,目前我正在运行一个简单
的
DecisionTree分类器。我有三节课有一个很大
的
不平衡问题。类是0,1和2,小班是1和2。为了让您了解这些类
的
样本
数量:1 = 15/20 less or more因此,次要类约占
数据
集
的
0.06%。我解决这个不平衡问题
的
方法是辅导班
的
UP
浏览 0
提问于2018-11-09
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用DNS和SQLi从数据库中获取数据样本
从机器学习中获取价值的正确姿势
从用户交易数据集中寻找商品之间的关联规则
jQuery中获取服务器数据的方法
R中数据的标记和赋值演示(二)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券