腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4946)
视频
沙龙
1
回答
如
何在
Pyspark
中
从
十亿
行
数据
集中
随机
抽取
行
我有一个2000亿
行
的
数据
集,我想
随机
提取100万
行
来开始处理
数据
模型。 我使用的是
pyspark
。 处理
十亿
行
的最佳方式应该是什么?
浏览 63
提问于2019-09-30
得票数 0
2
回答
从
200
数据
集中
抽取
10000个
随机
行
、
、
我正在尝试从一个大约30亿
行
(带标题)的大型
数据
集中
随机
抽取
10000
行
数据
。NR]=$0} END{for(i=1; i<=10; i++){x=int(rand()*NR) + 1; print a[x];}}' input.file > output.file来处理较小文件
中
的一定比例的
行
我想知道是否有更有效的解决方案来
从
200 of
数据
集中
采样
浏览 0
提问于2020-07-03
得票数 1
3
回答
使用
pyspark
/ spark对大型分布式
数据
集进行采样
、
我在hdfs中有一个文件,它分布在集群
中
的所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") File "/opt/
浏览 1
提问于2014-07-17
得票数 16
回答已采纳
9
回答
从
查询结果
中
随机
选择结果样本
、
、
询问如何获取SQL Server上的
随机
(Ish)记录样本,得到的答案是使用TABLESAMPLE。Oracle10
中
有没有类似的东西? 如果没有,有没有一种
从
查询
集中
随机
抽取
结果的标准方法?例如,如何从一个正常返回数百万的查询
中
获得1000个
随机
行
?
浏览 1
提问于2009-04-09
得票数 69
回答已采纳
1
回答
向
数据
框添加
随机
因子值的
行
我有一个填充了因子列的
数据
框,并且我想添加一个
随机
的因子值
行
。我该怎么做呢?.: 现在,我想让random_row(df2)
随机
产生list("YES", "other", "do_not_know")、list("YES", "other", "yes")或list("YES(它也不总是相同的
数据
帧,我想要一个泛型函数。约束是所有列都将始终是因子值的。)
浏览 0
提问于2012-01-04
得票数 0
回答已采纳
6
回答
PySpark
下降
行
、
、
如
何在
PySpark
中
从
RDD
中
删除
行
?特别是第一
行
,因为这往往在我的
数据
集中
包含列名。通过仔细阅读API,我似乎找不到一种简单的方法来做到这一点。当然,我可以通过Bash / HDFS来完成这个任务,但我只想知道这是否可以在
PySpark
内部完成。
浏览 5
提问于2014-07-13
得票数 28
回答已采纳
2
回答
使用替换对R
中
的
数据
帧的
随机
行进行采样
、
、
我希望能够使用bootstrapping为一些测试统计
数据
生成一些置信区间。我希望能够做的是使用原始
数据
集的采样和替换来绘制引导
数据
集。我假设这将是一个大小为n的
数据
集(其中n小于原始
数据
集的大小),它从具有替换的完整
数据
集中
采样观察值/
数据
行
(以便某些
行
可能被绘制两次)。我现在拥有的单次迭代的代码如下:此代码
浏览 0
提问于2018-09-11
得票数 0
3
回答
如何
从
PySpark
DataFrame
中
随机
抽取
一
行
?
、
、
、
、
如何
从
PySpark
DataFrame获取
随机
行
?我只看到了sample()方法,它接受一个分数作为参数。将这个分数设置为1/numberOfRows会导致
随机
结果,有时我不会得到任何
行
。
浏览 0
提问于2015-12-01
得票数 40
回答已采纳
1
回答
随机
选择Python
中
不同百分比的
数据
、
、
、
我有一个有101
行
的
数据
集,我使用Pandas将其导入Python (作为csv文件)。实际上,我想要在0到1之间
随机
生成一个数字,并根据结果
从
数据
集中
随机
选择等效百分比。因此,例如,
随机
生成的0.89个数字将需要选择89%的
数据
。 我还想说明不同的百分比,例如,我有89%、8%和3%的
随机
抽取
数据
。因此,我可以根据所选
数据
的X% (例如,3%选定的
行</
浏览 1
提问于2018-09-18
得票数 1
回答已采纳
5
回答
数据
帧
中
每组样本n个
随机
行
、
、
、
从这些问题-- & --我可以很容易地看到如何
从
df
中
随机
抽取
(选择)n‘
行
,或者
从
df
中
的特定因素
中
抽取
“n”
行
。以下是一些样本
数据
:df$color <- rep(c("blue", "red", "yellow", &
浏览 3
提问于2014-05-23
得票数 29
回答已采纳
2
回答
随机
抽取
大熊猫的
数据
集
、
我试图
从
500
行
的
数据
集中
随机
抽取
150条线。所以我会随意做。我的
数据
puppy,white,animal pants,black,clothing import pandas
浏览 0
提问于2018-08-24
得票数 2
回答已采纳
1
回答
大型
数据
集上的BigQuery
中
的RANK或ROW_NUMBER
、
、
我需要将行号添加到BigQuery
中
的一个大型(大约
十亿
行
)
数据
集中
。如
何在
BigQuery中将行号添加到大型
数据
集中
?
浏览 1
提问于2015-10-21
得票数 4
回答已采纳
1
回答
如
何在
Pyspark
Dataframe
中
训练和测试拆分的时间序列
数据
、
、
、
我想对排序后的
Pyspark
数据
帧进行基于时间的训练测试拆分。假设前300
行
将在训练
集中
,下200
行
将在测试拆分
中
。我可以用以下命令选择前300
行
: train = df.show(300) 但是如何
从
Pyspark
dataframe中选择最后200
行
呢?
浏览 14
提问于2019-03-13
得票数 1
1
回答
文本
数据
集(NLP)抽样方法
、
、
、
、
我正在处理两个文本
数据
集,一个是68k文本样本,另一个是100k文本样本。我已将文本
数据
集编码为bert嵌入。要快速检查不同的模型,最好的方法是
从
整个种群
中
获取一小部分
数据
集,并将其提供给不同的算法。最后,选择最优算法对整个
数据
集进行拟合。我计划至少
从
68k
数据
集中
抽取
10k样本子集,
从
100 k
数据
集中
抽取
10k子集。我可以
从
浏览 0
提问于2020-08-30
得票数 1
2
回答
将
数据
子集获取到qplot
、
、
、
我
从
MySQL
数据
库获取了相当多的
数据
。大约150‘s。为了更酷,我包括了这个图表:我想重新绘制这个图,
从
SQL查询
中
随机
抽样
行
。
浏览 2
提问于2015-03-20
得票数 0
回答已采纳
3
回答
如果一组
中
的行数超过X个观测数,则
随机
抽样X行数
、
、
我需要减少
数据
集中
的行数。要做到这一点,我的策略是将组
中
的行数超过X个观察值,如果组
中
的行数超过X行数,则
随机
从
每个组
中
抽取
X行数。假设以下
数据
集:n <- 10 group = sample(1:3, n,让我们数一数每个组
中
的行数。
浏览 6
提问于2022-04-14
得票数 3
回答已采纳
2
回答
如
何在
Python
中
检查样本是否与总体具有相同的概率分布?
、
、
我有一个有数百万行的Dataframe,为了创建一个模型,我使用dataset.sample(int(len(dataset)/5))从这个
数据
集中
随机
抽取
了一个样本,它从对象的轴返回一个
随机
的项目样本现在我想验证样本是否不会
从
总体
中
失去统计意义,即确保样本的每个特征(列)的概率分布对于整个
数据
集(总体)具有相同的概率分布。我既有数字特征,也有分类特征。如
何在
Python
中
检查这些特征是否具有相同的概率分布
浏览 102
提问于2020-12-18
得票数 2
回答已采纳
1
回答
从
熊猫
数据
随机
丢弃n组
、
、
、
我有一个15466
行
×125列的
数据
格式。列"Subject ID“(15466
行
)包含400个唯一ID,每个ID大约出现40次。我想从我的
数据
中
随机
删除10个主题(cca 400
行
)。到目前为止,我尝试过这个:但是我意识到这个函数
从
每个Subject_ID
中
随机</
浏览 4
提问于2020-05-14
得票数 1
回答已采纳
2
回答
Python:如何将
数据
采样到测试和培训
数据
集中
?
、
、
我一直在使用CSV
数据
来实现我的脚本,并希望将
数据
采样到两个
数据
集中
: 我希望在85%和15%的分区
中
对
数据
集进行采样,并希望输出两个CSV文件Test.csv和Train.csv我希望在基本Python
中
这样做,并且不想使用任何其他外部模块,
如
Numpy、SciPy、Pandas或Scikitlearn。有人能帮我按百分比
随机
抽取
数据<
浏览 5
提问于2016-03-15
得票数 3
回答已采纳
1
回答
从
DataFrame
中
的所有组
中
抽取
示例
、
如何
从
数据
帧
中
的每个组
中
随机
或交替地
从
每个组
中
抽取
一个示例(例如,10%的
随机
行
或每一
行
行
)?
浏览 0
提问于2017-03-31
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
ETL工程师必看!超实用的任务优化与断点执行方案
数据的消减“策略”(二)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券