如何在Pyspark中从十亿行数据集中随机抽取行

我有一个2000亿行的数据集，我想随机提取100万行来开始处理数据模型。我使用的是pyspark。处理十亿行的最佳方式应该是什么？

浏览 63提问于2019-09-30得票数 0

2回答

从200数据集中抽取10000个随机行

、、

我正在尝试从一个大约30亿行(带标题)的大型数据集中随机抽取10000行数据。NR]=$0} END{for(i=1; i<=10; i++){x=int(rand()*NR) + 1; print a[x];}}' input.file > output.file来处理较小文件中的一定比例的行我想知道是否有更有效的解决方案来从200 of数据集中采样

浏览 0提问于2020-07-03得票数 1

3回答

使用pyspark* / spark对大型分布式数据集进行采样*

、

我在hdfs中有一个文件，它分布在集群中的所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") File "/opt/

浏览 1提问于2014-07-17得票数 16

回答已采纳

9回答

从查询结果中随机选择结果样本

、、

询问如何获取SQL Server上的随机(Ish)记录样本，得到的答案是使用TABLESAMPLE。Oracle10中有没有类似的东西？如果没有，有没有一种从查询集中随机抽取结果的标准方法？例如，如何从一个正常返回数百万的查询中获得1000个随机行？

浏览 1提问于2009-04-09得票数 69

回答已采纳

1回答

向数据框添加随机因子值的行

我有一个填充了因子列的数据框，并且我想添加一个随机的因子值行。我该怎么做呢？.: 现在，我想让random_row(df2)随机产生list("YES", "other", "do_not_know")、list("YES", "other", "yes")或list("YES(它也不总是相同的数据帧，我想要一个泛型函数。约束是所有列都将始终是因子值的。)

浏览 0提问于2012-01-04得票数 0

回答已采纳

6回答

PySpark下降行

、、

如何在PySpark中从RDD中删除行？特别是第一行，因为这往往在我的数据集中包含列名。通过仔细阅读API，我似乎找不到一种简单的方法来做到这一点。当然，我可以通过Bash / HDFS来完成这个任务，但我只想知道这是否可以在PySpark内部完成。

浏览 5提问于2014-07-13得票数 28

回答已采纳

2回答

使用替换对R中的数据帧的随机行进行采样

、、

我希望能够使用bootstrapping为一些测试统计数据生成一些置信区间。我希望能够做的是使用原始数据集的采样和替换来绘制引导数据集。我假设这将是一个大小为n的数据集(其中n小于原始数据集的大小)，它从具有替换的完整数据集中采样观察值/数据行(以便某些行可能被绘制两次)。我现在拥有的单次迭代的代码如下：此代码

浏览 0提问于2018-09-11得票数 0

3回答

如何从PySpark* DataFrame中随机抽取一行？*

、、、、

如何从PySpark DataFrame获取随机行？我只看到了sample()方法，它接受一个分数作为参数。将这个分数设置为1/numberOfRows会导致随机结果，有时我不会得到任何行。

浏览 0提问于2015-12-01得票数 40

回答已采纳

1回答

随机选择Python中不同百分比的数据

、、、

我有一个有101行的数据集，我使用Pandas将其导入Python (作为csv文件)。实际上，我想要在0到1之间随机生成一个数字，并根据结果从数据集中随机选择等效百分比。因此，例如，随机生成的0.89个数字将需要选择89%的数据。我还想说明不同的百分比，例如，我有89%、8%和3%的随机抽取数据。因此，我可以根据所选数据的X% (例如，3%选定的行</

浏览 1提问于2018-09-18得票数 1

回答已采纳

5回答

数据帧中每组样本n个随机行

、、、

从这些问题-- & --我可以很容易地看到如何从df中随机抽取(选择)n‘行，或者从df中的特定因素中抽取“n”行。以下是一些样本数据：df$color <- rep(c("blue", "red", "yellow", &

浏览 3提问于2014-05-23得票数 29

回答已采纳

2回答

随机抽取大熊猫的数据集

、

我试图从500行的数据集中随机抽取150条线。所以我会随意做。我的数据 puppy,white,animal pants,black,clothing import pandas

浏览 0提问于2018-08-24得票数 2

回答已采纳

1回答

大型数据集上的BigQuery中的RANK或ROW_NUMBER

、、

我需要将行号添加到BigQuery中的一个大型(大约十亿行)数据集中。如何在BigQuery中将行号添加到大型数据集中？

浏览 1提问于2015-10-21得票数 4

回答已采纳

1回答

如何在Pyspark* Dataframe中训练和测试拆分的时间序列数据*

、、、

我想对排序后的Pyspark数据帧进行基于时间的训练测试拆分。假设前300行将在训练集中，下200行将在测试拆分中。我可以用以下命令选择前300行： train = df.show(300) 但是如何从Pyspark dataframe中选择最后200行呢？

浏览 14提问于2019-03-13得票数 1

1回答

文本数据集(NLP)抽样方法

、、、、

我正在处理两个文本数据集，一个是68k文本样本，另一个是100k文本样本。我已将文本数据集编码为bert嵌入。要快速检查不同的模型，最好的方法是从整个种群中获取一小部分数据集，并将其提供给不同的算法。最后，选择最优算法对整个数据集进行拟合。我计划至少从68k数据集中抽取10k样本子集，从100 k数据集中抽取10k子集。我可以从

浏览 0提问于2020-08-30得票数 1

2回答

将数据子集获取到qplot

、、、

我从MySQL数据库获取了相当多的数据。大约150‘s。为了更酷，我包括了这个图表：我想重新绘制这个图，从SQL查询中随机抽样行。

浏览 2提问于2015-03-20得票数 0

回答已采纳

3回答

如果一组中的行数超过X个观测数，则随机抽样X行数

、、

我需要减少数据集中的行数。要做到这一点，我的策略是将组中的行数超过X个观察值，如果组中的行数超过X行数，则随机从每个组中抽取X行数。假设以下数据集：n <- 10 group = sample(1:3, n,让我们数一数每个组中的行数。

浏览 6提问于2022-04-14得票数 3

回答已采纳

2回答

我有一个有数百万行的Dataframe，为了创建一个模型，我使用dataset.sample(int(len(dataset)/5))从这个数据集中随机抽取了一个样本，它从对象的轴返回一个随机的项目样本现在我想验证样本是否不会从总体中失去统计意义，即确保样本的每个特征(列)的概率分布对于整个数据集(总体)具有相同的概率分布。我既有数字特征，也有分类特征。如何在Python中检查这些特征是否具有相同的概率分布

浏览 102提问于2020-12-18得票数 2

回答已采纳

1回答

从熊猫数据随机丢弃n组

、、、

我有一个15466行×125列的数据格式。列"Subject ID“(15466行)包含400个唯一ID，每个ID大约出现40次。我想从我的数据中随机删除10个主题(cca 400行)。到目前为止，我尝试过这个：但是我意识到这个函数从每个Subject_ID中随机</

浏览 4提问于2020-05-14得票数 1

回答已采纳

2回答

Python:如何将数据采样到测试和培训数据集中？

、、

我一直在使用CSV数据来实现我的脚本，并希望将数据采样到两个数据集中：我希望在85%和15%的分区中对数据集进行采样，并希望输出两个CSV文件Test.csv和Train.csv我希望在基本Python中这样做，并且不想使用任何其他外部模块，如Numpy、SciPy、Pandas或Scikitlearn。有人能帮我按百分比随机抽取数据<

浏览 5提问于2016-03-15得票数 3

回答已采纳

1回答

从DataFrame中的所有组中抽取示例

、

如何从数据帧中的每个组中随机或交替地从每个组中抽取一个示例(例如，10%的随机行或每一行行)？

浏览 0提问于2017-03-31得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从200数据集中抽取10000个随机行

使用pyspark* / spark对大型分布式数据集进行采样*

从查询结果中随机选择结果样本

向数据框添加随机因子值的行

PySpark下降行

使用替换对R中的数据帧的随机行进行采样

如何从PySpark* DataFrame中随机抽取一行？*

随机选择Python中不同百分比的数据

数据帧中每组样本n个随机行

随机抽取大熊猫的数据集

大型数据集上的BigQuery中的RANK或ROW_NUMBER

如何在Pyspark* Dataframe中训练和测试拆分的时间序列数据*

文本数据集(NLP)抽样方法

将数据子集获取到qplot

如果一组中的行数超过X个观测数，则随机抽样X行数

如何在Python中检查样本是否与总体具有相同的概率分布？

从熊猫数据随机丢弃n组

Python:如何将数据采样到测试和培训数据集中？

从DataFrame中的所有组中抽取示例

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐