在Spark中有没有一种方法来获得RDD，它是另一个RDD的给定确切大小的随机子集？

在Spark中，可以使用sample方法来获得一个RDD的给定确切大小的随机子集。

sample方法是RDD的一个转换操作，它可以从RDD中随机抽取一部分数据作为子集。该方法接受三个参数：withReplacement、fraction和seed。

withReplacement参数是一个布尔值，表示是否进行有放回抽样。如果设置为true，则抽样时允许重复抽取同一个元素；如果设置为false，则抽样时不会重复抽取同一个元素。
fraction参数是一个0到1之间的浮点数，表示抽样的比例。例如，设置为0.5表示抽样得到的子集大小为原RDD大小的一半。
seed参数是一个可选的随机种子，用于控制随机数生成的过程，保证每次运行时得到的随机子集是一致的。

下面是一个示例代码：

# 导入pyspark模块
from pyspark import SparkContext

# 创建SparkContext对象
sc = SparkContext("local", "Sample RDD")

# 创建一个RDD
rdd = sc.parallelize(range(1, 101))

# 获取一个给定确切大小的随机子集
sampled_rdd = rdd.sample(False, 0.2, 42)

# 打印抽样结果
print(sampled_rdd.collect())

# 关闭SparkContext对象
sc.stop()

在上述示例中，我们创建了一个包含1到100的整数的RDD，并使用sample方法抽样得到了一个大小为原RDD大小的20%的随机子集。最后，我们通过collect方法将抽样结果打印出来。

关于Spark的更多信息和使用方法，可以参考腾讯云的产品介绍页面：Spark

页面内容是否对你有帮助？

有帮助

没帮助

在Spark中有没有一种方法来获得RDD，它是另一个RDD的给定确切大小的随机子集？

、

我知道RDD有“sample”方法，它返回一个新的RDD，其中包含随机选择的原始RDD的给定部分。然而，由于每个元素都是随机选择的，因此新RDD的大小并不是确定性的。还有'takeSample‘方法，它返回一个RDD的输入整数个元素。但是，这将返回一个列表，而不是一个新的RD

浏览 4提问于2017-08-02得票数 0

1回答

火花应用中的压缩比

、、、

我正在使用Spark在集群中做一些基准测试。在各种事情中，我想得到一个通过序列化和压缩实现的平均尺寸缩减的良好近似。我运行在客户端部署模式和本地主机，厌倦了版本1.6和2.2版本的火花。我想要计算内存中的大小，然后是磁盘上的大小，所以分数应该是我的答案。我显然没有问题，获得磁盘上的大小，但我真的是挣扎在内存中的

浏览 0提问于2018-08-12得票数 0

5回答

SubtractByKey和保留拒绝的值

、

我在玩spark，我被一些看起来很愚蠢的东西卡住了。假设我们有两个RDD：rdd2 = {(3, 9)} 如果我在做rdd1.substrackByKey(rdd2)，我会得到{(1, 2)}，它是完全没问题的。但是我也想把被拒绝的值{(3,4),(3,6)}保存到另一个RDD中，spark

浏览 0提问于2015-11-06得票数 1

2回答

我们可以使用SizeEstimator.estimate来估计RDD/DataFrame的大小吗？

由于我正在尝试执行的SQL，DataFrame有成千上万的分区。在我的所有案例中，SQL生成的数据量都不相同。在少数情况下，可能只有几百条记录，在</

浏览 3提问于2016-10-28得票数 7

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我对HDFS并不十分熟悉，但是我遇到了一些复制这条语句的问题。我有一个名为Reviews.csv的文件，它是大约330 of的亚马逊食品评论文本文件。给定默认的64‘d块，我希望使用ceiling(330 / 64) = 6分区。@3c1, org.apache.spark.rdd.HadoopPartition@3c2, org.apache.spark.rdd.HadoopPartition@3c3,

浏览 1提问于2018-12-01得票数 1

回答已采纳

4回答

如何在我的终端中打印ApacheSpark RDD的内容？

、、

这是我第一次在项目中使用Scala和ApacheSpark。当我在终端中运行代码时，我试图打印矩阵的内容，但到目前为止，我尝试的任何东西都不起作用。相反，我只打印了以下内容：org.apache.spark.mllib.linalg.distributed.CoordinateMatrix@1dcca8d3 我只使用println()，但当我使用collect

浏览 0提问于2016-05-30得票数 3

1回答

Neo4j作为火花放电的数据源

、、、、

我有一个要求，我必须从Neo4j中提取数据，并从这些数据中创建Spark。我在我的项目中使用Python。连接器具有相同的用途，但它是用Scala编写的。所以我现在可以想出解决办法- 以小块/批的形式从neo4j查询数据，使用parallize()方法将每个块转换为Spark。最后，使用union()方法合并/合并所有的RDD，以获得单个RDD。如果有更好的

浏览 7提问于2018-01-09得票数 2

3回答

如何找到spark* RDD/Dataframe大小？*

、、

我知道如何在scala.But中找到文件大小如何在spark中找到RDD/dataframe大小？println(file.length)火花：println(distFile.length) 但如果我处理它，不会得到文件大小如何找到RDD大小？

浏览 4提问于2016-01-26得票数 45

回答已采纳

1回答

如何控制RDD分区的首选位置？

、、

有办法手动设置RDD分区的首选位置吗？我想确保在某台机器中计算某些分区。另外，我不使用HDFS，文件在本地磁盘上。这就是我想修改执行节点的原因。

浏览 2提问于2017-12-13得票数 8

回答已采纳

2回答

绕过org.apache.hadoop.mapred.InvalidInputException:输入模式s3n://[.]匹配0文件

、、

这是我在星火用户邮件列表中的一个问题，我希望在这里取得更大的成功。我正在尝试使用各种模式从S3获取一些文件。Option.scala:120) at org.apache.spark.rdd.UnionRDD:335)

浏览 5提问于2014-05-21得票数 11

回答已采纳

1回答

如何让Cassandra分区感觉像Spark中的宽行？

、、

Cassandra将其分区公开为多个行，但是在内部将其存储为宽行，这就是我使用Spark处理数据的方式。row['parameter1']['value'] / len(row['parameter2']['vector_value']) 伪代码只是为了给出一

浏览 2提问于2016-03-21得票数 0

1回答

加载用于火花流的RandomForestModel

、、

我使用Spark 1.3.0训练并保存了一个相当重的随机森林模型(拼花格式) 将其加载到驱动端，将其发送给每个计算出的微型批次上的工人。这里的问题是，它序列化并在每个批处理上发送模型。要获得信

浏览 5提问于2016-08-10得票数 0

回答已采纳

3回答

尽管重新分区，但在每个分区中只能压缩具有相同数量元素的RDDs

、、

val tozip = sc.parallelize(1 to nb).repartition(data.getNumPartitions) 不幸的是，我有以下错误如果可能，如何按分区修改元素的数量？

浏览 0提问于2016-03-17得票数 4

4回答

Spark列出所有缓存的RDD名称并取消持久化

、、、、

我是Apache Spark的新手，我创建了几个RDD和DataFrames，并缓存了它们，现在我想使用下面的命令取消它们中的一些 rddName.unpersist() 但我记不住他们的名字。我还使用浏览器查看了缓存的rdd，但同样没有名称信息。我是不是漏掉了什么？

浏览 86提问于2016-07-21得票数 7

回答已采纳

1回答

为什么有不同的RDD，它们各自的目的是什么？

、

在星火中有很多RDDs，来自为什么有不同的RDD，它们各自的目的是什么？我从教程和书籍中理解。(“学习火花”)在RDD上有两种类型的操作:用于RDD的操作，它们有对(x, y)和所有其他操作

浏览 3提问于2016-06-03得票数 2

1回答

：源和目标共享羞耻VertexId，但表示不同的东西

我有一个带有srcId -> dstId值的文件，它表示用GraphLoader edgeListFile加载的图形的边，源表示用户和目标项，在某些情况下srcId和dstId相等，因此在某些算法中存在错误，比如当我想收集每个顶点的邻域时。

浏览 1提问于2016-12-16得票数 1

回答已采纳

1回答

熊猫到RDD

、、、、

我可以将Pandas DataFrame转换为RDD吗？data2, pd.DataFrame):else:是DataFramedataRDD = data2.rddAttributeError Traceback (most recent' 我想

浏览 7提问于2015-08-19得票数 12

1回答

有没有办法使用Snowflake和它的Spark连接器来获取查询的行数？

、

我在我的Spark应用程序中运行了一个查询，该查询返回大量数据。我想知道有多少行数据是为了日志目的而查询的。我似乎找不到一种方法来获得行数，除非手动计数它们，或者调用一个方法为我计数，因为数据相当大，这对于日志记录来说变得很昂贵。有没有保存行数并可以抓取的地方？我读过，Python连接器将行数保存到对象模型中，但我似乎找不到任何与Spark connector或其底层JDBC相对应的东西。我能找到<

浏览 2提问于2019-08-13得票数 0

1回答

获取Spark* RDD中每个键的最大值*

、、、

在spark RDD中返回与每个唯一键关联的最大行(值)的最佳方法是什么？[(v, 3), (v, 1), (w, 1), (y, 1), (y, 2),我需要

浏览 1提问于2016-05-04得票数 11

回答已采纳

10回答

什么是spark中的RDD

、、、

定义是：用户以两种方式创建RDDs :通过加载外部数据集，或者通过在其驱动程序中分发对象集合(例如，列表或集合我对RDD的理解以及与spark和hadoop的关系真的很困惑。

浏览 91提问于2015-12-23得票数 46

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Spark中有没有一种方法来获得RDD，它是另一个RDD的给定确切大小的随机子集？

相关·内容

在Spark中有没有一种方法来获得RDD，它是另一个RDD的给定确切大小的随机子集？

火花应用中的压缩比

SubtractByKey和保留拒绝的值

我们可以使用SizeEstimator.estimate来估计RDD/DataFrame的大小吗？

如何为HadoopPartitions计算Spark的默认分区？

如何在我的终端中打印ApacheSpark RDD的内容？

Neo4j作为火花放电的数据源

如何找到spark* RDD/Dataframe大小？*

如何控制RDD分区的首选位置？

绕过org.apache.hadoop.mapred.InvalidInputException:输入模式s3n://[.]匹配0文件

如何让Cassandra分区感觉像Spark中的宽行？

加载用于火花流的RandomForestModel

尽管重新分区，但在每个分区中只能压缩具有相同数量元素的RDDs

Spark列出所有缓存的RDD名称并取消持久化

为什么有不同的RDD，它们各自的目的是什么？

：源和目标共享羞耻VertexId，但表示不同的东西

熊猫到RDD

有没有办法使用Snowflake和它的Spark连接器来获取查询的行数？

获取Spark* RDD中每个键的最大值*

什么是spark中的RDD

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐