当基于列的条件也必须满足时，如何从Spark数据帧中随机选择行

在Spark中，要从数据帧中随机选择满足基于列的条件的行，可以使用filter和sample函数的组合。

首先，使用filter函数来筛选出满足基于列的条件的行。filter函数可以接受一个Lambda表达式，该表达式可以定义满足条件的列。

例如，假设我们有一个名为df的数据帧，其中包含列A和列B，我们想要选择满足条件“列A的值大于10且列B的值小于5”的行。我们可以使用filter函数进行筛选：

filtered_df = df.filter((df['A'] > 10) & (df['B'] < 5))

接下来，使用sample函数从筛选后的数据帧中随机选择行。sample函数可以接受一个参数来指定采样的比例。例如，如果我们想要随机选择10%的行，可以使用sample函数如下：

random_rows = filtered_df.sample(fraction=0.1, withReplacement=False)

这将返回一个包含随机选择的行的新数据帧。

总结起来，从Spark数据帧中随机选择满足基于列的条件的行的步骤如下：

使用filter函数筛选出满足基于列的条件的行。
使用sample函数从筛选后的数据帧中随机选择行，可以通过参数指定采样的比例。

在腾讯云的产品中，推荐使用Tencent Spark on EMR来进行Spark计算。Tencent Spark on EMR是一种全托管的大数据处理平台，可以快速启动Spark集群并进行大规模数据处理和分析。

更多关于Tencent Spark on EMR的信息和产品介绍，可以参考腾讯云的官方文档：Tencent Spark on EMR

当基于列的条件也必须满足时，如何从Spark数据帧中随机选择行

、、、

假设我们有一个Spark dataframe df，其中有一列col==0，其中此列中的值仅为0和1。我们如何选择所有行中包含col==1的行，以及50%的行中包含col==0的行？50%的col==0人群应该是随机选择的。 sample方法允许随机

浏览 14提问于2019-07-03得票数 1

回答已采纳

2回答

R:如何用另一个数据帧的随机抽样行替换数据帧中的有条件行？

我需要有条件地将数据帧(x)中的行替换为从另一个数据帧(Y)中随机选择的行，两个数据帧之间的行的.Some是相同的，因此数据帧x将包含具有重复信息的行。要实现这一点，我

浏览 3提问于2019-03-25得票数 0

回答已采纳

1回答

以一种不危险的方式基于布尔值选择行

、、

这是一个简单的问题，因为它是如此基本。请看-在R中，当您想要根据某个条件从数据帧中切片行时，您只需编写条件，它就会选择相应的行。例如，如果您有一个条件，即只有dataframe中的第三行满足该条件，则它将返回第三行。很简单。在python中，你必须

浏览 13提问于2021-07-23得票数 1

1回答

使用np.select根据来自多个其他列的数据生成条件列

、、

我正在尝试在现有的dataframe上生成一个新列，该列是基于条件语句构建的，输入是来自dataframe中多个列的数据。我在阅读时使用了np.select()方法，这是使用多列作为条件级别的输入的最佳方式。但是，当我运行代码时，即使满足行中的条件，也会填充

浏览 14提问于2019-08-10得票数 0

回答已采纳

2回答

按列划分的子集和data.table的随机抽样行

、

@gented的答案演示了如何从data.table中随机选择行的子集。如果我想在data.table中选择某一列中的值满足特定条件的所有行，并从同一列中的值满足不同条件的data.table中<

浏览 1提问于2019-07-04得票数 0

回答已采纳

1回答

根据2列的条件随机创建数据帧抽样

、、、

我有一个有10,000,000行和5列的dataframe A，如下所示：rs1 2.3 0.22 sss ff 472使用R，我想用A中的所有列生成50个新的数据帧，按照下面的方式遍历前50行。对于REC、AF列中的每一个i、j，<

浏览 0提问于2019-07-08得票数 0

回答已采纳

1回答

连接两个没有重叠的大区域的大型表

假设我有以下连接(从Spark documentation修改)： impressionsWithWatermark.join( expr("""我认为连接两个表中的所有内容是不必要的。我想要做的是创建子集，类似于这样:创建365 *2*2个较小的数据帧，以便在两年内每个表的每一天都有一个数据帧，然后创建3

浏览 11提问于2021-08-13得票数 0

回答已采纳

1回答

标识满足条件的DataFrame索引对象

、

当满足特定条件(例如对于给定列)时，如何从DataFrame中获取索引对象？下面返回一个具有Series值的True/False对象，其中满足my_dataframe的foo列中的某些条件： true_entries = my_dataframe['foo'].apply(my_lambda_fun

浏览 3提问于2013-07-26得票数 1

1回答

Pandas中容易混淆的关键错误

、、

当我在Python中运行各种命令时，我遇到了各种关键错误，我不知道为什么会发生这种情况。我知道键错误是在找不到字典键时导致的，但据我所知，我调用的键在数据集中。可以工作的df['LOB']=df['LOB'].astype(object) (我需要更改数据类型)。但是，一旦我尝试过滤此字段上的</

浏览 13提问于2020-02-13得票数 1

回答已采纳

2回答

ColumnarToRow是如何在Spark中高效运行的

、、、

在我的理解中，列格式更适合于MapReduce任务。即使对于某些列的选择，columnar也能很好地工作，因为我们不必将其他列加载到内存中。但是在Spark3.0中，我看到在查询计划中应用了这个ColumnarToRow操作，根据我从可以理解的，查询计划将数据转换为行格式。它如何比柱状表示更

浏览 13提问于2020-11-12得票数 10

1回答

如何根据条件删除Pandas数据帧中特定数量的随机行？

、

我想从数据帧中删除特定的'n‘行数，其中要删除的行是随机选择的。此外，它还必须根据特定列值的条件选择行。e7 1 g9 0 i 现在，我想随机删除n=2行，这有一个条件，其中

浏览 6提问于2019-08-02得票数 2

回答已采纳

2回答

检查一个数据帧的列是否存在于R中具有非零元素的另一个数据帧中。

我想检查一个数据帧的列是否存在于另一个数据帧中，第二个数据帧中的列的值应该是非零。例如,indx1 indx2ac tg 0col1 aa 1 ab 20 1 1 D 0

浏览 3提问于2021-06-20得票数 2

回答已采纳

1回答

使用一行访问Pandas数据帧中的数据

、、、

我使用Pandas dataframes来操作数据，我通常将它们可视化为虚拟电子表格，由行和列定义单个单元格的位置。我对分割数据帧的方法很满意，但当数据帧只包含一行时，似乎有一些奇怪的行为。基本上，我希望从满足特定条件的大型父数据帧中选择<

浏览 2提问于2016-04-23得票数 2

回答已采纳

2回答

当一行满足某个条件时，如何更改后续行值？

、

我只是想知道，当数据帧中满足条件时，是否有人知道如何让R更改所有未来的行值？也就是说，假设在数据列中有一个负值-我希望R测试该列中的负值和该值以及后续行0中的值(无论负值后面的值是否为负)。

浏览 22提问于2021-01-21得票数 0

回答已采纳

2回答

添加计数器满足特定条件

、、

问题陈述只有当Column1 > 1和Column2 = 0中的值增加时，计数器才会增加。计数器必须在满足条件的行的2个值之

浏览 2提问于2017-05-26得票数 1

回答已采纳

2回答

在满足条件后使用dplyr修改以下行

、

我正在尝试通过dplyr中的ifelse语句添加一个新列，其中的字符串基于另一个列。当满足条件时，我还希望下面两行也显示相同的值。我展示了mtcar数据集中的一个示例。ifelse(mpg>20,"Event", "No event")) %>% mutate(type=

浏览 20提问于2020-08-04得票数 3

回答已采纳

2回答

如果满足某些GroupBy条件，则从原始Pandas数据中删除行

、、、

我正在尝试构建一种快速Pandas方法，用于在满足某些条件时从Dataframe中删除某些行。具体来说，如果该行中的其他值等于0，则我希望删除dataframe中某些变量的第一个匹配项。foo‘列是一个新值时，我想查看第一行，如果该行中的'bar’值= 0，则将其从dataframe中</em

浏览 4提问于2020-02-10得票数 2

回答已采纳

1回答

Excel -计数行，其值满足不带助手列的复杂条件。

、

假设我有4列A、B、C和D，其中每列有100行随机整数(例如1到10)。我知道我可以添加另一个(助手)列E来保存每一行的条件值，然后在该列上执行一个COUNTIF，但如果可能的话，我真的想避免这样做，因为我的电子表格中有许多由4列组成的组

浏览 0提问于2016-10-31得票数 1

回答已采纳

1回答

使用spark将数据插入配置单元表的问题

、、、

目前我正在开发Spark版本2.1.0，作为我的数据摄取工作的一部分，我必须使用ingest方法将数据摄取到hive表中。但是Spark 2.1版本有一个bug，当插入数据到hive表中时，insertinto方法不会保持列顺序。我已经尝试在append模式下使用saveAsTable方法，但它不会起作用，因为在数据摄取之前，我首先使用正确<em

浏览 15提问于2019-02-26得票数 0

2回答

df[df['col‘]和df['col’]之间的差异？

、、、

我在编码方面是新手，我想真正理解它，我必须真正掌握这些概念。为什么我们要做df[df‘’col‘] == x？而不是df‘’col‘== x？在搜索的时候？我理解在第二个表达式中，我将看到等于X的列名，但是我很想知道添加一个list (df[])对代码有什么作用我很想知道这两者之间的区别，以及我在列表中嵌套列的时候实际上在做什么。

浏览 6提问于2022-06-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当基于列的条件也必须满足时，如何从Spark数据帧中随机选择行

相关·内容

当基于列的条件也必须满足时，如何从Spark数据帧中随机选择行

R:如何用另一个数据帧的随机抽样行替换数据帧中的有条件行？

以一种不危险的方式基于布尔值选择行

使用np.select根据来自多个其他列的数据生成条件列

按列划分的子集和data.table的随机抽样行

根据2列的条件随机创建数据帧抽样

连接两个没有重叠的大区域的大型表

标识满足条件的DataFrame索引对象

Pandas中容易混淆的关键错误

ColumnarToRow是如何在Spark中高效运行的

如何根据条件删除Pandas数据帧中特定数量的随机行？

检查一个数据帧的列是否存在于R中具有非零元素的另一个数据帧中。

使用一行访问Pandas数据帧中的数据

当一行满足某个条件时，如何更改后续行值？

添加计数器满足特定条件

在满足条件后使用dplyr修改以下行

如果满足某些GroupBy条件，则从原始Pandas数据中删除行

Excel -计数行，其值满足不带助手列的复杂条件。

使用spark将数据插入配置单元表的问题

df[df['col‘]和df['col’]之间的差异？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐