使用Spark / Scala根据列值减少组中的行数

、、、、

我想在基于以下条件减少每个组中的行数的意义上实现网格化：-如果单元列在每个组中的行上有负值和正值，则进行算术求和。最后一行将有来自金额较多的行的Amt。-如果单位在组中只有正值或负值，则我们按原样传递所有行+-----+------+----+-----+ |store|prod

浏览 17提问于2019-08-13得票数 0

2回答

星星之火:得到最大的连续递减值

、、、、

我的要求是得到值减少的最大计数。下面是我的输入数据集：| id| amount|| 1| 10.0|| 1| 7.0|| 2| 60.0|| 3| 90.0|| 3| 90.0|我所需的结果如下(新列)是基于组

浏览 3提问于2021-03-08得票数 2

回答已采纳

1回答

如何将arrays[String]列转换为字符串列

、、、

在scala+spark中，我有一个包含两列Array[String]的数据我压缩了这两列以尝试过滤它，但是我不知道如何使用.filter()在Row of Array[Stri

浏览 0提问于2019-08-10得票数 1

回答已采纳

6回答

如何计算星火数据表中的列数？

、、、

我在星火中有这个数据，我想计算其中可用列的数量。我知道如何计数列中的行数，但我希望计数列数。val df1 = Seq( ("spark", "scala", "2015-10-15",

浏览 0提问于2018-07-27得票数 17

回答已采纳

1回答

Scala中的Spark分组贴图UDF

、、

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允许我过滤数据帧并对数据帧的每个子集执行操作。然而，这种方法并不是最优的，

浏览 2提问于2020-04-08得票数 2

3回答

使用python驱动程序计算Cassandra的列族中的“行”

、、

如何使用python驱动更有效地计算Cassandra列家族中的“行”？我使用以下代码：from sys import stdout servers = ['server1', 'server2

浏览 1提问于2016-04-14得票数 1

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名

浏览 4提问于2016-02-28得票数 3

2回答

MongoTypeConversionException:即使显式架构不包含NullTypes，也无法使用Mongo Spark Connector将字符串强制转换为NullType

、、、

("collection", collectionName).load() 对于结果DataFrame中的data列，我得到以下类型： StructType(StructField(configurationName因此，在某些列中至少有一些类型是NullType。根据Writing null values to Parquet in Spark when the NullType is inside a StructType，我尝试通过将所有Nul

浏览 161提问于2021-08-12得票数 1

3回答

第一个也是最后一个方法: scala，spark

、

在Pyspark中，我们有:第一个()函数返回列中的第一个元素，当ignoreNulls设置为True时，它返回第一个非空元素，()函数返回列中的最后一个元素，当ignoreNulls设置为True时，我想知道，我们是否有相同的scala方法。提前谢谢你。

浏览 21提问于2022-10-10得票数 0

回答已采纳

1回答

火花加入最佳匹配效率问题

、、

我有两个DataFrames：我需要在两个列上与df_1完全匹配，在第三个列上与df_2保持最佳匹配。最好的匹配，我的意思是有一个:许多关系从左到右，但我只想得到最好的比赛在右手边的长度。虽然我已经完成了这个工作，但我得到了糟糕的性能。我已经尝试了以下解决方案，但仍未取得任何进展： broadcasting df_2 (在col1和col1上掉得太大，而使用like on col3

浏览 3提问于2019-10-14得票数 0

3回答

如何计算DataFrame中的移动中值？

、、、、

是否有一种方法可以计算星火中某个属性的移动中间？我本来希望可以使用一个窗口函数(通过使用rowsBetween(0,10)定义一个窗口)来计算移动中值，但是没有计算它的功能(类似于average或mean)。

浏览 10提问于2017-05-19得票数 3

3回答

spark-shell和scala CLI客户端有什么区别吗？

、

spark-shell和scala CLI客户端提供了类似的功能；它们之间有什么区别吗？

浏览 1提问于2016-12-31得票数 2

1回答

对标签列使用窗口化函数后，XGBoost失败

、、、

我已经成功地训练了一个XGBoost模型，其中trainDF是一个包含两列的数据帧：features和label，其中我们有11k 1和57M 0(不平衡数据集)。一切都很好。num_cores, 然后，我想用一些窗口来改变y标签，以便在每个组中trainDF的"label"列中没有NA%s，并且类型仍为doubl

浏览 1提问于2018-07-12得票数 0

2回答

使用Scala在内存中运行地理空间查询

、、、

有没有办法在Scala中运行地理空间查询，给定一组经度/经度坐标，根据距离找到最近的位置？查询可能需要在内存中运行。这组值大约是一百万个纬度/纬度的坐标。我试图在Spark中做到这一点，但我找到的唯一解决方案是，但我不能让它在Spark1.6和Scala2.11上工作，所以我尝试定制解决方案。查询示例:给定wgs84坐标中<

浏览 3提问于2016-01-29得票数 4

1回答

如何在不使用数据帧的情况下将一行分解为多行？

、

我已经创建了数据帧，用于根据分隔符将一行分解为多行。我已经使用了explode函数来做同样的事情。我想知道我是否可以跳过这里的数据帧的使用，只使用SparkSQL来执行这个操作。

浏览 1提问于2019-04-13得票数 0

1回答

在不使用collect的情况下高效地迭代spark数据帧

、、

我有一个有2000万条记录的巨大数据帧，我需要迭代数据帧df1，逐行读取，并根据df3的列值构造另外两个数据帧df2和df3作为输出。 Input - df1有20列和2000万条记录。Output -df2有4列，将根据df1中的列值创建2000万条记录。Output - df3有20列，将根据df1中的<e

浏览 0提问于2020-04-09得票数 0

3回答

使用火花放电过滤和计数星火数据中的负/正值？

、、

我不知道如何在一列中使用pyspark筛选正负值，您能帮忙吗？提前谢谢。

浏览 4提问于2018-09-14得票数 4

回答已采纳

1回答

scala:用成千上万的列逐行更新巨大的数据格式

、、、

这是另一个未解决的的后续，该任务非常简单，即根据前几列的信息更新大量列(大约10,000)。行数约为100米，数据大小在兆字节范围内，排除了collect方法。在几百列的情况下，使用UDF的逐列方法失败(1500列不能这样做)。此外，看来大部分时间都是由星火公司使用大约100%-200%的CPU (与其他使用数十个核心的

浏览 5提问于2022-07-25得票数 0

回答已采纳

2回答

在Scala* / Spark中有条件地映射CSV文件中的行，以生成另一个CSV文件*

、、、

我对Scala / Spark非常陌生，我已经陷入了困境。从几个星期以来，我一直在努力为Scala2.11.8上一个看似简单的问题找到解决方案，但一直未能找到一个很好的解决方案。我有一个接近150 GB的csv格式的大型数据库，其中有大量的空值，需要根据各个列的值进行减少和清理。(在dataset中，如果列</

浏览 1提问于2016-07-30得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

星星之火:得到最大的连续递减值

如何将arrays[String]列转换为字符串列

如何计算星火数据表中的列数？

Scala中的Spark分组贴图UDF

使用python驱动程序计算Cassandra的列族中的“行”

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

DataFrame na()填充方法和不明确引用的问题

MongoTypeConversionException:即使显式架构不包含NullTypes，也无法使用Mongo Spark Connector将字符串强制转换为NullType

第一个也是最后一个方法: scala，spark

火花加入最佳匹配效率问题

如何计算DataFrame中的移动中值？

spark-shell和scala CLI客户端有什么区别吗？

对标签列使用窗口化函数后，XGBoost失败

使用Scala在内存中运行地理空间查询

如何在不使用数据帧的情况下将一行分解为多行？

在不使用collect的情况下高效地迭代spark数据帧

使用火花放电过滤和计数星火数据中的负/正值？

scala:用成千上万的列逐行更新巨大的数据格式

在Scala* / Spark中有条件地映射CSV文件中的行，以生成另一个CSV文件*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐