Spark DataFrame -使用R根据时间戳的差异对行进行分组

文章/答案/技术大牛

发布

1回答

、、、

我有一个这样的spark DataFrame：2016-07-26 12:05:00 a201607-26 12:05:02 c2016-07-26 12:05:04 e我想将相差不到5秒的行分组到一个组中12:05:03 d 1 2016-07-26

浏览 3提问于2016-09-15得票数 0

1回答

基于时间戳差的MySQL组

、、、、

我需要编写mysql查询，它将根据时间戳之间的差异对结果进行分组。有可能吗？我有带有位置的表，每一行都有created_at (时间戳)，我希望按差异>1分钟对结果进行分组。. | 2020-05-03 06:12:52 这些数据的结果应该是2组(1,2,3)和(4,5)

浏览 6提问于2020-05-12得票数 1

回答已采纳

2回答

将自定义函数应用于星火数据访问组

、、、、

我有一个非常大的时间序列数据表，其中包含以下列：我计划在dataframe中使用spark，但我对如何对<

浏览 2提问于2016-09-20得票数 10

回答已采纳

1回答

Postgresql -按类别分组的两个连续行之间的值差异

、、

我需要计算按类别分组的Postgres表中最近行和最近行之间的值差异。2B 2018-04-25 8查询应该对时间戳(降序)上排序的类别进行分组，并计算前两行中值的差异。，则采用值的</

浏览 3提问于2018-04-25得票数 0

回答已采纳

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

1回答

python - dataframe* - groupby -出现差异时对未分组列的处理*

、、

我有一个包含ID的dataframe，我希望根据ID 'group by‘。我还需要保留dataframe的所有其他列(静态数据，字符串)，所以最初我在group by中包含了所有静态数据列。但是，具有相同ID的2行或更多行之间的静态数据可能存在差异(由于源不同)。在这种情况下，我仍然希望对ID进行分组，而不是创建“重复”。对于有差异的

浏览 18提问于2020-11-19得票数 0

回答已采纳

1回答

如何将groupedData转换为R中的数据

、、、、

-05-092,2015-05-123,2015-05-014,2015-05-17我想根据AccountId对其进行分组，然后添加另一列命名date_diff，它将包含当前行和前一行之间的CloseDate差异。请注意，我希望只对具有相同date_diff的行计算此AccountId。因此，在添加另一列之前，我需要对数据<

浏览 1提问于2016-04-05得票数 1

回答已采纳

2回答

Spark DStream中基于消息时间戳的窗口构造

、、

我正在接收卡夫卡的DStream，我想在一些滑动窗口中按键对所有消息进行分组。要点是，此窗口需要基于每条消息中提供的时间戳(单独的字段)： Message structurekey1, ..., ..., 1557678233这是不可行的，因为Spark只计算事件的系统时间。那边的人建议使用updateSta

浏览 36提问于2019-06-16得票数 1

1回答

按聚合(求和)双进行分组在spark中产生不一致的结果

、、、、

我在Scala和Spark2.0中看到了一些不一致的行为，它们聚集双倍，然后根据聚合值进行分组。这只发生在集群模式下，我相信这与双数相加产生一个稍微不同的数字的顺序有关。在初始聚类后，我根据求和值对结果和分组进行分析。有时看到1行，有时根据小数点20位左右的值，看到2行。(1, "a", 37577661.0

浏览 3提问于2017-03-07得票数 0

回答已采纳

2回答

Spark Structured Streaming如何确定事件是否迟到？

我通读了spark structured streaming文档，我想知道spark structured是如何确定事件已经迟到的？它是否将事件时间与处理时间进行比较？1)这个处理时间是从哪里来的？由于它的流，它是否假设有人可能正在使用具有处理时间戳的上游源，

浏览 0提问于2018-02-26得票数 4

2回答

Spark将多个目录读入多个数据帧

、、、、

这意味着对于目录foo，我在基于作业时间戳的给定路径中有多个输出表，如base、A、B等。类似这样的代码(不工作的代码！)val dfs: Seq[DataFrame]

浏览 0提问于2017-02-06得票数 2

1回答

计算分区配置单元中行的时间戳差异

、、、、

我需要计算hive中序列号的不同交互之间的差异。我的表有多个序列号和多个交互。我已经根据时间戳对交互进行了序列号排序。我现在也有兴趣添加一个列，其中包含连续行的时间戳的差异。例如，图像中的最后一列显示了预期的输出。 ? 感谢你的帮助。

浏览 21提问于2020-09-10得票数 0

回答已采纳

2回答

使用Apache获得大量时间范围的最快方法是什么？

、、

我在Hadoop中有大约100 GB的时间序列数据。我想使用星火获取来自1000个不同时间范围的所有数据。我已经尝试使用Apache创建一个非常长的'OR BETWEEN X AND Y OR BETWEEN Q AND R'语句，其中包含大约1000个'OR BETWEEN X AND Y OR BETWEENQ AND R'语句。在此技术中，我创建了一个有问题时间范围<em

浏览 2提问于2018-06-01得票数 0

回答已采纳

1回答

我需要根据我的列本身的值更新Hbase中的时间戳，而不是默认的时间戳

、、、

默认情况下，Hbase的每一行都有时间戳值。我们如何通过spark scala代码在HBase中更新我自己的时间戳值，同时保存(插入)来自spark Dataframe的记录？timestamp=1288380738440, value=value2 我们如何根据我们<

浏览 3提问于2017-05-05得票数 0

2回答

如何将RDD转换为Dataframe* Spark2.4.5 Python*

、、、、

我完全是数据库和火花的新手。我使用的是数据砖、社区版和Spark2.4.5集群。我试图修改从Spark1.6.2到Spark2.4.5运行的代码，因为在社区版本中，不允许使用Spark1.6.2创建集群。有人能帮我把RDD对象转换成Spark2.4.5中的Dataframe吗？schemaPeople = spark.createDataFrame(rddData

浏览 1提问于2020-05-01得票数 0

回答已采纳

1回答

PySpark -创建带有时间戳列数据类型的Dataframe

、、

我想在上的笔记本中使用PySpark创建一个简单的数据格式。dataframe只有3列： stringStartTimeStanp - 'HH:MM:SS:MI'*EndTimeStanp -数据类型，例如“时间戳”或可以在表单‘HH:MM:SS:MI’*EndTimeStanp中持有时间戳(无日期部分)的数据类型--类似于“时间戳”之类的数据类型或可以在表单&

浏览 2提问于2021-06-22得票数 4

回答已采纳

3回答

当被重叠列分区时，高效的星火数据集操作

、、、

"c", "1", "3"), Test("b", "2", "4"),我需要计算按guid分组时每一行的最小时间戳分组时每个键的</e

浏览 6提问于2018-03-08得票数 0

回答已采纳

1回答

熊猫DataFrame按多指标时间戳频率分组

、

我有一个带有DataFrame (时间戳，dgg)的MultiIndex，如下所示：Out[1]: 233350 0.249663 0.279324时间戳持续了很多天我想按月份和dgg对这些数据

浏览 0提问于2016-04-06得票数 2

回答已采纳

1回答

Spark- Dataframe上的SQL窗口函数-查找组中的第一个时间戳

、、、、

(时间戳)跨不同区域(region)传输的数据。目前，为简单起见，时间戳显示为'int‘。请注意，上述数据帧不一定按时间戳的升序排列。此外，可能会有来自不同用户的一些行。为了简单起见，我仅以单调递增的时间戳顺序显示了单个用户的数据帧。4 9 13a 3 15 17 a 5 17

浏览 1提问于2016-02-10得票数 1

2回答

分裂熊猫

、、

我有一个包含时间戳的熊猫Dataframe，我正在寻找一种方法，根据它们的时间戳是否在下一项和前一项的1分钟间隔内对多行进行批次。我知道我可能会迭代每一行并做一个简单的比较，尽管我正在寻找一种更快的方法来实现它。数据帧的行是根据时间进行排序的</em

浏览 1提问于2020-07-07得票数 0

回答已采纳

点击加载更多