我在DataFrame中有3列:- time:TimeStamp,col1:Double,col2:Double我想执行以下操作: .groupBy(window(col("time"),"10 seconds","1 second"))
.agg(mean("col1") with window of 10 seconds,max("col") with
我们有一个使用案例,我们从数百个数据源下载大量数据(订单为每天100 to ),对这些数据进行处理和处理,然后通过RESTful接口将这些数据公开给我们的客户。今天的基础数据大小约为20TB,预计未来还会大幅增长。
对于消息/处理部分,我们相信spark对我们来说是一个非常好的选择。现在,对于通过应用程序接口公开处理/消息处理的数据,一种选择是将处理后的数据存储