腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
DataFrame
-
使用
R
根据
时间
戳
的
差异
对
行
进行
分组
、
、
、
我有一个这样
的
spark
DataFrame
:2016-07-26 12:05:00 a201607-26 12:05:02 c2016-07-26 12:05:04 e我想将相差不到5秒
的
行
分组
到一个组中12:05:03 d 1 2016-07-26
浏览 3
提问于2016-09-15
得票数 0
1
回答
基于
时间
戳
差
的
MySQL组
、
、
、
、
我需要编写mysql查询,它将
根据
时间
戳
之间
的
差异
对
结果
进行
分组
。有可能吗?我有带有位置
的
表,每一
行
都有created_at (
时间
戳
),我希望按
差异
>1分钟
对
结果
进行
分组
。. | 2020-05-03 06:12:52 这些数据
的
结果应该是2组(1,2,3)和(4,5)
浏览 6
提问于2020-05-12
得票数 1
回答已采纳
2
回答
将自定义函数应用于星火数据访问组
、
、
、
、
我有一个非常大
的
时间
序列数据表,其中包含以下列: 我计划在
dataframe
中
使用
spark
,但我
对
如何
对<
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
1
回答
Postgresql -按类别
分组
的
两个连续
行
之间
的
值
差异
、
、
我需要计算按类别
分组
的
Postgres表中最近
行
和最近
行
之间
的
值
差异
。2B 2018-04-25 8查询应该对
时间
戳
(降序)上排序
的
类别
进行
分组
,并计算前两
行
中值
的
差异
。,则采用值
的</
浏览 3
提问于2018-04-25
得票数 0
回答已采纳
1
回答
PySpark
DataFrame
:标记某些列值发生更改
的
行
、
、
、
我有一个包含'people‘和'timestamp’列
的
PySpark
DataFrame
(加上其他与问题无关
的
列)。解释是用户在那个时候做了一些事情。我想
对
“人物”
的
所有行
进行
分组
,其中“
时间
戳
”
的
差异
不超过“阈值”值(例如5分钟)。感谢你
的
想法!
浏览 35
提问于2018-08-30
得票数 0
回答已采纳
1
回答
python -
dataframe
- groupby -出现
差异
时
对
未
分组
列
的
处理
、
、
我有一个包含ID
的
dataframe
,我希望
根据
ID 'group by‘。我还需要保留
dataframe
的
所有其他列(静态数据,字符串),所以最初我在group by中包含了所有静态数据列。但是,具有相同ID
的
2
行
或更多行之间
的
静态数据可能存在
差异
(由于源不同)。在这种情况下,我仍然希望
对
ID
进行
分组
,而不是创建“重复”。对于有
差异
的
浏览 18
提问于2020-11-19
得票数 0
回答已采纳
1
回答
如何将groupedData转换为
R
中
的
数据
、
、
、
、
-05-092,2015-05-123,2015-05-014,2015-05-17我想
根据
AccountId
对
其
进行
分组
,然后添加另一列命名date_diff,它将包含当前行和前一
行
之间
的
CloseDate
差异
。请注意,我希望只对具有相同date_diff
的
行
计算此AccountId。因此,在添加另一列之前,我需要对数据<
浏览 1
提问于2016-04-05
得票数 1
回答已采纳
2
回答
Spark
DStream中基于消息
时间
戳
的
窗口构造
、
、
我正在接收卡夫卡
的
DStream,我想在一些滑动窗口中按键
对
所有消息
进行
分组
。要点是,此窗口需要基于每条消息中提供
的
时间
戳
(单独
的
字段): Message structurekey1, ..., ..., 1557678233这是不可行
的
,因为
Spark
只计算事件
的
系统
时间
。那边的人建议
使用
updateSta
浏览 36
提问于2019-06-16
得票数 1
1
回答
按聚合(求和)双
进行
分组
在
spark
中产生不一致
的
结果
、
、
、
、
我在Scala和
Spark
2.0中看到了一些不一致
的
行为,它们聚集双倍,然后
根据
聚合值
进行
分组
。这只发生在集群模式下,我相信这与双数相加产生一个稍微不同
的
数字
的
顺序有关。在初始聚类后,我
根据
求和值
对
结果和
分组
进行
分析。有时看到1
行
,有时
根据
小数点20位左右
的
值,看到2
行
。(1, "a", 37577661.0
浏览 3
提问于2017-03-07
得票数 0
回答已采纳
2
回答
Spark
Structured Streaming如何确定事件是否迟到?
我通读了
spark
structured streaming文档,我想知道
spark
structured是如何确定事件已经迟到
的
?它是否将事件
时间
与处理
时间
进行
比较?1)这个处理
时间
是从哪里来
的
?由于它
的
流,它是否假设有人可能正在
使用
具有处理
时间
戳
的
上游源,
浏览 0
提问于2018-02-26
得票数 4
2
回答
Spark
将多个目录读入多个数据帧
、
、
、
、
这意味着对于目录foo,我在基于作业
时间
戳
的
给定路径中有多个输出表,如base、A、B等。类似这样
的
代码(不工作
的
代码!)val dfs: Seq[
DataFrame
]
浏览 0
提问于2017-02-06
得票数 2
1
回答
计算分区配置单元中行
的
时间
戳
差异
、
、
、
、
我需要计算hive中序列号
的
不同交互之间
的
差异
。我
的
表有多个序列号和多个交互。我已经
根据
时间
戳
对
交互
进行
了序列号排序。我现在也有兴趣添加一个列,其中包含连续
行
的
时间
戳
的
差异
。例如,图像中
的
最后一列显示了预期
的
输出。 ? 感谢你
的
帮助。
浏览 21
提问于2020-09-10
得票数 0
回答已采纳
2
回答
使用
Apache获得大量
时间
范围
的
最快方法是什么?
、
、
我在Hadoop中有大约100 GB
的
时间
序列数据。我想
使用
星火获取来自1000个不同
时间
范围
的
所有数据。我已经尝试
使用
Apache创建一个非常长
的
'OR BETWEEN X AND Y OR BETWEEN Q AND
R
'语句,其中包含大约1000个'OR BETWEEN X AND Y OR BETWEENQ AND
R
'语句。在此技术中,我创建了一个有问题
时间
范围<em
浏览 2
提问于2018-06-01
得票数 0
回答已采纳
1
回答
我需要
根据
我
的
列本身
的
值更新Hbase中
的
时间
戳
,而不是默认
的
时间
戳
、
、
、
默认情况下,Hbase
的
每一
行
都有
时间
戳
值。我们如何通过
spark
scala代码在HBase中更新我自己
的
时间
戳
值,同时保存(插入)来自
spark
Dataframe
的
记录?timestamp=1288380738440, value=value2 我们如何
根据
我们<
浏览 3
提问于2017-05-05
得票数 0
2
回答
如何将RDD转换为
Dataframe
Spark
2.4.5 Python
、
、
、
、
我完全是数据库和火花
的
新手。我
使用
的
是数据砖、社区版和
Spark
2.4.5集群。我试图修改从
Spark
1.6.2到
Spark
2.4.5运行
的
代码,因为在社区版本中,不允许
使用
Spark
1.6.2创建集群。有人能帮我把RDD对象转换成
Spark
2.4.5中
的
Dataframe
吗?schemaPeople =
spark
.createDataFrame(rddData
浏览 1
提问于2020-05-01
得票数 0
回答已采纳
1
回答
PySpark -创建带有
时间
戳
列数据类型
的
Dataframe
、
、
我想在上
的
笔记本中
使用
PySpark创建一个简单
的
数据格式。
dataframe
只有3列: stringStartTimeStanp - 'HH:MM:SS:MI'*EndTimeStanp -数据类型,例如“
时间
戳
”或可以在表单‘HH:MM:SS:MI’*EndTimeStanp中持有
时间
戳
(无日期部分)
的
数据类型--类似于“
时间
戳
”之类
的
数据类型或可以在表单&
浏览 2
提问于2021-06-22
得票数 4
回答已采纳
3
回答
当被重叠列分区时,高效
的
星火数据集操作
、
、
、
"c", "1", "3"), Test("b", "2", "4"),我需要计算 按guid
分组
时每一
行
的
最小
时间
戳
分组
时每个键
的</e
浏览 6
提问于2018-03-08
得票数 0
回答已采纳
1
回答
熊猫
DataFrame
按多指标
时间
戳
频率
分组
、
我有一个带有
DataFrame
(
时间
戳
,dgg)
的
MultiIndex,如下所示:Out[1]: 233350 0.249663 0.279324
时间
戳
持续了很多天我想按月份和dgg
对
这些数据
浏览 0
提问于2016-04-06
得票数 2
回答已采纳
1
回答
Spark
-
Dataframe
上
的
SQL窗口函数-查找组中
的
第一个
时间
戳
、
、
、
、
(
时间
戳
)跨不同区域(region)传输
的
数据。目前,为简单起见,
时间
戳
显示为'int‘。请注意,上述数据帧不一定按
时间
戳
的
升序排列。此外,可能会有来自不同用户
的
一些
行
。为了简单起见,我仅以单调递增
的
时间
戳
顺序显示了单个用户
的
数据帧。4 9 13a 3 15 17 a 5 17
浏览 1
提问于2016-02-10
得票数 1
2
回答
分裂熊猫
、
、
我有一个包含
时间
戳
的
熊猫
Dataframe
,我正在寻找一种方法,
根据
它们
的
时间
戳
是否在下一项和前一项
的
1分钟间隔内
对
多行
进行
批次。我知道我可能会迭代每一
行
并做一个简单
的
比较,尽管我正在寻找一种更快
的
方法来实现它。数据帧
的
行
是
根据
时间
进行
排序
的</em
浏览 1
提问于2020-07-07
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券