首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在pyspark中随时间窗口删除重复项

在pyspark中随时间窗口删除重复项
EN

Stack Overflow用户
提问于 2020-04-21 22:39:17
回答 1查看 153关注 0票数 0

我有一个从kafka主题中读取的spark流数据帧,我想在每次解析新记录时删除过去5分钟的重复数据。

我知道dropDuplicates(["uid"])函数,但我不确定如何在特定的历史时间间隔内检查重复项。

我的理解是:

代码语言:javascript
复制
df = df.dropDuplicates(["uid"])

要么处理当前(微)批处理读取的数据,要么处理当前正在进入内存的“任何”数据。有没有办法使用数据中的"timestamp"列来设置此重复数据消除的时间?

提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-21 23:20:42

代码语言:javascript
复制
df\
  .withWatermark("event_time", "5 seconds")\
  .dropDuplicates(["User", "uid"])\
  .groupBy("User")\
  .count()\
  .writeStream\
  .queryName("pydeduplicated")\
  .format("memory")\
  .outputMode("complete")\
  .start()

有关更多信息,请参阅https://databricks.com/blog/2017/10/17/arbitrary-stateful-processing-in-apache-sparks-structured-streaming.html

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61346218

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档