首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Dask:定期更新已发布的数据集并从其他客户端提取数据

Dask:定期更新已发布的数据集并从其他客户端提取数据
EN

Stack Overflow用户
提问于 2020-07-29 15:05:17
回答 1查看 130关注 0票数 3

我想从队列(如redis)中将数据追加到published dask dataset上。然后,其他python程序将能够获取最新的数据(例如每秒一次)并执行一些进一步的操作。

  1. 那有可能吗?
  2. 应该使用哪个附加接口?我应该先将它加载到pd.DataFrame中,还是最好使用某些文本导入程序?
  3. 假设附加的速度是多少?是否可以在一秒钟内追加1k/10k行?
  4. 在dask集群中是否有其他很好的建议来交换庞大且快速更新的数据集?

谢谢你的建议和建议。

EN

回答 1

Stack Overflow用户

发布于 2020-08-08 01:04:09

你有几个选择。

  • 你可以看看streamz项目
  • 你可以看看达斯克的协调原语

假设附加的速度是多少?是否可以在一秒钟内追加1k/10k行?

达斯克只是在跟踪远程数据。应用程序的速度更多地取决于您选择如何表示数据(比如python列表和熊猫数据),而不是Dask。达斯克一秒钟就能处理数千项任务。这些任务中的每一个都可以有一行或数以百万计的行。这取决于你如何建造它。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63156650

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档