对于此应用程序,数据由第三方拥有的IoT设备捕获,并通过应用程序接口调用从他们的服务器传输到我们。我们将此数据存储在我们的AWS Documentdb集群中。我们将用户App连接到此群集,满足实时数据馈送要求。注:数据为时间序列数据。问题是,对于长期数据存储和创建与利益相关者共享的分析仪表板,我们的数据治理人员要求我们每天将数据从AWS Documentdb群集复制/复制到他们的谷歌云平台-> Big Query。然后
我们的组织运行着Azure上的数据库,数据科学家和分析人员主要用于笔记本,以便进行特别的分析和探索。
我们还为不需要火花的ETL工作流运行Kubernetes集群。我们希望使用达美湖作为我们的存储层,其中数据库和库伯奈特都可以读写作为头等舱公民。目前,我们的Kubernetes作业直接将parquets写到blob存储,另外还有一个作业可以将databricks集群中的数据加载到Databrick的表格式中。这既慢又贵。我想要做的是直接从Kubernetes p
我目前正在用虚拟大脑()做一个项目,并模拟了一些脑电数据。为了进一步分析这一点,我想在python中打开这个模拟的时间序列,以便我可以使用MNE软件包来分析它。然而,我只能用h5格式存储来自虚拟大脑的脑电数据,我想不出如何在python中打开这个文件,因为我可以用它来使用MNE来分析它。我可以在Python中阅读h5文件,并看到它的描述:
文件键<KeysViewHDF5 5 ' data ',' time