我们目前正在为我们的一个“大规模数据”产品使用MongoDB。简单来说,我们使用Mongo来存储大量的社交媒体数据,比如tweet/post/hashtag等等。因此,使用案例是社交媒体分析。到目前为止,我们使用MongoDB面临的唯一问题是全文搜索能力和聚合性能。
文档的数量将在2500万左右,我们将在单个实例上使用此数量。此外,我们的大多数分析都是在整个集合上进行的(我们通常没有太多过滤器来减少分析数据集)。最近,我们开始关注Elastic Se
我刚刚开始进行数据分析,需要使用来分析大容量的数据。在计划使用Databricks笔记本进行分析时,我遇到了不同的存储选项来加载数据( a) DBFS --来自Databricks的默认文件系统b) Azure data Lake (ADLS)和c) Azure看起来,项目(b)和(c)可以挂载到工作区中,以检索用于分析的数据。
在Databricks上下