我试图找出数据仓库、集群数据处理和用于查询数据仓库的工具/基础结构之间的区别(工具/服务/程序)Hadoop Cluster for Distributed但根据定义,数据仓库不是用于报告和数据分析的数据库吗?(定义无耻地从维基百科窃取)。所以,我可以将传统的RDBMS/NoSQL数据库称为数据仓库吗?谢谢。
我需要运行一组长期的数据处理活动,从某些cosmos db容器中获取数据。我没有看到容器中有一个字段可以帮助我或多或少地在蔚蓝函数之间分配负载。我想知道是否有任何哈希函数允许我使用mod函数进行经典的分区,假设我决定从orchestrator运行10个活动,并查询类似的数据
select * from c where hash(c.id) %它的持续时间很长,不是因为数据量,而是由于数据处理的复杂性。