我正在尝试用开源框架来做ETL,我听说过两件事,Apache Beam和Apache Airflow,这两件事最适合整个ETL或ELT,比如Talend、Azure Data Factory等,事实上,我正在尝试用云数据仓库(redshift、azure数据仓库、雪花等)来做所有的事情。哪一个对这些类型的工作更好,如果我能在这两个框架之间进行一些比较,那就太好了。提前谢谢。
我的任务是设计一个Kimball风格的数据仓库。它将位于Server中的prem上。组织物理实现的最佳做法是什么?也就是说,数据仓库是否应该是一个单一的数据库,使用模式来分隔每个数据集市(并且将所有维度都放在自己的模式中,以帮助“驱动”跨市场的重用)?或者,每个数据集市是否应该是自己的数据库(强制所有维度都存在于一个单独的数据库中)?
如果我使用云平台进行数据仓库,比如Azure SQL DB (例如,使用托管实例来允许跨数据库查询),这个决策是否重要?
很抱歉问了这个问题,但是ElasticSearch查询可能会让人困惑.
目标:创建一个类似于谷歌搜索查询的查询。输入的单词越多,得到的匹配结果就越少。例如,“四川酱”比“木兰四川酱”效果更好。我的索引有一个博客帖子类型,它有“标题”、“标签”、“类别”字段。ElasticSearch必须找到与查询中的所有单词匹配的每个文档。这些词可以传播到所有的领域。例如,如果一个文档的标题包含“木兰”,它的标签包含“四川”,它的类别包含“酱汁”,那么这应该是匹配的,但如果缺少一个单词,则不应该这样做。
我尝试了不同的bool查询,但即使使用“必须”,结果也包含与所有查询单词不匹配的文档。
例如,我试过:
S