我试图找出数据仓库、集群数据处理和用于查询数据仓库的工具/基础结构之间的区别(工具/服务/程序)
因此,假设我有下面的设置来为某个用例执行一些数据处理
Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database
在上面的例子中,数据仓库到底是什么?我天真的头脑认为这是关系数据库或NoSQL数据
我们一直在审查微软的现代数据仓库架构,其中提到了使用Azure Data Factory将结构化和非结构化数据拉入Azure Data Lake。我也参加了很多关于这个主题的演讲,但大多数人对data Lake是否是结构化数据的好去处意见不一。我想确定的是,如果我们要利用的唯一来源是本地SQL Server数据库,那么将数据导入到数据湖中是否是一个好策略?那么,该策略的优点/缺点是什么?
就背景而言,我们正在寻找一个单一的消费窗格-无论是使用Power BI的最终用户报告,还是Azure数据仓库/本地数据仓库的素材。我们想要一个容器,它是所有这些系统的源,而不是源OLTP系统(即OLTP数据库
我的应用程序中有一个User类
public class User
{
[Required, MinLength(3), MaxLength(10)]
public string FirstName { get; set; }
[MinLength(3), MaxLength(10)]
public string MiddleName { get; set; }
[Required, MinLength(3), MaxLength(10)]
public string LastN