微软在自家无程序代码ETL服务Azure Data Factory上,正式推出Mapping Data Flows功能,供用户大规模且快速地转换数据,微软提到,Mapping Data Flows是一项变革性的数据集成以及转换服务。
Azure Data Factory是一个无服务器服务,用户不需要管理基础设施,就能够在云计算进行ETL工作,处理任何规模的数据。而Mapping Data Flows则是专为应对庞大数据处理的复杂性和规模而生的功能,用户可以直接在浏览器中,访问可视化的环境,构建弹性数据工作管线,并由Azure Data Factory来处理Spark运行的复杂作业。
Mapping Data Flows提供内置功能来处理不可预测的数据架构后,并维持变更输入数据的弹性,简化用户数据处理的工作,让用户可以专注于构建业务数据逻辑,不需要花耗时间管理服务器集群或是撰写程序代码,快速地进行加载事实表格(Fact Table)、维持缓慢的维度变换(Slowly Changing Dimension,SCD)、聚合半结构化的数据,以及使用模糊匹配来配对数据,为建模做准备。
其提供主动的可视化接口,可以将用户的数据逻辑转换成为易读的图(Graph),并构建转换程序函数库,分析原始数据产出业务可用的结果(下图)。当然,用户也可以不使用Mapping Data Flows的无程序代码接口,自己撰写程序代码调用内置的转换功能,执行连接(Join)、聚合、枢纽分析(Pivot)以及排序等常见操作。
工作管线构建器可让用户通过鼠标拖拽操作,来构建工作管线,或是以交互的形式为端到端ETL程序调试,用户可以为工作管线构建调度,并从Azure Data Factory监控门户网站监控数据流执行,通过Azure Data Factory提供多种可用性监控以及警示功能,来管理数据的可用SLA,还能利用内置的CI/CD,在托管的DataOps环境中存储与管理数据流,通过创建警示和浏览执行计划,就能验证用户的逻辑是否如计划一样处理数据流。
领取专属 10元无门槛券
私享最新 技术干货