序号 | 名称 | 软件性质 | 数据同步方式 | 作业调度 |
---|---|---|---|---|
1 | Informatica(美国)入华时间2005年http://www.informatica.com.cn | 商业图形界面 | 支持增量抽取,增量抽取的处理方式,增量加载的处理方式,提供数据更新的时间点或周期 | 工作流调度,可按时间、事件、参数、指示文件等进行触发,从逻辑设计上,满足企业多任务流程设计。 |
相当专业的ETL工具。IInformatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。 | ||||
2 | Beeload/BeeDI(中国北京)2004年发布V1.0http://www.livbee.com | 商业图形界面 | 全量同步时间戳增量、触发器增量差异比对、CDC增量 提供图形界面配置 | 内置工作流调度功能,支持相关作业协同、定时及特定条件的执行。 |
国产品牌:专注、专业、专一ETL工具产品化的及技术性的原厂商,提供产品使用授权及服务 | ||||
3 | Data stage在2005年被IBM收购 | 商业图形界面 | 全量同步时间戳增量差异比对同步 | 通常使用第三方调度工具 |
IBM公司的商业软件,最专业的ETL工具,价格不菲,适合大规模的ETL应用 -使用难度***** | ||||
4 | Kettle(日本收购2005年)主要在美国,欧洲,亚洲http://kettle.pentaho.org/ | 商业开源图形界面 | 全量同步时间戳增量差异比对同步 | 需要借助第三方调度工具控制作业执行时间 |
Kettle 是一款国外开源的 etl 工具,纯 java 编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 |
序号 | ETL工具名称 | 软件性质 | 数据同步方式 | 作业调度 |
---|---|---|---|---|
5 | Talend(法国 2005年)http://www.talend.com/ | 开源图形界面(但是以 Eclipse 的插件方式提供) | 全量同步增量同步方式需要Java自定义 | 没有内置调度,需要写Java自定义逻辑或使用其它调度工具 |
Talend (踏蓝) 是第一家针对的数据集成工具市场的 ETL(数据的提取 Extract、传输 Transform、载入Load)开源软件供应商。Talend 以它的技术和商业双重模式为 ETL 服务提供了一个全新的远景。它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。最终,由于Talend 的出现,数据整合方案不再被大公司所独享。 | ||||
6 | Apatarhttp://apatar.com/ | 开源图形界面 | 全量同步增量同步方式需要代码自定义 | 没有内置调度 |
Apatar 用 Java 编写,是一个开源的数据抽取、转换、 装载(ETL)项目。模块化的架构。提供可视化的 Job 设计器与映射工具,支持所有主流数据源,提供灵活的基于 GUI、服务器和嵌入式的部署选项。它具有符合 Unicode 的功能,可用于跨团队集成数据,填充数据仓库与数据市场,在连接到其他系统时在代码少量或没有代码的情况下进行维护。 | ||||
7 | Alooma | 商业图形界面 | 全量同步时间戳增量CDC增量 依赖于数据库是否有对应CDC接口。需要复杂的配置及维护 | 通过脚本定义作业执行时间 |
8 | Scriptellahttp://scriptella.org/ | 开源脚本 | 完全写脚本处理同步过程 | 完全写脚本处理调度 |
Scriptella 是一个开源的 ETL (抽取-转换-加载)工具和一个脚本执行工具,采用 Java 开发。Scriptella 支持跨数据库的 ETL 脚本,并且可以在单个的 ETL 文件中与多个数据源运行。Scriptella 可与任何 JDBC / ODBC 兼容的驱动程序集成,并提供与非 JDBC 数据源和脚本语言的互操作性的接口。它还可以与 Java EE,Spring,JMX,JNDI 和 JavaMail 集成。 |
序号 | ETL工具名称 | 软件性质 | 数据同步方式 | 作业调度 |
---|---|---|---|---|
9 | Hekahttp://hekad.readthedocs.io/en/v0.10.0/ | 开源脚本 | 一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。通常用于系统日志分析。需要自定义数据库同步方式。 | |
来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。 | ||||
10 | Automation | 商业脚本 | 依附于Teradata数据库本身的并行处理能力,用SQL语句来做数据转换的工作,其重点是提供对ETL流程的支持,包括前后依赖、执行和监控等 | Teradata 调度 |
提供了一套ETL框架。它没有将注意力放在如何处理“转换”这个环节上,而是利用Teradata数据库本身的并行处理能力,用SQL语句来做数据转换的工作,其重点是提供对ETL流程的支持,包括前后依赖、执行和监控等其实应该叫做ELT,即装载是在转换之前的。的确,如果依赖数据库的能力去处理转换,恐怕只能是ELT,因为转换只能在数据库内部进行。从这个角度看,Automation对数据库的依赖不小,似乎是一种不灵活的设计。也正是这个原因,考虑它的成本就不单单是ETL产品的成本了。 | ||||
11 | symmetricds | 开源按数据量和服务器收费 | 触发器方式有锁表问题 | —————— |
序号 | ETL工具名称 | 软件性质 | 数据同步方式 | 作业调度 |
12 | Apache Camelhttp://camel.apache.org/ | Apache Camel 是一个非常强大的基于规则的路由以及媒介引擎,该引擎提供了一个基于 POJO 的企业应用模式(Enterprise Integration Patterns)的实现,你可以采用其异常强大且十分易用的 API (可以说是一种Java 的领域定义语言 Domain Specific Language)来配置其路由或者中介的规则。 通过这种领域定义语言,你可以在你的 IDE 中用简单的 Java Code 就可以写出一个类型安全并具有一定智能的规则描述文件。 | ||
13 | Apache Kafkahttps://kafka.apache.org/ | 提供一个通道,不存储数据 | ||
Apache Kafka 是一个开源的消息系统,用 Scala 和 Java 写成。该项目为处理实时数据提供了一个统一、高通量、低延时的平台。有如下特性:· 通过 O(1) 的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。· 高吞吐量:即使是非常普通的硬件 kafka 也可以支持每秒数十万的消息。· 支持通过 kafka 服务器和消费机集群来分区消息。· 支持 Hadoop 并行数据加载。 | ||||
14 | Inaplex Inaport(主要在英国) | 没有GUI | ||
需要 .net 2.0没有使用什么优化技术。因为只处理特定数据,所以比较容易进行数据清洗。 |
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。