开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pentaho ETL和Data Analyzer是不错的选择？

当然，Pentaho ETL和Data Analyzer是不错的选择。Pentaho是一款非常强大的开源数据集成和分析平台，它提供了一系列的工具和组件，可以帮助用户快速地构建数据仓库、数据集成、数据分析和报表系统。Pentaho ETL是Pentaho平台中的一个重要组件，它可以帮助用户快速地构建数据抽取、转换和加载（ETL）的过程，从而实现数据的清洗、整合和分析。Pentaho Data Analyzer则是Pentaho平台中的一个数据分析工具，它可以帮助用户快速地创建和分享数据报表、数据仪表板和数据分析应用程序。

Pentaho ETL和Data Analyzer的优势在于它们都是基于开源技术栈构建的，因此可以节省成本，同时也可以提供更加灵活的定制选项。此外，Pentaho还提供了一系列的插件和扩展，可以帮助用户更好地整合和使用各种不同的数据源和数据格式。

Pentaho ETL和Data Analyzer的应用场景非常广泛，可以应用于各种不同的行业和场景中，例如金融、电信、制造业、医疗保健、零售等等。它们可以帮助用户快速地构建数据分析应用程序，从而更好地理解和分析数据，并做出更加明智的决策。

推荐的腾讯云相关产品和产品介绍链接地址：

需要注意的是，虽然腾讯云提供了一些数据处理和分析的产品，但是它们并不是Pentaho ETL和Data Analyzer的直接替代品。如果您需要在腾讯云上使用Pentaho平台，可以考虑将其部署在腾讯云的虚拟机上，并使用腾讯云的其他产品和服务来辅助其运行和管理。

相关搜索:轻量级校验和算法的不错选择？Lego MindStorms是基本机器人开发的不错选择吗？PThread是多平台C/C++多线程程序的不错选择吗？Apple平台是唯一的地方Objective-C是一个不错的选择吗？对于用于研究的大型只读数据库来说，SQLite 是一个不错的选择吗？spring data jpa选择考虑日期和时间的值如何循环和选择附加的元素以获得.text()和.data()值？统计data.frame中的词频为是和否 Delphi:Jet 4.0女士仍然是开发桌面数据库应用程序的不错选择吗？在bootstrap中将多行和多列放在一起是一种不错的做法如何从data.frame中选择行和列的子集泛型模板和函数重载是如何选择的？使用jquery根据data属性中的最小和最大值选择div 在spring data JPA存储库中解析和查询构建的是哪个类？SQL Server 2019中的“Data”和“value”关键字是什么，它们是如何工作的？实体框架是多个网站和大型应用程序的不良选择吗？哪个是delete-insert和if-update else-insert的最佳选择？Reactjs :如何自动选择和禁用一些选择框选项，而其他选项是从数组中自动打开以供选择的为什么CSS按钮选择器[disabled]和&:disabled的工作方式是一样的？如何使用实体框架从A和B是多对多关系的List<A>中选择List<B>？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

01-PDI(Kettle)简介与安装

最好的学习资料就是官网，附上官网文档地址： PDI官方文档地址 https://help.hitachivantara.com/Documentation/Pentaho/9.2/Products/Pentaho_Data_Integration

02

kettle的基础概念入门、下载、安装、部署

答：ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少，这里我要学习的ETL工具是Kettle！

02

Kettle教程一：Kettle简介和Kettle的部署安装

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于开发或者运维人员来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种ETL工具的使用，必不可少，这里我们要学习的ETL工具就是Kettle！

06

NoSQL为什么需要模式自由的ETL工具？

本文介绍了如何使用Pentaho Data Integration (Kettle) 和Pentaho Business Intelligence (Kibana)实现大数据的加载、转换、分析和可视化。首先介绍了如何使用Kettle从多个数据源加载数据，然后介绍了如何使用Kibana进行数据转换、分析和可视化。最后介绍了如何使用Kettle和Kibana进行大数据处理，包括数据转换、数据清洗、数据集成和数据可视化等。

开源ETL工具之Kettle介绍

Kettle是一个Java编写的ETL工具，主作者是Matt Casters，2003年就开始了这个项目，最新稳定版为7.1。 2005年12月，Kettle从2.1版本开始进入了开源领域，一直到4.1版本遵守LGPL协议，从4.2版本开始遵守Apache Licence 2.0协议。 Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为：Pentaho Data Integeration，简称“PDI”。自2017年9月20日起，Pentaho已经被合并于日立集团下的新公司： Hitachi Vantara。总之，Kettle可以简化数据仓库的创建，更新和维护，使用Kettle可以构建一套开源的ETL解决方案。

01

大数据处理必备的十大工具

Hive是一个建立在Hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。

03

「集成架构」2020年最好的15个ETL工具(第二部)

ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。

01

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了，本文主要介绍如何利用kettle进行大数据处理。

02

企业实战（20）ETL数据库迁移工具Kettle的安装配置详解

Kettle简介：Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01

「集成架构」ETL工具大比拼：Talend vs Pentaho

数据总是巨大的，任何行业都必须存储这些“数据”，因为它带有巨大的信息，从而导致他们的战略规划。正如人们需要房子感到安全一样，数据也必须得到保障。这个数据主页在技术上称为数据仓库。

02

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。　　但是这里面有一个问题出现了，它不支持我现在用的版本，我用的是Hortonworks的HDP1.3，好吧，经过不懈的努力，终于被我搜索到了，哈哈，原来它可以支

07

kettle学习【大牛经验】

ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论）

02

Kettle使用小结

‍♂️简介：Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件，transformation 和 job

04

kettle下载安装使用教程

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

03

大数据处理必备的十大工具！

大数据的日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。下面是用于信息化管理的大数据工具列表： 1.ApacheHive 📷 Hive是一个建立在hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。 2JaspersoftBI套件 📷 Jaspersoft包是一个通过数据库列生成报表的开源软件。

07

kettle在linux定时任务_CentOS（Linux）安装KETTLE教程并配置执行定时任务[通俗易懂]

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

02

一招教你用Kettle整合大数据和Hive,HBase的环境!

上一篇博客《还不会使用大数据ETL工具Kettle，你就真的out了!》博主已经为大家介绍了Kettle简单的使用操作，也确实谈到了后面会出较复杂操作的教程，其中当数与大数据组件之前的一些操作。所以本篇博客，博主为大家带来Kettle集成配置大数据的教程，为下一篇Kettle的进阶操作做铺垫!

04

印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0

数据是每项技术业务的支柱，作为一个健康医疗技术平台，Halodoc 更是如此，用户可以通过以下方式与 Halodoc 交互：

02

[大数据测试]ETL测试工具和面试常见的问题及答案

概述商业信息和数据对于任何一个企业而言都是至关重要的。现在很多公司都投入了大量的人力、资金和时间对这些信息、数据进行分析和整理。数据的分析和整理已经获得了巨大的潜在市场，因此为了使得这个过程更为简单，越来越多的软件供应商引入了ETL测试工具。目前，有需要开源的ETL工具，供应商允许用户直接从他们的官方网站免费下载，但有可能升级到新版或企业版需要订阅付费。所以我们需要根据企业的不同业务结构和模型，在选择ETL工具之前，对其进行分析。在这些开源的ETL工具的帮助下，我们将有机会尝试在不

08

[大数据测试]ETL测试工具和面试常见的问题及答案

概述商业信息和数据对于任何一个企业而言都是至关重要的。现在很多公司都投入了大量的人力、资金和时间对这些信息、数据进行分析和整理。数据的分析和整理已经获得了巨大的潜在市场，因此为了使得这个过程更为简单，越来越多的软件供应商引入了ETL测试工具。目前，有需要开源的ETL工具，供应商允许用户直接从他们的官方网站免费下载，但有可能升级到新版或企业版需要订阅付费。所以我们需要根据企业的不同业务结构和模型，在选择ETL工具之前，对其进行分析。在这些开源的ETL工具的帮助下，我们将有机会尝试在不

06

使用kettle迁移oracle 12c数据到mysql (简单例子)

Hitachi Data Systems于2017年改名为Hitachi Vantara 了.

01

【ETL技能】白话数据仓库 ETL 搭建全过程

经过多年来企业信息化建设，大部分都拥有了自己的财务，OA，CRM 等软件。这些系统都有自己的独立数据库，记录着企业运行情况某个方面的数据。但是单独看这些系统的报表，并不一定能对企业运行情况有全面客观的了解。就像只凭身高不能判断一个人是否健康，所以体检的时候我们需要化验许多指标，做各种检测，就是为了对身体情况有更全面的了解，作出更准确的判断。同样对一个企业，不能仅根据出勤率就判断一个人的绩效高低，因为你不知道他的工作成果情况。仅根据财务报表输入支出也体现不了各部门的收益情况，这个部门有多少工作人员，完成了哪

Kettle构建Hadoop ETL实践（二）：安装与配置

在前一篇里介绍了ETL和Kettle的基本概念，内容偏重于理论。从本篇开始，让我们进入实践阶段。工欲善其事，必先利其器。既然我们要用Kettle构建Hadoop ETL应用，那么先要做的就是安装Kettle。本篇首先阐述选择安装环境所要考虑的因素，之后详细介绍Kettle的安装过程，最后说明Kettle配置文件、启动脚本和JDBC驱动管理。本专题后面的实践部分都是基于这里所安装的Kettle之上完成的。

03

ETL作业调度工具TASKCTL与kettle功能性对比都有哪些优劣势

Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。通过非常直观的图形化编辑器（Spoon），您可以定义以XML格式储存的流程。在Kettle运行过程中，这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte)，数据库存储库（repository）(Kitchen)或者直接使用IDE(Spoon)。

04

kettle学习笔记（一）——入门与安装

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

02

Kettle安装详细步骤和使用示例

Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01

维度模型数据仓库（一） —— 概述

最近看了三本关于数据仓库的书，很有收获，也很受启发。这三本书分别是《数据仓库工具箱（第三版）》、《Dimensional Data Warehousing with MySQL: A Tutorial》和《Pentaho Kettle解决方案》。在仔细研读了这三本书之后，感觉就像是一本书的三个层次。Ralph Kimball的经典著作数据仓库工具箱阐述的是维度建模方法论和按不同行业建模的示例。Dimensional Data Warehousing with MySQL在维度模型的基础上，用MySQL基本的SQL语句实现了各种常见场景下的ETL。而Kettle则是完全以Ralph Kimball提出的34个ETL子系统为理论基础开发出来的工具，以提供GUI的方式实现ETL。三本书的作者都是各自领域的杰出人物，是当之无愧的大神，内容的质量自不必说。但是也有些美中不足，比如工具箱这本书翻译的佶屈聱牙，让人颇为费解。Dimensional Data Warehousing with MySQL中有些错误，可能是印刷原因吧（此书没有中文版），有些按书中代码执行得不到想要的结果。倒是Kettle这本书，译者也是长期从事ETL开发的专业人员，不但翻译的通俗易懂，还适当添加了译者注，指出书中的一些过时的说法，至少对我来说受益匪浅。有了以上的这些体会，我自然而然地产生一种想法：把几本书中所讲内容用一个完整的示例系统地实验一遍，使用SQL和Kettle两种方式来实现。一来对维度建模方法加深一下印象，二来也是对前段学习的一个总结，三是作为以后做数据仓库相关工作的不时之需。这是第一阶段要做的事情，第二阶段准备用Data Vault模型再做一遍，研究一下这种较新的建模方法。内容组织：（一）维度模型基础（二）准备数据仓库模拟环境（三）初始装载（四）定期装载（五）进阶技术 1. 增加列 2. 按需装载 3. 维度子集 4. 角色扮演维度 5. 快照 6. 维度层次 7. 多路径和参差不齐的层次 8. 退化维度 9. 杂项维度 10. 多重星型模式 11. 间接数据源 12. 无事实的事实表 13. 迟到的事实 14. 维度合并 15. 累积的度量 16. 分段维度

02

kettle 教程（一）：简介及入门「建议收藏」

kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

02

使用kellte（ETL工具）对数据的抽取、迁移等操作（入门安装篇）

Kettle简介：Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。（引用百度百科）

02

ETL工具-Kettle Spoon教程

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，了解并掌握一种etl工具的使用，必不可少，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，使用它减少了非常多的研发工作量，提高了我们的工作效率。

01

etl调度工具必备的10个功能属性

taskctl是一款国内开源的ETL工具，纯C编写，可以在Window、Linux、Unix上运行。

03

Kettle与Hadoop（一）Kettle简介

Kettle是一款流行的ETL（Extract-Transform-Load，即数据抽取、转换、装载）工具，并可用来操作Hadoop上的数据。Kettle是用Java语言开发的。它最初的作者Matt Casters原是一名C语言程序员，在着手开发Kettle时还是一名Java小白，但是他仅用了一年时间就开发出了Kettle的第一个版本。虽然有很多不足，但这版毕竟是可用的。使用自己并不熟悉的语言，仅凭一己之力在很短的时间里就开发出了复杂的ETL系统工具，作者的开发能力和实践精神令人十分佩服。后来Pentaho公司获得了Kettle源代码的版权，Kettle也随之更名为Pentaho Data Integration，简称PDI。

02

如何在4周内构建数据仓库，第2部分

我已经谈到了构建属于你自己的数据仓库需要采取的前两个步骤（请参阅：如何在4周内构建数据仓库，第1部分）。选择架构和DBMS是需要完成的第一件事情。到目前为止，我们已经有了需要复制的数据的概念以及我们想要存储数据的数据库。缺失的部分就是复制的过程。我们如何存储复制的数据？我们如何转换数据？这些是我在这篇文章中所要回答的问题。

06

kettle工具的作用和使用「建议收藏」

最近公司一个同事离职，由我来接手他手上的一个项目，我负责开发后台，因为设计到脚本统计数据，需要做定时任务将日表数据统计到月表或者年表。于是该项目用到了Kettle，用了之后才发现，这是个好东西啊。

02

大数据处理分析的六大工具

下面请看详细介绍： Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

02

【工具】六大工具帮你做好大数据分析

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。 Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是

07

【性能分析】大数据分析工具

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。

05

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

01

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。

02

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。一 Hadoop Hadoo

05

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。

02

使用kettle来根据时间戳或者批次号来批量导入数据，达到增量的效果。

1、Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。下载图形化界面的zip包格式的，直接解压缩使用即可。安装部署模式这里不说了，自己可以根据自己的需求安装为单机模式或者集群模式。 Kettle的社区官网：https://community.hitachivantara.com/docs/DOC-1009855 Kettle的下载地址：https://sourceforge.net/projects/pentaho/files/Data%20Integration/ kettle国内镜像下载：http://mirror.bit.edu.cn/pentaho/Data%20Integration/ 2、由于这里只是演示了如何配置通过时间戳和批次号增量的导入数据，所以具体的操作不再叙述，具体的使用自己可以根据需求来使用。

01

从一个线上问题看 Elasticsearch 数据清洗方式

如下问题来自真实场景，用对话方式模拟还原问题解答过程。小明同学提问：铭毅老湿，如下两个链接，我们底层的数据是带空格的，但是用户输入可能不带空格这种改怎么处理? http://192.168.1.1/

02

Kettle（PDI）的坑，有点大

网络上有不少Kettle的文章，但实际上都大同小异，都是些非常基础的文章，实际上在使用过程中还有遇到不少的坑，这部分在网上资料比较少，这里主要讲一下我们在使用过程中遇到的各种问题，属于难得的实践经验。

04

ETL主要组成部分及常见的ETL工具介绍

ETL（Extract-Transform-Load）技术是数据集成领域的核心组成部分，广泛应用于数据仓库、大数据处理以及现代数据分析体系中。它涉及将数据从不同的源头抽取出来，经过必要的转换处理，最后加载到目标系统（如数据仓库、数据湖或其他分析平台）的过程。以下是ETL技术栈的主要组成部分和相关技术介绍：

01

kettle教程（1）简单入门、kettle简单插入与更新。打开kettle

本文要点：Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新：kettle会自动对比用户设置的对比字段，若目标表不存在该字段，则新插入该条记录。若存在，则更新。

01

Pentaho CDE详细开发使用手册

3、添加应用的资源（资源类型有CSS和Javascript，导入内容形式有代码或具体文件）

02

kettle学习笔记（七）——kettle流程步骤与应用步骤

类似Java中的反射，在设计时不知道文件名、文件位置等，在真正执行时才知道具体的一些配置等信息

02

2022 年最佳 ETL 工具：提取转换和加载软件

ETL 工具已经使用了近五年，使组织能够持续分析、开发和处理数据，数家数据库管理、分析和商业智能领域的资深企业供应商继续保持领先地位，同时，行业解决方案在 2022 年不断演进，以满足云和边缘数据处理需求。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭