Pentaho Kettle:如何动态获取JSON文件列 - 腾讯云开发者社区

文章/答案/技术大牛

发布

kettle学习【大牛经验】

这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论）内容有：认识kettle、安装kettle...https://github.com/pentaho/pentaho-kettle）安装kettle 1.kettle是基于java开发的，所以需要java环境（下载jdk：http://www.oracle.com...并把这两个统计数字放在数据库表的一行的两列中，即输出的结果有一行，一行包括两列，每列是一个统计值。...那么如何在kettle生产中利用邮件功能呢？我们可以将kettle的转换信息、统计信息、错误信息以文件的形式放入到指定的位置（或形成指定的参数），使用邮件以附件形式发送这些信息。流程： ?...补充：如果觉得kettle发送的正文信息太多，可以配置邮件信息中，只发送邮件注释（注释信息需要自己写，如果是动态的话需要开发） ?

5.2K2 1

07-PDI(Kettle)源码编译8.2.0.0.R版本

我的这个文件位于 E:\kettle\Kettle-8.2.0.0-R\Kettle-8.2.0.0-R\ui\src\main\java\org\pentaho\di\ui\spoon\Spoon.java...而编译后的项目会在target目录下存在插件jar包，但是并没有在plugins目录下存在正确的插件目录如日志插件目录kettle5-log4j-plugin、json插件目录kettle-json-plugin...\Kettle-8.2.0.0-R\Kettle-8.2.0.0-R\plugins\json\core\src\main\resources\org\pentaho\di\trans\steps\jsoninput...-8.2.0.0-R\Kettle-8.2.0.0-R\plugins\json\core\src\main\resources\org\pentaho\di\trans\steps\jsoninput...-8.2.0.0-R\Kettle-8.2.0.0-R\plugins\json\core\src\main\resources\org\pentaho\di\trans\steps\jsoninput

3.1K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

Kettle使用小结

♂️简介：Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定(数据迁移工具)。...Kettle 中有两种脚本文件，transformation 和 job，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制...（更多介绍自行搜索） ?...Kettle中文网：https://www.kettle.net.cn/ ⏬下载地址：https://jaist.dl.sourceforge.net/project/pentaho/Pentaho 9.1...Tab->输出->选择“插入/更新”->拖拽到右侧操作区 step 3：双击“表输入”->选择数据库链接（上面有提到如何添加数据库连接）->输入查询的表SQL语句->预览按钮查看是否正确->保存 step...4：双击“插入/更新”->选择数据库链接->选择表->“用来查询的关键字”->选择类似UK的字段（据此判断插入or更新数据）->“更新字段”（表字段列：要抽取到的目标表字段；流字段列：被抽取的表字段，

1.7K4 0

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce...本篇最后介绍如何在Kettle中提交Spark作业。...，文件中有36616行记录，每行记录有4列，分别表示IP地址、年份、月份、访问页面数，前5行记录如下。...格式化原始web日志本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。...在本示例中，我们先为Kettle配置Spark，然后修改并执行Kettle安装包中自带的Spark PI作业例子，说明如何在Kettle中提交Spark作业。 1.

7.6K2 1

【数据迁移工具】使用 kettle数据迁移从oracle到mysql的图文教程

修改： if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize...3.1 建立DB连接这个在上面第2章已经将做如何配置了。 ...第二步：双击你拖进来的【表输入】，修改“步骤名称”，选择源数据，点击获取【获取SQL查询语句】，选择你想同步的表，点击确定后，就可以了。当然你也可以自己写sql语句 ?...第二步：按住shift 拖动鼠标连接【客户基本信息输入】和【字段选择】第三步：双击【字段选择】，添加【列映射】，建立源表和目标表中列字段的映射，如果字段名称相同，kettle会自动帮你选择，如果不同...第三步：获取字段，因为在【字段选择】中已经做了匹配，所以这里可以全选，kettle可以帮你全部选择 ? 第四步： ctrl+s 保存 ktr文件 4 建立作业按照下图新建作业 ?

13.3K2 2

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了，本文主要介绍如何利用kettle进行大数据处理。好，下面上货。...经过我的试验，我发现，这个shim是针对第三方的版本，而不是pentaho 的版本，也就是说，无论你用的是pentaho——kettle的哪个版本，这个shim是通用的，只需要找到你的第三方针对的版本即可...其实就是把对应的cdh510文件夹生成一下，生成好后，直接copy到kettle的文件夹中。.../pentaho/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 3、修改kettle连接的cdh版本 /pentaho.../cdh510 在文件config.properties最后，添加： authentication.superuser.provider=NO_AUTH 6、我们尝试在kettle中创建一个hadoop

2.1K2 0

开源ETL工具之Kettle介绍

Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为：Pentaho Data Integeration，简称“PDI”。...架构 Kettle是一个组件化的集成系统，包括如下几个主要部分： 1.Spoon：图形化界面工具(GUI方式)，Spoon允许你通过图形界面来设计Job和Transformation，可以保存为文件或者保存在数据库中...2.高可用支持 3.如何避坑 4.基于开源版我们可以用来做什么，如何实现定时调度，如何实现高可用 5.开源社区版本与企业版本主要区别是什么？...企业版Kettle不是独立的，而是集成在Pentaho Business Analytics商业套件中，作为ETL组件。在企业版中Kettle多一个Pentaho资源库。...【参考资料】 http://www.pentaho.com/ Pentaho主页 https://github.com/pentaho/pentaho-kettle Kettle源码 https:

10.9K1 0

【YashanDB知识库】Kettle迁移MySQL到YashanDB

因此使用Kettle迁移可以规避该问题。因此本文介绍了两种环境的Kettle使用方式进行数据迁移。...如果当前Windows环境存在多个JAVA版本，而默认JAVA环境不是JAVA 1.8，则可以通过Windows环境变量保证Kettle使用JAVA 1.8，例如示例：PENTAHO_JAVA设置为C:...,sys_log注意：1) owner这一列对应于mysql的database；2) tablelist_MySQL_YashanDB.csv最后一行不能为空行。...]2024/06/01 12:35:01 - 获取同步表列表 - Using run configuration [Pentaho local]2024/06/01 12:35:01 - 获取同步表列表...- Using run configuration [Pentaho local]2024/06/01 12:35:01 - 获取表变量 - Using legacy execution engine2024

3620 0

kettle的基础概念入门、下载、安装、部署

Kettle(现在已经更名为PDI，Pentaho Data Integration-Pentaho数据集成)。 3、Kettle的结构。...包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。 6、kettle的核心组件。 7、Kettle概念模型。...11、Kettle界面简介。 12、Kettle实现，把数据从CSV文件复制到Excel文件。...可以修改步骤的名称，点击浏览，选择到CVS文件，其他参数可以默认，点击获取字段，最后点击确定。...最后，点击Excel输出，选择字段，点击获取字段，将输出到Excel的字段进行映射，最后点击确定即可。点击ctrl + s保存，然后点击启动按钮即可。 13 、Kettle的执行结果。

11.4K2 0

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用...，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。...优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。　　...　　我使用的是4.4版本的kettle，大数据插件升级到了1.3.3.1了，所以要更新一下　　1.删除plugins下的pentaho-big-data-plugin 　　2.删除libext/JDBC.../plugin.properties文件，设置active.hadoop.configuration为该目录的名称　　初始值是active.hadoop.configuration=hadoop-20

2.4K7 0

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。...实验目的：配置Kettle连接Hadoop集群的HDFS。...编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54...文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。...重启Kettle 8. 新建一个转换，在“主对象树”中选择“Hadoop cluster”，点击右键选择“New Cluster”，填写相关信息，如图5所示图5 9.

1.2K1 0

Kettle构建Hadoop ETL实践（二）：安装与配置

作为Pentaho BI项目的一部分，可以在https://sourceforge.net/projects/pentaho/files目录下找到Kettle的所有版本。...如果用于生产环境，一般创建/opt/kettle或/opt/pentaho目录。解压缩归档文件会产生一个data-integration目录。...我们把这些因素统称为Kettle的配置。将在本节了解到Kettle的配置包括哪些部分，以及应如何管理这些配置。 1....上面描述的脚本结构是Kettle 3.2和以前版本的脚本文件结构，Kettle 4.0和以后版本都统一使用Pentaho的Launcher作为启动程序。...三、小结本篇讲述了如何在Linux系统上安装配置Kettle，包括以下要点：选择操作系统需要考虑的问题。安装Java（Kettle运行环境）。安装GNOME桌面。

8.4K3 1

大数据ETL开发之图解Kettle工具（入门到精通）

Kettle(现在已经更名为PDI, Pentaho Data Integration Pentaho数据集成) 1.2 Kettle的两种设计简述： Transformation (转换) ：完成针对数据的基础转换...任务：熟悉XML输入控件，将XML文件的学生数据写到excel文件中 1.浏览获取xml文件，将xml文件添加到kettle中 2.获取 xml文档的所有路径，设置合适的循环读取路径 3.获取字段...输入控件了解JSON格式和JSON Path以后，我们要学习使用JSON输入控件，JSON控件也是企业里做ETL常用的控件之一任务：获取到JSON文件里面的id，field，value字段，...写到excel文件中原始数据： 1.浏览获取JSON文件（注意文件路径不能有中文），将json文件获取到kettle中 2.根据JSON Path点记法，获取到需要的字段，并且设置合适格式...例如，如何传送文件；验证数据库表是否存在等等。而这些操作都是按照一定顺序完成。因为转换以并行方式执行，就需要一个可以串行执行的作业来处理这些操作。

31.1K14 29

kettle将postgresql数据导入cassandra提示InvalidQueryException: UUID should be 16 or 0 bytes (36)

本文使用的postgresql-12，cassandra 3.x，pentaho kettle为9.1版本，转换图如下图所示：最初的转换只有pg的表输入节点以及Cassandra output输出节点组成...，但是postgresql表中的uuid字段到了kettle时却成了字符串类型，导致 kettle将postgresql数据导入cassandra提示错误: 字段 "id" 的类型为 uuid, 但表达式的类型为...if (r == null) { setOutputDone(); return false; } //获取id列 str1 = get(Fields.In, "id").getString

8542 0

kettle使用教程(超详细)

更新：很早之前写的文章，发现大家许多人想要下载安装包，我就给大家把链接顺便也找到了 Kettle下载地址: Pentaho from Hitachi Vantara – Browse /Data Integration...由于kettle的连接中暂时没有clickhouse插件，需要自己搞定，先看下官网提示: https://help.hitachivantara.com/Documentation/Pentaho/8.1...版本需要对应. 1、下载分享资源 2、解压 kettle 安装包后将驱动包里的 clickhouse-plugins文件夹复制到 kettle 的 data-integration\plugins文件夹里...参考如下步骤: 运用crontab执行kettle程序 1.建立目录存放kettle文件 # mkdir /data/kettle/kettle_job // 存放作业文件 # mkdir /data....log 注：(因为crond是个守护进程，它不归属于任何用户，虽然之前以root用户配置了java环境变量，但是crond一样找不到java命令，所以，当crond执行kettle任务时，需要动态设置

12.3K2 1

【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

二是基于时间列的增量数据导入（LastModified方式）），同时可以指定数据是否以并发形式导入。...目前已到datax3.0框架设计： image.png datax使用示例，核心就是编写json配置文件job： image.png DataX框架内部通过双缓冲队列、线程池封装等技术,集中处理了高速数据交换遇到的问题.../pentaho-kettle/ 2.4 Canal 2.4.1 介绍 canal是阿里巴巴旗下的一款开源项目，纯Java开发。...，binlog设置为row模式以后，不仅能获取到执行的每一个增删改的脚本，同时还能获取到修改前和修改后的数据，基于这个特性，canal就能高性能的获取到mysql数据数据的变更。...数据转换手动配置schema mapping 通过编写json脚本进行schema mapping映射特性数据实时性非实时定时应用难度高高是否需要开发是是易用性低低

17.2K2 2

Kettle安装详细步骤和使用示例

转换操作示例 4.1 基本概念 4.2 demo 1. kettle概述 Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思...Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。...作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。...中自动创建了使用kettle所需要的表结构 ---- 如何添加新用户点击工具>>资源库>>探索资源选择【安全】>>点击加号添加用户>>填写账号密码保存功能栏简介 ---- 3....➢ 点击“获取字段”按钮，获取上个步骤输出的数据字段。 ➢ 获取后，在“字段”的表格中显示了已获取的字段。

4.3K1 0

Kettle与Hadoop（三）连接Hadoop

目录一、环境说明二、连接Hadoop集群三、连接Hive 四、连接Impala 五、后续（建立MySQL数据库连接）参考：Use Hadoop with Pentaho Kettle...让我们从简单的开始，本文介绍如何配置Kettle访问Hadoop集群（HDFS、MapReduce、Zookeeper、Oozie等），以及Hive、Impala等数据库组件。...图2 （2）将上一步得到的Hadoop客户端配置文件复制到Kettle的~/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations...拷贝MySQL驱动jar文件这里使用的是MySQL 5.6.14版本，需要将相应的驱动程序文件拷贝到Kettle安装目录的lib目录下。...图12 后面将在这些对象上进行一系列Kettle读写Hadoop组件的实验。参考：Use Hadoop with Pentaho

4.6K2 1

小程聊微服务-数据抽取那点事（二）

二、Kettle概念 Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。...Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。...Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。...Kettle可以在http://kettle.pentaho.org/网站下载。三、Kettle的使用要实现实时的增量更新共有两种方法： 1、通过触发器。...可以在两边数据库的表里插入了一列（用来取数据变动时的时间），然后做个计划任务，设置每隔多少时间跑一次kettle，就行了。要实现“实时”，就只能把时间间隔设小一点。

7192 0

【YashanDB知识库】Kettle迁移PostgreSQL到YashanDB

概述由于YMP不支持PostgreSQL数据库，因此使用开源工具Kettle迁移PosgreSQL数据到YashanDB。本文介绍了Windows环境的Kettle使用方式进行数据迁移。...环境Kettle版本：8.3JAVA版本：1.8源PostgreSQL：版本12目标YashanDB：23.2.1.100执行方式Kettle可以在Windows执行，Windows环境可以使用图形界面...如果当前Windows环境存在多个JAVA版本，而默认JAVA环境不是JAVA 1.8，则可以通过Windows环境变量保证Kettle使用JAVA 1.8，例如示例：PENTAHO_JAVA设置为C:...9、修改tablelist_PostgreSQL_YashanDB.csv，这个配置文件用于指定PostgreSQL需要迁移的库表名，注意这里需要和PostgreSQL的库表大小写保持一致，例如：owner...,table_namedbmgr,t1dbmgr,t2dbmgr,t3注意：1) owner这一列对应于PostgreSQL的schema；2) tablelist_PostgreSQL_YashanDB.csv

2220 0

点击加载更多

kettle学习【大牛经验】

07-PDI(Kettle)源码编译8.2.0.0.R版本

Kettle使用小结

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

【数据迁移工具】使用 kettle数据迁移从oracle到mysql的图文教程

kettle连接cdh——读取hdfs中的数据

开源ETL工具之Kettle介绍

【YashanDB知识库】Kettle迁移MySQL到YashanDB

kettle的基础概念入门、下载、安装、部署

Kettle 添加对应hadoop版本的支持

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

Kettle构建Hadoop ETL实践（二）：安装与配置

大数据ETL开发之图解Kettle工具（入门到精通）

kettle将postgresql数据导入cassandra提示InvalidQueryException: UUID should be 16 or 0 bytes (36)

kettle使用教程(超详细)

【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

Kettle安装详细步骤和使用示例

Kettle与Hadoop（三）连接Hadoop

小程聊微服务-数据抽取那点事（二）

【YashanDB知识库】Kettle迁移PostgreSQL到YashanDB

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐