开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pentaho PDI : Excel输入忽略空列之后的所有列。如何完全导入？

Pentaho PDI（Pentaho Data Integration）是一款开源的数据集成工具，用于处理和转换各种数据源。它提供了丰富的功能和组件，可以帮助用户在数据仓库、商业智能和数据分析等领域进行数据集成和处理。

对于Excel输入中忽略空列之后的所有列的完全导入，可以按照以下步骤进行操作：

打开Pentaho PDI，创建一个新的转换（Transformation）。
在转换中，添加一个"Microsoft Excel输入"（Microsoft Excel Input）步骤。
配置"Microsoft Excel输入"步骤，选择要导入的Excel文件，并指定工作表和数据范围。
在"Microsoft Excel输入"步骤的"Fields"选项卡中，可以看到Excel文件中的所有列。
如果要忽略空列之后的所有列，可以使用"Remove trailing empty strings"选项。勾选该选项后，Pentaho PDI会自动忽略Excel文件中的空列。
在"Microsoft Excel输入"步骤的其他选项中，可以根据需要进行其他配置，如数据类型转换、字段映射等。
完成配置后，保存并运行转换，Pentaho PDI将会完全导入Excel输入中忽略空列之后的所有列的数据。

Pentaho PDI的优势在于其强大的数据集成和处理能力，可以处理各种类型的数据源，并提供了丰富的转换和处理组件。它还支持可视化的开发环境，使用户可以通过拖拽和连接组件来构建数据集成流程。此外，Pentaho PDI还具有良好的扩展性和灵活性，可以与其他Pentaho套件和第三方工具集成，满足不同场景下的需求。

在腾讯云的产品生态中，可以使用腾讯云的数据仓库产品TencentDB for MariaDB、TencentDB for MySQL等来存储和管理导入的数据。此外，腾讯云还提供了数据计算和分析服务，如腾讯云数据工厂（DataWorks）、腾讯云数据湖（Data Lake）等，可以与Pentaho PDI结合使用，实现全面的数据处理和分析。更多关于腾讯云相关产品的介绍和详细信息，您可以访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

NoSQL为什么需要模式自由的ETL工具？

本文介绍了如何使用Pentaho Data Integration (Kettle) 和Pentaho Business Intelligence (Kibana)实现大数据的加载、转换、分析和可视化。首先介绍了如何使用Kettle从多个数据源加载数据，然后介绍了如何使用Kibana进行数据转换、分析和可视化。最后介绍了如何使用Kettle和Kibana进行大数据处理，包括数据转换、数据清洗、数据集成和数据可视化等。

ETL工具-Kettle Spoon教程

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，了解并掌握一种etl工具的使用，必不可少，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，使用它减少了非常多的研发工作量，提高了我们的工作效率。

01

kettle学习【大牛经验】

ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论）

02

Kettle使用小结

‍♂️简介：Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件，transformation 和 job

04

01-PDI(Kettle)简介与安装

最好的学习资料就是官网，附上官网文档地址： PDI官方文档地址 https://help.hitachivantara.com/Documentation/Pentaho/9.2/Products/Pentaho_Data_Integration

02

07-PDI(Kettle)源码编译8.2.0.0.R版本

博客上有很多关于PDI源码编译的文章，但大多版本较早，或是有些文件已经找不多，本博客基于2021年10月的PDI源码编译过程制作而成，并在编译过程中解决了对应的问题，解决方案放在博客最后。

02

Kettle安装详细步骤和使用示例

Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01

Kettle与Hadoop（四）导入导出Hadoop集群数据

1. 向HDFS导入数据从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/root/big_data目录下。 http://wiki.pentaho.co

02

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

02

pentaho pdi(kettle) spoon检测空流对象用法

定义增量同步转换时，使用表输入从目标表查询最新更新的时间戳用于查询新增数据。如果目标表没有记录时，则表输入返回一个空流。如果希望在这种情况下进行全量更新，则使用检测空流对象添加一行空行，以触发后续操作

01

使用kettle迁移oracle 12c数据到mysql (简单例子)

Hitachi Data Systems于2017年改名为Hitachi Vantara 了.

01

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

01

kettle的基础概念入门、下载、安装、部署

答：ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少，这里我要学习的ETL工具是Kettle！

02

Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。

02

开源ETL工具之Kettle介绍

Kettle是一个Java编写的ETL工具，主作者是Matt Casters，2003年就开始了这个项目，最新稳定版为7.1。 2005年12月，Kettle从2.1版本开始进入了开源领域，一直到4.1版本遵守LGPL协议，从4.2版本开始遵守Apache Licence 2.0协议。 Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为：Pentaho Data Integeration，简称“PDI”。自2017年9月20日起，Pentaho已经被合并于日立集团下的新公司： Hitachi Vantara。总之，Kettle可以简化数据仓库的创建，更新和维护，使用Kettle可以构建一套开源的ETL解决方案。

01

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

03

【数据迁移工具】使用 kettle数据迁移从oracle到mysql的图文教程

在工作中，我们有时候会遇到这种情况。老系统或其他系统使用的数oracle数据库，现在使用新系统，需要使用mysql数据库。但是之前数据也要迁移过来。那么这种请求下怎么办呢？我们可以使用kettle来进行数据迁移。

02

Pentaho Work with Big Data（七）—— 从Hadoop集群抽取数据

一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblo

01

企业实战（20）ETL数据库迁移工具Kettle的安装配置详解

Kettle简介：Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01

kettle下载安装使用教程

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

03

「集成架构」2020年最好的15个ETL工具(第二部)

ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。

01

kettle在linux定时任务_CentOS（Linux）安装KETTLE教程并配置执行定时任务[通俗易懂]

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

02

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了，本文主要介绍如何利用kettle进行大数据处理。

02

pentaho8.1安装

本文主要介绍pentaho8.1的安装过程，重点介绍pentaho-server的安装。

02

pentaho pdi(kettle) spoon创建映射获取OAUTH2 TOKEN并封装header参数值

版本 pentaho-pdi-ce 9.2 创建转换 📷 映射输入规格通过环境参数控制多环境切换 📷 自定义常量数据保存多环境的认证服务器地址 📷 自定义常量数据保存客户端认证信息 📷 通过JS代码输出对应环境的url和客户端认证信息 📷 通过REST client查询接口通过字段字段获取url 结果输出到body字段选择POST方法，应用类型JSON 📷 通过字段传入客户端认证信息参数 📷 使用JSON输入解析返回结果从body字段获取源 📷 输出解析结果到对应字段 📷 使用JS脚本拼装head

04

Kettle教程一：Kettle简介和Kettle的部署安装

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于开发或者运维人员来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种ETL工具的使用，必不可少，这里我们要学习的ETL工具就是Kettle！

06

Kettle构建Hadoop ETL实践（二）：安装与配置

在前一篇里介绍了ETL和Kettle的基本概念，内容偏重于理论。从本篇开始，让我们进入实践阶段。工欲善其事，必先利其器。既然我们要用Kettle构建Hadoop ETL应用，那么先要做的就是安装Kettle。本篇首先阐述选择安装环境所要考虑的因素，之后详细介绍Kettle的安装过程，最后说明Kettle配置文件、启动脚本和JDBC驱动管理。本专题后面的实践部分都是基于这里所安装的Kettle之上完成的。

03

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。　　但是这里面有一个问题出现了，它不支持我现在用的版本，我用的是Hortonworks的HDP1.3，好吧，经过不懈的努力，终于被我搜索到了，哈哈，原来它可以支

07

Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的 1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3. 通过YARN的WebUI查看Spark作业的执行情况。二、实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode和ResourceManager进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode和NodeManager进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装Spark 只在192.168.56.101一台机器上上安装Spark，具体安装步骤参考 http://blog.csdn.net/wzy0623/article/details/50946766 四、配置步骤 1. 启动Hadoop集群 # 启动hdfs /home/grid/hadoop-2.7.2/sbin/start-dfs.sh # 启动yarn /home/grid/hadoop-2.7.2/sbin/start-yarn.sh 2. 将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0.jar /user/ 3. 编辑spark-defaults.conf文件，添加如下一行 spark.yarn.jar=hdfs://master:9000/user/spark-assembly-1.5.0-hadoop2.6.0.jar 修改后的spark-defaults.conf文件如图1所示

04

Kettle与Hadoop（九）提交Spark作业

实验环境： Spark History Server： 172.16.1.126

03

kettle 教程（一）：简介及入门「建议收藏」

kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

02

02-PDI(Kettle)导入与导出

点击“Preview data”浏览输出数据，亦可在实验输出路径上查看验证输出的Excel文件数据，已经合并成了一个Excel文件。

01

【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

1）根据 source 和 db 字段来获取 MongoDB 集合内 business_time 最大值。

03

Kettle与Hadoop（三）连接Hadoop

Kettle可以与Hadoop协同工作。让我们从简单的开始，本文介绍如何配置Kettle访问Hadoop集群（HDFS、MapReduce、Zookeeper、Oozie等），以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。

02

Magicodes.IE 2.6.4 发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

02

Magicodes.IE 2.6.3 发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

02

Pentaho CDE详细开发使用手册

3、添加应用的资源（资源类型有CSS和Javascript，导入内容形式有代码或具体文件）

02

Magicodes.IE 2.6.2 发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

04

Magicodes.IE 2.7.4.2发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

03

Magicodes.IE 2.7.2发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

02

Magicodes.IE 2.7.1发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

01

kettle学习笔记（一）——入门与安装

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

02

Pandas图鉴(二)：Series 和 Index

Pandas[1]是用Python分析数据的工业标准。只需敲几下键盘，就可以加载、过滤、重组和可视化数千兆字节的异质信息。它建立在NumPy库的基础上，借用了它的许多概念和语法约定，所以如果你对NumPy很熟悉，你会发现Pandas是一个相当熟悉的工具。即使你从未听说过NumPy，Pandas也可以让你在几乎没有编程背景的情况下轻松拿捏数据分析问题。

02

Pandas图鉴(四)：MultiIndex

Polars[2]是Pandas最近的转世（用Rust编写，因此速度更快，它不再使用NumPy的引擎，但语法却非常相似，所以学习 Pandas 后对学习 Polars 帮助非常大。

02

使用kellte（ETL工具）对数据的抽取、迁移等操作（入门安装篇）

Kettle简介：Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。（引用百度百科）

02

Magicodes.IE 2.6.0重磅发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

02

Magicodes.IE之导入导出筛选器

Magicodes.IE是一个导入导出通用库，支持Dto导入导出以及动态导出，支持Excel、Word、Pdf、Csv和Html。在本篇教程，笔者将讲述如何使用Magicodes.IE的导入导出筛选器。在开始之前，我们需要先了解Magicodes.IE目前支持的筛选器：

02

大数据ETL开发之图解Kettle工具（入门到精通）

ETL (Extract-Transform-Load 的缩写，即数据抽取、转换、装载的过程)，对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种ETL工具的使用，必不可少。

09

Magicodes.IE之导入导出筛选器

Magicodes.IE是一个导入导出通用库，支持Dto导入导出以及动态导出，支持Excel、Word、Pdf、Csv和Html。在本篇教程，笔者将讲述如何使用Magicodes.IE的导入导出筛选器。

03

Magicodes.IE 2.5.6.2发布

2020.11.20 To fix The Mapping Values of The total length of a Data Validation list always exceed 255 characters (# 196) (https://github.com/dotnetcore/Magicodes.IE/issues/196)

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭