一、概述
Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升。
Sqoop 架构:
官网:https://sqoop.apache.org/
官方文档:https://sqoop.apache.org/docs/1.99.7/index.html
GitHub:https://github.com/apache/sqoop
想了解更多Sqoop也可参考我这篇文章:大数据Hadoop之——数据同步工具Sqoop
这里的hadoop环境部署可以参考我这篇文章:【云原生】Hadoop HA on k8s 环境部署
mysql环境部署可以参考我这篇文章:【云原生】MySQL on k8s 环境部署
二、开始编排部署
1)下载 Sqoop 部署包
2)构建镜像
开始构建镜像
3)创建sqoop chart模板
4)修改yaml编排
5)开始部署
6)测试验证
1、数据从MYSQL导入到HDFS(Import)
【1】 创建JDBC连接
【2】创建HDFS连接
【3】创建Job任务
首先先创建HDFS存储目录
再执行数据转换
【4】执行Job
显示持久的作业提交对象
2、数据导出(Haoop->RDBMS)7)卸载
git地址:https://gitee.com/hadoop-bigdata/sqoop-on-k8s
领取专属 10元无门槛券
私享最新 技术干货