Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >datax工具在TBDS上同步数据方法

datax工具在TBDS上同步数据方法

原创
作者头像
袁宋
发布于 2020-12-07 13:11:38
发布于 2020-12-07 13:11:38
1.6K0
举报
文章被收录于专栏:大数据平台TBDS大数据平台TBDS

因为datax工具本身无法传入认证参数,所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。

此文以mysql同步至hive举例

1.首先关闭hdfs认证,在8088界面修改HDFS配置

hadoop.security.authentication tbds 改成simple

2.关闭hive认证,在8088界面修改Hive配置

Enable Ranger for HIVE  去掉勾或者ranger-hive-plugin-enabled Yes改成No

3.停止HDFS服务,再启动HDFS服务(注意不要直接重启)

4.停止HIVE服务,再启动HIVE服务

5.对于HDFS和HIVE的配置更改后,有些服务也是需要重启的,对关联的服务进行重启

6.服务重启后,使用hadoop命令测试是否不需要认证即可访问

7.下载datax工具,并解压到TBDS任意一台服务器上,建议是portal节点

http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

8.创建datax数据同步配置文件mysql2hive.json

cat datax/job/mysql2hive.json

{ "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "column": ["id","username"], "connection": [ { "jdbcUrl": ["jdbc:mysql://tbds-x-x-x-x:3306/easytest"], "table": ["target_user"] } ], "password": "xxxx", "username": "root", "where": "" } }, "writer": { "name": "hdfswriter", "parameter": { "column": [ {"name":"id","type":"string"} {"name":"username","type":"string"} ], "compress": "",##为空则不压缩 "defaultFS": "hdfs://tbds-x-x-x-x:8020", "fieldDelimiter": "\t", ###此处的分隔符一定要和建hive表时设置的分隔符一致,否则会导致数据为空 "fileName": "target_user", "fileType": "text",###根据存储的格式有text和orc "path": "/apps/hive/warehouse/easy.db/mysql2hive",###此路径需要提前建好,即需要提前建好hive表 "writeMode": "append" } } } ], "setting": { "speed": { "channel": "1" } } } }

9.建hive表

beeline -u jdbc:hive2://tbds-x-x-x-x:10000 -nadmin -pxxx

create table mysql3hive ( id int, username string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

10.运行datax同步数据

因为将认证关闭了,所以使用hdfs用户运行工具

su hdfs

python datax.py ../job/mysql2hive.json

11.查看数据及数据文件

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Datax安装及基本使用
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
刘大猫
2025/07/04
840
DataX数据同步实战案例
DataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
chimchim
2022/11/13
2.3K0
DataX数据同步实战案例
如何基于DataX做增量数据同步?
一、DataX数据同步原理二、全量同步实现三、增量同步的思考四、增量同步实现方案五、关于DataX高可用参考
叔牙
2023/06/21
6.5K0
如何基于DataX做增量数据同步?
【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive
本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。
火之高兴
2024/07/25
4710
【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼
对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、Kettle、Canal、StreamSetst进行简单梳理比较。
辉哥
2022/05/13
15K0
【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼
大数据平台 - 数据采集及治理
ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作。
端碗吹水
2020/11/16
3.8K0
大数据平台 - 数据采集及治理
分布式数据同步工具之DataX-Web部署使用
背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks的数据同步模块的源端和目标是不支持多网络环境,要么公网,要么内网,因此这种需求我们的dataworks是不能使用的,我们调研了两个工具,一个是dataxweb ,一个是dolphinscheduler ,今天的篇幅主要讲解一下搭建的dataxweb的流程。
大数据技术架构
2022/12/01
10K0
分布式数据同步工具之DataX-Web部署使用
dataX是阿里开源的离线数据库同步工具的使用
DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
凯哥Java
2022/12/16
1.4K0
dataX是阿里开源的离线数据库同步工具的使用
datax详细介绍及使用
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
Maynor
2022/03/11
12.5K0
datax详细介绍及使用
DataX 实现 MySQL 数据,高效同步
点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 MyCAT 源码解析 作业调度中间件 Elastic-Job 源码解析 分布式事务中间件 TCC-Transaction
芋道源码
2022/07/12
4.1K0
DataX 实现 MySQL 数据,高效同步
datax实现mysql数据同步
DataX 是阿里内部广泛使用的离线数据同步工具/平台,可以实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github
全栈程序员站长
2022/08/30
4.6K0
datax实现mysql数据同步
TBDS大数据集群迁移实践总结
这次迁移算是TBDS集群的第一次完整迁移案例,包括用户的业务数据,平台应用,从项目启动到最后完成迁移差不多耗费了1个月的时间。
mikealzhou
2018/12/13
4.2K0
Airflow自定义插件, 使用datax抽数
Airflow之所以受欢迎的一个重要因素就是它的插件机制。Python成熟类库可以很方便的引入各种插件。在我们实际工作中,必然会遇到官方的一些插件不足够满足需求的时候。这时候,我们可以编写自己的插件。不需要你了解内部原理,甚至不需要很熟悉Python, 反正我连蒙带猜写的。
Ryan-Miao
2019/10/01
3.3K0
大数据实训之数据可视化系列教程
https://github.com/alibaba/DataX/blob/master/introduction.md
张哥编程
2024/12/07
1470
[DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
[DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .].  - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
chimchim
2023/10/17
3.6K0
[DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
异构数据源同步之数据同步 → DataX 使用细节
里面讲到了 DataX 的概况、框架设计、核心架构、插件体系、核心优势,由阿里出品,并在阿里内部被广泛使用,其性能、稳定都是经过了严格考验的。得益于它的框架设计
青石路
2024/06/05
2.3K0
异构数据源同步之数据同步 → DataX 使用细节
【YashanDB知识库】DataX迁移Hive到崖山分布式
python bin/datax.py job/hive2yashandb.json
用户10349277
2025/03/03
850
java整合datax 全网最详细的教程
在resource目录下新建一个datax目录,在datax目录下新建test.json文件。
java后端指南
2021/11/01
4.2K4
java整合datax 全网最详细的教程
离线同步方案
Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。http://sqoop.apache.org/
单核
2022/02/21
1.9K0
Ubuntu下安装Datax-web数据交换平台
为了实现两个数据库之间的数据交换,企业级有ODI等,此处尝试DataX做小型数据交换。
geekfly
2022/08/11
9950
Ubuntu下安装Datax-web数据交换平台
推荐阅读
相关推荐
Datax安装及基本使用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档