前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >从Oracle批量导出CSV导入到HIVE中(含去掉引号)

从Oracle批量导出CSV导入到HIVE中(含去掉引号)

作者头像
sparkexpert
发布2022-05-07 14:02:11
发布2022-05-07 14:02:11
1.3K0
举报

以往很多系统经常用的是oracle数据库,在大数据环境下,许多应用都是去IOE的,那么其中老旧数据的迁移或者测试就是其中一块。

然而利用sqoop进行数据迁移,在很多场景下并不适合,比如说某些读写分离的场景下,要求原始的oracle数据库与现有的大数据环境是物理隔离的,因此需要原始的数据导出工作。其中数据导出采用CSV有利于直接从oracle迁移到hive等大数据存储环境中。

oracle本身并不能很好地支持数据导出为CSV,特别是对某个大表中含有100万条以上记录数据的时候,导出CSV还是挺受限的。因此写了个简单的CSV导出的存储过程。

由于第一回写存储过程的时候,并没有考虑到导入到HIVE中的问题,在原始过程中添加了引号。而有引号的CSV数据导致HIVE中将出现错误。

UTL_FILE.PUT( L_OUTPUT, L_SEPARATOR || '"' || L_DESCTBL(I).COL_NAME || '"' );

仔细检查原来的存储过程,只需要在上面语句中把引号去掉就可以。。

生成CSV后,再写一个注入HIVE的SQL语句,通过hive -f "*.sql"语句实现数据的注入。特别是下班之后,让数据导出和注入,第二天上班就OK了。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2015-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档