首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用spark将数据插入配置单元表的问题

使用spark将数据插入配置单元表的问题
EN

Stack Overflow用户
提问于 2019-02-26 23:48:39
回答 1查看 440关注 0票数 0

目前我正在开发Spark版本2.1.0,作为我的数据摄取工作的一部分,我必须使用ingest方法将数据摄取到hive表中。但是Spark 2.1版本有一个bug,当插入数据到hive表中时,insertinto方法不会保持列顺序。

我已经尝试在append模式下使用saveAsTable方法,但它不会起作用,因为在数据摄取之前,我首先使用正确的数据类型手动创建表。

我尝试从现有的hive表中创建spark数据帧,并尝试从其中获取列序列,并传递此列表结果以确保列序列,但每次都在hive表的顶部创建数据帧以获取列序列。每次加载hive表来创建数据帧都会占用内存吗?

有没有人知道,如何用更好的方法在数据注入hive表的过程中保持列顺序?

EN

回答 1

Stack Overflow用户

发布于 2019-02-27 00:01:52

您可以尝试首先获取hive表的列,然后将它们应用于spark数据帧:

代码语言:javascript
运行
复制
target_table = sqlContext.table("my_target_table")
my_df.select(*target_table.columns).saveAsTable("my_target_table")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54889309

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档