Hive 分区就是将数据按照数据表的某列或者某几列分为多个区域进行存储,这里的区域是指 hdfs 上的文件夹。按照某几列进行分区,就是说按照某列分区后的数据,继续按照不同的分区列进行分区。创建分区后,指定分区值即可直接查询该分区的数据,能够有效提高查询性能。
那么,如果分区列指定错了,可以进行修改吗?很遗憾,是不能直接对分区列进行修改的,因为数据已经按照分区列进行存储了。只能通过迂回的方式实现。下面介绍一种实现方式,操作步骤如下:
因为是要修改分区,所以不能通过如下方式创建分区表(这种方式分区不变)
CREATE TABLE new_table_name like old_table_name;
这里,我们先通过 SHOW CREATE old_table_name
得到原表的建表语句。
> show create table old_table_name;
OK
createtab_stmt
CREATE TABLE `old_table_name`(
`login_id` string,
`login_name` string,
`login_date` string) -- 注意看这里
PARTITIONED BY (
`updatetime` string) -- 注意看这里
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='\t',
'serialization.format'='\t')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://hadoop102/user/hive/warehouse/test.db/old_table_name'
TBLPROPERTIES (
'transient_lastDdlTime'='1671350905')
Time taken: 0.045 seconds, Fetched: 20 row(s)
然后修改其分区字段及原分区列,用新的 SQL 语句创建新的分区表。
> CREATE TABLE `new_table_name`(
`login_id` string,
`login_name` string,
`updatetime` string) -- 注意看这里
PARTITIONED BY (
`login_date` string) -- 注意看这里
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='\t',
'serialization.format'='\t')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
OK
Time taken: 0.048 seconds
此处,通过建表语句的调整实现了分区列的调整。
由于原分区表中,分区数可能有很多,通过手动指定分区的方式复制数据并不可取,Hive 开发者也预料到了这个需求场景,并提供了动态分区,动态分区简化了我们插入数据时的繁琐操作。
set hive.exec.dynamic.partition=true;
strict
)set hive.exec.dynamic.partition.mode=nonstrict;
1000
)set hive.exec.max.dynamic.partitions=100000;
100
)set hive.exec.max.dynamic.partitions.pernode=10000;
100000
)set hive.exec.max.created.files=150000;
INSERT OVERWRITE INTO new_table_name PARTITION (login_date)
SELECT login_id, login_name, updatetime, login_date
FROM old_table_name
TRUNCATE TABLE old_table_name;
DROP TABLE old_table_name;
CREATE TABLE `old_table_name`(
`login_id` string,
`login_name` string,
`updatetime` string) -- 注意看这里
PARTITIONED BY (
`login_date` string) -- 注意看这里
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='\t',
'serialization.format'='\t')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
INSERT OVERWRITE INTO old_table_name PARTITION (login_date)
SELECT *
FROM new_table_name
至此,通过新分区表的中转实现了原表分区列的修改,可以说非常麻烦,所以,建议大家建表的时候审慎检查,尽量减少分区列的调整。
end
如果今天的分享对你有帮助的话,请毫不犹豫的三连吧~~~
你的鼓励就是我创作的动力。