说明
支持内核:Presto、SparkSQL。
适用表范围:原生 Iceberg 表、外部表。
用途:创建一个表同时带一些属性,支持使用 CREATE TABLE AS 语法。
建表存储路径:建表存储路径支持指定至 COS 目录,不能指定到文件。
外部表语法
语法
CREATE TABLE [ IF NOT EXISTS ] table_identifier( col_name[:] col_type [ COMMENT col_comment ], ... )USING data_source[ COMMENT table_comment ][ OPTIONS ( 'key1'='value1', 'key2'='value2' )][ PARTITIONED BY ( col_name1, transform(col_name2), ... ) ][ LOCATION path ][ TBLPROPERTIES ( property_name=property_value, ... ) ]
参数
USING data_source
:建表时,数据的输入类型,目前有:CSV,ORC,PARQUET,ICEBERG 等。
table_identifier
:指定表名,支持三段式,例如:catalog.database.table。
COMMENT
:表的描述信息。OPTIONS
:USING data_source支持的额外参数,用于存储时参数注入。
PARTITIONED BY
:基于指定的列创建分区。
LOCATION path
:数据表存储路径。
TBLPROPERTIES
:一组 k-v 值,用于指定表的参数。USING和OPTIONS 参数详细说明
CSV 数据表的可支持配置如下。
OPTIONS 支持的 key | key 对应的 value 默认值 | 含义 |
sep或delimiter | , | csv存储时每列之间的分隔符,默认英文逗号 |
mode | PERMISSIVE | 定义当数据转换时不符合预期时的处理模式。 PERMISSIVE:较宽松的模式,默认,尝试转换某一行数据,例如某一行多出来几列,会自动只取需要的列 DROPMALFORMED:丢弃不符合预期的数据,例如某一个行多出来列则该行会被丢弃 FAILFAST:严格要求csv格式,一旦某行不符合预期就失败,例如多出列的情况。 |
encoding或charset | UTF-8 | 字符串编码格式。 例如:UTF-8、US-ASCII、ISO-8859-1、UTF-16BE、UTF-16LE、UTF-16 |
quote | \\" | 引号是单引号还是双引号,注意使用转义符 |
escape | \\\\ | 逃逸字符,注意使用转义符 |
charToEscapeQuoteEscaping | - | 引号内部需要逃逸的字符 |
comment | \\u0000 | 备注信息 |
header | false | 存在表头 |
inferSchema | false | 推断每列类型,不推断则每一列均为字符串 |
ignoreLeadingWhiteSpace | 读:false 写:true | 忽略开头的空字符串 |
ignoreTrailingWhiteSpace | 读:false 写:true | 忽略结尾的空字符串 |
columnNameOfCorruptRecord | _corrupt_record | 无法转换的列的列名,该参数受spark.sql.columnNameOfCorruptRecord影响,以表配置为主 |
nullValue | - | null的存储格式,默认为空字符串,此时按emptyValue的方式写 |
nanValue | NaN | 非数值类型的值的存储格式 |
positiveInf | Inf | 正无穷大的存储格式 |
negativeInf | -Inf | 负无穷大的存储格式 |
compression或codec | - | 压缩算法的类名,默认不压缩,可以使用简称,bzip2、deflate、gzip、lz4、snappy |
timeZone | 系统默认时区 | 默认时区,该参数取值受spark.sql.session.timeZone影响,例如Asia/Shanghai,以表配置为主 |
locale | en-US | 语言类型 |
dateFormat | yyyy-MM-dd | 默认日期的格式 |
timestampFormat | yyyy-MM-dd'T'HH:mm:ss.SSSXXX | 默认时间的格式,非LEGACY模式下为yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
multiLine | false | 允许多行 |
maxColumns | 20480 | 最大列数 |
maxCharsPerColumn | -1 | 每列最大字符数,-1表示不限制 |
escapeQuotes | true | 逃逸引号 |
quoteAll | quoteAll | 写时全文加引号 |
samplingRatio | 1.0 | 采样比例 |
enforceSchema | true | 强制使用指定的schema读取,会忽略表头的定义 |
emptyValue | 读: 写:\\"\\" | 空值的读写格式 |
lineSep | - | 换行符 |
inputBufferSize | - | 读时的buffer size,该参数可受spark.sql.csv.parser.inputBufferSize影响,以表配置为主 |
unescapedQuoteHandling | STOP_AT_DELIMITER | 非逃逸引号被发现时的处理策略。 STOP_AT_DELIMITER:读到分隔符停止 BACK_TO_DELIMITER:回退到分隔符 STOP_AT_CLOSING_QUOTE:读到下一个引号停止 SKIP_VALUE:跳过该列数据 RAISE_ERROR:报错 |
ORC 数据表可支持的配置如下:
OPTIONS 支持的 key | key 对应的 value 默认值 | 含义 |
compression或orc.compress | snappy | 压缩算法,支持简写snappy/zlib/lzo/lz3/zstd,该参数受spark.sql.orc.compression.codec影响,以表参数为主 |
mergeSchema | false | 合并schema,该参数受spark.sql.orc.mergeSchema影响,以表参数为主 |
如果是使用 HiveRead 和 HiveWriter(配置spark.sql.hive.convertMetastoreOrc=false)来读写,OPTIONS 还可以支持 Orc 原生的配置,详情请参考 LanguageManual ORC。
PARQUET 数据表相关参数大多可以通过 Spark conf 配置,也更建议从 spark conf 配置。options 也可支持的配置如下:
OPTIONS 支持的 key | key 对应的 value 默认值 | 含义 |
compression或parquet.compression | snappy | 压缩算法,默认使用snappy,受参数spark.sql.parquet.compression.codec影响,以表参数为主。 |
mergeSchema | false | 是否合并schema,受参数spark.sql.parquet.mergeSchema影响,以表参数为主。 |
datetimeRebaseMode | EXCEPTION | 写parquet文件时日期的转换策略。LEGACY模式将日期做公历转换、CORRECTED不对日期做公历转换、EXCEPTION在遇到日期属于不同格式时报错。受参数spark.sql.parquet.datetimeRebaseModeInRead影响,以表参数为主。 |
int96RebaseMode | EXCEPTION | 读parquet文件时时间的转换策略。LEGACY模式将对时间做公历转换、CORRECTED不对时间做转换、EXCEPTION则在遇到不同格式的时间时报错。受参数spark.sql.parquet.int96RebaseModeInRead影响,以表参数为主。 |
如果是使用HiveRead和HiveWriter(配置spark.sql.hive.convertMetastoreParquet=false)来读写,OPTIONS还可以支持Parquet原生的配置参考:Hadoop integration。
示例
CREATE TABLE dempts(id bigint COMMENT 'id number',num int,eno float,dno double,cno decimal(9,3),flag boolean,data string,ts_year timestamp,date_month date,bno binary,point struct<x: double, y: double>,points array<struct<x: double, y: double>>,pointmaps map<struct<x: int>, struct<a: int>>)USING icebergCOMMENT 'table documentation'PARTITIONED BY (bucket(16,id), years(ts_year), months(date_month), identity(bno), bucket(3,num), truncate(10,data))LOCATION '/warehouse/db_001/dempts'TBLPROPERTIES ('write.format.default'='orc');
常见问题
CREATE_TABLE 时的关键字里,Spark 的 USING 和 Hive 的 STORED AS 存在差异,可能会导致创建表后文件格式、读取都不符合预期。这里做一个特殊说明:
USING DATA_SOURCE:Spark 语法,该关键字表示创建表时使用哪种数据源作为输入的格式,直接影响表的 Location 下的文件格式和读取方式。可取值例如 CSV、TXT、Iceberg、Parquet、Orc 等。
STORED AS FILE_FORMAT:Hive 语法,该关键字用于创建一个 HIVE 格式的表,表示表中存储的数据文件的格式。可取值例如 TXT、Parquet、Orc 等。不建议使用这种语法,可能会导致 Spark 原生的 reader/writer 无法支持,例如不支持 CSV。
原生表 Iceberg 语法
注意
该语法仅支持创建原生表。
语法
CREATE TABLE [ IF NOT EXISTS ] table_identifier( col_name[:] col_type [ COMMENT col_comment ], ... )[ COMMENT table_comment ][ PARTITIONED BY ( col_name1, transform(col_name2), ... ) ]
参数
table_identifier
:支持三段式,catalog.db.name
Schemas and Data Typescol_type: primitive_type| nested_typeprimitive_type: boolean| int/integer| long/bigint| float| double| decimal(p,s),p=最大位数,s=最大小数点位数, s<=p<=38| date| timestamp,timestamp with timezone,不支持time和without timezone| string,也可对应Iceberg uuid类型| binary,也可对应Iceberg fixed类型nested_type: struct| list| map
Partition Transforms
transform: identity,支持任意类型, DLC不支持该转换| bucket[N],hash mod N分桶,支持col_type: int,long, decimal, date, timestamp, string, binary| truncate[L],L截取分桶,支持col_type: int,long,decimal,string| years,年份,支持col_type: date,timestamp| months,月份,支持col_type: date,timestamp| days/date,日期,支持col_type: date,timestamp| hours/date_hour,小时,支持col_type: timestamp
示例
CREATE TABLE dempts(id bigint COMMENT 'id number',num int,eno float,dno double,cno decimal(9,3),flag boolean,data string,ts_year timestamp,date_month date,bno binary,point struct<x: double, y: double>,points array<struct<x: double, y: double>>,pointmaps map<struct<x: int>, struct<a: int>>)COMMENT 'table documentation'PARTITIONED BY (bucket(16,id), years(ts_year), months(date_month), identity(bno), bucket(3,num), truncate(10,data));