我在一个基于Parquet的Hive表中有很多数据(Hive version 0.10)。我必须在表中添加几个新列。我希望新的列有数据向前推进。对于已经加载的数据,如果该值为NULL,这对我来说是可以的。
如果我添加新列而不更新旧的Parquet文件,就会产生一个错误,而且它看起来很奇怪,因为我只添加了字符串列。错误获取带异常java.lang.UnsupportedOperationException的行数据:无法
例如,我们使用Spark执行下面的SQL,我们需要my_udf(row)返回Spark中的分区id。create temporary function my_udf as 'com.my.MyUDF';
我已经知道如何让taskId在Hive中在MR engine:中执行,但是在Spark中执行它并不有效。请告诉我如何获得partitionID或taskContext的火花在蜂