George 20100101我是否可以使用awk将第三列与分区的运行总数相加,例如,对于第一列和第二列的每个不同模式,从0开始计数器,然后为该模式的任何重复而递增awk,但这是我想到的-用于不被SQL处理的文本文件。文本文件大小约为50 are,每个文件的行数约为200mil。
我使用计数器来删除重
我使用Impala查询parquet-tables,无法找到从1..n增加integer-column的解决方案。该列应该用作ID引用。无论如何,这不适合我,因为我必须将ID传递给另一个系统,它以1..n的形式请求ID。我也知道黑斑羚没有auto-increment-implementation。所需的结果应该如下所示:
-- UUID() provided as example - I want to achieve the `my_id`-column..| "d"