我尝试在GCP Cloud Shell中解压其中一个文件,比如ABC.gz。解压缩后的文件仍然以.gz:ABC.gz结尾。我认为这是根本原因,因为Spark可能试图解压解压后的文件。:225) at org.apache.hadoop.util.LineReader.fillBuffer(LineReader
我有多个压缩文件,每个压缩文件包含大小为5-10kb的8个xml文件。我把这些数据用于测试,否则活数据就会有1000 s的xml文件。我只编写了map程序来解压缩压缩的文件。(FSNamesystem.java:3431) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java