如何在Hadoop中自动压缩文件？

、、、

我必须读取上传到s3上的压缩文件。功能:当任何文件上传到s3时，都会触发一个lambda，这会触发一个spark作业。我应该在哪里读取文件，在AWS Lambda中还是通过Apache Spark？哪一个将是有益的？如何在spark中读取压缩文件？

浏览 2提问于2019-06-08得票数 1

3回答

将文件从s3复制和解压到HDFS

、、

我想将S3中的test.tar.gz文件复制到HDFS。这可以通过distcp或s3distcp来完成。但我的要求是，当我将文件传输到HDFS时，它应该是动态解压的，在HDFS中，我应该只有解压的文件，而不是tar.gz。有什么建议请提出来。

浏览 4提问于2014-05-20得票数 6

1回答

Spark支持gzip格式吗？

、、、、

然而，在官方文档中，我找不到任何关于如何处理gzipped文件的提示。在实践中，处理.gz文件而不是处理解压缩文件是非常有效的。有没有办法手动实现gzipped文件的读取，或者在读取.gz文件时解压已经自动完成了？

浏览 1提问于2013-04-30得票数 46

回答已采纳

4回答

在hadoop中查看gzipped文件内容

如何在hdfs中解压缩和查看压缩文件的几行。下面的命令显示压缩数据的最后几行是否有一种方法可以使用-text命令并将输出传递到-text命令？hadoop fs -text /myfolder/part-r-00024.gz > hadoop fs -tail /myfolder/

浏览 7提问于2015-08-12得票数 7

回答已采纳

1回答

我对Hadoop完全陌生，我想压缩一个大文件并将其放在HDFS.So中。hdfs://localhost:9000</value> <property> <name>io.compression.codecs</name> </property>

浏览 3提问于2016-08-03得票数 1

1回答

在Hadoop映射中处理Zip文件

我是Hadoop和Mapreduce的新手。谁能给我样品或建议我的链接。

浏览 1提问于2014-03-14得票数 1

2回答

从Hadoop流读取HDFS上的Snappy压缩数据

、、、、

通常，在Hadoop流作业中读取GZIP压缩文件时，解压缩会自动发生。但是，在使用Snappy压缩数据时不会发生这种情况，而且我无法处理这些数据。如果我使用命令hadoop fs -text file，它就能工作。这个问题只有在使用hadoop流时才会发生，在传递给我的python脚本之前，数据不会被解压缩。

浏览 5提问于2017-01-07得票数 1

回答已采纳

4回答

关于Hadoop和压缩输入文件的非常基本的问题

、

我已经开始研究Hadoop了。

浏览 1提问于2010-01-17得票数 19

4回答

使用hadoop streaming解压文件

、、

我试过了： -D mapred.reduce.tasks=0 \

浏览 2提问于2013-03-07得票数 4

2回答

Dataproc无法解压缩由AWS Kinesis压缩的.gz文件

、、

我尝试在GCP Cloud Shell中解压其中一个文件，比如ABC.gz。解压缩后的文件仍然以.gz：ABC.gz结尾。我认为这是根本原因，因为Spark可能试图解压解压后的文件。:225) at org.apache.hadoop.util.LineReader.fillBuffer(LineReader

浏览 39提问于2020-01-20得票数 1

回答已采纳

1回答

在hadoop中添加Zip文件支持

、、、

默认情况下，Hadoop支持读取.gz压缩文件，我希望对Hadoop文件也有类似的支持。我应该能够使用hadoop -text命令读取压缩文件的内容。我正在寻找一种方法，在这种方法中，我不必为zip文件实现输入格式和记录阅读器。我希望我的工作是完全不可知的格式的输入文件，它应该工作，无论数据是压缩或解压缩。类似于for.gz文件。

浏览 1提问于2015-03-23得票数 0

1回答

将许多小文件转移到Hadoop文件系统中

、、

我想将太多的小文件(例如200k文件)以zip文件的形式从本地传输到HDFS中。当我解压缩zip文件并将文件传输到HDFS中时，需要很长时间。

浏览 1提问于2015-04-08得票数 4

2回答

使用bash脚本在hadoop中压缩不同的目录

、、、

我在hadoop中有一个位置，其中有不同的目录，如dir1、dir2等。我需要将这些不同的目录压缩为不同的压缩文件。我使用了以下脚本，但这不起作用。

浏览 0提问于2016-05-19得票数 1

回答已采纳

2回答

将快速压缩文件加载到弹性MapReduce

、、、、

我在S3中有一堆快速压缩的服务器日志，我需要在弹性MapReduce上使用流来处理它们。我如何告诉Amazon和Hadoop日志已经被压缩(在它们被拉入HFS之前！)顺便说一句，我主要是在python中工作，所以如果你有boto的解决方案，那就加分吧！

浏览 1提问于2013-03-22得票数 5

回答已采纳

2回答

可以在hadoop中减少任务接受压缩数据

、、

我们看到map可以接受和输出压缩和未压缩的数据。我正在进行cloudera培训，老师提到reduce任务输入必须以键值的形式存在，因此不能处理压缩数据。谢谢你的帮助。

浏览 1提问于2013-08-30得票数 0

1回答

在我的Hadoop流工作的第一步，我得到了非常糟糕的表现:在我看来，映射器从S3读取约40 S3/s-50 S3/s。从S3读取大约100 be的数据需要一个多小时！数据的存储方式:在GZip桶中存储数千个5-10 in的S3文件。最近，我将一个示例100 my数据集的所有文件解压缩，并将其作为一个GZip文件上传到同一个S3桶中，我的任务在3分钟内完成(与之前的1小时运行相比)。在鼓励下，我将示例2GB数据集的所有文件解压缩，并将其作为一个GZip文件上传到同一个S3桶中，并且任务再次花费了1个多小

浏览 2提问于2012-07-03得票数 1

1回答

从Azure DocumentDB获取HDInsight源数据时会发生什么情况

、

我有一个Hadoop作业在HDInsight上运行，并从Azure DocumentDB中源数据。这个作业每天运行一次，当新数据每天进入DocumentDB时，我的hadoop作业会过滤掉旧记录，只处理新记录(这是通过在某个地方存储时间戳来完成的)。但是，随着Hadoop作业的运行，如果有新的记录进入，我不知道它们会发生什么。他们是否被灌输给正在运行的作业？DocumentDB中的节流机制在这里是如何发挥作用的？

浏览 2提问于2015-12-12得票数 0

1回答

通过Python zipfile库单独读取压缩的csv文件(.zip、.z01等

、、

由于FAT存储格式的4 GB限制，我将csv文件编译成多个压缩文件，如test.zip和test.z01。例如：提供了如何在一个压缩文件中读取csv文件。

浏览 13提问于2017-01-09得票数 2

2回答

Hadoop - LeaseExpiredException

、、

我有多个压缩文件，每个压缩文件包含大小为5-10kb的8个xml文件。我把这些数据用于测试，否则活数据就会有1000 s的xml文件。我只编写了map程序来解压缩压缩的文件。(FSNamesystem.java:3431) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java

浏览 3提问于2015-09-26得票数 1

回答已采纳

4回答