如何在S3中解压.gzip文件，应用一些sql过滤器，并将结果存储回S3中的json？

文章/答案/技术大牛

发布

1回答

、、

因此，我以.gz格式以S3格式输入每小时的数据。我打算一起读取特定S3目录中的所有.gz文件。然后，对数据应用一些sql过滤器，并将结果作为json存储在不同的S3位置。或者这需要一些其他的架构？

浏览 12提问于2021-05-18得票数 0

1回答

使用python将S3 gzip源对象流解压到S3目标对象？

、、、、

如果在gzip 3/boto3 3中给出一个大型的对象，那么在python3 3/boto3 3中有什么内存效率(例如流)方法来解压缩数据并将结果存储回另一个S3对象？前面有一个。但是，所有的答案都使用了一种方法，在这种方法中，gzip文件的内容首先被读入内存(例如ByteIO)。这些解决方案对于太大而不适合主存的<

浏览 8提问于2020-10-20得票数 5

回答已采纳

1回答

控制台和CLI之间不同的S3下载行为

、、、、

我已经设置了一个cloudwatch日志组，将日志以gzip编辑的形式通过kinesis和s3水桶流到日志中。gzip文件都带有一些元数据标记：Content-Type application/octet-stream 当我直接从浏览器控制台下载其中一个文件并解压缩它时，我会得到日志文件的预期内容，即<

浏览 5提问于2020-02-02得票数 2

回答已采纳

1回答

在Hadoop中使用S3输入文件时如何优化GZip读取性能

、、、

数据的存储方式:在GZip桶中存储数千个5-10 in的S3文件。最近，我将一个示例100 my数据集的所有文件解压缩，并将其作为一个GZip文件上传到同一个S3桶中，我的任务在3分钟内完成(与之前的1小时运行相比)。在鼓励下，我将示例2GB数据集的所有<e

浏览 2提问于2012-07-03得票数 1

1回答

从S3解压文件，写入CSV文件并推送回S3

、、、、

我构建了一个从EC2实例收集日志并每天将它们上传到S3存储桶的lambda。日志被存储为.gz文件，现在我想构建另一个lambda，它收集最近上传的日志文件，对其进行解压缩，将其写入CSV文件，然后将其推送回s3。我已经设法收集了一个日志文件，解压缩并推送它，但我需要一些指导，如何在s3存储桶中</em

浏览 15提问于2019-03-06得票数 1

3回答

如何使用boto3动态提取S3中的文件？

、、

我正在尝试找到一种在S3中动态解压.gz文件的方法，那就是不需要把它下载到本地，解压然后再推送回S3。使用boto3 + lambda，我如何实现我的目标？我在boto3文档中没有看到任何提取部分。

浏览 0提问于2018-07-11得票数 21

回答已采纳

1回答

电源BI与S3桶的连接

、、、、

需要一些指导，因为我是新的动力BI和红移。将数据从亚马逊<e

浏览 1提问于2018-08-11得票数 3

2回答

使用boto从.gz文件流到S3的无限循环

、、、

我正在尝试使用boto从S3中流一个S3文件，并在解压缩的文本文件的行上迭代。令人费解的是，循环永远不会终止；当读取了整个文件时，迭代将在文件的开头重新启动。假设我创建并上传了一个输入文件，如下所示：

浏览 3提问于2015-06-05得票数 7

回答已采纳

2回答

从S3打开大文件

当我试图从S3打开一个大文件时，我得到了内存错误。import dask.dataframe as ddexception: MemoryError 如何直接从

浏览 6提问于2017-04-11得票数 2

1回答

Cloudfront压缩不会失效？

我一直在调整我的AWS Cloudfront设置，试图优化我的网站。所以我关闭了压缩，在整个目录树上运行无效，但问题仍然存在。我不得不关闭CDN，这样我的站点才能呈现。我错过了什么？

浏览 0提问于2017-01-14得票数 0

1回答

压缩HTML文件并不能加快加载速度

、、、、

我正在尝试构建一个HTML文件，其中包含一堆存储在iframe中的绘图图表。每个绘图图表本身都是一个html文档，存储在AWS S3中，并使用iframe的src属性加载。我现在的目标是让主HTML文件的加载速度更快。我在其他帖子上读到，启用GZIP压缩将实现这一点，所以我相应地设置了我的AWS存储桶，压缩了我的单个S3

浏览 10提问于2020-02-05得票数 0

2回答

从SageMaker或S3将数据导入Amazon

、、、

对于一个AI项目，我想在一个大约300 GB的数据集上训练一个模型。我想使用AWS SageMaker框架。在S3中直接解压缩。这可能是不可能做到的。直接

浏览 41提问于2022-10-18得票数 1

3回答

与在Amazon EMR上运行配置单元/Sqoop相关的查询？

、、、、

我的用例：1)电子病历使用Hadoop存储桶，它保存输入和输出数据S3处理(以对象的形式)。->我不知道如何在S3上以对象的形式

浏览 2提问于2012-04-23得票数 1

回答已采纳

1回答

将文件从s3移动到电子病历并解压(Scala)

、、、

我在S3上有一个很大的.tar.gz文件，我想把它移动到EMR HDFS (或临时S3存储桶)并解压缩，这样我就可以读取里面的一些小文件了。我现在正在做的是有一个外壳脚本将文件从S3下载到本地(使用AWS CLI)，并让scala/spark作业在未压缩的下载文件上运行以生成一些结果。我想要做的是在一

浏览 1提问于2018-02-21得票数 1

3回答

用Ruby从S3读取压缩数据

、、

我的公司将数据消息(json)存储在亚马逊S3上的压缩文件中。我想使用Ruby来迭代文件并进行一些分析。我开始使用'aws/s3‘创业板，并将每个文件获取为一个对象： #<AWS::S3::S3Object:0x4xxx4760 '/my.company.archive/data/msg/

浏览 0提问于2013-10-31得票数 2

回答已采纳

7回答

用Python从AWS S3读取gzip文件的内容

、、、

我试图从我在AWS中运行的Hadoop进程中读取一些日志。日志存储在S3文件夹中，并具有以下路径。bucketname = name key = y/z/stderr.gz这里是集群id，z是文件夹名。这两者都充当AWS中的文件夹(对象)。所以完整的路径是x/y/z/stderr.gz。现在，我想解压</e

浏览 1提问于2016-12-15得票数 42

1回答

AWS分析导出到公共桶中的S3加密

、

将数据集导出到S3桶。S3存储桶设置为公共，加密禁用，并且具有允许公共访问的桶策略，但是每次从ignoring更新数据集时，它都被加密，忽略了我的桶级设置。我已经测试过，如果我手动地将一个文件上传到桶中，那么这个策略是可以正常工作的，所以似乎是造成了这种情况，但是似乎没有任何选项可以在控制台中管理它。有什么建议吗？

浏览 5提问于2022-07-23得票数 0

1回答

使用IO库将字符串变量作为txt文件加载到s3中，或将其作为txt文件加载到file中

、、

我下面有一段旧代码，它使用IO库压缩一个文件并将其作为json存储到S3中(这样文件就不会保存在本地)。我在转换这种相同的方法(即使用IO库作为缓冲区)来创建.txt文件并推送到S3中并稍后检索时遇到了问题。我知道如何创建txt文件和推送到s3中，但不知道如何在过程中使用IO。我希望存储在文本值中</e

浏览 20提问于2019-12-31得票数 1

回答已采纳

1回答

使用python脚本的AWS ETL

、、、、

我正在尝试在使用python的AWS平台上创建一个基本的ETL。在S3存储桶(让我们称它为"A")中，我有很多原始的日志文件。我想做的是定期(=数据管道)解压缩，由python脚本处理，它会重新格式化每一行的结构，并将其输出到另一个S3存储桶("B")，最好是来自A中相同gzip的

浏览 2提问于2015-07-11得票数 1

3回答

CodeDeploy到S3

、、、、

我有一个S3桶中的站点，配置为web访问，每当我按下特定的git存储库时，我都会运行一个aws s3 sync命令(目前我正在使用Gitlab )。我希望迁移到CodeCommit，并使用纯AWS工具进行同样的操作。到目前为止，我已经成功地设置了存储库，创建了用于构建工件的CodeBuild，并且工件正在存储(而不是部署)到S3桶中。不同的是，我无法让它部署到

浏览 8提问于2017-09-04得票数 11

回答已采纳

点击加载更多