腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2833)
视频
沙龙
1
回答
如
何在
S3
中
解压
.
gzip
文件
,
应用
一些
sql
过滤器
,
并将
结果
存储
回
S3
中
的
json
?
、
、
因此,我以.gz格式以
S3
格式输入每小时
的
数据。我打算一起读取特定
S3
目录
中
的
所有.gz
文件
。然后,对数据
应用
一些
sql
过滤器
,
并将
结果
作为
json
存储
在不同
的
S3
位置。或者这需要
一些
其他
的
架构?
浏览 12
提问于2021-05-18
得票数 0
1
回答
使用python将
S3
gzip
源对象流
解压
到
S3
目标对象?
、
、
、
、
如果在
gzip
3/boto3 3
中
给出一个大型
的
对象,那么在python3 3/boto3 3
中
有什么内存效率(例如流)方法来
解压
缩数据
并将
结果
存储
回
另一个
S3
对象? 前面有一个。但是,所有的答案都使用了一种方法,在这种方法
中
,
gzip
文件
的
内容首先被读入内存(例如ByteIO)。这些解决方案对于太大而不适合主存
的<
浏览 8
提问于2020-10-20
得票数 5
回答已采纳
1
回答
控制台和CLI之间不同
的
S3
下载行为
、
、
、
、
我已经设置了一个cloudwatch日志组,将日志以
gzip
编辑
的
形式通过kinesis和
s3
水桶流到日志
中
。
gzip
文件
都带有
一些
元数据标记:Content-Type application/octet-stream 当我直接从浏览器控制台下载其中一个
文件
并
解压
缩它时,我会得到日志
文件
的
预期内容,即<
浏览 5
提问于2020-02-02
得票数 2
回答已采纳
1
回答
在Hadoop中使用
S3
输入
文件
时如何优化
GZip
读取性能
、
、
、
数据
的
存储
方式:在
GZip
桶
中
存储
数千个5-10 in
的
S3
文件
。最近,我将一个示例100 my数据集
的
所有
文件
解压
缩,
并将
其作为一个
GZip
文件
上传到同一个
S3
桶
中
,我
的
任务在3分钟内完成(与之前
的
1小时运行相比)。在鼓励下,我将示例2GB数据集
的
所有<e
浏览 2
提问于2012-07-03
得票数 1
1
回答
从
S3
解压
文件
,写入CSV
文件
并推送回
S3
、
、
、
、
我构建了一个从EC2实例收集日志并每天将它们上传到
S3
存储
桶
的
lambda。日志被
存储
为.gz
文件
,现在我想构建另一个lambda,它收集最近上传
的
日志
文件
,对其进行
解压
缩,将其写入CSV
文件
,然后将其推送回
s3
。我已经设法收集了一个日志
文件
,
解压
缩并推送它,但我需要
一些
指导,如
何在
s3
存储
桶
中</em
浏览 15
提问于2019-03-06
得票数 1
3
回答
如何使用boto3动态提取
S3
中
的
文件
?
、
、
我正在尝试找到一种在
S3
中
动态
解压
.gz
文件
的
方法,那就是不需要把它下载到本地,
解压
然后再推送回
S3
。 使用boto3 + lambda,我如何实现我
的
目标?我在boto3文档
中
没有看到任何提取部分。
浏览 0
提问于2018-07-11
得票数 21
回答已采纳
1
回答
电源BI与
S3
桶
的
连接
、
、
、
、
需要
一些
指导,因为我是新
的
动力BI和红移。 将数据从亚马逊<e
浏览 1
提问于2018-08-11
得票数 3
2
回答
使用boto从.gz
文件
流到
S3
的
无限循环
、
、
、
我正在尝试使用boto从
S3
中
流一个
S3
文件
,并在
解压
缩
的
文本
文件
的
行上迭代。令人费解
的
是,循环永远不会终止;当读取了整个
文件
时,迭代将在
文件
的
开头重新启动。假设我创建并上传了一个输入
文件
,如下所示:
浏览 3
提问于2015-06-05
得票数 7
回答已采纳
2
回答
从
S3
打开大
文件
当我试图从
S3
打开一个大
文件
时,我得到了内存错误。import dask.dataframe as ddexception: MemoryError 如何直接从
浏览 6
提问于2017-04-11
得票数 2
1
回答
Cloudfront压缩不会失效?
我一直在调整我
的
AWS Cloudfront设置,试图优化我
的
网站。所以我关闭了压缩,在整个目录树上运行无效,但问题仍然存在。我不得不关闭CDN,这样我
的
站点才能呈现。我错过了什么?
浏览 0
提问于2017-01-14
得票数 0
1
回答
压缩HTML
文件
并不能加快加载速度
、
、
、
、
我正在尝试构建一个HTML
文件
,其中包含一堆
存储
在iframe
中
的
绘图图表。每个绘图图表本身都是一个html文档,
存储
在AWS
S3
中
,并使用iframe
的
src属性加载。我现在
的
目标是让主HTML
文件
的
加载速度更快。我在其他帖子上读到,启用
GZIP
压缩将实现这一点,所以我相应地设置了我
的
AWS
存储
桶,压缩了我
的
单个
S3
浏览 10
提问于2020-02-05
得票数 0
2
回答
从SageMaker或
S3
将数据导入Amazon
、
、
、
对于一个AI项目,我想在一个大约300 GB
的
数据集上训练一个模型。我想使用AWS SageMaker框架。 在
S3
中
直接
解压
缩。这可能是不可能做到
的
。直接
浏览 41
提问于2022-10-18
得票数 1
3
回答
与在Amazon EMR上运行配置单元/Sqoop相关
的
查询?
、
、
、
、
我
的
用例:1)电子病历使用Hadoop
存储
桶,它保存输入和输出数据
S3
处理(以对象
的
形式)。->我不知道如
何在
S3
上以对象
的
形式
浏览 2
提问于2012-04-23
得票数 1
回答已采纳
1
回答
将
文件
从
s3
移动到电子病历并
解压
(Scala)
、
、
、
我在
S3
上有一个很大
的
.tar.gz
文件
,我想把它移动到EMR HDFS (或临时
S3
存储
桶)并
解压
缩,这样我就可以读取里面的
一些
小
文件
了。我现在正在做
的
是有一个外壳脚本将
文件
从
S3
下载到本地(使用AWS CLI),并让scala/spark作业在未压缩
的
下载
文件
上运行以生成
一些
结果
。我想要做
的
是在一
浏览 1
提问于2018-02-21
得票数 1
3
回答
用Ruby从
S3
读取压缩数据
、
、
我
的
公司将数据消息(
json
)
存储
在亚马逊
S3
上
的
压缩
文件
中
。我想使用Ruby来迭代
文件
并进行
一些
分析。我开始使用'aws/
s3
‘创业板,
并将
每个
文件
获取为一个对象: #<AWS::
S3
::S3Object:0x4xxx4760 '/my.company.archive/data/msg/
浏览 0
提问于2013-10-31
得票数 2
回答已采纳
7
回答
用Python从AWS
S3
读取
gzip
文件
的
内容
、
、
、
我试图从我在AWS
中
运行
的
Hadoop进程
中
读取
一些
日志。日志
存储
在
S3
文件
夹
中
,并具有以下路径。bucketname = name key = y/z/stderr.gz这里是集群id,z是
文件
夹名。这两者都充当AWS
中
的
文件
夹(对象)。所以完整
的
路径是x/y/z/stderr.gz。现在,我想
解压</e
浏览 1
提问于2016-12-15
得票数 42
1
回答
AWS分析导出到公共桶
中
的
S3
加密
、
将数据集导出到
S3
桶。
S3
存储
桶设置为公共,加密禁用,并且具有允许公共访问
的
桶策略,但是每次从ignoring更新数据集时,它都被加密,忽略了我
的
桶级设置。我已经测试过,如果我手动地将一个
文件
上传到桶
中
,那么这个策略是可以正常工作
的
,所以似乎是造成了这种情况,但是似乎没有任何选项可以在控制台中管理它。 有什么建议吗?
浏览 5
提问于2022-07-23
得票数 0
1
回答
使用IO库将字符串变量作为txt
文件
加载到
s3
中
,或将其作为txt
文件
加载到file
中
、
、
我下面有一段旧代码,它使用IO库压缩一个
文件
并将
其作为
json
存储
到
S3
中
(这样
文件
就不会保存在本地)。我在转换这种相同
的
方法(即使用IO库作为缓冲区)来创建.txt
文件
并推送到
S3
中
并稍后检索时遇到了问题。我知道如何创建txt
文件
和推送到
s3
中
,但不知道如
何在
过程中使用IO。我希望
存储
在文本值
中</e
浏览 20
提问于2019-12-31
得票数 1
回答已采纳
1
回答
使用python脚本
的
AWS ETL
、
、
、
、
我正在尝试在使用python
的
AWS平台上创建一个基本
的
ETL。在
S3
存储
桶(让我们称它为"A")
中
,我有很多原始
的
日志
文件
。我想做
的
是定期(=数据管道)
解压
缩,由python脚本处理,它会重新格式化每一行
的
结构,
并将
其输出到另一个
S3
存储
桶("B"),最好是来自A
中
相同
gzip
的
浏览 2
提问于2015-07-11
得票数 1
3
回答
CodeDeploy到
S3
、
、
、
、
我有一个
S3
桶
中
的
站点,配置为web访问,每当我按下特定
的
git
存储
库时,我都会运行一个aws
s3
sync命令(目前我正在使用Gitlab )。我希望迁移到CodeCommit,并使用纯AWS工具进行同样
的
操作。 到目前为止,我已经成功地设置了
存储
库,创建了用于构建工件
的
CodeBuild,并且工件正在
存储
(而不是部署)到
S3
桶
中
。不同
的
是,我无法让它部署到
浏览 8
提问于2017-09-04
得票数 11
回答已采纳
点击加载更多
相关
资讯
数据湖和SQL并不矛盾
通过优化S3读取来提高效率和减少运行时间
【微服务架构】让我们谈谈“拥有”他们的数据的微服务
python爬虫系列开发scrapy掌握(一)
ClickHouse如何实现存算分离?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券