首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >对于col_a中的每个不同值,生成一个新表

对于col_a中的每个不同值,生成一个新表
EN

Stack Overflow用户
提问于 2020-02-12 21:47:06
回答 1查看 223关注 0票数 1

我在S3中有一个雅典娜数据表,它充当源表,列为idnameevent。对于该表中的每个唯一name值,我希望输出一个新表,其中包含与该name值相对应的所有行,并将其保存到S3中的不同存储桶中。这将导致存储在S3中的n个新文件,其中n也是源表中唯一的name值的数目。

我尝试过使用PARTITION BY和CTAS查询Lambda中的单个雅典娜查询,但似乎无法得到我想要的结果。看起来AWS Glue可能能够得到我预期的结果,但我在网上读到它更昂贵,也许我可以使用Lambda获得我的预期结果。

如何存储一个新文件(最好是JSON格式),其中包含与每个唯一的name 对应的行( S3? )

最好是每天运行一次,以更新name存储的数据,但目前主要关注的是上面的问题。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-02-25 01:51:49

当您编写星火/胶水代码时,需要使用name列对数据进行分区。但是,这将导致具有以下格式的路径

S3://桶名/文件夹/name=value/file.json

这将为每个名称值提供一组单独的文件,但如果您想作为一个单独的表访问该文件,则在抓取数据并通过雅典娜提供数据之前,您可能需要从键中去掉该=签名。

如果您确实使用lambda,则操作包括遍历数据,类似于glue所做的操作,并对数据进行分区。

我想这一切都取决于它需要处理的数据量。胶水,如果使用火花可能会有一点额外的启动时间。胶水蟒壳有较好的启动时间。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60201185

复制
相关文章
Phoenix Framework对于Tree该方法节点设置不同的图标,每个[通俗易懂]
在包Javax Swing的Tree对象。我们需要设置不同的图标为每个节点。它封装了一个通用的方法:
全栈程序员站长
2022/07/06
3280
Phoenix Framework对于Tree该方法节点设置不同的图标,每个[通俗易懂]
想利用Python实现将一个图片放进不同表的不同tab中
前几天在Python星耀交流群【扮猫】问了一道Python处理的问题,如下图所示。
前端皮皮
2022/08/17
6020
想利用Python实现将一个图片放进不同表的不同tab中
MySQL中的case when中对于NULL值判断的小坑
今天在开发程序中,从MySQL中提取数据的时候,使用到了case when的语法用来做判断,在使用过程中在判断NULL值的时候遇到个小问题;
SEian.G
2021/10/22
3.2K0
不同浏览器对于换行的处理
在一个容器中,如果设定了宽度,一般来说自动换行都是比较正常的,但是如果遇到了连续的英文字符,这个问题就会让人头疼。这不,我们部门的用户在测试的时候输入连续的字符,就出现了容器被撑大而样式变形的情况发生,怎么解决这个问题呢?
大江小浪
2018/07/24
1.4K0
【黄啊码】MySQL中NULL和““的区别以及对索引的影响
 由此可见,null和''的查询方式不同。而且比较字符 ‘=’’>’ ‘<’ ‘<>’不能用于查询null, 如果需要查询空值(null),需使用is null 和is not null。
黄啊码
2022/06/15
1K0
【SQL】分享表值函数FMakeRows,用于生成行
评论中又有一位【笑东风】兄给出改善建议,在此先感谢他。原理是借助行数较多的一个系统视图sys.all_columns与自身做cross join,以得到大量现成行数,详情请见回复。在我的原文中我也提到考虑过这种借助现有系统对象得到行的方法,但我想当然认为这样会导致访问基础表,性能不会好,所以试都没试就pass了,但事实证明我错了,他的法子经测性能比倍增法好太多,再次自我教训,实践才是硬道理!!!再次感谢【笑东风】兄。最终实现如下:
AhDung
2018/09/13
6170
【SQL】分享表值函数FMakeRows,用于生成行
如何找出单向链表中每个节点之后的下个较大值?
1. 要找到的是一个元素之后下个较大值,这里的关键词是[下个较大值]是其后第一个大于当前元素的值.如例子中,第二个元素4(list[1])对应的下个较大值应为5,而不是8.
一个架构师
2022/06/20
1.1K0
如何找出单向链表中每个节点之后的下个较大值?
eclipse中运行hbase时不能显示表中的值
for(Result row:table.getScanner("fam1".getBytes())){ // System.out.format("ROW\n", new String(row.getRow()));//attention:the format can't be used. System.out.println("ROW\t"+new String(row.getRow())); for(Map.Entry<byte[], byte[]>entry:ro
闵开慧
2018/03/30
3.1K0
GitHub生成一个新的ssh密钥
子舒
2023/08/23
6020
mysql 空值(null)和空字符('')的区别
日常开发中,一般都会涉及到数据库增删改查,那么不可避免会遇到Mysql中的NULL和空字符。 空字符('')和空值(null)表面上看都是空,其实存在一些差异:
钢铁知识库
2022/08/20
3.4K0
2021-03-07:在一个数组中,对于每个数num,求有多少个后
2021-03-07:在一个数组中,对于每个数num,求有多少个后面的数 * 2 依然<num,求总个数。比如:3,1,7,0,2,3的后面有:1,0;1的后面有:0;7的后面有:0,2;0的后面没有;2的后面没有;所以总共有5个。
福大大架构师每日一题
2021/03/07
3930
2021-03-07:在一个数组中,对于每个数num,求有多少个后
不同页面传值
小程序页面传值,点击不同的页面反馈不一样对应页面 url传参 A页面:需要添加一些需传的值, <swiper indicator-dots='true' autoplay='true' interval='5000' duration='1000'   catchtap='onSwiperTap'> <swiper-item ><image src='/image/new-pic1.jpg' data-newsid='0' ></image></swiper-item> <swiper-item><imag
十月梦想
2018/08/29
1.8K0
一个颜值爆表的开源博客系统
地址:https://github.com/kwchang0831/svelte-QWER
开源日记
2023/03/10
6560
一个颜值爆表的开源博客系统
2021-04-17:给定一个整型数组 arr,数组中的每个值都为正数,表示完成
2021-04-17:给定一个整型数组 arr,数组中的每个值都为正数,表示完成一幅画作需要的时间,再 给定 一个整数 num,表示画匠的数量,每个画匠只能画连在一起的画作。所有的画家 并行工作,请 返回完成所有的画作需要的最少时间。【举例】arr=3,1,4,num=2。最好的分配方式为第一个画匠画 3 和 1,所需时间为 4。第二个画匠画 4,所需时间 为 4。 因为并行工作,所以最少时间为 4。如果分配方式为第一个画匠画 3,所需时 间为 3。第二个画 匠画 1 和 4,所需的时间为 5。那么最少时间为 5,显然没有第一 种分配方式好。所以返回 4。arr=1,1,1,4,3,num=3。最好的分配方式为第一个画匠画前三个 1,所需时间为 3。第二个画匠画 4,所需时间 为 4。 第三个画匠画 3,所需时间为 3。返回 4。
福大大架构师每日一题
2021/05/04
1.1K0
2021-04-17:给定一个整型数组 arr,数组中的每个值都为正数,表示完成
对于魔术方法__call,__callStatic 新的认识
其实上面的解释在某些情况下是正确的。但是在一些特殊情形,如果按照这个解释来理解,就会觉得结果不可思议了。
写PHP的老王
2019/10/15
6070
Sql Server 中 根据具体的值 查找该值所在的表和字段
在我们的工作中经常遇到这样一个问题,在页面中保存一条数据,有个字段值为“张三”,但是,不知道这条数据保存在了哪个表中,现在我们想要追踪该值是存储到了那个表的那个字段中,具体要怎么操作呢?下面我们可以借助存储过程来解决这一问题
jamesjiang
2022/11/20
6.6K0
Sql Server 中 根据具体的值 查找该值所在的表和字段
golang刷leetcode: 在每个树行中找最大值
3,深度优先遍历:深度优先一般是递归解,每次递归的时候记录当前访问的深度,递归过程中对相同深度的取最大值。
golangLeetcode
2022/08/02
6830
VBA 创建一个新表,并复制其它表数据
Application.DisplayAlerts = False
办公魔盒
2019/07/22
3.2K0
点击加载更多

相似问题

对于列中的每个唯一值,创建一个新的工作表+更多

14

对于特定值的每个不同组

21

对于表中的每个不同ID,计算不同表中相关UID的数量。(SQL)

20

从表中选择col_a in()中只匹配col_b值的表

13

如何映射一个表中列的每个不同值,以及蜂巢中另一个表中列的每个不同值

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文