腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Glue
Crawler
可以抓取deltalake文件
来
创建
aws胶水目录中的
表
吗?
、
、
、
、
我们有
一个
现有的基础设施,可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分
创建
的,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了
一个
POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫器中
创建
表
。 我们能用AWS爬虫来抓取三角洲湖的文件吗?
浏览 5
提问于2020-09-05
得票数 2
回答已采纳
8
回答
AWS
雅典娜
从
从
胶水爬虫输入csv
创建
的
表
返回零记录
从
S3
、
、
、
、
第一部分:但
雅典娜
的ELB演示数据运行良好。第二部分(场景:) 假设我有
一个
excel文件和数据字典,说明如何和什么格式的数据存储在该文件中,我希望将数据转储到AWS Redshift中
浏览 25
提问于2017-11-13
得票数 14
1
回答
如
何用
一个
位置
路径
从
多个
文件夹
创建
多个
表
,
雅典娜
也
应该
使用
glue
crawler
来
处理
它
、
、
、
、
我尝试过这样做,但没有达到要求的结果-我有
多个
CSV文件在s3存储桶的
文件夹
中,但当它为
它
创建
多个
表
时,
雅典娜
返回零结果,所以我为每个文件
创建
了
一个
不同的
文件夹
,然后
它
工作得很好。问题-但是如果将来要添加更多的
文件夹
,那么我必须去爬虫,并且必须为每个新添加的
文件夹
添加
一个
新的
位置
路径
,所以有没有什么方法可以自动
浏览 22
提问于2020-03-20
得票数 0
回答已采纳
2
回答
如何
使用
为动态S3
路径
创建
雅典娜
表
?
、
、
、
、
下面是我的S3
路径
,在这些
路径
下存在
多个
文件夹
。每个
文件夹
都包含
一个
CSV文件,每个文件都有不同的架构。我想
使用</e
浏览 5
提问于2021-10-21
得票数 0
回答已采纳
1
回答
Glue
crawler
未合并数据-
表
中也没有可见数据
、
、
、
、
我正在测试这个架构: Kinesis Firehose S3→
雅典娜
。现在我
使用
的是Kinesis生成的虚拟数据,每一行看起来像这样:{"ticker_symbol":"NFLX","sector":"TECHNOLOGY","change":-1.17,"price":首先,
Glue
Crawler
为每个文件
创建
一个
单独的
表
。我读到过,如果模式匹配,
浏览 18
提问于2021-01-28
得票数 0
1
回答
AWS Athena -由于分区导致的重复列
、
、
、
、
我们有
一个
胶水爬虫
来
读取S3中的avro文件,并相应地在胶水目录中
创建
一个
表
。问题是,我们有
一个
名为'foo‘的列,
它
来自avro schema,我们在s3存储桶
路径
中也有类似于'foo=XXXX’的东西,以具有配置单元分区。我们不知道的是,爬虫随后将
创建
一个
表
,该表现在有两个同名的列,因此我们在查询
表
时遇到的问题是: HIVE_INVALID_METADATA
浏览 27
提问于2019-12-10
得票数 5
回答已采纳
1
回答
创建
列名包含点(.)的
表
时出错在亚马逊,
雅典娜
,甚至在用后排(`)逃离圆点之后
、
、
、
、
重要 虽然您可能成功地
创建
了包含除下划线以外的特殊字符的
表
、视图、数据库或列名,方法是将它们括在回勾(`)字符中,但是引用它们的后续DDL或DML查询可能失败。因此,我尝试
使用
存储在S3桶中的JSON文件
创建
一个
表
,JSON中的
一个
键包含
多个
点(.),根据链接上提供的信息,如果我
使用
backticks(`)
来
转义
它
,
应该
是可以的。,但是当我通过AWS
Glue
中的
浏览 0
提问于2020-06-26
得票数 1
回答已采纳
1
回答
为什么Kinesis或
Crawler
要在我的数据中
创建
分区?
、
、
、
、
上下文:根据胶水模式,我
使用
动态技术将来自lambda的数据流到
一个
S3桶中。然后,我在我的S3桶上运行
一个
爬虫
来
编目我的数据。但是,当数据存储在我的S3桶中时,数据存储在以下dir结构中:然后,当我在上面运行我的爬虫时,我的爬虫会
创建
4个额外的分区键我不希望这些属性被
创建
..。 问:为什么胶水爬虫要
创建
这些附加属性,我如何阻止
它
创建
它们?或者,如何
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
1
回答
雅典娜
外部
表
中基座
位置
的变化
、
、
、
、
key=2/<data>s3://my-bucket/202001/tablenm/key=4/<data>现
浏览 0
提问于2020-04-24
得票数 1
1
回答
雅典娜
- CTAS文件名
、
、
我
使用
了
雅典娜
的CTAS和插入命令以及在external_location中
创建
的Avro文件,但是文件名非常奇怪,文件扩展名
也
消失了。(该文件没有任何文件扩展名。文件只有奇怪的文件名,
如
哈希码)我如何为
雅典娜
的文件定义文件名规则?谢谢。
浏览 1
提问于2020-01-08
得票数 1
回答已采纳
5
回答
AWS
Glue
不会检测分区并在目录中
创建
1000+
表
、
、
我正在
使用
AWS
Glue
创建
元数据
表
。AWS
Glue
Crawler
数据存储
路径
: s3://bucket-name/├── bucket-name │ ├── pt=2011-10-11-10 为此aws
cra
浏览 0
提问于2018-01-09
得票数 9
1
回答
是否可以更改AWS
雅典娜
输出文件的分隔符
、
下面是我的示例代码,其中我
使用
Athena在S3桶中
创建
了
一个
文件。默认情况下,该文件采用csv格式。是否有办法将其改为管道分隔符?
浏览 6
提问于2020-06-30
得票数 1
1
回答
如何
从
S3关联、连接和聚合
多个
文件
、
、
、
、
在每个
文件夹
中,我希望连接3个
表
,并将输出存储在
一个
专用
表
中。专用
表
最终
应该
保存来自所有不同
文件夹
的连接数据。重复可能发生在不同的
文件夹
之间,但是记录有
一个
唯一的键,可以帮助聚合。然后,
使用
sql为这3个
表
创建
联接
表
,最后将连接的数据添加到聚合
表
中,该
表
应该
包含所有
文件夹
中的数据。 我目前正在
浏览 1
提问于2019-05-03
得票数 0
回答已采纳
2
回答
AWS
Glue
爬虫需要从具有相同模式的
多个
文件
创建
一个
表
。
、
我们在S3中有大量的
文件夹
和文件,它们都在
一个
特定的
文件夹
下,我们希望抓取所有的CSV文件,然后
从
雅典娜
的
一个
表
中查询它们。CSV文件都有相同的模式。问题是,爬虫正在为每个文件生成
一个
表
,而不是
一个
表
。爬虫配置有
一个
复选框选项,用于“为每个S3
路径
创建
一个
模式”,但这似乎什么
也
做不了。 我需要什么是可能的吗?谢
浏览 0
提问于2019-01-23
得票数 6
1
回答
AWS
雅典娜
查询分区
、
、
、
我试图
使用
为现有的平台提供分析。当前的流如下所示: 火软管
使用
中的
表
将数据转换为拼图,并每15分钟或当流达到128 MB (最大支持值)时写入S3。当数据被写入S3时,它将
使用
路径
/year=!{timestamp:yyyy}/month=!{timestamp:MM}/day=!{timestamp:dd}/...进行分区。AWS
Glue
爬虫每24小时更新一次包含最新分区数据的
表
,
浏览 0
提问于2019-04-26
得票数 1
回答已采纳
3
回答
如何访问分区
雅典娜
表
的子目录中的数据
、
我有
一个
雅典娜
表
,每天都有
一个
分区,其中实际的文件按小时排列在“子目录”中,如下所示:s3://my-bucket00002.jsons3://
浏览 0
提问于2019-07-01
得票数 2
回答已采纳
2
回答
AWS Quicksight无法在另
一个
区域看到Athena DB
、
、
我的Athena DB位于ap-south-1区域,而AWS QuickSight不存在于该区域.
浏览 10
提问于2019-10-10
得票数 3
回答已采纳
1
回答
雅典娜
-保留的字和桌子,不能被查询。
我将JSON数据文件放入S3,并
使用
AWS构建
表
定义。我每个json“行”大约有120个字段。其中
一个
字段在小写中称为“时间戳”。我有1000
多个
大文件,不愿全部修改。在这里(),我看到时间戳在DDL是
一个
保留字。这是否意味着我无法
从
雅典娜
那里读取那些JSON文件。SELECT * FROM
浏览 0
提问于2020-10-22
得票数 1
回答已采纳
2
回答
廉价的AWS日志聚合器
、
、
我需要从
多个
EC2 (在伸缩组中)聚合Apache和Tomcat日志--什么是在不破坏银行的情况下启动这项操作的最佳方法?允许
使用
Cloudwatch +任何其他功能。
浏览 25
提问于2020-10-01
得票数 3
1
回答
AWS
Glue
:如何
使用
不同模式的ETL非标量JSON
、
、
、
、
通过数组索引的规范所需的json数组 像上面那样解析来自动态框架的数据,
使用
诸如pyspark.sql.functions.explode只要有<em
浏览 0
提问于2018-06-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个神器的批处理办公软件工具箱.exe
实用电脑技巧excel 电脑办公技巧500招 高级电脑技巧
Scrapy框架的使用之Item Pipeline的用法
什么是大数据?你需要知道的………
使用 Scrapy 构建一个网络爬虫
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券