腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Scala
中
从
S3
文件
创建
动态
数据
框
?
scala
、
amazon-web-services
、
apache-spark
、
etl
、
aws-glue
我在将Python Glue Job转换为
Scala
Glue Job时遇到了问题,即create_dynamic_data_frame_options方法。在python
中
,语法是: dyf = glueContext.create_dynamic_frame_from_options("
s3
",format_options={"separator": ",", "quoteChar": '"'}) 其中file_paths是一个
浏览 31
提问于2019-10-13
得票数 4
回答已采纳
1
回答
使用Informatica powercenter在亚马逊
S3
存储桶
中
创建
文件
夹模式
amazon-s3
、
informatica
、
informatica-powercenter
我们需要使用Informatica powercenter 10.2 Hotfix 1将
数据
从
teradata实现到亚马逊
S3
存储桶层
中
,所以我们的想法是将目标
文件
放在
S3
存储桶
中
的
动态
文件
夹
中
,
如
s3
://amazon.s3.bucket/YYYYMM/Schema/File.csv 我想
动态
传递
文件</
浏览 0
提问于2021-06-17
得票数 0
1
回答
Spark :基于
s3
文件
中
的字段
动态
生成查询
scala
、
apache-spark
、
apache-spark-sql
过度简化的场景:--在
s3
文件
中生成每月
数据
的过程。每个月运行的字段数可能不同。Approach:考虑到模式少的特性,由于每次运行时
s3
文件
中
的字段数可能不同,只需添加/删除几个字段,这就需要在SQL
中
每一次进行手动更改,因此我计划探索Spark/
Scala
,这样我们就可以直接
从
s3
中
读取
数据
,并根据字段
动态
生成SQL。查询:如
何在</
浏览 7
提问于2020-03-19
得票数 1
3
回答
用spark和
scala
从
AWS
s3
读取
s3
文件
amazon-web-services
、
scala
、
apache-spark
、
amazon-s3
、
typesafe
我能够
从
AWS
S3
加载一个文本
文件
,但在读取".conf“
文件
时遇到了问题。得到错误 val configFile1
浏览 0
提问于2018-05-08
得票数 0
2
回答
在
Scala
中
动态
创建
类属性
scala
是否可以
动态
创建
类(或向类添加属性),例如从
Scala
中
的外部
文件
加载字段名和类型? 这是的后续报道。
浏览 0
提问于2014-12-12
得票数 1
回答已采纳
1
回答
使用pyspark
从
s3
读取流
数据
numpy
、
amazon-web-services
、
amazon-s3
、
apache-spark
、
pyspark
我想利用python的极其简单的文本解析和函数式编程能力,并利用丰富的科学计算库,
如
numpy和scipy,因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶
中
读取
数据
,其中有文本
文件
作为流的一部分被写入。有人可以粘贴一个代码片段,说明如何使用pyspark
从
s3
路径
中
读取流
数据
吗?直到最近我还以为只能使用
scala
和java才能做到这一点,但我今天才发现Spark1.2以后的版本,pyspark也支持流媒体
浏览 1
提问于2015-04-11
得票数 2
2
回答
从
Glue Catalog和Glue Py Spark脚本
中
的
动态
路径同步CSV
文件
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我每天都将CSV
文件
存储在亚马逊网络服务
s3
中
。下面是我的
S3
文件
路径结构:在此结构
中
,将每天生成
s3
文件
路径的日期部分。现在我想使用AWS glue for ETL将
数据
从
S3
传输到Redshift。要使用它,我如
何在</
浏览 1
提问于2019-09-19
得票数 0
1
回答
AWS :无法使用
S3
-Spark处理来自多个源的
数据
,使用AWS处理postgreSQL桶和postgreSQL db
postgresql
、
scala
、
amazon-s3
、
aws-glue
、
aws-glue-spark
对于我的需求,我需要连接PostgreSQL db(托管在RDS
中
)
中
的
数据
和
S3
桶
中
的
文件
。我已经
创建
了一个Glue job(spark-
scala
),它应该连接到PostgreSQL、
S3
桶和完成处理。与
S3
浏览 2
提问于2021-06-12
得票数 0
1
回答
Scala
& DataBricks:获取
文件
列表
scala
、
apache-spark
、
amazon-s3
、
databricks
我正在尝试在
Scala
中
的Databricks上
创建
一个
S3
存储桶
中
的
文件
列表,然后按正则表达式拆分。我对
Scala
非常陌生。folder))但是我想用
Scala
[Any] = List(WrappedArray(FileInfo(
s3
://
浏览 0
提问于2018-10-04
得票数 3
回答已采纳
1
回答
将
文件
从
s3
移动到电子病历并解压(
Scala
)
scala
、
amazon-web-services
、
apache-spark
、
amazon-s3
我在
S3
上有一个很大的.tar.gz
文件
,我想把它移动到EMR HDFS (或临时
S3
存储桶)并解压缩,这样我就可以读取里面的一些小
文件
了。我现在正在做的是有一个外壳脚本将
文件
从
S3
下载到本地(使用AWS CLI),并让
scala
/spark作业在未压缩的下载
文件
上运行以生成一些结果。我想要做的是在一个
Scala
/Spark作业
中
做所有的工作,它应该将
文件
<em
浏览 1
提问于2018-02-21
得票数 1
2
回答
始终
从
spark
中
的
s3
存储桶
中
读取最新
文件
夹
scala
、
amazon-web-services
、
apache-spark
、
amazon-s3
下面是我的
s3
存储桶
文件
夹结构
s3
://s3bucket/folder1/morefolders/$folder_which_I_want_to_pick_latest/ $folder_which_I_want_to_pick_latest-对于每个新
文件
夹,此
文件
夹可以始终具有递增的数字,
如
randomnumber_timestamp 有没有一种方法可以通过总是
从
Scala
中</
浏览 19
提问于2020-01-28
得票数 2
1
回答
在
Scala
未来方法链
中
吞咽异常
scala
、
amazon-s3
我有一种方法可以在亚马逊
S3
上
创建
一个zip
文件
,该
文件
使用了Rinofly的抽象(并不是说这真的很重要--主要是Future的使用)。}问题是,直到我在REPL
中
逐行运行时
浏览 3
提问于2014-06-21
得票数 0
回答已采纳
1
回答
在
scala
中
动态
创建
类,我应该使用解释器吗?
scala
、
runtime
、
interpreter
、
javabeans
我想在
Scala
运行时
创建
一个类。现在,只需考虑一个简单的情况,即我希望使用一些属性来生成与java相当的属性,我只在运行时才知道这些属性。 如何
创建
scala
类?如果有方法编译
scala
源
文件
并在运行时加载它,我愿意
从
scala
源
文件
中
创建
它,因为有时我想将一些复杂的函数添加到类
中
。我该怎么做呢?我担心我所读到的
scala
解释器是对它加载的解释代码进行沙箱处理,
浏览 8
提问于2010-05-02
得票数 13
回答已采纳
2
回答
如
何在
Intellij中使用现有的
Scala
scala
、
intellij-idea
、
homebrew
我已经有了brew install
scala
-我可以通过命令行运行
Scala
。之后,我安装了IntelliJ版本2016.1.3。在安装IntelliJ的过程
中
,我被要求安装
Scala
插件,但是我单击了no,因为我已经安装了
Scala
。谢谢
浏览 4
提问于2016-06-10
得票数 1
回答已采纳
1
回答
S3
中
带有混合日期的单元日期分区表流
数据
amazon-s3
、
hive
、
streaming
、
database-partitioning
、
hadoop-partitioning
我使用Hive2.x,我面试了一个大
数据
解决方案架构师的角色,我被问到了以下问题。 问题:,您将如
何在
按日期分区的Hive表
中
摄取流
数据
?流
数据
首先存储在
S3
桶
中
,然后加载到Hive
中
。虽然
S3
桶名有一个日期标识符(
如
S3_ingest_YYYYMMDD ),但内容可能有超过一个日期的
数据
。我的答案是:由于内容可能有超过一个日期,所以
创建
外部表可能是不可能的,因为我们希望读取<em
浏览 1
提问于2019-12-21
得票数 1
回答已采纳
3
回答
使用大量
数据
集时,性能会非常慢
apache-spark
、
apache-spark-sql
我在HDFS中有一个小的拼图
文件
(7.67MB),用snappy压缩。该
文件
有1,300行和10500列,均为双精度值。当我
从
拼图
文件
创建
一个
数据
框
并执行一个简单的操作,
如
计数,它需要18秒。
scala
> val df = spark.read.format("parquet").load("/path/to/parquet/file") df: o
浏览 4
提问于2018-09-12
得票数 2
1
回答
如何自动化我的AWS星火脚本
aws
、
amazon-ec2
我是新来的AWS,我已经学习和开发了火花-
scala
的代码。我
从
S3
桶
中
读取了两个
文件
(主
文件
和INCR
文件
)。步骤1:加载主
文件
(5K文本
文件
).I am读取EC2
中
的
文件
,然后上传到
S3
桶
中
。 步骤2:加载INCR (增量
文件
)与加载主
文件</e
浏览 0
提问于2018-01-14
得票数 2
回答已采纳
1
回答
为什么Kinesis或Crawler要在我的
数据
中
创建
分区?
amazon-web-services
、
amazon-s3
、
amazon-kinesis-firehose
、
aws-glue-data-catalog
、
glue-crawler
上下文:根据胶水模式,我使用
动态
技术将来自lambda的
数据
流到一个
S3
桶
中
。然后,我在我的
S3
桶上运行一个爬虫来编目我的
数据
。我的
数据
,当写入运动消防软管时,有以下属性:'dataset_datetime,attr1,attr2,attr3,attr2 4.‘。我没有在从lambda编写的
数据
中
,在我的运动消防软管
中
,也没有在我的胶水目录
中
定义任何分区。但是,当
数据
存储
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
1
回答
在输出
文件
作业
中
添加.csv扩展
python
、
csv
、
pyspark
、
aws-glue
我试图
从
python胶水
动态
帧中保存csv
文件
。下面是我的密码-frame=splender_df,connection_options={"path": '
s3
://splender_df/'},但是它正在
创建
浏览 6
提问于2022-01-25
得票数 0
回答已采纳
2
回答
在Java
中
实现自定义Spark RDD
apache-spark
、
bigdata
我有一个自定义的
数据
源,我想要将
数据
加载到我的Spark集群
中
来执行一些计算。为此,我认为我可能需要为我的
数据
源实现一个新的RDD。我是一个彻头彻尾的
Scala
新手,我希望我能用Java语言实现RDD。我在互联网上四处寻找,没有找到任何资源。有什么建议吗? 我的
数据
在
S3
中
,并在Dynamo
中
建立了索引。例如,如果我想加载给定时间范围的
数据
,我首先需要在Dynamo
中
查询相应时间范围的
S3<
浏览 1
提问于2015-05-26
得票数 10
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券