如何在Scala中从S3文件创建动态数据框？

文章/答案/技术大牛

发布

1回答

scala、amazon-web-services、apache-spark、etl、aws-glue

我在将Python Glue Job转换为Scala Glue Job时遇到了问题，即create_dynamic_data_frame_options方法。在python中，语法是： dyf = glueContext.create_dynamic_frame_from_options("s3",format_options={"separator": ",", "quoteChar": '"'}) 其中file_paths是一个

浏览 31提问于2019-10-13得票数 4

回答已采纳

1回答

使用Informatica powercenter在亚马逊S3存储桶中创建文件夹模式

amazon-s3、informatica、informatica-powercenter

我们需要使用Informatica powercenter 10.2 Hotfix 1将数据从teradata实现到亚马逊S3存储桶层中，所以我们的想法是将目标文件放在S3存储桶中的动态文件夹中，如s3://amazon.s3.bucket/YYYYMM/Schema/File.csv 我想动态传递文件</

浏览 0提问于2021-06-17得票数 0

1回答

Spark :基于s3文件中的字段动态生成查询

scala、apache-spark、apache-spark-sql

过度简化的场景：--在s3文件中生成每月数据的过程。每个月运行的字段数可能不同。Approach：考虑到模式少的特性，由于每次运行时s3文件中的字段数可能不同，只需添加/删除几个字段，这就需要在SQL中每一次进行手动更改，因此我计划探索Spark/Scala，这样我们就可以直接从s3中读取数据，并根据字段动态生成SQL。查询:如何在</

浏览 7提问于2020-03-19得票数 1

3回答

用spark和scala从AWS s3读取s3文件

amazon-web-services、scala、apache-spark、amazon-s3、typesafe

我能够从AWS S3加载一个文本文件，但在读取".conf“文件时遇到了问题。得到错误 val configFile1

浏览 0提问于2018-05-08得票数 0

2回答

在Scala中动态创建类属性

scala

是否可以动态创建类(或向类添加属性)，例如从Scala中的外部文件加载字段名和类型？这是的后续报道。

浏览 0提问于2014-12-12得票数 1

回答已采纳

1回答

使用pyspark从s3读取流数据

numpy、amazon-web-services、amazon-s3、apache-spark、pyspark

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现Spark1.2以后的版本，pyspark也支持流媒体

浏览 1提问于2015-04-11得票数 2

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

amazon-web-services、amazon-s3、pyspark、aws-glue

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构：在此结构中，将每天生成s3文件路径的日期部分。现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在</

浏览 1提问于2019-09-19得票数 0

1回答

AWS :无法使用S3 -Spark处理来自多个源的数据，使用AWS处理postgreSQL桶和postgreSQL db

postgresql、scala、amazon-s3、aws-glue、aws-glue-spark

对于我的需求，我需要连接PostgreSQL db(托管在RDS中)中的数据和S3桶中的文件。我已经创建了一个Glue job(spark-scala)，它应该连接到PostgreSQL、S3桶和完成处理。与S3

浏览 2提问于2021-06-12得票数 0

1回答

Scala & DataBricks:获取文件列表

scala、apache-spark、amazon-s3、databricks

我正在尝试在Scala中的Databricks上创建一个S3存储桶中的文件列表，然后按正则表达式拆分。我对Scala非常陌生。folder))但是我想用Scala[Any] = List(WrappedArray(FileInfo(s3://

浏览 0提问于2018-10-04得票数 3

回答已采纳

1回答

将文件从s3移动到电子病历并解压(Scala)

scala、amazon-web-services、apache-spark、amazon-s3

我在S3上有一个很大的.tar.gz文件，我想把它移动到EMR HDFS (或临时S3存储桶)并解压缩，这样我就可以读取里面的一些小文件了。我现在正在做的是有一个外壳脚本将文件从S3下载到本地(使用AWS CLI)，并让scala/spark作业在未压缩的下载文件上运行以生成一些结果。我想要做的是在一个Scala/Spark作业中做所有的工作，它应该将文件<em

浏览 1提问于2018-02-21得票数 1

2回答

始终从spark中的s3存储桶中读取最新文件夹

scala、amazon-web-services、apache-spark、amazon-s3

下面是我的s3存储桶文件夹结构 s3://s3bucket/folder1/morefolders/$folder_which_I_want_to_pick_latest/ $folder_which_I_want_to_pick_latest-对于每个新文件夹，此文件夹可以始终具有递增的数字，如randomnumber_timestamp 有没有一种方法可以通过总是从Scala中</

浏览 19提问于2020-01-28得票数 2

1回答

在Scala未来方法链中吞咽异常

scala、amazon-s3

我有一种方法可以在亚马逊S3上创建一个zip文件，该文件使用了Rinofly的抽象(并不是说这真的很重要--主要是Future的使用)。}问题是，直到我在REPL中逐行运行时

浏览 3提问于2014-06-21得票数 0

回答已采纳

1回答

在scala中动态创建类，我应该使用解释器吗？

scala、runtime、interpreter、javabeans

我想在Scala运行时创建一个类。现在，只需考虑一个简单的情况，即我希望使用一些属性来生成与java相当的属性，我只在运行时才知道这些属性。如何创建scala类？如果有方法编译scala源文件并在运行时加载它，我愿意从scala源文件中创建它，因为有时我想将一些复杂的函数添加到类中。我该怎么做呢？我担心我所读到的scala解释器是对它加载的解释代码进行沙箱处理，

浏览 8提问于2010-05-02得票数 13

回答已采纳

2回答

如何在Intellij中使用现有的Scala

scala、intellij-idea、homebrew

我已经有了brew install scala -我可以通过命令行运行Scala。之后，我安装了IntelliJ版本2016.1.3。在安装IntelliJ的过程中，我被要求安装Scala插件，但是我单击了no，因为我已经安装了Scala。谢谢

浏览 4提问于2016-06-10得票数 1

回答已采纳

1回答

S3中带有混合日期的单元日期分区表流数据

amazon-s3、hive、streaming、database-partitioning、hadoop-partitioning

我使用Hive2.x，我面试了一个大数据解决方案架构师的角色，我被问到了以下问题。问题：，您将如何在按日期分区的Hive表中摄取流数据？流数据首先存储在S3桶中，然后加载到Hive中。虽然S3桶名有一个日期标识符(如S3_ingest_YYYYMMDD )，但内容可能有超过一个日期的数据。我的答案是:由于内容可能有超过一个日期，所以创建外部表可能是不可能的，因为我们希望读取<em

浏览 1提问于2019-12-21得票数 1

回答已采纳

3回答

使用大量数据集时，性能会非常慢

apache-spark、apache-spark-sql

我在HDFS中有一个小的拼图文件(7.67MB)，用snappy压缩。该文件有1,300行和10500列，均为双精度值。当我从拼图文件创建一个数据框并执行一个简单的操作，如计数，它需要18秒。scala> val df = spark.read.format("parquet").load("/path/to/parquet/file") df: o

浏览 4提问于2018-09-12得票数 2

1回答

如何自动化我的AWS星火脚本

aws、amazon-ec2

我是新来的AWS，我已经学习和开发了火花-scala的代码。我从S3桶中读取了两个文件(主文件和INCR文件)。步骤1:加载主文件(5K文本文件).I am读取EC2中的文件，然后上传到S3桶中。步骤2:加载INCR (增量文件)与加载主文件</e

浏览 0提问于2018-01-14得票数 2

回答已采纳

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

amazon-web-services、amazon-s3、amazon-kinesis-firehose、aws-glue-data-catalog、glue-crawler

上下文:根据胶水模式，我使用动态技术将来自lambda的数据流到一个S3桶中。然后，我在我的S3桶上运行一个爬虫来编目我的数据。我的数据，当写入运动消防软管时，有以下属性：'dataset_datetime，attr1，attr2，attr3，attr2 4.‘。我没有在从lambda编写的数据中，在我的运动消防软管中，也没有在我的胶水目录中定义任何分区。但是，当数据存储

浏览 10提问于2022-07-26得票数 0

回答已采纳

1回答

在输出文件作业中添加.csv扩展

python、csv、pyspark、aws-glue

我试图从python胶水动态帧中保存csv文件。下面是我的密码-frame=splender_df,connection_options={"path": 's3://splender_df/'},但是它正在创建

浏览 6提问于2022-01-25得票数 0

回答已采纳

2回答

在Java中实现自定义Spark RDD

apache-spark、bigdata

我有一个自定义的数据源，我想要将数据加载到我的Spark集群中来执行一些计算。为此，我认为我可能需要为我的数据源实现一个新的RDD。我是一个彻头彻尾的Scala新手，我希望我能用Java语言实现RDD。我在互联网上四处寻找，没有找到任何资源。有什么建议吗？我的数据在S3中，并在Dynamo中建立了索引。例如，如果我想加载给定时间范围的数据，我首先需要在Dynamo中查询相应时间范围的S3<

浏览 1提问于2015-05-26得票数 10

点击加载更多