使用包含具有不同模式的记录的csv设计spark作业

、

我有一个巨大的csv文件，其中包含属于10个不同模式的记录。我正在开发一个spark应用程序，我读取整个文件，清理数据(我正在使用RDD转换，我不能使用DF，因为没有1个模式。示例CSV：Record10,test8,customer,value,info,id Record9,record,door,lamp,sofa,tv,sink,

浏览 15提问于2019-11-16得票数 1

1回答

Spark csv读取器的RDD字符串

、

我想用spark CSV阅读器来阅读RDD[String]。我这样做的原因是，在使用CSV阅读器之前，我需要过滤一些记录。val fileRDD: RDD[String] = spark.sparkContext.textFile("file") 我需要使用spark CSV阅读器来读取fileRDD。我不希望提交该文件，因为它会增加HDFS的IO。我已经研究了我们在sp

浏览 12提问于2019-05-30得票数 0

2回答

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？= SparkSession.builder.\ config("spark.jars.packages","saurfang:spark-sas7bdat:2.0.0-df_spark=spark.createDataFrame(sc.emptyRDD(), s

浏览 1提问于2019-09-06得票数 3

回答已采纳

1回答

如何合并S3存储桶中的CSV文件并使用AWS Glue将其保存回S3

、、、、

目标是使用胶水将数据(csv文件)从一个S3存储桶转换到另一个S3存储桶。我创建了一个CSV分类器。我创建了一个爬虫来扫描S3存储桶中的数据。我被卡住的地方：如果不将输出保存到任何关系数据库服务或其他数据库服务中，则无法找到如何将输出再次存储在S3中。因为胶水输出要求数据库输出，而我没有也不想使用它。有没有什么方法可以在不使用任何其他数据库系统的情况下实现这个目标，只需使用普通的S3、Glue？

浏览 1提问于2020-09-10得票数 0

2回答

Spark.read.csv()是转换上的操作吗

、、

在“火花权威指南”一书中，比尔说，阅读是一种转变，它是一种狭义的转变，据我所知，Job是一个叫做的动作。此外，如果我尝试在读取CSV时输入一些选项，我会在spark UI中看到另一个作业，例如，当我们运

浏览 1提问于2021-05-01得票数 2

1回答

PySpark在创建包含现有列名的新列时读取多个文件

、、

我想要阅读n个csv文件使用吡咯烷酮。csv具有相同的模式，但具有不同的列名。在读取这些文件时，我希望创建一个额外的列‘管道’，其中包含第一个列名的子字符串。 .option("header&

浏览 0提问于2018-11-16得票数 0

2回答

Pyspark:在Yarn集群上运行作业时如何对多个文件使用--files标签

、

我是Spark的新手，并且使用python使用pyspark编写作业。我想在yarn集群上运行我的脚本，并通过发送使用--files标记将日志记录级别设置为WARN的log4j.properties来删除详细日志记录。我有一个脚本使用的本地csv文件，我还需要包括这个文件。如何使用--files标签来包含这两个文件？我使

浏览 0提问于2017-08-05得票数 0

2回答

Dataproc的基本概念:它是如何操作的？

、

我正在尝试理解dataproc的操作方面。如果我创建一个dataproc集群，并让该集群节点同时运行该脚本，那么如何在集群节点之间实现并行化呢？每个节点会尝试读取所有文件并进行聚合，还是每个节点都会自动读取各自的子集？我只是试图掌握它将如何运作。谢谢。

浏览 2提问于2018-11-24得票数 1

1回答

为什么我在Spark* UI中看到一次读取有两个作业？*

、、

我正在尝试运行下面的脚本来加载包含24k记录的文件。为什么我在Spark UI中看到两个单次加载的作业。代码 from pyspark.sql import SparkSession .builder\ trades_df = spark.read.format("csv"

浏览 27提问于2021-08-05得票数 1

回答已采纳

2回答

如何解析Foundry中的大型压缩csv文件？

、、

我有一个大的gziped csv文件(.csv.gz)被上传到一个数据集，其大小约为14 in，未压缩时为40 in。是否有一种使用Python转换将其解压缩、读取和写入数据集的方法，而不导致执行器到OOM？

浏览 5提问于2021-08-31得票数 4

回答已采纳

1回答

Scala是否在所有情况下都为并行运行任务实现映射减少？

、、

为了更好地理解星火作业的性能调优，我假设groupByKey、map、flatMap、cartesian等方法都在利用map设计模式。我所问的原因是为了更好地理解Spark是如何工作的，因此编写具有更高性能的Scala代码。

浏览 1提问于2014-05-26得票数 2

回答已采纳

3回答

是否有人使用AWS Glue to snowflake构建了数据管道？寻找解决方案

、、、、

我是AWS和snowflake的新手。我希望从S3加载csv文件到各自的雪花表(大约100个表)使用亚马逊网络服务胶水。我可以使用下面的文章将数据加载到一个雪花表中 AWS Glue内部-我们可以编写逻辑来基于csv文件在snowflake中更新或插入数据吗？

浏览 0提问于2020-04-10得票数 0

1回答

火花结构化流-如何忽略检查点？

、

我正在使用微批处理(readStream)从Kafka流中读取消息，并通过writeStream处理它们并将结果写入另一个Kafka主题。作业(流查询)设计为“永远”，处理10秒大小的微批(处理时间)。设置了checkpointDirectory选项，因为Spark需要检查点。但是，当我尝试提交具有相同源流(相同主题等)的另一个查询时，但是可能有不同的处理算法)，Spark完成了前面正在运行的查询，

浏览 4提问于2021-03-05得票数 0

回答已采纳

1回答

嵌套的BigQuery历史作业上的JSON模式不完整？

嵌套Json文件的BigQuery作业上的架构不会保留在导入作业上提交的原始架构。如果查看dataset下的表架构，它们将正确匹配。但是，如果您尝试在BigQuery网络界面的作业历史记录下重复加载作业，它只会显示架构的第一级，从而防止重新运行相同的作业。因为作业模式与表模式不同。Job上的示

浏览 3提问于2013-06-22得票数 1

1回答

检索列中具有不同值的Spark数据集

、、

我已经从csv文件创建了Spark数据集。模式是： |-- FirstName: string (nullable = true)<br> |-- Emailnullable = true)<br> |-- Phone: string (nullable = true) 我正在对电子邮件字段执行重复数据消除： Dataset<Row> customer= spark.readpat

浏览 24提问于2019-05-14得票数 0

回答已采纳

1回答

pyspark一次读取多个csv文件

、、

我正在使用SPARK读取hdfs中的文件。有一个场景，我们以csv格式从遗留系统中获取文件块。ID1_FILENAMEA_1.csvID1_FILENAMEA_3.csvID2_FILENAMEA_1.csvID2_FILENAMEA_3.csv 此文件使用

浏览 228提问于2021-09-27得票数 1

回答已采纳

1回答

对于大型作业，Spark只运行一个执行器

、

我的spark启动参数如下： MASTER="yarn-client" /opt/mapr/spark/spark-1.6.1/bin/pyspark --num-executors 8 --executor-memory10g --executor-cores 5 --driver-memory 20g --driver-cores 10 --conf spark.driver.maxResultSize="0&q

浏览 10提问于2016-09-01得票数 1

3回答

使用架构、头检查和存储损坏的记录读取csv

、、、

我正在尝试使用pyspark读取器，其标准如下： DDL = "a INTEGER, b INTEGER" df = spark.read.csv('ab.csv', header=True, schema=DDL, enforc

浏览 0提问于2019-03-07得票数 10

1回答

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

、

我正在从pyspark中的s3存储桶中读取镶木地板文件。有一些地块文件具有不同的模式，这会导致作业错误。我想通过预定义的模式和火花作业应该只读取与预定义的scehma匹配的文件。data = spark.read.parquet(*path_list) 上面的parquet spark read命令是批量读取文件。如何能够只读取传递预定义模式<e

浏览 21提问于2021-01-12得票数 2

1回答

验证CSV文件PySpark

、、、

我正在尝试验证csv文件(每条记录的列数)。根据下面的链接，在Databricks 3.0中有处理它的选项。df = spark.read .parquet("/input/parquetFile") 但是，我使用的是2.3版本的spark</em

浏览 1提问于2018-11-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark csv读取器的RDD字符串

将文件读取并附加到spark数据文件中

如何合并S3存储桶中的CSV文件并使用AWS Glue将其保存回S3

Spark.read.csv()是转换上的操作吗

PySpark在创建包含现有列名的新列时读取多个文件

Pyspark:在Yarn集群上运行作业时如何对多个文件使用--files标签

Dataproc的基本概念:它是如何操作的？

为什么我在Spark* UI中看到一次读取有两个作业？*

如何解析Foundry中的大型压缩csv文件？

Scala是否在所有情况下都为并行运行任务实现映射减少？

是否有人使用AWS Glue to snowflake构建了数据管道？寻找解决方案

火花结构化流-如何忽略检查点？

嵌套的BigQuery历史作业上的JSON模式不完整？

检索列中具有不同值的Spark数据集

pyspark一次读取多个csv文件

对于大型作业，Spark只运行一个执行器

使用架构、头检查和存储损坏的记录读取csv

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

验证CSV文件PySpark

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐