在spark中读取csv文件时的ArrayIndexOutOfBoundsException

文章/答案/技术大牛

发布

1回答

、、

我在Spark的高级分析的第二章，第二版。，所以我检查了所有文件的每一行的元素之间是否有相同数量的逗号。我使用以下版本：Scala version: 2.11.8我在本地机器上启动spark shell，如下所示：spark-shell --master local[*] --driver-m

浏览 2提问于2018-01-17得票数 6

1回答

在Scala中注册上一个DF之后创建一个DF

、、

我是Scala的一个新开发人员，我想问你我的问题。然后简单地读取这个.csv文件来计算

浏览 0提问于2019-02-16得票数 0

1回答

读取文本文件，但数据帧显示错误。

、、

我正在尝试从本地读取一个文本文件到pyspark。使用这将成功地运行并发出一个数据文件。df. printSchema()root但是，当尝试访问df时，它会给出以下错误。at org.apache.spark.sql.execution.datasources

浏览 1提问于2019-10-21得票数 0

1回答

在虚拟机的ubuntu下使用jupyter中的pyspark时，pandas功能不起作用

、、、、

='notebook' 然后我就可以在jupyter中使用pyspark了。这里是发现spark的第一行： import findsparkimport pyspark 理论上，我现在应该使用pyspark。=SparkSession.builder.getOrCreate() df = spark.read.csv("/home/feng/Downloads/spark-2.4.

浏览 23提问于2019-02-08得票数 0

回答已采纳

2回答

PySpark sqlContext.read.load ArrayIndexOutofBounds误差

、

我在S3中有一个CSV文件，它有420行和54000列。我正在尝试将CSV加载到火花DataFrame中： genoExp = sqlContext.read.load("/mnt/%s/RNA-Seq/GSE10846_Gene_Expression_Data.csv" %MOUNT_NAME, format='com.databricks.spark.csv&#

浏览 3提问于2017-02-09得票数 0

1回答

如何将file.deflate.gz文件加载到火花数据中？

、

我有delflate.gz格式的源文件压缩。当将数据加载到Spark时，它在ArrayOutofBound异常下失败。val cf = spark.read.option("header", "false").option("delimiter", "\u0001").option("codec", "deflate").csv("path/xxx.

浏览 4提问于2017-08-17得票数 0

1回答

scala的hdfs连接错误

、、、、

我是hadoop的新手，刚刚开始尝试使用scala和spark连接到hdfs，但不知道配置有什么问题。请帮我解决和理解它。Hadoop Version is 2.7.3Spark Version is 2.1.1 <dependency> <artifactId

浏览 6提问于2017-06-14得票数 0

2回答

如何将两个csv文件导入相同的数据文件(文件的目录不同)

、、、

我想从两个csv文件中创建数据格式，但是文件夹路径与另一个文件不同。

浏览 2提问于2018-02-28得票数 0

回答已采纳

1回答

用于大型csv文件的sparklyr

、、

我正在尝试使用sparklyr加载一个包含一百万行和1000列的数据集。我在工作中的一个非常大的集群上运行Spark。尽管如此，数据的规模似乎太大了。我尝试了两种不同的方法：1) -将路径放入hdfs - spark_read_csv(spark_context，.csv ) 2) -将csv文件</

浏览 2提问于2017-05-30得票数 0

1回答

可以使用相同的代码读取csv或parquet文件。

、、

是否有人知道是否可以使用相同的代码将csv或拼花文件读入火花中。spark.read().schema(schema).load(path);file.csv is not a Parquet file.expected magic number at tail [80, 6

浏览 5提问于2020-08-09得票数 2

回答已采纳

1回答

如何通过将dataframe作为输入来编写pytest，以获取palantir foundry中所有必需的值

、、、

我可以通过手动提供列名和值来创建数据框，并将其传递给生产代码以检查palantir foundry代码库中所有转换后的字段值，从而编写pytest函数。我不想手动传递列名及其各自的值，而是希望将所有必需的数据存储在dataset中，并将该数据集导入pytest函数以获取所有所需的值，然后传递给生产代码以检查所有转换后的字段值。是否可以接受数据集作为planatir代码库中测试函数的输入。

浏览 7提问于2020-11-17得票数 2

2回答

如何摄入多个csv文件到一个火花数据？

、、、、

我正在尝试摄取2个csv文件到一个单一的火花数据。然而，这两个数据集的模式非常不同，当我执行下面的操作时，我只返回第二个csv的模式，就好像第一个不存在一样。我怎么才能解决这个问题？我的最后一个目标是统计单词的总数。paths = "abfss://lmne.dfs.core.windows.net/csvs/MachineLearning_reddit.csv&qu

浏览 12提问于2022-10-27得票数 0

3回答

创建数据架构的有效方法是什么？

我是个新手，我发现有两种方法可以创建数据框架的模式。--+------+-----+ val empData = empFile.map(e => e.split(",")) 创建模式的第一种方法是使用但我不知道在实际的行业项目中推荐哪种方式。有人能告诉我最喜欢的方法吗？

浏览 9提问于2017-06-22得票数 0

回答已采纳

2回答

用火花放电中的断线读取CSV

、、、

读CSV中的断行符，我想用电火花读一个“合法”(它遵循) CSV，它在某些行中有断线(CRLF)。下一个代码示例展示了用Notepad++打开它时的样子：我尝试用sqlCtx.read.load使用format =‘com.databricks.sck.csv.读取它，结果数据集在这些特定情况下显示两行而不是一行，我使用的是Spark2.1.0.2版本。是否有任何读取csv</e

浏览 2提问于2017-09-14得票数 6

回答已采纳

2回答

正在从CSV文件读取，但大多数情况下没有值

、

我有一个csv文件，在大多数字段中都有数据。我可以在Pandas中读取这个csv文件，没有任何问题。但是，当我尝试用Apache Spark读取它时，我得到的大部分值都是Null值，如截图所示。这个文件实际上是400,000+行，这就是我使用Apache Spark的原因，但是当我只使用20行时，我也有同样<e

浏览 15提问于2020-07-15得票数 0

1回答

火花:如何递归读取目录中所有扩展名不同的文件？

、、

我在HDFS中有这样一个目录结构：├── sub1│ │ └── f1.txt│ └── f2.parquet │ └── f3.jpg └── f4.unknown 是否有一种方法可以跳过一些文件(有一些未知的扩展名)，而使用火花阅读。我可以读取目录中的所有文件吗？

浏览 0提问于2021-08-03得票数 1

回答已采纳

6回答

如何在一次加载中导入多个csv文件？

、

假设我有一个定义的模式，用于在文件夹中加载10个csv文件。是否有一种使用Spark自动加载表的方法。我知道这可以通过对下面给出的每个文件使用一个单独的数据rather来执行，但是它是否可以通过一个命令来实现自动化，而不是指向一个文件，我可以指向一个文件夹吗？df = sqlContext.read .format("com.databricks.s

浏览 11提问于2016-06-05得票数 63

回答已采纳

2回答

Spark 2.0 CSV错误

、、、

我正在从1.6升级到spark 2，在读取CSV文件时遇到问题。在spark 1.6中，我会在CSV文件中读取类似这样的内容。val df = sqlContext.read.format("com.databricks.spark.csv") .option("header", &quo

浏览 73提问于2017-01-19得票数 0

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

、、、

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe

浏览 2提问于2017-04-20得票数 6

1回答

在阅读tar.gz存档时使用特定模式过滤文件

、、、、

假设我们有5份文件。abc_2.csvdef_1.csv我希望使用Pyspark数据帧过滤特定文件名模式中的读取文件。就像我们想一起读取所有的abc文件一样。这不应该给我们def的结果，反之亦然。目前，我可以通过使用spark.read.csv

浏览 1提问于2021-02-04得票数 1

回答已采纳

点击加载更多