我已经设置了我的数据库笔记本使用服务主体访问ADLS使用以下配置。读取csv文件,但是用excel文件获取Invalid configuration value detected for fs.azure.account.key。下面是读取excel文件的代码。#libaray used com.crealytics:spark-excel_2.12:3.2.2_0.18.0
df = s
我有一组Excel格式文件,需要在将Excel文件加载到本地目录时从Spark(2.0.0)读取。这里使用的Scala版本是2.11.8。我能够静态地读取Excel文件如下:
val df = spark.read.format("com.crealytics.spark.excel").option("sheetN
有没有人可以在不转换xlsx或xls文件的情况下让我知道,我们如何才能将它们作为spark数据帧读取?我已经尝试使用pandas读取数据,然后尝试转换为spark dataframe,但得到错误,错误是Cannot merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType&
我正在使用包处理ms文件使用火花2.2。除了下面的例外情况外,有些文件无法作为火花数据文件加载。如果有人遇到这个问题,你能帮我解决这些数据类型问题吗?在分析之后,我发现如果列名不是字符串,它最终会给出下面的异常,如果我手动将列名从整数更改为字符串,它就会工作得很好。 val excelDF = spark.read.format("com.crealytics.spark.excel"
我有一个包含多个工作表的大型Excel(xlsx and xls)文件,我需要将它转换为RDD或Dataframe,以便以后可以将它加入到其他dataframe。我正在考虑使用并将其保存为CSV,然后在dataframe中读取csv。但是,如果有任何库或API可以在这个过程中提供帮助,那就很容易了。任何帮助都是非常感谢的。