PySpark/DataBricks:如何使用'file:///‘’而不是'dbfs‘读取拼图文件

PySpark是一个用于大规模数据处理的Python库，它提供了与Apache Spark的集成。DataBricks是一个基于Spark的云端分析平台，提供了一套用于数据处理和机器学习的工具和服务。

在PySpark/DataBricks中，可以使用'file:///'来读取本地文件系统中的文件，而不是使用'dbfs'来读取DataBricks文件系统中的文件。这两种方式的区别在于数据的存储位置和访问方式。

使用'file:///'读取本地文件系统的文件，需要提供文件的绝对路径或相对路径。例如，如果要读取位于用户主目录下的文件，可以使用以下代码：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.getOrCreate()

# 读取本地文件系统中的文件
df = spark.read.csv('file:///home/user/data.csv')

在上述代码中，'file:///'指定了文件的协议为本地文件系统，后面跟着文件的路径。

相比之下，使用'dbfs'读取DataBricks文件系统中的文件，需要提供文件在DataBricks文件系统中的路径。例如，如果要读取DataBricks文件系统中的文件，可以使用以下代码：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.getOrCreate()

# 读取DataBricks文件系统中的文件
df = spark.read.csv('dbfs:/FileStore/data.csv')

在上述代码中，'dbfs:/'指定了文件的协议为DataBricks文件系统，后面跟着文件在DataBricks文件系统中的路径。

使用'file:///'读取本地文件系统的优势是可以直接访问本地文件系统中的文件，无需将文件上传到DataBricks文件系统。这在本地开发和测试环境中非常方便。然而，使用'file:///'读取本地文件系统的文件在分布式环境中可能会遇到性能和可扩展性的问题。

推荐的腾讯云相关产品是TencentDB for Apache Spark，它是腾讯云提供的一种高性能、高可靠性的Spark数据库服务。您可以通过以下链接了解更多关于TencentDB for Apache Spark的信息：TencentDB for Apache Spark产品介绍

请注意，本回答仅供参考，具体的实现方式可能因环境和需求而异。

DBUtils下载文件但文件不在本地

、、、、

我试图在databricks之外使用来自DBUtils的pyspark.dbutils，它显示在本地复制文件时没有警告或错误，但是文件不在目标文件夹中。我可以用dbutils.fs.ls检查该文件是否存在于DBFS上，并且文件确实存在。我的pyspark会话配置了databricks-connect，我可以用它来执行SQL。我是这样配置databricks-connect以连接到集群的： DATABRICKS_ADDRESS="https://xxxxxxxxxxxxxxx.azuredatabricks.net/" DATABRICKS_API_TOKEN="x

浏览 14提问于2022-09-12得票数 2

2回答

从Databrick文件系统读取文件

、、、、

我使用以下代码从dbfs中读取了一个shapefile： geopandas.read_file("file:/databricks/folderName/fileName.shp") 不幸的是，我没有权限这样做，我得到了以下错误 DriverError: dbfs:/databricks/folderName/fileName.shp: Permission denied 你知道怎么授予访问权吗？文件存在(我有权限使用dbutils在那里保存文件，也可以使用spark从那里读取文件，但我不知道如何使用pyspark读取文件)。添加这些行之后： dbutils.fs.cp(&

浏览 2提问于2021-05-19得票数 1

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

、、、、

我正在尝试将星火数据转换为Azure数据库中的熊猫数据。但我得到了以下错误：例外情况:使用基于文件的收集时不支持箭头。我已经使用链接：尝试了引用代码首先，我使用以下行读取csv文件： #read file df1 = spark.read.csv('/mnt/test/sample.csv', header = True) 接下来，我尝试使用下面的代码将其转换为熊猫数据格式： # Enable Arrow-based columnar data transfers spark.conf.set("spark.sql.execution.arrow.enabled&

浏览 0提问于2019-08-26得票数 1

回答已采纳

1回答

如何使用Databricks Community将从Kaggle下载的数据导入DBFS？

、、

我使用Kaggle从Kaggle下载了数据集。数据存储在/databricks/driver目录下。 %sh pip install kaggle %sh export KAGGLE_USERNAME=my_name export KAGGLE_KEY=my_key kaggle competitions download -c ncaaw-march-mania-2021 %sh unzip ncaaw-march-mania-2021.zip 问题是:如何在DBFS中使用它们？下面是我读取数据的方式，以及当我试图使用pyspark读取csv文件时遇到的错误： spark.read.csv(

浏览 2提问于2021-08-07得票数 4

回答已采纳

1回答

dbfs:/databricks/python/lib/python3.7/site-packages/sampleFolder/data；：AnalysisException:路径不存在

、、、、

我将以下代码打包到一个whl文件中： from pkg_resources import resource_filename def path_to_model(anomaly_dir_name: str, data_path: str): filepath = resource_filename(anomaly_dir_name, data_path) return filepath def read_data(spark) -> DataFrame: return (spark.read.parquet(str(path_to_model("samp

浏览 42提问于2021-07-01得票数 2

回答已采纳

1回答

如何在DBFS中保存和下载本地csv？

、、、

由于SQL查询，我试图保存csv文件，通过Databricks发送给Athena。该文件应该是一个4-6 GB (约40米行)的大表。我正在做接下来的步骤：通过以下方式创建PySpark数据框架： df =sqlContext.sql(“从my_table中选择*，其中年份= 19") 将PySpark数据转换为Pandas数据。我意识到，这一步可能是不必要的，但我只开始使用Databricks，可能不知道更快地执行所需的命令。所以我就这样做： ab = df.toPandas() 将文件保存在某个地方，以便稍后在本地下载： ab.to_csv('my_my.c

浏览 1提问于2019-10-08得票数 2

回答已采纳

2回答

重命名放在Azure Blob存储中的csv文件

、、

我使用Databricks(Pyspark)在Azure Blob存储中编写csv文件，使用： file_location = "/mnt/ndemo/nsalman/curation/movies/" df.repartition(1).write.format("com.databricks.spark.csv").option("header", "true").save(file_location) 创建的文件名为: part-00000-tid-3921235530521294160-fb002878-253d-44f5

浏览 0提问于2021-10-04得票数 0

1回答

从Community Edition中的DBFS位置遍历databricks中的pyspark文件

、、、、

我想遍历Databricks中的DBFS位置中可用的文件。但是它抛出了一个错误，说'org.apache.spark.sql.AnalysisException: Path不存在：‘下面是我尝试过的代码： import os from pyspark.sql.types import * fileDirectory = '/dbfs/FileStore/tables/' for fname in os.listdir(fileDirectory): df_app = sqlContext.read.format("csv").\

浏览 10提问于2020-01-03得票数 0

2回答

FileUtils写入方法在Azure数据库上不起作用

、、、、

在我的Databricks集群的驱动程序上写入文件(作为临时文件)时遇到了问题。我在公司的Azure Databricks上有一个scala笔记本，其中包含以下代码行： val xml: String = Controller.requestTo(url) val bytes: Array[Byte] = xml.getBytes val path: String = "dbfs:/data.xml" val file: File = new File(path) FileUtils.writeByteArrayToFile(file, bytes) dbutils.fs.

浏览 34提问于2021-12-01得票数 1

1回答

Pyspark无法从pathlib对象加载

、、

Python Version 3.7.5 Spark Version 3.0 Databricks Runtime 7.3 我目前正在使用我的datalake文件系统中的路径。这是 p = dbutils.fs.ls('dbfs:/databricks-datasets/nyctaxi') print(p) [FileInfo(path='dbfs:/databricks-datasets/nyctaxi/readme_nyctaxi.txt', name='readme_nyctaxi.txt', size=916), FileInfo(

浏览 0提问于2020-10-20得票数 1

2回答

数据库上的

、、

我正在尝试将dataset从我的Databricks文件系统(DBFS)导入到运行在Databricks集群上的R；下面我将面临这个问题。 > sparkDF <- read.df(source = "parquet", path = "/tmp/lrs.parquet", header="true", inferSchema = "true")` 错误:加载错误:在com.databricks.sql.acl.ReflectionBackedAclClient$$anonfun$com$databricks$sql$

浏览 2提问于2020-10-13得票数 0

1回答

JDBC databricks到databricks连接

、、、、

我希望从一个不同的databricks实例连接到一个databricks实例中的一个增量湖。我已经从downloads 下载了sparksimba jar。当我使用以下代码时： result = spark.read.format("jdbc").option('user', 'token').option('password', <password>).option('query', query).option("url", <url>).option('drive

浏览 0提问于2021-07-13得票数 1

1回答

从dbfs (> 2gb )复制和读取文件的databricks错误

、、

我有6GB大小的csv。到目前为止，我使用的是下面一行，在使用java之后在dbfs上检查它的大小时，它仍然显示为6GB，所以我假设它是正确的。但是，当我做一个spark.read.csv(samplePath)时，它只读取1800万行，而不是6600万行。 Files.copy(Paths.get(_outputFile), Paths.get("/dbfs" + _outputFile)) 所以我试着复制dbutils，如下所示，但是它会产生错误。我更新了maven dbutil依赖项，并在我调用该行的对象中导入了相同的依赖项。还有其他地方可以让我在scala代码中使用db

浏览 1提问于2019-07-19得票数 1

回答已采纳

3回答

NameError:未在pyspark中定义名称'dbutils‘

、、

我在databricks云中运行一个pyspark作业。作为此作业的一部分，我需要将一些csv文件写入databricks文件系统(dbfs)，还需要使用一些dbutils本机命令，例如， #mount azure blob to dbfs location dbutils.fs.mount (source="...",mount_point="/mnt/...",extra_configs="{key:value}") 将文件写入挂载目录后，我也会尝试卸载。但是，当我在pyspark作业中直接使用dbutils时， NameError: nam

浏览 14提问于2018-06-12得票数 10

1回答

如何获取python和pyspark拼图文件的创建日期？

、、

如何获取拼图文件的创建日期？他们给了我镶木地板文件，我将它们存储在我的Google Drive中以供测试。我正在使用谷歌Colab与Python和Pyspark。正确的命令是什么？谢谢

浏览 1提问于2021-01-20得票数 0

2回答

无法使用Python为数据复制执行Databricks REST

、、、、

当我执行下面的代码“从databricks ->本地复制数据”时，它出错了。有人能帮我解决这个错误吗？ import os from databricks_cli.sdk.api_client import ApiClient from databricks_cli.dbfs.api import DbfsApi from databricks_cli.dbfs.dbfs_path import DbfsPath api_client = ApiClient(host = r"https://azuredatabricks.net/?o=XXXX",token =

浏览 17提问于2022-09-28得票数 0

回答已采纳

2回答

从Databricks ADLS挂载点读取文件为字节字符串

、、、

目标是从ADLS挂载点将一个文件读入Databricks中的字节字符串。确定ADLS安装点首先，使用dbutils.fs.mounts()确认了以下内容： ... MountInfo(mountPoint='/mnt/ftd', source='abfss://ftd@omitted.dfs.core.windows.net/', encryptionType=''), ... 确认文件的存在所讨论的文件名为TruthTable.csv，已使用以下命令确认其下落： dbutils.fs.ls('/mnt/ftd/TruthTable

浏览 3提问于2021-11-17得票数 1

1回答

Databricks Delta缓存包含过时的页脚和过时的页面条目错误

、

我经常遇到与查询从位于ADLS Gen2挂载上的拼图文件中选择的TEMPORARY VIEW相关的笔记本故障。 Delta cache contains a stale footer and stale page entries for the file dbfs:/mnt/container/folder/parquet.file, these will be removed (4 stale page cache entries). Fetched file stats (modificationTime: 1616064053000, fromCachedFile: false) do

浏览 0提问于2021-03-18得票数 0

1回答

在Azure Databricks DBFS中尝试导入CSV时的空值

、、、、

我正在尝试将一个没有头文件的CSV文件导入Azure Databricks的DBFS中，但是，无论我是使用UI还是尝试通过代码来完成它，输出都显示所有四列的空值。下面是我运行的代码： from pyspark.sql.types import * # File location and type file_location = "/FileStore/tables/sales.csv" file_type = "csv" # Options delimiter = "," customSchema = StructType([\

浏览 10提问于2019-09-29得票数 0

回答已采纳

1回答

SparkFiles -路径未找到

拜托，你能帮我解决下面这个问题吗？带有错误的图像在问题中可用。我使用Azure数据库进行数据工程。在databricks社区中运行相同的代码时，不会出现错误，但在Azure中，将返回没有找到路径的错误。有人经历过这种情况吗？我用的是火花文件。 cnae = 'https://servicodados.ibge.gov.br/api/v2/cnae/subclasses' from pyspark import SparkFiles spark.sparkContext.addFile(cnae) cnaeDF = spark.read.option("multiL

浏览 3提问于2021-12-06得票数 2

2回答

从Azure存储资源管理器读取databricks中的zip文件

、、、、

我想读取具有csv文件的zip文件。我尝试过许多方法，但没有成功。在我的例子中，我应该读取文件的路径在中。例如，当我必须在databricks中读取csv时，我使用以下代码： dfDemandaBilletesCmbinad = spark.read.csv("/mnt/data/myCSVfile.csv", header=True) 所以，我想要的Azure存储路径是"/mnt/data/myZipFile.zip"，里面有一些csv文件。是否可以通过databricks中的pySpark从Azure存储读取csv文件？

浏览 4提问于2021-05-04得票数 0

1回答

在azure devops管道中找不到Databricks命令

、、、

我正在尝试通过Azure Devops管道将文件复制到Azure Databricks DBFS。下面是我正在使用的yml文件的一个片段： stages: - stage: MYBuild displayName: "My Build" jobs: - job: BuildwhlAndRunPytest pool: vmImage: 'ubuntu-16.04' steps: - task: UsePythonVersion@0 displayName: 'Use P

浏览 41提问于2021-05-11得票数 1

回答已采纳

1回答

在数据库中找不到config.yml

、

我有python项目，它查询server数据库，并在SQL服务器中进行一些转换。该项目使用的是具有所有DB相关属性的config.yml。现在，我正试图在databricks上托管它，这样我就可以将它作为笔记本运行。我已经将所有python文件导入到databricks工作区。但是，在执行主.py文件时，我得到以下错误 FileNotFoundError: [Errno 2] No such file or directory: 'config.yml' 因为Databricks不允许我将.yml文件导入工作空间。如何运行这个python项目，以便它能够正确地读取.yml文

浏览 2提问于2021-02-12得票数 0

回答已采纳

1回答

从Azure databricks中的windows C驱动器读取csv

、、、

我正在尝试从windows C驱动器将.csv文件读取到数据库。在浏览了一些答案之后，我尝试了以下代码。 # remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format # Option 1 #PATH = r'C:\customers_marketing.csv' # raw string # Option 2 PATH = u'C:\\customers_marketing.csv' # un

浏览 10提问于2021-06-15得票数 1

1回答

开发和测试Python代码以连接本地计算机上的kafka streams

、、、、

我是在本地机器上使用Python的新手。到目前为止，我可以在Azure Databricks中编写代码。我想创建和部署连接到confluent kafka的库，并将数据保存到增量表。我弄糊涂了- 1]我是否需要通过如下设置从本地计算机连接到Databricks Delta，使用python将流存储到增量或将流存储到本地增量(我可以创建增量表 spark = pyspark.sql.SparkSession.builder.appName("MyApp") \ .config("spark.jars.packages", "io.delta:del

浏览 0提问于2021-01-08得票数 1

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

1回答

如何在Databricks pyspark中导入Excel文件

、、、

我正在尝试将我的excel文件导入Azure-DataBricks机器中的PySpark，我必须将其移动到PySpark Dataframe。我无法执行此操作。获取错误 import pandas data = pandas.read_excel('/dbfs/FileStore/tables/Time_Payments.xlsx') df_data = sqlContext.createDataFrame(data) 执行上述操作时，出现以下错误。 Error : field Additional Information: Can not merge type <cla

浏览 2提问于2018-09-18得票数 0

1回答

PySpark on Databricks:读取从Azure Blob存储复制的CSV文件会导致java.io.FileNotFoundException

、、、、

我正在运行Azure Databricks 4.3 (包括Apache Spark 2.3.1，Scala 2.11)。通过将file:添加到绝对local_path，我使用dbutils.fs.cp将file:文件从Azure Blob Storage复制到Databricks集群中 copy_to = "file:" + local_path dbutils.fs.cp(blob_storage_path, copy_to) 然后，当我尝试使用前面添加了file:的相同路径读取文件时： csv_spark_df = sqlContext.read.format('

浏览 32提问于2019-01-28得票数 0

回答已采纳

1回答

用附件从数据库发送电子邮件

、、、、

我是Python和火花世界的新手。我正在尝试构建一个pyspark代码来发送来自Databricks的电子邮件以及来自挂载点位置的附件。我用下面的代码来实现同样的- import smtplib from pathlib import Path from email.mime.multipart import MIMEMultipart from email.mime.base import MIMEBase from email.mime.text import MIMEText from email.utils import COMMASPACE, formatdate from emai

浏览 3提问于2021-04-14得票数 3

回答已采纳

1回答

在SparkR和sparklyr之间导入拼图文件所用时间的差异

、、、、

我正在使用SparkR和sparklyr在databricks中导入拼图文件。 data1 = SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE) data1 = sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*") 导入的时间差很大：SparkR为6秒，sparklyr为11分钟！有没有一种方法可以减少sparklyr所

浏览 25提问于2020-09-25得票数 2

回答已采纳

3回答

使用Spark删除Azure blob中的文件有什么更快的方法？

、、、、

我在Azure上使用Databricks/Spark。我想删除存储在blob中的超过100,000个文本文件。该blob已挂载。我使用Python (PySpark)以并行方式删除这些文件的代码如下所示。 import os # use dbutils to list all files # very slow operation text_files = ['/dbfs/mnt/myblob/myfolder/{}'.format(fi.name) for fi in dbutils.fs.ls('/dbfs/mnt/myblob/myfolder')]

浏览 0提问于2019-06-02得票数 1

1回答

如何在数据库上本地保存Great_Expectations套件(社区版)

、、、

我能够将Great_Expectations套件保存到Databricks Community上的tmp文件夹中，如下所示： ge_partdf.save_expectation_suite('/tmp/myexpectation_suite.json',discard_failed_expectations=False) 但问题是，当我重新启动集群时，json文件在tmp文件夹中的长度会更长。我猜原因是因为驻留在tmp文件夹中的文件是临时的。但是，如果我尝试保存一个我知道在Databricks (例如/FileStore/table)上存在的文件夹，就会得到错误消息： Fil

浏览 6提问于2021-12-17得票数 3

回答已采纳

1回答

数据库并行化解压缩多个文件

、、

我试图并行化数据库上存储在s3中的pyspark中的解压缩文件。for循环中的解压缩工作如下： file_list = [(file.path, file.name) for file in dbutils.fs.ls(data_path) if os.path.basename(file.path).endswith(".zip")] # data_path is taken as a parameter file_names = [ff[1] for ff in file_list] for ff in file_list: dbutils.fs.cp(ff[0], &

浏览 6提问于2021-12-16得票数 2

回答已采纳

1回答

如何将数百万个文件移动到Azure Blob存储中同一容器中的另一个文件？

、、、、

我们在Azure Blob存储中有数百万条记录(包括拼图和json文件)，其结构如下： /RecordName/Year/Month/Day/Hour/ParquetOrJsonFiles.parquetOrjson 大约有几个。该结构中有500万个文件，我希望将文件夹路径重塑为： /Year/Month/Day/Hour/RecordName/ParquetOrJsonFiles.parquetOrjson 我在DataBricks python notebook中创建了一个基本脚本，如下所示: ps: Container已挂载到我的工作区中。 import os target_file

浏览 10提问于2020-01-13得票数 0

回答已采纳

1回答

无法在databricks社区版本集群中cat dbfs文件。FileNotFoundError：[Errno 2]没有这样的文件或目录：

、、、、

尝试读取databricks社区版集群中的增量日志文件。(数据库-7.2版) df=spark.range(100).toDF("id") df.show() df.repartition(1).write.mode("append").format("delta").save("/user/delta_test") with open('/user/delta_test/_delta_log/00000000000000000000.json','r') as f: for l in f:

浏览 0提问于2020-08-23得票数 5

回答已采纳

2回答

将文件从databricks dbfs / local上传到S3桶。如何使用s3库或挂载boto3将文件从databricks上传到S3桶？

、、、、

我尝试了以下几种在S3中上传我的文件的方法，最终的结果不是存储数据，而是存储数据的路径。 import boto3 s3 = boto3.resource('s3') 或 s3 = boto3.client( 's3', aws_access_key_id="key_id", aws_secret_access_key="access_key") s3.Object('bucket/folder/','xyz.csv').upload_file(Filename='

浏览 4提问于2020-04-05得票数 1

回答已采纳

2回答

为什么电火花不能读取这个csv文件？

、、、

在众多的堆栈溢出类似的问题“如何将csv读取到？”中我找不到这个问题。(见最后类似的但不同的问题清单)。问题中的CSV文件驻留在集群驱动程序的tmp目录中，请注意，这个csv文件是有意不在Databricks DBFS云存储中的。对于导致此问题的用例，使用DBFS将不起作用。注意，我正试图通过Spark3.2.1和Scala2.12在Databricks运行时10.3上运行。 y_header = ['fruit','color','size','note'] y = [('apple','red

浏览 9提问于2022-03-24得票数 1

回答已采纳

2回答

PySpark解压缩文件:这是一种很好的方法来解压缩文件并将文件存储到Delta中？

、、、、

我有存储在s3中的压缩文件，然后我有一个["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]列表，我需要使用Spark集群解压缩所有这些文件，并将所有的CSV文件存储到一个增量格式表中。我想知道一种比我目前的方法更快的处理方法： 1)我有一个用于的桶，用于迭代我的Python。 2)我正在使用PythonBoto3 s3.bucket.Object(file)从Boto3获得压缩文件 3)我正在使用下一段代码解压缩文件 import io import boto3 import shutil im

浏览 0提问于2019-10-30得票数 6

1回答

下载文件(数据库/驱动程序)

、

我试着下载我通过熊猫生成的excel文件，但是我找不到它.我知道它在文件中:/databricks/驱动程序，但是我可以下载它. 它可以转移到存储或转移到我的机器本地吗？我试过了但没成功。 dbutils.fs.cp('file:/databricks/driver/test.xlsx','dbfs:/mnt/datalake/test.xlsx')

浏览 3提问于2020-04-01得票数 2

回答已采纳

1回答

星团中的节点是否共享相同的存储空间？

、

我是个新手。我正在使用Azure Databricks，我正在用PySpark编写python代码。有一个特别的话题让我感到困惑：节点是否有独立的存储内存(我不是指RAM/缓存)？还是他们共用同一个储藏室？如果它们共享相同的存储空间，那么在不同的Spark Context中运行的两个不同的应用程序可以相应地交换数据吗？我不明白为什么有时我们指的是dbfs:/tmp/...的存储，而另一些时候我们是通过/dbfs/tmp/.示例:如果我使用来自databricks的dbutils包，我们使用类似于：dbfs:/tmp/...的方法来引用文件系统中的目录。但是，如果我使用的是常规的python

浏览 0提问于2019-10-18得票数 0

回答已采纳

1回答

数据库PySpark环境，查找具有相同文件名模式的文件的Azure存储帐户文件路径

、、

用例:在Databricks PySpark环境中，我想检查Azure存储帐户中是否存在多个文件名模式相同的文件。如果它们存在，我希望得到每个文件匹配的文件路径位置列表。尝试使用，dbutils.fs.ls，，但它不支持通配符模式。PFA。解决办法:获取文件夹中所有文件的路径，然后循环遍历每个文件以执行文件名模式匹配，并准备所需的文件路径列表。请让我知道，如果有任何其他方法来获得文件路径，而不是循环？

浏览 6提问于2022-06-09得票数 0

2回答

Pyspark在目录中按filtetypes列出文件

、、、

我想在目录中按文件类型列出文件。目录中有.csv、.pdf等文件类型，我想列出所有的.csv文件。我正在使用以下命令 dbutils.fs.ls("/mnt/test-output/*.csv") 我希望获得该目录中所有csv文件的列表。我在databricks中得到以下错误 java.io.FileNotFoundException: No such file or directory: /test-output/*.csv

浏览 19提问于2019-08-23得票数 1

回答已采纳

1回答

从文件系统中填充Properties对象

、、、、

TL:DR 有办法从Databricks文件系统读取Scala/Java属性文件吗？或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(？)的URI。不过，我能够将该文件读入Spark，但是尝试填充java.utils.Properties对象时出错，因为它不接受Spark的“行”类型。我尝试将数据帧更改为Array和Li

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

如何从DBFS以外的数据工厂调用databricks中的repo中的python文件？

、、、

在中，我有一个爬虫克隆，它包含python文件，而不是笔记本。在Azure Databricks中，我想配置一个步骤来运行Databricks Python文件。然而，当我输入/Repos/./myfile.py(它适用于Databricks笔记本)时，它会给出一个错误：“DBFS URI必须以‘dbfs：’开头。” 如何从不包含在dbfs中的报表引用python文件？ 📷 注意，我在这里看到了一个重复的问题，但答案只是将其封装在一个Databricks笔记本中--好的解决办法，但是当我这样做时，我得到了“NOTE 'my_python_file'”。 https://sta

浏览 0提问于2021-12-01得票数 1

回答已采纳

1回答

当使用PySpark在CSV中读取时，是否可以覆盖一种列类型？

、、

我试图使用PySpark读取包含多列的CSV文件。inferschema选项非常适合推断大多数列的数据类型。如果我只想覆盖被错误推断的列类型之一，那么最好的方法是什么？我可以使用这段代码，但它使PySpark只导入了模式中指定的一个列，这是我不想要的。 schema = StructType() \ .add("column_one_of_many", StringType(), True) spark.read.format('com.databricks.spark.csv') \ .option('delimited'

浏览 1提问于2021-08-27得票数 2

回答已采纳

1回答

不能直接从GCP数据库中读取熊猫

、、、、

通常在Azure/AWS上的Databricks上，要读取存储在Azure Blob/S3上的文件，我需要挂载存储桶或blob存储，然后执行以下操作：如果使用星火 df = spark.read.format('csv').load('/mnt/my_bucket/my_file.csv', header="true") 如果直接使用熊猫，则在路径中添加/dbfs： df = pd.read_csv('/dbfs/mnt/my_bucket/my_file.csv') 我正在用GCP在托管版的Databricks上做同样的事情，

浏览 1提问于2021-06-22得票数 3

回答已采纳

1回答

在Databricks中将gzip文件另存为表

、、、

我想通过以下PySpark命令将gzip文件保存为Databricks中的配置单元表： df = spark.read.csv(".../Papers.txt.gz", sep="\t") df.write.saveAsTable("...") gzip文件Papers.txt.gz解压后重约60 it (这是一个很大的.txt文件，实际上取自here)，而Spark集群相当大(850 it，112个内核)。问题是，这需要很长时间才能保存为表(超过20分钟)，这使得我担心会导致集群崩溃而中止操作。这个请求看起来很标准，但是，这里有什么我应该

浏览 17提问于2021-10-26得票数 1

回答已采纳

1回答

在数据库中读取GeoJSON，没有挂载点集

、、、

我们最近对从Databricks连接ADLS的方式进行了更改，这些数据库删除了以前在环境中建立的挂载点。我们使用databricks查找多边形中的点，如databricks博客中所示：以前，将GeoJSON文件中的一部分代码从ADLS读入笔记本，然后将其投影到集群中： nights = gpd.read_file("/dbfs/mnt/X/X/GeoSpatial/Hex_Nights_400Buffer.geojson") a_nights = sc.broadcast(nights) 但是，所做的新更改已经删除了挂载点，我们现在正在使用字符串读取文件： "was

浏览 5提问于2022-01-27得票数 1

回答已采纳

1回答

在Azure Blob存储中覆盖后如何命名csv文件

、、、

我使用Databricks notebook将文件读写到相同的位置。但是当我写入文件时，我得到了很多不同名称的文件。如下所示： ? 我不确定为什么在我指定的位置创建这些文件。另外，在我执行写操作之后，还创建了另一个名为"new_location“的文件 ? 我想要的是在从Azure Blob存储中读取文件后，我应该将该文件以与原始文件相同的名称写入相同的位置。但我不能这样做。请帮帮我，因为我是Pyspark的新手，我已经挂载了，现在我正在读取存储在azure blob存储容器中的CSV文件。将使用名称"part-00000-tid-84371752119947

浏览 26提问于2021-09-30得票数 1

回答已采纳

1回答

在Azure Databricks上以追加模式写入CSV文件

、、、

我想在Azure Databricks上以追加模式写入csv文件。下面的代码在我的本地机器上运行得很好。 df = pd.read_csv("/dbfs/mnt/dev/tmp/ml_p/csv_append.csv") df+6 答案1：https://i.stack.imgur.com/sXsgH.png 当我打开相同的csv文件并想要在执行操作后保存该文件时。我得到了，OSError:不支持Errno 95操作 with open('/dbfs/mnt/dev/tmp/ml_p/csv_append.csv', 'a') as f:

浏览 69提问于2021-04-23得票数 1