使用Scala/pysprak从Zip文件中读取内容，还可以从Databricks上读取内容，并将文件存储在ADLS上

、、、、

此zip文件夹位于Azure Data Lake Storage上，并使用服务原则将其挂载在DBFS Databricks文件系统上。当使用普通的python代码解压6 6GB的文件时，我得到了1.98 6GB的解压文件。请建议一种直接读取txt文件并将其存储为spark Dataframe的方法。我尝试过使用</em

浏览 35提问于2019-09-19得票数 1

2回答

为什么Pyspark抛出：“AnalysisException：`/path/to/adls/mounted/interim_data.delta`不是增量表”。即使文件存在...？

、、、

我在azure上使用databricks，当我像这样尝试从adls读取数据时，Pyspark会时不时地读取倾倒在azure数据湖存储adls中的数据：它抛出以

浏览 1提问于2021-07-01得票数 1

1回答

Azure数据工厂解压缩

、、、

我有一些.zip文件在我的FTP位置，我想解压缩和复制到ADLS。在文件中，对此有明确的解释：我试过这个，在</e

浏览 2提问于2018-04-16得票数 1

回答已采纳

2回答

从Databricks* ADLS挂载点读取文件为字节字符串*

、、、

目标是从ADLS挂载点将一个文件读入Databricks中的字节字符串。首先，使用dbutils.fs.mounts()确认了以下内容：所讨论的文件名为TruthTable.csv，已使用以下命令确认其下落：返回： [Fi

浏览 3提问于2021-11-17得票数 1

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

、、、、

我的目标是从Azure容器中读取csv文件，并将其存储为另一个ADLS容器上的Excel文件。下面可以找到一个代码示例。最后将文件保存在DBFS上(集成

浏览 13提问于2022-09-14得票数 0

回答已采纳

1回答

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

、、、

我有一个要求，把数据从csv/熊猫数据写到databricks表。我的python代码可能不在databricks集群上运行。我可能在一个孤立的独立节点上运行。我是否可以使用databricks python连接器将csv/pandas数据中的大量数据加载到databricks表中？下面是用于获取databricks连接并使用datab

浏览 5提问于2022-08-19得票数 0

2回答

从Azure存储资源管理器读取databricks中的zip文件

、、、、

我想读取具有csv文件的zip文件。我尝试过许多方法，但没有成功。在我的例子中，我应该读取文件的路径在中。例如，当我必须在databricks中读取csv时，我使用以下代码： dfDemandaBilletesCmbinad = spark.read.csv("/mnt/data/myCSVfile.csv

浏览 4提问于2021-05-04得票数 0

1回答

如何使用Pyspark将数据库与SFTP连接起来？

、、、

我希望使用Pyspark (使用私钥)从databricks集群连接到sftp (读取存储在文件夹中的文件)。从历史上看，我一直从sftp下载文件到linux盒，并将其移动到蔚蓝容器中，然后再用pyspark读取文件。是否有一种方法可以使用datab

浏览 12提问于2022-08-17得票数 0

1回答

为什么数据库Python不能从我的Azure Datalake存储Gen1中读取？

、、、、

我正在尝试使用语法(受mydir/mycsv.csv启发)从Databricks笔记本中读取Azure数据湖存储Gen1中的文件。可以访问DataLakeStoragemyadls，我用在使用spark.read.csv访问csv文件时，当我<e

浏览 0提问于2019-07-25得票数 3

1回答

Azure Databricks* -检测到接收错误Zip炸弹！文件将超过最大值。压缩文件大小与扩展数据大小的比率*

、

主要是因为我在Azure Databricks上遇到了这个错误。我正在尝试读取位于ADLS管理区域上的Excel文件。大约有25个excel文件。我的程序遍历excel文件，并将它们读取到PySpark数据帧中。然而，在阅读了大约9个excel文件后，我收到以下错误- Py4JJavaError: An error occurred while

浏览 473提问于2020-07-23得票数 0

1回答

如何在Databricks中读取/加载本地文件？

、、、、

除了导航到Databricks上的“Data”>“Add Data”之外，是否还可以读取位于本地计算机中的文件。在我过去使用Databrick的经验中，当使用s3存储桶时，我能够通过如下方式指定路径来读取和加载数据帧： df = spark.read.format('delta').load('<path>')有没有办法<e

浏览 132提问于2020-10-30得票数 2

2回答

Azure数据库中DBFS的数据大小限制是多少？

、、

我读过，AWS上的存储限制是单个文件的5TB，我们可以存储任意数量的文件，那么同样的限制是否适用于Azure呢？或者，对于Azure数据库是否还有其他限制？更新： @CHEEKATLAPRADEEP感谢您的解释，但是，请有人分享一下背后的原因：“我们建议您将数据存储在挂载的对象存储中，而不是在DBFS根目录中。”我需要在Power中使用DirectQuery (因

浏览 6提问于2020-05-26得票数 3

回答已采纳

1回答

如何在Azure Databricks上提交自定义spark应用程序？

、、、

这些作业可以从本地文件系统或分布式文件系统(文件系统可以是HDFS、ADLS或WASB)读取数据。我是否可以在Azure databricks群集上运行此应用程序？该应用程序在HDInsights集群上运行良好，因为我可以访问节点。我将我的可部署jar放在一个位置，使用start-script启动它，类似地，我

浏览 11提问于2019-05-23得票数 1

1回答

如何从Azure ADLS* Gen 1在Azure中注册Delta表的特定版本？*

、、、、

我在ADLS 1中创建了一个Delta表，并在Databricks中使用以下代码： df.write.format("delta").mode("overwrite").saveAsTable("db.my_tbl现在，我经常在中重新培训一个ML模型，我想知道是否可以注册一个特定版本的delta表？目前，即使在v累加之后，当从my_data文件夹读取

浏览 0提问于2021-12-01得票数 4

回答已采纳

2回答

HDFS和ADLS有什么区别？

、、

与HDFS不同的是，我对天蓝色数据湖的存储方式感到困惑。有谁能简单地解释一下吗？

浏览 2提问于2020-07-09得票数 1

回答已采纳

1回答

从文件系统中填充Properties对象

、、、、

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，<

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

如何使用pyspark从数据库中的ADLS* Gen2 Datalake的“文件共享”中读取csv文件*

、、

我有“斑点容器”和“文件共享”的ADLS Gen2 Datalake。我已经在Databricks笔记本中安装了Blob容器，因此我可以读取databricks笔记本中的所有内容。我在“文件共享”中也有一些文件，但我无法使用pyspark将这些文件读取到dataframe thorugh<em

浏览 17提问于2020-03-30得票数 0

2回答

从zip文件读取的Databricks

、、

我在Azure Databricks工作区文件中安装了Azure Blob存储。挂载容器中有带有csv文件的压缩文件。我使用dbuitls挂载数据：source = f"wasbs://{container}@{storage_account}.blob.core.windows.net{storage_account}.blob.core.windows.net":sasK

浏览 9提问于2022-10-25得票数 0

回答已采纳

1回答

spark.conf.set与SparkR

、、、、

我有一个在Azure上运行的Databricks集群，希望使用SparkR / sparklyr从Azure数据湖存储中读取/写入数据。因此，我配置了两个。使用PySpark API工作设置信任： spark.conf.set("dfs.adls.oauth2.access.token.provider.type", "ClientCredential&quo

浏览 0提问于2018-12-14得票数 2

回答已采纳

1回答

将数据集写入不同的XML文件

、、、、

我的目标是将输入文件读入dataset，将数据从数据库读入dataset，在帐号上连接dataset，并将指定的信息输出到XML文件，每个文件有50K条记录。我总共有大约270万。我能够成功地读取文件、读取数据库并将两者连接起来。finalDSExport.repartition(1).write().format("com.databricks.spark.xml&qu

浏览 10提问于2019-09-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么Pyspark抛出：“AnalysisException：`/path/to/adls/mounted/interim_data.delta`不是增量表”。即使文件存在...？

Azure数据工厂解压缩

从Databricks* ADLS挂载点读取文件为字节字符串*

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

从Azure存储资源管理器读取databricks中的zip文件

如何使用Pyspark将数据库与SFTP连接起来？

为什么数据库Python不能从我的Azure Datalake存储Gen1中读取？

Azure Databricks* -检测到接收错误Zip炸弹！文件将超过最大值。压缩文件大小与扩展数据大小的比率*

如何在Databricks中读取/加载本地文件？

Azure数据库中DBFS的数据大小限制是多少？

如何在Azure Databricks上提交自定义spark应用程序？

如何从Azure ADLS* Gen 1在Azure中注册Delta表的特定版本？*

HDFS和ADLS有什么区别？

从文件系统中填充Properties对象

如何使用pyspark从数据库中的ADLS* Gen2 Datalake的“文件共享”中读取csv文件*

从zip文件读取的Databricks

spark.conf.set与SparkR

将数据集写入不同的XML文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐