如何使用PySpark在ADLS中计算目录大小？

PySpark是一个Python API，用于Apache Spark的分布式计算框架。ADLS（Azure Data Lake Storage）是一种在云中存储和分析大规模数据的服务。使用PySpark在ADLS中计算目录大小的方法如下：

首先，需要安装PySpark。可以使用pip命令安装pyspark包：pip install pyspark
创建一个PySpark应用程序文件（例如，app.py），并导入必要的库：
创建一个PySpark应用程序文件（例如，app.py），并导入必要的库：
创建SparkSession对象，并配置连接ADLS：
创建SparkSession对象，并配置连接ADLS：
注意：需要将<your-storage-account-name>、<your-client-id>、<your-client-secret>和<your-tenant-id>替换为实际的值。
使用Spark读取目录，并计算目录大小：
使用Spark读取目录，并计算目录大小：
注意：需要将<your-storage-account-name>替换为实际的值，<path-to-directory>替换为目标目录的路径。

这样，使用PySpark就可以计算ADLS中目录的大小。对于ADLS存储的CSV文件，可以使用Spark的DataFrame API进行读取和计算。将以上代码中的文件格式和操作根据实际情况进行调整，以适应其他类型的文件和计算需求。

腾讯云的相关产品和产品介绍链接如下：

腾讯云对象存储（COS）：提供高可靠、低成本的云端对象存储服务。详情请参考腾讯云对象存储。

请注意，上述答案中没有提及其他云计算品牌商，只给出了具体的解决方案和相关产品介绍。

如何使用PySpark在ADLS中计算目录大小？

、、、、

我想计算一个包含子文件夹和子文件的目录(例如- XYZ)大小。我要所有文件和XYZ内的所有东西的总大小。我可以找到特定路径下的所有文件夹。但是我想要所有的尺码。/abc.parquet")) 给我abc文件的数据大小。但我想要全尺寸的XYZ。

浏览 10提问于2020-04-20得票数 2

回答已采纳

1回答

从Azure数据湖存储Gen1从Databricks笔记本中获取嵌套文件夹的大小

、、、、

我希望从Databricks笔记本.中获取文件夹大小的详细信息我试着从笔记本上运行类似的hadoop命令，如下所示，但是没有在驱动节点中安装Hadoop，我相信：当我尝试ls {根文件夹路径}时。我的文件夹大小为0。这是因为dbutils只为文件提供大小值。文件夹硬编码到0.PFB示例：请指导我获取细节的

浏览 4提问于2020-11-19得票数 0

2回答

从带有帐户密钥认证和ABFS驱动程序的Synapse笔记本中读取ADLS

、、、、

我试图在Synapse中从ADLS Gen2读取一个文件，并希望使用帐户密钥进行身份验证。中，以下内容应该有效，但在Synapse中不起作用：当我使用pyspark+ABFS并在Synapse 中执行时，会得到一个java.nio.file.AccessDeniedException: Operation failed:什么起作

浏览 13提问于2022-02-23得票数 0

回答已采纳

1回答

无法从blobstorage将新数据帧追加到以前的数据帧中

、、、

在HTTP触发之后，我想从blob存储中读取.csv文件，并将新数据附加到该文件中。并希望将.csv格式的数据保存到blob存储中。, ) 我的问题是在追加数据后，我必须将数据保存到blob存储中。因此，我必须将所有数据保存在csv文件中，但出现上述错误。Htt

浏览 1提问于2021-03-25得票数 0

1回答

如何在数据库中使用os.walk()计算Azure数据集中的目录大小

、、、、

如何在Databricks中使用os.walk计算Azure数据集中的目录大小。我使用的Python版本是3。我首先使用递归方法来获取目录大小，当文件路径在目录中更深时出现OOM错误时，目录大小会失败。任何片段都会有帮助。递归函数代码如下所示：在其更深的路径中失败，因此，我需要不同的

浏览 2提问于2020-05-21得票数 1

回答已采纳

1回答

如何从pyspark data frame保存包含多张工作表的excel文件

、

我刚接触pyspark &在pyspark 3.0.1中使用数据块。我有两个火花源数据框，df1和df2，我需要将它们保存在ADLS gen2中的excel文件的两个工作表中。(writer, sheet_name='df1')writer.save() 其中path是我的ADLS不幸的

浏览 0提问于2021-02-08得票数 1

1回答

使用pyspark计算每个目录中数据的大小。

、、、

我使用下面的代码片段来计算每个目录中所有文件夹的大小。我可以以小部件的形式将文件路径作为参数传递。我可以通过一个接一个地指定目录名来实现这个需求，但是，要求是以递归的方式实现文件夹的大小：/mnt/stoREC/datamart/export//mnt&#x

浏览 15提问于2022-08-08得票数 0

1回答

从我们的集群内访问其他Azure HDinsight集群中的配置单元表

、、

在我们的设置中，我们有一个HDInsight集群，我们将数据存储在Hive表中(数据在ADLS中作为外部表，元数据在外部元存储中，并使用我们的Azure集群中的Hive服务进行访问)。与其他Azure群集共享此数据(不一定在同一订阅中)的最佳方式是什么？ Azure具有此服务主体的概念，因此我们需要设置acls以允许其他群集的服务主体访问与我们共享的配置子表相对应的ADLS文件夹。

浏览 4提问于2018-11-27得票数 1

1回答

ValueError: root_directory必须是绝对路径:从Synapse Workspace访问ADLS中的目录时出错

、、、

当尝试在Apache Spark中使用以下PySpark代码访问ADLS目录时，我得到了错误：当我试图访问该目录时，出现上述错误的代码如下：<code>A3</code><code>A4</code><code>A5&l

浏览 16提问于2021-06-16得票数 0

2回答

为什么Pyspark抛出：“AnalysisException：`/path/to/adls/mounted/interim_data.delta`不是增量表”。即使文件存在...？

、、、

我在azure上使用databricks，当我像这样尝试从adls读取数据时，Pyspark会时不时地读取倾倒在azure数据湖存储adls中的数据：它抛出以下错误 AnalysisException: `/path/to&#x

浏览 1提问于2021-07-01得票数 1

1回答

Py4JJavaError:调用o389.csv时出错

、、

我正在使用databricks运行pyspark。我的数据存储在Azure数据湖服务中。我正在尝试将csv文件从ADLS读取到pyspark数据帧。所以我写了下面的代码 import pysparkfrom pyspark import SparkFiles df = sqlContext.read.csv

浏览 27提问于2020-10-05得票数 2

1回答

数据库中的ABFS驱动程序是如何读取Azure Data中的blobs的？

、、、、

我使用Databricks来使用ABFS驱动程序访问Azure数据湖Gen2中的数据。我想验证一下我对这件事在幕后的理解。兼容访问: Gen2允许您像使用一样管理和访问数据。新的ABFS驱动程序(用于访问数据)可在所有Apache环境中使用。这些环境包括Azure HDInsight、Azure数据库和Azure Synapse Analytics。我理解这意味着ABFS驱动程序并行读取ADLS中一个blob的多个块。这提供了更好的性能，与传统的文件系统不同，

浏览 3提问于2021-08-30得票数 0

2回答

Azure Directory中的目录大小

、、、

是否有一个简单的API，我可以使用它获得ADLS目录的大小？最好是在C#，但这不是必须的。

浏览 3提问于2017-11-30得票数 2

回答已采纳

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

、、、、

我的目标是从Azure容器中读取csv文件，并将其存储为另一个ADLS容器上的Excel文件。下面可以找到一个代码示例。最后将文件保存在DBFS上(集成to_excel方法与Azure仍然存在问题)，然后将文件移到ADLS。我有一个DataFactory管道，它从Azure读取数据，详细说明它们，并将它们存储<e

浏览 13提问于2022-09-14得票数 0

回答已采纳

1回答

如何使用R列出Azure Databricks上的数据湖文件系统中的子目录

、、

我在Azure上的databricks中使用R-notebook。使用AzureStor包，我可以列出数据湖中的对象或其中的文件系统的名称，分别是以下方式： endPoint <- AzureStor::adls_endpoint(endpoint = "https如果"isDirectory“为真，我希望看到这个目录的内容。这是如何工作的呢？尝试将新终结点设置为 endPoint <- AzureStor::adls</em

浏览 9提问于2019-09-03得票数 0

1回答

在ADLS* Gen 1- CLI或Powershell中递归报告文件夹统计信息*

、、、

我尝试遍历ADLS文件系统的目录结构，报告每个目录的大小和格式，直到不再存在其他目录。我是否可以在Powershell中使用此命令进一步遍历文件夹结构的其余部

浏览 9提问于2021-10-28得票数 0

1回答

如何使用SSIS压缩文件，然后进入Azure数据湖(无需先导出平面文件)

、、、、

大家早上好，有没有办法先在S

浏览 5提问于2018-08-09得票数 1

1回答

在PySpark中指定时间戳后创建的目录及其子目录中的文件计数

、、、、

在我的PySpark代码中，我需要计算指定时间戳后在给定目录的任何子目录中创建的所有avro文件，并将其存储在变量中。任何建议/例子，如何在PySpark中完成它将不胜感激！

浏览 4提问于2022-06-29得票数 -1

1回答

spark.conf.set与SparkR

、、、、

我有一个在Azure上运行的Databricks集群，希望使用SparkR / sparklyr从Azure数据湖存储中读取/写入数据。因此，我配置了两个。使用PySpark API工作设置信任： spark.conf.set("dfs.<em

浏览 0提问于2018-12-14得票数 2

回答已采纳

1回答

为什么数据库Python不能从我的Azure Datalake存储Gen1中读取？

、、、、

我正在尝试使用语法(受mydir/mycsv.csv启发)从Databricks笔记本中读取Azure数据湖存储Gen1中的文件。可以访问DataLakeStoragemyadls，我用在使用spark.read.csv访问csv文件时，当我在Databricks记事本中执行上面提到的pyspark代码时， com.microsof

浏览 0提问于2019-07-25得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用PySpark在ADLS中计算目录大小？

相关·内容

如何使用PySpark在ADLS中计算目录大小？

从Azure数据湖存储Gen1从Databricks笔记本中获取嵌套文件夹的大小

从带有帐户密钥认证和ABFS驱动程序的Synapse笔记本中读取ADLS

无法从blobstorage将新数据帧追加到以前的数据帧中

如何在数据库中使用os.walk()计算Azure数据集中的目录大小

如何从pyspark data frame保存包含多张工作表的excel文件

使用pyspark计算每个目录中数据的大小。

从我们的集群内访问其他Azure HDinsight集群中的配置单元表

ValueError: root_directory必须是绝对路径:从Synapse Workspace访问ADLS中的目录时出错

为什么Pyspark抛出：“AnalysisException：`/path/to/adls/mounted/interim_data.delta`不是增量表”。即使文件存在...？

Py4JJavaError:调用o389.csv时出错

数据库中的ABFS驱动程序是如何读取Azure Data中的blobs的？

Azure Directory中的目录大小

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

如何使用R列出Azure Databricks上的数据湖文件系统中的子目录

在ADLS* Gen 1- CLI或Powershell中递归报告文件夹统计信息*

如何使用SSIS压缩文件，然后进入Azure数据湖(无需先导出平面文件)

在PySpark中指定时间戳后创建的目录及其子目录中的文件计数

spark.conf.set与SparkR

为什么数据库Python不能从我的Azure Datalake存储Gen1中读取？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐