如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

如果您将DataFrame保存到磁盘并在脚本中使用较低DataFrame，Spark不会自动加载该数据。当您保存DataFrame到磁盘时，数据将被持久化并存储在指定的位置上。要在脚本中使用该数据，您需要显式地从磁盘加载它。

您可以使用Spark的数据加载函数（如read函数）来加载已保存的DataFrame。这些函数可以从各种数据源（如文件系统、数据库、流媒体等）中读取数据并将其转换为DataFrame。具体的函数和用法取决于您所使用的数据源。

以下是一些常见的数据加载函数和数据源示例：

从文件系统加载数据：
- CSV文件：spark.read.csv("file_path")
- Parquet文件：spark.read.parquet("file_path")
- JSON文件：spark.read.json("file_path")

从数据库加载数据：
- MySQL数据库：spark.read.format("jdbc").option("url", "jdbc:mysql://host:port/database").option("dbtable", "table_name").option("user", "username").option("password", "password").load()
- PostgreSQL数据库：spark.read.format("jdbc").option("url", "jdbc:postgresql://host:port/database").option("dbtable", "table_name").option("user", "username").option("password", "password").load()
从流媒体加载数据：
- Kafka消息队列：spark.read.format("kafka").option("kafka.bootstrap.servers", "host:port").option("subscribe", "topic_name").load()

注意：以上只是示例，实际的函数和参数可能会根据您的具体情况有所不同。您可以根据您的需求和数据源类型调整这些示例。

腾讯云提供了各种云计算产品和服务，以支持您的数据处理和分析需求。您可以参考腾讯云文档以获取更多详细信息和使用指南。以下是腾讯云相关产品的介绍链接：

腾讯云对象存储（COS）：用于存储和管理大规模的非结构化数据，提供高可用性和可扩展性。了解更多：腾讯云对象存储
腾讯云数据万象（CI）：用于图片和视频处理，提供图像处理、智能鉴黄、智能裁剪等功能。了解更多：腾讯云数据万象
腾讯云弹性MapReduce（EMR）：用于大数据处理和分析，提供了Hadoop、Spark等分布式计算框架。了解更多：腾讯云弹性MapReduce

请注意，以上只是腾讯云的一部分产品，并不代表完整列表。腾讯云还提供其他相关产品和服务，可根据具体需求进行选择和使用。

页面内容是否对你有帮助？

有帮助

没帮助

如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

、、、、

如果您加载一些数据，计算一个DataFrame，将其写入磁盘，然后稍后使用DataFrame ...假设它不是仍然缓存在内存中(假设没有足够的缓存)，Spark是否足够聪明，可以从磁盘加载数据，而不是从原始数据重新计算DataFrame？例如： df1 = spark.read.parquet('da

浏览 19提问于2019-07-01得票数 2

回答已采纳

2回答

如何使用PySpark写入Microsoft SQL Server表

、

我有一个写入SQL Server数据库的PySpark代码，如下所示然而，问题是，我想继续在表people中写入，即使表存在，我在Spark文档中看到可能有error，append，overwrite和ignore for模式，所有这些选项都抛出错误，如果表已经存在于数据库中，对象已经存在。com

浏览 1提问于2015-10-11得票数 3

2回答

使用Python将Dask Dataframe转换为Spark dataframe

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

2回答

PySpark:拉取数据到驱动，然后上传到dataframe

、

我正在尝试从外部数据库中存储的数据创建一个pyspark dataframe。我使用pyodbc模块连接到数据库并提取所需的数据，然后使用spark.createDataFrame将数据发送到集群进行分析。我使用--deploy-mode client运行脚本，因此驱动程序在主节点上运行，但是执行器可以分布到其他机器上。问题是pyodbc没有安装在任何工作节点上(这很好，因为我不希

浏览 0提问于2018-06-23得票数 0

2回答

蜂巢插入抛出一个“太大的帧错误”

、、、、

我试图使用下面的代码将数据插入到Hive中，它总是失败的 at org.apache.spark.scheduler.Task.run(Task.scala:99) .config("spark.

浏览 2提问于2018-11-27得票数 2

1回答

使用Apache提高Teradata卸载性能

、

我有超过1TB的TB数据，我必须用星火代码导入和处理数据，我已经完成了所有有效的方法来实现火花提交执行器内存、核心计数和驱动程序内存，核心即使在集群中花费更多的时间，集群数据节点的大小是4个节点和500

浏览 0提问于2018-04-09得票数 0

1回答

dask S3读取磁盘/内存中的数据吗？

、、

我一直在阅读dask，以及它如何从S3读取数据，并以一种不需要数据完全驻留在内存中的方式进行处理。我在这里假设，我正在对dataframe进行许多不同的复杂计算，它可能需要对数据</em

浏览 2提问于2018-04-09得票数 2

1回答

如何从python应用程序中查询spark？

、、

如果我执行以下操作，我就能够成功地查询星星之火中的Cassandra：importimport sqlContext.implicits._val dataframe = cc.sql("select * frommy_cassandra_table") 现在我想从我们的应用程

浏览 4提问于2016-01-06得票数 0

回答已采纳

2回答

在星火中存储中间数据的方法是什么？

、、、

在Dataframes或TempViews中存储中间表有什么区别？记忆有区别吗？

浏览 2提问于2021-10-20得票数 0

回答已采纳

1回答

如何将输入数据流保存到Spark中sql查询的执行数据结构中？

、、、、

我的目标是在某种数据结构中维护输入数据流，以便对它们执行查询和聚合操作。以连续数据流为输入，通过spark的结构化流，我将其存储在DataFrame中。我的问题是：是一种易失性的数据结构吗?是分布在集群各个节点上的DataFrame，还是保存在执行代码的节点上？可以在DataFrame上创建索引以加快某些查询的响应吗？

浏览 1提问于2020-04-23得票数 0

1回答

在不同列序的蜂箱表中添加火花数据

、、

我在HiveWarehouseConnector集群中使用了pyspark和HDP3。模式中发生了更改，因此我使用"alter“命令更新目标表，默认情况下将新列添加到目标表的最后位置。现在，我尝试使用下面的代码将spark保存到它，但是dataframe中的列按字母顺序排列，并且我得到了下面的错误消息hive.setDatabase).option('table&

浏览 4提问于2021-02-17得票数 0

回答已采纳

2回答

如何提高Dataframe.write的性能？

、、

我正在尝试写一个PySpark数据帧到AWS Redshift。我正在使用postActions参数进行删除。有没有办法提高DATAFRAME.write的速度？{key_to_update}; """ .format("com.databricks.spark.redshift.option(

浏览 0提问于2021-08-10得票数 1

1回答

关于Spark* sql表和数据库的问题*

、、

我是Spark的新手，对以下几点感到困惑：当我们为自己的分析创建新的数据库和全局表(使用dataframe API或spark sql)时，这些是在哪里创建/存储的？这些数据是存储在Spark memory中，还是存储在Spark读取数据的外部存储中(可以是Hive/HDFS/RDBMS等)？临时视图/本地表只在Spark memory<e

浏览 2提问于2021-04-19得票数 0

2回答

中跨多行json字符串的统一模式

、

对于包含一系列json字符串的PySpark DataFrame中的行，我有一个困难的问题。问题的核心是每一行可能包含与另一行不同的模式，所以当我想将上述行转换为PySpark中的可订阅数据类型时，我需要有一个“统一”模式。例如，请考虑以下数据json_1 = '{"a": 10, "b": 100}' json_2 = '{"a": 20, "c": 2

浏览 1提问于2020-05-08得票数 5

回答已采纳

1回答

内存中是否有额外的缓存火花数据的开销？

、、、

我是星火公司的新手，我想了解是否会有额外的开销/延迟来持久化和不持久化内存中的数据。据我所知，在我们使用缓存数据saved时没有发生数据移动，它只是保存在executor的内存中。我在火花流作业中缓存数据帧，并想知道这是否会导致批处理执行中的额外延迟。

浏览 2提问于2020-04-07得票数 1

回答已采纳

1回答

Spark (Databricks)来自SQL的非托管表不处理标头

、、

正在尝试使用SQL API从CSV文件在Spark (Databricks)中创建非托管表。但是第一行没有被用作标题。图2显示了使用Dataframe API创建非托管表时第一行是正确的。该Dataframe是从同一csv文件加载的。但是，图1显示，从SQL中的CSV文件数据源创建非托管表时，不会将第一行作为标题处理。我是否遗漏了一些“头”选项？如果是这样的话，该</e

浏览 26提问于2021-07-15得票数 1

回答已采纳

1回答

Spark -多次使用数据帧，无需多次卸载

、、、

如何才能复制数据帧而不将其再次卸载到redshift？val companiesData = spark.read.format("com.databricks.spark.redshift")class test { def filteredDF(df: Dataframe

浏览 1提问于2018-03-08得票数 0

2回答

如何在不使用databricks CSV api的情况下将csv文件直接读入spark* DataFrames？*

、、、

如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames？我知道有databricks csv api，但我不能使用那个api..我知道有case类可以使用，并根据cols(0)位置映射cols，但问题是我有超过22列，因此我不能使用case类，因为在case类中，我们只能使用22列。我知道有structtype来定义模式，但我觉得在structtype中定义40列的代码会非常冗长

浏览 2提问于2016-07-05得票数 1

1回答

如何在sparkR shell中加载持久化数据帧

、、

我正在数据帧中加载一个csv文件。如何加载该数据框架，或者如何使用该数据框架进行进一步操作？我试着使用操作命令，但它没有完成。

浏览 2提问于2015-12-09得票数 2

3回答

如何在两个Spark上下文之间共享Spark* RDD？*

、

每个RMI服务器都有一个Spark上下文。有没有办法在不同的Spark上下文之间共享RDD？

浏览 1提问于2015-01-13得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

相关·内容

如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

如何使用PySpark写入Microsoft SQL Server表

使用Python将Dask Dataframe转换为Spark dataframe

PySpark:拉取数据到驱动，然后上传到dataframe

蜂巢插入抛出一个“太大的帧错误”

使用Apache提高Teradata卸载性能

dask S3读取磁盘/内存中的数据吗？

如何从python应用程序中查询spark？

在星火中存储中间数据的方法是什么？

如何将输入数据流保存到Spark中sql查询的执行数据结构中？

在不同列序的蜂箱表中添加火花数据

如何提高Dataframe.write的性能？

关于Spark* sql表和数据库的问题*

中跨多行json字符串的统一模式

内存中是否有额外的缓存火花数据的开销？

Spark (Databricks)来自SQL的非托管表不处理标头

Spark -多次使用数据帧，无需多次卸载

如何在不使用databricks CSV api的情况下将csv文件直接读入spark* DataFrames？*

如何在sparkR shell中加载持久化数据帧

如何在两个Spark上下文之间共享Spark* RDD？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐