通过在大型df中的现有列上应用函数来创建新列时，PySpark崩溃

在PySpark中，通过在大型DataFrame中的现有列上应用函数来创建新列时，可能会导致PySpark崩溃。这种情况通常是由于数据量过大，计算资源不足或函数应用错误等原因引起的。

为了解决这个问题，可以考虑以下几个方面：

数据分区和分片：对于大型DataFrame，可以通过对数据进行分区和分片来提高计算效率。可以使用repartition()和coalesce()方法来重新分区数据，以便更好地利用集群资源。
内存管理：PySpark使用内存来存储和处理数据。如果数据量过大，可能会导致内存不足而引发崩溃。可以通过增加集群的内存资源或者调整PySpark的内存配置参数来解决这个问题。可以使用spark.executor.memory和spark.driver.memory参数来调整内存大小。
函数优化：在应用函数时，确保函数的正确性和效率。避免使用复杂的函数或者涉及大量计算的函数，以减少计算负载。可以使用PySpark提供的内置函数，如udf()、col()、lit()等，来优化函数的应用。
资源管理：PySpark可以通过资源管理器来管理计算资源的分配和调度。可以使用YARN、Mesos或者Standalone等资源管理器来优化资源的使用。可以通过调整资源管理器的配置参数，如内存分配、任务调度策略等，来提高计算效率。
数据预处理：在应用函数之前，可以对数据进行预处理，如过滤、聚合、缓存等操作，以减少计算量和提高效率。

总之，通过合理的数据分区、内存管理、函数优化、资源管理和数据预处理等方法，可以解决在PySpark中通过在大型DataFrame中的现有列上应用函数来创建新列时可能导致的崩溃问题。

腾讯云相关产品和产品介绍链接地址：

数据分析与人工智能：https://cloud.tencent.com/product/tcaplusdb
弹性MapReduce：https://cloud.tencent.com/product/emr
弹性数据仓库：https://cloud.tencent.com/product/dws
弹性缓存Redis：https://cloud.tencent.com/product/tcr
弹性缓存Memcached：https://cloud.tencent.com/product/tcm
弹性缓存Tendis：https://cloud.tencent.com/product/tendis
弹性缓存DCDB：https://cloud.tencent.com/product/dcdb
弹性缓存MongoDB：https://cloud.tencent.com/product/mongodb
弹性缓存Cassandra：https://cloud.tencent.com/product/cassandra
弹性缓存HBase：https://cloud.tencent.com/product/hbase
弹性缓存Tair：https://cloud.tencent.com/product/tair
弹性缓存DTS：https://cloud.tencent.com/product/dts
弹性缓存DAS：https://cloud.tencent.com/product/das
弹性缓存DTS：https://cloud.tencent.com/product/dts
弹性缓存DAS：https://cloud.tencent.com/product/das

通过在大型df中的现有列上应用函数来创建新列时，PySpark崩溃

、、、

我从一个压缩的10 in csv格式的.gz文件中创建了以下数据帧： +-------------------+----------+--------+----++-------------------+----------+--------+----+ 我正在尝试通过将日期和时间字符串列转换为unix时间戳来创建一个新列</e

浏览 16提问于2021-10-04得票数 0

回答已采纳

1回答

通过在PySpark中的现有列中应用函数来创建新列？

说我有数据1 [1,2,4]我想通过在列nb_customer上应用len函数来创建一个新的列，比如customers。我试过了但不起作用。正确

浏览 0提问于2017-08-24得票数 2

回答已采纳

3回答

应用具有多个参数的函数来创建新的pandas列

、

我想通过将函数应用于两个现有列来在pandas数据框中创建一个新列。有了这个，当我只需要一个列作为参数时，我就能够创建一个新列：df = pd.DataFrame({"A": [10,20,30], "B": [20, 30,10]})

浏览 15提问于2013-11-12得票数 215

回答已采纳

1回答

如何使用PySpark更新hive表中的记录？

、

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。例如：加5 Add 30 32000 应用程序可以通过剥离Action<

浏览 1提问于2019-03-29得票数 2

1回答

用修改后的DataFrame ()行替换原始.copy()行:将.copy()结果与原始DataFrame合并

、、、、

我使用了一个大型DataFrame (称为'df')的一部分，其中包含了.copy() (命名为'df_copy')，并应用了某些函数来创建一个新列‘df_copy’。但是，我也给出了一个名为“类别”的列，并为该列分配了一些其他值。“df_copy”中的所有其他值

浏览 0提问于2019-07-11得票数 0

回答已采纳

1回答

Postgres:在现有varchar列上添加全文搜索？

我有一个带有varchar列的表的现有Postgres 9.3数据库。我一直在阅读，其中提出了如下步骤：添加一个新的tsvector列：ALTER TABLE frontend_chemical ADD COLUMN fts_document tsvector;创建一个函数来将chem_name列映射到文档，并创建一个触发器来更新它。在列上

浏览 1提问于2015-04-15得票数 5

1回答

pyspark dataframe同时按多列排序

、、

我有包含一些数据的json文件，我将这个json转换为pyspark dataframe(我选择了一些列，而不是所有列)，这是我的代码： import osfrom pyspark.sql import SparkSessionfrompyspark.

浏览 125提问于2019-03-12得票数 2

回答已采纳

2回答

熊猫通过将所有列转换为json来连接dataframe

我有一只这样的熊猫df= pd.DataFrame(technologies,columns = ['Courses','Fee','Duration','Discount']) print(df)Courses Fee Duratio

浏览 6提问于2022-06-28得票数 -2

回答已采纳

2回答

如何正确循环和构建pyspark* dataframe*

、、、、

我已经完成了Pyspark dataframe的逻辑，现在必须应用不同的输入并组合结果。我的附加逻辑是广泛的

浏览 0提问于2019-07-03得票数 1

2回答

根据使用熊猫的现有列值将新列添加到dataframe

、、

我正在使用通过导入我创建的.csv文件创建的数据文件。我希望(1)在dataframe中创建一个新列，(2)使用现有列中的值为新列分配一个值。Fdd/mm/yyyy 2B 7 F

浏览 1提问于2019-06-10得票数 0

回答已采纳

2回答

Pyspark:如何应用pandas_udf？

、

我正在尝试在pyspark中应用pandas_udf。我有一个pyspark数据帧，如下所示：| lat|100.41548919677734| 23404| 9|我正在尝试一个简单的函数来<e

浏览 2提问于2020-05-14得票数 2

5回答

更新spark中的dataframe列

、、、、

查看新的spark API，还不清楚是否有可能修改DataFrame列。df.ix[x,y] = new_value 编辑：合并下面所说的内容，您不能修改现有的数据格式，因为它是不可变的，但是您可以返回一个新的数据格式，并进行所需的修改。如果只想根

浏览 12提问于2015-03-17得票数 95

回答已采纳

2回答

如何比较对象上函数中2列的内容？

、

我正在尝试构建一个查询来匹配两个列，并且我尝试了以下方法：我无法做到这一点，有没有办法通过比较两列的内容来过滤

浏览 4提问于2022-02-11得票数 2

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functi

浏览 0提问于2018-12-06得票数 2

回答已采纳

2回答

R顺序数据帧的应用

、、

我有一个数据框架，我想预先形成以下操作：2)在数据帧中添加一列，该列根据我用来排序的列的顺序为每一行分配一个数字。3)按行名重新排序数据帧:我需要这样做，因为我希望使用不同的列多次应用步骤1-2，而且我不希望在运行之间保留上一次运行的顺序。我写了一个函数来做我想做的事： globalQ<-func

浏览 4提问于2013-08-29得票数 0

回答已采纳

2回答

将dataframe列中的列表应用于另一列

、、、

我有一个数据帧，其中一个列有整数列表，另一个列中有一个整数。我希望创建一个新列，该列包含以单个整数开头的字符串列表，并将列出的每个整数与其组合起来。是我希望使用A和B中的信息创建的一个例子。'][0], df['A'][0]) 如果我指定了行，但我想将它应用到一个dataframe中，这是可行的。我

浏览 9提问于2021-03-02得票数 0

回答已采纳

2回答

如何使用多重或条件过滤火花中的值？

、、、

我正在尝试将SQL查询转换为Pyspark。SQL查询如下所示。在以下条件满足的情况下，我需要设置ZIPCODE='0‘。Or (COUNTRY_TABLE.STATE)="MP") AND ((Len([ZIPCODE]))<"5"));在我的电火花代码中，我使用了一个列作为

浏览 6提问于2022-10-17得票数 0

回答已采纳

2回答

将函数应用于Spark DataFrame中的所有单元格

、、、、

myfunc是一个复杂应用程序接口的包装器，它接受一个字符串并返回一个新的字符串(这意味着我不能使用矢量化函数)。= df.apply(myfunc, axis='columns')我是Spark的</e

浏览 2提问于2019-02-02得票数 1

回答已采纳

1回答

极性:聚合后加入分类列

我理解，当我在不同的数据帧中创建分类列时，如果不是在相同的全局字符串缓存中创建，它们就不会加入/堆栈。但是，当通过从现有的数据框架聚合来派生新的数据框架时，不应该在没有全局字符串缓存的情况下加入它们吗？'column', pl.Categorical), ('more&#

浏览 6提问于2022-05-11得票数 0

回答已采纳

2回答

在与列表匹配的列中保持单词的火花

、、、、

romantic', 'cult', 'revenge', 'psychedelic', 'comedy', 'suspenseful', 'good versus evil']我很难找到在dataframe中创建一个新列的方法，它从标记列中为每一行获取第一个匹配单词，并将其放入新创建的

浏览 11提问于2022-05-29得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

通过在大型df中的现有列上应用函数来创建新列时，PySpark崩溃

相关·内容

通过在大型df中的现有列上应用函数来创建新列时，PySpark崩溃

通过在PySpark中的现有列中应用函数来创建新列？

应用具有多个参数的函数来创建新的pandas列

如何使用PySpark更新hive表中的记录？

用修改后的DataFrame ()行替换原始.copy()行:将.copy()结果与原始DataFrame合并

Postgres:在现有varchar列上添加全文搜索？

pyspark dataframe同时按多列排序

熊猫通过将所有列转换为json来连接dataframe

如何正确循环和构建pyspark* dataframe*

根据使用熊猫的现有列值将新列添加到dataframe

Pyspark:如何应用pandas_udf？

更新spark中的dataframe列

如何比较对象上函数中2列的内容？

使用检查点从胞表读取和更新同一个表

R顺序数据帧的应用

将dataframe列中的列表应用于另一列

如何使用多重或条件过滤火花中的值？

将函数应用于Spark DataFrame中的所有单元格

极性:聚合后加入分类列

在与列表匹配的列中保持单词的火花

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐