Pyspark cast float to double不精确

Pyspark是一个用于大规模数据处理的开源分布式计算框架，它基于Apache Spark构建而成。在Pyspark中，cast函数用于将数据类型转换为指定的类型。当将float类型转换为double类型时，可能会出现精度不准确的问题。

在Pyspark中，float和double都是浮点数类型，但double类型的精度更高。当将float类型转换为double类型时，Pyspark会尝试保留原始数据的精度，但由于浮点数的内部表示方式，可能会导致精度损失。

为了解决这个问题，可以使用Pyspark中的cast函数将float类型转换为decimal类型，然后再将decimal类型转换为double类型。decimal类型可以提供更高的精度，并且可以避免精度损失的问题。

下面是一个示例代码，演示了如何将float类型转换为double类型并保持精度：

from pyspark.sql.functions import col

# 假设有一个名为df的DataFrame，包含一个名为float_col的float类型列
df = ...

# 使用cast函数将float_col列转换为decimal类型
df = df.withColumn("decimal_col", col("float_col").cast("decimal(38, 18)"))

# 使用cast函数将decimal_col列转换为double类型
df = df.withColumn("double_col", col("decimal_col").cast("double"))

# 打印转换后的DataFrame
df.show()

在上述示例中，我们首先使用cast函数将float_col列转换为decimal类型，并指定了decimal的精度为38位，小数位为18位。然后，我们再使用cast函数将decimal_col列转换为double类型。通过这种方式，我们可以尽量保持转换后的double类型的精度。

需要注意的是，由于decimal类型的精度较高，可能会占用更多的存储空间和计算资源。因此，在实际应用中，需要根据具体情况权衡精度和性能的需求。

关于Pyspark的更多信息和使用方法，您可以参考腾讯云的产品文档：Pyspark产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

Pyspark cast float to double不精确

、、、

不仅仅是grouping，当我将float转换为double时也会发生这种情况。下面是一个代码示例。>>> from pyspark.sql.functions import *>>> schema = StructType([("float")).show()|fi

浏览 26提问于2021-09-03得票数 0

回答已采纳

1回答

在所有列spark上应用函数

、、

mhattabi/Desktop/dataTest.csv")result("value").cast("float")//

浏览 0提问于2017-03-01得票数 1

回答已采纳

1回答

Python / Spark将多个变量转换为双精度类型的列

、、、

我正在将Scala / Spark深度学习模型转换为Python / PySpark。在读取df之后，所有变量都被解释为字符串类型。我需要将它们转换为float。一个接一个地做这个很容易，我想应该是这样的：，但有31个专栏如何一次完成所有这些。这些列是"V1“到"V28”和"Time“、"Am

浏览 6提问于2017-12-09得票数 0

6回答

如何在PySpark中将dataframe列从字符串类型更改为双重类型？

、、、、

我希望在PySpark中将列类型更改为双重类型。

浏览 11提问于2015-08-29得票数 147

回答已采纳

1回答

将字符串从K转换为数千等，并删除中字符串之间的空格。

、、

我想请求您的帮助，以转换字符串在一个列中的，Pyspark。例如，我有一个名为"df“的dataframe，它具有以下结构。

浏览 1提问于2020-09-29得票数 0

2回答

火花放电中处理大数的数据类型

、、、

>>> test_temp = testNoHeader.map(lambda k: k.split(",")).map(lambda>>> test_temp.top(2) 注意:我也尝试过在变量test_temp中使用'long‘和'bigint’来代替'float

浏览 6提问于2016-04-01得票数 6

回答已采纳

3回答

如何更改电火花中的多列类型？

、、、、

我想像这样更改列类型： df.NetValue.cast('double'),df.Units.cast('double')) 您可以看到df是一个数据框架，我选择了4列，并将它们全部更改为double。

浏览 0提问于2019-04-01得票数 0

回答已采纳

2回答

将带美元符号的字符串转换为数字

、、

如何转换为doubletype或float，以便可以对其进行计算？列看起来像'$1000,000.28‘。谢谢。

浏览 63提问于2020-08-12得票数 0

回答已采纳

1回答

运行SQL子查询"AnalysisException: U“时出现Pyspark错误，不允许在非等式谓词中使用相关列：\n聚合”

、

这是一个正确的mySQL查询，但没有在Pyspark上实现 from pyspark import SparkContext, SparkConffrom pyspark.sql.types import * from pyspark.sql.window import Window(revenue#17 as double)

浏览 168提问于2020-12-18得票数 0

回答已采纳

3回答

在Pyspark中将布尔值转换为字符串时使用when和values

、

cast(N as double) as double) WHEN cast(1 as double) THEN active WHEN cast(0 as double) THEN NOT active(Y as double) as double) WHEN cast(1 as double) THEN active WHEN cast(0 as double

浏览 0提问于2018-07-03得票数 5

回答已采纳

3回答

AttributeError：“DataFrame”对象没有属性“强制转换”

、

我的代码有什么问题，我正在使用pyspark来转换列的数据类型。company_df=company_df.withColumn("Revenue" ,company_df("Revenue").cast(DoubleType())) \.withColumn("GROSS_PROFIT",company_df("GROSS_PROFIT").cast(DoubleType())) \ .withColumn&qu

浏览 12提问于2022-03-12得票数 0

2回答

如何更改火花放电数据帧列数据类型？

、、

我正在寻找方法来更改列类型df.printSchema()至谢谢你的帮助，提前。

浏览 0提问于2017-09-26得票数 4

回答已采纳

2回答

如何在pyspark中处理SAFE_CAST sql函数

、、、

SELECT id,name, SAFE_CAST(value AS FLOAT64) as resultvalue from patienttable df = spark.read.parquet(path) df.createOrReplaceTempView("people&quo

浏览 105提问于2019-12-18得票数 0

回答已采纳

1回答

列是不可迭代的- apache火花dataframe - python

、

我的星星之花中有一个字符串类型的列int_rate，它的所有值都类似于9.5%, 7.0%, etc。现在，我知道有一种方法可以在python中将类型字符串转换为浮动，但只有在没有9.5符号的值为%时才适用。我尝试了以下方法：给定此以移除%符号，但它抛出一个错误，说明如下：

浏览 0提问于2019-02-10得票数 0

2回答

寻找火花放电array<double>的均值

、、

以下是我所做的import pyspark.sql.functions as F longitude_exp = df.select

浏览 0提问于2019-04-03得票数 12

回答已采纳

2回答

如何在SparkR中改变数据帧的列类型

、、

我试图使用整型将数据帧中的列类型更改为double。当使用cast()进行类型转换时，函数会出现以下错误。printSchema(df) |-- col1: string (nullable = true)> df$col2 <- cast(df$col2, "double") Error in data[subset, , drop = FALSE] : object of

浏览 2提问于2020-04-14得票数 1

1回答

如何使用pyspark将字段从双精度转换为浮点型并对其进行舍入

ratings_or_more_with_title： |-- ISBN: string (nullable = true) |-- average: doublebooks_df： |-- ISBN: string (nullable = true) |-- average: double, 'ISBN').select('ISBN', '

浏览 1提问于2016-08-27得票数 7

1回答