更改pyspark show()中变量的格式

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我需要在pyspark中格式化group by的计数值 df.groupBy('PURCHASE').count().show() |PURCHASE| count| +--------+------尝试了下面的方法，但得到了TypeError df.groupBy('PURCHASE').count().withColumn('cnt','{:,}'.format(F.col('count'))).show</em

浏览 29提问于2020-10-08得票数 1

回答已采纳

1回答

火花中的dataframe.show()和dataframe.take()有什么区别？为了提高业绩，我们需要增加什么？

、

filename.parquet").createOrReplaceTempView("temptable")要检查df的结果，我使用的是df.show()，但是执行需要更多的时间，如果使用df.take(10)，我没有看到任何区别。为了更好地检查结果，应该使用take() show()**.which方法和方法之间的差异吗？**

浏览 1提问于2018-12-21得票数 1

2回答

如何从pyspark* dataframe中的datetime中提取小时？*

、

我有一个pyspark数据帧，如下所示： df.show(5) | t_start||1506125172||1506242331||1505613973| +----------+ 我想要得到每个unix时间戳的小时和日期。这就是我要做的： df = df.withColumn("datetime", F.from_unixtime("t_start", "

浏览 93提问于2020-10-08得票数 0

1回答

如何将参数传递给spark.sql(“)？

、、、

我想把一个字符串传递给spark.sqlmydf = spark.sql("SELECT * FROM MYTABLE WHERE TIMESTAMP BETWEEN '2020-04-01' AND '2020-04-08') 我想传递日期的字符串。

浏览 4提问于2020-05-15得票数 3

回答已采纳

3回答

如何提取火花放电中方括号内的列值？

、

浏览 1提问于2018-08-31得票数 1

2回答

Pyspark发出将tsv文件加载为数据文件的问题。

、

下面的数据作为标签分隔格式的.txt文件存储在blob存储中。我使用pyspark.sql将数据作为pyspark.sql.df加载到databricks中。 (172, 'yyy'),['LU', 'Input'] # column labels首先，我在加载之前为数据创建了一个模式： from pyspark</

浏览 8提问于2020-04-11得票数 1

1回答

使用pyspark将字符串转换为日期

、、、

我有一个pyspark dataframe，其中有一个YYYYMMDD格式的字符串列，我正在尝试将其转换为日期列(我应该有一个最终日期ISO 8061)。该字段名为deadline，格式如下： deadlinefrom pyspark.

浏览 32提问于2019-06-13得票数 0

回答已采纳

3回答

如何将timestamp类型的PySpark数据帧截断到当天？

、、、

我有一个在列中包含时间戳的PySpark数据帧(称为列'dt')，如下所示：2018-03-06 22:18:00SELECT trunc(dt, 'day') as day2018-04-07 00:00:00但是我得到了：null 如何截断到日期而不是小时？

浏览 2提问于2018-04-21得票数 8

回答已采纳

1回答

如何利用PySpark对图像进行预处理？

、、、、

我有一个项目，我需要建立一个大数据体系结构(AWS S3 + SageMaker)概念的证明: 1)使用PySpark对图像进行预处理；2) 执行PCA；3) 训练一些机器或深度学习模型。我的问题是了解如何使用PySpark处理图像数据，无法提供满意的在线答案。Creati

浏览 3提问于2021-09-16得票数 3

0回答

使用pyspark设置运行python脚本

、

我在spark-defaults.conf中有Spark配置，xml文件: core-site.xml、hive-site.xml，并且我导出了环境变量。当我运行pyspark控制台时：然后：一切都是正确的，但是当我使用纯python解释器时，我看不到我的表。from pyspark

浏览 2提问于2016-07-07得票数 0

回答已采纳

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题的答案，但我还没有找到关于我想要做什么的具体说明。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV<em

浏览 21提问于2019-04-28得票数 0

2回答

与conda一起使用的“熊猫在火星上”的问题：“没有名为‘pyspark.pandas’的模块”，尽管火花放电和熊猫都安装了

、、

我希望能够在不同的conda环境上启动pyspark，而不必在每个环境中重新安装pyspark (我只想修改PYSPARK_PYTHON)。这也将避免在不同的conda环境中拥有不同版本的Spark (有时这是可取的，但并不总是如此)。而且即使在conda之外的任何其他python安装上也没有安装pandas和numpy，最后，如果更改PYSPARK_PYTHON我就不能再导入pa

浏览 23提问于2022-03-25得票数 0

回答已采纳

1回答

如何修复一个未知的IP获取的方式访问蜂巢使用火花？

、、、、

我正在尝试使用pyspark访问蜂箱表。然而，我面临着网关的问题:一些未解决的主机具有ec2实例的公共IP。:<Presto server>:8080 -L 10000:hive_server:10000 -L 9083:hive_server:9083 ubuntu@bayseian_nodefrom pyspark.sql import SparkSession, HiveContex

浏览 3提问于2019-03-26得票数 2

回答已采纳

1回答

读取具有不同列顺序的文件

、、

我有几个带有头的csv文件，但是我发现有些文件有不同的列顺序。是否有一种方法可以用Spark来处理这个问题，我可以为每个文件定义选择顺序，这样主DF就不会出现不匹配的情况，而col可能有来自col的值？我现在读的是- val masterDF = spark.read.option("header", "true").csv(allFiles:_*)

浏览 0提问于2020-08-21得票数 1

回答已采纳

1回答

在UDF中传递动态列

、、、、

尝试在UDF中逐个发送列列表，使用for循环，但得到错误，即数据帧找不到col_name。目前在list list_col中，我们有两列，但是可以更改.So，我想编写一段代码，它适用于column.In的每个列表，这段代码一次连接一行列，行值是struct格式的，即列表中的列表。addlinterestdetail_FDF1.withColumn(struct_col,A(addlinterestdetail_FDF1.col_name))

浏览 0提问于2017-11-11得票数 0

回答已采纳

1回答

在pyspark替代方案中使用df.tail()？

、、

我需要通过PySpark比较一个大文件的数据。为此，我使用了head()和tail()语句，但它们都返回相同的数据，这是不正确的…… 要查看数据文件的这两个部分，还有什么其他选择？

浏览 27提问于2021-10-26得票数 0

2回答

saveAsTable -如何向现有表中插入新数据？

、、、

如何向现有表中插入新数据？from pyspark import SparkContextresult = sqlContext.sql("SELECT * from people")在我查完之后

浏览 0提问于2018-11-08得票数 3

2回答

pyspark to_timestamp函数不会转换某些时间戳

、

我想使用to_timestamp函数来格式化pyspark中的时间戳。如何才能在不更改时区或省略某些日期的情况下完成此操作。？from pyspark.sql.types import StringType testdf.withColumn("to_timestamp",

浏览 21提问于2019-01-09得票数 0

3回答

使用火花sql重命名Parquet文件中列名中的空格

、

我想使用Spark来显示拼花文件的内容，但是由于parquet文件中的列名包含空格，所以我得到了错误--属性名"First“包含”，;{}()\n\t=“中的无效字符。请使用别名重命名它。= spark.read.parquet("filepath")r2.select(r2("First Name").alias("FirstName")).show() 但还是会犯同样

浏览 0提问于2018-09-16得票数 5

2回答

将火花流数据流列值转换为新的数据格式

、

我有一个嵌套的json，位于星星之流数据帧中的一个列中。我想提取列值，它是一个json字符串，用它创建一个新的数据框架，然后写入一个json文件。我想在不为json创建模式的情况下这样做，因为模式可能因文档而异，并且是未知的。

浏览 7提问于2022-01-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云