腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
更改
pyspark
show
()
中
变量
的
格式
、
、
、
、
我需要在
pyspark
中
格式
化group by
的
计数值 df.groupBy('PURCHASE').count().
show
() |PURCHASE| count| +--------+------尝试了下面的方法,但得到了TypeError df.groupBy('PURCHASE').count().withColumn('cnt','{:,}'.format(F.col('count'))).
show</em
浏览 29
提问于2020-10-08
得票数 1
回答已采纳
1
回答
火花中
的
dataframe.
show
()和dataframe.take()有什么区别?为了提高业绩,我们需要增加什么?
、
filename.parquet").createOrReplaceTempView("temptable")要检查df
的
结果,我使用
的
是df.
show
(),但是执行需要更多
的
时间,如果使用df.take(10),我没有看到任何区别。为了更好地检查结果,应该使用take()
show
()**.which方法和方法之间
的
差异吗?**
浏览 1
提问于2018-12-21
得票数 1
2
回答
如何从
pyspark
dataframe
中
的
datetime中提取小时?
、
我有一个
pyspark
数据帧,如下所示: df.
show
(5) | t_start||1506125172||1506242331||1505613973| +----------+ 我想要得到每个unix时间戳
的
小时和日期。这就是我要做
的
: df = df.withColumn("datetime", F.from_unixtime("t_start", "
浏览 93
提问于2020-10-08
得票数 0
1
回答
如何将参数传递给spark.sql(“)?
、
、
、
我想把一个字符串传递给spark.sqlmydf = spark.sql("SELECT * FROM MYTABLE WHERE TIMESTAMP BETWEEN '2020-04-01' AND '2020-04-08') 我想传递日期
的
字符串。
浏览 4
提问于2020-05-15
得票数 3
回答已采纳
3
回答
如何提取火花放电中方括号内
的
列值?
、
我有这样
的
数据| id| name| actor|但我想得到这样
的
东西| id| name| actortom|+---+---------+--------------
浏览 1
提问于2018-08-31
得票数 1
2
回答
Pyspark
发出将tsv文件加载为数据文件
的
问题。
、
下面的数据作为标签分隔
格式
的
.txt文件存储在blob存储
中
。我使用
pyspark
.sql将数据作为
pyspark
.sql.df加载到databricks
中
。 (172, 'yyy'),['LU', 'Input'] # column labels首先,我在加载之前为数据创建了一个模式: from
pyspark</
浏览 8
提问于2020-04-11
得票数 1
1
回答
使用
pyspark
将字符串转换为日期
、
、
、
我有一个
pyspark
dataframe,其中有一个YYYYMMDD
格式
的
字符串列,我正在尝试将其转换为日期列(我应该有一个最终日期ISO 8061)。该字段名为deadline,
格式
如下: deadlinefrom
pyspark
.
浏览 32
提问于2019-06-13
得票数 0
回答已采纳
3
回答
如何将timestamp类型
的
PySpark
数据帧截断到当天?
、
、
、
我有一个在列
中
包含时间戳
的
PySpark
数据帧(称为列'dt'),如下所示:2018-03-06 22:18:00SELECT trunc(dt, 'day') as day2018-04-07 00:00:00但是我得到了:null 如何截断到日期而不是小时?
浏览 2
提问于2018-04-21
得票数 8
回答已采纳
1
回答
如何利用
PySpark
对图像进行预处理?
、
、
、
、
我有一个项目,我需要建立一个大数据体系结构(AWS S3 + SageMaker)概念
的
证明: 1)使用
PySpark
对图像进行预处理;2) 执行PCA;3) 训练一些机器或深度学习模型。我
的
问题是了解如何使用
PySpark
处理图像数据,无法提供满意
的
在线答案。Creati
浏览 3
提问于2021-09-16
得票数 3
0
回答
使用
pyspark
设置运行python脚本
、
我在spark-defaults.conf中有Spark配置,xml文件: core-site.xml、hive-site.xml,并且我导出了环境
变量
。当我运行
pyspark
控制台时:然后:一切都是正确
的
,但是当我使用纯python解释器时,我看不到我
的
表。from
pyspark
浏览 2
提问于2016-07-07
得票数 0
回答已采纳
1
回答
使用
PySpark
从Blob存储容器加载CSV文件
、
、
、
我无法使用Jupyter Notebook
中
的
PySpark
将CSV文件从Azure Blob Storage直接加载到RDD
中
。我已经通读了几乎所有其他类似问题
的
答案,但我还没有找到关于我想要做什么
的
具体说明。我知道我也可以使用Pandas将数据加载到Notebook
中
,但之后我需要将Panda DF转换为RDD。我理想
的
解决方案应该是这样
的
,但是这个特定
的
代码给我
的
错误是它不能推断出CSV<em
浏览 21
提问于2019-04-28
得票数 0
2
回答
与conda一起使用
的
“熊猫在火星上”
的
问题:“没有名为‘
pyspark
.pandas’
的
模块”,尽管火花放电和熊猫都安装了
、
、
我希望能够在不同
的
conda环境上启动
pyspark
,而不必在每个环境
中
重新安装
pyspark
(我只想修改
PYSPARK
_PYTHON)。这也将避免在不同
的
conda环境
中
拥有不同版本
的
Spark (有时这是可取
的
,但并不总是如此)。而且即使在conda之外
的
任何其他python安装上也没有安装pandas和numpy,最后,如果
更改
PYSPARK
_PYTHON我就不能再导入pa
浏览 23
提问于2022-03-25
得票数 0
回答已采纳
1
回答
如何修复一个未知
的
IP获取
的
方式访问蜂巢使用火花?
、
、
、
、
我正在尝试使用
pyspark
访问蜂箱表。然而,我面临着网关
的
问题:一些未解决
的
主机具有ec2实例
的
公共IP。:<Presto server>:8080 -L 10000:hive_server:10000 -L 9083:hive_server:9083 ubuntu@bayseian_nodefrom
pyspark
.sql import SparkSession, HiveContex
浏览 3
提问于2019-03-26
得票数 2
回答已采纳
1
回答
读取具有不同列顺序
的
文件
、
、
我有几个带有头
的
csv文件,但是我发现有些文件有不同
的
列顺序。是否有一种方法可以用Spark来处理这个问题,我可以为每个文件定义选择顺序,这样主DF就不会出现不匹配
的
情况,而col可能有来自col
的
值?我现在读
的
是- val masterDF = spark.read.option("header", "true").csv(allFiles:_*)
浏览 0
提问于2020-08-21
得票数 1
回答已采纳
1
回答
在UDF
中
传递动态列
、
、
、
、
尝试在UDF
中
逐个发送列列表,使用for循环,但得到错误,即数据帧找不到col_name。目前在list list_col
中
,我们有两列,但是可以
更改
.So,我想编写一段代码,它适用于column.In
的
每个列表,这段代码一次连接一行列,行值是struct
格式
的
,即列表
中
的
列表。addlinterestdetail_FDF1.withColumn(struct_col,A(addlinterestdetail_FDF1.col_name))
浏览 0
提问于2017-11-11
得票数 0
回答已采纳
1
回答
在
pyspark
替代方案中使用df.tail()?
、
、
我需要通过
PySpark
比较一个大文件
的
数据。为此,我使用了head()和tail()语句,但它们都返回相同
的
数据,这是不正确
的
…… 要查看数据文件
的
这两个部分,还有什么其他选择?
浏览 27
提问于2021-10-26
得票数 0
2
回答
saveAsTable -如何向现有表
中
插入新数据?
、
、
、
如何向现有表
中
插入新数据?from
pyspark
import SparkContextresult = sqlContext.sql("SELECT * from people")在我查完之后
浏览 0
提问于2018-11-08
得票数 3
2
回答
pyspark
to_timestamp函数不会转换某些时间戳
、
我想使用to_timestamp函数来
格式
化
pyspark
中
的
时间戳。如何才能在不
更改
时区或省略某些日期
的
情况下完成此操作。?from
pyspark
.sql.types import StringType testdf.withColumn("to_timestamp",
浏览 21
提问于2019-01-09
得票数 0
3
回答
使用火花sql重命名Parquet文件
中
列名
中
的
空格
、
我想使用Spark来显示拼花文件
的
内容,但是由于parquet文件
中
的
列名包含空格,所以我得到了错误--属性名"First“包含”,;{}()\n\t=“
中
的
无效字符。请使用别名重命名它。= spark.read.parquet("filepath")r2.select(r2("First Name").alias("FirstName")).
show
() 但还是会犯同样
浏览 0
提问于2018-09-16
得票数 5
2
回答
将火花流数据流列值转换为新
的
数据
格式
、
我有一个嵌套
的
json,位于星星之流数据帧
中
的
一个列
中
。我想提取列值,它是一个json字符串,用它创建一个新
的
数据框架,然后写入一个json文件。我想在不为json创建模式
的
情况下这样做,因为模式可能因文档而异,并且是未知
的
。
浏览 7
提问于2022-01-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
更改图片格式,轻松更改图片格式的三种方法
如何更改CAD格式的文件的版本
如何转换视频格式?视频的格式可以随意更改吗?
bash中的变量
如何更改文件格式类型?视频格式文件的转换!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券