腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
将
列
(
变量
)
列表
连
接到
一个
新
的
列
dataframe
pyspark
中
、
、
、
我使用
的
是
pyspark
,我有
一个
包含N
列
'rec‘,'id’和‘df_001’
的
数据帧名称。 如果我想添加
一个
新
的
列
'unq_id‘,它将连接'rec’和'id‘。当我这样做
的
时候,它会完美地工作: df_f_final = df_001.withColumn('unq_id', sf.concat(sf.col('rec')
浏览 25
提问于2020-07-07
得票数 0
2
回答
从
PySpark
DataFrame
列
中
删除元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建
一个
新
列
,该
列
是根据应用到
PySpark
DataFrame
的
现有
列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该
列
是唯一int
列表
(在给定
列表
中
不重复int),例如:[1,2][2,3
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
从星星之火数据
中
的
列表
中提取值,而不转换为熊猫
、
、
我有
一个
火花数据框架,如下所示:每行包含
一个
列表
,我想从中提取
一个
元素。我非常绿色
的
火花,所以我把它转换成
一个
熊猫
DataFrame
,然后使用地图功能,我提取所需
的
元素。问题是,数据是巨大
的
,因此这种方法是不可扩展
的
。让我花时间
的
是toPandas()命令。是否有从每一行访问
列表
中
的
值
的
选项? 谢谢!
浏览 5
提问于2021-12-09
得票数 1
回答已采纳
1
回答
从火花数据中选择或删除重复列
、
、
、
给定
一个
星星之火数据,有
一个
重复
的
列名(例如。( A)对于不能修改上游或源
的
,如何选择、删除或重命名其中
的
一个
列
,以便检索
列
值?df.select('A')向我显示了
一个
不明确
的
列
错误,filter、drop和withColumnRenamed也是如此。如何选择其中一
列
?
浏览 0
提问于2018-09-06
得票数 2
2
回答
如何根据大小更改
列
值
、
、
、
我在
PySpark
设置中有
一个
dataframe
。我想更改
一个
列
,比如它叫做A,它
的
数据类型是"string“。我想根据它们
的
长度来改变它
的
价值。特别是,如果一行
中
只有
一个
字符,则希望
将
0
连
接到
末尾。“修改”
列
的
名称必须仍然是A。这是用于使用
PySpark
3
的
木星笔记本。这就是我迄今
浏览 2
提问于2019-06-17
得票数 1
回答已采纳
1
回答
Pyspark
:
将
dataframe
作为数组类型
列
连
接到
另
一个
dataframe
、
、
、
、
我尝试在
pyspark
中
连接两个数据帧,但是
将
一个
表作为数组
列
连
接到
另
一个
表
中
。例如,对于这些表: from
pyspark
.sql import Row Row(a = 1, b = 'C', c = 26,'ihg'), Row(a = 2, b = 'C', e = 7, f = '
浏览 26
提问于2021-11-08
得票数 0
回答已采纳
2
回答
从
列表
中
添加
列
的
pySpark
、
、
、
、
我有
一个
数据文件名,并希望根据
列表
中
的
值向它添加
列
。 我
的
值
列表
将从3-50个值变化。我是
pySpark
新手,我试图
将
这些值作为
新
列
(空)附加到我
的
df
中
。我看到了关于如何
将
一
列
添加到
dataframe
中
的
推荐代码,而不是从
列表
中
添加多<e
浏览 2
提问于2020-05-12
得票数 1
回答已采纳
1
回答
'
DataFrame
‘对象不支持项分配
、
、
、
、
我
将
df作为
一个
pyspark
.sql.
dataframe
.
DataFrame
导入到Databricks
中
。在这个df
中
,我有3
列
(我已经证实它们是字符串),我希望将它们连接起来。我试过先使用
一个
简单
的
"+“函数。因此,我试图在每一
列
后面添加.astype(str),但没有结果。最后,我尝试简单地添加另一
列
,其中满是数字5: df['new_col']
浏览 1
提问于2022-12-02
得票数 0
2
回答
如何
将
值传递给表
中
的
pyspark
变量
?
、
、
这可能是
一个
愚蠢
的
问题,但我有
一个
表,其中
的
每一
列
都包含要传递给
变量
的
值: select sfObject from db.tblwhere Id = {} 我看到
的
是
一个
名为sfObject
的
列
,
浏览 1
提问于2020-06-10
得票数 1
回答已采纳
4
回答
如何在Spark
中
压缩两个数组
列
、
、
、
、
我有潘达
的
数据。我尝试
将
包含字符串值
的
两个
列
连
接到
一个
列表
中
,然后使用zip
将
列表
中
的
每个元素都用'_‘连接起来。我
的
数据集如下:df['column_2']: '1.0, 2.0, 3.0' 我想将这两<em
浏览 2
提问于2019-01-21
得票数 9
回答已采纳
1
回答
在
pyspark
的
现有
dataframe
中
添加
新
列
的
方法是什么?
、
、
、
我已经在现有的数据框
中
添加了
一个
新
列
,但它没有反映在数据帧
中
。如果我们可以
将
数据帧分配给另
一个
数据帧,我们就可以看到结果test.show() 有没有办法向现有的
dataframe
添加
一个
新
浏览 4
提问于2021-01-26
得票数 0
2
回答
将
列名位于
列表
中
的
多
列
连接在一起。
、
、
、
我试图
将
多个
列
连
接到
一个
列
,但只有在列名在
列表
中
的
情况下。所以问题= {'a','b','c'}是我
的
列表
,需要将它作为问题
列
与;分隔符连接起来。返回无效语法错误
的
df_issue = df.withColumn('issue', lit(issue))
浏览 9
提问于2022-12-02
得票数 0
1
回答
如何在
pyspark
中
解压list类型
的
列
、
、
、
我在
pyspark
中有
一个
dataframe
,df有
一个
数组字符串类型
的
列
,所以我需要生成
一个
包含
列表
头部
的
新
列
,还需要包含尾
列表
连接
的
其他
列
。这是我
的
原始数据帧:
pyspark
> df.show()| id| lst_col| +---+--------
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
1
回答
创建
一个
新
列
,详细说明
一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个
行匹配。
、
、
、
我想要创建
一个
函数,该函数从
PySpark
中
的
左联接创建
一个
新
列
,详细说明
一个
列
中
的
值是否匹配或不匹配另
一个
dataframe
逐行
的
列
。例如,我们有
一个
PySpark
dataframe
(d1)具有
列
ID和名称,另
一个
PySpar
浏览 3
提问于2021-12-11
得票数 0
2
回答
使用来自另
一个
dataframe
的
JSON对象创建
新
的
数据
、
、
、
、
我有
一个
dataframe
,它在
一个
列
中
存储
一个
JSON对象。我希望处理JSON对象来创建
一个
新
的
dataframe
(
列
的
数目和类型不同,每行将从JSON对象生成n个
新
行)。我在下面编写了这样
的
逻辑:在迭代原始数据集时,
将
字典(行)附加到
列表
中
。for item in row.json_ob
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
如何对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe
,并尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中
做了一些如下
的
事情。在操作了几个
列
值之后,
将
新
列
添加到pandas数据帧
中
,如下所示。return USD_amount salesData['Sales (INR)']
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
根据
列表
的
长度与
dataframe
的
行数相同
的
列表
,生成
列
。
、
、
、
我有
一个
现有的,它有170
列
和841行。我想添加另一
列
,这是
一个
‘字符串’
的
列表
。其中一种方法可以是创建
一个
新
的
dataframe
并将其与主
dataframe
连接起来。而且它不能连
接到
原始
的
dataframe
,因为没有可连接
的
公共
列
。 我能想到
的
另
一个
半生不熟
的</e
浏览 2
提问于2017-07-20
得票数 1
回答已采纳
1
回答
如何在不将
列
列表
临时存储到
变量
中
的
情况下重命名df
列
?
、
、
、
我正在提取Snowflake表并将其加载到
PySpark
DataFrame
中
,并且我想重命名它
的
列
。现在,正在
将
加载
的
数据帧存储到
一个
变量
中
,然后访问
列
列表
: spark.read.format("snowflake") .options我
的
第
一个
疑问是如何获
浏览 1
提问于2021-04-21
得票数 0
1
回答
过滤
DataFrame
,其中行位于另
一个
DataFrame
的
范围内
、
、
、
、
我希望从
一个
DataFrame
(df1)
中
检索所有行,以便它
的
id位于另
一个
DataFrame
(df2)
的
id
列
中
任何值
的
+- 10之内。如您所见,如果id
中
的
df1符合df2
中
任何id
的
条件,那么行是好
的
。这两个DataFrames也不一定长度相同。编辑:我
的
一个
新
想法
浏览 0
提问于2018-12-26
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySaprk之DataFrame
一个Python大数据处理利器:PySpark入门指南
PySpark,大数据处理的Python加速器!
Python数据分析入门日记Day6:数据分析库Pandas:Series和Dataframe
4个解决特定的任务的Pandas高效代码
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券