腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Pyspark
动态
重命名
dataframe
列
、
、
我正在读一个文件,其中的
列
可以是结构,当它们有一个值,或者当没有数据时,可以是字符串。内联示例assigned_to和group是结构化的,具有数据。append(name+".display_value") df23 = df23.withColumn(name+"_value", lit(None)) 现在,如果我必须
使用
val_cols4从
dataframe
df23中进行选择,那么所有结构
列
都具有相同的名称"display_value“。r
浏览 24
提问于2021-04-27
得票数 1
回答已采纳
2
回答
如何按索引
重命名
PySpark
数据栏?(处理重复的列名)
、
、
、
我有一个问题,我需要
动态
更新星火数据中的
列
。 df = df.withColumnsRenamed(xcol, xcol + '_' + str(x))但这个名称按名称
重命名
(此处为xcol),因此无法解决我的问题我是否可以将其更改为按其索引
重命名
dataframe
中的
列</e
浏览 0
提问于2018-12-13
得票数 5
回答已采纳
1
回答
从火花数据中选择或删除重复列
、
、
、
( A)对于不能修改上游或源的,如何选择、删除或
重命名
其中的一个
列
,以便检索
列
值?df.select('A')向我显示了一个不明确的
列
错误,filter、drop和withColumnRenamed也是如此。如何选择其中一
列
?
浏览 0
提问于2018-09-06
得票数 2
2
回答
DynamicFrames上的AWS Glue多
列
重命名
文档没有详细说明这是否允许,但是我似乎不能让它工作,而且一遍又一遍地链接多个DF也不是很干净。 df1= RenameField.apply(frame = df, old_name = "col1",new_name = "COL1")我尝试了几个变体,并基于其他的Glue转换,认为下面的方法应该可以工作。 df1 = RenameField.apply[(fra
浏览 2
提问于2018-08-01
得票数 0
3
回答
我可以将pandas数据帧转换为spark rdd吗?
Pbm: a)读取一个本地文件到Panda
dataframe
中,比如PD_DF。b)操纵/海量PD_DF并添加列到
dataframe
中。c)需要
使用
spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
3
回答
如何使withColumnRenamed查询泛化
、
、
curentColumnName2','currentColumnName3']它们是包含所有
列
的
dataframe
df。我想要检查是否在
dataframe
中存在
列
'curentColumnName1,如果是,那么将其
重命名
为newColumnName1,如果所有
列
都存
浏览 1
提问于2022-08-18
得票数 0
1
回答
向类添加功能的最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找如何将多个
列
一次
重命名
为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣,其中通过赋值语句将方法添加到
pyspar
浏览 6
提问于2020-07-09
得票数 1
1
回答
Pyspark
数据框架操作的单元测试用例
、
、
、
我已经用python写了一些带有sql上下文的代码,即
pyspark
,通过将csv转换为
pyspark
dataframe
来对csv执行一些操作(df操作,如预处理、
重命名
列名、创建新
列
并将其附加到相同的
dataframe
中等)。有谁能帮我在
pyspark
的
dataframe
上写单元测试用例吗?或者给我一些数据帧上的测试用例的来源?
浏览 1
提问于2016-04-14
得票数 3
1
回答
在
pyspark
数据帧中用数字替换字符串
、
我刚接触
pyspark
,我想在
pyspark
dataframe
列
中
动态
地用数字替换名称,因为我的
dataframe
中有超过500,000个名称。如何继续?
浏览 9
提问于2019-07-25
得票数 0
2
回答
使用
scala
重命名
一个数据帧相对于另一个数据帧的列名
、
、
我正在尝试
重命名
基于另一个数据帧的数据框的
列
。如何
使用
Scala实现这一点?EC R我想相对于其他数据帧
重命名
我的第一个数据帧的
列
。因此,预期输出应如下所示:1 2 3 4name_dict =
dataframe
2.rdd.collectAsMap()
datafram
浏览 7
提问于2018-01-14
得票数 0
回答已采纳
4
回答
动态
重命名
PySpark
DataFrame
中的多
列
、
、
、
我有一个数据火花,其中有15
列
。现在,我想将其中包含'.'的列名替换为'_'我想
动态
地做它。 我怎样才能在火星雨中实现这一点呢?
浏览 4
提问于2017-01-14
得票数 17
回答已采纳
1
回答
动态
列
.withColumn Python
DataFrame
、
、
、
、
我想在我的星火
DataFrame
上
动态
地应用. list中的列名。from
pyspark
.sql.functions import col return [x for x in
dataframe
.columns if get_dtype(
dataframe
,x)=='tinyi
浏览 3
提问于2020-04-21
得票数 1
回答已采纳
3
回答
将行中的每一
列
传递给Spark中的哈希函数
、
、
、
我有一个带有N
列
的表,我想将它们连接到一个string
列
中,然后在该列上执行一个散
列
。如果我必须创建一个UDF并注册它以实现这一点,我需要
使用
Python而不是Scala,因为我的所有其他代码都是用Python编写的。 有什么想法吗?
浏览 1
提问于2018-11-26
得票数 1
回答已采纳
1
回答
Pyspark
:读取paquet文件时出错
、
、
我正在尝试
使用
以下命令通过
pyspark
读取拼图文件:拼图文件中的
列
具有空格因此,我尝试
使用
以下命令
重命名
这些
列
: file = file.withColumnRenamed(c, c.replace(" ", ""
浏览 4
提问于2020-12-08
得票数 0
1
回答
动态
地在多个列上操作
、
、
、
在
pyspark
中,假设我有名为'a1','a2','a3'...'a99'的
列
的
dataframe
,如何对每个
列
应用操作来
动态
创建具有新名称的新
列
?例如,获取新
列
(如sum('a1') as 'total_a1' , ... sum('a99') as 'total_a99' )。
浏览 0
提问于2019-02-28
得票数 1
1
回答
如何在字典中正确
使用
reduce
、
、
、
我正在
使用
一个自定义函数作为reduce操作的一部分。对于下面的例子,我得到了下面的消息TypeError: reduce() takes no keyword arguments -我相信这是由于我在函数exposed_colum中
使用
字典mappingfrom
pyspark
.sql import
DataFrame
, Rowfrom
pyspark
.sql importSparkSession from
浏览 18
提问于2020-02-05
得票数 0
回答已采纳
1
回答
PySpark
使用
另一
列
中的值查询一个列名
、
、
、
、
Input_
pyspark
_
dataframe
:111777 454output_
pyspark
_
dataframe
888 333 ccc 1 300
浏览 0
提问于2020-08-20
得票数 0
1
回答
pyspark
dataframe
拆分
动态
列
、
、
Auto202012101237.TXT")data2 = data21.filter(~col("_c0").contains(header2)) 这会产生一个只有_c0
列
的好文件,但是欧洲版本
使用
逗号作为分隔符,澳大利亚版本
使用
分号。因此,欧洲版本的
列
从_c0到_c980 (或者更少,取决于型号)。我正在寻找一种方法来将这个data2分成多个
列
,用.split找到了几个解决方案,其中大部分是硬编码的,从pos1-5
浏览 13
提问于2021-01-21
得票数 0
1
回答
如何在不将
列
列表临时存储到变量中的情况下
重命名
df
列
?
、
、
、
我正在提取Snowflake表并将其加载到
PySpark
DataFrame
中,并且我想
重命名
它的
列
。现在,正在将加载的数据帧存储到一个变量中,然后访问
列
列表: spark.read.format("snowflake")我想到的第二种方法是预先定义原始和所需的列名,然后
使用
它们,但我尝试根本不创建变量。 这在Pandas和/
浏览 1
提问于2021-04-21
得票数 0
1
回答
Spark 2 Python
重命名
列并设置
列
数据类型
、
、
我
使用
DataFrame
读入HDFS文件,并
使用
正则表达式提取数据。是否可以在不单独
重命名
或转换
列
的情况下重新定义
DataFrame
的模式?我的计划是将
DataFrame
转换为RDD,然后
使用
模式将RDD转换回
DataFrame
。 我不确定这是不是一个好主意。
浏览 4
提问于2018-08-06
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python使用DataFrame打印指定列的方法
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
一个Python大数据处理利器:PySpark入门指南
肝了3天,整理了90个Pandas案例
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券