腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
具有
随机
值
的
列
添加到
pyspark
dataframe
、
我有一个包含两个现有
列
name和birthdate
的
pyspark
dataframe
df,我想用
随机
值
覆盖它们
的
值
。对于
列
name,我希望有一个字符串,其中包含一组固定长度
的
随机
字母(比如10个)。应该对每一行
的
字符串进行
随机
化,这样所有行都不会得到相同
的
字符串。对于
列
birthdate,我想要一个格式为YYYY-MM-DD
浏览 31
提问于2019-04-26
得票数 0
回答已采纳
4
回答
如何
将
向量
的
列
拆分成两
列
?
、
、
我使用
PySpark
。output2 = output.withColumn('pro
浏览 2
提问于2016-05-19
得票数 7
1
回答
将
一个
列
从另一个
dataframe
添加到
现有的
dataframe
、
、
假设我们有一个
具有
以下模式
的
PySpark
dataframe
df: |-- parent: string (nullable = true)另外,假设有另一个
具有
以下模式
的
dataframe
df_new: |-- city: string (nullable = true)
将
city
列
从df_new
添加到
df<e
浏览 2
提问于2022-03-31
得票数 0
1
回答
如何对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe
,并尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中做了一些如下
的
事情。在操作了几个
列
值
之后,
将
新
列
添加到
pandas数据帧中,如下所示。return USD_amount salesData['Sales (INR)'] = salesD
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
2
回答
添加带有
随机
数据
的
新
列
、
、
、
我想要在
dataframe
中添加一个包含0或1
的
值
的
新
列
。from random import randint 但我得到了以下错误 / withColumn /python/
pyspark
/sql/
dataframe
.py“,第1313行,在withColumn AssertionError( col,
列<
浏览 4
提问于2017-01-04
得票数 13
回答已采纳
2
回答
Pyspark
-如何从
DataFrame
列
中获取
随机
值
、
、
我在一个
DataFrame
中有一
列
,我需要在
Pyspark
中选择3个
随机
值
。有没有人能帮帮我-我,好吗?+---++---+|245| |234|愿望:**output**: [123, 12, 234]
浏览 0
提问于2017-10-04
得票数 5
回答已采纳
1
回答
如何
将
所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在
将
csv文件读取为
具有
2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将
date
列
中
的
行
值
转换为时间戳格式?我已经尝
浏览 16
提问于2020-12-30
得票数 2
1
回答
如何
将
电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法
将
pyspark
列
转换为
dataFrame
# like column.map(lambd
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要创建一个函数,该函数从
PySpark
中
的
左联接创建一个新
列
,详细说明一个
列
中
的
值
是否匹配或不匹配另一个
dataframe
逐行
的
列
。例如,我们有一个
PySpark
dataframe
(d1)
具有
列
ID和名称,另一个
PySpark
dataframe
(d2)
具有
相同
的
列
浏览 3
提问于2021-12-11
得票数 0
2
回答
从列表中添加
列
的
pySpark
、
、
、
、
我有一个数据文件名,并希望根据列表中
的
值
向它添加
列
。 我
的
值
列表将从3-50个
值
变化。我是
pySpark
新手,我试图
将
这些
值
作为新
列
(空)附加到我
的
df中。我看到了关于如何
将
一
列
添加到
dataframe
中
的
推荐代码,而不是从列表中添加多
列
的
代码。, 'Conform
浏览 2
提问于2020-05-12
得票数 1
回答已采纳
1
回答
如何对
PySpark
DataFrame
的
每一
列
中
的
数据进行混洗?
、
、
、
、
我是一个用
PySpark
编程
的
初学者。我在CSV文件中有以下数据,该文件正在被读取到Spark
Dataframe
中,并且我想从一个小数据集开始生成一个大型数据集。df = (spark.read .csv(file
浏览 16
提问于2020-05-11
得票数 0
1
回答
将
一个
列
添加到
现有的数据格式中,并在
Pyspark
中使用
随机
的
固定
值
。
我对
Pyspark
还不熟悉,我正在尝试在我现有的
dataframe
中添加一个新
的
列
。新
列
应该只包含4个固定
值
(例如1,2,3,4),我想
随机
为每一行选择一个
值
。 我怎么能这么做?
浏览 2
提问于2016-06-29
得票数 1
回答已采纳
3
回答
利用
PySpark
在数据模型上应用sklearn训练模型
、
、
、
我用Python训练了一个
随机
森林算法,并希望用
PySpark
在一个大数据集上应用它。我首先加载了经过训练
的
sklearn模型(使用joblib),
将
包含这些特性
的
数据加载到Spark数据框架中,然后添加了一个带有预测
的
列
,该
列
具有
用户定义
的
函数,如下所示: return rf.predict(features) udfFunction = udf(pr
浏览 6
提问于2017-05-31
得票数 8
回答已采纳
2
回答
如何使用monotonically_increasing_id连接两个没有公共
列
的
pyspark
数据帧?
、
、
、
我有两个相同行数
的
pyspark
dataframe
,但它们没有任何公共
列
。因此,我使用monotonically_increasing_id()
将
新
列
添加到
这两个
列
中 from
pyspark
.sql.functions import monotonically_increasing_idcont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'in
浏览 2
提问于2017-06-03
得票数 1
1
回答
PySpark
数据重分区
、
当我们根据
列
对
PySpark
数据进行重新分区时会发生什么。例如这是否
将
具有
类似'id'
的
数据移动到相同
的
分区?spark.sql.shuffle.partitions
值
如何影响重分区?
浏览 0
提问于2018-02-22
得票数 11
回答已采纳
1
回答
电火花函数理解-转换因子
、
、
以下内容验证了
dataframe
是否
具有
所需
的
列
要求
将
2.5
的
换算系数适用于F栏,即
值</e
浏览 6
提问于2022-01-14
得票数 0
回答已采纳
2
回答
如何在
pyspark
中合并重复
的
列
?
、
、
我有一个
pyspark
dataframe
,其中一些
列
具有
相同
的
名称。我想将
具有
相同名称
的
所有
列
合并到一
列
中。例如,输入
dataframe
: ? 我如何在
pyspark
中做到这一点?
浏览 57
提问于2021-06-18
得票数 2
回答已采纳
2
回答
如何使用来自另一个数据帧
的
随机
值更新
PySpark
中
的
数据帧?
、
、
、
我在
PySpark
中有两个数据帧,如下所示:
Dataframe
A:总共1000条记录 +-----++-----+| b|+-----+
Dataframe
B:共3条记录 +-----++-----+|06901|+-----+ 我需要在
Dataframe
A中添加一个名为Zip
的
新
列
,并使用从
Dataframe
B中
随机
选择
的
浏览 12
提问于2021-02-10
得票数 2
回答已采纳
1
回答
向类添加功能
的
最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找如何
将
多个
列
一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper,其中通过赋值语句
将
方法
添加到
pyspark
.
DataFrame
类中。问题是,我正在创建一个Github来存储我
的
所有函数和ETL,我认为如果我能够应用上面显示
的
逻辑,就可以非常容易地创建一个__init__.
浏览 6
提问于2020-07-09
得票数 1
1
回答
将
向量
列
添加到
吡咯
DataFrame
中
、
、
、
如何
将
Vectors.dense
列
添加到
pyspark
中?import pandas as pdfrom
pyspark
.sql import SQLContext py_df = pd.
DataFrame
.from_dict({"time": [59., 115., 156., 4
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
PySpark,大数据处理的Python加速器!
PySaprk之DataFrame
肝了3天,整理了90个Pandas案例
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券