腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
从
pySpark
中
的
变量
中
选择
数据
框
中
的
列
、
我在python中有一个
pySpark
数据
帧- from
pyspark
.sql.functions import col dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key")) 列名是key,我想使用
变量
选择
此列。myvar = "key" 现在,我希望在select语句中使用myvar
变量
来
选择
此列 我试过了 datas
浏览 12
提问于2019-09-13
得票数 5
回答已采纳
6
回答
选择
PySpark
数据
框
中
的
列
、
、
、
我正在寻找一种在
PySpark
中
选择
数据
帧
列
的
方法。对于第一行,我知道我可以使用df.first(),但不确定
列
,因为它们没有列名。 我有5
列
,我想遍历每一
列
。
浏览 289
提问于2017-10-18
得票数 36
回答已采纳
1
回答
在
pyspark
的
现有dataframe
中
添加新
列
的
方法是什么?
、
、
、
我已经在现有的
数据
框
中
添加了一个新
列
,但它没有反映在
数据
帧
中
。如果我们可以将
数据
帧分配给另一个
数据
帧,我们就可以看到结果test.show() 有没有办法向现有的dataframe添加一个新
的
列
(不
浏览 4
提问于2021-01-26
得票数 0
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
按日期将吡火花
数据
集拆分为两个
、
、
我有
pyspark
数据
集,我想按照datetime
列
将其划分为列车和测试
数据
集,其中,训练
数据
集
的
日期时间应该小于日期时间
列
的
中位数,而测试
数据
集应该有其余
的
数据
集。我尝试按datetime
列
对dataset进行排序,并
选择
上半部分。但是这只解决了火车部件
的
问题,我不知道
如何
从
PySpark
<
浏览 0
提问于2019-08-21
得票数 0
回答已采纳
1
回答
如何
根据存储在R
中
的
向量
中
的
索引来
选择
列
?
、
、
、
、
我正在尝试
从
数据
帧中
选择
相关性大于所需截止值
的
列
。我使用findCorrelation函数将所有相关性较高
的
指标存储在一个
变量
中
。当我打印这个
变量
时,我看到索引没有排序。我想知道
如何
使用此
变量
从
原始
数据
框
中
选择
列
?
浏览 27
提问于2020-10-19
得票数 0
1
回答
与Pandas结果相比,dataframe
中
唯一值
的
Pyspark
数量不同
、
、
、
、
我有400万行
的
大型
数据
帧。其中一
列
是名为"name“
的
变量
。当我通过:df['name].nunique()检查Pandas
中
唯一值
的
数量时,我得到了一个与
Pyspark
df.select("name").distinct().show()不同
的
答案(在Pandas中大约为1800,在
Pyspark
中
为350 )。这是一个
数据
分区
浏览 0
提问于2020-05-24
得票数 0
1
回答
pyspark
将数组转换为循环中
的
字符串
、
、
、
我有一个心理公园
数据
框架,它有字符串,整型和数组类型
的
列
。我尝试对所有
列
运行for循环,以检查它们是否为任何数组类型
的
列
,并将其转换为字符串。然后,
pyspark
数据
框
中
的
输出应该包含int、string
列
。 下面的代码将只返回
从
数组转换为字符串
的
列
。
如何
包含else语句以
从
dataframe
浏览 20
提问于2021-04-11
得票数 0
回答已采纳
5
回答
如何
将dataframe
的
所有
列
转换为字符串
、
、
我有一个混合类型
的
数据
帧。我正在使用spark.sql('select a,b,c from table')命令
从
hive表
中
读取此
数据
帧。一些
列
是int、bigint、double,而其他
列
是string。总共有32
列
。在
pyspark
中有什么方法可以将
数据
框
中
的
所有
列
转换为字符串类型吗?
浏览 149
提问于2017-02-07
得票数 12
回答已采纳
1
回答
复制
pyspark
数据
框
中
的
列
、
我在
pyspark
中有一个类似下面示例
的
数据
框
。我想复制
数据
框
中
的
列
,并将其重命名为另一个列名。Name Age RateBen 32 98期望
的
输出为: Name Age
浏览 5
提问于2018-05-18
得票数 13
回答已采纳
1
回答
使用map函数将Spark Dataframe转换为RDD
、
、
我正在尝试将spark
数据
框
中
的
列
拆分为多个值。因此,我分隔了要拆分
的
列
,并检查了其类型:O:
pyspark
.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.te
浏览 0
提问于2016-06-22
得票数 0
3
回答
如何
在
Pyspark
中
替换dataframe
的
所有空值
、
、
我在
pyspark
中有一个超过300
列
的
数据
框架。在这些
列
中
,有一些
列
的
值为null。_2null null125 124and so on 当我想对column_1求和时,我得到
的
结果是一个空值现在,我想用空格替换
数据
框
所有
列
中
的
null。
浏览 1
提问于2017-02-18
得票数 56
回答已采纳
3
回答
删除
pyspark
中所有列名
中
的
空格
我是
pySpark
的
新手。我收到了一个csv文件,大约有1000
列
。我正在使用databricks。大多数这些
列
之间有空格,例如“总收入”,“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了但它在databricks上
的
Pyspark
浏览 1
提问于2019-08-02
得票数 1
2
回答
从
pyspark
中
的
一个非常大
的
数据
帧中
选择
随机
列
、
我有一个
pyspark
格式
的
dataframe,大约有150
列
。这些
列
是
从
连接不同
的
表
中
获得
的
。现在,我
的
要求是以特定
的
顺序将
数据
帧写入文件,例如,首先写入1到50
列
,然后是第90到110
列
,最后是第70和72
列
。也就是说,我只想
选择
特定
的
列
,并重新排列它们。我知道其中一种方法是使用df.se
浏览 1
提问于2017-07-14
得票数 0
回答已采纳
1
回答
spark
中
的
lit()有什么用处?下面两段代码返回相同
的
输出,使用lit()
的
好处是什么?
、
、
我这里有两段代码 gooddata=gooddata.withColumn("Priority",when((gooddata.Years_left < 5) & (gooddata.Years_left >= 0
浏览 2
提问于2020-06-10
得票数 0
1
回答
获取
数据
框
列
及其值作为
pyspark
中
的
变量
、
我正在使用如下所示
的
pyspark
从
mysql表
中
获取
数据
。).option("user", "{}".format(mysql_user)).option("password", "{}".format(password)).load()+------+------+-------------------+
浏览 7
提问于2017-12-15
得票数 0
回答已采纳
2
回答
Spark
中
的
多输出分类
、
、
、
我们可以在
Pyspark
中
预测多个目标
变量
吗,就像我们在sklearn
中
执行MultiOutputClassifier一样?我有一个包含多个目标
变量
的
数据
集0 Pbl1 Low“问题和复杂性”,我必须预测特定问题
的
“技能”,而我
的
目标
变量
是“Skill1,Skill
浏览 0
提问于2019-02-15
得票数 1
1
回答
使用
PySpark
sql函数
、
此函数:lg = F.log(5.2)返回: at java.lang.Thread.run(Thread.java:745) 文档指向在
数据
帧中使用函数
浏览 8
提问于2017-03-07
得票数 0
回答已采纳
1
回答
过滤来自
pyspark
数据
帧
的
负值
、
、
我有一个>40
列
的
spark dataframe,其中
的
值是混合值。
如何
一次只
从
所有
列
中
选择
正值并过滤掉负值?我访问了[ ],但没有一个解决方案有效。我想将朴素贝叶斯拟合到
pyspark
中
,其中一个假设是所有特征都必须是积极
的
。
如何
通过仅从我
的
特征中
选择
正值来准备相同
的
数据
?
浏览 2
提问于2018-03-19
得票数 1
1
回答
忽略缺失值计算
pyspark
数据
框
列
的
百分位数
、
我对
pyspark
是个新手。我有一个包含ID和BALANCE
列
的
pyspark
数据
框
。我尝试将
列
balance存储到100% (1-100%)
的
存储桶
中
,并计算每个存储桶中有多少个in。我不能使用任何与RDD相关
的
东西,我只能使用
Pyspark
语法。Window.orderBy(df.BALANCE) test = df.withColumn('percentile_col',F
浏览 14
提问于2019-07-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Python更改数据框中的指定列
Python中如何去掉数据框的前两行数据
bash中的变量
Python 中的变量如何定义和使用
如何在Excel表格中快速的进行两列数据的互换?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券