腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
pyspark
根据
多个
列
值
删除
记录
、
我有一个
pyspark
数据帧,如下所示: ? 如果两
列
uniq_id和date_time具有相同的
值
,我希望只保留一条
记录
。 预期输出: ? 我想用
pyspark
来实现这一点。
浏览 28
提问于2020-10-06
得票数 0
回答已采纳
1
回答
maxRecordsPerFile不在Azure数据砖中工作
、
、
、
100000) \ .mode("overwrite") \
根据
customer
列
,我正在
使用
上面的
pyspark
脚本将我的大CSV文件分割成小块。我正在
使用
Azure数据砖。 maxRecordsPerFile选项不起作用,它在每个客户文件夹下创建
多个
文
浏览 18
提问于2022-10-12
得票数 0
1
回答
如何
使用
PySpark
更新hive表中的
记录
?
、
下面是一个简单的例子:数据驻留在Hive表中,应用程序
使用
PySpark
读取数据帧(比如
PySpark
)。例句:数据帧在
列
下面。EmpNo名称年龄工资2 bbbb 38 200004dd 30 32000在某些情况下,我们需要
根据
A
浏览 1
提问于2019-03-29
得票数 2
1
回答
Pyspark
删除
包含10个空
值
的
列
、
我是
PySpark
的新手。我只想保留至少有10个
值
的
列
现在如何提取值小于10的列名,然后在写入新文件之前
删除
这些
列
df = spark.read.parquet(file
浏览 1
提问于2019-09-28
得票数 1
1
回答
如何基于多条件
删除
SQL Server中的大数据量
、
、
、
我正在寻找一个SQL查询,其中我必须
根据
2个条件的组合从表中
删除
数据。 我有一个表dbo.ABC,如果
值
的组合作为输入传递到
列
A和
列
B中,则必须
删除
其中的行。,B
列
是US,我必须
删除
记录
。但是我希望传递
多个
输入,比如100和200作为A
列
,US和IND分别作为B
列
。100和US将是
删除
第一个
记录
的一个组合,200和IND将是另一个
删除</
浏览 2
提问于2020-12-31
得票数 1
1
回答
基于其他
列
更新
列
的
Pyspark
行
、
我有一个data frame在
pyspark
,如下所示。---+----++---+----+| 2| Tim|| 4| sam|现在,我向df添加了一个新
列
,null|| 3| Jim| null|+---+----+----------+ 现在,我想
根据
一个条件更新new_column中的
值
。编辑--我不是在寻找if
浏览 1
提问于2018-05-02
得票数 0
回答已采纳
1
回答
基于2个spark数据帧中的匹配zip,创建用于距离计算的纬度和经度对
、
、
、
我有一个
pyspark
dataframe A,它有3
列
:-69 40 trp我有另一个
pyspark
dataframe B,它具有相同的
列
,但捕获的
值
将不同:-68 43 trp我希望
根据
dataframe B中匹配的邮政编码为A的每个
记录
创建纬度经度对。我试图复制这里
使用
的.map: 不成功
浏览 2
提问于2017-11-16
得票数 0
1
回答
验证CSV文件
PySpark
、
、
、
我正在尝试验证csv文件(每条
记录
的
列
数)。
根据
下面的链接,在Databricks 3.0中有处理它的选项。df = spark.read .parquet("/input/parquetFile") 但是,我
使用
的是2.3版本的spark,不能
使用
该选项。有没有办法找出csv文件中的坏
记录
浏览 1
提问于2018-11-21
得票数 1
2
回答
如何在SQL Server中批量
删除
多条件数据
、
、
我正在寻找一个SQL查询,在这个查询中,我必须
根据
2个条件的组合从表中
删除
数据。 我有一个表dbo.ABC,如果A
列
和B
列
中存在作为输入传递的
值
的组合,则必须从该表中
删除
行。,B
列
是US,我必须
删除
记录
。但是我希望传递
多个
输入,比如100和200作为A
列
,US和IND分别作为B
列
。100和US将是
删除
第一个
记录
的一个组合,200和IND将是另一个
浏览 1
提问于2020-12-31
得票数 0
2
回答
如果组中存在非空项,如何
删除
重复项和空项?
、
、
、
下面的DataFrame应该
根据
标志
列
进行过滤。如果基于
列
id和cod的组没有任何与None
值
不同的行,则只需要维护一个唯一的行,否则,必须
删除
列
标志<code>E 211</code>中的None
值
行。import
pyspark
from
pyspark
.sql.window import Window f
浏览 3
提问于2022-06-30
得票数 0
2
回答
使用
pyspark
验证同一
列
不同行中的数据
如何
根据
某些单元格之间的验证来更改
列
的
值
?我需要的是比较每个客户的(id)
记录
的千米
值
,以比较紧跟在千米
值
之后的
记录
是否更高。(id) 2,里程
值
小于2/1/2019年2月1日的相同客户
记录
(如果时间流逝,则
使用
汽车,因此里程增加,因此不存在里程必须更高或相同的错误) 我知道withColumn我可以覆盖或创建一个不存在的
列
,并在我可以设置条件时
使用
。例如:这将
浏览 44
提问于2019-07-04
得票数 0
5
回答
pyspark
: ValueError:某些类型在推断后无法确定
、
、
、
、
spark_my_df = sc.createDataFrame(my_df) 388
浏览 1
提问于2016-11-10
得票数 34
9
回答
如果火花dataframe的特定
列
中的所有条目为空,则
删除
、
、
使用
Pyspark
,如何选择/保留包含非空
值
的所有
列
;或者等效地
删除
不包含数据的所有
列
。编辑:
根据
Suresh请求, if media.select(media[column]).distinct().count() ==
浏览 4
提问于2017-08-11
得票数 8
1
回答
如何
使用
多个
隐式反馈的ALS?
、
、
、
在
PySpark
中给出的ALS示例中,
根据
本文档-- ),
使用
的数据在一
列
中具有显式反馈。这些数据是这样的:收人品的收视率高我知道我们可以通过将implicitPrefs设置为False来
使用
隐式反馈但是,它只接受一
列
。如何
使用
多
列
? 我发现了一个问题:,但是它与星火法和交替最小二乘法无关。我是否必须
浏览 5
提问于2022-06-17
得票数 0
2
回答
如何从以2K开头的
pyspark
数据帧中
删除
记录
、
、
我
使用
的是
pyspark
3.0.1。我想从我的
pyspark
数据帧df的
列
group中
删除
记录
以2K开头的行。我的样本数据如下所示John 23 1L12Pat 35 1P28Name Age
浏览 1
提问于2021-03-04
得票数 0
2
回答
在火花中放置行
如何
根据
行号/行索引
值
的
值
删除
Pyspark
中的行
值
? 我对
Pyspark
(和编码)很陌生--我尝试过编码一些东西,但是它不起作用。
浏览 1
提问于2019-04-08
得票数 3
回答已采纳
1
回答
PySpark
中不同列上重复条目中基于
列
值
的行选择
、
、
、
、
我有一个在字段(
列
)上分组的
PySpark
DataFrame,其目的是消除每个组的
记录
,这些
记录
具有另一个字段的特定
值
。因此,例如,表看起来就像'a' 1'a' 0这里我想要的是
删除
有一个重复的colA和colB为0的
记录
,这样就可以获得colA colB
浏览 3
提问于2016-03-09
得票数 0
回答已采纳
1
回答
pyspark
:
根据
其他
记录
获取
列
、
、
111590058 1010015900581000010101 214100897 104100897 1010041008971000010101 我尝试
使用
我是新来
Pyspark
的,所以请帮助我。
浏览 9
提问于2019-04-18
得票数 0
1
回答
通过连接比较两个
pyspark
数据帧
、
、
、
我有两个
pyspark
数据帧,它们的行数不同。我试图通过在
多个
键上连接这两个数据帧来比较所有
列
中的
值
,这样我就可以找到这些
列
中具有不同
值
的
记录
和具有相同
值
的
记录
。我的实际数据大约有25
列
和100k+行。因此,当我尝试连接时,spark作业花费了很长时间,并且没有完成。想知道是否有人有好的建议来比较两个数据帧,并找出在
列
中具有不同
值
的
记录
,无论是
使用</em
浏览 14
提问于2021-02-13
得票数 0
1
回答
使用
列
的附加值(例如QuestionId )从表中
删除
记录
、
、
、
、
使用
列
的附加值从表中
删除
记录
,比如QuestionId。如果我有两个具有QuestionId 12123的
记录
(不要考虑其他
列
的
值
),那么我想
删除
第一个具有QuestionId 12123的
记录
,并保留第二个
记录
。我希望
使用
SQL脚本执行此操作。我发现了许多可以
删除
重复行的内容,但没有找到
根据
列
的
值
来执行该操作的解决方案。
浏览 1
提问于2016-06-23
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Oracle 19C入门到精通之SQL数据操纵语言DML
SQL是功能强大的数据库语言,其实SQL很简单,你也可以轻松学会
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券