腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
dataframe
“
条件
应为
字符串
或
列
”
、
、
、
我一直收到错误“TypeError(”
条件
应该是
字符串
或
列
“)” 我已经尝试更改滤镜以使用col对象。尽管如此,它还是不起作用。path = 'dbfs:/FileStore/tables/TravelData.txt'from
pyspark
.sql.types importIntegerType(), True)df = spark.read.option("delimite
浏览 21
提问于2019-02-02
得票数 0
回答已采纳
1
回答
从
PySpark
中的复杂
列
中提取值
、
、
我有一个
PySpark
数据帧,它有一个复杂的
列
,请参考下列值:1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在
PySpark
dataframe
中添加一个新
列
,它基本上将它转换为一个
字符串
列表。如果Label为null,则
浏览 0
提问于2021-02-09
得票数 0
1
回答
电火花函数理解-转换因子
、
、
我在Apache,Databricks上用
PySpark
编写代码。 very_large_
dataframe
250 GB来自客户端的CSV文件,其中必须只有10
列
A、B、C、D、E、F、G、H、I、A、B包含
字符串
数据C、D、E、F、G、H、I、J,包含精度为5的小数,标度2(即125.75) A、B、C、D、E,不
应为
空F、G、H、I、J。是
浏览 6
提问于2022-01-14
得票数 0
回答已采纳
3
回答
PySpark
: TypeError:
条件
应为
字符串
或
列
、
、
、
、
lambda r: str(r['target']).startswith('good')) 904 jdf = self.--> 906 raise TypeError(&
浏览 2
提问于2016-10-06
得票数 18
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于
条件
的
pyspark
列
的元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为
dataFrame
# like column.map(lambda x: __valid_date(x)) _spark函数
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
2
回答
通过对多
列
进行分组,用平均值填充缺失值
、
描述:“如何用平均、按
条件
分组数据和按
Pyspark
中的模型
列
来填充价格
列
中缺失的值?((cars.groupBy("condition", "model").agg(mean("price"))['avg(price)']))错误: ValueError:值应该是浮点、int、长、
字符串
、bool
或
dict。
DataFrame
浏览 2
提问于2021-12-01
得票数 2
回答已采纳
1
回答
动态填充中的列名
、
、
、
我正在开发一个动态脚本,它可以join任何给定的
pyspark
。问题是文件中的列名会发生变化&连接
条件
的数目可能会有所不同。我可以在一个循环中处理这个问题,但是我使用一个变量名执行连接,它失败了。(我的目的是根据文件结构和联接
条件
动态填充a和b
或
更多
列
)a="existingFile.Id" unChangedRecords = existingFile.join(incrementalFile,(a==b)
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
1
回答
如何将依赖于一
列
的
条件
语句应用于另一
列
?
、
、
在1,000行长的数据部分中,如果cat
列
大于0,则kitten
列
应为
1。在同一数据的另一个1,000行部分中,如果cat
列
小于0,则kitten
列
应为
1。否则,kitten
列
应为
0。我看过替换pandas
dataframe
对象的
列
和公式的建议,但我在文档
或
这里的帖子中看不到如何将
条件
函数应用于
列
。 我还避免替换数据中的整个行部分。我只想将此公式应用于一
浏览 26
提问于2019-05-31
得票数 0
回答已采纳
1
回答
根据
条件
向
pyspark
dataframe
添加
列
、
、
、
、
我的data.csv文件有三
列
,如下所示。我已经将这个文件转换为python spark
dataframe
。A B C| 2 | 0 | 5 |我想在spark
dataframe
中添加另一
列
D,值为Yes
或
No,
条件
是如果B
列
中的相应值大于A B C D| 2 | 0 | 5 | No | | 6 | 6 | 6 | Yes |
浏览 0
提问于2019-02-23
得票数 3
回答已采纳
1
回答
PySpark
支持
条件
语句的短路评估吗?
、
、
、
、
我想在我的
dataframe
中创建一个新的布尔
列
,它的值来自对同一
dataframe
中其他
列
的两个
条件
语句的计算: columns = ["id", "color_one", "color_two"]在这种情况下,对于该行,is_red也被设置为NULL,而不是true
或
false。正在计算
条件
语句的所有子句,而不是提前退出(通过),如果第一个
条件
恰好是真的(如上面示例中的第2行)。
P
浏览 7
提问于2021-07-14
得票数 2
回答已采纳
4
回答
如何通过布尔
列
过滤星火数据?
、
、
、
我创建了一个具有以下模式的
dataframe
:root |-- review_count: integer (nullable = true)我只想选择记录与“打开”
列
是我在
PySpark
中运行的以下命令没有返回任何内容: yelp_df.filter(yelp_df["open"] ==
浏览 5
提问于2016-04-22
得票数 12
回答已采纳
1
回答
字符串
中的
Pyspark
双字符替换避免未映射到pandas
或
rdd的特定单词
、
、
、
、
我继承了一个修改
pyspark
dataframe
中一些
字符串
的程序。其中一个步骤涉及从
字符串
中的一些单词中删除双/三/等字母,以及一个额外的例外列表,即使它们有重复的字母也会保持不变。目前,这是通过将
dataframe
转换为具有udf的pandas,然后在读回
pyspark
之前对生成的pandas
dataframe
中的
字符串
应用自定义函数来完成的。不幸的是,对需求的更改意味着代码在任何情况下都不能使用pandas udf
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
1
回答
我可以给熊猫发送一个火花数据作为论据吗?
、
、
、
、
下面是我正在使用的示例代码集,并且在调用函数时出错:from
pyspark
.sql import SparkSession@pandas_udf("Count int") return v
浏览 4
提问于2020-11-26
得票数 1
回答已采纳
1
回答
火花时语句
、
嗨,我开始使用
Pyspark
了,我想在下面添加一个时间和其他
条件
: df_1 = df.withColumn("test", when(df.first_name == df2.firstname &df.first_name和df.last_name都是
字符串
,也是df2.name和df2.lastname
字符串
。错误: ValueError:无法将
列
转换为bool:在构建
DataFrame
布尔表达式时,请使用'&‘for 'an
浏览 11
提问于2022-11-10
得票数 0
回答已采纳
1
回答
在
pyspark
中分组时,对另一
列
中满足额外
条件
的元素进行计数
、
、
以下
pyspark
命令 df =
dataFrame
.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqs
dataFrame
中,我有一个名为success的
列
,其类型为text。该值可以是"true"
或
"false"。 在结果中,我希望有一个额外的
列
,例如,NumOfSucce
浏览 19
提问于2018-12-18
得票数 1
回答已采纳
2
回答
选择具有更多数据的
列
、
、
、
、
我必须使用
PySpark
从包含更多数据
或
值的两个
列
中选择一个
列
,并将其保存在
DataFrame
中。 例如,
列
B有更多的值,因此我将将其保存在DF中以进行转换。我认为我们可以使用if else
条件
来完成这个任务,但是我无法得到正确的逻辑。
浏览 1
提问于2022-10-02
得票数 0
回答已采纳
1
回答
用于显示不带小数点的整数
、
、
在下面的代码中,数据文件的所有
列
都是
字符串
。其中一
列
用一个小数位存储整数
或
小数(6.1,4.8,3,9.4,6,...etc.)。但是,一旦将数据加载到
pyspark
dataframe
中,它也会显示带有单个小数位(例如3.0)的整数。from
pyspark
.sq
浏览 7
提问于2022-05-21
得票数 0
2
回答
Pandas /
Pyspark
添加
列
以显示
条件
下的重复值
、
、
、
如果想要在我的
dataframe
中添加一个
列
来标记一个
条件
是否满足,但是我不知道如何解决这个问题。假设在
dataframe
上,我们有同名的学生,但是我只想在他们的成绩超过5的时候才给他们打分,而忽略那些5年级以下的学生。就像这样: 我可以使用Pandas
或
Pyspark
作为库。
浏览 5
提问于2022-07-27
得票数 0
回答已采纳
2
回答
如何在
PySpark
中将向量类型的
列
转换为数组/
字符串
类型?
、
、
、
考虑以下
pyspark
中的
dataframe
:| Col A|| [0.5, 0.6]| | [1.1, 1.5]| A
列
的类型是向量,如何创建一个值为A
列
但类型为数组
或
字符串
的新
列
?
浏览 1
提问于2020-03-04
得票数 1
1
回答
如何在火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser
、
、
、
、
我们怎么才能用
浏览 7
提问于2022-06-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel条件筛选引用:如何提取单列或多列中非重数据?
一个Python大数据处理利器:PySpark入门指南
肝了3天,整理了90个Pandas案例
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券