基于pyspark数组列中的多个字符串进行过滤_如何过滤同一列pyspark sql中的多个条件_Pyspark:基于另一个数组列更改数组列中的值 - 腾讯云开发者社区

、、、、

from pyspark.sql.functions import udf, col, when from pyspark.sql.types import ArrayType, StringType,如果某个id包含'a‘或'b’字符串，我会尝试标记该行。udf为其返回空值。我是udfs的新手。我必须在给定的udf中进行哪些更改才能获得所需的结果 df.filter(F.array_contains(F.col('items')

浏览 69提问于2021-06-19得票数 2

回答已采纳

2回答

在中过滤数组

、、、、

火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', &

浏览 3提问于2021-10-01得票数 1

回答已采纳

1回答

Airtable筛选器以返回具有链接实体列中特定条目的所有记录

我需要能够通过公共API (使用Airtable.Net client>)过滤Airtable表，以便它只返回在链接记录字段中有特定条目的行。我是在这样的假设下工作的，因为所有Airtab

浏览 2提问于2020-12-30得票数 0

回答已采纳

1回答

将字符串数组的pyspark列转换为databricks上的字符串时出错

、、、

我正在尝试将pyspark dataframe列从字符串数组转换为字符串。df： text "this, is, a, book, that, I, like" 基于How to，我的py3代码： import pyspark.sql.functions as F t = df.withColumn('text&#

浏览 7提问于2020-09-14得票数 0

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，并强制它应该大于0(参见)。但是，如果我

浏览 17提问于2017-02-24得票数 7

回答已采纳

2回答

PySpark DataFrames:筛选数组列中的值

、

我在PySpark中有一个PySpark，它的一个字段有一个嵌套数组值。我想过滤数组包含特定字符串的DataFrame。我不知道该怎么做。nullable = true) | |-- element: string (containsNull = false) 我希望返回upper(name) == 'JOHN'和lastName列(数组)包含'SMITH'和等式<em

浏览 4提问于2016-06-24得票数 0

回答已采纳

2回答

筛选向量中任何值都包含在列中的行

、

我有一个具有单个列的数据集，其中包含按空格分隔的多个ICD-10代码，例如1 A14 R173 C11 K71 V91 我有一个与我的分析相关的ICD-10码向量，例如goodcodes<-c("C11","A14","R17","O80").我想从datas

浏览 4提问于2020-09-18得票数 1

回答已采纳

2回答

如何在PySpark中根据数组值进行过滤？

、、、、

我的架构： |-- Certifications: array (nullable = true)df3 = sqlContext.sql("select vendorTags.vendor from globalcontacts")df3 = sqlContext.s

浏览 0提问于2016-03-15得票数 16

回答已采纳

1回答

PySpark上星火-卡桑德拉的服务器端过滤

、、、、

我是新来的星火，想知道更多的运作时，与卡桑德拉合作。只是好奇下面的脚本是否正在进行服务器端过滤。给定SparkConf对象conf sc = pyspark</em

浏览 0提问于2016-03-07得票数 2

回答已采纳

2回答

在pyspark* DataFrame中创建某个类型的空数组列*

、、、

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

2回答

如果组中存在非空项，如何删除重复项和空项？

、、、

下面的DataFrame应该根据标志列进行过滤。如果基于列id和cod的组没有任何与None值不同的行，则只需要维护一个唯一的行，否则，必须删除列标志<code>E 211</code>中的None值行。import pysparkfrom pys

浏览 3提问于2022-06-30得票数 0

2回答

向PySpark数组中添加None

、、、、

我希望创建一个基于现有列有条件填充的数组，有时我希望它包含None。下面是一些示例代码：from pyspark.sql import SparkSession TypeError:无效参数，而不是字符串或列:没有一个类型为<type 'NoneType'>.对于列文字，请使用“lit”、

浏览 4提问于2022-07-01得票数 1

回答已采纳

1回答

如何将自定义停止词列表添加到StopWordsRemover

、、、、

我在我的pyspark上使用pyspark.ml.feature.StopWordsRemover类。它有ID和文本列。除了提供默认的停止词列表外，我还想添加自己的自定义列表，以从字符串中删除所有数值。from py

浏览 0提问于2017-04-26得票数 9

回答已采纳

1回答

解析包含Pyspark中XML字符串的列

、、、

我已经创建了一个UDF，用于获取XML字符串、命名空间字典、x路径语法和XML中键值对的键，并返回一个值数组，以便稍后使用withColumn(col,explode(col))爆炸。现在，我正试图使用Pyspark在Databricks中包含XML字符串的列在dataframe上迭代此函数，并使用返回的数组创建一个新列。我的职能： from pyspark.sq

浏览 6提问于2020-04-10得票数 0

1回答

使用索引器和编码器时出现PySpark管道错误

、、、、

我在他们的文档网站上关注了PySpark教程(对不起，我再也找不到链接了)。在流水线中运行时，我一直收到错误。我已经加载了数据，转换了特征类型，并完成了分类和数值特征的管道。我想要任何关于代码任何部分的反馈，但特别是我在哪里得到了错误，这样我就可以继续这个构建。提前谢谢你！pipeline_model = pipeline.fit(df2) prepped_df = pipeline_model.transform(df2) 错误 "TypeError:为参数"inputCols“提供

浏览 11提问于2019-06-14得票数 3

回答已采纳

3回答

如何修改pyspark使用的一行中的一个列值

我想当userid=22650984.How在pyspark平台上更新它的价值?谢谢你的帮助。

浏览 8提问于2018-04-08得票数 11

回答已采纳

2回答

如何使用.contains()在PySpark中进行单子或多子串筛选？

、、、

这是一个简单的问题(我认为)，但我不确定回答它的最佳方法。data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4,

浏览 7提问于2021-11-10得票数 0

2回答

如何检查Spark数据帧结构数组是否包含特定值

、

我有一个具有以下模式的数据框架root |

浏览 0提问于2019-09-06得票数 7

回答已采纳

1回答

如何在时间戳列中基于HH:mm:ss部分过滤行

我有一个pyspark中的dataframe，它有一个时间戳字符串列，格式如下：不管日期如何，我只想根据这个字符串时间戳的时间部分过滤dataframe中的行。# Grabbing only time portion from datetime column import pyspark.sql

浏览 3提问于2020-11-23得票数 1

回答已采纳

5回答

使用类似SQL的IN子句过滤Pyspark* DataFrame*

、、、、

我想用一个类似SQL的IN子句过滤一个Pyspark DataFrame，如下所示sqlc = SQLContext(sc) java.lang.RuntimeException: 1.67失败：('‘需要，但找到标识符a 这基本上是说它期望的是像'(1，2，3)‘这样的东西，而不是a。问题是我不能在a中手动写入值，因为它是从另一个作业中提取的

浏览 44提问于2016-03-08得票数 48

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云