pyspark withcolumn条件基于另一个数据帧_Pyspark -在空数据帧上调用时withColumn不工作_PySpark:基于公共字符串列比较两个数据帧并生成结果布尔值withColumn() - 腾讯云开发者社区

、、、、

对于pyspark数据帧中的每一组坐标，我需要在另一个数据帧中找到最接近的一组坐标我有一个包含坐标数据的pyspark dataframe (dataframe a)： +------------------+-------------------+ | latitude_deg| longitude_deg| +------------------+-------------------+ | 40.07080078125| -74.93360137939453| | 38.704022| -

浏览 22提问于2020-07-20得票数 0

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

Spark中的Join返回重复隐式数据类型不匹配

、、

在连接两个数据帧时，我得到了重复的数据帧，其中一个键是小数，另一个是字符串。Spark似乎正在将小数转换为字符串，这将导致科学记数表达式，但随后将原始结果以十进制形式显示出来。我找到了一种通过直接转换为字符串的解决方法，但这似乎很危险，因为在没有警告的情况下会创建重复项。这是一个bug吗？我如何才能检测到这种情况何时发生？下面是Spark 2.4上的pyspark演示： >>> from pyspark.sql.functions import * >>> from pyspark.sql.types import * >>> df1

浏览 15提问于2019-06-08得票数 3

1回答

使用pyspark中的groupby根据筛选的行创建具有最大值的新列

、、

我有一个spark数据帧 import pandas as pd foo = pd.DataFrame({'id': [1,1,2,2,2], 'col': ['a','b','a','a','b'], 'value': [1,5,2,3,4], 'col_b': ['a','c','a','a','c']}) 我想用value列的max创建一个新列，按id分组。但我希望

浏览 31提问于2021-01-16得票数 0

回答已采纳

1回答

如何在pyspark中使用链接？

、、、

我有一个名为Incito的数据帧，在该数据帧的Supplier Inv No列中由逗号分隔值组成。我需要通过使用pyspark适当地重复那些逗号分隔值来重新创建数据帧。我正在使用下面的that.Can代码，我可以将其转换为pyspark吗？ from itertools import chain def chainer(s): return list(chain.from_iterable(s.str.split(','))) incito['Supplier Inv No'] = incito['Supplier Inv No'].as

浏览 10提问于2021-05-18得票数 0

回答已采纳

1回答

将Numpy数组追加到Pyspark Dataframe中

、、、、

我需要在PySpark数据帧中追加一个NumPy数组。结果需要如下所示，添加var38mc变量： +----+------+-------------+-------+ | ID|TARGET| var38|var38mc| +----+------+-------------+-------+ | 1.0| 0.0| 117310.9790| True| | 3.0| 0.0| 39205.17000| False| | 4.0| 0.0| 117310.9790| True| +----+------+-------------+------

浏览 7提问于2020-12-08得票数 0

回答已采纳

1回答

pyspark将dic与大数据帧进行匹配，并使用for循环计算每一行

、

我有一个数据帧，我想将它与另一个数据帧进行匹配，并在pyspark中进行一些计算。例如： # the data to calculate from pyspark.sql import SparkSession spk = SparkSession.builder.appName("dataFrame").getOrCreate() df = spk.createDataFrame([ ("Hi I heard about Spark".split(" "), ), ([],), ("I wish Java co

浏览 16提问于2021-09-18得票数 1

回答已采纳

1回答

尝试将元素插入到pyspark dataframe的数组列时出现奇怪的输出

、

我尝试在这个pyspark数据帧的数组列的开头插入0。我就是这么做的 from pyspark.sql.types import ArrayType, IntegerType udf_addEle = F.udf(lambda x: [0]+(x), ArrayType(IntegerType())) labs.select(udf_addEle(F.col('glu_agg'))).show() 然而，当我运行它时，我得到了这个奇怪的输出。找不到原因。有谁能帮帮忙。我应该怎么做才能避免这个错误？非常感谢。

浏览 7提问于2019-11-25得票数 0

回答已采纳

1回答

如何从PySpark中的date列获取一周的第一个日期？

我的PySpark数据帧中有一个普通的时间戳列。我想从新列中的给定日期开始获取一周的开始日期。

浏览 13提问于2019-02-05得票数 0

3回答

如何删除PySpark数据帧中字符串中的特定字符？

、、、

我想删除列中值的最后两个字符。 PySpark数据帧的值如下所示： 1000.0 1250.0 3000.0 ... 它们应该看起来像这样： 1000 1250 3000 ...

浏览 51提问于2021-02-11得票数 1

回答已采纳

2回答

PySpark -获取组中每行的行号

、、、、

使用pyspark，我希望能够对spark数据帧进行分组，对组进行排序，然后提供行号。所以 Group Date A 2000 A 2002 A 2007 B 1999 B 2015 会变成 Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B 2015 1

浏览 13提问于2017-08-05得票数 19

回答已采纳

1回答

Pyspark -具有重置条件的累积和

、、、、

我有这个数据框 +---+----+---+ | A| B| C| +---+----+---+ | 0|null| 1| | 1| 3.0| 0| | 2| 7.0| 0| | 3|null| 1| | 4| 4.0| 0| | 5| 3.0| 0| | 6|null| 1| | 7|null| 1| | 8|null| 1| | 9| 5.0| 0| | 10| 2.0| 0| | 11|null| 1| +---+----+---+ 我需要做的是从列C到下一个值为零的值的累积和。预期输出： +---+----+---+----+ |

浏览 9提问于2019-05-31得票数 6

回答已采纳

2回答

将结构类型列分解为pyspark中的两列键和值

、、

浏览 11提问于2020-03-14得票数 1

1回答

如何解决？(将列表添加到列dataframe pyspark)

、、、

如果我已经存在数据帧，且我想要向数据框中添加新列 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import Row numbers=[1,2,30,4] rdd1 = sc.parallelize(li) row_rdd = rdd1.map(lambda x: Row(x)) test_df = sqlContext.createDataFrame(row_rdd,['numbers']) ------------------------------------

浏览 0提问于2020-10-05得票数 1

1回答

基于类方法创建PySpark数据框列

、、、、

我有一个python类，它的函数如下： class Features(): def __init__(self, json): self.json = json def get_email(self): email = self.json.get('fields', {}).get('email', None) return email 我正尝试在一个pyspark数据帧中使用get_email函数，基于另一个列"raw_json“创建一个新列，该列由json值组成： df = data.

浏览 6提问于2020-11-12得票数 0

回答已采纳

2回答

从Pyspark Dataframe列提取文件扩展名

、、

我有一个带有列FullPath的pyspark数据帧。如何使用函数os.path.splitext(FullPath)提取FullPath列中每个条目的扩展名并将其放入新列？谢谢。

浏览 0提问于2018-03-19得票数 2

1回答

在spark数据帧中插入记录

、

我在pyspark有一个数据帧。这是它看起来的样子， +---------+---------+ |timestamp| price | +---------+---------+ |670098928| 50 | |670098930| 53 | |670098934| 55 | +---------+---------+ 我想用之前的状态来填补时间戳中的空白，这样我就可以得到一个完美的集合来计算时间加权平均值。下面是输出应该是什么样子- +---------+---------+ |timestamp| price | +---------+-----

浏览 4提问于2016-08-18得票数 2

1回答

在for循环中使用udf在Pyspark中创建多个列

、、、

? ? 我有一个带有一些列(col1，col2，col3，col4，col5...till 32)的spark数据帧，现在我已经创建了一个函数(udf)，它接受两个输入参数并返回一些浮点值。现在我想创建新的列(按升序排列，如col33、col32、col33、col34..)使用上述函数时，一个参数增加，另一个参数不变 def fun(col1,col2): if true: do someting else: do someting 我已将此函数转换为udf udf_func = udf(fun,Floatype()) 现在我想用这个函

浏览 44提问于2020-09-02得票数 0

1回答

添加新的列和行

、、、

我有PySpark数据帧： cust | prob ------------------- A | 0.1 B | 0.7 C | 0.4 我想添加另一个列amount，并向每个客户添加行。我的预期结果是： cust | prob | amount ------------------------ A | 0.1 | 1000 A | 0.1 | 2000 A | 0.1 | 3000 A | 0.1 | 4000 A | 0.1 | 5000 B | 0.7 | 1000 B

浏览 16提问于2021-02-01得票数 0

回答已采纳

2回答

如何计算字符串在PySpark数据帧列中的出现次数？

假设我有以下PySpark数据帧： +---+------+-------+-----------------+ |age|height| name| friends | +---+------+-------+-----------------+ | 10| 80| Alice| 'Grace, Sarah'| | 15| null| Bob| 'Sarah'| | 12| null| Tom|'Amy, Sarah, Bob'| | 13| null| Rachel|

浏览 13提问于2019-11-06得票数 0

回答已采纳

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

、、、

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。 customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)")) customerDf.show() # it's showing existing old df records without new columns. 如果我们可以将数据帧分配给另一个数据帧，我们就可以看到结果 test = customerDf.withColumn("fullname",expr("

浏览 4提问于2021-01-26得票数 0

1回答

从数据帧列表生成单个DataFrame

、、、、

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * import pyspark.sql from pyspark.sql import SparkSession, Row customSchema = StructType([ StructField("col1", StringType(), True), Str

浏览 12提问于2021-01-28得票数 0

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_1： Table_2：期望的结果：从本质上讲，我知道SQL查询可以做spark.sql(“查询”)等任何事情。我尝试了几种在spark环境下不起作用的方法。谢谢!

浏览 1提问于2020-08-08得票数 2

1回答

Pyspark:如何将值追加到列的开头？

我有一个pyspark数据帧。对于第一列(包含数字)，我需要在每一行的起始值中添加一个9。当前状态 col1 ---- 123 456 未来状态 col1 ---- 9123 9456 我可以拉出列df.select("col1").show()。然而，我不知道我的做法是否正确。我知道pyspark数据帧是不变的。我不应该从一开始就做选择吗？

浏览 13提问于2020-11-05得票数 0

回答已采纳

1回答

从同一DataFrame Pyspark的另一列中添加dataFrame中的列

、

我有一个Pyspark dataframe df，如下所示： +---+----+---+ | id|name| c| +---+----+---+ | 1| a| 5| | 2| b| 4| | 3| c| 2| | 4| d| 3| | 5| e| 1| +---+----+---+ 我想添加一个列match_name，它的值来自name列的where id == c 是否可以使用函数withColumn()来完成此操作目前，我必须创建两个数据帧，然后执行join。这在大数据集上是低效的。预期输出： +---+----+---+--------

浏览 0提问于2017-11-03得票数 0

1回答

PySpark中连字符分隔符上的分割数据帧列

我很难根据连字符分隔符将数据帧列拆分为两行。 from pyspark.mllib.linalg.distributed import IndexedRow rows = sc.parallelize([['14-banana'], ['12-cheese'], ['13-olives'], ['11-almonds']]) rows_df = rows.toDF(["ID"]) rows_df.show() +----------+ | ID| +----------+ | 14-banan

浏览 0提问于2019-05-10得票数 0

回答已采纳

1回答

PySpark使用自定义记录分隔符读取CSV文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

1回答

填补缺失的数据

、、、、

我有两个数据帧 df_1: ID | title | name | age ---------------------------------- 32 | AA | Alex | 30 ---------------------------------- 4568 | BB | Dom | 35 ---------------------------------- 3804 | CC | pascal | 58 ---------------------------------- df_2: I

浏览 18提问于2019-09-26得票数 0

回答已采纳

1回答

用总行和列计数PySpark数据帧中的空值

、、、

我正在尝试使用PySpark编写一个查询来计算大型数据帧中的所有null值。在读取数据集后，我执行以下操作： import pyspark.sql.functions as F df_agg = df.agg(*[F.count(F.when(F.isnull(c), c)).alias(c) for c in df.columns]) df_countnull_agg.coalesce(1).write.option("header", "true").mode("overwrite").csv(path) 这很好用，df_agg数据帧给

浏览 17提问于2020-03-28得票数 0

回答已采纳

3回答

对子字符串匹配(或包含)加入PySpark数据帧

我想在两个数据帧之间执行左连接，但是列并不完全匹配。第一个数据帧中的联接列相对于第二个数据帧有一个额外的后缀。 from pyspark import SparkContext import pyspark.sql.functions as f sc = SparkContext() df1 = sc.parallelize([ ['AB-101-1', 'el1', 1.5], ['ABC-1020-1', 'el2', 1.3], ['AC-1030-1', 'el3'

浏览 1提问于2017-08-08得票数 3

回答已采纳

1回答

在其他列上按条件封顶一个pyspark列？

我有一个Pyspark数据帧 x1 x2 12 4 8 5 13 2 我想用x2 < 5来限制行的x1 = 10，如下所示： if x2 < 5: if x1 > 10: x1 = 10 我怎么能为Pyspark做到这一点呢？非常感谢

浏览 10提问于2019-04-22得票数 0

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

基于其他列比较PySpark数据帧中的某些列？

、

假设我有一个pyspark数据帧(df1)，其中包含一些用户的信息，如下所示： +--------+--------+--------+--------+ |user_id |event_id|code |City | +--------+--------+--------+--------+ | user1| event1 | ABC | LA | | user1| event2 | ABC | NYC | | user2| event3 | DEF | LA | | user2| event4 | GHK | LA

浏览 16提问于2020-08-25得票数 0

回答已采纳

1回答

如何从Pyspark Dataframe中的所有列中删除负值？

、

嘿，伙计们，我正在试着从pyspark数据帧中删除负值。我试过了 from pyspark.sql.functions import udf foo = udf(lambda x: not np.any(np.array(x)<0), BooleanType()) df.filter(foo('features')).show() 但是我收到了一个阶段失败错误

浏览 0提问于2020-11-25得票数 0

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据帧，请指导我

浏览 13提问于2016-09-22得票数 0

1回答

如何将pyspark数据帧拆分成多个记录数相等的数据帧

我有一个pyspark数据帧，我想把它分成多个相等记录的数据帧。我在AWS EMR上执行此任务，不支持pandas或numpy。

浏览 22提问于2019-12-22得票数 0

1回答

Spark 2.0.2 Data Frame -如何添加由现有列的前两个字符组成的新列？

、、

我来自熊猫的背景，在一个简单的操作上，我正在与Spark 2.0.2 (PySpark)作斗争。如何向现有数据框添加新列，该数据框包含现有列的前两个字符。理想情况下，我想要的本质是 df.withColumn("new_column", col('FirstName')[:2]) 这显然是Spark 2.0.2无法理解的。数据源 df = sqlContext.createDataFrame([("Ranjeet", 4, "California", 2), ("Anthony", 5, "Hawaii&

浏览 3提问于2016-11-20得票数 0

2回答

我们是否可以动态检索pyspark dataframe中更新列的前一行的值

、、

所以这是我确切的问题陈述。我已经在下面提到了数据帧。 +--------+-------+ | START | END | +--------+-------+ | 1 | 5 | | 3 | 6 | | 7 | 10 | | 13 | 17 | | 15 | 20 | +--------+-------+ 假设每一行代表在X轴上从START开始到END结束的一条线。当我们根据给定的数据放置它们时，我们不希望这些线相交。所以我们把它们堆叠起来。因此第一行保持不变，即(1，5) 当第二行代码使用first时，

浏览 19提问于2020-02-07得票数 1

1回答

PySpark在日期之前/之后添加列

、

我有一个看起来像这样的PySpark数据帧： Date Sales Type 0 2020-01-01 10 hotdog 1 2020-01-01 5 icecream 2 2020-01-01 9 soda 3 2020-01-02 7 hotdog 4 2020-01-02 5 icecream .. ... ... ... 89 2020-01-30 4 icecream 90 2020-01-30 11 sod

浏览 0提问于2020-06-24得票数 0

2回答

将PySpark DataFrame的`numpy`操作转换为Pandas DataFrame的等效操作

、、、

我正在尝试将numpy lambda函数转换为PySpark数据帧的等效函数。我一直在努力寻找正确的函数/方法。我在一个Pandas数据帧上执行以下操作，为panda_stack生成一个新列label panda_stack['label'] = panda_stack.groupby('id')['prob1'].transform(lambda x: 0.0 if all(np.isnan(x)) else 1.0) 基本上，我有： id prob1 id1 NA id1 0.12 id2 NA 并且想要： id label i

浏览 0提问于2018-06-28得票数 1

1回答

Create column并用作PySpark中join的连接键

、、

我想创建一个列，用作联接内部的联接键，如下所示： df1.join(df2 .withColumn('NewDF2Column', SOME_OPERATION)), df1['key'] = df2['NewDF2Column'], how = 'left')) PySpark永远找不到要用作联接键的NewDF2Column。如果我首先在另一个数据帧中创建它，但不是像这样动态创建它，它就会起作用。有可能吗？谢谢!

浏览 8提问于2021-10-21得票数 0

回答已采纳

2回答

如何在特定位置向PySpark数据框添加多个空列

、

我对此进行了大量的研究，但我无法找到一种方法来执行并将多个列添加到PySpark数据帧中的特定位置。我有一个数据帧，看起来像这样： Customer_id First_Name Last_Name 我想在3个不同的位置添加3个空列，最终得到的数据帧需要如下所示： Customer_id Address First_Name Email_address Last_Name Phone_no 有没有一种简单的方法可以绕过它，就像在python上使用reindex一样？

浏览 6提问于2019-03-28得票数 3

回答已采纳

1回答

将多个列的值存储在新列下的pyspark dataframe中

、、

我从csv文件导入数据，其中包含列Reading1和Reading2，并将其存储到pyspark数据帧中。我的目标是有一个新的列名为Reading，它的值是一个包含Reading1和Reading2值的数组。怎样才能在pyspark中实现同样的效果。 +---+-----------+-----------+ | id| Reading A| Reading B| +---+-----------------------+ |01 | 0.123 | 0.145 | |02 | 0.54

浏览 9提问于2019-09-22得票数 0

回答已采纳

1回答

在pyspark数据帧中查找非重叠窗口

、、、

假设我有一个以秒为单位的id列和时间列(t)的pyspark数据帧。对于每个id，我希望对行进行分组，以便每个组都包含在该组开始时间之后5秒内的所有条目。例如，如果表是： +---+--+ |id |t | +---+--+ |1 |0 | |1 |1 | |1 |3 | |1 |8 | |1 |14| |1 |18| |2 |0 | |2 |20| |2 |21| |2 |50| +---+--+ 那么结果应该是： +---+--+---------+-------------+-------+ |id |t |subgroup |window_start |offset

浏览 20提问于2019-07-19得票数 0

1回答

如何迭代数组(字符串)以进行虚空/空白值检查

、、、

浏览 1提问于2020-03-27得票数 2

回答已采纳

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都包含结构数组的结构等)，所以我认为将所有存储桶合并到一个数据帧中的唯一

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

在pyspark中使用union或append合并两个不同宽度的数据帧

Df1.unix(Df2) 如何将其扩展到处理具有不同列数的pyspark数据帧？

浏览 18提问于2019-02-21得票数 0

1回答

使用自定义列和记录删除器读取pyspark中的文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列，但它只计为一行 from pyspark import SparkContext sc = SparkSession.builder.appName('temp').getOrCreate() df = sc.read.format('csv').option("header", "fals

浏览 11提问于2021-05-26得票数 0

2回答