Pyspark -如何将函数仅应用于DataFrame中的列的子集？

、、、

我想用不同的方法对Spark DataFrame的一些列应用一个函数：fn和fn1。但现在我得到了一个dicts的list，其中包含各个列的信息： cols_info = [{'col_name': 'metric_1', 'process': 'True', 'method':'simple'}, {'col_name&#

浏览 11提问于2020-07-02得票数 1

回答已采纳

1回答

使用PySpark并行化自定义函数

、

我熟悉使用UDF将自定义函数逐行应用于DataFrame。但是，我想知道如何将自定义函数并行应用于我的DataFrame的不同子集。下面是一个简化的例子：import pandas as pd dummy_data = pd.DataFrame({'id':np.random.choice(['a',

浏览 1提问于2018-07-20得票数 2

1回答

如何将DataFrame.withColumn与条件一起使用

、、

我想知道如何在完整的DataFrame上创建一个新列，但其值仅基于DataFrame的一个子集(即，基于条件应用的某些函数)。在本例中，我希望创建一个列，该列将每个ID与Value列中按ID的正值之和相关联。|| 1 | 12 | 17 | +--

浏览 1提问于2019-02-02得票数 0

2回答

将MinMaxScaler应用于PySpark中的多列

、、

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对

浏览 0提问于2020-02-18得票数 17

回答已采纳

1回答

将函数应用于R中的多列

、、、

如何将函数dmy仅应用于包含"Date"的dataframe df的那些列，我有以下问题1 as 31.12.202031.12.2019 78 05.09.20104 bd 20.08.2021 33 31.01.2022 如果我想将函数<e

浏览 4提问于2022-02-21得票数 1

回答已采纳

2回答

dplyr用dataframe的函数进行总结

、、

简而言之，我有一个函数，它以dataframe作为输入，并返回一个(数字)值；我希望能够将这个函数应用到一个dataframe的几个子集中。我觉得应该能够使用group_by()来指定dataframe的子集，然后沿着管道传递到汇总()函数，但我不确定如何将(subsetted)数据格式传递给我想要应用的函数。作为一个简化的例子，假设我使用<em

浏览 2提问于2015-03-28得票数 13

回答已采纳

1回答

如何从PySpark中的向量列中提取浮点数？

、、、、

我的星火DataFrame有以下格式的数据：printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)：from pyspark.sql.types import FloatTypefirstelement=udf(lambda v:float(v[0]),FloatType()) df.

浏览 0提问于2020-02-18得票数 1

回答已采纳

1回答

将熊猫样式应用于数据的任意(非产品)子集

、、

如何将样式应用于熊猫数据的任意子集？具体来说，我有一个包含一些NaNs的dataframe df，我想对它应用一个背景梯度，除了有NaNs的地方(所有单元格都使用相同的颜色映射)。我知道background_gradient (以及更一般的applymap )有一个subset参数，但是从文档中我不知道如何使用它来选择数据数据的任意子集。dataframe

浏览 1提问于2019-09-24得票数 2

回答已采纳

1回答

在PySpark中应用自定义函数时使用外部模块

、、

下面的代码片段试图将一个简单的函数应用于一个PySpark RDD对象：conf = pyspark.SparkConf()def parse_line(line): ret = pyspark.Row(**{h:line[i] for (i, h) in enumerate(header)})(header

浏览 3提问于2016-03-20得票数 1

回答已采纳

1回答

如何将我的single_space函数应用于大量的数据格式列？

、、、、

我正在使用一个函数来将pyspark中的所有空白空间转换为单一的空白空间。我能够单独应用这个函数来使用.withcolumn分隔列。现在，我有大约120个混合类型的列，我只想将这个函数应用于字符串列。为此，我创建了一个仅包含字符串类型列名的列表。如何喂食(应用，地图?)这个数组到我的函数使用using列？ban

浏览 1提问于2020-01-27得票数 0

回答已采纳

2回答

替换星火DataFrame中的列值

、、

请您帮助我替换dataframes spark中的列值： ["2", "xxx", "company 1"],company 44", "company 2"],

浏览 1提问于2022-03-01得票数 0

回答已采纳

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

如何将groupBy和聚合函数应用于PySpark DataFrame中的特定窗口？

、、、

我想将groupBy和后续的agg函数应用于PySpark DataFrame，但仅应用于特定窗口。这可以通过一个例子得到最好的说明。假设我有一个名为df的数据集 df.show() | ID| Timestamp| Condition|0| 48| | z1| 10| 0| 42

浏览 19提问于2021-02-10得票数 2

回答已采纳

1回答

如何将依赖于一列的条件语句应用于另一列？

、、

我正在处理需要格式化的输入数据。在1,000行长的数据部分中，如果cat列大于0，则kitten列应为1。在同一数据的另一个1,000行部分中，如果cat列小于0，则kitten列应为1。否则，kitten列应为0。我看过替换pandas dataframe对象的列和公式的建议，但我在文档或这里的帖子中看不到如何将</

浏览 26提问于2019-05-31得票数 0

回答已采纳

2回答

如何从PySpark* DataFrame的列中分离特定的字符并使用它们形成新的列？*

、、

我对PySpark非常陌生，我真的很难理解如何使用它。在这种情况下，我必须将一个操作应用于PySpark DataFrame，该操作仅由column1组成，如下所示，并返回包含column1、column2和column3的新数据格式。123' 'A''C875'

浏览 4提问于2020-11-05得票数 0

回答已采纳

1回答

将CSV文件中的列四舍五入到固定的小数位数

我想使用awk将CSV文件转换为只包含原始列的子集的新CSV文件。我还需要四舍五入到小数点后6位，其中一列包含浮点数。/out.csv如何将CSV文件中的列舍入到固定的小数位数？

浏览 2提问于2017-01-06得票数 0

1回答

根据匹配模式的列名对数据帧列应用不同的功能

function(dfCol) {} paste0("DEF_", dfCol)如何将第一个函数应用于与__ 密切相关的数据帧列名，第二个函数应用于所有其他列？为了解决这个问题，我想我应该先对所有以__开头的列进行子集，然后对它们应用prefixC

浏览 2提问于2016-10-07得票数 0

回答已采纳

1回答

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个__init__.

浏览 6提问于2020-07-09得票数 1

1回答

在sklearn中应用一个热编码

、、、

如何将一种热编码仅应用于具有数字类别值的列。我想修改相同的数据帧。Dataframe还具有字符串值的其他特性。谢谢

浏览 10提问于2017-01-20得票数 0

1回答

为什么使用axis=1的Pandas函数并不意味着在指定列的子集时删除列

、

如果不添加子集参数，那么axis=1函数应该删除列(如果是axis=0 )和行(行)，如果不添加子集参数，它的工作方式就是这样。但是，当我想通过向一组列标题添加子集方法仅将其应用于某些列时，它会出现错误。我在这个中读到，这是因为Pandas希望在axis=1时接收子集为行，但这对我来说是没有意义的。

浏览 1提问于2022-11-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用PySpark并行化自定义函数

如何将DataFrame.withColumn与条件一起使用

将MinMaxScaler应用于PySpark中的多列

将函数应用于R中的多列

dplyr用dataframe的函数进行总结

如何从PySpark中的向量列中提取浮点数？

将熊猫样式应用于数据的任意(非产品)子集

在PySpark中应用自定义函数时使用外部模块

如何将我的single_space函数应用于大量的数据格式列？

替换星火DataFrame中的列值

PySpark计算相关性

如何将groupBy和聚合函数应用于PySpark DataFrame中的特定窗口？

如何将依赖于一列的条件语句应用于另一列？

如何从PySpark* DataFrame的列中分离特定的字符并使用它们形成新的列？*

将CSV文件中的列四舍五入到固定的小数位数

根据匹配模式的列名对数据帧列应用不同的功能

向类添加功能的最佳方法- PySpark

在sklearn中应用一个热编码

为什么使用axis=1的Pandas函数并不意味着在指定列的子集时删除列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐