pyspark等同于将常量数组作为列添加到数据帧中

、

下面的代码可以在scala-spark中运行 scala> val ar = Array("oracle","java")+------+---+----------+----------+--------------+ scala> 如何在pyspark中获得相同的行为？我在下面尝试了一下，但它不起作用，并抛出Java错误 >

浏览 21提问于2019-12-30得票数 1

回答已采纳

1回答

将numpy中的不同数组添加到数据帧的每一行

、、、

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name || 1

浏览 16提问于2019-10-05得票数 0

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列<

浏览 1提问于2018-12-17得票数 0

1回答

我们导入一个具有地理列的数据集。这个geo-column表示一条线。当我将数据导入到数据帧中时，geo-column中的数据如下所示： LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128368596.075214043,155466.4756062801 368586.00792423

浏览 44提问于2021-08-09得票数 0

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

2回答

如何将pyspark* dataframe列转换为numpy数组*

、、、

我正在尝试将一个大约有9000万行的pyspark dataframe列转换成一个numpy数组。我需要数组作为scipy.optimize.minimize函数的输入。我是PySpark的新手，如果有更快更好的方法，请帮助我。谢谢这就是我的数据帧的样子。

浏览 138提问于2019-09-30得票数 3

回答已采纳

1回答

PySpark在数据框列中插入常量SparseVector

、、、、

我希望在我的数据帧tfIdfFr中插入一个名为"ref"的列，其中包含一个类型为pyspark.ml.linalg.SparseVector的常量。ref).select("ref", "features").show() 我得到这个错误AssertionError: col should be Column 当我尝试这样做的时候： from pyspark.sql.functionsfeatures"

浏览 9提问于2019-01-15得票数 1

回答已采纳

3回答

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

、、

我使用toPandas()将pyspark数据帧转换为pandas数据帧。但是，因为某些数据类型不对齐，所以pandas会将数据帧中的某些列强制转换为object。(作为参考，我尝试做的是，如果数据帧中的列实际上具有字符串值，则执行一个str.split()。) 有什么想法吗？注意:我很想知道Pandas方面的答案，而不必事先显

浏览 1提问于2020-06-23得票数 1

1回答

如何用sacala代码详细说明pyspark代码？

、、

我想把这段Scala代码转换成Pyspark代码。columnArray(1)=x.substring(11,14) Row.fromSeq(columnArray)在pyspark

浏览 0提问于2018-05-15得票数 0

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----++-----+| b|+-----+Dataframe B:共3条记录 +-----++-----+|06901|+-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Dataframe B中随机选择的值填充这些值。

浏览 12提问于2021-02-10得票数 2

回答已采纳

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false)

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

将array<string>转换为string pyspark* dataframe*

、、、、

浏览 2提问于2017-09-11得票数 5

回答已采纳

3回答

如何从列中选取值并将它们添加到数学函数(Pandas)

、

我正在尝试从我拥有的数据框列中选取所有值，并将它们应用于一个数学函数。以下是数据的外观：我正在尝试应用这个函数：我的目标是对所有行执行此操作，并将每个结果的值附加到dF中的PM

浏览 9提问于2019-12-04得票数 0

回答已采纳

1回答

根据来自其他列的值将小时数添加到数据帧中的时间戳列

、、、

如何用pyspark编写以下sql select FORMAT(DATEADD(HOUR, addHours, Coltimestamp), 'yyyy-MM-dd HH:mm') AS TransDate; 我有这两个专栏 from pyspark.sql.types import StringType [ ("2020-06-17T15:04:34"

浏览 7提问于2020-09-08得票数 0

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是<e

浏览 24提问于2021-09-08得票数 0

1回答

如何将多个dataframe列转换为一个numpy数组列

、、

我有一个数据帧，如下所示 from pyspark import SparkContext, SparkConf,SQLContext config = SparkConfwithColumnRenamed("_2","word1").withColumnRenamed("_3","word2").withColumnRenamed("_4","word3") 现在我需要将第一<em

浏览 18提问于2019-10-02得票数 0

回答已采纳

0回答

如何有效地将Spark dataframe列转换为Numpy数组？

、、

我有一个大约有一百万行的Spark数据帧。我正在使用pyspark，并且必须在数据帧的每一列上应用来自scipy库的box-cox变换。但是box-cox函数只允许一维numpy数组作为输入。numpy数组是分布在spark上还是将所有元素收集到运行驱动程序的单个节点上？

浏览 6提问于2016-07-10得票数 1

1回答

转换值并计算stddev

、、

我有一个数据框架，比如：|A | B|| 1| 2|| 300| 4| 我想将其转换为每个A的1和每个B的0的列表，从它们创建一个列表，计算它们的标准差，并将其作为列C添加到数据帧中。在pyspark中这是可能的吗？

浏览 12提问于2018-03-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将numpy中的不同数组添加到数据帧的每一行

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

计算databricks中线串(geo)的长度

windowPartitionBy和pyspark中的重新分区

PySpark列向绑定

Databricks:如何将行的值转换为数组类型

如何将pyspark* dataframe列转换为numpy数组*

PySpark在数据框列中插入常量SparseVector

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

如何用sacala代码详细说明pyspark代码？

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

pyspark将数组类型的列拆分成多列

将array<string>转换为string pyspark* dataframe*

如何从列中选取值并将它们添加到数学函数(Pandas)

根据来自其他列的值将小时数添加到数据帧中的时间戳列

动态汇总和重命名PySpark中的聚合列

如何将多个dataframe列转换为一个numpy数组列

如何有效地将Spark dataframe列转换为Numpy数组？

转换值并计算stddev

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐