如何在python中计算大型spark数据帧的kendall's tau？

、、、、

我想为一个大的spark数据帧计算成对的kendall的tau等级相关性。它很大(比如10m行，10k列)，不能转换成pandas数据帧，然后使用pandas.DataFrame.corr进行计算。此外，每列可能具有空值，因此在计算成对的kendall's tau时，需要排除两列<e

浏览 18提问于2019-07-20得票数 2

1回答

NaN值与Pandas Spearman和Kendall的相关性

、、、、

我正在尝试为存储在Pandas数据帧中的大型数据矩阵计算Kendall的tau。使用corr函数，使用method='kendall'，我接收到只有一个值的行的NaN (重复数组的长度)。Spearman的相关性也出现了同样的问题，大概是因为Python不知道如何对具有单个

浏览 41提问于2020-07-29得票数 1

2回答

Spearman相关R

我用R来计算两个区间数据集(即波高和北大西洋涛动指数)之间的Spearman关联。那么，我应该使用肯德尔关联而不是斯皮尔曼吗或者在R中有一种可以处理关系<em

浏览 1提问于2019-02-22得票数 0

回答已采纳

9回答

R中的关联度量-- Kendall的tau-b和tau-c

、、

是否有用于计算Kendall的tau-b和tau-c及其相关标准误差的R包？我在谷歌和Rseek上搜索都没有找到任何结果，但肯定有人在R中实现了这些。

浏览 7提问于2010-04-01得票数 20

回答已采纳

2回答

R: cor.test按组划分

、

我试图计算数据帧中的两个数值列之间的相关性。我想要计算每个级别area_type的浓度和面积之间的相关性。") ) )6 A two.sided 7

浏览 2提问于2014-07-25得票数 2

回答已采纳

2回答

R将多个MannKendall结果写入数据帧或csv

我是一个R初学者，我正在努力寻找一种可能非常简单的解决方案。感谢你的帮助。library(Kendall) w1<-c(4.3,5.7,2

浏览 9提问于2018-01-23得票数 0

2回答

R:如何使用并行计算来计算光栅的趋势

、、、、

最近我在R 的一个图书馆里偶然发现。我想计算R中的光栅堆栈的Kendallτ统计量，但是，这需要很长时间，因为这个库只使用计算机上的一个核心(我计划使用的光栅在250米分辨率的全球范围内)。"external/rlogo.grd", package="raster")) # Calculate trend slope with p-value and confide

浏览 1提问于2019-05-07得票数 1

回答已采纳

7回答

Spearman相关性和平局

、

我正在计算Spearman的rho在小的配对排名上。斯皮尔曼以不能正确处理领带而闻名。例如，取2组8个排名，即使其中6个是两组中的一个，相关性仍然非常高： sa

浏览 3提问于2012-05-23得票数 31

回答已采纳

1回答

TensorFlow数据集如何处理无法装入服务器内存的大型数据？

问题Spark可以处理具有多个节点的大型数据。对于中的问题，答案是使用Tensorflow变换，它使用Apache，它需要分布式计算集群(如Spark )。如果我们有较大的数据集，比如一个50 do的CSV文件，那么如何计算平

浏览 3提问于2020-08-09得票数 1

1回答

在不同站点的数据集中运行Mann Kendall

4/05/2020 9.3 NO3 mg/Lexcel文件中有1000行以上的数据我目前使用的程序收集数据到一个数据库。在这个程序中，他们包括了R-控制台.我需要做的是获取所有的数据，在每个站点上运行测试(不是整个数据库)并给我结果。第7行、第8行和第9

浏览 3提问于2020-07-31得票数 0

回答已采纳

1回答

Sparklyr on Databricks -在具有多个NaN值的sparklyr数据帧上按行取多列的平均值

、、、、

我正在尝试为sparklyr数据帧创建最小、最大和平均列。我只想在计算中按行使用该大型数据帧中的5列。列中有许多NaN值，这些值可能是计算对象。在标准R中，使用的代码是： df_train$MinEncoding <- spark_apply(df_train,f=min ,columns=[,EncodingFeatures], 1, FUN=min,na

浏览 13提问于2019-10-15得票数 1

2回答

评估两个列表之间顺序差异的算法

、、

序列A-将是以最佳顺序排列的整数Ids列表我想要检测这两个列表在顺序上的差异。正因为如此，我正在寻找一种算法来实现这一点。我想知道这是不是以前已经解决过的常见问题。

浏览 2提问于2013-03-28得票数 3

7回答

如何将Parquet文件读入Pandas DataFrame？

、、、、

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上，要么在S3中。我

浏览 22提问于2015-11-19得票数 146

回答已采纳

1回答

Spark与Hive的区别

、、

你能帮我理解星火SQl和蜂巢的区别吗？

浏览 2提问于2017-06-04得票数 1

1回答

如何在python中更快地处理来自redshift的数据？

、、、、

我是python新手..我的数据是红移格式的，我想用python更快地处理数据。我使用python是因为我想运行各种算法，并对这些数据进行各种计算，而这在redshift中是不可能的。我看过教程，但每次在python中加载都需要花费太多的时间。下面是我的代码： con=psycopg2.connect(dbnam

浏览 27提问于2017-12-29得票数 2

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码：length = 200000 data = spark.

浏览 1提问于2020-01-14得票数 1

2回答

什么是Apache Spark (SQL)中的Catalyst Optimizer？

、

我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息，在pyspark数据帧中使用Catalyst Optimizer是可能的。

浏览 23提问于2019-05-18得票数 1

3回答

将大型Spark Dataframe保存为S3中的单个json文件

、、、

我试图在亚马逊S3中将一个Spark DataFrame (超过20G)保存到一个json文件中，我保存数据帧的代码如下所示：但是我从S3得到了一个错误“你建议的上传超过了最大允许的大小”，我知道亚马逊

浏览 0提问于2015-04-28得票数 19

回答已采纳

1回答

如何将spark数据帧用作SQL语句中的表

、、

我有一个用python写的spark数据帧。如何在sparksql语句中使用它？例如： df = spark.createDataFrame(data = array_of_table_and_time_tuples# something needs to be added here to make the dataframe readable b

浏览 15提问于2021-04-02得票数 0

2回答