如何使用数据库让dplyr::summarize_all在sparkdataframe上工作？

要让dplyr::summarize_all在Spark DataFrame上工作，可以使用Sparklyr包提供的功能来实现。Sparklyr是一个R语言的Spark接口，它允许在R中使用Spark的功能。

以下是使用数据库让dplyr::summarize_all在Spark DataFrame上工作的步骤：

install.packages("sparklyr")

library(sparklyr)
sc <- spark_connect(master = "local")

spark_dataframe <- copy_to(sc, your_spark_dataframe, "table_name")

其中，your_spark_dataframe是你的Spark DataFrame对象，table_name是你为Spark SQL表指定的名称。

dplyr_table <- tbl(sc, "table_name")

其中，table_name是你在第3步中指定的Spark SQL表的名称。

result <- dplyr_table %>% summarize_all(.funs = list(mean, sum))

在上述示例中，使用了mean和sum函数对所有列进行聚合操作。你可以根据需要选择其他聚合函数。

result <- collect(result)

这样，你就可以在R中获得dplyr::summarize_all函数在Spark DataFrame上的聚合结果。

需要注意的是，上述步骤中的your_spark_dataframe和table_name需要根据实际情况进行替换。另外，为了使dplyr::summarize_all函数在Spark DataFrame上工作，你需要了解dplyr和Sparklyr的语法和功能。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云