sparklyr更改所有列名spark dataframe

sparklyr是一个R语言的包，用于与Apache Spark进行交互和操作。它提供了一组函数和工具，可以在R中使用Spark的强大功能。

要更改Spark DataFrame中的所有列名，可以使用sparklyr中的rename_all()函数。该函数接受一个函数作为参数，该函数将应用于DataFrame的每个列名，并返回新的列名。

下面是一个示例代码，演示如何使用sparklyr更改所有列名：

library(sparklyr)

# 连接到Spark集群
sc <- spark_connect(master = "local")

# 创建一个示例DataFrame
df <- data.frame(col1 = c(1, 2, 3), col2 = c("A", "B", "C"))

# 将DataFrame转换为Spark DataFrame
sdf <- sdf_copy_to(sc, df, name = "my_df")

# 使用rename_all()函数更改所有列名
new_sdf <- sdf %>% rename_all(~paste0("new_", .))

# 查看新的列名
new_sdf %>% sdf_schema()

# 关闭与Spark的连接
spark_disconnect(sc)

在上面的示例中，我们首先使用spark_connect()函数连接到本地的Spark集群。然后，我们创建一个示例的R DataFrame，并使用sdf_copy_to()函数将其转换为Spark DataFrame。接下来，我们使用rename_all()函数将所有列名添加前缀"new_"，并将结果保存到新的Spark DataFrame中。最后，我们使用sdf_schema()函数查看新的列名。

推荐的腾讯云相关产品：腾讯云的云服务器（CVM）和弹性MapReduce（EMR）可以与sparklyr一起使用，提供强大的云计算和大数据处理能力。您可以在腾讯云官网上找到更多关于这些产品的详细信息和介绍。

腾讯云云服务器（CVM）产品介绍链接：https://cloud.tencent.com/product/cvm

腾讯云弹性MapReduce（EMR）产品介绍链接：https://cloud.tencent.com/product/emr

使用sparklyr指定列类

、、、、

我正在尝试使用'spark_read_csv()‘函数的'columns’参数。我正在尝试使用sparklyr从hdfs导入csv文件，我想知道如何指定单个变量类或所有变量类。 require(sparklyr) named_vct_colclasses <- c("character", "integer", "integer") db_in <- spark_read_csv(sc, "spark_tbl_name", "path_to_file",

浏览 4提问于2017-02-23得票数 2

1回答

将SparkR DataFrame序列化为jobj

、、、、

我希望能够在SparkR SparkDataFrame上使用Java方法向Cassandra写入数据。例如，使用sparklyr扩展，我可以这样做： sparklyr::invoke(sparklyr::spark_dataframe(spark_tbl), "write") %>>% sparklyr::invoke("format", "org.apache.spark.sql.cassandra") %>>% sparklyr::invoke("option", "keyspace

浏览 7提问于2017-01-22得票数 0

回答已采纳

1回答

EMA函数在R数据帧上有效，但在spark数据帧上失败- Sparklyr

、、

我对R和Spark都是新手。我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr包在Databricks Spark平台上工作。我已经写了一个在普通R数据帧上工作的函数。然而，当应用于Spark数据帧时，它会失败。我目前对这些值的正确性不感兴趣(我使用的是虚拟值-例如。init = 10是任意的)。我更感兴趣的是让它在Spark数据帧上工作 library(sparklyr) library(dplyr) library(stats) sc <- spark_connect(method = "databricks") set.seed(

浏览 25提问于2019-11-08得票数 1

回答已采纳

1回答

sparklyr::spark_write_jdbc不接受火花数据？

、、、、

我在Databricks中工作，试图使用sparklyr函数spark_write_jdbc向Server表写入数据。服务器名称/驱动程序等是正确的和工作的，因为我在前面的代码中成功地使用了sparklyr::spark_read_jdbc()。根据文档()，spark_write_jdbc应该接受Spark。我使用SparkR::createDataFrame()将我正在使用的dataframe转换为Spark dataframe。以下是相关代码： events_long_test <- SparkR::createDataFrame(events_long, schema =

浏览 2提问于2020-09-11得票数 0

1回答

为什么使用sparklyr将R lubridate::duration数据类型转换为spark中的字符？

、、、、

我正在转换我的原始R代码，使其适用于使用sparklyr包的火花。我使用lubridate包来计算两个日期之间的持续时间。在R中，这将导致duration数据类型，然后可以将其转换为numeric数据类型，如下面的示例所示。 # Load packages library(sparklyr) library(dplyr) library(lubridate) # Create dataframe with start and end date df <- tibble(start = ymd("20210101"), end = ymd(&#

浏览 23提问于2021-02-17得票数 1

1回答

如何在sparklyr中通过名称引用Spark DataFrame并将其赋值给变量？

、、、

假设我运行了下面的代码，我忘记了将Spark dataframe iris赋值给R中的一个变量，并且我不能使用.Last.value来赋值，因为我在将数据复制到Spark之后立即运行了一些其他代码。 library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") copy_to(sc, iris) 2+2 # ran some other code so can't use .Last.value 如何将Spark dataframe "iris“赋给R中名为iris_tbl的变

浏览 18提问于2018-08-16得票数 1

2回答

为什么SparkR中的collect速度如此之慢？

、、

我有一个500K行的spark DataFrame，它位于拼图文件中。我使用的是spark 2.0.0和Spark (RStudio和R 3.3.1)中的SparkR包，它们都运行在具有4核和8 8gb内存的本地机器上。为了便于构建我可以在R中处理的数据集，我使用collect()方法将spark DataFrame引入R中。这样做需要大约3分钟，这比使用data.table包读取相同大小的CSV文件要长得多。诚然，拼图文件是压缩的，解压所需的时间可能是问题的一部分，但我在互联网上找到了关于collect方法特别慢的其他评论，并且几乎没有解释的方式。我在sparklyr中尝试过同样的操作

浏览 9提问于2016-09-19得票数 8

1回答

sdf_bind_rows(a，b) %>% group_by(col1，col2) %>% sumarize(n=n())崩溃Spark和R

、、

注意:问题1发布在上。交叉发布看看我在这里是否有更好的运气。我正在尝试合并(rbind)两个数据集，并从合并后的数据集中删除重复项。这已经生成了一系列错误，我可以在本例中重现其中之一：可重现错误码： #install.packages("dplyr") #install.packages("dbplyr") #install.packages('sparklyr') library(dplyr) library(dbplyr) library(sparklyr) #spark_install(version = "2.1.0"

浏览 5提问于2019-08-06得票数 0

2回答

未能从SPARK_HOME或SPARK_HOME_VERSION检测到版本

我试图在DSX上使用来自的RStudio火花，但是我遇到了以下错误： > library(sparklyr) > sc <- spark_connect(master = "CS-DSX") Error in spark_version_from_home(spark_home, default = spark_version) : Failed to detect version from SPARK_HOME or SPARK_HOME_VERSION. Try passing the spark version explicitly. 我从RStu

浏览 9提问于2017-02-16得票数 0

2回答

DBI/ Spark :如何将结果存储在中？

、、、、

我正在使用sparklyr运行一些分析，但我也对使用DBI编写原始SQL查询感兴趣。我能够运行以下查询 query <- "SELECT col1, FROM mydata WHERE some_condition" dataframe <- dbGetQuery(spark_connection, query) 但是，这会将数据返回给R(在数据格式中)。相反，我想要的是将数据保存在Spark中，并将其存储在另一个Spark中，以便与sparklyr进行进一步的交互。有什么想法吗？

浏览 4提问于2017-06-16得票数 2

回答已采纳

1回答

删除数据后Sparklyr "NoSuchTableException“错误

、、、

我是sparklyr的新手，还没有接受过任何正式的训练--这在这个问题之后会变得很明显。我也更多地站在统计学家的角度，这对我们没有帮助。我得到了一个错误后，细分设置一个火花DataFrame。请考虑以下示例： library(sparklyr) library(dplyr) sc <- spark_connect(master = "local[*]") iris_tbl <- copy_to(sc, iris, name="iris", overwrite=TRUE) #check column names colnames(iris_tbl

浏览 1提问于2017-03-28得票数 1

回答已采纳

1回答

连接SparklyR时出错

、、、

我试图遵循上的简单指南，但它在一开始就抛出了错误。我按照指南中的说明安装了SparklyR和Spark的本地版本： install.packages("sparklyr") library(sparklyr) spark_install(version = "1.6.2") 然后我打开一个连接，下面是错误发生的地方： sc <- spark_connect(master = "local") 我得到"R code execution error“和以下信息： Warning messages: 1: In value[[3L]](c

浏览 11提问于2017-01-11得票数 2

1回答

数据库上的sql sparklyr sparkr数据帧转换

、、、

我使用以下代码在databricks上创建了sql表 %sql CREATE TABLE data USING CSV OPTIONS (header "true", inferSchema "true") LOCATION "url/data.csv" 下面的代码将该表分别转换为sparkr和r dataframe： %r library(SparkR) data_spark <- sql("SELECT * FROM data") data_r_df <- as.data.frame(data_spark

浏览 10提问于2018-07-25得票数 3

1回答

连接到sessionid的端口(8880)时，sparklyr失败

强制错误(代码)：连接到sessionid (2044)的端口(8880)时失败:端口(8880)中的网关没有响应。路径: C:\Users\user1\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\bin\spark-submit2.cmd参数：-- "D:\Users\user1\R\R-3.3.1\library\sparklyr\java\sparklyr-1.6-2.10.jar"，，sparklyr.Backend，--packages，"com.databricks:spark-cs

浏览 0提问于2016-11-03得票数 1

1回答

使用sparklyr返回逻辑计划

、、、

我们正在尝试获取逻辑计划(不要与物理计划混淆)，该计划是由Spark为给定查询生成的。根据Spark ，您应该能够使用scala命令检索它： df.explain(true) 或者在sparklyr中使用示例代码： spark_version <- "2.4.3" sc <- spark_connect(master = "local", version = spark_version) iris_sdf <- copy_to(sc, iris) iris_sdf %>% spark_dataframe %>% inv

浏览 3提问于2019-11-05得票数 1

回答已采纳

1回答

facebook Prophet可以通过spark_apply应用于sparklyr吗

、

我正在尝试测试是否可以运行prophet和sparklyr来对集群中的数据进行预测。但是当我使用spark_apply时，程序就卡住了。在连接到带有spark 2.2.0的纱线客户端的edgenode上运行sparklyr。数据是过去4年按地点划分的销售额。我们的计划是创建一个包含所有数据的数据帧，并按位置对数据进行分区，然后在每个位置调用prophet，并获得未来7天的预测。在这里，我试图拉取一个位置的数据并应用prophet，但sparklyr被卡住了。 library("sparklyr") library("prophet") sc <-

浏览 14提问于2019-05-09得票数 1

1回答

SparklyR安装问题(“惰性加载失败”)

、、、

在Linux服务器上使用相同的代码安装SparklyR时遇到了一些问题，这些代码直到昨天都工作得很顺利。我尝试过使用安装/卸载的DBI、jsonlite和dplyr的各种组合。在此之前，一切似乎都运行得很好： * installing *source* package ‘sparklyr’ ... ** package ‘sparklyr’ successfully unpacked and MD5 sums checked ** R ** inst ** preparing package for lazy loading Note: the specification for S3 cl

浏览 0提问于2017-03-09得票数 1

1回答

使用SparklyR“选择”从火花数组列中提取元素

、、、、

我在SparklyR接口中有一个SparklyR，我正在尝试从数组列中提取元素。 df <- copy_to(sc, data.frame(A=c(1,2),B=c(3,4))) ## BUILD DATAFRAME dfnew <- df %>% mutate(C=Array(A,B)) %>% select(C) ## CREATE ARRAY COL > dfnew ## VIEW DATAFRAME # Sou

浏览 3提问于2021-09-10得票数 0

回答已采纳

1回答

RLang中的Sparklyr ft_tokenizer错误

、

当我尝试在sparklyr中使用ft_tokenizer时，我一直收到一个错误。当我执行下面的脚本时，我总是得到Error in rlang::env_get(mapping, nm, default = NULL, inherit = TRUE) : unused argument (default = NULL) 我已经尝试下载R studio的最新版本，并尝试使用Microsoft R open和R 3.5.2 sc <- spark_connect(master = "local") dataframe <- data.frame("Re

浏览 18提问于2019-01-20得票数 1

回答已采纳

1回答

Sparklyr未连接到数据库

、、、、

我正在尝试使用sparklyr或SparkR连接到数据库。现在我正在尝试使用sparklyr。这就是我安装sparklyr的方法 install.packages("sparklyr") sparklyr::spark_install() #installing spark sprk <- spark_connect(master = "local") # this code works perfectly and it connects to the spark, and i can work further sc <- spar

浏览 0提问于2018-11-27得票数 1

1回答

无法从RStudio连接到sparklyr

、、、、

我正在尝试从RStudio连接到spark。目前我们使用的是Cloudera Hadoop发行版，其中运行的是Spark (2.2)。我测试了从边缘节点开始的所有东西，我能够创建Spark上下文并执行我的查询。从RStudio到昨天一切都很好，突然我们遇到了RStudio的问题。 library(dplyr) library(sparklyr) config <- spark_config() config$spark.driver.memory <- "8G" config$spark.executor.memory <- &#

浏览 2提问于2018-11-13得票数 2

1回答

无法通过sparklyr连接到Spark

、、

我正在尝试使用R中的sparklyr包连接到spark，我得到了以下错误： library(sparklyr) > library(dplyr) > config <- spark_config() > config[["sparklyr.shell.conf"]] <- "spark.driver.extraJavaOptions=-XX:MaxHeapSize=4g" > sc <- spark_connect(master = "local",version = "1.6.2&

浏览 13提问于2017-01-25得票数 0

2回答

唯一值的个数(闪烁)

、、、、

下面的示例描述了如何在不使用dplyr和sparklyr聚合行的情况下计算不同值的数量。有没有一项不破坏命令链的工作？更普遍的情况是，如何在sparklyr数据帧上使用类似sql的窗口函数。 ## generating a data set set.seed(.328) df <- data.frame( ids = floor(runif(10, 1, 10)), cats = sample(letters[1:3], 10, replace = TRUE), vals = rnorm(10) ) ## copying to Spark df.spark &

浏览 1提问于2018-03-28得票数 3

回答已采纳

5回答

星星之火: java.io.IOException:设备上没有空间[再次！]

、、、

在sparklyr中运行一个简单的查询之后，我将获得发生的sparklyr。我使用Spark (2.1.1)和Sparklyr的最后两个版本 df_new <-spark_read_parquet(sc, "/mypath/parquet_*", name = "df_new", memory = FALSE) myquery <- df_new %>% group_by(text) %>% summarize(mycount = n()) %>% arrange(desc(mycount)) %>% head(10)

浏览 3提问于2017-07-03得票数 8

1回答

如何使用Sparklyr包来处理不同数据类型的数据？

、、、、

浏览 1提问于2018-09-06得票数 14

回答已采纳

1回答

Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

、、、、

我正在运行R Studio和R 3.5.2。我已经使用来自S3a的sparklyr::spark_read_parquet加载了大约250个parquet文件。我需要从Spark (由sparklyr安装)收集数据： spark_install(version = "2.3.2", hadoop_version = "2.7") 但由于某些原因，这项工作需要很长时间才能完成。有时将任务分配给所有CPU，有时只有一个CPU工作： ? 请建议您如何解决dplyr::collect或sparklyr::sdf_collect的“运行年龄”问题。也请理解，我

浏览 39提问于2019-01-28得票数 1

回答已采纳

2回答

试图使用Sparklyr将R连接到火花

、、

我试着用Sparklyr把R和火花连接起来。我遵循了rstudio博客的教程我试着安装sparklyr install.packages("sparklyr")运行良好，但在另一篇文章中，我发现sparklyr_0.4版本中有一个bug。因此，我按照下面的说明下载开发版本，使用 devtools::install_github("rstudio/sparklyr")也很好，现在我的sparklyr版本是sparklyr_0.4.16。我按照rstudio教程下载并安装spark spark_install(version = "1.

浏览 9提问于2016-10-17得票数 5

回答已采纳

1回答

无法通过sparklyr连接到独立spark集群。如何调试？

、

我可以确认使用spark-shell连接到群集，例如 spark-shell --master spark://myurl:7077 作品但 library(sparklyr) sc <- spark_connect( master="spark://myurl:7077", spark_home = "d:/spark/spark-2.4.4-bin-hadoop2.7/" ) 不会并给出错误 Error in force(code) : Failed while connecting to sparklyr to port (8

浏览 13提问于2019-10-09得票数 0

1回答

java.lang.OutOfMemoryError中的Sparklyr配置结果

、

我在一个8核64 am内存的本地实例上运行带R的sparklyr。我的工作是使用[50 000 000, 12]数据帧对[20 000 000, 3]数据帧进行left_join，我和Spark一起运行。 # Load packages library(tidyverse) library(sparklyr) # Initialize configuration with defaults config <- spark_config() # Memory # Set memory allocation for whole local Spark instance # Sys.s

浏览 19提问于2021-09-06得票数 2

1回答

使用SparklyR按索引对星火数据帧进行排序

、、、、

library(sparklyr) library(dplyr) library(Lahman) spark_install(version = "2.0.0") sc <- spark_connect(master = "local") batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl batting_tbl %>% arrange(-index()) # Error: org.apache.spark.sql.AnalysisExce

浏览 6提问于2016-12-12得票数 0

回答已采纳

1回答

在sparklyr中使用spark_read_csv时出现“对象的方法csv无效”错误

、、、、

我正在尝试从hdfs读取R中的数据。我在使用sparklyr时遇到的一件事就是破译错误消息，...because我不是java程序员。考虑这个例子：在R中执行此操作创建鲍鱼数据帧-鲍鱼是用于机器学习示例的数据集 load pivotal R package #contains abalone data and create dataframe if (!require(PivotalR)){ install.packages(PivotalR) } data(abalone) #sample of data head(abalone) #export data to a CS

浏览 1提问于2017-05-31得票数 0

2回答

Sparklyr中的缺失值

、、、

我试图在斯帕克里尔的DataFrame中计算某个特定库仑的缺失值，如下所示 count(filter(subdata, isNull(subdata$metric))) Source: query [1 x 1] Database: spark connection master=local[4] app=sparklyr local=TRUE n <dbl> 1 216360`` 但是返回的结果是dataframe中的行总数。我是不是漏掉了什么。请指出。

浏览 11提问于2016-12-30得票数 1

回答已采纳

1回答

Sparklyr -在spark-submit中更改日志级别

、、

我试图实现的是在${SPARK_HOME}/bin/spark-submit执行期间将记录到控制台的所有信息静默。我已经通过更改${SPARK_HOME}/conf/log4j.properties中的适当行更改了spark本身的日志级别，但当我提交R-sparklyr脚本和sparklyr.jar以作为一种独立作业执行时，我仍然会获得以下信息： # 用户@主机${SPARK_HOME}/bin/spark-submit --class sparklyr.Shell 'sparklyr.jar‘脚本。R 21/07/01 16:12:25信息sparklyr:会话(999991)在

浏览 27提问于2021-07-02得票数 0

1回答

is.na与火花分位数

、、

我正在使用sparklyr，它似乎运行得很好。但是，我以前的一些代码将不会实现。何时使用 complete.cases 我得到了错误: org.apache.spark.sql.AnalysisException:未定义函数COMPLETE.CASES 对于quantile函数，我得到了相同的结果更重要的是，在Spark中，is.na的计算方法并不相同。所以当我这么做 filter(!is.na(V1) & is.na(V2)) 我得到一个空的dataframe，而不是它返回所有在V1中填充和在V2中为空的字段。有什么建议可以为sparklyr使用/修改这些函数，或者如

浏览 5提问于2016-11-03得票数 0

1回答

带有apache箭头的Sparklyr R失败，意外终止:对象'as_tibble‘未找到

、、

我试图在中使用sparklyr来提高性能，例如，但是遇到了错误。下面是一个(希望)可重复的例子： # Prepare session and data library(sparklyr) library(dplyr) config <- sparklyr::spark_config() sc <- sparklyr::spark_connect(master = "local", config = config) mtcars_sp <- dplyr::copy_to(sc, datasets::mtcars, overwrite = TRUE) 在没有箭头

浏览 0提问于2019-08-07得票数 1

回答已采纳

1回答

sparklyr : spark_apply函数不能在集群模式下工作

、、、、

我组合了两个具有不同no.of行的数据格式。利用cbind.na函数通过qpcR库将两个数据组合在一起。结果表明，在我的本地机器上正确地使用spark_apply函数是可行的。但是，在集群模式中，它显示的错误如下所示。注意:单个dataframe在集群和本地都显示了结果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 111.0 failed 4 times, most recent failure: Lost task 0.3 in stag

浏览 4提问于2017-10-20得票数 1

回答已采纳

2回答

从Windows启动Spark-Shell (Scala)并设置工作目录路径

、、、

我已经使用RStudio的sparklyr包安装了Spark，并通过以下方式返回路径： # library(sparklyr) # spark_home_dir() 现在我想从Windows command shell启动spark-shell，这很好用。 start C:\\Users\\eyeOfTheStorm\\AppData\\Local\\rstudio\\spark\\Cache\\spark-2.0.0-bin-hadoop2.7\\bin\\spark-shell 但是，当我尝试将工作目录设置到我的桌面上，以便可以从那里读取文件时，使用:load指向工作目录时，它不能正确指向

浏览 1提问于2016-12-12得票数 0

1回答

如何将sparlyr连接到spark独立集群

、、

这是我尝试连接到我的集群的方式 Sys.setenv(SPARK_HOME="/usr/local/Cellar/apache-spark/2.3.1/") config <- spark_config() sc <- spark_connect(master = "spark://192.168.0.100:7077", config = config, version = '2.3.1') 结果如下： Error in force(code) : Failed while connecting to sparklyr to

浏览 27提问于2018-07-29得票数 2

1回答

sparklyr pivot数据帧

、、、

目前sparklyr (0.5.1)还没有针对Spark的pivot实现。所以，我想知道如何使用invoke函数来实现这一点。到目前为止，我已经到了这里。 iris_tbl <- copy_to(sc, iris) spark_dataframe(iris_tbl) %>% invoke("groupBy", "Species", list()) %>% invoke("pivot", "Sepal.Width", list()) %>% invoke( ... ) # <-

浏览 2提问于2017-01-25得票数 2

1回答

如何在azure hdinsight ML服务中导入/读取R服务器中的csv文件

、、、、

概述： Azure HDInsight 集群类型: ML服务(R服务器) 版本:R Server 9.1 (HDI 3.6) 我正在尝试将csv文件从Azure数据存储blob导入R服务器环境。但这显然不像我想象的那么容易，也不像本地那么容易。我尝试的第一件事是安装sparklyr包并设置连接。 #install.packages("devtools") #devtools::install_github("rstudio/sparklyr") install.packages("sparklyr") library(sparklyr) sc

浏览 1提问于2019-08-14得票数 0

1回答

sparklyr上的类型错误:列预测的类型必须是org.apache.spark.mllib.linalg.VectorUDT@f71b0bce，但实际上是DoubleType

、、、

我试着在这个网站上学习这个教程：我不知道为什么，因为我只是粘贴了网站上的代码。我也不知道如何将列转换为正确的类型。有人有解决方案吗？:) 我的数据在分区中，形状如下： > partition $train # Source: table<sparklyr_tmp_100e145972790> [?? x 9] # Database: spark_connection Survived Pclass Sex Age SibSp Parch Fare Embarked Family_Sizes <dbl> <chr>

浏览 1提问于2018-04-25得票数 2

2回答

使用sparklyr软件包访问蜂箱？

、、、

library(sparklyr) library(dplyr) home <- "/usr/hdp/current/spark-client" sc <- spark_connect(master = "yarn-client", spark_home = home, version = "1.6.2") readFromSpark <- spark_read_csv(sc, name="test", path ="hdfs://hostname/user/test.csv",header=TR

浏览 2提问于2017-04-07得票数 1

回答已采纳

1回答

使用sparklyr时无法在本地中加载.csv数据

、、

背景：我对整个星火平台和概念完全陌生，我正在努力学习如何通过R和sparklyr来操作它。我开始学习一门关于这个主题的在线课程，我试图用它来进行我自己的数据分析，作为学习它的一种方式。 Problem：我正在尝试加载一个6.3GbCSV数据集(~30百万行，~20 cols)，但是我得到了以下错误(据我所知，相同的块一直在重复，我在这里给出了前3条，否则我将达到帖子的字符限制)。代码运行，但17分钟后退出，出现以下错误(未加载数据)： Error: java.lang.IllegalStateException: Cannot call methods on a stopped SparkCo

浏览 0提问于2019-01-29得票数 1

回答已采纳

1回答

Sparklyr copy_to失败

、、、

我使用Sparklyr库从R到HDFS读取和写入数据。读取数据的工作原理是预期的，但是写入会带来问题。为了能够使用spark_write_csv函数，我需要将我的R data.frames转换成Spark对象。为此，我使用了sparklyr sdf_copy_to函数(也尝试过使用copy_to)。然而，我总是会犯错误代码： table1 <- sdf_copy_to(sc,dataframe,OVERWRITE=TRUE) spark_write_csv(table1, "path") 错误：错误: org.apache.hadoop.mapred.Invali

浏览 2提问于2017-03-01得票数 3

1回答

使用sparklyr软件包试图连接到Rstudio中的星火时出错

、

我使用下面的命令连接到来自rstudio的星星之火： sc <- spark_connect(master = "local"，version = "2.0.0") 我尝试过更改java版本/路径，但仍然遇到了同样的问题。有人能帮忙吗？生效错误(代码)：当连接到sparklyr到端口(8880)时失败，用于会话did (5308)：端口中的网关(8880)没有响应。 Path: C:\Users\....\Local\rstudio\spark\Cache\spark-2.0.0-bin-hadoop2.7\bin\spark-submit2.c

浏览 2提问于2017-07-10得票数 0

1回答

如何在本地模式下使用spark_read_jdbc

在使用spark_read_jdbc从MS数据库读取时，我试图在本地进行开发。这需要连接到数据库。我有下面的spark_connect。 library(sparklyr) # spark_install() conf <- spark_config() conf$`sparklyr.cores.local` <- 4 conf$`sparklyr.shell.driver-memory` <- "16G" conf$spark.memory.fraction <- 0.9 sc <- spark_connect(master = "l

浏览 1提问于2019-04-15得票数 1

1回答

如何循环遍历sparklyr的dplyr实现返回的列表中的不同列结果？

、、、

给定spark studio here提供的sparklyr示例 library(sparklyr) packageVersion("sparklyr") #‘0.8.4’ sc <- spark_connect(master = "local") #* Using Spark: 2.3.0 install.packages(c("nycflights13", "Lahman")) library(dplyr) flights_tbl <- copy_to(sc, nycflights13::flights,

浏览 11提问于2019-04-27得票数 0

2回答

R未检测到使用sparklyr软件包时安装的最新Java版本(1.8

、

R未检测到为使用sparklyr软件包而安装的最新Java版本(1.8)。 config <- spark_config() config$sparklyr.gateway.port = 10000 config$sparklyr.gateway.connect.timeout = 1 config$sparklyr.gateway.start.wait = 1000 library(sparklyr) library(dplyr) library(DBI) sc <- spark_connect(master="yarn-client", method =

浏览 0提问于2017-04-02得票数 2

2回答

安装带有initialize_connect错误的sparklyr

、

我试图遵循关于SparklyR的简单指南，但它从一开始就给我带来了错误。我安装了SparklyR和Spark的本地版本，如指南中所写： library("sparklyr") spark_install(version="1.6.2") 然后打开一个连接，这里是错误发生的地方： sc <- spark_connect(master="local") 我得到"R代码执行错误“，如下所示：使用Spark: 2.2.0错误(代码)：在initialize_connection: java.lang.ExceptionInInitiali

浏览 4提问于2017-09-15得票数 0

回答已采纳

1回答

使用Scala install在R中运行SparklyR代码

、、、、

希望使用sparklyr Spark install中包含的自定义scalac (Scala编译器)；可以在RStudio SparkUI选项卡(或从spark_web(sc))中找到>>环境>> /jars/scala-compiler-2.11.8.jar作为“系统环境”--而不是像中建议的那样，在基本目录中单独下载和安装scalac，并且链接到创建扩展的页面。这是我目前使用的Ubuntu，但在下面的错误中停滞不前。我设置了一个与上面"hello world“示例中使用的Github-repo完全相同的目录。知道如何在不安装到建议的基本路径文件夹--即/o

浏览 2提问于2016-12-12得票数 2