java.lang.OutOfMemoryError中的Sparklyr配置结果

、

我在一个8核64 am内存的本地实例上运行带R的sparklyr。::spark_write_parquet(df3, path="/mnt/") # or df3 <- df3 %>% collect() 无论我如何配置Spark配置文件，代码都会因为java.lang.OutOfMemoryError: Java heap space 到目前为止，我已经尝试了不同的组合 Sys.setenv("SPARK

浏览 19提问于2021-09-06得票数 2

2回答

在sparklyr中禁用配置单元支持

、

有没有办法在sparklyr中禁用hive支持？sparkR.session(master="local[*]", enableHiveSupport=FALSE)

浏览 9提问于2017-01-10得票数 5

回答已采纳

1回答

Sparklyr未连接到数据库

、、、、

我正在尝试使用sparklyr或SparkR连接到数据库。install.packages("sparklyr")

浏览 0提问于2018-11-27得票数 1

1回答

在SparkR和sparklyr之间导入拼图文件所用时间的差异

、、、、

我正在使用SparkR和sparklyr在databricks中导入拼图文件。 data1 = SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE) data1 = sparklyr::spark_read_parquet/data202007*") 导入的时间差很大：SparkR为6秒，sparklyr为1

浏览 25提问于2020-09-25得票数 2

回答已采纳

1回答

使用SparkR的Sparklyr :解析函数参数的困难

、、

我正在运行Sparklyr和SparkR。当我试图使用由schema()创建的数据表调用spark_read_csv()函数时，会收到以下错误(以及select()和lapply()函数上的类似错误)：平台:x86_64-W64-mingw32 32其他随附包裹:1 sparkly

浏览 1提问于2019-04-14得票数 0

1回答

与Kerberos的连接

、、、

但是，如果启用了Kerberos安全性，则连接将失败：sc <- spark_connect("http://host:8998", method = "livy"Try spark_connect with config = livy_config()我做错了什么？这种连接需要哪些额外的设置？., user

浏览 1提问于2017-06-23得票数 5

1回答

Spark和SparklyR错误“超过64 KB”

、

在使用SparklyR和Spark 2.0.2调用逻辑回归后，我在Spark上得到以下错误。ml_logistic_regression(Data, ml_formula) 我读入Spark的数据集相对较大(2.2 is )。

浏览 0提问于2017-04-05得票数 2

2回答

读取csv函数时出错

、

在google计算集群中，我正在尝试使用sparklyr包将csv文件读取到strudio中。配置如下：install.packages("sparklyr") spark_installsc <- spark_connect(master = "yarn-client", config=config ,ver

浏览 1提问于2017-04-05得票数 0

1回答

Sparklyr错误: org.apache.spark.SparkException:由于阶段失败而中止的作业

、、

我试图使用Sparklyr和一个庞大的飞行数据集运行线性回归(所有NA已经从数据中删除)，但是我得到了以下内存错误：l

浏览 0提问于2019-08-19得票数 2

1回答

如何从Sparklyr连接Google Dataproc集群？

、、

我是Spark和GCP的新手。我试着和它联系起来但它显然不能工作(例如，没有身份验证)。我该怎么做呢？

浏览 3提问于2016-09-29得票数 5

2回答

R DBI Sparklyr* DBWritetable正在运行，但没有结果*

、、、、

从MS-SQL环境进入同样具有spark访问权限的配置单元环境。我已经使用spark和R包sparklyr进行了连接，并且可以使用带有spark连接的R包DBI连接到我们的配置单元集群，并将数据提取到R数据帧中：dbWriteTable(conn = sc, name = "sampled

浏览 1提问于2017-09-01得票数 1

0回答

sparklyr中的堆空间不足，但有足够的内存

、、、

即使是在相当小的数据集上，我也会得到堆空间错误。我可以确定我没有耗尽系统内存。例如，考虑一个包含大约20M行和9列的数据集，这将占用1 1GB的磁盘空间。我在一个内存为30 of的Google Compute节点上使用它。uniques <- search_raw_lt %>% summarise() %>%

浏览 7提问于2016-12-30得票数 5

回答已采纳

1回答

将大型数据集缓存到火花内存(通过sparklyr* & RStudio)的"GC开销极限超过“*

、、、

我对我尝试使用的大数据技术非常陌生，但到目前为止，我已经成功地在RStudio中设置了sparklyr，以连接到一个独立的Spark集群。我认为，通过将缓存的数据限制在几个感兴趣的列上，我可以克服这个问题(使用我上一次查询中的答案代码)，但它没有。在我的配置文件中，我尝试了一次只添加以下每个设置(这些设置都不起作用)：spark.executo

浏览 0提问于2017-03-06得票数 7

回答已采纳

1回答

在linux机器上读取一个拼花文件

、、

我试着读python中的拼图文件。我用地板和json进口的。我使用了下面的代码，因为我不想使用熊猫。我想在R中实现相同的功能，所以我尝试使用“网状”，在R中使用python函数，我使用了以下代码：py <- import_builtins()而错误是： AttributeError: 'generator' obje

浏览 1提问于2018-08-12得票数 3

2回答

额外的配置，以支持Azure数据湖第二代证书通过在火花数据库连接？

、、、、

我有一个Azure Databricks (Databricks 6.4 (包括ApacheSpark2.4.5，Scala2.11))标准集群，其中配置了Active通行证，以支持查询Azure Databrickspurelyexample.dfs.core.windows.net/", extra_configs = configs) 使用数据库笔记本中的{sparkR}返回结果。library(

浏览 8提问于2020-03-23得票数 0

1回答

如何使用数据库让dplyr::summarize_all在sparkdataframe上工作？

、、、

问题我有一个巨大的Spark Dataframe，叫做x。我正在使用databricks。X有数十亿条记录，太大了，不能收集到一台机器上。我要怎么做才能让它正常工作？： dplyr::summarize_all(x,mean) 更多信息这是我目前收到的错误消息： Error in UseMethod("tbl_vars") : no applicable method"SparkDataFrame“attr(，"package") 1 "SparkR” Mastering Spark wi

浏览 17提问于2020-09-24得票数 2

回答已采纳

1回答

Sparklyr k8s gClouid - Pods没有运行

、、、、

所有人配置群集remotes::install_github("rstudio/sparklyr”); library(sparklyr) sc <-

浏览 1提问于2020-02-04得票数 1

1回答

Sparklyr中split-apply-combine策略错误处理

、、

我有一个名为"userid“的Spark DataFrame，我正在使用sparklyr对其进行操作。每个userid可以有从一行数据到几百行数据的任何地方。我将一个函数应用于每个userid组，该函数根据特定的事件条件压缩它所包含的行数。. %>% # using dplyr::filter and dplyr::mutate ungroup() 我想把这个函数包装在一个错误处理程序中，比如purrr::possibly，这样如果一个错误出现在一个组中<

浏览 8提问于2019-06-04得票数 0

回答已采纳

1回答

无法将SparkR::sampleBy函数应用于sparklyr数据SparkR

、、、

我的环境是Databricks。seed = 12345) 错误(函数(类、fdef、mtable)：无法为函数‘sampleBy’找到用于签名‘“tbl_spark”、“字符”、“列表”、“数字”的继承方法

浏览 0提问于2019-09-03得票数 1

回答已采纳

4回答

在纱线管理的hadoop集群上部署spark时，sparklyr可以使用吗？

、、、、

能够连接到纱线管理的hadoop集群吗？这似乎没有在文档中被记录下来。使用Spark附带的SparkR包，可以执行以下操作：Sys.setenv(YARN_CONF_DIR=...)lib.loc = c(sparkr_lib_dir, .libPaths()))然而，当我把上面的最后一行 library(sparklyrresolve 480ms :: artifac

浏览 7提问于2016-06-29得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在sparklyr中禁用配置单元支持

Sparklyr未连接到数据库

在SparkR和sparklyr之间导入拼图文件所用时间的差异

使用SparkR的Sparklyr :解析函数参数的困难

与Kerberos的连接

Spark和SparklyR错误“超过64 KB”

读取csv函数时出错

Sparklyr错误: org.apache.spark.SparkException:由于阶段失败而中止的作业

如何从Sparklyr连接Google Dataproc集群？

R DBI Sparklyr* DBWritetable正在运行，但没有结果*

sparklyr中的堆空间不足，但有足够的内存

将大型数据集缓存到火花内存(通过sparklyr* & RStudio)的"GC开销极限超过“*

在linux机器上读取一个拼花文件

额外的配置，以支持Azure数据湖第二代证书通过在火花数据库连接？

如何使用数据库让dplyr::summarize_all在sparkdataframe上工作？

Sparklyr k8s gClouid - Pods没有运行

Sparklyr中split-apply-combine策略错误处理

无法将SparkR::sampleBy函数应用于sparklyr数据SparkR

在纱线管理的hadoop集群上部署spark时，sparklyr可以使用吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐