Databricks:如何将%python下的Spark dataframe转换为%r下的dataframe

文章/答案/技术大牛

发布

1回答

、、

我在%python环境中有一个Dataframe，并尝试在%r环境中使用它。 如何将%python下的spark数据帧转换为%r？

浏览 1提问于2017-07-17得票数 2

回答已采纳

1回答

数据库上的sql sparklyr sparkr数据帧转换

、、、

我使用以下代码在databricks上创建了sql表CREATE TABLE data OPTIONS (header "true", inferSchema "true") 下面的代码将该表分别转换为sparkr和r dataframe：library(SparkR) data_spark <- sql("

浏览 10提问于2018-07-25得票数 3

2回答

如何将Spark DataFrame中的嵌套结构转换为嵌套映射

、、

我正在尝试批量写入到AWS DynamoDB中，在加载之前我必须重新格式化dataFrame，现在我的问题是如何将深度structType dataFrame转换为DynamoDB可以识别的深度映射格式环境: Apache Spark 2.4.3/Spark 2.4.3 in Databricks，Scala 2.11，DynamoDB 源代码有一个深层结构，如下所示 root |-- PK: stringcontainsNull = tr

浏览 31提问于2021-08-02得票数 1

回答已采纳

1回答

如何让DataFrame在Databricks notebook的Python cell中可见？

、、、、

我使用Databricks在Scala中创建了Spark DataFrame。在做了一些预处理之后，我想出了一个更小的数据子集，可以放入内存中。因此，我想将其转换为熊猫，然后另存为CSV文件。问题是，我在Databricks notebook in Scala cell中使用的DataFrame df在Python中是不可见的。%python df.toPandas().to_csv("d

浏览 12提问于2019-06-21得票数 0

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

、、、、

我正在尝试将星火数据转换为Azure数据库中的熊猫数据。但我得到了以下错误：接下来，我尝试使用下面的代码将其转换为熊猫数据格式：spark.conf.set("spark.sql.execution.arrow.enabled("spark.sql.execution.arrow.enabled", &

浏览 0提问于2019-08-26得票数 1

回答已采纳

1回答

来自spark dataframe的块topandas

、、

我有一个包含1000万条记录和150列的spark数据帧。我正在尝试将其转换为熊猫DF。是否可以将其分块并将其转换为每个块的pandas DF？snapshot_year_month=201806""") 160 # ps[["pol_nbr", /databricks/spa

浏览 0提问于2018-10-26得票数 6

1回答

ValueError: DataFrame构造函数调用不正确(数据库/Python)

、、

我正在尝试设置一个Pandas Dataframe来处理Databricks中的数据。我的数据是从本地计算机上的文件导入的，如下所示：Snip of the data # Import packagesimport numpy as np ownr= spark.read.format("csv").load("dbfs:/FileStore/shared_uploads&#x

浏览 806提问于2021-10-14得票数 1

回答已采纳

1回答

如何从雪花SQL查询创建PySpark熊猫星火中的DataFrame？

、、、

注意:需要使用分布式处理，这就是我使用的原因。这两种选择都可行吗？如果是这样的话，我如何处理错误(在下面“问题(S)”和“选项2”的错误日志中概述)？---> 54 df_3 = df_3.to_pandas_on_spark() #

浏览 3提问于2021-10-25得票数 1

1回答

在ETL期间拒绝本地磁盘上的Databricks* spark权限(Errno 13)*

、、、、

我们有一个定制的ETL管道，作为Databricks集群上的python模块运行。在这个ETL管道的某个时刻，我们必须从多个熊猫的数据中创建一个火花数据。= self.spark_session.createDataFrame(full_data,schema=full_data_schema) 346 347 #replace NaNs and nans fro

浏览 9提问于2022-01-05得票数 2

1回答

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

、、、

我有一个要求，把数据从csv/熊猫数据写到databricks表。我的python代码可能不在databricks集群上运行。我可能在一个孤立的独立节点上运行。我使用databricks python连接器从databricks表中选择数据。选择是有效的。但我无法从csv或熊猫的数据加载到数据库。我是否可以使用databricks python连接器将csv/p

浏览 5提问于2022-08-19得票数 0

1回答

将GenericRecord转换为DF

、、、

我在流媒体中有一个要求，我必须将GenericRecord转换为DatFrame，这样我就可以使用分解和DF中提供的其他功能。因此，首先，我看一下如何将GenericRecord转换为DF。我已经检查了下面的URL，它有助于将记录转换为DF。但是我不能理解如何将类SchemaConverterUtils添加到avro对象中。谢谢

浏览 1提问于2018-12-01得票数 0

4回答

使用Scala中的Dataframes在Spark1.30中以文本形式保存

、、

我正在使用Spark1.3.0版本，并在Scala中使用带有SparkSQL的数据格式。在1.2.0版本中，有一个名为"saveAsText“的方法。在使用dataframes的1.3.0版本中，只有一个“保存”方法。默认输出是拼板。val sqlContext = new org.apache.spark.sql.SQLContext(sc) //

浏览 3提问于2015-03-27得票数 6

2回答

将Spark* DataFrame转换为Pojo对象*

、、

请参考以下代码： SparkConf sparkConf = new SparkConf().setAppName("TestWithObjectspersons); SQLContext sQLContext = new SQLContext(javaSparkContext); personDataFrame.select("name

浏览 6提问于2015-12-10得票数 5

1回答

使用sparklyr或sparkR连接红移？

、、、、

我正在尝试理解如何使用spark将R连接到红移，我不能使用简单的RPostgres连接，因为数据集非常庞大，需要分布式计算。到目前为止，我可以从s3中读取CSV并将其写入spark dataframe，谁能展示一下如何配置far和其他东西，以便我可以将SparklyR(spark_read_jdbc() )或sparkR连接到另外，如果您能展示如何将jars添加到sparkContexts中，也会很有帮助到目前为止，我已经了解到databri

浏览 15提问于2019-02-21得票数 0

回答已采纳

4回答

databricks:将spark数据帧直接写入excel

有没有办法把spark数据帧直接写成xls/xlsx格式？但是我想使用spark dataframe来处理我的数据。有什么想法吗？

浏览 0提问于2019-11-29得票数 5

3回答

如何将星火R数据转换为R列表

、、、、

这是我第一次在Databricks上尝试使用Spark来完成与RStudio相同的工作。但遇到了一些奇怪的问题。看起来Spark确实支持像ggplot2、plyr这样的软件包，但是数据必须是R列表格式的。当我使用train <- read.csv("R_basics_train.csv")时，我可以在R中生成这种类型的列表，在这里，变量train是使用typeof(trai

浏览 4提问于2016-04-21得票数 0

回答已采纳

1回答

EMA函数在R数据帧上有效，但在spark数据帧上失败- Sparklyr

、、

我对R和Spark都是新手。我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr包在Databricks Spark平台上工作。我目前对这些值的正确性不感兴趣(我使用的是虚拟值-例如。init = 10是任意的)。databricks") set.seed

浏览 25提问于2019-11-08得票数 1

回答已采纳

1回答

火花转换Pandas df到S3

、、、、

如何将Pandas以一种方便的方式转换成可以写入s3的数据。 .format("com.databricks.spark.csv") .save("123.csv")

浏览 0提问于2017-01-03得票数 0

回答已采纳

1回答

dbfs:/databricks/python/lib/python3.7/site-packages/sampleFolder/data；：AnalysisException:路径不存在

、、、、

str): return filepath return (spark.read.parquet(str(path_to_model("sampleFolder", "data")))) 我确认whl文件正确地包含了sampleFolder/data/目录下的<

浏览 42提问于2021-07-01得票数 2

回答已采纳

1回答

流式作业失败-状态架构不兼容问题

、

File "/databricks/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 2442, in _call_proxyreturn_value = getattr(self.pool[obj_id], method)(*params) File "/databricks/spark/

浏览 2提问于2021-06-11得票数 1

点击加载更多