如何使用Pyspark从xml文件创建子数据帧？

文章/答案/技术大牛

发布

1回答

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): xref = df.select("genericEntity.entityIdgenericEntity.entityLo

浏览 11提问于2019-03-15得票数 0

1回答

在PySpark中读取XML文件

、、

我尝试将XML读入PySpark中的数据框架中。从的文档中，我了解了如何加载xml文件，但返回的数据帧是空的。下面是我如何读取我试图解析的文件和文件的例子。from pyspark import SparkContext, SparkConfimport os os.envi

浏览 2提问于2018-12-04得票数 0

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

2回答

使用Pyspark将XML转换为Dataframe

、、、

我正在尝试废弃一个XML文件，并从XML文件上的标签创建一个数据帧。我使用pyspark开发Databricks。<?xml version="1.0" encoding="UTF-8"?shorttitle> <shorttitle>shorttitle_3</shorttitle

浏览 2提问于2018-09-12得票数 2

2回答

如何使用SparkR访问使用PySpark创建的DataFrame？

、、

我在Databricks上创建了一个PySpark DataFrame。option("header", first_row_is_header) \ .load(file_location)%rdf1 sparkR无法使用或找到由PySpark创建的df1。DATABRICKS_CURRE

浏览 1提问于2018-10-05得票数 0

1回答

使用groupBy()的pySpark子数据帧

、

我有一个pySpark数据帧，想用groupBy操作做几个子数据帧。s2 p o2 s4 q o4DF2 = s3 q o3如果您能分享

浏览 5提问于2019-12-25得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到

浏览 2提问于2020-04-20得票数 0

2回答

使用Azure Blob容器中的Pyspark遍历多个文件夹和子文件夹(ADLS Gen2)

、、、

我试图遍历Azure Blob容器中的多个文件夹和子文件夹，并读取多个xml文件。我有YYYY/MM/DD/HH/123.xml格式的文件我的意图是遍历所有这些文件夹并读取XML文件。我尝试使用了很少的Pythonic方法，但没有给出预期

浏览 4提问于2022-08-26得票数 0

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

、、、

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。但是它创建了一个无效的json。overwrite=True) {"Variable":"Col2","Min":"25,"Max":"40"

浏览 0提问于2018-11-22得票数 7

1回答

如何从np.arrays列表(由RDKit生成)中创建Spark数据帧以馈送给sparks随机森林实现？

、、、

我正在尝试使用RDKit生成分子描述符，然后使用Spark对它们执行机器学习。我已经设法生成了描述符，并且我找到了。这段代码从以svmlight格式存储的文件中加载数据帧，我可以使用dump_svmlight_file创建这样的文件，但写入文件感觉并不是很“闪亮”。的RDD中创建一个DataFrame。我想我还需要添加y值，并以某种方式告诉Random forest实现什么是数据<

浏览 0提问于2021-01-15得票数 1

3回答

如何创建动态数据帧

、、、、

我试图创建一个数据框，我之所以以下面的方式指定创建数据框，是为了使其成为动态的，但表达式是作为字符串传递的，并且exec命令无法创建数据框并将其赋值给变量。

浏览 18提问于2020-02-08得票数 0

1回答

Pyspark数据帧过滤语法错误

、

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到

浏览 0提问于2017-07-27得票数 0

回答已采纳

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。from pyspark import SparkContextfrom pyspark.sql.types import * z

浏览 6提问于2016-08-06得票数 33

回答已采纳

1回答

在一个列表中存储多个pysparks数据帧？

、、

如何在一个列表中存储多个数据帧？我有一个函数可以读取文件夹中的多个拼图文件。但是，我需要创建一个列表，其中包含正在读取以执行其他进程的数据帧。预期的结果如下所示： dfs = df1、df2、df3、df4、dfn 注意:我正在使用pyspark数据帧谢谢!

浏览 8提问于2021-07-15得票数 0

1回答

pyspark使用一列元组列表从pandas创建数据帧

、、、

我正在尝试从pandas数据帧创建一个pyspark数据帧。import pandas as pd a_dictStructField(id,IntegerType,true), StructField(prob,DoubleType,true)] should be an instance o

浏览 0提问于2020-10-26得票数 0

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据<

浏览 7提问于2019-11-15得票数 1

3回答

Pyspark EMR笔记本-无法将文件保存到EMR环境

、、

我在电子病历上的Pyspark Notebook上工作，并使用toPandas()将pyspark数据帧转换为pandas数据帧。现在，我想使用以下代码将此数据帧保存到本地环境：但我一直收到权限错误： [Errno 13] Permission

浏览 9提问于2020-06-25得票数 2

1回答

我正在尝试使用spark sql从pyspark dataframe创建一个hive paritioned表。下面是我正在执行的命令，但得到了一个错误。错误消息如下。df_view) spark.sql("create table if not exists tablename PARTITION (date) AS select * from df_view") 错误：pyspark.sql.utils.ParseException:u"\nmismatched input

浏览 113提问于2021-09-19得票数 0

回答已采纳

1回答