使用DBR 7.3.x+将XML文件加载到PySpark中的数据帧中

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试使用databricks notebook中的PySpark将XML文件加载到dataframe中。df = spark.read.format("xml").options( rowTag="product" , mode="PERMISSIVE", columnNameOfCorruptRecord="error_record

浏览 40提问于2021-01-11得票数 1

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): xref = df.select("genericEntity.entityIdgenericEntity.entityLongName&qu

浏览 11提问于2019-03-15得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中<e

浏览 2提问于2020-04-20得票数 0

4回答

PySpark java.io.IOException:方案没有FileSystem : https

、、

我正在使用本地窗口，并试图用python上的以下代码加载XML文件，我遇到了这个错误，有人知道如何解决它吗？/201611339349202661_public.xml") 这就是错误 Py4JJavaError Traceback (most recent) C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\pyspark\sql\readwriter.py in

浏览 87提问于2017-11-17得票数 4

回答已采纳

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

、、、

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独的数据

浏览 0提问于2018-05-29得票数 3

回答已采纳

2回答

Pyspark将多个csv文件读取到一个数据帧中(或RDD?)

、、、、

我有一个Spark 2.0.2集群，我正在通过Pyspark通过Jupyter Notebook访问它。我有多个以管道分隔的txt文件(加载到HDFS中。我需要使用spark-csv将其加载到三个独立的数据帧中，具体取决于文件的名称。我还知道在spark中有一些通配符功能(参见) -我可能可以利用最后，我可以使用pandas从磁盘加载vanil

浏览 0提问于2016-12-14得票数 7

回答已采纳

1回答

将XML文件读取到Spark数据帧

、

我有一个如下格式的XML文件。"b1" A2="22" A3="b3"/> </LEVEL3></LEVEL1> 我需要使用PySpark将这个文件<

浏览 2提问于2019-07-18得票数 0

1回答

在PySpark中读取XML文件

、、

我尝试将XML读入PySpark中的数据框架中。从的文档中，我了解了如何加载xml文件，但返回的数据帧是空的。下面是我如何读取我试图解析的文件和文件的例子。from pyspark import SparkContext, SparkCon

浏览 2提问于2018-12-04得票数 0

回答已采纳

3回答

Pyspark EMR笔记本-无法将文件保存到EMR环境

、、

我在电子病历上的Pyspark Notebook上工作，并使用toPandas()将pyspark数据帧转换为pandas数据帧。现在，我想使用以下代码将此数据帧保存到本地环境：但我一直收到权限错误： [Errno 13] Permission

浏览 9提问于2020-06-25得票数 2

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用

浏览 7提问于2021-02-02得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中</em

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

pyspark在所有执行器上均匀地拆分负载

、、、、

我有一个5节点集群，我正在使用pyspark将一个100k的csv文件加载到一个dataframe中，并执行一些etl操作，并将输出写入到一个parquet文件中。当我加载数据帧时，如何在每个执行器处理20k记录的所有执行器0上均匀地划分数据集。

浏览 2提问于2017-10-06得票数 1

2回答

在Bigquery中使用pyspark将数据编码为ISO_8859_1

、、

我的pyspark数据帧中有多语言字符。在将数据写入bigquery之后，它向我显示了奇怪的字符，因为它的默认编码方案(utf-8)。如何使用pyspark / dataproc将Bigquery中的编码更改为ISO_8859_1？

浏览 0提问于2020-05-06得票数 1

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

、、、

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。df_final = df_final.union(join_df) 我试过这样的东西。但是它创建了一个无效的json。overwrite=True) {"Variable":"Col1","Min":"20","Max":"30"}

浏览 0提问于2018-11-22得票数 7

1回答

ParseException:不匹配的输入')‘预期'，’问题

、

嗨，我自己和Jupyter一起学习pyspark。我将CSV文件放在本地系统中，并加载到dataframe中。我为这个数据帧创建了临时表。当使用下面的代码时，我得到了解析错误。sqlContext.sql('select distinct(Eye color) * from superhero_table').show() 错误如下所示: ParseException:不匹配的输入

浏览 16提问于2020-07-11得票数 0

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake")我想到的第二种方法是预先定义原始和所需<e

浏览 1提问于2021-04-21得票数 0

1回答

无法从spark dataframe导出数据

、

作为测试，我使用spark NLP解析了50万条tweet。数据帧看起来没问题。我将数组转换为字符串。使用from pyspark.sql.types import StringType def array_to_stringarray_to_string_udf(result["ner_chunk"])).withColumn('document',

浏览 7提问于2021-07-29得票数 1

1回答

如何从pyspark* dataframe中更快地保存csv文件？*

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。com.databricks.spark.c

浏览 126提问于2019-08-01得票数 5

1回答

如何使用PySpark更新hive表中的记录？

、

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。EmpNo名称年龄工资2

浏览 1提问于2019-03-29得票数 2

2回答

有没有办法修改存储为ORC的配置单元表中的列？

、

已经有一个关于一般配置单元( )的问题。此问题的答案指出，可以使用alter table change命令更改模式但是，如果文件存储为ORC，这也是可能的吗？

浏览 2提问于2016-11-30得票数 1

点击加载更多