无法使用pyspark从xml加载数据

文章/答案/技术大牛

发布

1回答

、

在jupyter中使用以下命令下载数据。# load xml file into spark data frame.出现以下错误： Py4JJavaErro

浏览 32提问于2020-08-04得票数 1

回答已采纳

4回答

PySpark java.io.IOException:方案没有FileSystem : https

、、

我正在使用本地窗口，并试图用python上的以下代码加载XML文件，我遇到了这个错误，有人知道如何解决它吗？/201611339349202661_public.xml") 这就是错误 Py4JJavaError Traceback (most recent) C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\pyspark\sql\readwriter.py in load(self

浏览 87提问于2017-11-17得票数 4

回答已采纳

1回答

在PySpark中读取XML文件

、、

我尝试将XML读入PySpark中的数据框架中。从的文档中，我了解了如何加载xml文件，但返回的数据帧是空的。下面是我如何读取我试图解析的文件和文件的例子。from pyspark import SparkContext, SparkConfimport os os.environ['PYSPARK_SUBMIT_ARGS']

浏览 2提问于2018-12-04得票数 0

回答已采纳

1回答

jupyter笔记本上的spark xml

、、

我正试图在我的jupyter笔记本上运行spark，以便使用spark读取xml文件。from os import environ我发现这是利用它的方法。但是，当我试图导入com.databricks.spark.xml._时，我会看到一个错误：无模块名为

浏览 1提问于2021-03-17得票数 1

回答已采纳

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): xref = df.select("genericEntity.entityIdgenericEntity.entityLongName") re

浏览 11提问于2019-03-15得票数 0

1回答

Spark SQL无法访问火花服务器

、、、

我无法配置Spark以使我能够访问中的Hive表(不使用JDBC，而是从Spark本地访问)from pyspark.sqlimp

浏览 0提问于2019-01-14得票数 0

1回答

pyspqrk sql配置单元表中存在错误数据

、、、、

我正在尝试使用Pyspark中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”数据。我使用的是spark版本1.6.2和python版本2.6.6：from pyspark.sql import从Hive CLI访问整个表似乎工作得很好。我假设有一些Spark由于某种原因无法处理的记录。我想知道，在将Hive表作为pyspark</em

浏览 1提问于2017-01-28得票数 1

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用数据集，但它们在PySpark中不可用。<e

浏览 7提问于2021-02-02得票数 0

1回答

如何使用数据融合/Cloud Composer在GCP上调度数据处理PySpark作业

、、、、

我最近开始学习GCP，我正在做一个POC，它要求我创建一个能够调度用PySpark编写的Dataproc作业的管道。目前，我已经在我的Dataproc集群上创建了一个Jupiter笔记本，它从GCS读取数据并将其写入BigQuery，它在Jupyter上工作得很好，但我想在流水线中使用该笔记本。就像在Azure上一样，我们可以使用Azure数据工厂来安排管道运行，请帮我找出哪个GCP工具可以帮助实现类似的结果。我的目标是调度多个Dataproc作业的运行。

浏览 33提问于2021-08-16得票数 2

回答已采纳

2回答

spark.read.format('libsvm')不使用python

、、

我正在学习PYSPARK，遇到了一个我无法修复的问题。我按照这段视频从PYSPARK文档中复制代码来加载线性回归的数据。我从文档中得到的代码是spark.read.format('libsvm').load('file.txt')。我在这个btw之前创建了一个spark数据帧。

浏览 0提问于2019-12-09得票数 2

1回答

在木星笔记本中使用PySpark读取XML

、、、

我试图读取XML文件：df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')并获得以下错误：我试过：$spark_HOME/bin/spark

浏览 2提问于2020-09-18得票数 2

1回答

火花放电负荷训练模型word2vec

、、、、

我想使用word2vec和PySpark来处理一些数据。我以前使用过Google训练过的模型GoogleNews-vectors-negative300.bin和gensim在Python中。有办法用mllib.word2vec加载这个bin文件吗？或者，将数据作为字典从Python {word : [vector]} (或.csv文件)导出，然后加载到PySpark中是否有意义？谢谢

浏览 1提问于2017-04-06得票数 8

回答已采纳

3回答

如何本地读取羽毛/箭头文件？

、、、、

我有羽毛格式文件sales.feather，用于python和R之间的数据交换。在R中，我使用以下命令：在python中，我使用了：将数据从该文件加载到内存到从pyspark操作的Spark实例的最佳方法

浏览 2提问于2018-12-01得票数 12

1回答

从PySpark加载数据

、、、

我正在尝试使用spark.read.jdbc从PySpark连接到MS SQL DB。import osfrom pyspark.sql.functions import *from pyspark.sql.session import SparkSessionspark = Spa

浏览 1提问于2020-11-29得票数 0

回答已采纳

3回答

如何使用Pyspark和Dataframes查询Elasticsearch索引

、、

Elasticsaerch的文档只涵盖了加载到Spark的完整索引。from pyspark.sql import SQLContextdf = sqlContext.read.format("org.elasticsearch.spark.sql").load("index/type")如何执行查询以从Elasticsearch索引返回数据，并使用pys

浏览 0提问于2016-07-03得票数 11

1回答

Spark.sql和sqlContext.sql

、

我尝试从sqlCtx.read.format加载数据，在实例化sqlCtx.read.format错误的同时，我得到了"IllegalArgumentException: U“错误，但是当我使用spark.read.format当我从注册的temptable/视图中检索数据时，我也看到了相同的行为。我可以增加什么额外的使用sqlCtx.sql而不是spark.sql？import osimport pandas as pd i

浏览 3提问于2017-03-15得票数 3

回答已采纳

1回答

如何在S3中解压.gzip文件，应用一些sql过滤器，并将结果存储回S3中的json？

、、

因此，我以.gz格式以S3格式输入每小时的数据。我打算一起读取特定S3目录中的所有.gz文件。然后，对数据应用一些sql过滤器，并将结果作为json存储在不同的S3位置。

浏览 12提问于2021-05-18得票数 0

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。我想做的事。<&#x

浏览 0提问于2020-02-23得票数 0

回答已采纳

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source

浏览 21提问于2019-04-28得票数 0

3回答

将文本文件数据过滤为pyspark* rdd和dataframe中的列。*

、、

我有如下数据：16 long title 1618 long title 1820 long title 20 现在，在加载这个文本文件时，我必须排除垃圾数据(即段落)，并且必须包含从long title 1 (即列数据

浏览 0提问于2019-10-13得票数 1

回答已采纳

点击加载更多