腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
无法
使用
pyspark
从
xml
加载
数据
、
在jupyter中
使用
以下命令下载
数据
。# load
xml
file into spark data frame.出现以下错误: Py4JJavaErro
浏览 32
提问于2020-08-04
得票数 1
回答已采纳
4
回答
PySpark
java.io.IOException:方案没有FileSystem : https
、
、
我正在
使用
本地窗口,并试图用python上的以下代码
加载
XML
文件,我遇到了这个错误,有人知道如何解决它吗?/201611339349202661_public.
xml
") 这就是错误 Py4JJavaError Traceback (most recent) C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\
pyspark
\sql\readwriter.py in load(self
浏览 87
提问于2017-11-17
得票数 4
回答已采纳
1
回答
在
PySpark
中读取
XML
文件
、
、
我尝试将
XML
读入
PySpark
中的
数据
框架中。
从
的文档中,我了解了如何
加载
xml
文件,但返回的
数据
帧是空的。下面是我如何读取我试图解析的文件和文件的例子。from
pyspark
import SparkContext, SparkConfimport os os.environ['
PYSPARK
_SUBMIT_ARGS']
浏览 2
提问于2018-12-04
得票数 0
回答已采纳
1
回答
jupyter笔记本上的spark
xml
、
、
我正试图在我的jupyter笔记本上运行spark,以便
使用
spark读取
xml
文件。from os import environ我发现这是利用它的方法。但是,当我试图导入com.databricks.spark.
xml
._时,我会看到一个错误: 无模块名为
浏览 1
提问于2021-03-17
得票数 1
回答已采纳
1
回答
如何
使用
Pyspark
从
xml
文件创建子
数据
帧?
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧- def xmlReader(root, row, filename): xref = df.select("genericEntity.entityIdgenericEntity.entityLongName") re
浏览 11
提问于2019-03-15
得票数 0
1
回答
Spark SQL
无法
访问火花服务器
、
、
、
我
无法
配置Spark以使我能够访问中的Hive表(不
使用
JDBC,而是
从
Spark本地访问)from
pyspark
.sqlimp
浏览 0
提问于2019-01-14
得票数 0
1
回答
pyspqrk sql配置单元表中存在错误
数据
、
、
、
、
我正在尝试
使用
Pyspark
中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”
数据
。我
使用
的是spark版本1.6.2和python版本2.6.6:from
pyspark
.sql import
从
Hive CLI访问整个表似乎工作得很好。我假设有一些Spark由于某种原因
无法
处理的记录。我想知道,在将Hive表作为
pyspark</em
浏览 1
提问于2017-01-28
得票数 1
1
回答
将变量
加载
到
数据
帧中
、
、
、
在
PySpark
中,我尝试
从
字符串变量
加载
数据
帧。我的变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些
数据
加载
到
PySpark
中的
数据
帧中。我想
使用
数据
集,但它们在
PySpark
中不可用。<e
浏览 7
提问于2021-02-02
得票数 0
1
回答
如何
使用
数据
融合/Cloud Composer在GCP上调度
数据
处理
PySpark
作业
、
、
、
、
我最近开始学习GCP,我正在做一个POC,它要求我创建一个能够调度用
PySpark
编写的Dataproc作业的管道。目前,我已经在我的Dataproc集群上创建了一个Jupiter笔记本,它从GCS读取
数据
并将其写入BigQuery,它在Jupyter上工作得很好,但我想在流水线中
使用
该笔记本。就像在Azure上一样,我们可以
使用
Azure
数据
工厂来安排管道运行,请帮我找出哪个GCP工具可以帮助实现类似的结果。 我的目标是调度多个Dataproc作业的运行。
浏览 33
提问于2021-08-16
得票数 2
回答已采纳
2
回答
spark.read.format('libsvm')不
使用
python
、
、
我正在学习
PYSPARK
,遇到了一个我
无法
修复的问题。我按照这段视频
从
PYSPARK
文档中复制代码来
加载
线性回归的
数据
。我
从
文档中得到的代码是spark.read.format('libsvm').load('file.txt')。我在这个btw之前创建了一个spark
数据
帧。
浏览 0
提问于2019-12-09
得票数 2
1
回答
在木星笔记本中
使用
PySpark
读取
XML
、
、
、
我试图读取
XML
文件:df = spark.read.format('com.databricks.spark.
xml
').load('/path/to/my.
xml
')并获得以下错误:我试过:$spark_HOME/bin/spark
浏览 2
提问于2020-09-18
得票数 2
1
回答
火花放电负荷训练模型word2vec
、
、
、
、
我想
使用
word2vec和
PySpark
来处理一些
数据
。我以前
使用
过Google训练过的模型GoogleNews-vectors-negative300.bin和gensim在Python中。有办法用mllib.word2vec
加载
这个bin文件吗?或者,将
数据
作为字典
从
Python {word : [vector]} (或.csv文件)导出,然后
加载
到
PySpark
中是否有意义? 谢谢
浏览 1
提问于2017-04-06
得票数 8
回答已采纳
3
回答
如何本地读取羽毛/箭头文件?
、
、
、
、
我有羽毛格式文件sales.feather,用于python和R之间的
数据
交换。在R中,我
使用
以下命令:在python中,我
使用
了:将
数据
从
该文件
加载
到内存到
从
pyspark
操作的Spark实例的最佳方法
浏览 2
提问于2018-12-01
得票数 12
1
回答
从
PySpark
加载
数据
、
、
、
我正在尝试
使用
spark.read.jdbc
从
PySpark
连接到MS SQL DB。import osfrom
pyspark
.sql.functions import *from
pyspark
.sql.session import SparkSessionspark = Spa
浏览 1
提问于2020-11-29
得票数 0
回答已采纳
3
回答
如何
使用
Pyspark
和Dataframes查询Elasticsearch索引
、
、
Elasticsaerch的文档只涵盖了
加载
到Spark的完整索引。from
pyspark
.sql import SQLContextdf = sqlContext.read.format("org.elasticsearch.spark.sql").load("index/type")如何执行查询以
从
Elasticsearch索引返回
数据
,并
使用
pys
浏览 0
提问于2016-07-03
得票数 11
1
回答
Spark.sql和sqlContext.sql
、
我尝试
从
sqlCtx.read.format
加载
数据
,在实例化sqlCtx.read.format错误的同时,我得到了"IllegalArgumentException: U“错误,但是当我
使用
spark.read.format当我
从
注册的temptable/视图中检索
数据
时,我也看到了相同的行为。我可以增加什么额外的
使用
sqlCtx.sql而不是spark.sql?import osimport pandas as pd i
浏览 3
提问于2017-03-15
得票数 3
回答已采纳
1
回答
如何在S3中解压.gzip文件,应用一些sql过滤器,并将结果存储回S3中的json?
、
、
因此,我以.gz格式以S3格式输入每小时的
数据
。我打算一起读取特定S3目录中的所有.gz文件。然后,对
数据
应用一些sql过滤器,并将结果作为json存储在不同的S3位置。
浏览 12
提问于2021-05-18
得票数 0
1
回答
如何使火花放电和SparkSQL在星火上执行蜂巢?
、
、
、
、
通过
使用
spark-shell /
pyspark
,我还遵循并实现了创建Hive表,
加载
数据
,然后正确选择。我想做的事。<
浏览 0
提问于2020-02-23
得票数 0
回答已采纳
1
回答
使用
PySpark
从
Blob存储容器
加载
CSV文件
、
、
、
我
无法
使用
Jupyter Notebook中的
PySpark
将CSV文件
从
Azure Blob Storage直接
加载
到RDD中。我知道我也可以
使用
Pandas将
数据
加载
到Notebook中,但之后我需要将Panda DF转换为RDD。 我理想的解决方案应该是这样的,但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source
浏览 21
提问于2019-04-28
得票数 0
3
回答
将文本文件
数据
过滤为
pyspark
rdd和dataframe中的列。
、
、
我有如下
数据
:16 long title 1618 long title 1820 long title 20 现在,在
加载
这个文本文件时,我必须排除垃圾
数据
(即段落),并且必须包含
从
long title 1 (即列
数据
浏览 0
提问于2019-10-13
得票数 1
回答已采纳
点击加载更多
相关
资讯
使用 RxJava 从多种来源中加载数据
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
PySpark算子处理空间数据全解析(5):如何在PySpark里面使用空间运算接口
由于NLS数据丢失或损坏,因此Windows无法加载
使用 Smooks Eclipse 插件轻松完成 XML到Java 的数据转换
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券