腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Pyspark
从
xml
文件
创建
子
数据
帧
?
我在
pyspark
中有所有这些支持库,并且我能够为parent
创建
数据
帧
- def xmlReader(root, row, filename): xref = df.select("genericEntity.entityIdgenericEntity.entityLo
浏览 11
提问于2019-03-15
得票数 0
1
回答
在
PySpark
中读取
XML
文件
、
、
我尝试将
XML
读入
PySpark
中的
数据
框架中。
从
的文档中,我了解了
如何
加载
xml
文件
,但返回的
数据
帧
是空的。下面是我
如何
读取我试图解析的
文件
和
文件
的例子。from
pyspark
import SparkContext, SparkConfimport os os.envi
浏览 2
提问于2018-12-04
得票数 0
回答已采纳
1
回答
使用
配置单元元
数据
读取HDFS
文件
-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS
文件
(上面
创建
了hive表)并
创建
PySpark
数据
帧
。通过
PySpark
读取配置单元表非常耗时。我希望将
文件
位置、表名和
数据
库名作为输入传递给aa程序/函数,以便
从
配置单元元
数据
(可能是元
数据
xml
)中获取模式/列名称,并作为dataframe返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
2
回答
使用
Pyspark
将
XML
转换为Dataframe
、
、
、
我正在尝试废弃一个
XML
文件
,并从
XML
文件
上的标签
创建
一个
数据
帧
。我
使用
pyspark
开发Databricks。<?
xml
version="1.0" encoding="UTF-8"?shorttitle> <shorttitle>shorttitle_3</shorttitle
浏览 2
提问于2018-09-12
得票数 2
2
回答
如何
使用
SparkR访问
使用
PySpark
创建
的DataFrame?
、
、
我在Databricks上
创建
了一个
PySpark
DataFrame。option("header", first_row_is_header) \ .load(file_location)%rdf1 sparkR无法
使用
或找到由
PySpark
创建
的df1。DATABRICKS_CURRE
浏览 1
提问于2018-10-05
得票数 0
1
回答
使用
groupBy()的
pySpark
子
数据
帧
、
我有一个
pySpark
数据
帧
,想用groupBy操作做几个子
数据
帧
。s2 p o2 s4 q o4DF2 = s3 q o3如果您能分享
浏览 5
提问于2019-12-25
得票数 0
1
回答
在Databricks中
使用
Pyspark
更新
数据
库表
、
、
、
我在Azure SQL Server
数据
库中有一个表,该表是
从
我的Dataframe填充的。我想
使用
pyspark
/ pandas基于多条件
数据
库来更新这个表。我是
PySpark
/ Databricks / Pandas的新手,有人能告诉我
如何
更新表吗?我已经将
数据
插入到表中-我可以想到的一种解决方案是将表中的
数据
加载到
数据
帧
中,然后将新
文件
合并到
浏览 2
提问于2020-04-20
得票数 0
2
回答
使用
Azure Blob容器中的
Pyspark
遍历多个
文件
夹和
子
文件
夹(ADLS Gen2)
、
、
、
我试图遍历Azure Blob容器中的多个
文件
夹和
子
文件
夹,并读取多个
xml
文件
。我有YYYY/MM/DD/HH/123.
xml
格式的
文件
我的意图是遍历所有这些
文件
夹并读取
XML
文件
。我尝试
使用
了很少的Pythonic方法,但没有给出预期
浏览 4
提问于2022-08-26
得票数 0
4
回答
Pyspark
:
如何
将spark dataframe转换为json并保存为json
文件
?
、
、
、
我正在尝试将我的
pyspark
sql dataframe转换为json,然后保存为
文件
。但是它
创建
了一个无效的json。overwrite=True) {"Variable":"Col2","Min":"25,"Max":"40"
浏览 0
提问于2018-11-22
得票数 7
1
回答
如何
从
np.arrays列表(由RDKit生成)中
创建
Spark
数据
帧
以馈送给sparks随机森林实现?
、
、
、
我正在尝试
使用
RDKit生成分子描述符,然后
使用
Spark对它们执行机器学习。我已经设法生成了描述符,并且我找到了。这段代码
从
以svmlight格式存储的
文件
中加载
数据
帧
,我可以
使用
dump_svmlight_file
创建
这样的
文件
,但写入
文件
感觉并不是很“闪亮”。的RDD中
创建
一个DataFrame。我想我还需要添加y值,并以某种方式告诉Random forest实现什么是
数据
<
浏览 0
提问于2021-01-15
得票数 1
3
回答
如何
创建
动态
数据
帧
、
、
、
、
我试图
创建
一个
数据
框,我之所以以下面的方式指定
创建
数据
框,是为了使其成为动态的,但表达式是作为字符串传递的,并且exec命令无法
创建
数据
框并将其赋值给变量。
浏览 18
提问于2020-02-08
得票数 0
1
回答
Pyspark
数据
帧
过滤语法错误
、
我正在
使用
Pyspark
版本1.6处理
Pyspark
数据
帧
。在将此
数据
框导出到.CSV
文件
之前,我需要根据特定条件对特定列
使用
LIKE和OR运算符过滤
数据
。为了向您介绍我到目前为止所做的工作,我
从
多个.JSON
文件
创建
了初始
数据
帧
。此
数据
框已子集,因此仅包含所需的列。然后
创建
了一个sqlContext临时表。到
浏览 0
提问于2017-07-27
得票数 0
回答已采纳
1
回答
Pandas dataframe to Spark dataframe“无法合并类型错误”
、
、
、
、
我有csv
数据
,并
使用
read_csv
创建
了Pandas dataframe,并强制所有列为字符串。然后,当我尝试
从
Pandas
数据
帧
创建
Spark
数据
帧
时,我得到了下面的错误消息。from
pyspark
import SparkContextfrom
pyspark
.sql.types import * z
浏览 6
提问于2016-08-06
得票数 33
回答已采纳
1
回答
在一个列表中存储多个pysparks
数据
帧
?
、
、
如何
在一个列表中存储多个
数据
帧
? 我有一个函数可以读取
文件
夹中的多个拼图
文件
。但是,我需要
创建
一个列表,其中包含正在读取以执行其他进程的
数据
帧
。预期的结果如下所示: dfs = df1、df2、df3、df4、dfn 注意:我正在
使用
pyspark
数据
帧
谢谢!
浏览 8
提问于2021-07-15
得票数 0
1
回答
pyspark
使用
一列元组列表
从
pandas
创建
数据
帧
、
、
、
我正在尝试
从
pandas
数据
帧
创建
一个
pyspark
数据
帧
。import pandas as pd a_dictStructField(id,IntegerType,true), StructField(prob,DoubleType,true)] should be an instance o
浏览 0
提问于2020-10-26
得票数 0
1
回答
Spark SQL更新/删除
、
、
、
、
目前,我正在做一个
使用
pySpark
的项目,它读取一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免
使用
Spark语法来
创建
一个框架,该框架只接受参数
文件
中的SQL,该参数
文件
将
使用
我的
pySpark
框架运行。现在的问题是,我必须在我的最终
数据
帧
上执行更新/删除查询,是否有任何可能的工作来在我的
数据
<
浏览 7
提问于2019-11-15
得票数 1
3
回答
Pyspark
EMR笔记本-无法将
文件
保存到EMR环境
、
、
我在电子病历上的
Pyspark
Notebook上工作,并
使用
toPandas()将
pyspark
数据
帧
转换为pandas
数据
帧
。现在,我想
使用
以下代码将此
数据
帧
保存到本地环境:但我一直收到权限错误: [Errno 13] Permission
浏览 9
提问于2020-06-25
得票数 2
1
回答
Pyspark
sql用于
创建
配置单元分区表
、
、
我正在尝试
使用
spark sql
从
pyspark
dataframe
创建
一个hive paritioned表。下面是我正在执行的命令,但得到了一个错误。错误消息如下。df_view) spark.sql("create table if not exists tablename PARTITION (date) AS select * from df_view") 错误:
pyspark
.sql.utils.ParseException:u"\nmismatched input
浏览 113
提问于2021-09-19
得票数 0
回答已采纳
1
回答
如何
从
pyspark
中删除
数据
帧
来管理内存?
、
、
、
我列出我的
数据
帧
以丢弃未
使用
的
数据
帧
。首先,我
使用
下面的函数列出了我在其中一篇文章中找到的
数据
帧
然后我试着
从
列表中删除未
使用
的。我
浏览 0
提问于2018-10-31
得票数 4
回答已采纳
1
回答
windowPartitionBy和
pyspark
中的重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
点击加载更多
相关
资讯
一文读懂PySpark数据框
一个Python大数据处理利器:PySpark入门指南
一文读懂 PySpark 数据框
如何用python将excel转化成xml格式
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券