腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
预
定义
的
模式
更新
Spark
推断
的
DataFrame
模式
、
对于传入
的
数据集,我有一个预
定义
的
架构(基本架构)。但在某些情况下,dataset可能具有略微不同
的
架构,其中包含一些附加列或嵌套列字段。在处理数据时,我希望
使用
组合
模式
(基本
模式
+
推断
模式
),以便考虑所有列/字段。我现在遵循下面的方法。我想知道是否有更好/更快
的
方法来实现这一点。predefinedSchema = (StructType) DataType.fromJson(predefine
浏览 14
提问于2021-09-07
得票数 1
1
回答
JSON字符串
的
DataFrame
转换
、
、
是否可以
使用
Spark
2.4将包含JSON字符串
的
DataFrame
转换为包含JSON字符串类型化表示
的
DataFrame
?例如:给定下面的
定义
,我希望
使用
从JSON字符串
推断
的
模式
来转换jsonDF中
的
单个列。val jsonDF =
spark
.sparkContext.parallelize(Seq("""{"a&qu
浏览 0
提问于2019-05-03
得票数 0
回答已采纳
6
回答
Spark
structured streaming kafka转换不带
模式
的
JSON (
推断
模式
)
、
、
、
我读到
Spark
Structured Streaming不支持将Kafka消息读取为JSON
的
模式
推断
。有没有一种方法可以像
Spark
Streaming一样检索
模式
:
dataFrame
.printschema
浏览 1
提问于2018-01-21
得票数 13
1
回答
生成
Spark
模式
代码/持久化和重用
模式
、
、
、
、
我正在从一个Parquet数据源实现一些
Spark
结构
的
流转换。为了将数据读入流
DataFrame
,必须指定
模式
(不能自动
推断
)。
模式
确实很复杂,手动编写
模式
代码将是一项非常复杂
的
任务。目前,我正在预先创建一个批处理
DataFrame
(
使用
相同
的
数据源),
Spark
推断
模式
,然后将
模式
保存到Scala对象,并将其用作结构化流媒
浏览 3
提问于2020-11-12
得票数 0
1
回答
如何在
Spark
结构化流中将JSON数据转换为
DataFrame
、
、
我正在
使用
星火结构化流处理来自卡夫卡
的
数据。我将每条消息转换为JSON。但是,
spark
需要一个显式
的
模式
才能从JSON获得列。
使用
DStreams
的
火花流允许执行以下操作其中jsons是RDD[String]。在星火结构流
的
情况下类似的方法(jsons是Dat
浏览 1
提问于2018-02-05
得票数 2
2
回答
Pyspark-Mongo缺少一些字段
、
、
所以我正在尝试
使用
mongo-
spark
连接器将集合表单MongoDB读入
spark
,但是文档中
的
一些字段丢失了,以前有人遇到过这个问题吗?如果是,解决方案是什么?下面是我用来读取MongoDB集合
的
命令: .option"total" : 64.96, "sub
浏览 0
提问于2018-03-24
得票数 3
1
回答
无法
使用
Spark
读取json数据
、
、
、
、
我正在尝试
使用
Apache
Spark
读取Json数据。下面是我到目前为止尝试过
的
代码: .setAppName("ExplodeDemo")df.printSchema() 当我将文件名作为参数传递给sqlContext.read.json时,它工作得很好,但我
的
要求是直接
浏览 0
提问于2018-02-05
得票数 0
1
回答
对于
spark
结构化流式处理Json记录,架构是否为必填项
、
、
我正在浏览下面的博客中
的
spark
structured。 .add("apiVersion", StringType)下面是实际
的
spark
例如,在
spark
batch streaming中,我们在下面的代码行中不提供任何
模式</
浏览 3
提问于2018-03-23
得票数 1
1
回答
如何将包含序列化
的
json
的
列转换为
dataframe
本身?
、
、
get_json_object --我试图
使用
它,但是运行get_json_object
的
结果本身就是一个字符串,让我回到第一步。此外,(从exprs语句中)看来-再次-作者期望预先了解
模式
,而不是
推断
模式
。 之前,我不知道json
模式
是什么,因此需要
推断
它。
spark
.read.json似乎是
推断
模式
的
最佳案例,但我遇到
的
所有示例都从文件中加载了json。在
浏览 1
提问于2019-01-10
得票数 3
1
回答
使用
Struct和Array类型
定义
模式
、
我有一个
Spark
dataframe
,它有一个
模式
(我读了它并
推断
出来),如下所示: record_id stringrecord_timestampcategories array<string> geo struct<coordinates:array<double>,type:string> 接下来,我希望预先
定义
模式
,
浏览 49
提问于2020-10-24
得票数 1
2
回答
火花
推断
器
模式
在read.csv期间有限制
我想从一个CSV文件目录中,
使用
一小部分行(例如,
Spark
.
DataFrame
)来
推断
一个CSV
模式
。但是,将inferSchema设置为True意味着FileScanRDD
的
Input Size / Records似乎总是等于所有CSV文件中
的
行数。是否有一种方法可以使FileScan更具选择性,例如在
推断
模式
时,
Spark
可以查看更少
的
行? 注意:将设置为< 1.0并不具有所
浏览 0
提问于2019-04-29
得票数 4
回答已采纳
23
回答
如何在PySpark中更改
dataframe
列名?
、
、
、
、
我来自熊猫背景,习惯于将CSV文件中
的
数据读入
dataframe
,然后
使用
简单
的
命令将列名更改为有用
的
内容:但是,在
使用
PySpark我能想出
的
唯一简单
的
解决方案是: df = sqlContext.read.format("com.databricks.
spark
.csv").options(header='false',
浏览 12
提问于2015-12-03
得票数 304
回答已采纳
3
回答
如何用
模式
推理将RDD[String]写到拼图文件中?
、
、
、
我
的
Spark
Streaming作业需要处理RDD[String],其中字符串对应于csv文件
的
一行。我事先不知道
模式
,所以需要从RDD
推断
模式
,然后将其内容写入parquet文件。如果我从磁盘中读取一个csv文件,我只需
使用
模式
推断
将所有内容加载到
DataFrame
中,并立即将其写入parquet。不过,在我
的
场景中,我
的
起点是一个RDD[String],它是流
的</e
浏览 5
提问于2017-06-14
得票数 2
1
回答
星星之火SQL - createDataFrame错误
的
结构
模式
、
、
、
、
当尝试
使用
Spark
创建
DataFrame
时,向它传递如下所示
的
行列表:得到
的
DataFrame
模式
是: |-- some-column: array (nullablecontain
浏览 1
提问于2018-11-19
得票数 0
回答已采纳
2
回答
在同一目录中创建具有和不具有标头
的
多个文件
的
PySpark
DataFrame
、
我正在尝试从包含多个文件
的
目录创建数据帧。在这些文件中,只有一个文件有头。我想
使用
infer schema选项从头部创建
模式
。但是,当我读取目录中
的
所有文件时File &q
浏览 0
提问于2018-04-26
得票数 1
2
回答
从
dataframe
可以
推断
星火
的
模式
吗?
、
、
、
、
我正在
使用
Spark
2.0。需求是从选择值到
dataframe
中创建一个新
的
表。另外,如果该表不存在于单元中,
spark
.write.saveasTable会在单元中创建一个新表并自动
推断
模式
吗?
浏览 4
提问于2017-04-20
得票数 1
回答已采纳
1
回答
如何
使用
SparkSession动态
推断
模式
、
、
我知道,如果我们将inferSchema选项设置为true,则
模式
将自动
推断
。我正在读一个简单
的
csv文件。如何在代码中不指定任何自
定义
架构
的
情况下动态
推断
架构。我尝试
使用
readStream并将我
的
格式指定为csv,完全跳过了地狱
模式
选项,但在任何情况下我似乎都需要提供这个选项。val ds1:
DataFrame
=
spark
.format("
浏览 2
提问于2019-08-12
得票数 0
2
回答
星星之火:如果
DataFrame
有一个
模式
,
DataFrame
如何成为Dataset[Row]?
、
、
、
声称
Spark
中
的
DataFrame
等同于Dataset[Row],但是显示
DataFrame
有一个
模式
。以博客文章中关于将RDD转换为
DataFrame
的
例子:如果
DataFrame
与Dataset[Row]相同,那么将RDD转换为
DataFrame
应该是一样简单
的
。= sparkSession.createDataFrame(rddStringToRowRDD,dfschema) val rDDToDataSet
浏览 0
提问于2016-10-07
得票数 6
回答已采纳
2
回答
pyspark:在创建数据时,
模式
中指定
的
数据类型不反映在数据中
、
、
、
、
我正在
Spark
中创建一个
dataframe
,并且我已经将
模式
定义
如下: StructField('max_length', LongType())]) 我有许多行遵循这个精确
的
模式
,并且我正在创建数据文件,具
浏览 0
提问于2018-02-05
得票数 0
3
回答
如何在Hive表中为数据集创建
模式
?
、
、
、
、
我需要重新组织和组
的
用户id互动
的
基础上附加
的
json图像格式准备。 ]return schema 这个
模式
正确吗如何将
DataFrame
转换为下面的json
模式
类型。
浏览 0
提问于2017-05-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
什么是Spark的调度器,它的调度模式有哪些?
Flink高级应用模式第二辑:应用模式的动态更新
训练模式更新后被禁止使用,玩家:自定义都不让玩?
SessionState的sqlserver模式的配置及使用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券