腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
spark
dataframe
中
从
多层
结构
类型
创建
列
?
、
、
、
|val dfContentEnvelope = sqlContext.read.format("com.databricks.
spark
.xml").option("rowTag", "env:ContentEnvelope").load("C://Users//u6034690//Desktop//
SPARK
//trfsmallfffile
浏览 10
提问于2018-02-20
得票数 0
回答已采纳
1
回答
如何将数据架构的字符串拆分为每个
结构
、
、
我想将
dataframe
的架构拆分为一个集合。我正在尝试这个方法,但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合,以便对其进行操作(比如只
从
输出中提取数组
列
)?我试图平平一个复杂的
多层
次的
结构
+数组数据。output.toList 目前的输出是 identifyArrayColumns: (
dataFrame
: org.apache.
spark
.sql.
DataFram
浏览 0
提问于2018-03-09
得票数 0
回答已采纳
1
回答
创建
空的
dataframe
Java
Spark
、
、
关于如何使用
Spark
Scala/Python
创建
空的
dataframe
/Dataset,有很多示例。但是我想知道如
何在
Java
Spark
中
创建
一个空的
dataframe
/Dataset。我必须
创建
一个空的
dataframe
,其中只有一
列
,标题为Column_1,
类型
为String。
浏览 27
提问于2020-07-14
得票数 0
回答已采纳
2
回答
当NullType位于StructType内时,将空值写入
Spark
中
的拼图
、
、
、
我正在将一个集合
从
MongodB导入到
Spark
。所有文档都有字段'data‘,该字段又是一个
结构
,并具有字段'configurationName’(始终为空)。("collection", collectionName).load() 对于结果
DataFrame
中
的data
列
,我得到以下
类型
: StructType(StructField(configurationName: AnalysisException: Parquet
浏览 24
提问于2021-08-11
得票数 1
2
回答
获取到元数据表的数据模式加载
、
用例是读取一个文件并在it.After上
创建
一个数据文件,获取该文件的模式并将其存储到DB表
中
。例如,我只是
创建
一个case类并获取printschema,但是我无法
从
其中
创建
一个
dataframe
。= SparkSession.appName("
Spark
SQL basic example").ge
浏览 0
提问于2019-06-27
得票数 1
回答已采纳
2
回答
为什么$不能处理String
类型
的值(并且只直接处理字符串文本)?
、
、
" val Date = "Date"} 然后,我想按
列
对
浏览 2
提问于2018-01-11
得票数 2
回答已采纳
5
回答
SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么?
、
、
、
、
中
的所有函数SQLContext,SparkContext,以及JavaSparkContext也在SparkSession?我如何使用 a
创建
以下内容SparkSession?
浏览 216
提问于2017-05-05
得票数 39
回答已采纳
1
回答
火花数据到密封特性
类型
、
、
我有一些数据存储在与数据模式相匹配的parquet文件和案例类
中
。
Spark
很好地处理常规产品
类型
,所以如果我有我可以很容易做到但据我所知,星火不处理分离
类型
所以当我在我的地板上有枚举时,以前编码为整数,而scala表示形式类似case object A extends E我做不到
spark
浏览 0
提问于2018-06-19
得票数 6
回答已采纳
1
回答
从
多个S3存储桶导入pyspark
dataframe
,其中有一
列
指示条目来自哪个存储桶
、
、
这些存储桶
中
的每一个都存储我正在读取到pyspark
dataframe
中
的拼图文件。
从
每个存储桶生成的pyspark
dataframe
具有完全相同的模式。我想要做的是迭代这些存储桶,并将所有这些拼图文件存储到一个单独的pyspark
dataframe
中
,该数据框有一个date
列
,表示
dataframe
中
的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是
多层
的(即每一行都
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
1
回答
在星火中,RDD和
Dataframe
有什么区别?
、
、
我想了解RDD、
dataframe
和数据集之间的区别。在这种情况下,当我
从
s3加载数据时,什么是RDD?感谢有人能解释RDD、
dataframe
和数据集之间的区别。
浏览 1
提问于2019-08-20
得票数 2
2
回答
Deeplearning4j to
spark
管道:将字符串
类型
转换为org.apache.
spark
.mllib.linalg.VectorUDT
、
、
、
现在,我需要将该程序添加到apache
spark
管道
中
。这样做的时候,我有一个扩展org.apache.
spark
.ml.classification.ProbabilisticClassifier的类MovieReviewClassifier,我必须在管道
中
添加该类的一个实例
dataFrame
= sqlContext.read().format("com.databricks.
spark
.csv") .option(&quo
浏览 3
提问于2016-02-19
得票数 1
1
回答
在.NET火花中遍历数据帧
、
我在
Spark
中有一个
dataframe
(通过读取csv
创建
),如
何在
C#
中
遍历这个数据文件
中
的行。
dataframe
中有10行3
列
,在逐行导航时,我希望获得每个
列
的值。以下是我正在尝试的:{} foreach语句不能对“
DataFrame
”
类型
的变量进行操作,因为“<
浏览 4
提问于2022-11-09
得票数 0
回答已采纳
2
回答
处理
Spark
中
的所有
列
/整行
、
、
对于包含字符串和数字数据
类型
混合的
dataframe
,目标是
创建
一个新的features
列
,它是所有这些
类型
的minhash。虽然这可以通过执行
dataframe
.toRDD来完成,但是当下一步只是简单地将RDD转换回数据格式时,这样做是很昂贵的。那么,是否有一种方法可以按照以下思路执行udf:当然,Row不是
spark
sql数据
类型</em
浏览 1
提问于2018-03-22
得票数 4
回答已采纳
1
回答
spark
-cassandra-connector -
从
Dataframe
创建
表格- StructType?
、
、
我正试着
从
Spark
数据帧
中
写给Cassandra。当我有一个简单的数据帧模式时,
如
示例中所示,它可以工作: |-- id: string (nullable = true) at com.datastax.
spark
.connector.mapper.DataFrameColumnMapper$$anonfun$1.apply(DataFrameColumnMapper.s
浏览 4
提问于2016-06-27
得票数 1
2
回答
我是否可以更改作为表加载到Server的
Spark
dataframe
列
的数据
类型
?
、
、
、
我试图
从
Azure数据湖读取一个Parquet文件,使用下面的Pyspark代码。加载到
中
的一个表
中
: .format("com.databricks.
spark
.sqldw") \ .option("url", "test111") \ .save() 这将在
中
<
浏览 0
提问于2019-01-15
得票数 3
2
回答
什么时候在PySpark中使用UDF与函数?
、
、
、
、
我在使用
Spark
和Databricks,并有以下代码: return when(col(column) !
浏览 1
提问于2019-05-09
得票数 7
回答已采纳
2
回答
Spark
SQL -隐式
创建
模式与以编程方式
创建
模式的确切区别
、
我正在尝试理解隐式
创建
模式和以编程方式
创建
模式之间的确切区别,以及在什么特定场景
中
可以使用哪种方法。在编程风格
中
,我们将数据集加载为文本文件(类似于反射)。Creating a SchemaString (String) =“了解文件,我们可以指定我们需要的
列
”(
浏览 2
提问于2016-01-31
得票数 2
1
回答
向星火中的列表添加数据
、
、
、
、
我试图根据其中一个数据
创建
"n“dataframes。我正在检查column在
dataframe
中
的整数值,并循环sql语句以
创建
"n“dataframes和
列
中
的Integers一样多。这是我的密码: val maxvalue =
spark
.sql("SELECT MAX(column4) as maxval FROM mydata").collect()(0).getInt(0)query = "SELECT co
浏览 2
提问于2017-01-31
得票数 4
回答已采纳
1
回答
阵列熊猫
列
dType
、
、
我有一些数据在我的数据框架
中
建模有困难,这样就可以很容易地处理并且节省内存。数据
从
CSV文件
中
读取,其中有4
列
ID、Date、LID和data以及600 k行。,我无法限制数据
列
中
的数组
类型
,我知道,当数据
类型
不是数组而是例如整数时,这是可能的。所以我的问题是,这是一个合理的数据框架
结构
吗?如果是这样的话,我如
何在
读取CSV文件时将数据
列
的数组元素限制为int16。下面是我可以定义数据
列</
浏览 1
提问于2017-10-02
得票数 3
回答已采纳
1
回答
spark
Dataframe
字符串到配置单元变量字符
、
、
、
我通过
spark
JDBC连接到
DataFrame
从
Oracle读取数据。我有一个
列
,它显然是
dataframe
中
的StringType。现在我想在Hive
中
持久化它,但是作为数据
类型
Varchar(5)。我知道字符串会被截断,但这没问题。 我尝试使用UDF,但由于
dataframe
没有varchar或char
类型
,因此UDF不起作用。我还使用以下命令在Hive
中
创建
了一个临时视图
浏览 0
提问于2018-04-23
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
Spark之SparkSQL
一个Python大数据处理利器:PySpark入门指南
教程:Apache Spark SQL入门及实践指南!
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券