腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6923)
视频
沙龙
1
回答
Spark
Scala
联合
失败
,
尽管
两个
数据
帧
具有
相同
的
模式
、
、
在Windows上,
Spark
2.3.1我尝试合并
两个
数据
帧
。
尽管
两者都有
相同
的
模式
,但我得到了一个错误,说"Union只能在
具有
兼容列类型
的
表上执行“,我不明白为什么。因为我已经完成了第二次转换,以便为第二个
数据
帧
获得所需
的
模式
。import breeze.linalg._ import org.ap
浏览 0
提问于2018-08-24
得票数 1
回答已采纳
1
回答
如何合并或连接
spark
中列号不相等
的
数据
帧
、
、
、
、
我正在做一个使用
spark
的
项目。在某些阶段,我需要在单个
数据
帧
中合并或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我使用了
联合
函数,它已经合并了
两个
表中
具有
相同
编号
的
列,但我也需要合并不相等
的
列值。我现在很困惑,有没有办法在pyspark中合并或连接不相等
的
基于列
的
数据</e
浏览 13
提问于2016-09-22
得票数 0
1
回答
Spark
structured streaming -
联合
两个
或多个流媒体源
、
、
、
我使用
的
是
spark
2.3.2,在对来自Kafka
的
2个或更多流媒体资源进行
联合
时遇到了一个问题。这些都是来自Kafka
的
流媒体源,我已经将它们转换并存储在Dataframes中。理想情况下,我希望将此UNIONed
数据
帧
的
结果以parquet格式存储在HDFS中,甚至可能存储回Kafka中。最终目标是以尽可能低
的
延迟存储这些合并
的
事件。$$anonfun$runActivatedStream$1$$anonfun
浏览 52
提问于2019-07-02
得票数 1
回答已采纳
1
回答
单元测试中
的
Spark
Dataframe比较以检查功能
、
、
、
、
我已经创建了一些方法来将
数据
帧
转换为所需
的
格式,并根据错误规则过滤多个错误检查和更新
数据
帧
。 我是一个在intelliJ上用
scala
编写单元测试
的
新手。我必须编写单元测试来将实际
数据
帧
与预期结果进行比较。 下面是我为
数据
帧
的
pivot功能编写
的
单元测试用例。类似地,我必须将获得
的
数据
集与预期
的
数据</
浏览 4
提问于2021-09-13
得票数 1
1
回答
有没有什么方法可以让我在一个pyspark脚本中从10个不同
的
模式
中拉取
数据
?
、
、
、
我在SQL server上有一些
数据
,这些
数据
存储在10个不同
的
模式
中。
尽管
表结构在所有
模式
中都是
相同
的
。有没有什么方法可以让我在一个pyspark脚本中提取所有的
数据
?另一种方法是为10个
模式
创建10个
数据
框,然后
联合
所有
模式
,这将需要我访问sql服务器10次。例如,如下所示: df1 =
spark
.sql("""
浏览 10
提问于2020-05-19
得票数 0
2
回答
Spark
从多个列表/数组创建
数据
帧
、
、
因此,我在
Spark
(
scala
)中有
两个
列表。它们都包含
相同
数量
的
值。第一个列表a包含所有字符串,第二个列表b包含所有长字符串。String] = List("a", "b", "c", "d") b: List[Long] = List(17625182, 17625182, 1059731078, 100) 我还有一个定义如下
的
模式
StructField("check_nam
浏览 11
提问于2021-03-15
得票数 0
回答已采纳
1
回答
Spark
:无法构建大于8G
的
HashedRelation
、
当我在一个80节点
的
集群上运行Azure HDInsight 3.6时,我在
Spark
2.3中遇到了这个异常: java.lang.UnsupportedOperationException: Canjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) 在执行6个表之间
的
联合
时这个
联合
在
相同
大小和<e
浏览 44
提问于2020-07-02
得票数 0
回答已采纳
1
回答
从多个文件读取
Spark
数据
帧
、
、
假设您有
两个
s3存储桶,您想要从中读取
spark
数据
帧
。对于在
spark
数据
帧
中读取
的
一个文件,将如下所示: file_1 = ("s3://loc1/") df =
spark
.read.option("MergeSchema","True").load(file_1) 如果我们有
两个
文件: file_1 = ("
浏览 9
提问于2021-10-18
得票数 0
回答已采纳
3
回答
如何比较SQL语句中两种
数据
的
模式
?
、
、
在
spark
(如 )中,有许多方法来验证
两个
数据
帧
的
架构。但是我只想在SQL中验证
两个
数据
帧
的
模式
,我指的是SparkSQL。中没有
数据
库(
模式
)
的
概念,但是我读到了包含
模式
信息等
的
亚稳态。我们可以在SparkSQL中编写像上面这样
的
SQL查询吗?我只是在检查为什么显示create没有使用
s
浏览 6
提问于2018-09-04
得票数 1
1
回答
如何在
Scala
中合并三个DataFrame
、
、
、
如何在
Spark
-
Scala
中合并3个DataFrame?我完全不知道如何才能做到这一点。在stackOverFlow上我找不到类似的例子。| 3 |BBBB |NA_M|332|+----+------+----+---+ 我想要这种类型
的
DataFrame
浏览 1
提问于2018-03-15
得票数 3
回答已采纳
3
回答
字符串列包含通过
spark
scala
进行精确匹配
的
单词
、
、
我有
两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个
具有
多个关键字
的
列。即下面的Dataframe-1外观相似(我们必须搜索
的
地方):
数据
帧
-2:我想要
的
输出:我在这里使用
spark
scala
。我想要一个与dataframe-1中
的</
浏览 1
提问于2021-02-12
得票数 0
2
回答
Spark
联合
列顺序
、
、
、
我最近在
Spark
遇到了一些奇怪
的
事情。据我所知,根据
spark
dfs
的
基于列
的
存储方法,列
的
顺序实际上没有任何意义,它们就像字典中
的
键。| 1| asd|| 3| f1f||asda| 2|+----+----+ 看起来使用了df1中
的
模式
,但
数据</e
浏览 3
提问于2019-07-09
得票数 26
回答已采纳
1
回答
合并
具有
不同
模式
的
两个
地块文件
、
、
、
我有
两个
拼图文件,拼花A有137列,拼花B有110列。拼图文件包含表
的
整个历史记录。因此,拼图A拥有表
的
整个历史记录
的
所有字段。拼图B是我今天拉入
的
所有值,删除了17列。我想把拼花A和拼花B结合起来,但它们没有
相同
数量
的
柱子。所以每次都会
失败
。 我尝试过mergeSchema,但
失败
了。是否可以将缺少
的
列添加到拼接B并添加空值。那就加入工会吧?
浏览 19
提问于2018-09-06
得票数 0
1
回答
如何在
spark
中连接
两个
数据
帧
并添加字段
、
、
、
例如,我有
两个
数据
帧
, DF1|id | value1|value2|value3|| 2 |200 |300 |400 |+----+-------+------+------+ 我想按id合并这
两个
数据
帧
,同时将
两个
数据
帧
中
具有<
浏览 19
提问于2019-03-30
得票数 1
3
回答
使用
Scala
和Python
联合
Spark
数据
格式时
的
不同分区号
、
、
、
、
我正在检查2完全
相同
的
Spark
的
联合
分区
的
数目,并注意到结果在
Scala
和Pyhton之间并不
相同
。结果: df1
浏览 6
提问于2020-06-12
得票数 1
回答已采纳
3
回答
为什么我希望在SchemaRDDs中使用.union而不是.unionAll?
、
、
、
、
我想把这
两个
函数放在里- 返回这个RDD和另一个RDD
的
联合
。def unionAll(otherPlan: SchemaRDD):SchemaRDD我这里
的
代码,借用了,有
两个
函数返回
相同
的
结果。<em
浏览 0
提问于2015-03-12
得票数 16
回答已采纳
1
回答
如何将
两个
spark
Dataframe与可以不同
的
struct类型
的
字段合并?
、
、
、
一个帐户有3个必填字段和
两个
选项。所以我有一个
数据
帧
,它
的
字段可以有3种不同
的
类型。在dataframe中导入文件没什么大不了
的
,但在扁平化过程中,我可能希望对
两个
具有
不同
模式
的
帐户
的
dataframe进行
联合
,当然,我有以下错误:“
联合
只能在
具有
兼容列类型
的
表上执行”。
spark
怎么才能顺利导入这样
的
浏览 0
提问于2018-02-12
得票数 3
2
回答
从Pandas
数据
帧
创建
Spark
DataFrame错误
、
、
、
、
我正在尝试从Pandas Dataframe创建
Spark
Dataframe,并尝试了许多解决方法,但仍然
失败
。我曾尝试使用
具有
2000列和数十万行
的
pandas
数据
帧
执行上述操作,但我创建了上面的测试df,以确保
数据
帧
不会出现问题。事实上,我得到了完全
相同
的
错误:: java.util.NoSuc
浏览 0
提问于2018-03-20
得票数 0
3
回答
如何使用createDataFrame创建pyspark
数据
帧
?
我知道这可能是一个愚蠢
的
问题。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
1
回答
如何在
spark
Scala
中将
模式
从另一个文件添加到文件
、
、
、
我在
Spark
中工作,使用
Scala
我有
两个
csv文件,一个
具有
列名,另一个
具有
数据
,我如何将这
两个
文件集成在一起,以便我可以生成一个
具有
模式
和
数据
的
结果文件,然后我必须对该文件应用诸如groupby、cout等操作,因为我需要计算这些列中
的
不同值。所以有没有人能帮上忙呢 我写了下面的代码,在读取了这
两个
文件之后,我从这
两个
文件中生成了
浏览 17
提问于2019-01-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
GitHub标星2400,Netflix开源笔记本工具Polynote
Apache Spark框架下,Python与Scala谁更胜一筹?
2018年数据科学前15名的Scala库
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Scala对于大数据开发重要吗?Scala基础学习建议
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券