腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
重新
分区
和
spark.sql.shuffle.partition
中
的
火花
差异
、
、
、
我正在
和
--conf spark.sql.shuffle.partitions=100一起运行一个spark程序 在应用程序内部,我有以下内容 Dataset<Row> df_partitioned我
的
问题是,这是将数据划分为500万个
分区
还是100个
分区
,每个用户
的
执行工作是如何进行
的
。
浏览 19
提问于2019-04-05
得票数 1
1
回答
如何-分散作业,以免耗尽内存
、
、
、
、
我试图运行一些
火花
作业,但通常执行者会耗尽内存:>>> sqlContext.getConf("spark.sql.shuffle.partitions")
浏览 9
提问于2017-02-06
得票数 2
回答已采纳
2
回答
排序后
的
数据
分区
的
数目?
、
如何在使用orderBy后确定
分区
的
数量?我一直认为生成
的
数据true具有spark.sql.shuffle.partitions,但这似乎不正确:在这两种情况下,spark都执行+- Exchange rangepartitioning(i/n ASC NULLS FIRST, 200)操作,那么在第二种情况下,如何将得到
浏览 1
提问于2018-12-14
得票数 5
回答已采纳
1
回答
基于cassandra表
分区
键
的
火花
数据保持
、
、
从Cassandra表加载数据时,
火花
分区
表示具有相同
分区
键
的
所有行。但是,当我使用相同
的
分区
键在spark
中
创建数据并使用.repartitionByCassandraReplica(.)
重新
划分新
的
RDD时方法,它最终会在一个不同
的
火花
分区
中
结束?如何使用连接器定义
的
分区
方案来实现
火花
中
的
浏览 4
提问于2015-11-24
得票数 1
回答已采纳
1
回答
火花
再划分
、
、
、
什么是需要
重新
划分数据。如何确定
火花
中
的
重新
分区
大小。DF.repartition(num)
浏览 1
提问于2020-05-05
得票数 0
回答已采纳
1
回答
星火结构流生产者是使用卡夫卡默认
分区
之间
的
星火
分区
还是仅在
分区
内?
、
、
、
如果我们有相同密钥
的
记录在不同
的
火花
分区
中
,那么Kafka
分区
(使用默认的卡夫卡
分区
按键)是否会被
火花
卡夫卡作者正确地发送
分区
呢?例如,在写到Kafka之前,我们有这样
的
火花
分区
:| ------- | ----------------- || key1
浏览 7
提问于2022-06-21
得票数 -1
1
回答
mapreduce与
火花
分析
的
区别
、
、
、
我想问一下,在使用Hadoop/MapReduce
和
Spark时,在数据
分区
方面有什么显著
的
区别吗?它们都在HDFS(TextInputFormat)上工作,所以理论上应该是相同
的
。是否有数据
分区
过程可能不同
的
情况?任何见解都会对我
的
学习很有帮助。 谢谢
浏览 4
提问于2016-09-23
得票数 8
回答已采纳
1
回答
如何确保每个
火花
DataFrame
分区
不超过给定
的
数据大小(MB)
在一次
火花
数据访问操作
中
,我发现每个任务
的
输入大小(MB)都有很大
的
差异
。一些任务
的
大小几乎为1GB,而另一些任务
的
大小为15 1GB。较高
的
输入大小将导致执行器丢失。但是我想知道,有什么方法可以
重新
划分DataFrame,使每个
分区
的
大小不超过给定
的
大小(MB)。
浏览 4
提问于2016-03-26
得票数 0
1
回答
如何在
重新
分区
和合并
中
确定RDD
的
preferredLocation?
、
RDD什么时候得到它
的
首选位置?如何确定首选位置?我在
重新
分区
和合并中看到了一些奇怪
的
行为,我无法理解: 1.当从n到n-1
分区
合并时,我看到
火花
只是将一个
分区
合并到另一个
分区
。(我认为理想
的
行为应该是均匀分布在所有的n-1节点上) 上述行为与preferedLoc
浏览 0
提问于2016-12-06
得票数 0
2
回答
每个
分区
中
对象数
的
火花
合并
我们开始在我们
的
团队
中
尝试
火花
。在我们减少工作在
火花
,我们想写结果到S3,但我们想避免收集
火花
的
结果。目前,我们正在将这些文件写入RDD
的
Spark,但是这导致了大量
的
小文件。我们希望能够将数据聚合到由写入文件
的
对象数量所划分
的
几个文件
中
。例如,我们
的
总数据是1M对象(这是常数),我们希望生成400K对象文件,而我们当前
的
分区
产生大约20k<em
浏览 2
提问于2018-12-18
得票数 1
回答已采纳
2
回答
2具有相同消费群id
的
火花
流作业
、
、
} ssc.awaitTermination(); } 当我同时运行两个
火花
流作业时线程"main“
中
的
异常:在org.apache.kafka.clients.consumer.internals.SubscriptionState.assignedState(SubscriptionState.javaorg.apache.spark.streaming.kafka010.DirectKafkaInputDStream.lat
浏览 0
提问于2018-05-27
得票数 2
回答已采纳
1
回答
洗牌
分区
与再
分区
的
区别
、
我是一个新手,在
火花
,我试图了解洗牌,
分区
和
重新
划分功能。但我还是不明白他们有什么不同。两者都减少了
分区
的
数量?? 谢谢
浏览 7
提问于2022-06-09
得票数 0
1
回答
如何计算repartitionByCassandraReplica.JoinWIthCassandraTable()
和
DirectJoin=AlwaysOn
的
输入大小?
、
、
我知道这两种方法在确定
火花
分区
时遵循不同
的
策略:对于DirectJoin,我在输入列
中
得到了36.9Gb大小,它需要4.5分钟来进行连接
和
计数。问题1 对于这两种连接策略
中
的
每一种,阶段选项卡
的
输入列是如何计算
浏览 6
提问于2022-09-26
得票数 0
回答已采纳
1
回答
是否在HDFS集群上
重新
分配数据?
、
、
我正在阅读Hadoop
和
Spark文档,以了解spark如何在Hadoop集群上工作。根据Hadoop文档,Hadoop集群是一组具有计算和数据存储能力
的
通用硬件,它们还假定“移动计算比移动数据便宜”。 现在,当我处理一个大文件,它是存储在HDFS上使用
火花
。Spark是否会随机地将文件
中
的
数据
重新
分发到Hadoop集群,或者它知道存储数据
分区
的
节点将要求各自
的
节点处理其数据?我提出了这个问题,因为没有提到
火花
如何处
浏览 11
提问于2022-09-13
得票数 1
回答已采纳
1
回答
数据集预测是否受益于数据集
分区
?
我们希望使用来加快过滤
和
连接到一个具有数千个小(kb大小)文件
的
大增量数据集上。是否建议将主数据集( transforms.api.IncrementalTransformOutput.write_dataframe()与partitionBy=[col1, col2,...])进行
分区
,以减少文件数量,或者这是否是多余
的
工作,因为它无论如何都是由预测完成
的
?如果建议优化主要数据集,是否有关于何时进行这一工作
的
指导方针?
浏览 3
提问于2022-09-07
得票数 1
1
回答
需要帮助理解
火花
放电在纱线上
的
执行
、
、
在Hadoop集群上,我已经有了一些纱线结构
的
图片,以及
火花
architecture.But,当我试图理解它们时(这就是当spark作业以主身份运行在纱线上时所发生
的
情况),我正在进入一些confusions.So根据我
的
理解,一旦我提交了关于纱线
的
火花
作业, 应用程序管理员接管
浏览 0
提问于2018-11-03
得票数 1
1
回答
蜂窝
分区
到
火花
分区
、
出于效率
的
原因,我们需要处理一个大
的
数据集。数据源驻留在Hive
中
,但具有不同
的
分区
条件。换句话说,我们需要从蜂巢检索数据到
火花
,并在星火中
重新
分区
。但是在Spark中有一个,当数据被持久化时,它会导致
重新
排序/
重新
分配
分区
(无论是对parquet还是ORC)。因此,我们在星火中
的
新
分区
丢失了。作为一种选择,我们正在考虑在一个新
的
Hiv
浏览 0
提问于2018-07-30
得票数 0
1
回答
当从cassandra源读取数据时,spark
中
的
重新
分区
会改变spark
分区
的
数量吗?
、
、
我正在从spark
的
cassandra表
中
读取一张表。我在cassandra中有很大
的
分区
,当cassandra
的
分区
大小超过64MB时,在这种情况下,cassandra
分区
将等于spark
分区
。由于
分区
太大,我在spark
中
遇到了内存问题。 我
的
问题是,如果我在从cassandra读取数据后开始
重新
分区
,spark
分区
的
数量会
浏览 48
提问于2021-06-07
得票数 1
2
回答
星火流
和
卡夫卡:一个集群还是几个独立
的
盒子?
、
、
我有一个Kafka主题(我可以将它分成几个主题),每分钟排队几十万条消息,我
的
星火流应用程序通过应用转换获取消息,然后更新UI。知道在Kafka
中
处理了所有故障并复制了数据,为实现尽可能好
的
性能
和
健壮性,实现星火流应用程序
的
最佳选择是什么: 我很想选择第二种选择
浏览 4
提问于2016-01-04
得票数 1
1
回答
火花
LuceneRDD -它是如何工作
的
、
、
、
、
有一个官方
的
例子val luceneRDD请回答以下问题: 我可以为luceneRDD设置
分区
数吗?
浏览 4
提问于2017-05-31
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
浅谈Java中StringBuilder和StringBuffer的应用于差异
Python2和Python3 中默认编码的差异
比较了一下中芯国际和华为,发现一些惊人的相似和差异
战略白皮书:《为什么数字化转型正在重新定义人、技术和设备在医疗中的交互方式》
我要磁盘分区能压缩还能扩展,不给教程就捣蛋!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券