腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2835)
视频
沙龙
1
回答
将
数据
帧
从
spark
集群
写入
cassandra
集群
:
分区
和
性能
调
优
、
、
、
、
Cloud -
Cassandra
集群
,多个DC我该如何
调
优
呢?重新划分是罪魁祸首吗?但现在,我怀疑这是否会导致不必要的洗
浏览 25
提问于2020-06-08
得票数 1
回答已采纳
1
回答
将
大型
Spark
数据
帧
写入
Cassandra
-
性能
调
优
、
、
我在
Spark
2.1.0 /
Cassandra
3.10
集群
(4台机器* 12个内核* 256个RAM *2个SSD)上工作,并在相当长的一段时间内努力提高使用
spark
-
Cassandra
-connector2.0.1向
cassandra
写入
特定大
数据
帧
的
性能
。field7 list<FROZEN<some_other_type>>, PRIMARY KEY
浏览 2
提问于2017-05-12
得票数 1
2
回答
在一致性LOCAL_ONE的简单写查询过程中
Cassandra
超时
、
、
、
、
在我的星星之火项目中,我使用星火-sql 3.0.2
和
星火-卡桑德拉-连接器_2.12:3.1.0以及java8。当我写到卡桑德拉表时,我面临下面的错误 在一致性LOCAL_ONE的简单
写入
查询过程中,
Cassandra
超时(需要一个副本,但只有0确认
写入
) 请在com.datastax.
spark
.connector.writer.AsyncStatementWriter$anonfun$run$7(WriteToDataSourceV2Exec.scala:450) at org.ap
浏览 11
提问于2022-07-15
得票数 1
2
回答
如何提高SaveAsTable
性能
?
、
、
我正在运行一个
spark
streaming应用程序,但当我最终将其保存到hive时,它需要更多的时间,比如第一个流迷你批次大约50秒的15kb
数据
,这是注意到SPARKUI SQL选项卡,而且它也增加了每一个迷你批次的
spark
streaming,org.apache.
spark
.sql.DataFrameWriter.saveAsTable
浏览 2
提问于2017-09-07
得票数 0
1
回答
synapse管道中的DF-Executor-OutOfMemoryError
、
、
、
、
但是当我尝试一个10 DB大小的完整
数据
库备份文件时,它给出了错误。 这个10 GB的文件生成3个单独的json,因为它有3次DOCS列。第一个文件是9.6 is,另外两个文件很小,比如120MB
和
10KB。对于第一个文件,当我试图在Synapse DWH中加载它时,我会在error下面显示。另外,请注意
数据
流有一个或多个自定义
分区
方案。1.请使用具有更大核心计数
和
/或内存优化计算类型的集成运行时重试。2.请使用不同的
分区
方案
和
/或
分区</e
浏览 12
提问于2021-11-09
得票数 1
1
回答
得到com.datastax.
spark
.connector.writer.QueryExecutor BusyPoolException,我做错什么了?
、
、
、
、
我使用星星之火-SQL2.4.1,星火-卡桑德拉-连接器_2.11-2.4.1与java8
和
ApacheCassandra3.0版本。我有我的星星之火提交或星火
集群
环境,如下所示,加载20亿条记录。=1500
cassandra
.output.batch.size.bytes=2048
cassandra
.output.co
浏览 0
提问于2019-09-10
得票数 0
回答已采纳
1
回答
使用
spark
将
cassandra
数据
保存到s3的最佳方法
、
、
、
、
我有一个大小约为150 GB的
cassandra
表。我想将表迁移到不同的
cassandra
集群
。我这里有两种方法: 使用
spark
作业
从
旧
集群
读取
数据
并
写入
新
集群
。使用某种格式
将
cassandra
数据
保存到S3。
将
数据
保存到S3后,使用
spark
再次读取
数据
,
将
数据
保存到新<
浏览 1
提问于2017-12-06
得票数 0
2
回答
使用Kundera ORM实现
Cassandra
的
写入
性能
、
、
、
我不打算对这些
数据
做太多的分析(这将在下游系统中完成)。但我被期望持久化这些
数据
,并允许运行即席查询。我的系统的几个特征 (1) 99%
写入
-1%读取(2)高
写入
吞吐量(每秒约30000个事件,每个事件具有约100个属性) (3)
数据
的动态性质。不能符合固定架构。这些特性使我想到Apache
cassandra
作为一种选择,可以使用widerow功能或map来存储我的属性。我使用单节点
和
Kundera ORM编写要映射的事件的示例很少,并且获得了每秒1500个事件的最大
浏览 2
提问于2015-12-29
得票数 1
1
回答
Delta Lake:
性能
挑战
、
方法1:我的输入
数据
是一堆json文件。经过预处理后,输出为pandas
数据
帧
格式,该格式
将
写入
Azure SQL
数据
库表。方法2:我已经实现了delta lake,其中输出pandas
数据
帧
被转换为
Spark
数据
帧
,然后
将
数据
插入到
分区
的Delta Table中。这个过程很简单,而且
将
pandas
数据
浏览 8
提问于2020-10-28
得票数 1
2
回答
演示SQL
调
优
策略的测试方案
、
、
、
有没有地方可以找到测试用例来演示不同的SQL
调
优
策略?例如,如果表上的
集群
因子不好,而oracle执行表扫描而不是索引访问,我希望有一个包含所需
数据
的测试场景来演示坏的
集群
。类似地,演示错误的联接顺序、
分区
和
其他
调
优
主题的场景
将
非常有帮助。
浏览 1
提问于2011-02-23
得票数 1
回答已采纳
1
回答
OpsCenter密钥空间推荐的复制策略是什么?
、
、
我使用OpsCenter来监视
和
配置我的
Cassandra
集群
(它实际上是一个DSE
集群
),并且我有一个跨多个
数据
中心的密钥空间。正如所说,使用专用
数据
中心需要我们手动监视
和
缩放OpsCenter节点,我想知道OpsCenter密钥空间推荐的复制策略
和
因素是什么,以便存储OpsCenter
数据
对生产节点的
性能
影响有限,而当我缩放生产
数据
中心时,需要进行最小的
调
优
?
浏览 0
提问于2014-10-11
得票数 0
回答已采纳
1
回答
读取Hive表并
写入
Cassandra
表
、
、
、
、
我在Cloudera
集群
中的Hive中有一些按daily_date列
分区
的外部表。 我还有DataStax Enterprise
Cassandra
集群
,我在其中创建了与Hive表结构相同的表。问:我想将表格
数据
从
Hive表格导出/
写入
相应的
Cassandra
表格。 有没有Hive到
Cassandra
的连接器?或者我需要在
Spark
中做这件事,如果是的话,怎么做?
浏览 35
提问于2020-06-17
得票数 0
回答已采纳
1
回答
在
Cassandra
节点上创建负载的多个压实活动
、
由于负载高,我们PROD
集群
中的一些节点出现了黄、RED甚至。但是节点仍然在工作。所有这些都发生在此节点上运行的压缩活动中。
浏览 0
提问于2019-02-12
得票数 0
2
回答
如何优化
Spark
向S3
写入
大量
数据
、
、
、
我在EMR上使用Apache
Spark
做了相当多的ETL。 我对获得良好
性能
所需的大部分
调
优
都相当满意,但我有一项工作似乎搞不懂。、
spark
.sql.shuffle.partitions
和
spark
.default.parallelism参数是根据
集群
的大小计算的。,我得到了一个巨大的资源峰值,但是
数据
的实际
写入
只使用了很小一部分资源,并且运行了几个小时。我不认为主要问题是
分区
偏差,因为
浏览 0
提问于2020-01-07
得票数 5
1
回答
Scala火花卡桑德拉更新或插入主键匹配的行
、
、
、
我正在
将
数据
从
csv文件(每个表1个)迁移到
Cassandra
数据
库,该
数据
库使用预先确定的标准化格式。因此,我正在对SQL
数据
进行转换、联接等,以便在将其
写入
Cassandra
之前使其与此格式匹配。我的问题是,这个db迁移是分批进行的(不是同时发生的),而且我无法确保在
写入
到
Cassandra
的条目时,来自表联接的多个方面的信息都会出现。 例如。表1
和
表2都有
分区</em
浏览 1
提问于2017-09-20
得票数 2
回答已采纳
2
回答
ApacheSpark2.1-- Row对象的Scala长/重属性
、
、
、
我们已经用Scala2.11编写了一个
spark
应用程序,它运行在
Spark
2.1.0独立
集群
上。也有匹配的案例类来使用星火
数据
集。对于一个行对象的这种冗长/繁重的属性如何影响
性能
,我并不担心?我们可以对代码进行哪些优化以提高
性能
?对
集群
调
优
有什么建议吗?我们已经在进行以下优化- 使用带snappy压缩的parquet文件格式
浏览 0
提问于2017-11-09
得票数 2
2
回答
通过
spark
加载
数据
以点燃
、
我正在从hdfs加载
数据
以通过
spark
点燃。原始
数据
大约是5 5GB的拼图快的格式(大约0.5Bn行)。在加载
数据
时,只要在持久内存中有空间,它就会运行得很快。我尝试了一些建议的配置(GC
调
优
、堆上存储),但都没有显著提高加载速度。由于ignite memory-store不会压缩<
浏览 1
提问于2019-06-18
得票数 1
2
回答
为什么我不需要在查询中包含所有的
分区
键?
、
目前我在
和
卡桑德拉打交道。 AND bloom_filter_fp_chance=0.01 AND compaction={ 'class':'org.apache.
cassandra
.db.compaction.SizeTieredCompactionStrategy:
浏览 2
提问于2018-11-28
得票数 0
回答已采纳
4
回答
如何
将
星星之火df.write jdbc加速到postgres
数据
库?
、
、
、
我刚刚开始使用df.write,并试图加快将
数据
have的内容追加到postgres
数据
库(可以有200到200万行)的速度: driver=
spark
_env['PSQL_DRIVER'], dbtable="{schema}.
将
数据
保存到postgres表的任务只分配给一个执行者(我觉得这很奇怪),加快这个任
浏览 6
提问于2019-11-03
得票数 16
回答已采纳
1
回答
如何在Apache中重新划分CassandraRDD
、
、
、
、
我使用的是3 Node
Cassandra
集群
和
6
Spark
,每个
集群
都有1核心
和
2GB内存。使用,我尝试
从
拥有超过300 K行的
Cassandra
中获取整个
数据
,并尝试进行一些聚合。但从卡桑德拉那里获取
数据
需要很长时间。我还浏览了
Spark
,我看到 stage有3个
分区
,其中两个
分区
执行得非常快(在几秒钟内),而第三个
分区
则需要很长时间(7
浏览 6
提问于2015-04-03
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark的内存管理和调优机制
存储量扩大千倍,Discord 是如何使用Rust语言和ScyllaDB数据库来改进架构的?
Spark关键性能考量
大规模集群故障处理,能抗住这3个灵魂拷问算你赢
每天读一本:Spark快速大数据分析
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券