将数据帧从spark集群写入cassandra集群:分区和性能调优

、、、、

Cloud - Cassandra集群，多个DC我该如何调优呢？重新划分是罪魁祸首吗？但现在，我怀疑这是否会导致不必要的洗

浏览 25提问于2020-06-08得票数 1

回答已采纳

1回答

将大型Spark数据帧写入Cassandra -性能调优

、、

我在Spark 2.1.0 / Cassandra 3.10集群(4台机器* 12个内核* 256个RAM *2个SSD)上工作，并在相当长的一段时间内努力提高使用spark- Cassandra -connector2.0.1向cassandra写入特定大数据帧的性能。field7 list<FROZEN<some_other_type>>, PRIMARY KEY

浏览 2提问于2017-05-12得票数 1

2回答

在一致性LOCAL_ONE的简单写查询过程中Cassandra超时

、、、、

在我的星星之火项目中，我使用星火-sql 3.0.2和星火-卡桑德拉-连接器_2.12:3.1.0以及java8。当我写到卡桑德拉表时，我面临下面的错误在一致性LOCAL_ONE的简单写入查询过程中，Cassandra超时(需要一个副本，但只有0确认写入) 请在com.datastax.spark.connector.writer.AsyncStatementWriter$anonfun$run$7(WriteToDataSourceV2Exec.scala:450) at org.ap

浏览 11提问于2022-07-15得票数 1

2回答

如何提高SaveAsTable性能？

、、

我正在运行一个spark streaming应用程序，但当我最终将其保存到hive时，它需要更多的时间，比如第一个流迷你批次大约50秒的15kb数据，这是注意到SPARKUI SQL选项卡，而且它也增加了每一个迷你批次的spark streaming，org.apache.spark.sql.DataFrameWriter.saveAsTable

浏览 2提问于2017-09-07得票数 0

1回答

synapse管道中的DF-Executor-OutOfMemoryError

、、、、

但是当我尝试一个10 DB大小的完整数据库备份文件时，它给出了错误。这个10 GB的文件生成3个单独的json，因为它有3次DOCS列。第一个文件是9.6 is，另外两个文件很小，比如120MB和10KB。对于第一个文件，当我试图在Synapse DWH中加载它时，我会在error下面显示。另外，请注意数据流有一个或多个自定义分区方案。1.请使用具有更大核心计数和/或内存优化计算类型的集成运行时重试。2.请使用不同的分区方案和/或分区</e

浏览 12提问于2021-11-09得票数 1

1回答

得到com.datastax.spark.connector.writer.QueryExecutor BusyPoolException，我做错什么了？

、、、、

我使用星星之火-SQL2.4.1，星火-卡桑德拉-连接器_2.11-2.4.1与java8和ApacheCassandra3.0版本。我有我的星星之火提交或星火集群环境，如下所示，加载20亿条记录。=1500cassandra.output.batch.size.bytes=2048cassandra.output.co

浏览 0提问于2019-09-10得票数 0

回答已采纳

1回答

使用spark将cassandra数据保存到s3的最佳方法

、、、、

我有一个大小约为150 GB的cassandra表。我想将表迁移到不同的cassandra集群。我这里有两种方法：使用spark作业从旧集群读取数据并写入新集群。使用某种格式将cassandra数据保存到S3。将数据保存到S3后，使用spark再次读取数据，将数据保存到新<

浏览 1提问于2017-12-06得票数 0

2回答

使用Kundera ORM实现Cassandra的写入性能

、、、

我不打算对这些数据做太多的分析(这将在下游系统中完成)。但我被期望持久化这些数据，并允许运行即席查询。我的系统的几个特征 (1) 99%写入-1%读取(2)高写入吞吐量(每秒约30000个事件，每个事件具有约100个属性) (3)数据的动态性质。不能符合固定架构。这些特性使我想到Apache cassandra作为一种选择，可以使用widerow功能或map来存储我的属性。我使用单节点和Kundera ORM编写要映射的事件的示例很少，并且获得了每秒1500个事件的最大

浏览 2提问于2015-12-29得票数 1

1回答

Delta Lake:性能挑战

、

方法1:我的输入数据是一堆json文件。经过预处理后，输出为pandas数据帧格式，该格式将写入Azure SQL数据库表。方法2:我已经实现了delta lake，其中输出pandas数据帧被转换为Spark数据帧，然后将数据插入到分区的Delta Table中。这个过程很简单，而且将pandas数据

浏览 8提问于2020-10-28得票数 1

2回答

演示SQL调优策略的测试方案

、、、

有没有地方可以找到测试用例来演示不同的SQL调优策略？例如，如果表上的集群因子不好，而oracle执行表扫描而不是索引访问，我希望有一个包含所需数据的测试场景来演示坏的集群。类似地，演示错误的联接顺序、分区和其他调优主题的场景将非常有帮助。

浏览 1提问于2011-02-23得票数 1

回答已采纳

1回答

OpsCenter密钥空间推荐的复制策略是什么？

、、

我使用OpsCenter来监视和配置我的Cassandra集群(它实际上是一个DSE集群)，并且我有一个跨多个数据中心的密钥空间。正如所说，使用专用数据中心需要我们手动监视和缩放OpsCenter节点，我想知道OpsCenter密钥空间推荐的复制策略和因素是什么，以便存储OpsCenter数据对生产节点的性能影响有限，而当我缩放生产数据中心时，需要进行最小的调优？

浏览 0提问于2014-10-11得票数 0

回答已采纳

1回答

读取Hive表并写入Cassandra表

、、、、

我在Cloudera集群中的Hive中有一些按daily_date列分区的外部表。我还有DataStax Enterprise Cassandra集群，我在其中创建了与Hive表结构相同的表。问:我想将表格数据从Hive表格导出/写入相应的Cassandra表格。有没有Hive到Cassandra的连接器？或者我需要在Spark中做这件事，如果是的话，怎么做？

浏览 35提问于2020-06-17得票数 0

回答已采纳

1回答

在Cassandra节点上创建负载的多个压实活动

、

由于负载高，我们PROD集群中的一些节点出现了黄、RED甚至。但是节点仍然在工作。所有这些都发生在此节点上运行的压缩活动中。

浏览 0提问于2019-02-12得票数 0

2回答

如何优化Spark向S3写入大量数据

、、、

我在EMR上使用Apache Spark做了相当多的ETL。我对获得良好性能所需的大部分调优都相当满意，但我有一项工作似乎搞不懂。、spark.sql.shuffle.partitions和spark.default.parallelism参数是根据集群的大小计算的。，我得到了一个巨大的资源峰值，但是数据的实际写入只使用了很小一部分资源，并且运行了几个小时。我不认为主要问题是分区偏差，因为

浏览 0提问于2020-01-07得票数 5

1回答

Scala火花卡桑德拉更新或插入主键匹配的行

、、、

我正在将数据从csv文件(每个表1个)迁移到Cassandra数据库，该数据库使用预先确定的标准化格式。因此，我正在对SQL数据进行转换、联接等，以便在将其写入Cassandra之前使其与此格式匹配。我的问题是，这个db迁移是分批进行的(不是同时发生的)，而且我无法确保在写入到Cassandra的条目时，来自表联接的多个方面的信息都会出现。例如。表1和表2都有分区</em

浏览 1提问于2017-09-20得票数 2

回答已采纳

2回答

ApacheSpark2.1-- Row对象的Scala长/重属性

、、、

我们已经用Scala2.11编写了一个spark应用程序，它运行在Spark2.1.0独立集群上。也有匹配的案例类来使用星火数据集。对于一个行对象的这种冗长/繁重的属性如何影响性能，我并不担心？我们可以对代码进行哪些优化以提高性能？对集群调优有什么建议吗？我们已经在进行以下优化- 使用带snappy压缩的parquet文件格式

浏览 0提问于2017-11-09得票数 2

2回答

通过spark加载数据以点燃

、

我正在从hdfs加载数据以通过spark点燃。原始数据大约是5 5GB的拼图快的格式(大约0.5Bn行)。在加载数据时，只要在持久内存中有空间，它就会运行得很快。我尝试了一些建议的配置(GC调优、堆上存储)，但都没有显著提高加载速度。由于ignite memory-store不会压缩<

浏览 1提问于2019-06-18得票数 1

2回答

为什么我不需要在查询中包含所有的分区键？

、

目前我在和卡桑德拉打交道。 AND bloom_filter_fp_chance=0.01 AND compaction={ 'class':'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy:&#x

浏览 2提问于2018-11-28得票数 0

回答已采纳

4回答

如何将星星之火df.write jdbc加速到postgres数据库？

、、、

我刚刚开始使用df.write，并试图加快将数据have的内容追加到postgres数据库(可以有200到200万行)的速度： driver=spark_env['PSQL_DRIVER'], dbtable="{schema}.将数据保存到postgres表的任务只分配给一个执行者(我觉得这很奇怪)，加快这个任

浏览 6提问于2019-11-03得票数 16

回答已采纳

1回答

如何在Apache中重新划分CassandraRDD

、、、、

我使用的是3 Node Cassandra集群和6 Spark ，每个集群都有1核心和2GB内存。使用，我尝试从拥有超过300 K行的Cassandra中获取整个数据，并尝试进行一些聚合。但从卡桑德拉那里获取数据需要很长时间。我还浏览了Spark，我看到 stage有3个分区，其中两个分区执行得非常快(在几秒钟内)，而第三个分区则需要很长时间(7

浏览 6提问于2015-04-03得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将大型Spark数据帧写入Cassandra -性能调优

在一致性LOCAL_ONE的简单写查询过程中Cassandra超时

如何提高SaveAsTable性能？

synapse管道中的DF-Executor-OutOfMemoryError

得到com.datastax.spark.connector.writer.QueryExecutor BusyPoolException，我做错什么了？

使用spark将cassandra数据保存到s3的最佳方法

使用Kundera ORM实现Cassandra的写入性能

Delta Lake:性能挑战

演示SQL调优策略的测试方案

OpsCenter密钥空间推荐的复制策略是什么？

读取Hive表并写入Cassandra表

在Cassandra节点上创建负载的多个压实活动

如何优化Spark向S3写入大量数据

Scala火花卡桑德拉更新或插入主键匹配的行

ApacheSpark2.1-- Row对象的Scala长/重属性

通过spark加载数据以点燃

为什么我不需要在查询中包含所有的分区键？

如何将星星之火df.write jdbc加速到postgres数据库？

如何在Apache中重新划分CassandraRDD

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐