首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

RedShift -为什么不应该压缩sortykey列?

RedShift 是亚马逊 AWS 提供的一种完全托管的数据仓库解决方案,它使用列式存储和大规模并行处理(MPP)架构来处理大数据集。Sortkey 是 RedShift 中的一个重要概念,它用于指定数据表中按照哪个列进行排序和分区。在 RedShift 中,默认情况下,Sortkey 的列会进行自动压缩,但是有一些情况下不推荐压缩 Sortkey 列。

不应该压缩 Sortkey 列的主要原因是查询性能的损耗。当 Sortkey 列被压缩时,每个压缩块的大小会变大,这可能导致在查询时需要加载更多的数据块进入内存。而加载更多的数据块会增加磁盘IO和内存消耗,从而影响查询性能。

此外,压缩 Sortkey 列还会导致数据表的更新操作变得更加复杂。当一个数据块中的某一行需要进行更新时,如果该行所在的数据块中的其他行也使用了相同的压缩块,那么整个压缩块都需要解压缩、更新、重新压缩,这会引起额外的计算开销和IO消耗。

尽管不推荐压缩 Sortkey 列,但仍然建议在具体场景中根据数据特点和查询需求来确定是否需要压缩 Sortkey 列。如果数据表的 Sortkey 列是高基数(cardinality)的,即包含大量不同的值,那么压缩 Sortkey 列可能对性能影响较小。另外,如果数据表主要用于只读查询,而更新操作较少,压缩 Sortkey 列对性能的影响也可以接受。

在 RedShift 中,提供了一些相关的优化技巧和最佳实践来帮助提高查询性能,如选择合适的 Sortkey 列、使用 COPY 命令加载数据时指定 SORTKEY 和 COMPOUND SORTKEY 等。更多关于 RedShift 的信息和最佳实践,请参考腾讯云 RedShift 产品介绍页面:腾讯云 RedShift 产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

clickHouse

常见的列式数据库有:Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、...下面将详细介绍为什么会发生这种情况。 输入/输出 针对分析类查询,通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。...例如,如果只需要读取100中的5,这将帮助你最少减少20倍的I/O消耗。 由于数据总是打包成批量读取的,所以压缩是非常容易的。同时数据按分别存储这也更容易压缩。这进一步降低了I/O的体积。...例如,查询«统计每个广告平台的记录数量»需要读取«广告平台ID»这一,它在未压缩的情况下需要1个字节进行存储。如果大部分流量不是来自广告平台,那么这一至少可以以十倍的压缩率被压缩。...这是不应该在一个通用数据库中实现的,因为这在运行简单查询时是没有意义的。

2.8K20

主流云数仓性能对比分析

技术上也是压缩存储,缓存执行模型,向量技术处理数据,SQL标准遵循ANSI-2011 SQL,全托管云服务,用户可选择部署在AWS、Azure和GCP上,当然它也支持本地部署。...Amazon Redshift:是市场上第一个原生云数仓服务,MPP、存、按压缩、无索引、动态扩展,SQL语法兼容PostgreSQL,支持存储与计算分离,按小时计费,也可以通过暂停来停止计费。...存储计算分离,存、按小时计费、可通过暂停与恢复来节省成本,SQL兼容SQL Server(可能底层就是SQL Server)。...Google BigQuery:源于Google的Dremel技术,无索引、Serverless技术、动态调整计算与存储资源,存储按非压缩数据量来计费,计算按照查询使用的slot来计费。...在并发性能方面,Snowflake和BigQuery似乎没有Redshift和Synapse控制得好。 性价比方面,Redshift和Synapse差不多,BigQuery最贵。

3.9K10
  • 云数据仓库的未来趋势:计算存储分离

    为什么要计算存储分离 MPP(Massive Parallel Processing)架构为OLAP类数据库最普遍采用的技术架构。...三 业界趋势 1 Redshift 作为AWS上最热门的数据仓库产品,Redshift采用的是MPP架构,它也一直往弹性方向演进。...1 存储层 在弹性架构下,存储层负责数据的实时写入、索引构建、数据扫描、下推的谓词计算(过滤、裁剪、分区裁剪等),不再负责查询的计算任务。...数据以batch、存的方式在存储层与计算层之间传递,单次请求,会传输多个batch的数据,一般不大于32MB。...数据压缩。batch内基于存格式进行压缩,减少网络带宽的消耗,有效提升Resharding算子加载吞吐。 异步读取。

    2.3K40

    ClickHouse 主键索引的存储结构与查询性能优化

    主键索引表的数据存储在内存中,为了提升查询性能,它被设计为高度压缩的形式。2. 查询性能优化方法2.1....列式存储和数据压缩ClickHouse采用了列式存储的方式,将每个的数据存储在一起,这样可以提高数据的压缩率。...ClickHouse支持多种数据压缩算法,例如LZ4、Zstd等,可以根据实际数据的特点选择合适的压缩算法。2.3....Amazon RedshiftRedshift是亚马逊AWS提供的一种云数据仓库解决方案,也可用于海量数据的分析查询。...Redshift基于存储和分布式计算,具有高性能的查询能力和扩展性,并支持实时数据更新。与ClickHouse相比,Redshift更适合在云环境中进行数据分析,但价格相对较高。

    81130

    比Hive快279倍的数据库-ClickHouse到底是怎样的

    3.为什么面向的数据库查询如此快? 1.什么是ClickHouse ClickHouse是一个面向的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。...面向的DBMS的示例:Vertica,Paraccel(Actian Matrix和Amazon Redshift),Sybase IQ,Exasol,Infobright,InfiniDB,MonetDB...3.为什么面向的数据库在OLAP场景中更好地工作 面向的数据库更适合OLAP场景:它们在处理大多数查询时至少快100倍。...例如,如果需要100中的5,则可以预期I / O减少20倍。 由于数据以数据包形式读取,因此更容易压缩中的数据也更容易压缩。 这进一步减少了I / O量。...例如,查询“计算每个广告平台的记录数”需要读取一个“广告平台ID”,其占用未压缩的1个字节。 如果大多数流量不是来自广告平台,则可以预期此列的压缩率至少为10倍。

    7.8K40

    超快!大数据分析引擎ClickHouse

    对于存储而言,列式数据库总是将同一的数据存储在一起,不同的数据也总是分开存储。...常见的列式数据库有:Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、...,每个字段独立存储。...非常适用商业智能领域,也广泛应用于广告流量、web、app流量、电信、金融、电子商务、信息安全、网络游戏、物联网等 2、ClickHouse不适用场景: 不支持事务 不擅长根据主键按行粒度查询(虽然支持),所以不应该把...不同的保存在不同的文件中,数据中的重复项越多压缩率就越高,数据的体量就越小,传输就越快,对网络带宽和磁盘IO的压力就越小,使用LZ4算法压缩压缩率达8:1. 3、向量化执行引擎 向量化引擎可以简单的理解做一项消除程序中循环的优化

    1.7K10

    Parquet

    Parquet经过优化,可以批量处理复杂的数据,并采用不同的方式进行有效的数据压缩和编码类型。这种方法最适合需要从大型表读取某些的查询。Parquet只能读取所需的,因此大大减少了IO。...以格式存储数据的优点: 与CSV等基于行的文件相比,像Apache Parquet这样的列式存储旨在提高效率。查询列式存储时,您可以非常快地跳过无关数据。...Parquet构建为支持灵活的压缩选项和有效的编码方案。由于每一的数据类型非常相似,因此每一压缩非常简单(这使查询更快)。可以使用几种可用的编解码器之一压缩数据。...结果,可以不同地压缩不同的数据文件。...Apache Parquet最适合与AWS Athena,Amazon Redshift Spectrum,Google BigQuery和Google Dataproc等交互式和无服务器技术配合使用。

    1.3K20

    MySQL HeatWave获取生成式AI和JavaScript等强大新功能

    基础MySQL平台对JSON的支持可以将JSON数据物化到表中的二进制、文本或虚拟中。它还允许将JSON payload作为参数传递给存储过程和函数。...现在JSON数据可以导入到HeatWave中,以二进制格式存储,进行分区和压缩,并可以横向扩展到多个节点。...在竞争方面,甲骨文声称HeatWave的训练速度比亚马逊Redshift快25倍,这意味着作为AWS的数据仓库,HeatWave优于亚马逊自己的Redshift。...团队为Autopilot添加了索引、自动卸载、自动压缩和自适应查询执行的支持。...自动压缩会为每个选择匹配的压缩算法,在内存使用和性能之间找到最佳平衡。公司称内存节省可达6-25%,性能提升可达6-10%。

    10600

    坑爹的亚马逊之Redshift

    最重要的,我不是要大家理解技术上的东西,而是能够理解怎么样通过对业务逻辑和技术需求的结合,去理解为什么Redshift会倾向于某些特定的技术实现方式。...至于我最后选的是哪个执行方案,用了多少资源,这个不应该和定价相关。如果相关的话,那么作为服务提供商,就可以总是选择最贵的来服务客户。...所以和传统的数据仓库比,亚马逊的Redshift对于查询优化并不重视。我听说过不少的传闻说Redshift的优化器做的一般。...那么大家可能会问为什么数据量小的时候不觉得贵而数据量大了觉得贵。这个如果说有做分布式数据处理的同学,肯定知道re-partition 的实现的时候,是需要在所有节点之间两两挪动数据的。...Redshift不可能也不会去努力优化可以大量减少资源使用的查询执行方式。如果谁还想入Redshift的坑,不妨先想想自己的数据规模有多大。

    1.7K90

    Clickhouse简介和性能对比

    常见的列式数据库有: Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB...不同的存储方式适合不同的场景,这里的查询场景包括: 进行了哪些查询 多久查询一次 各类查询的比例 每种查询读取多少数据————行、和字节 读取数据和写入数据之间的关系 使用的数据集大小以及如何使用本地的数据集...OLAP场景的关键特征 大多数是读请求 数据总是以相当大的批(> 1000 rows)进行写入 不修改已添加的数据 每次查询都从数据库中读取大量的行,但是同时又仅需要少量的 宽表,即每个表包含着大量的...) 事务不是必须的 对数据一致性要求低 每一个查询除了一个大表外都很小 查询结果明显小于源数据,换句话说,数据被过滤或聚合后能够被盛放在单台服务器的内存中 Clickhouse优缺点 优点 数据压缩 多核并行处理...select account_phone from dm.delphi_membership_properties t where t.business_group_id=44; -- 190ms RedShift

    6.6K22

    敖丙肝了一小时的Elasticsearch入门文章

    存储 :来自不同的值被单独存储,来自同一的数据被存储在一起 常见的列式数据库有:Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase...例如,如果只需要读取100中的5,这将帮助你最少减少20倍的I/O消耗。 由于数据总是打包成批量读取的,所以压缩是非常容易的。同时数据按分别存储这也更容易压缩。这进一步降低了I/O的体积。...是为什么呢? 这里就会引出接下来的两个概念,Term Dictionary和Term Index。...为什么要这么设计呢? 简单我们看一下不这么设计会怎么样: ?...分词是es比较核心的功能,但是他默认的分词其实对中文并不友好,比如我搜中国,那可能会把带中和带国的都搜出来,但是中国就是一个词汇不应该这样分。

    78441

    印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

    在我们之前的博客中,我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。...CSV 或 JSON 数据等不可变数据集也被转换为格式(parquet)并存储在该区域中。该层还维护或纠正分区以有效地查询数据集。 5....Redshift Redshift 用作数据仓库来构建数据模型。所有报告/BI 用例均由 Redshift 提供服务。我们在 Redshift 中创建了 2 个图层。...• 由于某些后端问题,未更新已修改时的数据质量问题。 • 架构更改很难在目标中处理。...甚至压缩和集群添加到提交,因此必须分析和设置更清洁的策略,以使增量查询不间断地运行。 确定要分区的表 在数据湖中对数据进行分区总是可以减少扫描的数据量并提高查询性能。

    1.8K20

    印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0

    平台演进 在旧的数据平台中,大部分数据都是定期从各种数据源迁移到 Redshift。将数据加载到 Redshift 后,执行 ELT 以构建服务于各种业务用例的 DWH 或数据集市表。...在 Redshift 中创建Group,并且根据用户的角色将用户分配到每个Group,该方法可以控制数据集访问,但缺乏或行级别粒度的访问控制。 • 仪表板基于哪些数据集构建缺乏可见性。...直接迁移到 Redshift 的表在现有平台中缺少数据目录。仅为存储在 S3 中的数据创建数据目录,这让终端用户检索有关 Redshift 中表的信息成为问题。 • 没有集成的数据血缘。...为什么我们采用 LakeHouse 架构? LakeHouse 架构基本上是 Datalake 和数据仓库的组合,可以在其中无缝地跨湖和仓库移动数据,并遵循对所有数据集的访问权限的安全合规性。...为什么选择Apache Hudi • 对文件执行 Upsert 操作。 • 使用各种更新捕获更新历史记录。 • 支持ACID。

    81120

    ClickHouse SQL 语法极简教程

    常见的列式数据库有: Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB...下面将详细介绍为什么会发生这种情况。 输入/输出 针对分析类查询,通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。...例如,如果只需要读取100中的5,这将帮助你最少减少20倍的I/O消耗。 由于数据总是打包成批量读取的,所以压缩是非常容易的。同时数据按分别存储这也更容易压缩。这进一步降低了I/O的体积。...例如,查询«统计每个广告平台的记录数量»需要读取«广告平台ID»这一,它在未压缩的情况下需要1个字节进行存储。如果大部分流量不是来自广告平台,那么这一至少可以以十倍的压缩率被压缩。...这是不应该在一个通用数据库中实现的,因为这在运行简单查询时是没有意义的。

    3K30

    数据是你的生命线,请待她如待初恋

    他们不应该像图书管理员似的,仅仅是按照别人的需求去读取和解读数据。...这些总结性的表达看上去很令人振奋,但我们不应该基于这些肤浅的总结来做决策,因为这些漂亮的总结性陈述并不能真正反映问题的实质。...尽快将你的数据迁移到 AWS Redshift 或者其它大规模并行处理数据库(MPP)上 对于还处于早期的公司来说,类似于 Redshift 这种基于云端的 MPP 经常就是最好的选择。...在理想状况下,你会希望从公司有记录之初就将你的事件与操作的数据写入亚马逊 Redshift 之中。“使用 Redshift 的好处在于这个平台便宜,迅速,可访问性高,” Porterfield 说。...人们不用再猜测他们的用户在寻找什么,或者为什么他们达成销售,或者为什么他们不再回头。人们也不用再猜测其他团队的同事知道或者不知道什么。而这一切都要归功于从一开始就把数据框架设计好。

    31720

    数据治理方案技术调研 Atlas VS Datahub VS Amundsen

    数据发现平台可以解决的问题为什么需要一个数据发现平台?在数据治理过程中,经常会遇到这些问题: 数据都存在哪? 该如何使用这些数据? 数据是做什么的? 数据是如何创建的? 数据是如何更新的?。。。。。...下面是Amundsen的数据展示功能。?...数据发现平台对比下面一张表 对比一下各大平台对于上述功能的支持情况搜索推荐表描述数据预览统计占用指标权限排名数据血统改变通知开源文档支持数据源Amundsen (Lyft)✔✔✔✔✔✔✔Todo✔✔...Hive, Redshift, Druid, RDBMS, Presto, Snowflake, etc.Datahub (LinkedIn)✔✔✔✔✔✔✔Hive, Kafka, RDBMSMetacat...Metacat支持Hive,Teradata,Redshift,S3,Cassandra和RDS的集成。不过虽然Metacat开源,但是官方没有提供文档,资料也很少。

    8.4K55

    Flink与Spark读写parquet文件全解析

    Parquet 经过优化,可以批量处理复杂数据,并具有不同的方式来实现高效的数据压缩和编码类型。 这种方法最适合那些需要从大表中读取某些的查询。...Parquet 只需读取所需的,因此大大减少了 IO。 Parquet 的一些好处包括: 与 CSV 等基于行的文件相比,Apache Parquet 等列式存储旨在提高效率。...Parquet 旨在支持灵活的压缩选项和高效的编码方案。由于每一的数据类型非常相似,每一压缩很简单(这使得查询更快)。...可以使用几种可用的编解码器之一来压缩数据;因此,可以对不同的数据文件进行不同的压缩。...Apache Parquet 最适用于交互式和无服务器技术,如 AWS Athena、Amazon Redshift Spectrum、Google BigQuery 和 Google Dataproc

    6K74
    领券