首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >什么是腾讯云TCHouse-C?

什么是腾讯云TCHouse-C?

原创
作者头像
gavin1024
发布2025-08-06 17:17:59
发布2025-08-06 17:17:59
1620
举报

腾讯云数据仓库 TCHouse-C 基于开源 OLAP 引擎 ClickHouse 打造,为您提供方便易用、灵活稳定的云端 ClickHouse 托管服务。只需要几分钟,便可快速完成 PB 级实时数据仓库的搭建,简单轻松地实现海量数据上的实时极速查询分析,提升数据价值挖掘的整体效率。

腾讯云数据仓库 TCHouse-C 是一种基于 MPP(大规模并行处理)架构的数仓服务,基于 ClickHouse 优异的查询性能,查询效率数倍于传统数据仓库。

Q:什么是 TCHouse-C 弹性版

A:作为一款开源的列式数据库管理系统,ClickHouse 专为在线分析处理场景设计,能够提供高性能数据分析能力。ClickHouse 在大宽表的聚合分析查询性能上表现优异,可支持千亿级数据上的毫秒级查询响应,查询性能远超其他分析型数据库。

当前开源版 ClickHouse 采取 Share-Nothing架构,计算资源与存储资源相耦合,任一节点都可承载数据的查询、计算和写入请求,每一数据分片(Shard)均存储在节点本地,节点间通过 Zookeeper 进行分布式协调和元数据同步。在面向云上客户资源灵活伸缩的需求时,开源版 ClickHouse 天然在扩展性上存在一些限制:

计算与存储无法独立扩展,难以满足计算与存储资源非对称需求;

业务初期难以准确估算数据规模与资源量,在业务规模快速增长时,面对资源扩展需求时灵活性不足;

在应对计算资源明显呈潮汐现象的需求时,由于存储计算耦合、无法快速进行扩缩容,造成一定程度的资源浪费;

随着企业对高效、可扩展且成本效益高的数据分析解决方案的需求日益增长,腾讯云数据仓库 TCHouse-C 弹性版应运而生。

腾讯云数据仓库 TCHouse-C 弹性版采用了云原生存储计算分离的架构,存储资源与计算资源可以独立按需取用。这一架构充分利用云计算的优势,不仅优化了资源利用率,还提供了高度的可伸缩性、弹性和容错性。通过共享的对象存储 COS,所有计算节点可以访问同一份数据副本,从而确保了数据的高可用性和一致性,使企业能够轻松应对数据规模和计算需求的激增、与此同时保持查询高效稳定。

Q:TCHouse-C 弹性版的核心优势是什么

A:资源弹性

在存储计算分离架构下,计算资源和存储资源可以按照实际负载需求独立灵活扩缩容,避免计算资源紧缺而存储资源过剩以及相反的情况发生,同时在业务高峰期快速扩容以提升查询效率、低峰期快速缩容避免资源过度消耗,还可以按需起停集群,减少人工维护成本。

负载隔离

在同一份数据的基础上可以设置多个计算资源组,每个计算资源组视为一个独立的虚拟数仓(Virtual Warehouse),用户可以设置多个虚拟数仓并按需分配资源,从而实现在线/离线负载隔离、读取/写入负载隔离以及多业务租户资源隔离。

性能优化

为了加速对象存储的数据读取效率,TCHouse-C 弹性版在计算节点增加了本地磁盘缓存,可以针对表级别设置不同的缓存容量、缓存策略以及数据淘汰策略,支持以表维度进行数据预热,在存算分离模式下也获得极其优异的性能表现。

成本降低

计算资源完全按需扩缩容,可以充分提升资源利用率、避免资源闲置造成的浪费,经案例验证,预计能够降低用户使用成本30%-40%。数据的主存储介质从本地磁盘切换至对象存储,存储成本进一步降低 80% 以上。

稳定性提升

TCHouse 弹性版对存储资源进行了统一抽象,使用户不再需要关注底层存储,大幅度简化了手工维护数据分布带来的运维成本,且对象存储服务本身具备高可用性和持久性,为数据安全性提供了保障。通过资源负载隔离,减少了不同业务之间以及读写负载带来的资源抢占问题,进一步提升了系统稳定性。

Q:什么是集群节点?

A:集群的基本存储和计算单元,随着节点增加,集群的容量和性能将线性提升。

Q:什么是节点规格?

A:节点规格是计算节点的资源配置,包括 CPU、内存、磁盘等。不同节点规格性能和存储量不同。

Q:腾讯云数据仓库 TCHouse-C 支持哪些来源的数据?

A:可以将 云数据库 MySQL、消息队列 CKafka、弹性 MapReduce等云产品中的数据无缝导入到云数据仓库中进行分析计算。

Q:如何评估腾讯云数据仓库 TCHouse-C 所需的存储空间?

A:磁盘打满,写入的数据量超过了数据盘可用空间,将无法写入新的数据。 腾讯云数据仓库 TCHouse-C 的所需的存储空间与数据类型、压缩算法、压缩比、表的设计以及数据索引等因素相关。可以通过如下方法进行估算:

估算业务数据行数:基于业务需求和历史数据增长趋势,估算将要存储在腾讯云数据仓库 TCHouse-C 中的数据总行数。

计算未压缩的数据量:估算每一行数据的大小,可以进行总的数据量估算。总数据量 = 单行数据大小 * 总行数

计算压缩后的总数量:ClickHouse 通常采用 lz4 或者 zstd 算法压缩数据。压缩比通常在 2-10,具体和数据及排序键设置相关。

考虑数据增长因素:通常建议单节点预留一部分存储空间,满足数据增长需求。例如:预留 20%。

举例说明:

某业务数据每天产生数据量 1,000,000,000 行,每行数据 1 KB, 数据保留 1 个月。数据压缩比为 5。预留空间为 20%。则需要的数据存储空间为:(1000000000 1KB 30 / 5) /(1 - 0.2)= 7152.5 GB

实际测量:

查询一个表的数量总量:SELECT formatReadableSize(sum(bytes_on_disk)) FROM system.parts WHERE table='your_table' and active = 1

查询一个表的数量压缩比:

SELECT round(sum(data_uncompressed_bytes) / sum(data_compressed_bytes),3) AS compression_ratio FROM system.parts WHERE (table = 'your_table') AND (active = 1)

Q:腾讯云TCHouse-C 常见的应用场景有哪些?

A:1️⃣用户行为分析

在网站、App 和游戏中,对用户的点击、时长等使用数据进行收集,导入到腾讯云数据仓库 TCHouse-C 中,构建用户特征分析大宽表。借助腾讯云数据仓库 TCHouse-C 的优异查询性能,分析系统进行多维度、多模式分析时,可以在亚秒级内响应,快速分析出用户行为特征和规律,为精准营销和会员转化等业务提供强力支持。

2️⃣企业经营分析

在企业经营分析中,把规模庞大的业务数据导入到腾讯云数据仓库 TCHouse-C ,对数亿记录或更大规模的大宽表和数百维度的查询,都能在亚秒级内响应,得到查询结果。让客户随时进行个性化统计和不间断的分析,辅助商业决策。腾讯云数据仓库 TCHouse-C 的查询效率数倍于传统数据仓库,而且扩展灵活,按需扩容,很好的满足大数据时代下企业数据仓库对高性能、低成本、易扩展的需求。

3️⃣日志分析和可观测性链路监控

在日志数据检索和可观测性场景,将大规模日志数据实时写入 TCHouse-C 中,通过对象存储大幅度降低日志数据的存储成本,结合 TCHouse-C 的高性能实时分析能力和灵活的半结构化数据存储方案,实现海量日志数据的快速清洗和检索,满足故障排查、事件链路构建和高效响应。

Q:TCHouse-C有哪些产品优势?

A:

简单易用

通过控制台分钟级构建 TCHouse-C 分析集群,提供完善的集群运维管理、监控告警等功能,使您无需关注底层基础设施,利用完善的 SQL 语句支持,专注于数据价值的分析。

极致性能

使用分布式大规模并行处理 MPP 框架,并充分利用所有可用的硬件,以尽可能快地处理每个查询。查询效率数倍于传统数据仓库,单个查询的峰值处理性能高达每秒数 TB。

弹性伸缩

通过控制台简单操作就可以快速实现的集群的扩容、缩容、节点的变配等操作,提供完善的云端的弹性伸缩能力,为业务高速发展提供匹配的动态支撑。

安全可靠

用户集群独立部署,支持 VPC 私有网络隔离,数据访问安全多重保障。完善支持集群高可用,实现用户无感的服务容灾转移和故障恢复。

成本更低

利用云端高性价比设备,构建极具成本优势的全托管集群;配合 ClickHouse 高达10倍的高效数据压缩算法,有效减少磁盘用量,相比传统数仓大幅降低使用成本。

Q:腾讯云数据仓库 TCHouse-C 是否兼容社区版 ClickHouse?

A:内核完全兼容。

Q:腾讯云 TCHouse-C 能否实现向量检索增强

A:腾讯云数据仓库 TCHouse-C 基于 ClickHouse 优异的查询性能,查询效率数倍于传统数据仓库。支持基于 SQL 的向量检索,并提供了一系列的功能来帮助用户编写分析查询。其中一些函数和数据结构执行向量之间的距离操作,使 ClickHouse 可以被用于向量检索。

使用 TCHouse-C 有什么优势呢?事实上,在向量检索实践中如果仅仅靠嵌入搜索的话效率是很低的,结合元数据进行过滤、聚合将会有更好的效果。

由于完全并行化的查询管道,TCHouse-C 可以非常快速地处理向量搜索操作,支持高压缩级别,通过自定义压缩编解码器进行调整,使得可以存储和查询非常大的数据集。

TCHouse-C 不受内存限制,允许查询多 TB 的包含嵌入的数据集。计算两个向量之间的距离的能力只是另一个 SQL 函数,并且可以有效地与更传统的 SQL 过滤和聚合能力结合起来。这允许向量与元数据一起存储和查询,甚至与丰富的文本一起,从而支持各种各样的用例和应用。

最后,TCHouse-C 索引优化,如近似最近邻(ANN)索引,支持更快的近似向量匹配,并提供了一个有望进一步增强 TCHouse-C 的向量匹配能力的有前景的发展。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档