开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Flink如何扩展热分区？

Flink是一个开源的流式处理框架，用于处理大规模的实时数据流。它支持水平扩展，可以通过增加计算资源来提高处理能力和吞吐量。在Flink中，热分区是指数据流中的某个分区，该分区的数据量较大或者频繁访问，需要更多的计算资源来处理。

要扩展Flink中的热分区，可以采取以下几种方法：

增加计算资源：可以通过增加计算节点或者增加计算资源（如CPU、内存）来提高热分区的处理能力。可以使用腾讯云的弹性计算服务，如云服务器CVM来增加计算资源。
使用分区策略：Flink提供了多种分区策略，可以根据数据的特点和需求选择合适的分区策略来优化热分区的处理。例如，可以使用基于键的分区策略，将具有相同键的数据分配到同一个分区，从而提高处理效率。
数据预处理：对于热分区中的数据，可以进行预处理，例如过滤、聚合、压缩等操作，减少数据量和计算复杂度，从而提高处理性能。
数据缓存：对于频繁访问的热分区数据，可以使用缓存技术将数据存储在内存中，减少磁盘IO和网络传输，提高数据访问速度。腾讯云提供了分布式缓存服务，如云数据库Redis，可以用于缓存热分区数据。
使用Flink的状态后端：Flink支持多种状态后端，可以将热分区的状态存储在高性能的存储系统中，如腾讯云的分布式文件存储COS，从而提高状态访问和恢复的效率。

总结起来，要扩展Flink中的热分区，可以通过增加计算资源、使用合适的分区策略、数据预处理、数据缓存和选择适合的状态后端等方法来优化热分区的处理能力和性能。

腾讯云相关产品推荐：

云服务器CVM：https://cloud.tencent.com/product/cvm
云数据库Redis：https://cloud.tencent.com/product/redis
分布式文件存储COS：https://cloud.tencent.com/product/cos

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何消化每天 150 亿条日志，让大查询保持在 1 秒内

该数据仓库用例与规模有关。用户是中国联通，全球最大的电信服务提供商之一。使用 Apache Doris 在数十台机器上部署多个 PB 级集群，以支持 30 多个业务线每日添加的 150 亿条日志。如此庞大的日志分析系统是网络安全管理的一部分。出于实时监控、威胁追踪和警报的需求，用户需要一个能够自动收集、存储、分析和可视化日志和事件记录的日志分析系统。

02

Flink SQL 知其所以然（二十七）：TopN、Order By、Limit 操作

大家好，我是老羊，今天我们来学习 Flink SQL 中的 TopN、Order By、Limit 3个操作。

02

Apache Hudi 0.15.0 版本发布

此版本保留与 0.14.0 版本相同的表版本 (6)，如果从 0.14.0 升级，则无需升级表版本。有一些模块和 API 更改以及行为更改，如下所述，用户在使用 0.15.0 版本之前应采取相应的操作。

01

腾讯基于Flink的实时流计算平台演进之路

大家好，我是来自腾讯大数据团队的杨华（vinoyang），很高兴能够参加这次北京的 QCon，有机会跟大家分享一下腾讯实时流计算平台的演进与这个过程中我们的一些实践经验。

04

腾讯基于 Flink 的实时流计算平台演进之路

大家好，我是来自腾讯大数据团队的杨华（vinoyang），很高兴能够参加这次北京的 QCon，有机会跟大家分享一下腾讯实时流计算平台的演进与这个过程中我们的一些实践经验。

03

TiDB 6.0 实战分享丨冷热存储分离解决方案

TiDB 6.0 正式提供了数据放置框架（Placement Rules in SQL ）功能，用户通过 SQL 配置数据在 TiKV 集群中的放置位置，可以对数据进行直接的管理，满足不同的业务场景需要。如：

03

Apache Flink vs Apache Spark：数据处理的详细比较

深入比较 Apache Flink和 Apache Spark，探索它们在数据处理方面的差异和优势，以帮助您确定最适合的数据处理框架。

01

Flink面试题持续更新【2023-07-21】

Flink和传统的Spark Streaming是两种流处理框架，它们在设计理念、功能特性和处理模型上存在一些区别。

01

Apache Doris 简介：下一代实时数据仓库

Apache Doris 是一个开源实时数据仓库。它可以从各种数据源收集数据，包括关系数据库（MySQL、PostgreSQL、SQL Server、Oracle等）、日志和来自物联网设备的时间序列数据。能够进行报告、即席分析、联合查询和日志分析，因此可用于支持仪表板、自助式 BI、A/B 测试、用户行为分析等。

02

Apache Doris 助力中国联通万亿日志数据分析提速 10 倍

在数据安全管理体系的背后，离不开对安全日志数据的存储与分析。以终端设备为例，中国联通每天会产生百亿级别的日志数据，对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前，Apache Doris 在联通体系的落地已支持了 30 多条业务线和数百个实时作业，不仅帮助联通实现了万亿级安全日志的高效分析和低成本，也为其他运营商提供了成功的参考案例和学习经验，对推动运营商的数字化转型进程具有重要意义。

03

BigData | 优秀的流处理框架 Flink

Apache Flink就是其中的翘楚，它采用了基于操作符（operator）的连续流模型，可以做到微秒的延迟。Flink最核心的数据结构是Stream，它代表一个运行在多个分区上的并行流，它没有边界，随着时间的增长而不断变化，而且它是逐条进行操作的，每当有新数据进行就会被执行，这也是Flink低延迟的根本。

01

2021年大数据Flink（四十三）：扩展阅读关于并行度

一个Flink程序由多个Operator组成(source、transformation和 sink)。

03

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！

Apache Flink 社区迎来了激动人心的两位数位版本号，Flink 1.10.0 正式宣告发布！作为 Flink 社区迄今为止规模最大的一次版本升级，Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现，包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化。

02

【译】A Deep-Dive into Flink's Network Stack（3）

单个 TaskManager 上的缓冲区总数通常不需要配置。需要配置时请参阅配置网络缓冲区文档。

03

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！

Apache Flink 社区迎来了激动人心的两位数位版本号，Flink 1.10.0 正式宣告发布！作为 Flink 社区迄今为止规模最大的一次版本升级，Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现，包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化。

01

Apache Flink：数据流编程模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

03

浅谈Flink分布式运行时和数据流图的并行化

本文将以WordCount的案例为主线，主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章：读取Kafka实时数据流，实现Flink WordCount。阅读完本文后，读者可以对Flink的分布式运行时有一个全面的认识。

02

Flink从1.7到1.12版本升级汇总

最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数.

02

Apache Doris 助力中国联通万亿日志数据分析提速 10 倍

在数据安全管理体系的背后，离不开对安全日志数据的存储与分析。以终端设备为例，中国联通每天会产生百亿级别的日志数据，对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前，Apache Doris 在联通体系的落地已支持了 30 多条业务线和数百个实时作业，不仅帮助联通实现了万亿级安全日志的高效分析和低成本，也为其他运营商提供了成功的参考案例和学习经验，对推动运营商的数字化转型进程具有重要意义。

02

使用Flink 与 Pulsar 打造实时消息系统

最初，BIGO 的消息流平台主要采用开源 Kafka 作为数据支撑。随着数据规模日益增长，产品不断迭代，BIGO 消息流平台承载的数据规模出现了成倍增长，下游的在线模型训练、在线推荐、实时数据分析、实时数仓等业务对消息流平台的实时性和稳定性提出了更高的要求。开源的 Kafka 集群难以支撑海量数据处理场景，我们需要投入更多的人力去维护多个 Kafka 集群，这样成本会越来越高，主要体现在以下几个方面：

02

干货 | Flink Connector 深度解析

作者介绍：董亭亭，快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学，曾就职于奇虎 360、58 集团。主要研究领域包括：分布式计算、调度系统、分布式存储等系统。

04

Grab 基于 Apache Hudi 实现近乎实时的数据分析

在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。

01

黄彬耕：Iceberg在腾讯微视实时场景的应用

首先看下数仓架构。数仓的数据接入主要有两个来源，一个是客户端的上报，还有一个是业务后台 DB 的上报，这两份数据都会通过一个消息队列接入数仓。我们的数据仓库采用lambda架构，总体分为离线和实时两套体系，分别有自己的计算和存储体系。离线主要是以 Hive 作为存储载体，计算以 Spark 为主，Map Reduce为辅。实时数据处理主要用了 Flink，再辅以Kafka和OLAP。

05

不惧流量持续上涨，BIGO 借助 Flink 与 Pulsar 打造实时消息系统

作者 | 陈航 BIGO 于 2014 年成立，是一家高速发展的科技公司。基于强大的音视频处理技术、全球音视频实时传输技术、人工智能技术、CDN 技术，BIGO 推出了一系列音视频类社交及内容产品，包括 Bigo Live（直播）和 Likee（短视频）等，在全球已拥有近 1 亿用户，产品及服务已覆盖超过 150 个国家和地区。 1挑战最初，BIGO 的消息流平台主要采用开源 Kafka 作为数据支撑。随着数据规模日益增长，产品不断迭代，BIGO 消息流平台承载的数据规模出现了成倍增长，下游的在线模型训练

05

[万字长文]天机阁1.0百亿级实时计算系统性能优化

随着业务的发展，系统日益复杂，功能愈发强大，用户数量级不断增多，设备cpu、io、带宽、成本逐渐增加，当发展到某个量级时，这些因素会导致系统变得臃肿不堪，服务质量难以保障，系统稳定性变差，耗费相当的人力成本和服务器资源。这就要求我们：要有勇气和自信重构服务，提供更先进更优秀的系统。--导读

08

【Flink】第二十一篇：HBase 写热点问题实战

HBase的设计思想主要是LSM。参见【Flink】第十四篇：LSM-Tree一般性总结。而LSM存储引擎的主要设计思想就是不断的将内存的有序存储结构flush到磁盘，这时候会在磁盘形成一个个的小的文件，如果每次都去做新文件和旧文件的合并，这显然是没必要，并且低效的。

02

Flink 内部原理之编程模型

(1) 最低级别的抽象只是提供有状态的数据流。通过Process Function集成到DataStream API中。它允许用户不受限制的处理来自一个或多个数据流的事件，并可以使用一致的容错状态(consistent fault tolerant state)。另外，用户可以注册事件时间和处理时间的回调函数，允许程序实现复杂的计算。

03

DDIA：MapReduce 进化之数据流引擎

尽管 MapReduce 在本世纪10年代最后几年中被炒的非常热，但它其实只是众多分布式系统编程模型中的一种。在面对不同的数据量、数据结构和数据处理类型时，很多其他计算模型可能更为合适。

01

基于Flink+Hive构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性，但由于它是离线的，延时很大。在一些对延时要求比较高的场景，需要另外搭建基于 Flink 的实时数仓，将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗，甚至导致重复开发。

03

Doris2.0时代的一些机遇和挑战！

上个周五的时候，Doris官宣了2.0版本，除了在性能上的大幅提升，还有一些特性需要大家特别关注。

02

Flink流式处理概念简介

一，抽象层次 Flink提供不同级别的抽象来开发流/批处理应用程序。 1，stateful streaming 最底层。它通过Process Function嵌入到DataStream API中。它允

06

聊聊Flink的必知必会(一)

Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。使用官网的语句来介绍， Flink 就是 “Stateful Computations over Data Streams”。

01

基于TIS构建Apache Hudi千表入湖方案

随着大数据时代的到来，数据量动辄PB级，因此亟需一种低成本、高稳定性的实时数仓解决方案来支持海量数据的OLAP查询需求，Apache Hudi[1]应运而生。Hudi借助与存放在廉价的分布式文件系统之中列式存储文件，并将其元数据信息存放在Hive元数据库中与传统查询引擎Hive、Presto、Spark等整合，完美地实现了计算与存储的分离。Hudi数据湖方案比传统的Hive数仓的优势是加入了数据实时同步功能，可以通过最新的Flink流计算引擎来以最小的成实现数据实时同步。本质来说Hudi是整合现有的技术方案实现的，属于新瓶装旧酒，Hudi内部需要整合各种组件（存储、Indexer、Compaction，文件分区），为了达到通用及灵活性，每个组件会有大量的配置参数需要设置，且各种组件的配置是有关联性的，所以对与新手来说要构建一个生产环境中可用的数据库方案，面对一大堆配置往往会望而却步。本文就向大家介绍如何通过TIS来改善Hudi数据湖实例构建流程，从而大幅提高工作效率。

01

Flink教程（30）- Flink VS Spark[通俗易懂]

Spark Streaming 运行时的角色(standalone 模式)主要有：

03

【源码解读】Flink-Kafka中的序列器和分区器

在Kafka生产者将数据写入至Kafka集群中时，为了能够在网络中传输数据对象，需要先将数据进行序列化处理，对于初学者来说，在初始化生产者对象时，一般都会采用默认的序列化器。默认的序列化器不会对数据进行任何操作，也不会生成key。如果我们需要指定数据的key或者在数据发送前进行一些定制化的操作，那么我们就需要自定义序列化器，并且在初始化生产者对象时指定我们自己的序列化器。

02

全网最详细4W字Flink入门笔记（中）

Flink是一个有状态的流式计算引擎，所以会将中间计算结果(状态)进行保存，默认保存到TaskManager的堆内存中，但是当task挂掉，那么这个task所对应的状态都会被清空，造成了数据丢失，无法保证结果的正确性，哪怕想要得到正确结果，所有数据都要重新计算一遍，效率很低。想要保证 At -least-once 和 Exactly-once，需要把数据状态持久化到更安全的存储介质中，Flink提供了堆内内存、堆外内存、HDFS、RocksDB等存储介质。

02

Flink数据流编程模型

低级处理函数集成了DataStream API，使得它可以在某些特定操作中进入低级抽象层。DataSet API在有限数据集上提供了额外的原语，比如循环/迭代（loops/iterations ）。

03

万字长文深度解析WordCount，入门Flink，看这一篇就够了！

要想熟练掌握一个大数据框架，仅仅是学习一些网络上的样例程序是远远不够的，我们必须系统地了解它背后的设计和运行原理。

03

Flink CDC + OceanBase 全增量一体化数据集成方案

摘要：本文整理自 OceanBase 技术专家王赫（川粉）在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括：

02

技术亮点解读：Apache InLong毕业成为顶级项目，具备百万亿级数据流处理能力

Apache 软件基金会（即 Apache Software Foundation，简称为 ASF）于近日正式宣布，Apache InLong（应龙）从孵化器成功毕业，成为基金会顶级项目。 Apache InLong 简介 InLong 中文名“应龙”是中国神话中引流入海的神兽，意寓 InLong 在大数据社区生态中的价值：大数据接入集成。该项目最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器，2022 年 6 月正式毕业成为 Apache 顶级项目。 InLong 以腾讯

02

Flink未来-将与 Pulsar集成提供大规模的弹性数据处理

问题导读 1.什么是Pulsar？ 2.Pulsar都有哪些概念？ 3.Pulsar有什么特点？ 4.Flink未来如何与Pulsar整合？ Apache Flink和Apache Pulsar的开源数据技术框架可以以不同的方式集成，以提供大规模的弹性数据处理。在这篇文章中，我将简要介绍Pulsar及其与其他消息传递系统的差异化元素，并描述Pulsar和Flink可以协同工作的方式，为大规模弹性数据处理提供无缝的开发人员体验。 Pulsar简介 Apache Pulsar是一个开源的分布式pub-sub消息系统，由Apache Software Foundation管理。 Pulsar是一种用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本地支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。现在让我们讨论Pulsar和其它pub-sub消息传递框架之间的主要区别：第一个差异化因素源于这样一个事实：虽然Pulsar提供了灵活的pub-sub消息传递系统，但它也有持久的日志存储支持 - 因此在一个框架下结合了消息传递和存储。由于采用了分层架构，Pulsar提供即时故障恢复，独立可扩展性和无平衡的集群扩展。 Pulsar的架构遵循与其他pub-sub系统类似的模式，因为框架在主题中被组织为主要数据实体，生产者向主体发送数据，消费者从主题（topic）接收数据，如下图所示。

02

Spark Streaming VS Flink

本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Stream 与 Flink，希望对有实时处理需求业务的企业端用户在框架选型有所启发。本文篇幅较长，建议先收藏～

02

Flink处理函数实战之四：窗口处理

本文是《Flink处理函数实战》系列的第四篇，内容是学习以下两个窗口相关的处理函数：

00

Flink实战(八) - Streaming Connectors 编程

Flink内置了一些基本数据源和接收器，并且始终可用。该预定义的数据源包括文件，目录和插socket，并从集合和迭代器摄取数据。该预定义的数据接收器支持写入文件和标准输入输出及socket。

02

Flink面试通关手册「160题升级版」

主要是当Flink开启Checkpoint的时候，会往Source端插入一条barrir，然后这个barrir随着数据流向一直流动，当流入到一个算子的时候，这个算子就开始制作checkpoint，制作的是从barrir来到之前的时候当前算子的状态，将状态写入状态后端当中。然后将barrir往下流动，当流动到keyby 或者shuffle算子的时候，例如当一个算子的数据，依赖于多个流的时候，这个时候会有barrir对齐，也就是当所有的barrir都来到这个算子的时候进行制作checkpoint，依次进行流动，当流动到sink算子的时候，并且sink算子也制作完成checkpoint会向jobmanager 报告 checkpoint n 制作完成。

04

Flink处理函数实战之四：窗口处理

本文是《Flink处理函数实战》系列的第四篇，内容是学习以下两个窗口相关的处理函数：

02

Flink

1）Flink 是标准的实时处理引擎，基于事件驱动。而 Spark Streaming 是微批（Micro-Batch）的模型;

03

网易数据湖探索与实践-范欣欣

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

02

Flink实战(八) - Streaming Connectors 编程

Flink内置了一些基本数据源和接收器，并且始终可用。该预定义的数据源包括文件，目录和插socket，并从集合和迭代器摄取数据。该预定义的数据接收器支持写入文件和标准输入输出及socket。

02

Flink1.12集成Hive打造自己的批流一体数仓

小编在去年之前分享过参与的实时数据平台的建设，关于实时数仓也进行过分享。客观的说，我们当时做不到批流一体，小编当时的方案是将实时消息数据每隔15分钟文件同步到离线数据平台，然后用同一套SQL代码进行离线入库操作。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭