如何使用Flink FileSink创建“二层”存储桶目录？_如何使用python SDK创建存储桶？_使用Boto3创建存储桶时如何添加自定义头部？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

Flink实战(八) - Streaming Connectors 编程

【Flink实战】玩转Flink里面核心的Source Operator实战

Oceanus 实践-从0到1接入 COS SQL 作业

流计算 Oceanus 是位于云端的流式数据汇聚、计算服务。只需几分钟，您就可以轻松构建网站点击流分析、电商精准推荐、物联网 IoT 等应用。流计算基于 Apache Flink 构建，提供全托管的云上服务，您无须关注基础设施的运维，并能便捷对接云上数据源，获得完善的配套支持。

使用 Apache Flink 开发实时ETL

场景描述：本文将介绍如何使用 Flink 开发实时 ETL 程序，并介绍 Flink 是如何保证其 Exactly-once 语义的。

flink sql 知其所以然（八）：flink sql tumble window 的奇妙解析之路

针对 datastream api 大家都比较熟悉了，还是那句话，在 datastream 中，你写的代码逻辑是什么样的，它最终的执行方式就是什么样的。

Flink实战(八) - Streaming Connectors 编程

流数据湖平台Apache Paimon（一）概述

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日，FTS进入 Apache 软件基金会 (ASF) 的孵化器，改名为 Apache Paimon (incubating)。

聊聊流式数据湖Paimon(三)

如果表没有定义主键，则默认情况下它是仅追加表类型(Append Only Table)。根据桶(Bucket)的定义，我们有两种不同的仅追加模式："Append For Scalable Table"和"Append For Queue"；两种模式支持不同的场景，提供不同的功能。只能向表中插入一条完整的记录。不支持删除或更新，并且不能定义主键。此类表适合不需要更新的用例（例如日志数据同步）。

flink exactly-once系列之StreamingFileSink分析

一、两阶段提交概述二、两阶段提交实现分析三、StreamingFileSink分析四、事务性输出实现五、最终一致性实现

flink exectly-once系列之StreamingFileSink分析

一、两阶段提交概述二、两阶段提交实现分析三、StreamingFileSink分析四、事务性输出实现五、最终一致性实现

2021年大数据Flink（四十八）：扩展阅读 Streaming File Sink

https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/connectors/streamfile_sink.html

Flink-看完就会flink基础API

最简单的方式，就是直接调用 getExecutionEnvironment 方法。它会根据当前运行的上下文直接得到正确的结果：如果程序是独立运行的，就返回一个本地执行环境；如果是创建了 jar包，然后从命令行调用它并提交到集群执行，那么就返回集群的执行环境。也就是说，这个方法会根据当前运行的方式，自行决定该返回什么样的运行环境。

看完就会flink基础API

Apache Paimon核心原理和Flink应用进阶

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章，你最好收藏一波。

如何消化每天 150 亿条日志，让大查询保持在 1 秒内

该数据仓库用例与规模有关。用户是中国联通，全球最大的电信服务提供商之一。使用 Apache Doris 在数十台机器上部署多个 PB 级集群，以支持 30 多个业务线每日添加的 150 亿条日志。如此庞大的日志分析系统是网络安全管理的一部分。出于实时监控、威胁追踪和警报的需求，用户需要一个能够自动收集、存储、分析和可视化日志和事件记录的日志分析系统。

实战 | flink sql 与微博热搜的碰撞！！！

根据微博目前站内词条消费情况，计算 top 50 消费热度词条，每分钟更新一次，并且按照列表展现给用户。

Flink HDFS Connector

此连接器提供一个 Sink，将分区文件写入 Hadoop FileSystem 支持的任何文件系统。要使用此连接器，添加以下依赖项：

Flink on K8s 企业生产化实践

为了解决公司模型&特征迭代的系统性问题，提升算法开发与迭代效率，部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题，在大数据与算法间架起科学桥梁，提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 结合关系型数据库等大数据 ODS ( Operational Data store ) 层、DWD、DWS层进行快速的数据 ETL ，将数据抽取到特征平台进行管理，并统一了数据出口，供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用。

Apache Doris 助力中国联通万亿日志数据分析提速 10 倍

在数据安全管理体系的背后，离不开对安全日志数据的存储与分析。以终端设备为例，中国联通每天会产生百亿级别的日志数据，对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前，Apache Doris 在联通体系的落地已支持了 30 多条业务线和数百个实时作业，不仅帮助联通实现了万亿级安全日志的高效分析和低成本，也为其他运营商提供了成功的参考案例和学习经验，对推动运营商的数字化转型进程具有重要意义。

Flume-ng配置

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Apache Doris 助力中国联通万亿日志数据分析提速 10 倍

《Flink 对线面试官》3w 字、6 大主题、30 图、36 个高频问题！（建议收藏）

兄弟们，在 18w 字《Flink SQL 成神之路》之后，我的另一篇《Flink 对线面试官》申请出战！

Flink on TiDB —— 便捷可靠的实时数据业务支撑

本文由网易互娱计费数据中心实时业务负责人林佳老师分享，主要介绍网易数据中心在处理实时业务时为什么选择 Flink 和 TiDB，以及两者的结合应用情况。

Apache-Flink-持续查询(ContinuousQueries)

我们知道在流计算场景中，数据是源源不断的流入的，数据流永远不会结束，那么计算就永远不会结束，如果计算永远不会结束的话，那么计算结果何时输出呢？本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。

流数据湖平台Apache Paimon（三）Flink进阶使用

当Sorted Run数量较少时，Paimon writer 将在单独的线程中异步执行压缩，因此记录可以连续写入表中。然而，为了避免Sorted Runs的无限增长，当Sorted Run的数量达到阈值时，writer将不得不暂停写入。下表属性确定阈值。

基于Apache Hudi + Linkis构建数据湖实践

Linkis是一款优秀的计算中间件，他对应用层屏蔽了复杂的底层计算引擎和存储方案，让大数据变得更加简单易用，同时也让运维变得更加方便。我们的平台很早就部署了WDS全家桶给业务用户和数据分析用户使用。近段时间，我们也调研和实现了hudi作为我们数据湖落地的方案，他帮助我们解决了在hdfs上进行实时upsert的问题，让我们能够完成诸如实时ETL,实时对账等项目。hudi作为一个数据湖的实现，我觉得他也是一种数据存储方案，所以我也希望它能够由Linkis来进行管理，这样我们的平台就可以统一起来对外提供能力。因此我这边做了一个Linkis和Hudi的结合和使用的分享。

一文聊透Apache Hudi的索引设计与应用

Apache Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上，即利用索引查找该纪录是新增（I）还是更新(U)，以提高写入过程中纪录的打标（tag）速度。

基于Canal与Flink实现数据实时增量同步(二)

在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(Operational Data Store)数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量取数并Load：直连MySQL去Select表中的数据，然后存到本地文件作为中间存储，最后把文件Load到Hive表中。这种方案的优点是实现简单，但是随着业务的发展，缺点也逐渐暴露出来：

Flink-1.10中的StreamingFileSink相关特性

Flink流式计算的核心概念，就是将数据从Source输入流一个个传递给Operator进行链式处理，最后交给Sink输出流的过程。本篇文章主要讲解Sink端比较强大一个功能类StreamingFileSink,我们基于最新的Flink1.10.0版本进行讲解，之前版本可能使用BucketingSink,但是BucketingSink从Flink 1.9开始已经被废弃，并会在后续的版本中删除，这里只讲解StreamingFileSink相关特性。

Flink Table API/SQL 是如何变成程序运行的

如上图，最下面一层是 Process Function ，可以去做一些有状态的计算，注册 Timer 定时器，可以做更复杂的操作，灵活性更高，可以做非常复杂的定制开发；

ByteLake：字节跳动基于Apache Hudi的实时数据湖平台

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台 ByteLake 的分享。

从 Spark Streaming 到 Apache Flink：bilibili 实时平台的架构与实践

摘要：本文由 bilibili 大数据实时平台负责人郑志升分享，基于对 bilibili 实时计算的痛点分析，详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面：

Grab 基于 Apache Hudi 实现近乎实时的数据分析

在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。

[随笔]文件系统上存储哈希对象：哈希算法以及目录结构对性能的影响

原贴：https://0xffff.one/d/1395-wen-jian-xi-tong-zuo-wei-huan-cun

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们的目标为：建设口径统一的实时消耗数据，结合BI工具的自动化配置和展现能力，满足业务实时多维消耗分析，提高数据运营的效率和数据准确性。

【最全的大数据面试系列】Hive面试题大全

1.倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。

Apache Iceberg技术调研&在各大公司的实践应用大总结

作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用，总结在下面。希望能给大家带来一些启示。

IoT前沿｜潜入深海，探寻流数据存储Pravega的优势与特点

上一期内容我们讲到：5G时代到来，无处不在的物联网、自动驾驶汽车等在边缘产生的数据源源不断，就像开着的水管，数据源一直流出，由此诞生了新的数据类型即“流数据”。然而，无论Hadoop还是Lambda，都无法胜任新数据环境下的要求，因为计算是原生的流计算，而存储却不是原生的流存储。（上一期文章）

flink sql 知其所以然（十四）：维表 join 的性能优化之路（上）附源码

废话不多说，咱们先直接上本文的目录和结论，小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助：

[万字长文]天机阁1.0百亿级实时计算系统性能优化

随着业务的发展，系统日益复杂，功能愈发强大，用户数量级不断增多，设备cpu、io、带宽、成本逐渐增加，当发展到某个量级时，这些因素会导致系统变得臃肿不堪，服务质量难以保障，系统稳定性变差，耗费相当的人力成本和服务器资源。这就要求我们：要有勇气和自信重构服务，提供更先进更优秀的系统。--导读

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐