暂无搜索历史
Apache Kafka 4.0 是一个重要的里程碑,标志着首个完全剔除 Apache ZooKeeper® 即可运行的重大版本发布。通过KRaft 模式运行,...
Apache Spark 于 2013 年开源,至今仍是最受欢迎且功能强大的计算引擎之一。然而,使用Spark也面临着挑战,诸如缩容、数据倾斜和内存溢出等问题。...
数据重复一直是数据工程的难题,影响存储成本、查询性能和数据完整性。本文介绍湖仓架构中数据重复是如何在数据摄入、存储合并和表管理等环节出现的,并探究像Hudi这类...
聚类是一种存储优化方法,适用于诸如 Apache Hudi、Apache Iceberg 和 Delta Lake 等开源表格式,核心目标是解决数据摄入顺序(如...
Apache Hudi最初由Uber于2016年开发,旨在构建一个事务型数据湖,以快速可靠地处理数据更新,支持其网约车平台的高速增长。如今,Hudi已被行业广泛...
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力成为容忍...
根据客户现场运维人员反馈新上的某业务对应的Flink作业经常定期异常退出,已有的历史Flink作业并没有这种现象。排查过JobManager日志提示心跳超时,现...
你是否遇到过这么一个需求场景?当数据平台跨地域环境或者平台多版本并存需要数据透传时,怎么实现Kafka集群间多Topic数据同步呢。除了Kafka官方提供的集群...
现场大数据项目Kafka组件大多数使用的语言集中在Java、Python、Go、C++。最近现场需求使用Erlang对接,遂有本文。Erlang是一种函数式并发...
目前gluten支持两种backend:clickhouse和velox,本文实践基于gluten与clickhouse组合方式。
某传统IT客户系统架构重度使用Flink技术栈,早期主要使用standalone集群模式。随着企业数字化改革,公司服务器资源统一纳管。现在迁移为yarn-ses...
Spark Native加速技术日益活跃,不管使用哪种技术方案,本质上都是JNI的使用。所谓JNI,即Java Native Interface,也就是允许Ja...
近几年Spark Native加速技术高速发展、技术栈日益丰富,各大厂商积极迭代支持,目前基本可以达到生产可用级别。技术栈大致分为以下几种:
本文主要记录某医院客户使用OLAP引擎openlookeng查询Hudi MOR表,遇到查询数据不准确问题的排查、分析、解决方法。openlookeng也称为h...
本文主要记录电力行业客户数据湖技术架构演进遇到的问题,已有架构为FlinkSQL实时写入Hudi、Hive on Spark查询,现在准备引入FlinkSQL增...
本文主要记录教育行业高校PyFlink整合Flink ML的场景案例实践总结。PyFlink是可以使用Python语言开发Apache Flink的功能API,...
Paimon支持以多种形式FlinkCDC实时导入源端数据与元数据变更(schema evolution)到Paimon表中。也就是说源端增加列、不用重启Fli...
本文主要记录电力行业客户的数据湖技术方案实践案例,方案概括为基于FlinkSQL+Hudi流式入湖、同步表元数据到Hive,基于Hive catalog统一元数...
虽然当前实时计算领域所有厂商都推荐Flink框架,但是某些传统行业客户因为多年固化的业务场景仍然坚持使用SparkStreaming框架。本文主要记录Spark...
Structured Streaming是基于Spark SQL引擎的可扩展、可容错流计算引擎。用户可以向使用批计算一样的方式使用流计算。Spark SQL持续...
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市