首页
学习
活动
专区
圈层
工具
发布
首页标签大数据处理

#大数据处理

从零开始学Flink:实时数仓与维表时态Join实战

用户4160816

在前一篇 《Flink 双流 JOIN 实战详解》 中,我们用「订单流 + 支付流」搞懂了事实双流之间的时间关联。

2300

从零开始学Flink:Flink 双流 JOIN 实战详解

用户4160816

在前一篇 《Flink SQL 窗口(Window)操作详解》 中,我们已经打好了时间与窗口的基础。

1400

流计算与数据湖融合:大数据处理的下一代范式

gavin1024

在当今数据驱动的时代,企业不仅需要存储海量数据,更要求能够实时处理和分析这些数据。数据湖作为集中存储各类数据的仓库,而流计算则负责实时处理数据流,二者的融合正成...

8210

从零开始学Flink:Flink SQL 窗口(Window)操作详解

用户4160816

在上一篇 Flink SQL 极简入门 中,我们体验了 Flink SQL 的基础用法。但在流处理中,最核心、最迷人(也最让人头秃)的概念莫过于“时间”和“窗口...

10910

Spark SQL Catalyst 优化器详解

ETL 小当家

宏观来看:Spark SQL 语句,经过一个优化器(Catalyst),转化为 RDD,交给集群执行。

10810

从零开始学Flink:Flink SQL 极简入门

用户4160816

Flink SQL 是 Apache Flink 的核心模块之一,它让开发者可以使用标准的 SQL 语法来编写流处理和批处理作业。对于不想深究 Java/Sca...

15410

从零开始学Flink:状态管理与容错机制

用户4160816

流式计算任务通常需要 7x24 小时长期运行,面对网络抖动、机器故障或代码 Bug,如何保证任务不挂?或者挂了之后能自动恢复且数据不丢、不重?这正是 Flink...

11510

使用随机时间间隔提升爬虫隐蔽性

小白学大数据

网站对爬虫的检测,本质是区分机器请求与人类请求,而请求的时间特征是最易捕捉的差异点。人类访问网页时,会存在浏览内容、翻页思考、误操作等行为,两次请求之间的时间间...

13710

2026年数据治理整体解决方案

智慧百家

随着数字化转型的深入,数据已成为企业最宝贵的资产之一。然而,数据孤岛、质量参差、标准不一、安全风险等问题严重制约了数据价值的有效释放。有效管理和利用数据,不仅关...

21510

qData 企业级数据中台产品体系解读 | 第 03 篇:一个成熟数据中台背后的 11 个关键设计取舍

吴同

在数据逐渐成为核心资产的今天,越来越多企业开始建设数据中台。但在实际推进过程中,一个普遍存在的问题是:系统建成后难以持续演进,维护成本不断升高,甚至需要推倒重来...

11600

大数据处理:Pandas+Spark 高效分析海量数据

1xsss

Apache Spark是一款基于内存计算的分布式大数据处理框架,支持多语言(Python/Scala/Java),可将海量数据拆分到多个节点并行处理,突破单机...

13210

qData 数据中台核心能力解析|第 01 期 数据服务能力全流程介绍

吴同

版本说明 本文介绍的功能基于 qData 商业版,部分能力在开源版中可能不包含或存在功能差异,具体以实际版本为准。

12100

京准电钟分享:校园网络NTP时钟系统应用方案

北京华人开创公司

1.1 背景 随着校园规模扩大和数字化水平提高,教学楼、办公楼、实验楼、图书馆、体育场馆、学生宿舍等场所对时间的精确性和一致性要求越来越高。传统的独立时钟存在走...

15710

安徽京准:NTP网络时钟系统精准管理医院科室

NTP网络同步时钟

医院NTP网络时钟系统的精准管理,远不止是“对个表”那么简单,它关乎医疗流程的顺畅、医疗安全的质量乃至医疗纠纷的定责。下面我将为您详细阐述如何对医院NTP网络时...

16410

基于 Spark + Delta Lake 的数据中台搭建实践总结

薛定喵君

本文取材于几个月前博主开发的真实项目,总结了基于 Apache Spark、Delta Lake、Kafka 等技术栈构建企业级数据中台的完整实践过程,涵盖架构...

18210

实时开发平台(Streampark)--Flink SQL功能演示

奥零数据科技

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

35210
领券