京东大学 · 大数据学院院长 (已认证)
大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。
大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习...
大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此...
由于Flink集成了批计算和流计算,因此可以使用Flink构建流批一体的系统架构,主要包含数据集成的流批一体架构、数仓架构的流批一体架构和数据湖的流批一体。
Flink与Spark一样也是大数据计算引擎,可以完成离线的批处理计算和流处理计算。Flink的优势在它的流处理引擎DataStream。下图展示了Flink的...
Apache Flink 作为一个高性能、分布式流处理框架,近年来备受关注。而在使用Flink进行开发时,选择Java还是Scala,成为许多开发者的难题。本篇...
我对k8s还算了解,但在此之前没接触过flink,部署起来确实有点困难。本文记录在此过程中遇到的问题,以及问题原因和解决方案。
Flink1.13.6 MySQL5.7.27 JDK8 Hadoop3.1.4 集成环境Idea2020
将代码打包,上传至hadoop10 /opt/app/flink,jar; 执行命令运行jar包: [root@hadoop10 app]# flink r...
从kafka的topic-car中读取卡口数据,将超速车辆写入mysql的select * from t_speeding_info表,当通过卡口的车速超过60...
卡口的实时拥堵情况,其实就是通过卡口的车辆平均车速和通过的车辆的数量,为了统计实时的平均车速,我设定一个滑动窗口,窗口长度是为5分钟,滑动步长为1分钟。
实时车辆分布情况,是指在一段时间内(比如:10分钟)整个城市中每个区分布多少量车。这里要注意车辆的去重,因为在10分钟内一定会有很多的车,经过不同的卡口。这些车...
通过Kafka发送模拟实时车辆JSON信息给Flink接收,FlinkSQL将实时车辆JSON信息与t_violation_list表中已经捕捉到的违规违章车辆...
默认情况下,如果未定义特定于作业的重启策略,则Flink会使用集群的默认重启策略。重启策略可以通过Flink的配置文件(flink-conf.yaml)进行配置...
这个代码是sql-client.sh中成功读取到MySQL插入的数据,此时在MySQL中对数据的操作即可通过FlinkCDC连接展示在此界面。
书接上文 【Flink实时数仓】需求一:用户属性维表处理-Flink CDC 连接 MySQL 至 Hbase 实验及报错分析http://t.csdn.cn/...
实时中的宽表其实是在退维,退维是数据处理中的一种操作,它是将细粒度的数据合并、归并为粗粒度数据的过程。在数据处理的过程中,原始数据往往包含大量的细节和细粒度信息...
在Java api中,使用flink本地模式,消费kafka主题,并直接将数据存入hdfs中。
最终在yarn队列运行的flink程序是从本地idea打包,通过flink run提交的。前面安全模式已经打通,在开发时仍然是使用华为官方的flink样例代码进...
Catalog 提供元数据,如数据库、表、分区、视图,以及访问存储在数据库或其他外部系统中的数据所需的函数和信息。