首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Lansonli技术博客

    一体项目(一):项目背景和架构介绍

    项目背景和架构介绍一、项目背景介绍一体实时项目是基于某宝商城项目商数据分析平台,本项目在技术方面涉及大数据技术组件搭建,一体分层数设计、实时到离线数据指标分析及数据大屏可视化,项目所用到的技术组件都从基础搭建开始 ,目的在于一体架构中数据仓库与数据融合打通,实现企业级项目离线与实时数据指标分析。 我们可以将离线数中的数和实时数中的数数据存储统一合并到数据湖上,可以将Kappa架构中的数分层Kafka存储替换成数据技术存储,这样做到“一体”的构建。 “一体”架构构建也是目前各大公司针对离线场景和实时场景统一处理计算的方式。 这样的架构要成为一个可以落地的实时数方案、可以做到实时报表产生。2、项目架构及数据分层此项目中我们使用的数据技术是Iceberg构建“一体”架构来实时和离线分析商业务指标。

    1.6K41编辑于 2022-07-30
  • 来自专栏Lansonli技术博客

    一体项目(四):项目数据种类与采集

    项目数据种类与采集实时数项目中的数据分为两类,一类是业务系统产生的业务数据,这部分数据存储在MySQL数据库中,另一类是实时用户日志行为数据,这部分数据是用户登录系统产生的日志数据。 全量或者增量实时采集到大数据平台中,针对用户日志数据,通过log4j日志将数据采集到目录中,再通过Flume实时同步到大数据平台,总体数据采集思路如下图所示:针对MySQL业务数据和用户日志数据构建离线+实时一体数据分析平台 浏览商品二级分类browseProductCode浏览商品编号obtainPoints浏览商品所获积分2、用户日志数据采集日志数据采集是通过log4j日志配置来将用户的日志数据集中获取,这里我们编写日志采集接口项目 这里我们自己模拟用户浏览日志数据,将用户浏览日志数据采集到Kafka中,详细步骤如下:2.1、将日志采集接口项目打包,上传到node5节点将日志采集接口项目“LogCollector”项目配置成生产环境 a.properties -Dflume.root.logger=INFO,console2.6、启动模拟用户浏览日志代码,向日志采集接口生产数据在window本地启动“LakeHouseMockData”项目下的

    57971编辑于 2022-08-07
  • 来自专栏Lansonli技术博客

    一体项目(十四):实时任务执行流程

    ​实时任务执行流程目前暂时将项目在本地执行,执行顺序如下:一、准备环境这里默认HDFS、Hive、HBase、Kafka环境已经准备,启动maxwell组件监控mysql业务库数据:#在Kafka中创建好对应的 注意:代码执行时可以设置使用内存参数:-Xmx300m -Xms300m三、启动数据采集接口代码启动项目“LakeHouseDataPublish”发布数据。 四、启动模拟数据代码启动项目“LakeHouseMockData”中模拟向数据库中生产数据代码“RTMockDBData.java”。

    37351编辑于 2022-09-13
  • 来自专栏Lansonli技术博客

    一体项目(五):内网穿透工具-网云穿

    二、添加隧道 点击“添加隧道”,进入网页添加:三、启动隧道,测试访问登录客户端,启动隧道,并且启动本地SpringBoot项目,通过外网访问域名可以访问到内网接口。

    70451编辑于 2022-08-12
  • 来自专栏Lansonli技术博客

    一体项目(二十四):合并Iceberg小文件

    ( 'write.metadata.delete-after-commit.enabled'= true,'write.metadata.previous-versions-max' = 3)此项目中我们可以定期执行如下代码来删除

    2.6K101编辑于 2022-10-27
  • 来自专栏Lansonli技术博客

    一体项目(十二):编写写入DM层业务代码

    DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析结果,实时写入到Clickhouse中。

    44971编辑于 2022-09-11
  • 来自专栏Lansonli技术博客

    一体项目(十一):编写写入DWS层业务代码

    DWS层主要是存放大宽表数据,此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。

    65741编辑于 2022-09-10
  • 来自专栏Lansonli技术博客

    一体项目(十三):数据发布接口和可视化

    ​数据发布接口和可视化一、数据发布接口通过Flink实时把结果数据写入Clickhouse-DM层中后,我们需要编写数据发布接口方便数据使用方调用数据结果进行可视化,数据发布接口项目为SpringBoot 项目“LakeHouseDataPublish”,此Springboot接口支持mysql数据源与clickhouse数据源,mysql数据源方便离线数据展示,clickhouse数据源主要展示DM层实时结果数据 此业务对应的接口为”localhost:8989/lakehouse/dataapi/getUserLoginInfos”,启动项目“LakeHouseDataPublish”数据发布接口,启动之后浏览器输入以上接口即可查询对应数据结果

    47091编辑于 2022-09-12
  • 来自专栏Lansonli技术博客

    一体项目(二十二):实时任务执行流程

    ​实时任务执行流程目前暂时将项目在本地执行,执行顺序如下:一、准备环境这里默认HDFS、Hive、HBase、Kafka环境已经准备,启动maxwell组件监控mysql业务库数据:#在Kafka中创建好对应的 注意:代码执行时可以设置使用内存参数:-Xmx500m -Xms500m三、启动数据采集接口代码启动项目“LakeHouseDataPublish”发布数据。 四、启动模拟数据代码启动项目“LakeHouseMockData”中模拟向数据库中生产数据代码“RTMockDBData.java”,此代码中只需要向MySQL生产用户登录数据即可。 启动项目“LakeHouseMockData”中向日志采集接口生产日志的代码“RTMockUserLogData.java”。

    503102编辑于 2022-10-25
  • 来自专栏Lansonli技术博客

    一体项目(二):项目使用技术及版本和基础环境准备

    项目使用技术及版本和基础环境准备一、项目使用技术及版本下表列出项目中使用的大数据技术组件及各个组件的版本,如下:使用技术版本zookeeper3.4.13HDFS3.1.4/3.2.2Hive3.1.2 iceberg0.11.1Hbase2.2.6phoenix5.0.0kafka0.11.0.3redis2.8.18flink1.11.6flume1.9.0maxwell1.28.2clickhouse21.9.4.35二、项目基础环境准备这里我们使用

    44681编辑于 2022-07-31
  • 来自专栏Lansonli技术博客

    一体项目(六):大屏可视化工具腾讯云图

    腾讯云图使用如下:1、登录腾讯云图,创建大屏登录“https://console.cloud.tencent.com/tcv”腾讯云图,点击新建大屏:2、创建“轮播表格”并配置注意以上填写内网穿透接口地址时由于项目中没有配置安全访问

    1.4K31编辑于 2022-08-13
  • 来自专栏Lansonli技术博客

    一体项目(七):业务需求和分层设计及流程图

    业务库用户登录数据表“mc_user_login”、会员基本信息表“mc_member_info”、会员收货地址表“mc_member_address”,我们会将以上业务表数据采集到大数据平台中构建数分层 ,这里我们采数据技术Iceberg构建湖一体结构进行数据仓库分层,用户登录数据表“mc_user_login”是用户登录登出数据信息,在构建数中是一张事实表,会员基本信息表“mc_member_info ”、会员收货地址表“mc_member_address”两张表是描述会员基本信息数据,在数中是维度数据。 在设计分层时,我们将维度数据存储在HBase中,将事实数据存储在Iceberg数分层中。 本业务分层设计如下图所示:

    70941编辑于 2022-08-14
  • 来自专栏Lansonli技术博客

    一体项目(二十一):数据发布接口和数据可视化

    ​数据发布接口和数据可视化一、数据发布接口通过Flink实时把结果数据写入Clickhouse-DM层中后,我们需要编写数据发布接口方便数据使用方调用数据结果进行可视化,数据发布接口项目为SpringBoot 项目“LakeHouseDataPublish”,此Springboot接口支持mysql数据源与clickhouse数据源,mysql数据源方便离线数据展示,clickhouse数据源主要展示DM层实时结果数据 dataapi/getSecondCatVisitInfos”实时获取商品访问热度排行接口:”localhost:8989/lakehouse/dataapi/getProductVisitInfos”启动项目

    45191编辑于 2022-10-24
  • 来自专栏Lansonli技术博客

    一体项目(十八):业务实现之编写写入DWD层业务代码

    Flink读取Kafka topic “KAFKA-ODS-TOPIC” 数据写入Iceberg-DWD层也是复用第一个业务代码,这里只需要在代码中加入写入Iceberg-DWD层代码即可,代码如下:

    53351编辑于 2022-10-23
  • 来自专栏Lansonli技术博客

    一体项目(十):业务实现之编写写入DWD层业务代码

    DWD层数据主要存储干净的明细数据,这里针对ODS层“KAFKA-ODS-TOPIC”数据编写代码进行清洗写入对应的Kafka topic和Iceberg-DWD层中。代码功能中有以下几点重要方面:

    68581编辑于 2022-09-09
  • 来自专栏Lansonli技术博客

    一体项目(十七):业务实现之编写写入DIM层业务代码

    DIM层业务代码与第一个业务处理Kafka topic “KAFKA-DIM-TOPIC” 数据到HBase代码完全一直,所以这里直接复用第一个业务中的DIM层业务代码“DimDataToHBase.scala”即可。

    37431编辑于 2022-10-22
  • 来自专栏Lansonli技术博客

    一体项目(二十三):离线业务统计每天用户商品浏览所获积分

    统计每天用户商品浏览所获积分一、业务需求使用Iceberg构建湖一体架构进行数据仓库分层,通过Flink操作各层数据同步到Iceberg中做到的离线与实时数据一致,当项目中有一些离线临时性的需求时,我们可以基于 bigint);创建完成之后,可以直接执行以上代码,代码执行完成之后,在mysql表“resultdb.user_points”中可以查看对应的结果:图片四、数据发布接口此离线业务对应的接口在数据发布接口项目

    46541编辑于 2022-12-13
  • 来自专栏Lansonli技术博客

    一体项目(八):业务实现之编写写入ODS层业务代码

    ​业务实现之编写写入ODS层业务代码一、代码逻辑和架构图ODS层在一体架构中主要是存储原始数据,这里主要是读取Kafka “KAFKA-DB-BUSSINESS-DATA”topic中的数据实现如下两个方面功能 :将MySQL业务数据原封不动的存储在Iceberg-ODS层中方便项目临时业务需求使用。

    61742编辑于 2022-09-07
  • 来自专栏Lansonli技术博客

    一体项目(十六):业务实现之编写写入ODS层业务代码

    由于本业务涉及到MySQL业务数据和用户日志数据,两类数据是分别采集存储在不同的Kafka Topic中的,所以这里写入ODS层代码由两个代码组成。

    595123编辑于 2022-10-21
  • 来自专栏Lansonli技术博客

    一体项目(十九):业务实现之编写写入DWS层业务代码

    DWS层主要是存放大宽表数据,此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。

    51031编辑于 2022-10-23
领券