首页
学习
活动
专区
工具
TVP
发布

大数据应用技术

专栏成员
74
文章
7386
阅读量
15
订阅数
【九】Hadoop3.3.4HA高可用配置
在 Hadoop 生态系统中,NameNode 是文件系统的中心管理器,负责管理 HDFS 的元数据。为了避免单点故障(Single Point of Failure,SPOF),Hadoop 引入了 NameNode 的高可用性架构。主要组件包括:
火之高兴
2024-08-06
1080
【八】Zookeeper3.7.1集成Hadoop3.3.4集群安装
ZooKeeper 是一个分布式协调服务,用于分布式系统中管理配置信息、命名、同步和集群服务。它提供了一种简单的接口来访问存储在其文件系统中的数据,同时为复杂的分布式系统提供了高可用性和一致性保障。以下是 ZooKeeper 的基本原理:
火之高兴
2024-08-06
660
【七】Hadoop3.3.4基于ubuntu24的分布式集群安装
https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/ 访问apche官网源,下载3.3.4版本,我们用二进制通用版即可,因为hadoop运行在java环境,跨平台性使得无需编译arm架构版本。Hadoop 3.3.4 是当前稳定版本,兼容性和长期支持较好。此版本对最新的Spark和Flink以及Hive也有良好的支持。 然后将文件传到服务器ubuntu1节点。
火之高兴
2024-08-06
1060
【六】集群管理工具
查看java程序的运行状态是最常用的指令。 首先在ubuntu1输入该find命令,查找jps位置,需要首先完成java jdk的安装和配置。
火之高兴
2024-08-06
620
【五】MySql8基于m2芯片arm架构Ubuntu24虚拟机安装
在 mysql_secure_installation 脚本中,VALIDATE PASSWORD COMPONENT 是一个可选的组件,用于验证和加强密码安全性。它可以强制执行强密码策略。 你可以根据自己的需求选择是否启用该组件:
火之高兴
2024-08-06
950
【四】jdk8基于m2芯片arm架构Ubuntu24虚拟机下载与安装
找到最下面Java SE 看到java 8,下载使用 ARM64 Compressed Archive版本(jdk-8u411-linux-aarch64.tar.gz),因为它更加通用,可以在任何支持 ARM64 的 Linux 系统上安装。
火之高兴
2024-08-06
1200
Zookeeper在Linux虚拟机下的安装部署
Apache ZooKeeper是Apache软件基金会的一个开源分布式软件项目,大数据集群服务器的管理者协调者。 简言:ZK就是一个管理多个服务(集群分布式环境下)的通知机制 Watcher+文件系统 ZNode 文件系统:保存少量,服务器相关的配置文件信息。 Watcher 监听通知机制:注册监听服务器的上下线以及配置信息变更。
火之高兴
2024-07-25
1110
Kafka生产者与消费者练习测试题
一、通过Producer API发送到kafka中的【topicHW】 注:topic自行创建 二、创建一个Consumer API程序,对kafka集群中的【topicHW】进行消费。 处理消费到的数据,将消费到的数据发送到另外一个名为topicDEAL 的topic中 ,要求如下:
火之高兴
2024-07-25
610
【已解决】pycharm下数据库转移报错:ModuleNotFoundError: No module named ‘django‘
django安装了,但是找不到,在控制台执行import django也不会报错。 此时python解释器在linux的anaconda中。
火之高兴
2024-07-25
660
【已解决】Flink连接JDBC报错 org.apache.flink.runtime.client.JobExecutionException: Job execution failed.
Flink1.13.6 MySQL5.7.27 JDK8 Hadoop3.1.4 集成环境Idea2020
火之高兴
2024-07-25
1720
基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-11-05】
首先这位作者的推荐系统给了我很大的构思启发。 Github地址:https://github.com/share23/Food_Recommender 他的系统采用实时大数据技术组件,具体有Spark Streaming,HDFS分布式存储,Hbase存储计算,消息队列采用Kafka,Flume,其中的餐饮数据是用python生成,加上linux的contab模拟流式数据。推荐模块使用ALS算法加评分。 他的系统架构和技术组件选用给了我很大帮助,包括系统业务逻辑代码,让我顺利完成了我的毕业设计。
火之高兴
2024-07-25
820
SparkSQL练习题-开窗函数计算用户月访问次数
解释:小计为单月访问次数,累计为在原有单月访问次数基础上累加 将计算结果写入到mysql的表中,自己设计对应的表结构
火之高兴
2024-07-25
620
HiveSQL练习题-count,sum开窗统计月度数据,求月用户新增
已知一个表order_tab,有如下字段: dt,order_id,user_id,amount。
火之高兴
2024-07-25
1010
Spark面试题持续更新【2023-07-04】
综上所述,Spark是一个高性能、可扩展且易用的分布式计算框架,具有丰富的功能和灵活的编程接口,适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它在大数据领域发挥着重要的作用,并受到广泛的应用和支持。
火之高兴
2024-07-25
880
MySQL-多行转多列
在上述语句中,我们使用了条件聚合和CASE表达式。首先使用GROUP BY a将数据按照"a"列进行分组。然后,使用CASE表达式在每个分组内根据"b"列的值进行条件判断,并提取相应的"c"列的值。最后,使用MAX函数进行聚合,获取每个分组内满足条件的最大值(即对应的"c"列的值)。这样就可以实现多行转多列的效果。
火之高兴
2024-07-25
710
Flink-Checkpoint&State案例测试
将代码打包,上传至hadoop10 /opt/app/flink,jar; 执行命令运行jar包: [root@hadoop10 app]# flink run -c day160616.CheckPointTest /opt/app/flink.jar Job has been submitted with JobID ee5811b41a5e8c5d7dd052ed78db14b4;
火之高兴
2024-07-25
820
【基于Flink的城市交通实时监控平台】需求一:卡口车辆超速情况检测
从kafka的topic-car中读取卡口数据,将超速车辆写入mysql的select * from t_speeding_info表,当通过卡口的车速超过60就认定为超速
火之高兴
2024-07-25
650
MapReduce-WorldCount编程思路
split阶段将文件逻辑拆分,为了分布式计算做准备,每一个MapTask生成一个临时文件,多个临时文件会进行合并,用来传递给ReduceTask,然后ReduceTask对临时文件进行计算。本Demo基于Hadoop3.1.4实验。
火之高兴
2024-07-25
650
Hive面试题持续更新【2023-07-07】
Hive是一个在Hadoop上构建的数据仓库基础架构,它提供了一种类似于SQL的查询语言,称为HiveQL,用于处理和分析大规模的结构化数据。Hive的体系架构主要包括以下几个组件:
火之高兴
2024-07-25
980
HiveSQL练习题-rank(),dense_rank(),row_number(),lag()开窗计算排名和分差
开始之前hive打开本地模式 set hive.exec.mode.local.auto=true;
火之高兴
2024-07-25
960
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档