大数据应用技术

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在现代企业的工作场景中，假设你是一家电商公司的开发工程师，负责开发一个订单处理微服务模块 order-service，用于管理用户订单的创建、查询和支付。这个模块需要在不同的环境（如开发、测试、生产）中运行，并依赖集中式的配置管理来设置数据库连接、支付网关 API 地址等参数。Spring Cloud Config 提供了一种集中式管理外部配置的解决方案，使 order-service 能够在启动时从配置服务器获取所需的设置。本文档通过 order-service 示例，讲解 Spring Cloud Config 的配置文件类型、官方命名规范以及配置发现逻辑，帮助你理解如何在微服务架构中高效管理配置。

理解 Spring Cloud Config：配置文件发现与命名规范

 将ElasticSearch集群从开源版本升级为具备安全认证功能的版本（如X-Pack），为集群配置SSL/TLS加密并启用安全认证。  

ElasticSearch-7.17.24设置密码及CA证书

 1. 将三台ES节点从ElasticSearch-7.17.10升级至ElasticSearch-7.17.24； 2. 保证索引数据的正常过度，滚动升级不中断业务。  

ElasticSearch-7.17.10集群升级至ElasticSearch-7.17.24

在 Hadoop 生态系统中，NameNode 是文件系统的中心管理器，负责管理 HDFS 的元数据。为了避免单点故障（Single Point of Failure，SPOF），Hadoop 引入了 NameNode 的高可用性架构。主要组件包括：

【九】Hadoop3.3.4HA高可用配置

ZooKeeper 是一个分布式协调服务，用于分布式系统中管理配置信息、命名、同步和集群服务。它提供了一种简单的接口来访问存储在其文件系统中的数据，同时为复杂的分布式系统提供了高可用性和一致性保障。以下是 ZooKeeper 的基本原理：

【八】Zookeeper3.7.1集成Hadoop3.3.4集群安装

https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/
访问apche官网源，下载3.3.4版本，我们用二进制通用版即可，因为hadoop运行在java环境，跨平台性使得无需编译arm架构版本。Hadoop 3.3.4 是当前稳定版本，兼容性和长期支持较好。此版本对最新的Spark和Flink以及Hive也有良好的支持。
然后将文件传到服务器ubuntu1节点。
 

【七】Hadoop3.3.4基于ubuntu24的分布式集群安装

查看java程序的运行状态是最常用的指令。
首先在ubuntu1输入该find命令，查找jps位置，需要首先完成java jdk的安装和配置。

【六】集群管理工具

在 mysql_secure_installation 脚本中，VALIDATE PASSWORD COMPONENT 是一个可选的组件，用于验证和加强密码安全性。它可以强制执行强密码策略。
你可以根据自己的需求选择是否启用该组件：

【五】MySql8基于m2芯片arm架构Ubuntu24虚拟机安装


找到最下面Java SE 看到java 8，下载使用 ARM64 Compressed Archive版本（jdk-8u411-linux-aarch64.tar.gz），因为它更加通用，可以在任何支持 ARM64 的 Linux 系统上安装。
 

【四】jdk8基于m2芯片arm架构Ubuntu24虚拟机下载与安装

Apache ZooKeeper是Apache软件基金会的一个开源分布式软件项目，大数据集群服务器的管理者协调者。
 简言：ZK就是一个管理多个服务(集群分布式环境下)的通知机制 Watcher+文件系统
 ZNode 文件系统：保存少量，服务器相关的配置文件信息。
 Watcher 监听通知机制：注册监听服务器的上下线以及配置信息变更。

Zookeeper在Linux虚拟机下的安装部署

一、通过Producer API发送到kafka中的【topicHW】
 注：topic自行创建
 二、创建一个Consumer API程序，对kafka集群中的【topicHW】进行消费。
 处理消费到的数据，将消费到的数据发送到另外一个名为topicDEAL 的topic中 ，要求如下：

Kafka生产者与消费者练习测试题

django安装了，但是找不到，在控制台执行import django也不会报错。
 此时python解释器在linux的anaconda中。

【已解决】pycharm下数据库转移报错：ModuleNotFoundError: No module named ‘django‘

Flink1.13.6
 MySQL5.7.27
 JDK8
 Hadoop3.1.4
 集成环境Idea2020
 

【已解决】Flink连接JDBC报错 org.apache.flink.runtime.client.JobExecutionException: Job execution failed.

首先这位作者的推荐系统给了我很大的构思启发。
 Github地址：https://github.com/share23/Food_Recommender
 他的系统采用实时大数据技术组件，具体有Spark Streaming，HDFS分布式存储，Hbase存储计算，消息队列采用Kafka，Flume，其中的餐饮数据是用python生成，加上linux的contab模拟流式数据。推荐模块使用ALS算法加评分。
 他的系统架构和技术组件选用给了我很大帮助，包括系统业务逻辑代码，让我顺利完成了我的毕业设计。

基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-11-05】

解释：小计为单月访问次数，累计为在原有单月访问次数基础上累加
 将计算结果写入到mysql的表中，自己设计对应的表结构

SparkSQL练习题-开窗函数计算用户月访问次数

已知一个表order_tab，有如下字段:
 dt，order_id，user_id，amount。

HiveSQL练习题-count,sum开窗统计月度数据，求月用户新增

综上所述，Spark是一个高性能、可扩展且易用的分布式计算框架，具有丰富的功能和灵活的编程接口，适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它在大数据领域发挥着重要的作用，并受到广泛的应用和支持。

Spark面试题持续更新【2023-07-04】

在上述语句中，我们使用了条件聚合和CASE表达式。首先使用GROUP BY a将数据按照"a"列进行分组。然后，使用CASE表达式在每个分组内根据"b"列的值进行条件判断，并提取相应的"c"列的值。最后，使用MAX函数进行聚合，获取每个分组内满足条件的最大值（即对应的"c"列的值）。这样就可以实现多行转多列的效果。

MySQL-多行转多列

将代码打包，上传至hadoop10 /opt/app/flink,jar;
 执行命令运行jar包：
 [root@hadoop10 app]# flink run -c day160616.CheckPointTest /opt/app/flink.jar Job has been submitted with JobID ee5811b41a5e8c5d7dd052ed78db14b4;
 

Flink-Checkpoint&State案例测试

从kafka的topic-car中读取卡口数据，将超速车辆写入mysql的select * from t_speeding_info表，当通过卡口的车速超过60就认定为超速

【基于Flink的城市交通实时监控平台】需求一：卡口车辆超速情况检测

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据应用技术专栏，为你提供了大数据应用技术的相关文章，致力于帮助开发者快速成长与发展。

大数据应用技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐