发布

大数据组件部署

用于测试
专栏成员
17
文章
2313
阅读量
15
订阅数
clickHouse 单节点部署
ClickHouse 是一个基于列式存储的开源关系型数据库管理系统,由 Yandex 公司开发。它特别适合在大规模数据集上执行分析查询,具有以下特点和功能:
码农GT038527
2024-12-06
1070
CentOS7.9.2009 部署 MongoDB
MongoDB 提供了一个官方的 yum 仓库,你可以通过导入 MongoDB 的 GPG 密钥并添加仓库配置文件来启用它
码农GT038527
2024-11-13
1040
OpenRefine 单节点部署
OpenRefine 是一款开源的数据清洗和转换工具,适用于处理和整理大规模数据集。它允许用户轻松地清理、变换、探索和可视化数据,特别适合非结构化或半结构化的数据。
码农GT038527
2024-09-20
1480
CentOS7.9.2009 部署sql server2019
码农GT038527
2024-09-18
950
Hbase 集群部署
HBase 是一个开源的分布式、可扩展的 NoSQL 数据库,基于 Hadoop 的 HDFS(Hadoop Distributed File System)构建,主要用于处理大规模的结构化数据。它提供了随机、实时的读写访问,适合于需要快速查询和更新的场景。
码农GT038527
2024-09-14
1050
kettle 安装 (win)
Kettle(也称为 Pentaho Data Integration, PDI)是一个开源的数据集成工具,主要用于数据的提取、转换和加载(ETL)。它能够帮助用户从不同的数据源中提取数据,进行清洗和转换,然后将数据加载到目标系统中,如数据仓库或数据库。
码农GT038527
2024-09-14
1420
pig 单节点部署
Apache Pig 是一个用于处理大数据的高层次平台,主要用于在 Hadoop 上进行数据流处理。它的核心是 Pig Latin,一种类似于 SQL 的脚本语言,允许用户以更简单的方式编写数据处理程序。
码农GT038527
2024-09-14
1170
Superset 部署
Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘,且Superset是由Python语言编写的Web应用,要求Python3.7以上的环境
码农GT038527
2024-08-29
1740
Spark纯净版 Hive on Spark配置
Apache Spark 是一个开源的统一分析引擎,旨在快速处理大规模数据。它支持多种数据处理任务,包括批处理、流处理、机器学习和图形处理,具有高性能和易于使用的特点。
码农GT038527
2024-08-11
2330
Hive 单节点部署
Hive 是一个建立在 Hadoop 之上的数据仓库工具,它用于提供数据的查询和分析功能。Hive 允许用户使用类似 SQL 的查询语言(HiveQL)来处理存储在 Hadoop 分布式文件系统(HDFS)上的大规模数据。
码农GT038527
2024-08-11
1520
Maxwell单节点部署
Maxwell 是一个开源的实时数据捕获工具,主要用于从 MySQL 数据库中捕获数据变化并将这些变化实时推送到其他系统,比如消息队列、数据仓库等。通俗来说,Maxwell 就像一个“数据监控员”,它时刻关注数据库的变化,并将这些变化及时报告给需要的地方。
码农GT038527
2024-08-08
1600
DataX单节点部署
DataX 是一个开源的数据传输工具,主要用于在不同的数据源之间进行数据的同步和迁移。通俗来说,DataX 就像一个“数据快递员”,负责把数据从一个地方送到另一个地方。
码农GT038527
2024-08-08
1180
MySQL单节点部署
MySQL 是一个开源的关系型数据库管理系统,用于存储和管理数据。通俗来说,MySQL 就像一个电子表格或一个大型的文件柜,帮助我们组织、存储和检索信息。
码农GT038527
2024-08-08
1210
Flume单节点部署
Flume 是一个用于收集和传输大量日志数据的开源工具,特别适合处理大规模的流式数据。通俗来说,Flume 就像一个“数据收集器”,负责把不同地方产生的数据集中到一个地方,方便后续处理和分析。
码农GT038527
2024-08-07
1070
kafka集群部署
Kafka 是一个开源的分布式消息队列系统,主要用于处理和传输大量的数据流。通俗来说,它就像一个“邮局”或者“快递公司”,负责在不同的应用程序之间发送和接收信息。
码农GT038527
2024-08-07
1560
Zookeeper集群部署
Zookeeper 是一个开源的分布式协调服务,主要用于管理和协调分布式系统中的各种服务和数据。通俗来说,它就像是一个“管理员”或“调度员”,帮助不同的服务和应用程序之间进行通信和协作。
码农GT038527
2024-08-07
1700
电商数仓6.0组件之虚拟机搭建Hadoop3.X
Hadoop 是一个开源的框架,主要用于处理海量数据。它能在分布式环境中存储和处理数据,具有高容错性、可扩展性和高性能等优点。Hadoop 可以处理结构化、半结构化和非结构化数据,适用于数据挖掘、机器学习、大数据分析等多种场景。
码农GT038527
2024-08-06
1040
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档