首页
学习
活动
专区
圈层
工具
发布

#hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

NativeIO 源码解析

zeekling

NativeIO主要用于实现一些Java未实现的IO相关的接口。通过JNI的的方式直接调用底层操作系统的系统函数,提升效率和性能。

2300

Hadoop大数据集群搭建(超详细)_hadoop集群搭建

肥仔鱼

Cloudera CDP7.3在国产麒麟aarch64(华为鲲鹏CPU)安装CMP v7.13指南(含文件下载)

12210

Hadoop 实战:从海量数据到 AI 决策的落地方法

肥仔鱼

hadoop distcp hdfs://cdh-cluster/user/hive/warehouse/order_db.db/order_info hdfs...

17110

Hive vs. Impala/Presto/Trino:SQL on Hadoop的另一选择深度解析

用户6320865

当企业每天面对数以PB计的海量数据,传统数据库已难以招架,你是否思考过如何高效挖掘这些数据金矿?随着大数据技术迈入2025年,据Gartner最新报告显示,全球...

13710

大数据领域开山鼻祖组件Hadoop核心架构设计

老周聊架构

Hadoop是一个专为大数据设计的架构解决方案,历经多年开发演进,已逐渐发展成为一个庞大且复杂的系统。其内部工作机制融合了分布式理论与具体工程开发的精髓,构成了...

13110

大数据领域开山鼻祖组件Hadoop核心源码剖析

老周聊架构

可以作参考,只不过Spring源码是gradle编译,我们这的Hadoop要用maven编译。

12610

使用Docker部署Django + MySQL + Hadoop + Hive + Vue项目的完整指南

用户8589624

在现代软件开发中,微服务架构和容器化技术已经成为主流。Docker作为一种轻量级的容器化工具,能够帮助开发者快速构建、部署和运行应用程序。本文将详细介绍如何使用...

19310

在Windows电脑上搭建三台Hadoop集群的完整指南

用户8589624

在大数据领域,Hadoop是一个非常重要的分布式计算框架。它能够处理海量数据,并且具有高容错性和高扩展性。为了学习和测试Hadoop,我们通常需要在本地环境中搭...

22410

传统大数据 Hadoop 和云原生湖仓 Databend 对比

阿炳数记

随着数据需求的不断增加,大数据架构的演变成为了现代数据工程师的重要课题。本文将对比传统大数据架构与新一代云原生湖仓 Databend,通过对比它们在实时与离线架...

12510

CMP7(类Cloudera CMP 7 404版华为Kunpeng)用开源软件Label Studio做数据标注

肥仔鱼

CMP7(类Cloudera CMP 7 404版华为Kunpeng)用开源软件Label Studio做数据标注

12710

Apache Doris 4.0 的 AI 功能:操作指南和脚本(LLM 函数 + 向量索引)与 CMP 7.3( Cloudera CDP 7.3 华为鲲鹏)

肥仔鱼

(LLM 函数 + 向量索引)与 Cloudera CDP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)

13010

【详解】Hadoop命令行运行时指定参数

大盘鸡拌面

在大数据处理领域,Hadoop是一个广泛使用的开源框架,它允许用户轻松地处理和分析大量数据。Hadoop的核心是HDFS(Hadoop分布式文件系统)和MapR...

9900

一文带您全面认识 Hadoop 框架与三大核心组件(HDFS、MapReduce、YARN)

XPcode7

大数据时代下,针对大数据处理的新技术也在不断地开发和运用中,并逐渐成为数据处理挖掘行业广泛使用的主流技术之一。在大数据时代,Hadoop作为处理大数据的分布式存...

36610

【赵渝强老师】大数据日志采集引擎Flume

赵渝强老师

Apache Flume支持采集各类数据发送方产生的日志信息,并且可以将采集到的日志信息写到各种数据接收方。其核心是把数据从数据源(Source)收集过来,在将...

14010

【详解】hadoop下配置文件说明

大盘鸡拌面

Hadoop 是一个开源框架,用于处理大规模数据集的存储和计算。它主要由两个核心组件组成:HDFS(Hadoop Distributed File System...

29710

【详解】HadoopMapReduce实战

大盘鸡拌面

在大数据处理领域,Hadoop是一个非常重要的开源框架,它能够支持在廉价的硬件上运行大型分布式数据处理应用。Hadoop的核心组件之一是MapReduce,这是...

14600

五、Hadoop集群部署:从零搭建三节点Hadoop环境(保姆级教程)

IvanCodes

前言: 想玩转大数据,Hadoop集群是绕不开的一道坎。很多小伙伴一看到集群部署就头大,各种配置、各种坑。别慌!这篇教程就是你的“救生圈”。

1.9K20

二、Hadoop狭义和广义的理解

IvanCodes

在大数据领域,Hadoop 是一个广为人知的概念,但它并非单指某一个软件,而是涵盖了两个层面的含义。一方面,它代表着基础的核心框架;另一方面,它还包括围绕这个核...

11710

Hadoop面试必备:10亿条数据求TopN的MapReduce优化思路详解

用户6320865

在当今数据爆炸的时代,处理海量数据已成为企业和技术人员面临的核心挑战。Hadoop作为开源的分布式计算框架,自2006年诞生以来,已成为大数据处理的事实标准。它...

24910

深入解析Hadoop如何实现数据可靠性:三副本策略、校验和验证与Pipeline复制

用户6320865

校验和系统在Hadoop中被封装为独立的org.apache.hadoop.fs.ChecksumFileSystem类,这种模块化设计使得校验功能可以灵活嵌入...

40310
领券