开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >什么是Hadoop？什么是HDFS？

什么是Hadoop？什么是HDFS？

马克java社区

修改于 2021-06-24 02:17:44

修改于 2021-06-24 02:17:44

2.7K0

举报

文章被收录于专栏：java大数据java大数据

什么是Hadoop？什么是HDFS？马克-to-win @ 马克java社区：Hadoop是Apache基金会开发的一个分布式系统基础架构。比如前面我们接触的Spring就是一个开发应用框架。Hadoop 实现了一个分布式文件系统（ Distributed File System），加上Hadoop，即HDFS。Hadoop最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而 MapReduce则为海量的数据提供了计算。从以下的包名就可以看出。 import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper;

更多请见：https://blog.csdn.net/qq_44596980/article/details/93385691

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

MapReduce当中Combiner的用法

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。在上一章的helloworld例子中，每一个map都可能会产生大量的本地输出，这些输出会通过网络到达reducer端，这样会非常浪费带宽。解决这个问题可以通过Combiner。Combiner的作用就是对map端的输出先做一次合并，是MapReduce的一种优化手段之一。

马克java社区

2021/07/05

2220

MapReduce当中Partitioner的用法

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。如果现在我们的需求变成，输出放在两个文件当中，按照关键字的首个字母的26个字母来分，头13个放在一个文件当中，以此类推，这时我们就要用到partition的技术。

马克java社区

2021/07/05

3580

MapReduce当中的reduce当中的cleanup的用法

马克-to-win @ 马克java社区：上面的topN是解决每个组里的topN，比如每个订单中的最小的。但如果需要横向的比较所有的key(初学者忽略：cleanup方法慎用，如果所有的key的数据巨大量怎么办？Map map = new HashMap();内存都不够了，所以考虑多步mapreduce)，选出topN，得用cleanup。

马克java社区

2021/07/05

5480

hadoop WordCount例子详解。

马克-to-win @ 马克java社区：下载hadoop-2.7.4-src.tar.gz，拷贝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples下的WordCount.java文件中的内容到新创建的WordCount空类中。此处附上：

马克java社区

2021/06/24

6100

MapReduce当中全局变量的用法

马克-to-win @ 马克java社区：如想传递变量，程序可以在main函数中，利用Congfiguraion类的set函数将一些简单的数据结构放到到Congfiguraion中，map或reduce task任务启动的过程中（比如setup函数）通过Configuration类的get函数读取即可。

马克java社区

2021/07/05

5620

hadoop案例实现之WordCount （计算单词出现的频数）

一、编写java代码，实现map函数以及reduce函数 package com.paic.elis.test; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apa

MickyInvQ

2020/09/27

7950

hadoop案例实现之WordCount （计算单词出现的频数）

Hadoop（十二）MapReduce概述

前言　　前面以前把关于HDFS集群的所有知识给讲解完了，接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。一、背景 1）爆炸性增长的Web规模数据量 2）超大的计算量/计算复杂

用户1195962

2018/01/18

1K0

Hadoop（十二）MapReduce概述

【大数据】Hadoop技术解析：大数据处理的核心引擎

大数据处理工具数据 hadoop 大数据

在当今的信息时代，大数据已经成为商业和科学研究的关键资源。然而，处理和分析大数据集是一个庞大而复杂的任务。在这个挑战性领域，Hadoop已经崭露头角，它是一个开源的分布式数据处理框架，为处理大规模数据集提供了强大的工具。本文将深入探讨Hadoop的核心概念、架构、应用领域，并提供示例代码，以帮助读者更好地理解和应用Hadoop技术。

为了伟大的房产事业

2024/03/15

4490

hadoop_eclipse及HDT插件的使用

eclipse ide hadoop http 面向对象编程

Hadoop Development Tools (HDT)是开发hadoop应用的eclipse插件，http://hdt.incubator.apache.org/介绍了其特点，安装，使用等，针对

甜橙很酸

2018/06/20

6850

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

java hadoop spring boot

本文将借鉴Hadoop的设计思想，使用Java实现其一大核心功能：MapReduce（分布式计算模型），以此展示如何通过并行计算解决海量数据处理问题。

别惹CC

2025/01/13

1430

Hadoop 系列 MapReduce：Map、Shuffle、Reduce

hadoop java-6 腾讯技术创作特训营S10

文章链接：https://cloud.tencent.com/developer/article/2470497

Lorin 洛林

2024/11/22

8590

Hadoop 系列 MapReduce：Map、Shuffle、Reduce

Hadoop生态系统：从小白到老司机的入门指南

说到大数据，很多人第一时间想到的就是Hadoop。但Hadoop到底是个啥？简单来说，它是一个用来存储和处理大规模数据的分布式系统，适用于海量数据处理场景。很多互联网巨头，如阿里、腾讯、字节跳动，都在使用它。

Echo_Wish

2025/03/29

2660

Hadoop生态系统：从小白到老司机的入门指南

《快学BigData》--Hadoop总结（G）（40）

java 编程算法文件存储 mapreduce hadoop

Hadoop总结 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 210

小徐

2019/08/05

4350

《快学BigData》--Hadoop总结（G）（40）

MapReduce实战-词频统计、文件合并排序

hadoop伪分布式集群环境，包括设置JAVA_HOME、HADOOP_HOME等。可参考使用docker部署hadoop集群-手把手复现

唔仄lo咚锵

2021/12/31

7500

MapReduce实战-词频统计、文件合并排序

Hadoop: MapReduce2的几个基本示例

hadoop mapreduce

1) WordCount 这个就不多说了,满大街都是,网上有几篇对WordCount的详细分析 http://www.sxt.cn/u/235/blog/5809 http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html 这二篇都写得不错, 特别几张图画得很清晰 2) 去重处理(Distinct) 类似于db中的select distinct(x) from table , 去重处理甚至比WordCount还要简单,假如我

菩提树下的杨过

2018/01/19

1.1K0

Hadoop（十二）MapReduce概述

大数据 mapreduce hadoop 网站

　　前面以前把关于HDFS集群的所有知识给讲解完了，接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。

大道七哥

2019/09/10

8770

Hadoop（十二）MapReduce概述

MapReduce的输入文件是两个

马克-to-win @ 马克java社区：这一小节，我们将继续第一章大数据入门的HelloWorld例子做进一步的研究。这里，我们研究如何输入文件是两个文件。

马克java社区

2021/07/05

3870

Hbase篇--Hbase和MapReduce结合Api

Mapreduce可以自定义Inputforma对象和OutPutformat对象，所以原理上Mapreduce可以和任意输入源结合。

LhWorld哥陪你聊算法

2018/09/13

1K0

使用Hadoop和Spark进行大数据分析的详细教程

2023腾讯·技术创作特训营第四期

大数据分析是当今信息时代的重要组成部分，而Hadoop和Spark是两个流行的工具，用于处理和分析大规模数据集。本教程将详细介绍如何使用Hadoop和Spark进行大数据分析，包括数据的存储、处理和分析。

Echo_Wish

2023/12/17

1.8K0

在hadoop上进行编写mapreduce程序，统计关键词在text出现次数

mapreduce的处理过程分为2个阶段，map阶段，和reduce阶段。在要求统计指定文件中的所有单词的出现次数时， map阶段把每个关键词写到一行上以逗号进行分隔，并初始化数量为1（相同的单词hadoop中的map会自动放到一行中） reduce阶段是把每个单词出现的频率统计出来重新写回去。

用户5166556

2019/04/16

1.4K0

相关推荐

MapReduce当中Combiner的用法

更多 >