搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
Hadoop入门——初识Hadoop
关注微信公众号“假装正经的程序员” 一.hadoop是什么 Hadoop被公认是一套行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司，如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。二 .hadoop能干什么 hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的三.hadoop的核心 1.HDFS: Hadoop Distributed File System 分布式文件系统 2.YARN: Yet Another Resource Negotiator
1.6K41编辑于 2022-09-05
来自专栏懒人开发
hadoop（1）：hadoop概述
---- hadoop概述 hadoop是 Doug Cutting 在 Lucene 之后的一个项目主要用于计算是一个开源，可靠，可扩展的分布式计算框架主要有 hdfs 也就是，只是时间会长很多 yarn 分布式资源调度当然，hadoop1 和 hadoop2 的一些名词有变化但是，对应的实现，是没有太大区别的好处是，可以多台机器同时处理，通过心跳去及时获取计算结果 ---- hadoop的场景一般可以用于日志分析海量数据的计算复杂算法搜索引擎 dsp获取的个人数据以及为行为分析提供数据对应的hadoop生态圈 ? 核心 Hadoop Common 很多项目都有common模块常用的基础，都放在里面 Hadoop HDFS hadoop的 dfs（Distributed File System）分布式文件系统 Hadoop MapReduce 分布式离线并行计算框架也就是核心想法（先Map，再reduce） Hadoop YARN 新的MapReduce框架，任务调度，资源管理 ---- hdfs相关
1.3K30发布于 2018-09-12
来自专栏全栈程序员必看
hadoop的简介_hadoop体系
一、概述 Hadoop起源：hadoop的创始者是Doug Cutting，起源于Nutch项目，该项目是作者尝试构建的一个开源的Web搜索引擎。三、对hadoop的理解简述 hadoop是用于处理（运算分析）海量数据的技术平台，并且是采用分布式集群的方式。 hadoop有两大功能： 1）提供海量数据的存储服务。四、hadoop三大核心组件 1）HDFS：hadoop分布式文件系统海量数据存储（集群服务）。 2）MapReduce：分布式运算框架（编程框架），海量数据运算分析。五、Hadoop技术生态圈的核心框架组件简介 1）ZooKeeper Zookeeper是Hadoop生态圈中一个非常基础的服务框架，是各分布式框架公用的一个分布式协调服务系统。 3）Ambari Ambari提供一套基于网页的界面来管理和监控Hadoop集群。让Hadoop集群的部署和运维变得更加简单。
1.4K40编辑于 2022-11-19
来自专栏数据分析与挖掘
hadoop之hadoop基础介绍
hadoop是什么？是一个分布式基础架构，主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本？ Apache、clourdera、Hortonworks hadoop优势？高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别？ ? HDFS（hadoop distributed file system）是什么？
1K10发布于 2020-08-26
来自专栏数据分析与挖掘
hadoop之hadoop目录结构
首先是bin目录下：然后是etc：主要存放各种配置文件 include： native：本地库 sbin：存放着一些指令 share：
96920发布于 2020-08-26
来自专栏全栈程序员必看
Hadoop实战_hadoop 项目实战
hadoop 实战练习（二）引言：哈哈，时隔几日，坏蛋哥又回来了，继上一篇hadoop实战练习（一）,坏蛋哥准备继续写一个实战练习实例。苏格拉底曾说：所有科学都源于需求。码字不易，如果大家想持续获得大数据相关内容，请关注和点赞坏蛋哥(haha…) 文章目录：文章目录 hadoop 实战练习（二）一项目需求分析二项目实现思路三具体实现代码讲解 3.1 如果你对hadoop还不是很熟悉，那么可以先看下我的思路，如果理解了，那么就请自己一个人来独立复现代码哦（相信坏蛋哥这么做是为你好，什么东西都是当你能随心所欲的用于起来了，那么就代表你学会了）。 (sTime+"\t"+startPage+"\t"+ lTime+"\t"+lastPage+"\t"+distance+"\t"+count)); } } 四总结上面的全部代码可以在后台回复【hadoop 参考文献： Hadoop documention 版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
2.6K50编辑于 2022-11-15
来自专栏Danny的专栏
【Hadoop学习笔记】——Hadoop基础
Hadoop初识 ---- 　　随着数据量的急剧增加，遇到的两个最直接的问题就是数据存储和计算(分析/利用)。　　 Hadoop应用场景 ---- 　　简单认识了什么是Hadoop，再来了解一下Hadoop一般都适用于哪些场景。　　Hadoop主要应用于大数据量的离线场景，特点是大数据量、离线。 1、数据量大：一般真正线上用Hadoop的，集群规模都在上百台到几千台的机器。这种情况下，T级别的数据也是很小的。大量的小文件使用Hadoop来处理效率会很低。　　 Hadoop常用的场景有： ●大数据量存储：分布式存储（各种云盘，百度，360~还有云平台均有hadoop应用） ●日志处理 ●海量计算，并行计算 ●数据挖掘(比如广告推荐等）
1.2K30发布于 2018-09-13
来自专栏小道
Hadoop
1 Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020 2 Hadoop配置文件 hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves 6 hadoop节点动态上线下线怎么操作? (2) 如果 transitionToStandby 方法调用失败，那么就执行 Hadoop 配置文件之中预定义的隔离措施，Hadoop 目前主要提供两种隔离措施，通常会选择 sshfence：实际上，Hadoop的调度器远不止以上三种，最近，出现了很多针对新型应用的Hadoop调度器。
61610编辑于 2023-10-17
来自专栏开源部署
Hadoop学习教程(四) —- Hadoop集群
下面就跟着笔者开始配置Hadoop集群吧。 (填写从节点主机名，一行一个): hadoop.slave1 hadoop.slave2 hadoop.slave3 　　至此，配置已经修改完了，接下来是启动。：　　　　hadoop fs -put /usr/local/hadoop/test.txt /user/hadoop/input1/ 　　4.查看文件是否已经上传至HDFS中，命令如下: 　　　　hadoop fs -ls /user/hadoop/input1/ 　　5.运行hadoop-example.jar，命令如下：　　　　cd /usr/local/hadoop 　　　　hadoop -jar hadoop-example-1.2.1.jar wordcount /user/hadoop/input1/test.txt /user/hadoop/output1 　　6.过程截图：　　　7
1.6K20编辑于 2022-07-08
来自专栏Hadoop数据仓库
Kettle与Hadoop（三）连接Hadoop
目录一、环境说明二、连接Hadoop集群三、连接Hive 四、连接Impala 五、后续（建立MySQL数据库连接）参考：Use Hadoop with Pentaho Kettle 可以与Hadoop协同工作。在spoon中选择Hadoop种类选择主菜单“Tools” -> “Hadoop Distribution...” 至此已经创建了一个Hadoop集群对象和三个数据库连接对象，如图12所示。 ? 图12 后面将在这些对象上进行一系列Kettle读写Hadoop组件的实验。参考：Use Hadoop with Pentaho
4.6K21发布于 2020-05-29
来自专栏java架构师
Hadoop学习4--安装Hadoop
178: /usr/hadoop/logs/hadoop-master-datanode-slave2.out: Permission denied 个人分析，/usr目录的所有者是root，而我安装hadoop tip：解压缩命令：tar -zxvf hadoop-2.7.0.tar.gz 解压出来的文件是hadoop-2.7.0 copy命令：cp -r hadoop-2.7.0 ~/work/hadoop 这里直接重命名为hadoop 二、创建工作文件夹一共三个，我建在了~/hadoop/这个文件夹下，便于管理：附命令： cd ~/hadoop mkdir tmp mkdir -p dfs/name ~/work/hadoop/etc/hadoop/yarn-env.sh ~/work/hadoop/etc/hadoop/slaves ~/work/hadoop/etc/hadoop/core-site.xml ~/work/hadoop/etc/hadoop/hdfs-site.xml ~/work/hadoop/etc/hadoop/mapred-site.xml ~/work/hadoop/etc/hadoop
1.4K90发布于 2018-04-16
来自专栏Linux云运维
Hadoop
一，网卡配置二，免密登录 1，创建一个Hadoop用户 useradd hadoop passwd hadoop 2，修改主机名 hostnamectl set-hostname master 3，配置IP地址映射 4，配置SSH免密登录（切换到hadoop用户）生成公钥私钥文件 ssh-keygen -t rsa -P ''yes master， slave1，slave2互相传送公钥文件 ssh-copy-id hadoop@master ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2 三，JDK环境配置 1，先进入opt目录，如图配置 1，先进入opt目录，如图： 2，将安装包解压到/usr/local/src/software/ tar -xvf hadoop-2.7.1.tar.gz - C . 3，设置Hadoop hadoop 了。
53930编辑于 2023-03-17
来自专栏后台技术底层理解
hadoop + docker 搭建hadoop学习环境
同时docker搭建hadoop环境可以省去很多重复的步骤。同时现在hadoop的版本比较多，虽然推荐使用HDP和CDH进行集群的搭建，但是在学习时间推荐使用Apache Hadoop进行搭建，可以更快的学习hadoop的工作原理。配置在/data下解压hadoop-2.7.3 进入hadoop-2.7.3/etc/hadoop/下进行修改配值文件 vim hadoop-env.sh 在其中添加java环境 export </description> </property> <property> <name>dfs.data.dir</name> <value>/home/hadoop/hadoop-2.6.0/dfs =/data/hadoop-2.7.3 exportPATH=.
2.3K40发布于 2020-08-05
来自专栏韩曙亮的移动开发专栏
【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils )
/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz 官方下载速度很慢 ; 这里提供一个 Hadoop 版本 , Hadoop 3.3.4 + winutils , CSDN 解压 Hadoop 完成后 , Hadoop 路径为 D:\001_Develop\052_Hadoop\hadoop-3.3.4 三、设置 Hadoop 环境变量 ---- 在环境变量中 , 设置 HADOOP_HOME = D:\001_Develop\052_Hadoop\hadoop-3.3.4 系统环境变量 ; 在 Path 环境变量中 , 增加 %HADOOP_HOME%\bin %HADOOP_HOME%\sbin 环境变量 ; 四、配置 Hadoop 环境脚本 ---- 设置 D:\001_Develop\052_Hadoop\hadoop-3.3.4\etc\hadoop ; 七、验证 Hadoop 安装效果 ---- 然后在命令行中 , 执行 hadoop -version 验证 Hadoop 是否安装完成 ; C:\Windows\system32>hadoop -
5.9K31编辑于 2023-10-11
来自专栏如来的java学习
【Hadoop入门】Hadoop的架构介绍
Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。 Hadoop框架透明地为应用提供可靠性和数据移动。 Hadoop的历史及特点 1. Hadoop的历史 ? image.png 2. 可靠性（Reliable） hadoop 能自动地维护数据的多份副本，并且在任务失败后能自动重新部署(redeploy)计算任务 Hadoop的组成 1. Hadoop的核心组件 ? （8）可扩展性由于Hive是建立在Hadoop之上的，因此Hive的可扩展性是和Hadoop的可扩展性是一致的（世界上最大的Hadoop集群在Yahoo!，2009年的规模在4000台节点左右）。 Hadoop的应用实例 1. 回顾Hadoop的整体架构 ? image.png 2.Hadoop的应用——流量查询系统（1）流量查询系统总体框架 ?
3.9K31发布于 2020-07-14
来自专栏全栈程序员必看
Hadoop版本_Hadoop下那个版本
Apache Hadoop版本分为两代：第一代 Hadoop称为 Hadoop 1.0 第二代 Hadoop称为Hadoop 2.0 第一代Hadoop包含三个大版本，分别是0.20.x , 0.21 Apache Hadoop. Hortonworks . Hadoop的问题。众所周知，CDH是市场上最受欢迎的免费Hadoop版本之一。这就意味着，今后企业想要部署免费Hadoop平台只能选择社区版本，显然这会提高Hadoop部署和运维的难度和技术门槛。另一方面，大数据市场新生力量已经崛起。
2K20编辑于 2022-11-01
来自专栏程序媛驿站
Hadoop | 海量数据与Hadoop初识
2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop，Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop 不得不说Google和Yahoo对Hadoop的贡献功不可没。 Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop，就必须知道HDFS和MapReduce是什么。 HDFS HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。大量的小文件频繁修改文件（基本就是写1次）最后要知道，Hadoop的使用范围远小于SQL或Python之类的脚本语言，所以不要盲目使用Hadoop，看完这篇文章，要知道Hadoop是否适用于你的项目
1.1K20编辑于 2022-04-11
来自专栏容器计算
【Hadoop】 Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.8.5:protoc编译Hadoop问题
[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.8.5:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: protoc version is 'libprotoc After correcting the problems, you can resume the build with the command [ERROR] mvn <args> -rf :hadoop-common 在打包 Hadoop 2.8.5 的时候，报错信息大概如上，其实很好解释，就是本地的 protoc 的版本跟 Hadoop 需要的版本不一样了，从报错信息可以知道，本地是 2.6.1，只要改成 2.5.0
84130发布于 2021-05-27
来自专栏Java学习123
《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术，正巧最近项目组要做电子商城，我就开始研究Hadoop，虽然最后鉴定Hadoop不适用我们的项目，但是我会继续研究下去，技多不压身。《Hadoop基础教程》是我读的第一本Hadoop书籍，当然在线只能试读第一章，不过对Hadoop历史、核心技术和应用场景有了初步了解。 Hadoop核心 Hadoop的核心就是HDFS和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如 HBase、Hive等，这些都是基于但要知道，Hadoop的使用范围远小于SQL或Python之类的脚本语言，所以不要盲目使用Hadoop，看完这篇试读文章，我知道Hadoop不适用于我们的项目。不过Hadoop作为大数据的热门词，我觉得一个狂热的编程爱好者值得去学习了解，或许你下一个归宿就需要Hadoop人才，不是吗。
83250发布于 2018-05-16
来自专栏Hadoop实操
Hadoop已死，Hadoop万岁
云，在地平线之内最近又有很多关于“Hadoop已死”的论调，似乎每隔一段时间就会有一些类似的文章或声音。几年前Cloudera就已经停止了以Hadoop来营销自己，而是一家企业数据公司。那么，如果Hadoop不是“项目”或一组项目，它是什么？就个人而言，“Hadoop”是一门哲学 - 向管理和分析数据现代架构的转变。呃，再说一次？ Merv问他为什么那是Hadoop，他回答说：“它是“Hadoop”，因为Hadoop团队建立了它”。此外，使用的Spark确实来自Hadoop发行版。因此Merv指出：“情人眼里出Hadoop”。所以，Hadoop已死？你所认为的传统的Hadoop已经死了，确实如此。 Hadoop已死，“Hadoop”万岁。
1.7K20发布于 2019-09-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Hadoop入门——初识Hadoop

hadoop（1）：hadoop概述

hadoop的简介_hadoop体系

hadoop之hadoop基础介绍

hadoop之hadoop目录结构

Hadoop实战_hadoop 项目实战

【Hadoop学习笔记】——Hadoop基础

Hadoop

Hadoop学习教程(四) —- Hadoop集群

Kettle与Hadoop（三）连接Hadoop

Hadoop学习4--安装Hadoop

Hadoop

hadoop + docker 搭建hadoop学习环境

【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils )

【Hadoop入门】Hadoop的架构介绍

Hadoop版本_Hadoop下那个版本

Hadoop | 海量数据与Hadoop初识

【Hadoop】 Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.8.5:protoc编译Hadoop问题

《Hadoop基础教程》之初识Hadoop

Hadoop已死，Hadoop万岁

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐