Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Google的三篇大数据思想论文

Google的三篇大数据思想论文

作者头像
张哥编程
发布于 2024-12-19 03:27:44
发布于 2024-12-19 03:27:44
1550
举报
文章被收录于专栏:云计算linux云计算linux

大数据

1、什么是大数据

简单说就是身边的一切,你看到的是,听到的是,闻到的感觉到的触摸到的都是

2、具体一点

天猫淘宝的购物数据,你的聊天记录,医疗记录,看书或者挑东西时候的推荐物品

大数据的问题

1、生活中的种种数据数量如此之多,如何存储

2、要让数据有意义,又该怎么去处理海量的数据

Google对大数据问题的思想

1、GFS:Google File System

对数据进行分布式文件系统的存储,解决的大数据的存储问题

2、MapReduce

最初是因为Google要去爬取全球的网页然后对其进行排名(PageRank)而衍生出的问题,一种用于大数据计算的模型,核心思想是大事化小处理,最后在合并结果,先拆分再合并

3、BigTable

采用NoSQL数据库将数据存在一张大表之中,通过牺牲存储的空间来换取性能

实现思想 -> Hadoop

主要结构

1、HDFS:Hadoop Distributed File System

1. 采用主从式的结构

2. 主节点: NameNode名称节点

3. 从节点: DataNode数据节点

4. SecondaryNameNode: 第二名称节点

这里有两张网上的图可供参考

需要注意的是:NameNode 和 SecondaryNameNode 之间没有关系,前者管理和维护整个HDFS,后者用来日志的合并,两者在同一个节点上(同一个机器),共同的组成了整个HDFS的主从式结构,硬盘需要两个(两台机器)所以HDFS环境至少需要三台机器

2、Yarn:MapReduce 的运行容器

Yarn 的结构,NodeMarager和DataNode在一个节点上,有一个DataNode就有一个NodeMarager

1. 主从式结构

2. 主节点: ResourceManager -> 资源管理器

3. 从节点: NodeManager -> 节点管理器

3、HBase: NoSQL数据库(需要单独安装)

1. 主从式结构

2. 主节点: HMaster

3. 从节点: RegionServer

---------------------

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
一步一步学习大数据:Hadoop 生态系统与场景
到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议。
用户2292346
2018/06/08
5100
盘点Hadoop生态中 6 个核心的大数据组件
大数据生态圈中有很多优秀的组件,可谓琳琅满目,按组件类别可分为存储引擎、计算引擎,消息引擎,搜索引擎等;按应用场景可分为在线分析处理OLAP型,在线事务处理OLTP型,以及混合事务与分析处理HTAP型等。有些组件主要存储日志数据或者只允许追加记录,有些组件可更好的支持CDC或者upsert数据。有些组件是为离线分析或批处理而生,有些则更擅长实时计算或流处理。本文整理了几个笔者认为非常重要且仍然主流的核心组件,供参考。
大数据技术架构
2021/07/29
3.4K0
大数据技术笔试题库
12、在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次()。
杨校
2022/05/14
3.1K0
大数据_Hadoop初体验
root@node1 server$ scp -r /export/server/hadoop root@node2:$PWD
Pandolar
2022/01/04
1K0
大数据_Hadoop初体验
10分钟大数据Hadoop基础入门
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。
IT派
2018/08/10
5600
10分钟大数据Hadoop基础入门
大数据学习之路05——Hadoop原理与架构解析
Hadoop 是 Apache 开源组织的一个分布式计算开源框架,是一个可以更容易开发和运行处理大规模数据的解决方案,它提供了一套分布式系统基础架构,允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。
汪志宾
2019/05/24
8.8K0
大数据学习之路05——Hadoop原理与架构解析
【20】进大厂必须掌握的面试题-50个Hadoop面试
“大数据”是用于收集大型和复杂数据集的术语,这使得很难使用关系数据库管理工具或传统数据处理应用程序进行处理。很难捕获,整理,存储,搜索,共享,传输,分析和可视化大数据。大数据已成为公司的机遇。现在,他们可以成功地从数据中获取价值,并通过增强的业务决策能力在竞争者中拥有明显的优势。
全栈程序员站长
2021/04/07
2.1K0
【20】进大厂必须掌握的面试题-50个Hadoop面试
大数据Hadoop生态圈各个组件介绍(详情)
-coordination and management(协调与管理) -query(查询) -data piping(数据管道) -core hadoop(核心hadoop) -machine learning(机器学习) -nosql database(nosql数据库)
全栈程序员站长
2022/08/31
5.3K0
大数据Hadoop生态圈各个组件介绍(详情)
hadoop大数据面试题
以下资料来源于互联网,很多都是面试者们去面试的时候遇到的问题,我对其中有的问题做了稍许的修改了回答了部分空白的问题,其中里面有些考题出的的确不是很好,但是也不乏有很好的题目,这些都是基于真实的面试来的,希望对即将去面试或向继续学习hadoop,大数据等的朋友有帮助!
风火数据
2018/08/26
1.8K0
hadoop大数据面试题
初识大数据与Hadoop
在大数据时代,基于大数据技术的职位更有钱途,因此成为很多人的职业首选。在大数据技术中,大家常常听到 Hadoop,很多刚开始接触的人会问,什么是 Hadoop?它有什么作用?下面笔者就跟大家唠叨唠叨。
数据森麟
2021/03/09
6280
初识大数据与Hadoop
大数据平台是否更应该容器化?
作者颜卫,腾讯高级后台开发工程师,专注于Kubernetes大规模集群管理和资源调度,有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。
Spark学习技巧
2021/03/05
3.1K1
大数据平台是否更应该容器化?
大数据科普文一篇
大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。大数据要满足三个基本特征(3V),数据量(volume)、数据多样性(variety)和高速(velocity)。数据量指大数据要处理的数据量一般达到TB甚至PB级别。数据多样性指处理的数据包括结构化数据、非结构化数据(视频、音频、网页)和半结构化数据(xml、html)。高速指大数据必须能够快速流入并且能得到快速处理。
震八方紫面昆仑侠
2020/12/02
1.1K0
大数据科普文一篇
Hadoop大数据初学者指南
Hadoop是一个开源框架,允许在分布式环境中使用简单的编程模型来存储和处理大数据,跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
yeedomliu
2023/09/03
3570
Hadoop大数据初学者指南
【Hadoop入门】Hadoop的架构介绍
分析:Hadoop的核心组件分为:HDFS(分布式文件系统)、MapRuduce(分布式运算编程框架)、YARN(运算资源调度系统)
如来
2020/07/14
3.5K0
Hadoop基础知识及部署模式
在开始Hadoop的部署之前需要了解其基础知识及部分原理,由于本文以部署的介绍为主,篇幅有限,因此只会对这部分内容作简单的阐述,后面有机会会撰写专门的Hadoop原理及基础系列文章。
数人之道
2022/01/07
15K0
Hadoop基础知识及部署模式
Hadoop大数据技术课程总结2021-2022学年第1学期
数据量大Volume 第一个特征是数据量大。大数据的起始计量单位可以达到P(1000个T)、E(100万个T)或Z(10亿个T)级别。 类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值"提纯",是大数据时代亟待解决的难题。 速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
IT从业者张某某
2022/11/12
5990
Hadoop大数据技术课程总结2021-2022学年第1学期
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021/09/18
6730
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
大数据概况及Hadoop生态系统总结
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
全栈程序员站长
2022/08/30
6990
大数据概况及Hadoop生态系统总结
2021最全大数据面试题汇总---hadoop篇,附答案!
1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。 5)Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。
大数据小禅
2021/08/16
4.6K0
一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)
根据文章内容总结的摘要
别先生
2018/01/02
1.7K0
一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)
相关推荐
一步一步学习大数据:Hadoop 生态系统与场景
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档