Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【机器学习笔记】:大话线性回归(一)

【机器学习笔记】:大话线性回归(一)

作者头像
Python数据科学
发布于 2018-12-05 10:27:55
发布于 2018-12-05 10:27:55
1.4K00
代码可运行
举报
文章被收录于专栏:Python数据科学Python数据科学
运行总次数:0
代码可运行

  大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以及它们的作用又是什么。

  视频讲解如下:

一、大数据的数据存储组件

  在大数据体系中使用了分布式存储的方式解决了海量数据的存储问题。它分为离线数据存储和实时数据存储。

(一)大数据离线数据存储组件

  大数据离线数据存储组件主要包括:HDFS、HBase和Hive。这三个组件都属于Hadoop生态圈体系。下面分别进行介绍。

  • HDFS   它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,可用于运行在低成本的通用硬件上,是一个具有容错的文件系统。
  • HBase   基于HDFS之上的分布式列式存储NoSQL数据库,起源于Google的BigTable思想。由于HBase的底层是HDFS,因此HBase中创建的表和表中数据最终都是存储在HDFS上。HBase的核心是列式存储,它适合执行查询操作。
  • Hive   Hive是基于HDFS之上的数据仓库,支持标准的SQL语句。默认情况下,Hive的执行引擎是MapReduce。Hive可以把一条标准的SQL转换成是MapReduce任务运行在Yarn之上。

提示:Hive的执行引擎也可以是Spark,即:Hive on Spark。

(二)大数据实时数据存储组件

  大数据实时数据存储组件主要使用消息系统Kafka。

  • Kafka   Kafka是由Apache软件基金会开发的一个开源流处理平台,它是一种高吞吐量的分布式发布订阅消息系统。Kafka的诞生是为了解决LinkedIn的数据管道问题。起初LinkedIn采用ActiveMQ进行数据交换。在2010年前后,Active MQ远远无法满足LinkedIn对数据传递系统的要求,经常由于各种缺陷导致消息阻塞或服务无法正常访问。为了解决这个问题,LinkedIn决定研发自己的消息传递系统。当时LinkedIn的首席架构师Jay Kreps组织团队进行消息传递系统的研发,进而有了现在的Kafka消息系统。

二、大数据的数据计算组件

  大数据生态圈提供了各种计算引擎。通过使用这些计算引擎来执行批处理的离线计算和流处理的实时计算;同时也提供了各种数据分析引擎,用于支持SQL语句

(一)大数据批处理的离线计算组件

  大数据批处理的离线计算组件主要包括:MapReduce、Spark Core和Flink DataSet。下面分别进行介绍。

  • MapReduce   MapReduce是一种分布式计算模型,用以进行大数据量的计算,它是一种离线计算处理模型。MapReduce通过Map和Reduce两个阶段的划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。通过MapReduce既可以处理HDFS中的数据,也可以处理HBase中的数据。提示:在Hadoop的安装包中已经集成了HDFS与Yarn。因此Hadoop安装成功后,可以直接执行MapReduce任务处理HDFS的数据。
  • Spark Core   Spark Core是Spark的核心部分,也是Spark执行引擎。在Spark中执行的所有计算都是由Spark Core完成,它是一个种离线计算引擎。Spark Core提供了SparkContext访问接口用于提交执行Spark任务。通过该访问接口既可以开发Java程序,也可以开发Scala程序来分析和处理数据。SparkContext也是Spark中最重要的一个对象。提示:Spark中的所有计算都是Spark Core离线计算,因此Spark生态圈体系中不存在真正的实时计算。
  • Flink DataSet   Flink DataSet API是Flink中用于处理有边界数据流的功能模块,其本质就是执行批处理的离线计算,这一点与Hadoop中的MapReduce和Spark中的Spark Core其实是一样的。下表1列出了Flink DataSet API中的一些常见的算子。

(二)大数据流处理的实时计算组件

  大数据流处理的实时计算组件主要包括:Spark Streaming和Flink DataStream。下面分别进行介绍。

  • Spark Streaming   Spark Streaming是核心Spark API的扩展,它可实现可扩展、高吞吐量、可容错的实时数据流处理。但是Spark Streaming底层的执行引擎依然是Spark Core,这就决定了Spark Streaming并不是真正的流处理引擎,它是通过时间的采样间隔把流式数据编程小批量数据进行处理,其本质任然是批处理的离线计算。Spark Streaming访问接口是StreamingContext。
  • Flink DataStream   Flink DataStream API可以从多种数据源创建DataStreamSource,如:消息队列Kafka、文件流和Socket连接等等;然后,通过Transformation的转换操作进行流式数据的处理;最后由Sink组件将处理的结果进行输出。

(三)大数据数据分析组件

  为了支持使用SQL处理大数据便有了各种大数据分析引擎,主要包括:Hive、Spark SQL、Flink SQL等下面分别进行介绍。

  • Hive   Hive是基于HDFS之上的数据仓库,支持标准的SQL语句。默认情况下,Hive的执行引擎是MapReduce。Hive可以把一条标准的SQL转换成是MapReduce任务运行在Yarn之上。 提示:Hive的执行引擎也可以是Spark,即:Hive on Spark。
  • Spark SQL   Spark SQL是Spark用来处理结构化数据的一个模块,它的核心数据模型是DataFrame,其访问接口是SQLContext。这里可以把DataFrame理解成是一张表。当DataFrame创建成功后,Spark SQL可支持DSL语句和SQL语句来分析处理数据。由于Spark SQL底层的执行引擎是Spark Core,因此Spark SQL执行的本质也是执行的一个Spark Core任务。
  • Flink Table & FlinkSQL   与Hadoop的Hive和Spark SQL类似,在Flink的生态圈体系中也提供了两个关系型操作的API:Table API 和SQL。Flink Table API 是用于Scala 和Java 语言的查询API,允许以非常直观的方式组合关系运算符的查询,如 select、filter 和 join;Flink SQL API支持的是实现了标准SQL的Apache Calcite。通过这套接口,能够使用SQL语句处理DataSet数据流和DataStream数据流。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python数据科学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CRC校验算法详解、C语言实现
CRC(Cyclic Redundancy Check)校验算法是一种广泛应用于数据通信和存储系统中的错误检测方法,主要用于检测数据在传输过程中是否发生了改变。CRC算法通过计算一个固定长度的校验码,将该校验码附加到原始数据的末尾,接收方在接收到数据后重新计算校验码并与接收到的校验码进行比较,以此判断数据在传输过程中是否发生了错误。这种校验机制不仅能够检测出大多数类型的错误,而且计算效率高,占用资源少,因此在各种通信协议、文件系统、磁盘驱动器和网络协议中都有广泛应用。
DS小龙哥
2025/05/27
1130
CRC校验算法详解、C语言实现
【linux命令讲解大全】005.文件完整性校验与压缩包比较的常用命令:cksum、bzcmp和cmp
cksum命令是用来检查文件的CRC是否正确,以确保文件在从一个系统传输到另一个系统的过程中没有损坏。这种方法要求在源系统中计算出校验和,在目标系统中再次计算出校验和,然后比较这两个数字。如果校验和相等,则认为文件传输正确。
全栈若城
2024/03/02
6100
【linux命令讲解大全】182.常用的Linux命令详解:renice、cksum和lsusb
renice 命令可以修改正在运行的进程的调度优先级。预设是以程序识别码指定程序调整其优先权,您亦可以指定程序群组或用户名称调整优先权等级,并修改所有隶属于该程序群组或用户的程序的优先权。只有系统管理者可以改变其他用户程序的优先权,也仅有系统管理者可以设置负数等级。
全栈若城
2024/03/02
1590
Linux 命令(234)—— cksum 命令
CRC 校验码确保文件从一个系统传输到另一个系统的过程中不被损坏。这种方法要求校验和在源系统中被计算出来,在目的系统中又被计算一次,两个数字进行比较,如果校验和相等,则该文件被认为是正确传输了。
恋喵大鲤鱼
2022/12/25
1K0
Linux 文件管理命令语法、参数、实例全汇总(一)
命令:cat cat 命令用于连接文件并打印到标准输出设备上。 使用权限 所有使用者 语法格式 cat [-AbeEnstTuv] [--help] [--version] fileName 参数说明 -n 或 --number:由 1 开始对所有输出的行数编号。 -b 或 --number-nonblank:和 -n 相似,只不过对于空白行不编号。 -s 或 --squeeze-blank:当遇到有连续两行以上的空白行,就代换为一行的空白行。 -v 或 --show-nonprinting:使用 ^ 和
小小科
2018/05/04
1.4K0
汇总:Linux文件管理的50个命令
文 | 糖豆 图 | 来源网络 糖豆贴心提醒,本文阅读时间6分钟,文末有秘密! Linux cat命令 cat 命令用于连接文件并打印到标准输出设备上。 Linux chattr命令 Linux chattr命令用于改变文件属性。 Linux chgrp命令 Linux chgrp命令用于变更文件或目录的所属群组。 在UNIX系统家族里,文件或目录权限的掌控以拥有者及所属群组来管理。您可以使用chgrp指令去变更文件与目录的所属群组,设置方式采用群组名称或群组识别码皆可。 Linux chmo
小小科
2018/05/04
1.7K0
汇总:Linux文件管理的50个命令
15.linux 文件管理命令:rmdir删除目录 \ chattr改变文件的属性 \ split分割文件
linux 文件管理命令:rmdir删除目录 \ chattr改变文件的属性 \ cksum文件的 CRC 校验 \ cmp比较文件差异 \ split分割文件
度假的小鱼
2025/01/04
1340
15.linux 文件管理命令:rmdir删除目录 \ chattr改变文件的属性   \ split分割文件
Linux 命令(233)—— sum 命令
文章目录 1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 1.命令简介 sum 命令用于计算并显示指定文件的校验和与文件所占用的磁盘块数。 2.命令格式 sum [OPTION]... [FILE]... 如果没有 FILE,或者 FILE 为 -,则读取标准输入。 3.选项说明 -r 使用 BSD 加和算法(默认),以1KB 为一个块。 -s, --sysv 使用 System V 加和算法,以51双字节为一个块 --help 显示帮助信息并退出。 --version 显示版本
恋喵大鲤鱼
2022/12/25
4520
Linux好用的管道命令
1)在当前目录中,查找后缀有 file 字样的文件中包含 test 字符串的文件,并打印出该字符串的行。此时,可以使用如下命令:
WHYBIGDATA
2023/01/31
9.6K0
Linux好用的管道命令
【linux命令讲解大全】183.Linux 常用工具之 md5sum 和 su
md5sum 命令采用 MD5 报文摘要算法(128 位)来计算和检查文件的校验和。一般来说,安装了 Linux 后,就会拥有 md5sum 这个工具,可以直接在命令行终端中使用。
全栈若城
2024/03/02
2030
Kali Linux 命令大全
您可以使用 arch 命令了解计算机体系结构。Arch 命令打印诸如“i386、i486、i586、alpha、arm、m68k、mips、sparc、x86_64 等”。
逍遥子大表哥
2021/12/22
12.8K0
Kali Linux 命令大全
Linux grep命令详解
grep指令用于查找内容包含指定的范本样式的文件,如果发现某文件的内容符合所指定的范本样式,预设grep指令会把含有范本样式的那一列显示出来。若不指定任何文件名称,或是所给予的文件名为"-",则grep指令会从标准输入设备读取数据。
不吃西红柿
2022/07/29
6.1K0
【linux命令讲解大全】043.详解Linux中cpio命令的用法及常见选项
cpio 命令主要是用来建立或者还原备份档的工具程序,cpio 命令可以复制文件到归档包中,或者从归档包中复制文件。
全栈若城
2024/03/02
4480
MD5、SHA1、CRC32值是干什么的?
Hash,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。
JavaEdge
2021/10/18
1.6K0
一文讲透CRC校验码-附赠C语言实例
CRC(Cyclic Redundancy Checksum)是一种纠错技术,代表循环冗余校验和。
C语言与CPP编程
2021/07/27
11K1
一文讲透CRC校验码-附赠C语言实例
20.linux 文件管理命令【md5sum】MD5 函数值计算和检查【awk】模式匹配语言
linux 文件管理命令:【md5sum】MD5 函数值计算和检查【awk】模式匹配语言
度假的小鱼
2025/01/10
2380
20.linux 文件管理命令【md5sum】MD5 函数值计算和检查【awk】模式匹配语言
Linux工作/面试常用命令大全详解
管道符“|”将两个命令隔开,左边命令的输出作为右边命令的输入。连续使用管道意味着第一个命令的输出会作为 第二个命令的输入,第二个命令的输出又会作为第三个命令的输入,依此类推
JavaEdge
2021/02/23
1.6K0
Linux工作/面试常用命令大全详解
Solidigm:基于PI块减少静默数据损坏
静默数据损坏 (SDC) 的原因、可能发生的地方和时间。它强调了 SDC 可能发生在数据生命周期的任何阶段,包括正常操作条件和各种数据处理过程中。
数据存储前沿技术
2025/02/11
1640
Solidigm:基于PI块减少静默数据损坏
CRC校验怎么算?
据说刚过去的高考数学很难,小编当年上学时挺喜欢数学的,最近特意复习了一下CRC校验的计算过程。
用户2366192
2022/12/06
3.6K0
CRC校验怎么算?
使用fold命令限制文件列宽
fold命令会从指定的文件里读取内容,将超过限定列宽的列加入增列字符后,输出到标准输出设备。若不指定任何文件名称,或是所给予的文件名为”-“,则fold指令会从标准输入设备读取数据。
用户1685462
2021/09/08
7000
推荐阅读
相关推荐
CRC校验算法详解、C语言实现
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验