首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >MMD_1a_MapReduce

MMD_1a_MapReduce

作者头像
用户1147754
发布2018-01-02 17:01:27
发布2018-01-02 17:01:27
6950
举报
文章被收录于专栏:YoungGyYoungGy
  • MapReduce
    • Distributed File System
      • 传统的单机结构与分布式结构
      • 分布式计算的难题
      • MR的解决
      • DFS概述
    • Computational Model
      • 概述
      • 例子
    • Scheduling and Data Flow
      • 整体概述
      • environment
      • data flow
      • coordination
      • num of M and R jobs
    • Refinements
      • combiners
      • partition func
    • implements

本系列,是斯坦福大学《mining massive dataset》的笔记。

MapReduce

Distributed File System

传统的单机结构与分布式结构

分布式计算的难题

  • node failure:如果1台机器故障的概率是1/1000f/d,那么1000台机器故障的概率是1f/d。
  • network bottleneck:假设network bandwidth=1Gbps,那么移动10TB的数据大约需要1天。
  • distributed programming很困难。

MR的解决

  • 将数据冗余地存放在多个计算机节点上
  • 尽量直接在数据侧进行计算,减少数据移动。(move computation close to data)
  • 简单的编程模型

DFS概述

Computational Model

概述

例子

Scheduling and Data Flow

整体概述

environment

data flow

coordination

num of M and R jobs

Refinements

combiners

partition func

implements

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MapReduce
    • Distributed File System
      • 传统的单机结构与分布式结构
      • 分布式计算的难题
      • MR的解决
      • DFS概述
    • Computational Model
      • 概述
      • 例子
    • Scheduling and Data Flow
      • 整体概述
      • environment
      • data flow
      • coordination
      • num of M and R jobs
    • Refinements
      • combiners
      • partition func
    • implements
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档