首页技术正文

【hadoop】细读MapReduce的工作原理

程序员国红技术 2022年11月8日

0 收藏 723 点赞 1,494 浏览 689 个字

前言：中秋节有事外加休息了一天，今天晚上重新拾起Hadoop，但感觉自己有点烦躁，不知后续怎么选择学习Hadoop的方法。

干脆打开电脑，决定：

1、先将Hadoop的MapReduce和Yarn基本原理打扎实了再说，网上说的边画图边记得效果好点；

2、有时间就多看看Java和Python的基础知识，牢固牢固；

3、开始学习hive以及spark

正文：

MapReduce如何分而治之？

Map阶段：

a.拆分输入数据（Split）：逐行读取数据，得到一系列（key/value）

注：Split个数根据文件多少来分配，key值包括回车符

b.执行用户自定义的Map方法

c.Mapper按输出的key值对输出的（key，value）进行排序，并执行combine过程，将key值相同的value累加

注1：combine不能取代reduce，但combine可以减少map和reduce之间数据传输量

注2：在map和cobine之间还有两个过程：collect和spill

collect：是map方法处理完数据后，一般调用OutputCollector。collect()收集结果，并在该内部形成（key/value）分片，并写入一个环形缓冲区

spill：当环形缓冲区填满后，MapReduce会将数据写入本地磁盘，生成临时文件

Reduce阶段：

对Map阶段输出的值进行自定义的reduce函数处理，并输出新的（key/value），并作为结果输出。

Reduce阶段分5个步骤：shuffle（复制）——merge（合并）——sort（排序）——reduce（执行函数）——write（写入结果）

数据环形缓冲区自定义阶段

程序员国红

贡献者

上一篇：【Distributed】分布式任务调度平台

下一篇： Linux服务器TIME_WAIT进程的解决与原因

相关推荐

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：9,085

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,560

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,409

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,182

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：7,819

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：4,902

个人收藏笔记记录

开通VIP