FREE教程
目录
  • 主页
  • Oracle教程
  • redis教程
  • hadoop
  • ODI教程
  • BIEE教程
hadoop教程
hadoop教程 初识hadoop hadoop vs 其它系统 Hadoop HDFS文件系统介绍 hadoop 详细安装步骤 hadoop分布式集群安装(1) hadoop安装(2)_配置节点SSH无密码访问 hadoop安装(3)_Linux配置JDK环境 hadoop安装(4)_下载安装配置hadoop hadoop不同版本区别 hadoop hdfs 命令行客户端(shell)常用使用命令 web界面访问hadoop hdfs管理界面 idea 访问hadoop hdfs方法 idea 搭建hadoop开发环境 java Api操作hdfs文件系统 MapReduce介绍 hadoop的Mapreduce运行机制(一) hadoop的Mapreduce运行机制(二) Mapreduce中Map任务的运行机制 Mapreduce中reduce任务的运行机制 Mapreduce入门程序wordcount hadoop Mapreduce程序模板框架
分类导航
Oracle基础教程 PL/SQL教程 Oracle管理 Oracle备份和恢复 Oracle RAC Oracle优化 Oracle技术 redis基础教程 hadoop教程
    首页->hadoop->hadoop教程->Mapreduce中reduce任务的运行机制
Mapreduce中Map任务的运行机制
Mapreduce入门程序wordcount

Mapreduce中reduce任务的运行机制

从前面文章讲解,了解hadoop2.0当中Mapreduce是如何运行的,知道MRAppMaster通过调用yarn节点管理器启动一个节点容器来运行Map任务和reduce任务。上一篇讲解了具体Map任务节点当中Map任务的详细运行过程,接下来讲解一下reduce任务的详细运行过程。如下图:

reduce任务

Copy 阶段:

当Map任务完成后会在各个Map任务节点上重新生成key/value的键值对数据,所以reduce任务根据分区从maptask节点上copy数据到要执行该分区的reduce计算的节点上。复制数据的过程是先放到内存当中,当内存的数据大小超过一定的阀值时,会溢写到磁盘上。

Merge 阶段

在进行COPY阶段的同时,可以对同一个分区内的数据进行合并,同时对内存当中的数据进行合并、也对磁盘上的数据进行合并。

Sort 阶段

Mapreduce中对于reduce函数的输入是按照KEY进行排序聚集的一组数据。所以在调用reduce函数之前,需要对所有的数据再进行一次归并排序。

reduce阶段

在每个节点当中对归并排序好的分区数据进行reduce函数的计算,然后将计算结果写到HDFS上。这里reduce函数是用户编写的代码处理程序

Mapreduce中Map任务的运行机制
Mapreduce入门程序wordcount
关于我们 | 免责声明 | Copyright ? 2018 FREE教程 | 备案号:闽ICP备18020855号-1
公安备案

闽公网安备 35020602001245号