HadoopMapReduce是什么

这篇文章主要介绍“Hadoop MapReduce是什么”，在日常操作中，相信很多人在Hadoop MapReduce是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Hadoop MapReduce是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

为蔚县等地区用户提供了全套网页设计制作服务，及蔚县网站建设行业解决方案。主营业务为网站建设、成都网站制作、蔚县网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

一、MapReduce是什么？

1. mapreduce的定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

2.mapreduce的核心思想

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。
Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。
Reduce负责“合”，即对map阶段的结果进行全局汇总。
这两个阶段合起来正是MapReduce思想的体现。

还有一个比较形象的语言解释MapReduce：

我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就越快。
现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。

二、MapReduce编程

1.MapReduce编程模型

MapReduce是采用一种分而治之的思想设计出来的分布式计算框架
那什么是分而治之呢？

比如一复杂、计算量大、耗时长的的任务，暂且称为“大任务”；
此时使用单台服务器无法计算或较短时间内计算出结果时，可将此大任务切分成一个个小的任务，小任务分别在不同的服务器上并行的执行；
最终再汇总每个小任务的结果

MapReduce由两个阶段组成：

Map阶段（切分成一个个小的任务）
Reduce阶段（汇总小任务的结果）

1. Map阶段

map阶段有一个关键的map()函数；
此函数的输入是键值对
输出是一系列键值对，输出写入本地磁盘。

2. Reduce阶段

reduce阶段有一个关键的函数reduce()函数
此函数的输入也是键值对（即map的输出（kv对））
输出也是一系列键值对，结果最终写入HDFS

Map&Reduce

Hadoop MapReduce是什么

2.Mapreduce编程指导思想（八个步骤）

mapReduce编程模型的总结：
MapReduce的开发一共有八个步骤其中map阶段分为2个步骤，shuffle阶段4个步骤，reduce阶段分为2个步骤

1. Map阶段2个步骤

第一步：设置inputFormat类，将我们的数据切分成key，value对，输入到第二步
第二步：自定义map逻辑，处理我们第一步的输入数据，然后转换成新的key，value对进行输出

2. shuffle阶段4个步骤

第三步：对输出的key，value对进行分区。（相同key的数据属于同一分区）
第四步：对不同分区的数据按照相同的key进行排序
第五步：对分组后的数据进行规约(combine操作)，降低数据的网络拷贝（可选步骤）
第六步：对排序后的数据进行分组，分组的过程中，将相同key的value放到一个集合当中（每组数据调用一次reduce方法）

3. reduce阶段2个步骤

第七步：对多个map的任务进行合并，排序，写reduce函数自己的逻辑，对输入的key，value对进行处理，转换成新的key，value对进行输出
第八步：设置outputformat将输出的key，value对数据进行保存到文件中。

3.Hadoop当中常用的数据类型

hadoop没有沿用java当中基本的数据类型，而是自己进行封装了一套数据类型，其自己封装的类型与java的类型对应如下
下表常用的数据类型对应的Hadoop数据序列化类型

Java类型	Hadoop Writable类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
byte[]	BytesWritable

4.MapReduce编程入门之单词统计