大数据的MapReduce是做什么的?

    作者:课课家教育更新于: 2019-09-23 14:17:17

    简单的介绍一下大数据中最重要的MapReduce。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

    MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。

    大数据的MapReduce是做什么的_大数据_数据分析_数据管理_课课家MapReduce执行流程图

    概述

    MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。

    MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。

    Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。

    使用

    MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。

    这两个函数的形参和返回值都是,使用的时候一定要注意构造。

    执行流程(此处举例说明)

    1. 一个文本(在HDFS上面保存,两个block)中每一个单词的出现的次数: 
    2.     hello you hello marry 
    3.     hello me really 
    4.             ----->block-1 
    5.              
    6.     hello kate ready 
    7.     xiao wang hello tomcat 
    8.             ----->block-2 

    1.获取每一个block块中的文本,遍历所有,回去其中的一行str

    因为要统计的是每一个单词i的次数,所以还需要直到文本中有哪些单词,可以根据字符串的特点,使用split()进行切割。

    1. String[] words=str.split(""); 

    根据要求,需将每一个单词i转换为的形式,k为单词本身,v为单词出现的次数。

    2.因为mr的计算是分布式的 ,每一个map(称之为一个mapper task)计算其中的一个block块数据。

    1. map阶段: 
    2.     输入 
    3.         k1,偏移量,v1,当前行文本内容 
    4.         map()函数操作 
    5.     输出 
    6.         k2,具体单词,v2,单词对应的统计项,比如次数 
    7.     输出 
    1. shuffle阶段 
    2. 研究后发现,如果按照<key,1>这种方式向reduce输出数据的时候,会有 
    3. 大量的冗余数据。 
    4. 比如map阶段之后有5个hello,则输出,,
    5. ,5次,实际上会对网络造成一定的压力,能不能对 
    6. 这5个进行一个进入reduce之前的本地组合?比如成为 
    7. 或者
    8. 这个过程成为shuffle,洗牌重组阶段,达到上述的结果,称之为规约。 
    9. >>>shuffle阶段,也就是对map的输出进行重新洗牌: 
    10. 分区、分组、排序 
    11. ...===> 
    1. reduce阶段 
    2. 接收map的输出结果<key,values
    3. 对这个结果进行汇总统计,针对values,进行简单的累加,计算得出key 
    4. 对应的次数 
    5. reduce针对一个key调用一次reduce()函数 
    6. =====>reduce 阶段 
    7. 输入 
    8.     K2,就是map的输出的K2,V2s是map经过shuffle之后的结果集 
    9.     reduce()函数操作 
    10. 转化为   

    经过上述操作之后,系统会将计算结果输出给用户,一般会先存储(落地)到hdfs,然后反馈给用户。

    到此为止,MapReduce执行完毕,接下来就可以进行大数据的其他一系列操作了。

    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

课课家教育

未登录