大数据Hadoop零基础学习

    作者:课课家教育更新于: 2017-05-31 17:31:11

      欢迎大家阅读本文章,本文章是一篇仔细介绍大数据Hadoop零基础学习的文章。这篇文章会给大家带来一些关于大数据和Hadoop相关知识详解,希望本篇文章能帮助到你,对你有所收获,无基础学习大数据,课课家提醒您:大家仔细阅读文章。课课家教育提醒您:要认真好好阅读哦~~

      在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示。

      大数据什么叫大?4个特征:

      体量化 Volume,就是量大。

      多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等

      快速化 Velocity,产生快,处理也需要快。

      价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价值。

      可以看出想只要一台强大的服务器来实时处理这种体量的数据那是不可能的,而且成本昂贵,代价相当大,普通的关系型数据库也随着数据量的增大其处理时间也随之增加,那客户是不可能忍受的,所以我们需要Hadoop来解决此问题。

      优点:

      Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

      高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

      高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

      高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

      高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

      低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

      Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

      Hadoop在各应用中是最底层,最基础的组件,所以其重要性不言而喻。

    大数据Hadoop零基础学习_大数据_安全_存储_课课家教育

      框架结构

      Hadoop主要由HDFS ( 分布式文件系统)和MapReduce (并行计算框架)组成。

      Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

      HDFS

      对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。

      存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

      单节点物理结构

    单节点物理结构

      主从结构

      主节点,只有一个: namenode

      从节点,有很多个: datanodes

      namenode负责:接收用户操作请求 、维护文件系统的目录结构、管理文件与block之间关系,block与datanode之间关系

      NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。

      datanode负责:存储文件文件被分成block存储在磁盘上、为保证数据安全,文件会有多个副本

      MapReduce

      MapReduce是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。例如,在一个关系数据库中,使用一种集合语言执行查询,如SQL。告诉语言想要的结果,并将它提交给系统来计算出如何产生计算。还可以用更传统的语言(C++,java),一步步地来解决问题。这是两种不同的编程模型,MapReduce就是另外一种。

      MapReduce和Hadoop是相互独立的,实际上又能相互配合工作得很好。

      主从结构

      主节点,只有一个: JobTracker

      从节点,有很多个: TaskTrackers

      JobTracker负责:接收客户提交的计算任务、把计算任务分给TaskTrackers执行、监控TaskTracker的执行情况

      TaskTrackers负责:执行JobTracker分配的计算任务

      Hadoop能做什么?

      大数据量存储:分布式存储

      日志处理: Hadoop擅长这个

      海量计算: 并行计算

      ETL:数据抽取到Oracle、mysql、DB2、mongdb及主流数据库

      使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统

      机器学习: 比如Apache Mahout项目

      搜索引擎:hadoop + lucene实现

      数据挖掘:目前比较流行的广告推荐

      大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。

      数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。

      数据不进行本地缓存(文件很大,且顺序读没有局部性)

      任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。

      用户细分特征建模

      个性化广告推荐

      智能仪器推荐

      扩展

    扩展

      实际应用:

      Hadoop+HBase建立NoSQL分布式数据库应用

      Flume+Hadoop+Hive建立离线日志分析系统

      Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

    Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

      酷狗音乐的大数据平台

    酷狗音乐的大数据平台

      京东的智能供应链预测系统

    京东的智能供应链预测系统

    京东的智能供应链预测系统

      Hadoop的学习不仅仅是学习Hadoop,还要学习Linux,网络知识,Java、还有数据结构和算法等等,所以万里长征才开始第一步,希望Hadoop学习不是从了解到放弃。

      大数据小知识:

      结构

      大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

      其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

      第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

      第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

      第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

      特点

      大数据大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。

      大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。

      从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

      大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

      总结:大家都会了呢~相信大家对大数据Hadoop也有些了解了呢~也一定知道了大数据的相关知识的详细介绍,要是您还有什么问题,课课家平台,随时为您服务,关于更多的知识,后面还有很多关于类似的文章,期待大家的到来。

课课家教育

未登录