Hadoop还值得你学习吗,大数据时代结束了?

    作者:课课家教育更新于: 2019-07-05 08:09:35

    数据库是一个 单位或是一个应用领域的通用数据处理系统,它存储的是属于企业和事业部门、 团体和个人的有关数据的 集合。数据库中的数据是从全局观点出发建立的,按一定的 数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取 路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。

    Hadoop从诞生至今已经十三年了。2006年诞生大数据,2008年成为Apache的顶尖项目,成为国内外互联网大数据的标准配置之一。长久以来,想要入行大数据开发Hadoop也是必学。最近确对Hadoop哀声一片,更多喊得是拥抱云计算,摒弃Hadoop。

    目前有一个很悲观的问题,Hadoop正在快速的失去原本属于它的市场。

    Hadoop还值得你学习吗,大数据时代结束了?_大数据_数据分析_数据管理_课课家

    该领域曾经的领头羊 Cloudera、Hortonworks 和 MapR 三家公司最近步履蹒跚,过去作为数据宠儿的他们可以筹措到源源不断的巨额投资,英特尔公司就曾向 Cloudera 注入 7.66 亿美元,这仅仅是一轮投资的数额,而有趣的是在去年年底Cloudera 和 Hortonworks 宣布合并,并且公告声称这将是“merger of equals(平等的合并)”(也可能是这两家公司无法独自存活了),然鹅MapR 成为了牺牲品,根据 LinkedIn 的数据,在过去两年中,MapR 公司缩水了 29%,Cloudera的股价一下子暴跌40%。

    之前的大数据领域过度炒作,泡沫破灭后归于现实,Hadoop领头羊步履蹒跚。MongoDB数据库越来越受欢迎,与老牌数据库MySQLOracle形成三足鼎立的姿态。与MongoDB相似的Elasticsearch分布式搜索和分析引擎背后的Elastic公司一个季度的收入激增70%,员工人数增加一倍。看到这里就纳闷了,MongoDB和Elasticsearch等技术应该是无法撼动Hadoop的,但是现在确发展形式一片大好?

    个体开发人员拥抱云

    个体假发人员对云的追捧是一个原因。虽然Cloudera、Hortonworks和MapR拼命地从内部部署产品发展而来,来自AWS、微软Azure和谷歌的云原生方案都共同提供了“完全集成的产品,它们的购置成本更低,扩展起来费用更省。”Hadoop最主要的用途一直是廉价存储。云存储变得更便宜,加上S3+ EMR及其他服务的用户体验要好上百千倍。显然,Hadoop可能是传统专有数据仓库的出色替代品,但远不如像基于云的Snowflake这些更现代化的方法那么好。

    “没有人知道这些 Hadoop 公司到底在做什么”。Hadoop 供应商争先恐后地为他们的 Hadoop 产品添加各种开源插件(Impala、Pig、Hive、Flume),发明“解决方案技术栈”,让Hadoop产品更加的繁琐和累赘,成本也越来越高。对比上云,MongoDB与Elasticsearch也是因为它们既能解决了Hadoop相同的问题,使用还比Hadoop简单,简单直接的方案和低廉的成本更适合个体开发人员。

    如今,Cloudera 在其网站首页以粗体字写着:“我们为任何数据提供企业数据云,从 Edge 到 AI ”(We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI)。不再是 Hadoop 和 CDH,不再是大数据。现在他们做企业云和人工智能。Hadoop现在真的很糟糕吗?并没有,Hadoop的过去十年是被炒的火热的技术,非常多的企业在购买这个技术,甚至是一些创业公司也在购买并使用这个技术,“大数据”的炒作和泡沫告诉各个企业,Facebook、LinkedIn、Google这些企业的成功是可以复制的,利用好大数据的力量你也可以达到这样的规模,变得一样成功。总之,“大数据”在销售的不是技术,而是在把IT巨头的成功卖给这些传统企业和创业公司。

    一个十年的结束,一个十年的开始。

    大数据前十年处于一个飞速发展的时期,但是并不代表有些什么新的技术突破可以取代掉“大数据”,Hadoop依然是一种可行的技术,它的时代并没有结束,真正结束的是“大数据”炒作的时代结束了。现在的热门趋势是AI和机器学习,它们讲再次循环一个十年,营销人员不断的推销新软件,还是以IT巨头为代表,让传统行业为其买单,吹起下一个科技泡沫。而接下来的十年Hadoop该何去何从?它还值得你学习吗?

    Hadoop的时代并没有结束

    个体用户会继续追求简单直接和低成本,大量的需求会出现越来越多的云厂商,这对Hadoop发展很不利,未来将面临更多的挑战。

    很多企业的数据是远远谈不上大数据的范畴的。但是企业只要还在运营,就一定能产生数据,运营的时间越长久,规模越大就一定会遇到“大数据问题”,这是种必然的现象。大数据技术现在只有脱下光鲜亮丽的外衣,脱离聚光灯的照射慢慢沉淀,才会有更多机会的发展,Hadoop技术始终还是值得你学习的。

     严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。

课课家教育

未登录