数据中心的「数据」

    作者:课课家教育更新于: 2017-07-12 19:01:05

      课课家教育平台欢迎各位阅读本篇文章课课家教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!

      创新的年轮时时都在转动,科技让我们不知不觉接受了当前一切方便、快捷、安全的同时而全然忘记了背后日新月异的变化。诚然,在当今科技时代,云计算或云服务已代表着最炫酷的风向标。

      从2006 年亚马逊推出的AWS 服务以来,产业界逐渐认识到亚马逊建立了一种新的IT 服务模式。两年以后,云计算正式成为IT领域最令人关注的话题之一,而后一系列令人眼花缭乱的技术变革和新的IT服务模式也随之登上历史舞台。

      本文将以自己华为、IBM多年云计算工作经验,从“传统IT”到现阶段的“互联网IT”转变解说在新的IT世界,“云”对于大多数企业而言是什么催生出的产物?其本质是什么?它会给我们带来什么影响?成熟壮大以后它会不会咬人?甚至不妨大胆猜想,在偏冷门的无人机行业,云计算和无人机又能谈出怎样的恋爱火花?

      云是什么样的产物?听起来高大上的“云”其实是互联网的一个隐喻,最开始是为了解决企业硬件资源的浪费。随后,人们开始将设备的管理、单一的数据存储、高风险的灾备、数据安全通过网络服务按需分配和资源共享的互联网络结构化比喻称为“云”。

      云计算的诞生是继上世纪八十年代大型计算机到客户端-服务器大转变之后的又一个巨变,它是基于互联网相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且资源虚拟化。

      “云服务或云计算”是什么?云服务/云计算指租户通过网络以按需、易扩展的方式获得所需服务,这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。

      云也是分层的任何服务体系都会有自己层次结构,云计算也不例外。它主要是由4种部署模型和3+云计算服务模式构成:

      公有云:公有云通常指第三方提供商为用户提供的能够使用的云,公有云一般可通过 Internet 使用,可能是免费或成本低廉的,公有云的核心属性是共享资源服务。

      私有云:私有云是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制。私有云可部署在企业数据中心的防火墙内,也可以将它们部署在一个安全的主机托管场所,私有云的核心属性是专有资源。

      社区云:社区云是大的“公有云”范畴内的一个组成部分,是指在一定的地域范围内,由云计算服务提供商统一提供计算资源、网络资源、软件和服务能力所形成的云计算形式。

      混合云:混合云融合了公有云和私有云,是近年来云计算的主要模式和发展方向。出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。

      3种模式

    数据中心的「数据」_云计算_大数据应用_数据分析_课课家

      IaaS、PaaS、SaaS三种云计算服务模式如今已演变成3+服务模式。

      IaaS(基础设施即服务):基础设施包括服务器/电脑、网络、存储、负载均衡设备、虚拟机。这些服务于终端用户的软硬件资源都可以按照它们的需求来进行扩展或收缩,通常我们说的去租用某家的云多数情况都是以私有云、公有云或混合云提供的IaaS。IaaS主要的用户是系统管理员。

      SaaS(软件即服务):顾名思义,这种模式包括类似虚拟桌面、各种实用应用程序、内容资源管理、电子邮件、软件及其他等软件部分。在此种模式中,云服务提供商负责安装、管理和运营各种软件,而客户则通过云来登入和使用他们。SaaS主要面对的是普通的用户。

      PaaS(平台即服务):在此种模式中,托管服务供应商通过提供的工作平台来帮助客户,包括执行运行时间、数据库、Web服务、开发工具和操作系统,客户无需手动分配资源。PaaS主要的用户是开发人员。

      DaaS(数据即服务):是继IaaS、PaaS、SaaS之后又一个新的服务概念,数据作为一种服务,是通过传递有用的信息以帮助他人的活动来实现的。

      总结:如果你脑海中云的概念还不太强,可以把它们想象成不同形状的云朵,每一个云朵都基于云计算技术实现,实现了资源的共享,服务的统一,但同时每一个云朵都具有自己鲜明的特征,比如区域特色,也可能是行业特点。

      它会给我们带来什么影响?

      在传统企业或者市场化还不太强的行业,云服务化还在一个艰苦转变过程中,但同时这也是云计算服务转型到传统企业中的黄金发展时期。

      “天下武功,无坚不摧,唯快不破”,随着互联网这波热浪的到来,数据、信息被各种方式快速传递,使得消费服务展开更高效的协作,建一个及时稳定的IT环境是信息化服务发展所必需具备的。

      企业利用互联网的快和云计算的方便,促使业务应用更加精准,服务体验更加人性化。今天我们站在多维的视角去发现云计算带来的价值。

      从企业的应用保障上看对于普通云用户(租户)而言云计算可解决如下几个方向的问题:

      云计算提供了最可靠、最安全的数据存储中心。用户不用再担心数据丢失、病毒入侵等麻烦。你所有的数据都存储在云里吗?那么云就在那里,不离不弃。

      云计算对用户端的设备要求最低,使用起来也最方便。由于应用程序在云中而不是在自己的个人电脑上运行,个人电脑不需要传统的桌面软件所要求的处理能力或硬盘空间。事实上,客户端电脑在这种情况下甚至不需要任何驱动器,因为不需要加载软件程序,也无需保存任何文档。

      增强的计算能力。当你连接到一个云计算系统,你就拥有了可自行支配的整个云的力量。你不再局限于单台计算机所能做的事情,可以利用成千上万台计算机和服务器的能力,执行超级计算类的任务。换句话说,在云中,如果你是一只帝企鹅,也可能吞掉一只大白鲨。

      无限的存储容量。同样,云提供了几乎无限的存储容量。

      从市场云的客户数量、营收规模来看:IaaS层阿里云一家独大。PaaS层中,细分领域内,存在各自第一先锋队公司;SaaS层中,阿里钉钉拥有最多的客户数量,转型软件企业如金蝶拥有最多的云业务营收,但这些远不能覆盖SaaS层的全部业务,且仍有大量初创企业涌现。

      工信部2016年1-8月软件和信息技术服务业主要经济指标显示:2016年中国企业云服务市场规模超500亿元,预计未来几年仍保持约30%的年复合增长率。

      总结:云计算给我们带来的不仅仅是云计算,未来的潜能更说明了云计算服务将是一种生活化、常态化,现在各行各业的产业链也越来越多的依靠云服务和云计算环境。以企业IT建设中为例,企业在利用云计算生态构造IT环境、服务管理、安全防保、高效运算、可靠性的云服务保障的同时,也让云服务模式更深入化和精细化。

      无人机在云计算中应该怎样谈恋爱前文云计算的前世今生介绍应该让你对它有了一个初步判断。那么,有哪些行业可以用到云计算、甚而和其谈场恋爱呢?在这里,我选择一个比较少见的应用场景介绍云计算的生长和前景。

      云+无人机+农业植保农业自古以来便一直都是大多数人赖以生存的行业之一。中国的总耕地面积约为18亿亩,约占世界耕地面积的7%,背后则是6.5亿农民的支撑,但要知道每年因在时喷洒农药的过程中农药中毒人数以万计,无人机植保的发展解决了劳动力和高危行业的从业者全安,那么在农业植保中云计算如何在其中发挥作用呢?

      以云服务为数据基础无人机为作业工具——物联云平台开始派上了大用场。

      物联云平台构成体系:服务架构层:OpenStack资源虚拟化、对象存储体系、软件定义服务;

      通信层:EfyUAVLiNKE物联网通信协议;

      建设绿色环保的数据中心已经成为人们的共识,但在实际操作中,依然有不少数据中心愿意铤而走险、钻空子,以便获取巨额利益,要知道将一个数据中心转变为绿色数据中心,是要投入很多资金和人力的,而很多时候,这方面的投入并不能体现到收入上,往往给数据中心带来沉重的经济负担。还有很多不差钱的金主,数据中心建设几个亿、几个亿的资金往里投,但让他将钱花到看不到的绿色环保建设中,就显得囊中羞涩,根本没有环保意识,说白了就是觉得将钱投入到绿色环保建设上,觉得看不到效益,花得不值。这种思维致使相当一部分数据中心在绿色建设过程中,表现极为消极,做做面子工程而已。美国环境营销公司Terra Choice曾发布了调查报告“漂绿六宗罪”,揭露企业界的虚假环保宣传行径,指出不诚实,则永远不能提高环保水平。对于数据中心市场,同样也存在相当一部分关于绿色的虚假宣传,在这里称之为“漂绿七宗罪”。下面就来详细说说这七宗罪。

      一宗罪:片面强调部分绿色指数

      评价一个绿色数据中心有很多指标,一般是通过评价多个指标,综合评估得出这个数据中心的绿色环保水平,也许一个数据中心经过整体评估,得出的数据并不出色,但数据中心往往拿出其中的一两个高分项,去做宣传,对于其它部分则有意不提或者淡化。比如一个数据中心可能能耗很低,PUE数值也很小,但在排水、废热方面做的不是那么好,数据中心可以对外宣传自己的PUE数值,数值如何的低,但却从不谈起废热和水的消耗部分,试图掩盖数据中心不够绿色的地方。

      二宗罪:缺少绿色标准认证

      如今对数据中心进行绿色认证有不少的专业机构,国内的国外的都有,很多数据中心往往不愿意找这些认证机构,一方面是知道自己的数据中心水平不行,请来这些机构进行评估就是自取其辱;另一方面就是请这些机构评估,也是要花不少的评估费,这可不是免费的,尤其是一些得到同行认可的机构,认证收费都比较高,有时钱花出去还不一定能认证通过,白花钱。这时,有些数据中心就干脆说是经过有关部门或相关机构的绿色认证,更有甚者直接指名道姓,凭空说自己经过了什么机构的绿色认证,进行虚假宣传。

      三宗罪:与绿色认证机构打成一片

    三宗罪:与绿色认证机构打成一片

      对数据中心进行绿色评价是一个综合评价过程,需要对数据中心各个环节进行评比打分,不同的人、不同的机构侧重点都会有偏差,并对评价结果产生影响。有些数据中心就摸透了一些认证机构人员的脾性,为这些认证人员提供片面数据,甚至为这些人员提供私人好处,从而得到与数据中心实际不符的评价结果。市面上也有一些认证机构给钱就评价,想得到好的评估结果,多给钱就行。在这种情况下,数据中心的绿色评价结果与实际相差较大,数据中心拿着这些评价结果进行宣传,往往会给用户误导。

      四宗罪:用词含糊

      数据中心宣称具有一个绿色环保优点,但没有具体说明,很可能会造成误解。比如:在介绍数据中心时,强调数据中心如何的“绿色”和“环保”,但从来不给出足够的信息,证明数据中心是绿色的,用词总是闪烁其词,飘忽不定。就好比别人问一加一为何等于二,答到就是等于二,等于没有给答案。

      五宗罪:谈的永远都是未来会怎样

      数据中心在绿色建设方面,永远强调的是未来会怎样,未来会在哪些方面大力投入,但实际上从来没有行动过,三年前说将在具体哪些方面加大投入,提升数据中心的绿色水平,到了一年前还是这样说,到了现在依然这样说,永远都在画饼充饥。这样的数据中心在骨子里就不想在绿色环保建设方面投入一兵一卒,对未来的绿色建设都是空想,骗骗用户而已。

      六宗罪:钻政策的空子

      数据中心技术发展的很快,不断推陈出新,但各个国家制定的各种法律法规,以及各种建设标准都有一定的滞后性,这个时间往往长达数年。有些数据中心总喜欢拿一些老的标准来衡量自己的数据中心,这些老标准的技术指标早已过期,根本达不到绿色环保的要求,所以评价的结果必然是不符合绿色环保的。就算这些技术标准没有过期,由于长时间没有更新,也无法对实际数据中心评价起到作用。还有不少的法律法规并没有命令要求的,被成为灰色地带,这些地方往往就可以钻政策的空子,打政策的擦边球。

      七宗罪:国内外评价标准不同

      不同国家的数据中心发展水平是不同的,每个国家都是自己的国情,这些国家的数据中心建设标准本就有不少差异性。比如处于寒带地区的国家和处于热带地区的国家显然对数据中心的建设要求是不同的,这样各自的标准也是不同的,两个地方对绿色衡量标准也不同。有些数据中心喜欢拿一些评价水平较低的国家标准来衡量自己,不同国家的数据中心发展水平都不同,所以这些国家的评价标准在细节上是有差异的。数据中心强调自己通过了XX国家的XX级绿色数据中心认证,外行的人一看认为很不错,实际懂行的人才知道这个国家的绿色认证标准的含金量,数据中心拿这些认证通过的证书可以蒙骗过很多人。

      企业要讲求诚信,数据中心也不例外。在绿色环保建设方面,数据中心要踏实做事,实事求是,对数据中心有一个正确、客观的评价结果,对外理性宣传,要知道纸终究是包不住火的。本文列举了数据中心漂绿七宗罪,也是给那些不守规矩的数据中心敲响警钟。

      tributed。

      1、词的独热表示one-hot representation

      NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。关于one-hot编码的资料很多,街货,这里简单举个栗子说明:

      “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]

      “麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]

      大数据在人类历史长河的各个时期一直存在着,只是要等到技术发展到一定阶段,它才开始崭露头角。而它的未来又在哪里?来自 Intercom 的工程师 Cathal Horan 表达了他对大数据的看法,他认为,未来属于算法,而不是代码。

      “大数据时代”的称号并不能为当今世界所独享,数据充斥着人类文明历史长河的各个时期。纵观这些历史时期,通过从离散到抽象的转换,我们就会明白为什么算法比代码重要。

      说到大数据……

      如果我们把整个人类历史看成一天,那么我们只能从晚上 11 点 7 分开始说起。这是安静的一天。但是在随后的一丁点时间里,我们积攒了很多知识和故事,并打算将它们传达给其他人。你可以想象最开始人类通过对话的形式将知识代代相传,从父辈传给子辈,从老师传给学生。但是整个社会的知识量增长迅速,以至于最初的对话形式无法传达这么多的信息。

      我们需要将这些信息编撰成册进行保存和传播。通过书写的方式将知识编撰成册代表着这些时期在技术上的重大转变。事实上,苏格拉底(柏拉图“斐德罗篇”里的角色)认为这种技术转变比不上最初的对话形式,担心它会降低我们开发智慧和知识的能力。所以很自然地,我不认为苏格拉底会喜欢电视。

      问题的核心是,对话代表了一种离散的沟通手段。你知道你的交谈对象是谁,而且参与对话的人通过论证和反证的方式进行直接的互动。反过来,书本是一种抽象的沟通手段,作者和读者之间不存在直接的互动。作者并不知道谁读了他的书,也不知道有多少人、在什么时候、在哪里读了他的书。有时候,我们可能知道潜在的读者群体是谁,然后根据读者群体进行内容裁剪。不过大多数时候,书本都只是一种抽象的传播知识和学习新技能的手段。

      等腰三角形的大数据

      当我们从简单的计算形式转变为由定理、符号和算法组成的抽象形式(我们现在称其为数学),就开启了另一个大数据时代。第一批有记载的计算发生在公元前 2500 年的美索不达米亚。当时,美索不达米亚人需要计算出一谷仓的粮食能够养活多少人。

      美索不达米亚人有具体的问题关注点,他们很清楚需要解决的问题是什么。他们的计算都是很离散的,因为每一次计算只能解决一个问题。这也就是为什么评论家们认为它们不是数学。直到公元前 500 年的古希腊,毕达哥拉斯学者们(可以把他们认为是早期的 Google 使用者,哈哈)开始针对三角形提出了一些奇怪的问题。比如,他们想知道等腰直角三角形的三个边能否都是整数(这听起来像不像一个 Google 风格的面试题?)。

      如果你想通过离散的方式来解答这个问题,那么可以像美索不达米亚人那样做。不过,随着数字的增加,这种方式会显得很笨重。要证明这个假设,你需要进行多少次计算(其实这个假设是错误的,三个边不可能都是整数)?等腰三角形问题的不同之处在于,它不存在具体的关注点。我们不知道三角形的大小,也不知道它们的边长,而且它们的大小可能是无限的。如果我们在数字上应用推理,那么就进入了数学领域,大数据也就接踵而至。毕达哥拉斯式的思维方式体现了数学的抽象特征,在今天,我们使用符号、规则和推理来解答这类抽象的问题。

      或许你想知道人类历史上的其他大数据时期,不过我想直接跳到 20 世纪,看看代码如何成为现代技术领域的重要组成部分(如果你有其他大数据时期的资料,可以联系我 @cathalhoran,我相信它们会很有趣)。

      代码的崛起

      1945 年,当 Grace Hopper 开始在 Harvard Mark I 计算机上工作时,编码(或者说编程,不过我们不打算在这里区分它们有什么不同)这项工作的重要性就开始凸显出来。在这之前,电脑(如果可以这么叫它的话)充其量只是个计算工具。以二战为例,当时的大炮需要借助矩阵进行辅助瞄准。矩阵是一些方程式的计算结果,这些方程式使用数百种不同的计算因子,比如距离、海拔、风速、温度、湿度,等等。电脑(computer)这个名字的由来也是很偶然的,人们用它描述在二战中操作计算机的女性,她们被称为“computer”。操作员们必须使用打孔卡和曲柄来处理方程式。一个打孔卡需要 170 个人月才能完成。

      这个与我们之前讨论的事情有什么相似之处?美索不达米亚人使用黏土矩阵来进行计算,而到了 20 世纪,计算媒介变成了编码。虽然已经有了长足的进步,不过编码仍然是一种离散的操作,因为它执行的是具体的计算任务,只是效率上有所提升而已。编码解放了人工操作,让我们可以处理更多的数据。

      算法与代码

    算法与代码

      算法:一系列用于描述一个问题解决方案的步骤,符合正确性和有限性的标准。是与具体实现相互独立的抽象计算步骤。代码:一系列计算机指令。它们是计算的具体实现,使用一种特定的编程语言,运行在一个特定的平台上。

      人们可以借助这种直接向计算机发送编码指令的方式来实现更为复杂的指令序列,并以算法的形式呈现出来。算法比编码的出现要早得多。穆斯林数学家 Al-Khawarizm 早在公元 820 年就对解决线性方程和二次方程式的算法进行了描述。算法一词来源于这位数学家的拉丁文名字“Algoritmi”,而“algebra”则来源于“al-jabr”,Al-Khawarizm 用它来解决二次方程式问题。算法由一系列有限的计算或指令组成,并产生一个结果。正如我们所知道的那样,代码是向计算机发出指令的一种方式,很适合用于实现算法。它们只不过是一系列按照一定次序执行的操作。

      与早期的大数据时期一样,我们这个时代的信息量也在增长。根据摩尔定律,我们在编码的设计和使用方面所作的改进换来了性能的提升,从而能够应付不断增长的数字化需求。你可以继续编写代码从数据库查询相关的资源列表。这些操作的离散特征仍然被保留了下来,因为人们仍然在通过编写代码告诉硬件应该做哪些事情。就算操作变得越来越复杂,它仍然只是人类的编码指令。不过,算法已经开始展露头角,正在创造一个抽象的新时代。

      算法的崛起

      所以说,算法和代码之间有很大的不同。代码可以用来实现算法,而且代码的实现方式会影响到性能。例如,如果你要从一个序列里找出最大或最小的元素,那么二叉堆的性能相比其他的数据结构要好很多。不过,你已经没有必要通过编写代码来实现一个算法,就像没有必要通过听音乐来写歌一样。

      虽然每个人都知道摩尔定律的魔力,驱动数字经济发展的性能改进遵循的就是摩尔定律,但鲜有人知道,在很多领域,算法所产生的性能改进已经超过了硬件所带来的性能提升。实际上,2010 年的一份官方报告表明,算法已经为很多领域带来了显著的性能提升,比如语音识别、神经语言处理和物流。

      “更加令人感到吃惊但同时又令人难以理解的是,在很多领域,算法为性能带来的提升已经远远超过了处理器速度提升所带来的性能改进。”——面向总统和国会的报告:设计数字的未来

      抽象算法

      我们现在拥有大量的数据,这意味着我们不能再用离散的思维来思考问题。大数据促使我们转变思维。它促使我们向后退一步,去寻找能够处理数据洪流的方法。按照传统的方式,你可能会根据一些指定的模式或参数编写代码来查询数据。例如,你可能想从数据库中查找在过去两周买过 2 件商品并且支付超过 30 欧元的顾客,因为你想联系到这些顾客,并向他们推荐一些优惠活动。你使用这个模式来查找匹配的数据。不过大数据却正好相反,你先有了数据,然后查找可以匹配这些数据的模式。

      想想看,有这么多的数据,但是我们却找不到匹配的模式,所以我们要回退一步。我们通过集群、分类、机器学习和其他新的支撑技术来寻找模式,而能够帮助我们做到这点的是算法,不是代码。要找到隐藏在暗处的模式,跨出这一步是必需的。与光谱一样,有一些波长的光线我们是看相和接触未来挑战的绝佳场所。

      样例实际发挥作用的部分是内置于Python的Turtle组件,它提供了简单有效的方式去教授抽象的Python基础知识。Turtle组件第一次被MIT’s Seymour Papert采用,后来到了1960年在设计Logo语言中得到进一步推广。 这里 可以看到2009年关于组件的最新特征介绍。Trinket使得Turtle组件更易使用和学习。更多信息可以查看 我们主页 上的交互示例。

      小结:相信最后大家阅读完毕本篇文章,肯定学到了不少知识吧?其实大家私下还得多多自学,当然如果大家还想了解更多方面的详细内容的话呢,不妨关注课课家教育平台,在这个学习知识的天堂中,您肯定会有意想不到的收获的!

课课家教育

未登录