送你干货 | Linux服务器运维集群经验

    作者:课课家教育更新于: 2016-11-04 15:34:13

      作为一个运维人员,相信你会遇到过常见的一些情况就是公司大概有5000+以上的服务器节点,包括各种应用,一个岗位的话需要去维护大约2500+的服务器,主要包括一些视频cdn,直播视频cdn,webcdn和p2p服务器,这些工作量难免是有一些大的,经验是需要一点点的积累下来的,借鉴别人的经验,也许是成长自己最好的一个办法。

    送你干货 | Linux服务器运维集群经验_系统运维_Linux系统_服务器运维_课课家

      在运维的工作中,这些经验你是值得去记忆并且是操作

      1.需要是对服务器型号的区分,为以后的统一化和标准化作硬件上的准备,这一点很多人都是忽视的,其实如果当你这一点做得好会使后面的运维工作轻松很多,根据应用我们主要把服务器分为3中,cpu密集型,这一类是主要用于大量计算应用,比如p2p;内存密集型,用于cache类应用,比如squid,varnish缓存服务器;磁盘密集型,用于大存储类应用,例如是一些视频存储服务器,Hadoop日志存储集群。

      2.系统的的自动安装,这主要有kickstart和cobbler

      3.统一的yum源和定制化的rpm包,并集成至yum源站,是为后续的环境初始化做软件上的准备

      4.需要是构建专属于自己的内网DNS

      5.需要有一个标准化的统一的命名方式(也就是标准化基础),便于使用puppet管理,并且减少操作的错误,我们可以设想一下如果每个机器的hostname都为localhost,那将会是一件非常恐怖可怕的事情,因此在我们的生产环境中主要使用下面这种命名方式,有需要的可以借鉴一下

      机房-主业务-应用程序-IP后两位-公司域名,如果是采取这样的一个命令方式的话这样一眼就可以看出是哪台服务器,应用于什么业务,报警也可以直接定位,可以非常方便管理员的一个操作管理。

      6.关于自动化的配置管理和环境部署工具:puppet,puppet的这些模块编写要尽量减少模块直接的耦合度,并且是使用class继承的方式来减少运维的工作量,定制化的facter变量会使软件的配置环境更加灵活,我们知道由于puppet暂时不支持群集,所以在实际应用中需要部署多套,根据经验,1500台左右的server时puppet会出现性能问题。

      7.拥有强大有效的监控系统,并且是在生产环境中我们使用了zabbix,proxy+zabbixmaster的群集结构,zabbix它是可以实现有效的系统和应用级别的监控,并且是应用监控同时也使用了ppmon来实现多点监控的一个技术点。

      用户如果是选择zabbix有一个最大的好处,就是监控数据它是存放在数据库中的,这样就可以利用数据库中的数据做很多操作,比如可以分析一段时间内服务器的各个性能指标,如需查看服务器的资源利用率,并且是可以对数据进行聚合的一个操作,从而分析全网的指标,比如总的流量,以及总的httpcode分布情况是怎样等。

      8.日志收集服务器群集和qos分析系统,可以构建有效的日志收集系统可以有效地对用户的访问数据进行整合和分析,并且是快速的分析qos,对应重要的节点我们采用本地分析并导入mongodb,最后导入zabbix的方式,非重要节点则直接将日志打包压缩,则是通过ftp上传至hadoop数据仓库集群中。

      9.构建冗余的结构,可以是消除单点,在生成环境中对于一些重要节点都采用keepalived-ha的方案来提高冗余度。对于resin,php等应用服务器则是在前端使用nginx做反向代理,并且是同时nginx使用keepalived-ha。

      10.自动化的代码分发系统,它主要是controltier+svn的使用,因此是可以方便快速地部署代码。

      总结:本文在Linux服务器运维方面是经典的操作,旨在分享给更多的一个服务器的运维经验带给大家,感兴趣的朋友们就不必错过了,相信你可以在实际的使用中会有一定的帮助。

课课家教育

未登录

1