51培训网合作机构 > 上海培训学校 > 上海非凡学院欢迎您!
手机版 | 分享到

私人定制的个性化学习方案!

以解决学生就业为目标的教学指导方针!

联系电话

报名咨询热线(咨询时间9:00-21:00)

021-63301563

当前位置:系统运维培训资讯 > 菜鸟们还不知道的IT运维在企业中的工具选择及各阶段运维的处理方式!

菜鸟们还不知道的IT运维在企业中的工具选择及各阶段运维的处理方式!

发布时间:2018年11月8日       已帮助: 1085 人       来源:上海非凡学院

每个企业的运维监控平台不同,小企业有小企业的平台选择,大企业有大企业的选择。运维的工具有很多,如何让你适应社会企业的需求?这里就给大家稍微归类一下,供大家参考参考:

image.png


1、中小企业监控平台选择Zabbix


Zabbix是一款综合了数据收集、数据展示、数据提取、监控报警配置、用户展示等方面的一款综合运维监控平台。


Zabbix学习入门较快,功能也很强大,是一个可以迅速用起来的监控软件,能够满足中小企业的监控报警需求,因此是中小型企业运维监控的首选平台。但是,Zabbix当监控服务器数量较多时,会产生很多问题,如监控数据不准确、报警超时等等问题,这是因为Zabbix对服务器性能要求较高,当监控的服务器数量超过500台后,监控性能急剧下降,此时需要进行分布式监控部署,并且需要提升监控服务器的性能。


安全性方面,Zabbix客户端的agent如果故障,收集到的数据将丢失,同时ZabbixServer也是单点,可能还需要对ZabbixServer做HA保证数据的安全和监控的高可用。


2、互联网大企业监控平台选择Ganglia+Centreon


开源监控软件组合应用+二次开发,是大型互联网企业构建监控平台的一个基本策略,对于有海量服务器、多业务系统的复杂监控,没有哪个软件能独立完成企业的所有监控需求,因此,多种开源监控软件组合应用+二次开发才是监控平台的最终解决方向。


推荐ganglia是因为ganglia客户端软件对服务资源占用非常低,并且扩展插件非常多,监控扩展也非常容易,同时结合专业的web监控平台centreon,可以实现在数据收集、数据展示、数据提取、监控报警配置、用户展示等方面的完美配合,因此这里对海量服务器进行监控我推荐ganglia+centreon组合。


对刚入门IT运维的人也许还不了解运维平台的发展史,这边也就一起和大家分享下IT运维平台的发展史,让大家对IT运维有更好的认知!


那我们就来说说现实中运维会碰到的一些问题及其各阶段应该怎么处理


这边将会是一个经验和总结,总结了一下不同阶段、不同机器数量,监控平台需要的构建思路和策略。


1、机器数量小于100台的阶段


这个时期由于机器数量较少,因此,对监控的需求也很简单,监控的用途可能主要用于通知问题、快速定位与解决问题,大致总结一下,此阶段监控平台的特点如下:


(1)、部署简单,上手易用
(2)、稳定运行,不出故障
(3)、可进行报警,以邮件、短信等形式


基于以上特点和需求,可以使用比较流行开源的监控软件Nagios,Cacti,Zabbix,Ganglia等等。流行的开源产品文档很多,可快速上手,并且有大量的前人使用经验,遇到问题也很容易解决。


在服务及主机极其少的时候可以考虑选择了nagios,因为这款软件是最早流行的,但是后期企业如果主机和服务多了那就添加不方便,那就可以考虑切换到了zabbix上了,在此阶段的时候,zabbix应该是最好的选择。


2、机器数量200到1000的阶段


这个阶段,由于机器数量变多,监控需求也开始变得较为复杂,不过主要还是用于通知、告警,发现问题,并避免同样的问题会再次发生,根据这个阶段的特点,需要在这个时期主要对监控平台做以下工作:


(1)、监控内容分类:由于要监控的机器很多,监控内容也随之增多,于是要将监控根据用途的不同,进行分类,主要分为系统基础监控数据、网络监控数据和业务监控数据。


(2)、全覆盖式监控:将所有机器均纳入监控中,主要包含软件监控和硬件监控,硬件监控主要是监控硬件性能和故障,软件监控除了第一步提到的各种基础监控数据外,还增加了业务逻辑监控,尽可能的讲业务流程覆盖,通过大量的自定义监控减少和去除一些重复的问题,保障业务能够稳定运行。


(3)、多种告警方式,确保无漏报:将所有监控根据重要程度、紧急程度进行分类,分别用邮件,微信,短信,电话等不同级别的方式进行通知,每个监控应要对应到不同的人,确保每个监控都要有人处理,并且要对那些重要的业务采用持续不断的通知方式,不处理就一直通知。


这个阶段的难点是对告警信息的处理,由于机器越来越多,需要监控的服务也越来越多,告警信息就出现了爆发式的增长,每天收到上千封报警邮件是经常的事情。过多的邮件出现,其实就失去了告警的意义,因为我们不可能去查看每一封邮件,而这么多告警邮件中,很多都是非必要的告警,例如系统负载偶尔增高一下,就发了告警邮件,这完全是不需要的。


因此在这个阶段,主要是对监控告警策略进行配置和优化,尽量减少不必要的告警邮件,例如,对系统负载的监控,可以选择连续几次负载超过阀值,然后持续多久之后才进行告警操作,通过对告警策略的优化,告警信息大大减少,每天最多几十封,这样的话,就不会错过任何告警信息了。


3、机器数量超过1000台的阶段


由于业务持续增长,对服务器需求越来越多,当我们的服务器超过1000台以后,监控的情况发生了变化,或者说监控出现了很多奇怪的问题,主要
有如下一些:


(1)、告警不及时


当我们服务器超过1000台以后,我们的zabbix就经常罢工,有时候监控数据不能及时显示,有时候告警迟迟不来,特别是告警延时,这个是最恐怖的事情,线上业务7*24小时不能出现故障,虽然监控到了异常,但是通过监控系统发出来已经是1个或者几个小时之后了,那监控还有什么意义呢,及时性是监控系统的第一要求,这个是必须要解决的问题。


如何解决这个问题呢,除了对监控进行优化,例如分布式proxy方式部署,开启zabbix主动模式,还对数据收集进行了扩展和优化,我们对基础数据的收集,抛弃了zabbix来实现,而采用ganglia,而对业务数据部分实现仍然采用zabbix完成,通过将收集数据的负载进行分担,大大减低了zabbix的负载,数据收集的准确性,及时性又恢复正常了。


(2)、告警系统出现了单点故障


由于服务器众多,收集的数据也飞速增长,曾经有一次,监控服务器突然意外宕机了,等系统恢复启动起来,已经是一个小时以后了,这一个小时运维就变成了睁眼瞎了,多可怕的事情。


自从发生监控系统宕机事故后,我们对监控服务器进行了分布式高可用部署,以避免单点故障,同时对监控到的数据进行远程异地备份,当监控服务器故障后,会自动切换到备用监控系统上,并且监控数据自动保存同步。


(3)、告警需求监控系统无法满足


业务的增加,客户对业务稳定性要求变得更加苛刻,为了保证业务系统稳定运行,业务逻辑监控需求被提出来了,业务逻辑监控就是对业务系统的运行逻辑进行监控,当业务运行逻辑故障时候,也需要进行告警,很显然,对业务逻辑的监控,没有现成的工具和代码,只能根据业务逻辑自行开发,通过提高业务逻辑接口,汇报数据等方式,我们对zabbix进行了多项二次开发,以满足对业务逻辑的监控。


最后,IT运维监控平台是运维工作中不可或缺的一部分,如何构建出一个适合自己的运维监控平台,每个公司的需求都不一样,每个运维面对的痛点也不尽相同,所以不管有什么需求,有多少需求那都是万变不离其宗,有了机器上的各种监控数据,运维就能做很多事情。运维监控的路上,让我们一起前行,共同努力。


以上就是上海非凡学院培训学校小编为您整理菜鸟们还不知道的IT运维在企业中的工具选择及各阶段运维的处理方式!的全部内容,更多精彩请进入系统运维栏目查看。


声明:如本网转载内容侵犯了您的权益,请致信liliping#tuguow.com(将#改成@),我们将及时处理。
预约免费试听课
预约试听
隐私政策