你需要了解自动化运维的设计思想
2016-02-20 19:34:19 来源: 季文轩 高效运维 评论:0 点击:
嘉宾介绍
季文轩
北京云途腾科技有限责任公司高级系统架构师,Magic-Stack自动化平台作者
热衷开源技术的研究,包括系统架构、运维开发、负载均衡、分布式存储及云计算等领域,擅长大规模集群的运维工作。拥有三年云计算基础设施规划和OpenStack开发经验。
背景
随着信息时代突飞猛进般的持续发展,IT运维已经成为IT服务中最重要的组成部分。近年来,云计算、大数据等技术日趋成熟,生产应用自动化运维也被推到了风口浪尖。通过传统手段对大型计算机集群进行运维即使是简单的日常备份、服务器状态监控和报警,效率也十分低下,因此对自动化运维的需求已经迫在眉睫。
传统运维的弊端:
1.由人来发起运维事件,运维人员被动、效率低。
2.系统异构性大,缺乏高效的运维流程。
3.随着云计算大数据的爆发带来更大的困难,极度缺乏一套高效的运维工具。
由于这些问题的存在,自动化应该遵循四化原则:管理体系化、工作流程化、人员专业化、任务自动化。
以监控作为自动化运维的核心概念
运维工作效率不高,主要原因是响应速度。由于大量的人员长期盯着报警页面,等待故障,然后通知相应人员。所以在生产系统中,需将服务器的状态监控作为自动化运维的核心问题。下图为自动化运维平台处理流程图,由监控来驱动运维事件的发起、处理和结束,由ElkStack 、Zabbix 和 Zabbix-Agent来获取到服务器的日常工作状态和服务信息,并生成时序统计图等用于成果分析。
通过精准有效的报警策略做到专业的事由专业的人去做。生产系统已经实现了邮件、微信、短信告警等功能,可以根据故障类型和影响级别及时通知到相应人员,并且可以根据SLA进行事件升级。后续还可以针对微信平台进行持续开发,提供更多功能,比如说模板化处理机制的问题。
举个例子,服务器的磁盘占用率达到百分九十的时候,告警也会自动通过微信通知到相应的处理人员,这时候处理人员只需采取从微信中选择,并操作对应的清理垃圾模板,如:数据修复模板、清理历史日志模板等,进行清理作业即可。
以模板化部署为自动化运维的必备利器
对于运维工程师来说,真正意义上维护服务器的工作并不算繁重,真正繁重的应该是环境的部署,有的时候环境实施部署会占据到运维工作百分之八十以上的时间。由于操作系统版本的不统一,手动且随意的初始化系统环境,不同软件包的版本更新等一系列的问题,会导致工程师部署运维工具或公司产品时,总会出现各种各样非常奇妙的