首页 > 知识库 > 正文

WOT2016吴兆松:Zabbix监控自动化的未来如何发展
2016-03-04 15:26:49   来源: 孙淑娟 51CTO.com    评论:0 点击:

对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务。本次51CTO记者特别采访了【WOT2016互联网运维与开发者峰会】特邀讲师、OneOaaS技术合伙人吴兆松,他将和大家分享Zabbix监控自动化如何发展和优秀运维工程师需要具备的特质。

“运筹帷幄之中,决胜千里之外。”在IT运维中,监控占据着很重要的地位,按比例来说,以30%来计一点也不为过。对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务。在监控系统的开源软件中,可供选择的工具众多,然而真正适合自己需求,能够真正解决自己业务问题的监控系统软件却凤毛麟角。

本次51CTO记者特别采访了【WOT2016互联网运维与开发者峰会】特邀讲师、OneOaaS技术合伙人吴兆松,他将和大家分享Zabbix监控自动化如何发展和优秀运维工程师需要具备的特质。在他的运维职业生涯中,监控系统用过Cacti、Nagios,以及公司自行开发的监控告警系统,直到接触了Zabbix,才发现这个灵活而强大的自动化监控工具正是他所寻找的。

讲师介绍

\

OneOaaS技术合伙人  吴兆松

吴兆松,曾任职饿了么,后离职创业。目前就职于OneOaaS,作为公司技术合伙人,主要从事运维工具开发,Zabbix监控服务和二次开发。OneOaaS是一家集运维工具开发,监控服务,运维架构咨询于一体的运维服务公司,同时也是中国地区的Zabbix官方合作伙伴。

1.在饿了么的工作经历,对您现在的创业有什么影响吗?您有哪些创业经验分享给想创业的朋友们?

饿了么是一家很重视技术的公司,员工非常年轻,是一群有想法、有追求的年轻人。因此,我与这么多有激情,富有创造力的同事在一起工作是非常开心的事情。饿了么的专注,效率和执行力是大家有目共睹的,这些对我的影响很大。

在创业前期,我还是一个“小学生”,还要向更多前辈学习。对于第一次创业的朋友们提下小建议,也是自我的感受:创业前的你一定要想好所具备的资源,选择方向的发展前景,如果这两点已经确认了,那么你就要十分专注,为了家人、伙伴和完美的人生去勇敢的拼搏一次。

2.您工作中所使用的Zabbix监控自动化处于什么阶段呢?您对于它的未来发展有哪些期待?

Zabbix是一个基于Web界面,提供分布式系统监视以及网络监视功能的企业级开源解决方案。它能监视各种网络参数,保证服务器系统的安全运营,并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题,是企业自动化运维监控的利器。Zabbix灵活的设计为用户提供了易用的二次开发接口,让用户既可以使用Zabbix本身提供的功能,又可以自定义更多的监控项功能,从硬件监控,到操作系统,再到服务进程,以及网络设备。

目前,我们为客户提供Zabbix监控的咨询架构与设计实现中,规模有大有小,既有多达几千台规模的服务器,也有几百台规模的服务器。环境有物理机,网络设备,虚拟化,存储,也有云环境,如AWS,阿里云等。甚至有些客户监控点的物理位置分布在全球各地,因网络环境造成的监控波动比较严重。我们所涉及到的监控需求是比较复杂的。

就监控系统的自动化运维发展阶段来说,我们可以从几个方面来理解。

(1)设备添加的自动化,是指监控系统能够通过一定规则来实现监控的自动添加,如主动上报,被动扫描。

(2)监控指标添加的自动化,对发现后的设备,添加需要的监控指标,或根据业务指标,或根据设备类型指标。

(3)失效监控指标自动清理,过期自动清理无效的监控指标。

(4)监控客户端配置的自动化,实现配置管理的自动化。

(5)对故障处理的自动化,在出现故障后,需要能够实现故障自愈,自动去修复。

在实现自动化的过程中,监控系统与资产管理系统(CMDB)需要有效的结合。资产管理的重要性相信大家都深有体会,作为所有资产信息的唯一入口,例如上线、下线、发布、维护,均需要准确的资产信息。监控系统与资产管理系统有机结合,可以实现不误报,不漏报,不会添加错监控项,同时还能够发现资产与监控不一致的记录。

对于应用的监控,由于环境的多样,其复杂程度较高,需要监控系统能够自动发现监控的指标,自动配置监控指标项,自动配置告警的阈值,以及需要告警汇聚、合并等,如对周期出现的故障,最好能自我修复。

对于未来的发展,希望Zabbix能够在监控的可视化方面有更好的展示效果,如自动拓扑的生成,实现类似zatree,graph tree的树形图形展示功能,在报表分析方面有更方便的功能,能够提供环比功能等。

3.日常工作中,您有哪些软件及开源工具推荐给大家?它们有哪些优点和需要注意的地方?

我把日常工作中,使用比较顺手的三类开源工具推荐给大家,希望对大家有所帮助。

(1)配置管理类开源工具,我推荐ansible和saltstack。

ansible是基于ssh协议,无agent模式,方便快捷,适合于机器初始化,代码发布,集中管理配置等场景。而saltstack是属于socket通信协议,执行效率高,功能模块也非常全面,社区响应快,文档丰富。在大多数场景下,这两者可以结合起来使用。

(2)API离线文档神器

我推荐Mac下的dash和Windows下的zeal,它们集合了100多种API离线文档,方便离线搜索。

(3)监控系统,我推荐Zabbix 、Open-falcon。

Open-falcon属于后起之秀,它吸收了opentsdb,Zabbix等监控工具的一些长处,维护非常方便。它的缺点是当前支持监控协议的种类还偏少。但一般中大型互联网公司,因为监控对象比较固定,所以完全可以满足他们的使用需求。

4.您心目中优秀的运维工程师是怎样的?

我觉得一位优秀的运维工程师,应该具备以下特点。相信拥有这些特质的他们,不管到哪里工作,都会很受欢迎。

(1)具有一定的视野。对业务、对技术才会有很好的把控能力,让技术为业务服务。

(2)具有良好的学习能力。对于新技术能够很快掌握,并能为业务服务。

(3)良好的沟通能力。运维工作中,工程师常常需要跨部门沟通,与业务的上下游,与部门同事、领导沟通,这都需要主动积极去推动工作的进行。

(4)良好的团队协作能力。

(5)应该掌握一门编程语言,如Python,Perl等。具有编码能力的运维工程师才能将工作做得更得心应手,因为开源工具虽多,但需求总会有新的,总会有开源工具无法满足的场景。因此,掌握编码是每个运维工程师必备的技能

(6)文档能力也不可缺少。

5.您将在4月份北京举行的WOT互联网运维和开发者峰会上分享哪些内容?

在本次的峰会上,我主要会分享Zabbix监控运维自动化的相关知识点。例如,如何做运维基础设施监控,如何做业务监控,如何实现监控的自动化,如何告警和告警中涉及难点的解决方案,以及分享我们对Zabbix进行二次开发的工具等。总体来说,干货很多,值得大家期待!

【编辑推荐】

  1. 中小企业运维需要重视日志分析
  2. 运维中性能优化的常见模式及趋势
  3. 大众点评高可用性系统运维经验分享
  4. 论开发与运维冲突的根源、表现形式及其解决方案
  5. WOT2016黄继:小米运维发展中的关键节点有哪些?
【责任编辑:火凤凰 TEL:(010)68476606】

相关热词搜索:Zabbix WOT2016 运维

上一篇:经过无数经验教训后我给独立程序员的建议
下一篇:运维必备制度:故障分级和处罚规范

分享到: 收藏