前言:

      晚上睡不着,想起白天和朋友聊监控系统,他以前在阿里和高德都做监控,算是个专业监控开发选手了。对于监控那哥们确实理解的深刻。过段时间去做嘉宾,要讲点监控的东西,为了防止吹牛逼,被人卡断。 So 随手下载了zabbix的代码,打开alerter.c文件看之,话说zabbix的c代码写的比较的鲜明。 其实还有一个原因就是,当时在乐视网做有关zabbix二次开发项目的时候,对于zabbix发出去的报警信息,我和大黄本来打算不调用第三方的脚本,直接用c来做http请求。后来因为各忙各的其他的项目,这个想法也就废掉了。   

更多有关zabbix开发的文章,请关注 blog.xiaorui.cc

首先需要介绍的时execute_action 函数,这个函数是对于action相关联的mediatype,已经向db反馈成功还是失败的状态。

那我们根据在当初配置的media,做不同的动作。 比如是MEDIA_TYPE_EMAIL的话,那就连接stmp,发送邮件。 如果是EXEC的话,那就是fork进程,也就是第三方的系统调用。 

这下面是zabbix里面具体调用scripts脚本的过程。 

上面的是关于触发action的相关函数,那肯定还有个在一直调用execute_action函数的主main函数吧。他的函数名字是 main_alerter_loop  。 既然是loop,那就知道他是做啥的了,逻辑很简单,zabbix_server 启动后,fork出main_alerter_loop函数来,让他独立负责报警这件事情。 


关于zabbix日志记录逻辑:

创建一个DB连接的对象

通过Mysql查询alerts未发送的任务,通过media查到行为的方式。

他是一次性的把没有发送,也就是未执行的报警任务,都给取出来,然后传递给execute_action去处理报警的逻辑。 

虽然有不同的触发动作,但是返回值的状态都一样。 下面的逻辑,是判断返回状态,入库或者是debug日志中。 


最后的几段话意思是,统计时间及sleep 30秒后,再继续下一轮。 

通过server.c确定zabbix 每次alert间隔的时间了。

我先前一直好奇,他报警的时候,是不是串行的,先前也看了官方的介绍说是串行执行的。奇怪了看他的函数定义的地方,发现有多线程的逻辑,不知道为啥没有应用上,而是用while一直遍历数据库返回的列表数据。 


有时间把zabbix的有关alert的代码做个patch,真的很想知道,把zabbix做成http报警后,在报警多的时候,会不会能力很突出。 希望我的这篇文章,能对那些做zabbix二次开发的有所帮助。




对Python及运维开发感兴趣的朋友可以加QQ群 : 478476595 !!!
{ 2000人qq大群内有各厂大牛,常组织线上分享及沙龙,对高性能及分布式场景感兴趣同学欢迎加入该QQ群 }

另外如果大家觉得文章对你有些作用!   帮忙点击广告. 一来能刺激我写博客的欲望,二来好维护云主机的费用.
如果想赏钱,可以用微信扫描下面的二维码. 另外再次标注博客原地址  xiaorui.cc  ……   感谢!
暂无相关产品

1则回应给“跟我一起看zabbix源码之zabbix alerter.c报警逻辑”

  1. 运维开发说道:

    我靠呀,你在51cto的时候,发文章频率就很高,现在也是半夜发文章 !

发表评论