跟我一起看zabbix源码之zabbix alerter.c报警逻辑

前言:

      晚上睡不着,想起白天和朋友聊监控系统,他以前在阿里和高德都做监控,算是个专业监控开发选手了。对于监控那哥们确实理解的深刻。过段时间去做嘉宾,要讲点监控的东西,为了防止吹牛逼,被人卡断。 So 随手下载了zabbix的代码,打开alerter.c文件看之,话说zabbix的c代码写的比较的鲜明。 其实还有一个原因就是,当时在乐视网做有关zabbix二次开发项目的时候,对于zabbix发出去的报警信息,我和大黄本来打算不调用第三方的脚本,直接用c来做http请求。后来因为各忙各的其他的项目,这个想法也就废掉了。   

更多有关zabbix开发的文章,请关注 blog.xiaorui.cc

首先需要介绍的时execute_action 函数,这个函数是对于action相关联的mediatype,已经向db反馈成功还是失败的状态。

那我们根据在当初配置的media,做不同的动作。 比如是MEDIA_TYPE_EMAIL的话,那就连接stmp,发送邮件。 如果是EXEC的话,那就是fork进程,也就是第三方的系统调用。 

这下面是zabbix里面具体调用scripts脚本的过程。 

上面的是关于触发action的相关函数,那肯定还有个在一直调用execute_action函数的主main函数吧。他的函数名字是 main_alerter_loop  。 既然是loop,那就知道他是做啥的了,逻辑很简单,zabbix_server 启动后,fork出main_alerter_loop函数来,让他独立负责报警这件事情。 


关于zabbix日志记录逻辑:

创建一个DB连接的对象

通过Mysql查询alerts未发送的任务,通过media查到行为的方式。

他是一次性的把没有发送,也就是未执行的报警任务,都给取出来,然后传递给execute_action去处理报警的逻辑。 

虽然有不同的触发动作,但是返回值的状态都一样。 下面的逻辑,是判断返回状态,入库或者是debug日志中。 


最后的几段话意思是,统计时间及sleep 30秒后,再继续下一轮。 

通过server.c确定zabbix 每次alert间隔的时间了。

我先前一直好奇,他报警的时候,是不是串行的,先前也看了官方的介绍说是串行执行的。奇怪了看他的函数定义的地方,发现有多线程的逻辑,不知道为啥没有应用上,而是用while一直遍历数据库返回的列表数据。 


有时间把zabbix的有关alert的代码做个patch,真的很想知道,把zabbix做成http报警后,在报警多的时候,会不会能力很突出。 希望我的这篇文章,能对那些做zabbix二次开发的有所帮助。



对Golang感兴趣的朋友可以加群: 278517979 !!!
另外如果大家觉得文章对你有些作用! 如果想赏钱,可以用微信扫描下面的二维码, 感谢!
另外再次标注博客原地址  xiaorui.cc

1 Response

  1. 运维开发 2014年11月15日 / 上午2:41

    我靠呀,你在51cto的时候,发文章频率就很高,现在也是半夜发文章 !

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">