今天一上班朱伟就告诉我,有大量的邮件报警,是关于logstash redis队列的堆积,数目有些大,已经积攒了100w了。  很是晕头,上次其实已经遇到过这样的问题,当时因为是做了redis升级调整,以为是这个引起的,所以重启了logstash server端解决了。  后来又发生了这样的情况,也就是 logstash不工作的情况。   今天就把这问题给排查下。

队列的数目一直在增长,但是logstash的进程还是存在的。 

看下logstash的进程的状态, 用strace追踪下进程的函数调用。 

用lsof看到了大量elasticsearch的CLOSE_WAIT的状态,看了下系统的sysctl.conf的配置,对于tcp’的调优已经是配置过了。 但是问题依旧

后来在nginx端做了keepalived保持,对于CLOSE_wait的效果还是有些提升的。  但还是会出现这样的情况,甚是蛋疼 ! 



对Python及运维开发感兴趣的朋友可以加QQ群 : 478476595 !!!

另外如果大家觉得文章对你有些作用!   帮忙点击广告. 一来能刺激我写博客的欲望,二来好维护云主机的费用.
如果想赏钱,可以用微信扫描下面的二维码. 另外再次标注博客原地址  xiaorui.cc  ……   感谢!

elk调优之修改logstash写入elasticsearch按照时间分库

logstash index服务端又自己挂了,很让人发蒙…. 原因还没找到. 说下现在的问题…. 原本的logstash是按照每天一个库,这样在es集群环境下...

阅读全文

python logging定制logstash的json日志格式

最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,...

阅读全文