今天一上班朱伟就告诉我,有大量的邮件报警,是关于logstash redis队列的堆积,数目有些大,已经积攒了100w了。  很是晕头,上次其实已经遇到过这样的问题,当时因为是做了redis升级调整,以为是这个引起的,所以重启了logstash server端解决了。  后来又发生了这样的情况,也就是 logstash不工作的情况。   今天就把这问题给排查下。

队列的数目一直在增长,但是logstash的进程还是存在的。 

看下logstash的进程的状态, 用strace追踪下进程的函数调用。 

用lsof看到了大量elasticsearch的CLOSE_WAIT的状态,看了下系统的sysctl.conf的配置,对于tcp’的调优已经是配置过了。 但是问题依旧

后来在nginx端做了keepalived保持,对于CLOSE_wait的效果还是有些提升的。  但还是会出现这样的情况,甚是蛋疼 ! 



对Python及运维开发感兴趣的朋友可以加QQ群 : 478476595 !!!
{ 2000人qq大群内有各厂大牛,常组织线上分享及沙龙,对高性能及分布式场景感兴趣同学欢迎加入该QQ群 }

另外如果大家觉得文章对你有些作用!   帮忙点击广告. 一来能刺激我写博客的欲望,二来好维护云主机的费用.
如果想赏钱,可以用微信扫描下面的二维码. 另外再次标注博客原地址  xiaorui.cc  ……   感谢!
暂无相关产品