logstash联合python kafka进行异常数据监控

python 8,906 views
kafka的优点,我想大家应该知道…. 一个可以支撑大流量的消息系统, 要比redis靠谱点,毕竟人家数据可以落地硬盘… 现在所有的日志都通过logstash收集到了elasticsearch里面。 我们可以通过kibana来进行查看各种日志报表,但是问题是我们如何针对...
阅读全文 3

logstash联合python kafka进行异常数据监控

04-05 8,906 views

kafka的优点,我想大家应该知道…. 一个可以支撑大流量的消息系统, 要比redis靠谱点,毕竟人家数据可以落地硬盘… 现在所有的日志都通过...
阅读全文 3

django存储emoji表情时遇到的Incorrect string value问题

python 5,973 views
最近忙活电商数据的接入接口,可以把各大电商的数据同步到我们本地的Elasticsearch…. 也是个蛋疼的事情… 中间遇到个小问题. 在入库的时候遇到了问题,总是会爆  Incorrect string value: ‘\\xF0\\x9F\\x90\\xA8′ for column R...
阅读全文 2

django存储emoji表情时遇到的Incorrect string value问题

04-02 5,973 views

最近忙活电商数据的接入接口,可以把各大电商的数据同步到我们本地的Elasticsearch…. 也是个蛋疼的事情… 中间遇到个小问题. 在入库的时候...
阅读全文 2

python rq任务队列是如何实现优先级队列 [上]

python 6,897 views
这段时间跟同事聊了些任务优先级队列的话题,正好我们这把大量的celery抛弃,开始用rq来做任务队列,因为celery太大,所以改造起来甚是恶心到爆,还不如选择一个简单干练的python rq。 xiaorui.cc xiaorui.cc xiaorui.cc xiaorui.cc 微信的...
阅读全文 4

python rq任务队列是如何实现优先级队列 [上]

04-01 6,897 views

这段时间跟同事聊了些任务优先级队列的话题,正好我们这把大量的celery抛弃,开始用rq来做任务队列,因为celery太大,所以改造起来甚是恶心到爆,还不如选...
阅读全文 4

折腾redis的sorted set数据结构Skip List跳跃表

python 6,060 views
我旁边的同时一直在捣鼓redis的分页功能,详细的分析了list和sorted set的两个结构.   我自己也对sorted set的数据结构很是感兴趣…  我这边的有个微信抓取的任务就是用python rq做的,里面的选用的redis数据类型就是sorted set…   这里...
阅读全文 2

折腾redis的sorted set数据结构Skip List跳跃表

03-27 6,060 views

我旁边的同时一直在捣鼓redis的分页功能,详细的分析了list和sorted set的两个结构.   我自己也对sorted set的数据结构很是感兴趣…  我这...
阅读全文 2

python实现获取根据日期时间切分的数据库的调度信息

python 5,629 views
哥很是寂寞呀…    寂寞…. …. 年后负责的回溯的任务,数据已经从hbase转移到了ES里面。  替换的原因不是Hbase不行,而是 我们的回溯任务更加的适合用ES全文索引的功能。  这块业务的逻辑,一开始不是我负责的,那哥们...
阅读全文 0

python实现获取根据日期时间切分的数据库的调度信息

03-04 5,629 views

哥很是寂寞呀…    寂寞…. …. 年后负责的回溯的任务,数据已经从hbase转移到了ES里面。  替换的原因不是Hbase不行,而...
阅读全文 0

python elasticsearch创建连接时sniff探测和timeout的问题

python 8,230 views
elasticsearch的集群方式就那么几种,一个是直接用nginx、haproxy这样的负载均衡在集群的调度。另一种是用siniff方式自动嗅探。  这里简单说下,在python语言下创建elasticsearch连接时,遇到的一些小问题。 query filtered Traceback (most recent...
阅读全文 0

python elasticsearch创建连接时sniff探测和timeout的问题

03-02 8,230 views

elasticsearch的集群方式就那么几种,一个是直接用nginx、haproxy这样的负载均衡在集群的调度。另一种是用siniff方式自动嗅探。  这里简单说下,在...
阅读全文 0

python使用flask实现leveldb的rest api

python 7,196 views
     马上就要放假了,因为临过年了,也没啥事干… …   公司有个数据抽取的模块,是需要一个临时的又高性能的本地KV数据库, leveldb算是个好选择。 以前在人人的时候,我的好多项目都用了leveldb,只是后期改用ssdb的多点。 level...
阅读全文 2

python使用flask实现leveldb的rest api

02-15 7,196 views

     马上就要放假了,因为临过年了,也没啥事干… …   公司有个数据抽取的模块,是需要一个临时的又高性能的本地KV数据库...
阅读全文 2

使用phantomjs抓取动态页面遇到的timeout超时问题

python 7,332 views
原文地址是,http://xiaorui.cc phantomjs无意是强大的无界面的webkit浏览器工具,但是对于有些网站来说,他的返回过慢了点。  我这边是在服务端控制超时的时间,gevent subprocess的组合,但是因为subprocess和我的另一组逻辑有些冲突,所以把超时...
阅读全文 0

使用phantomjs抓取动态页面遇到的timeout超时问题

02-03 7,332 views

原文地址是,http://xiaorui.cc phantomjs无意是强大的无界面的webkit浏览器工具,但是对于有些网站来说,他的返回过慢了点。  我这边是在服...
阅读全文 0

python logging定制logstash的json日志格式

python 9,052 views
最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,是要消耗cpu的成本的,毕竟是需要正则的匹配的。  根据logstash调优的方案,咱们可以预先生成json的格...
阅读全文 1

python logging定制logstash的json日志格式

01-30 9,052 views

最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,...
阅读全文 1

python使用etcd来实现配置共享及集群服务发现 【上】

docker,python 8,906 views
这两天抽了点时间研究了下现在比较火辣的etcd,网上很多的文章都是写etcd和docker的结合使用。  不说docker,咱们单独就etcd这个高可用键值来聊聊吧。  etcd是一个高可用的键值存储系统,主要用于共享配置和服务发现。etcd是由CoreOS开发并维护...
阅读全文 1

python使用etcd来实现配置共享及集群服务发现 【上】

01-23 8,906 views

这两天抽了点时间研究了下现在比较火辣的etcd,网上很多的文章都是写etcd和docker的结合使用。  不说docker,咱们单独就etcd这个高可用键值来聊聊吧。...
阅读全文 1

Flask使用token来防御csrf跨站攻击

python 6,229 views
做pytoner工程师很多时候也是需要写web的。 那么你已经会碰到被攻击的危险。比如Csrf攻击,那么csrf是什么我这里就不再详细的描述,我想大家也应该知道。 Flask本身提供了插件,一些社区也在简单的token之上又做了一些关于csrf的防御。 图中Browse是...
阅读全文 2

Flask使用token来防御csrf跨站攻击

01-19 6,229 views

做pytoner工程师很多时候也是需要写web的。 那么你已经会碰到被攻击的危险。比如Csrf攻击,那么csrf是什么我这里就不再详细的描述,我想大家也应该知道。 F...
阅读全文 2

关于使用动态轮训切换ip防止爬虫被封杀

python 12,149 views
上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. ̷...
阅读全文 7

关于使用动态轮训切换ip防止爬虫被封杀

01-12 12,149 views

上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们...
阅读全文 7

吐槽之关于influxdb聚合计算sum的问题

python 6,479 views
和朋友讨论了下关于influxdb在多个字段下的汇聚聚合计算,看官网的介绍貌似比较的简单,sum(a,b,c)就可以了 。  麻痹,就是不行….  …. 麻痹,爬虫真你妈霸道,原文地址是, xiaorui.cc Python ...
阅读全文 2

吐槽之关于influxdb聚合计算sum的问题

01-10 6,479 views

和朋友讨论了下关于influxdb在多个字段下的汇聚聚合计算,看官网的介绍貌似比较的简单,sum(a,b,c)就可以了 。  麻痹,就是不行….  …...
阅读全文 2

关于python使用AsyncInflux异步操作influxdb的方案

python 6,349 views
虽然Influxdb写入速度还是很给力,但是谁不想更给力呀.   在github看到了一个利用codap和gevent实现的针对influxdb异步的模块,测试了下,挺不错。  博客的原文地址是  ,   http://xiaorui.cc 最主要就是调用codap这个东...
阅读全文 0

关于python使用AsyncInflux异步操作influxdb的方案

01-06 6,349 views

虽然Influxdb写入速度还是很给力,但是谁不想更给力呀.   在github看到了一个利用codap和gevent实现的针对influxdb异步的模块,测试了下,挺不错...
阅读全文 0

大并发下socket通信连接时会导致TCP自连接

python 5,658 views
    今天是2015的第二天了, 心情有些不佳,遇到的狗屎问题更是心情不爽 !还好妈蛋的给解决了 !     问题提示说大不大,说小不小的 ~    TCP的自连接就是client和server bind的端口碰上了 !导致出现连接的异常。 用pyt...
阅读全文 1

大并发下socket通信连接时会导致TCP自连接

01-02 5,658 views

    今天是2015的第二天了, 心情有些不佳,遇到的狗屎问题更是心情不爽 !还好妈蛋的给解决了 !     问题提示说大不大,说小不小...
阅读全文 1

python multiprocessing之间的通信性能测试 Pipe vs Queue

python 7,151 views
今天12306的数据库爆出来了,午饭过后,自己搞了个针对12306密码查询的小api,结果影响有些大,VPS都挂了好几次 !  搞得哥们很是销魂呀 !  后来又听说,搞不好进去,尼玛    吓尿了 !  老规矩,标记下这篇文章的原文地址, http:...
阅读全文 2

python multiprocessing之间的通信性能测试 Pipe vs Queue

12-26 7,151 views

今天12306的数据库爆出来了,午饭过后,自己搞了个针对12306密码查询的小api,结果影响有些大,VPS都挂了好几次 !  搞得哥们很是销魂呀 !  后来...
阅读全文 2

python使用gipc实现gevent的多进程及ipc通信

python 7,234 views
今天在和FK聊天的时候,聊到了利用gevent的多进程模式,我和他交流了下,我的用法,其实模仿了php-fpm的进程模式,就是fork进程,然后开辟一个队列,这个队列是放链接的对象,然后每个进程里面也有一个gevent pool池另外还附带一个队列 。   main Thred的队列...
阅读全文 1

python使用gipc实现gevent的多进程及ipc通信

12-22 7,234 views

今天在和FK聊天的时候,聊到了利用gevent的多进程模式,我和他交流了下,我的用法,其实模仿了php-fpm的进程模式,就是fork进程,然后开辟一个队列,这个队...
阅读全文 1

python使用比with更优雅的contextlib实现上下文

python 6,938 views
前几天发现了一个优化with的模块contextlib,其实就是个封装。 那么首先说下,with是什么,玩python有半年经验的应该知道的。  这东西其实也没有什么太大的用处,只是隐藏的含有了一个关闭的逻辑,很像是try…finally… 这里标记下,原文链...
阅读全文 5

python使用比with更优雅的contextlib实现上下文

12-21 6,938 views

前几天发现了一个优化with的模块contextlib,其实就是个封装。 那么首先说下,with是什么,玩python有半年经验的应该知道的。  这东西其实也没有什么...
阅读全文 5

python调用zookeeper管理thrift集群可用性队列

python,运维开发 7,426 views
        我要开始吐槽了,这两天让公司的Hbase搞的高潮四起,有一个namenode的节点,总是出问题,他的一些个问题,引起其他节点的性能的下降,反正很坑。  以前貌似没这个问题,还好我们组有个百度做底层的大拿,兵强。 这段时间估计会调...
阅读全文 1

python调用zookeeper管理thrift集群可用性队列

12-17 7,426 views

        我要开始吐槽了,这两天让公司的Hbase搞的高潮四起,有一个namenode的节点,总是出问题,他的一些个问题,引起其他节点的性能...
阅读全文 1

python使用xlsxwriter打造excel周报日周的统计图表

python 16,397 views
          最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然后用python streaming实现mapreduce,把结果存入到mongodb里面。只是python这家伙实在慢的可以,直接改用 p...
阅读全文 5

python使用xlsxwriter打造excel周报日周的统计图表

12-14 16,397 views

          最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然...
阅读全文 5

打造metric监控之Influxdb的各种查询及聚合性能的测试

python 8,480 views
前言       这两天看了百度的张俊在研究基于metric的监控系统,很是感兴趣,也打算在爬虫系统里面组织一套。 那么以前metric的收集用过graphite,看到他有推荐Influxdb数据库,不能简单的说它是数据库,他集成了各种的api和web,还有个很强大的w...
阅读全文 3

打造metric监控之Influxdb的各种查询及聚合性能的测试

12-12 8,480 views

前言       这两天看了百度的张俊在研究基于metric的监控系统,很是感兴趣,也打算在爬虫系统里面组织一套。 那么以前metric的收集用过g...
阅读全文 3