折腾redis的sorted set数据结构Skip List跳跃表

python 5,733 views
我旁边的同时一直在捣鼓redis的分页功能,详细的分析了list和sorted set的两个结构.   我自己也对sorted set的数据结构很是感兴趣…  我这边的有个微信抓取的任务就是用python rq做的,里面的选用的redis数据类型就是sorted set…   这里...
阅读全文 2

折腾redis的sorted set数据结构Skip List跳跃表

03-27 5,733 views

我旁边的同时一直在捣鼓redis的分页功能,详细的分析了list和sorted set的两个结构.   我自己也对sorted set的数据结构很是感兴趣…  我这...
阅读全文 2

python实现获取根据日期时间切分的数据库的调度信息

python 5,460 views
哥很是寂寞呀…    寂寞…. …. 年后负责的回溯的任务,数据已经从hbase转移到了ES里面。  替换的原因不是Hbase不行,而是 我们的回溯任务更加的适合用ES全文索引的功能。  这块业务的逻辑,一开始不是我负责的,那哥们...
阅读全文 0

python实现获取根据日期时间切分的数据库的调度信息

03-04 5,460 views

哥很是寂寞呀…    寂寞…. …. 年后负责的回溯的任务,数据已经从hbase转移到了ES里面。  替换的原因不是Hbase不行,而...
阅读全文 0

python elasticsearch创建连接时sniff探测和timeout的问题

python 7,840 views
elasticsearch的集群方式就那么几种,一个是直接用nginx、haproxy这样的负载均衡在集群的调度。另一种是用siniff方式自动嗅探。  这里简单说下,在python语言下创建elasticsearch连接时,遇到的一些小问题。 query filtered Traceback (most recent...
阅读全文 0

python elasticsearch创建连接时sniff探测和timeout的问题

03-02 7,840 views

elasticsearch的集群方式就那么几种,一个是直接用nginx、haproxy这样的负载均衡在集群的调度。另一种是用siniff方式自动嗅探。  这里简单说下,在...
阅读全文 0

python使用flask实现leveldb的rest api

python 6,905 views
     马上就要放假了,因为临过年了,也没啥事干… …   公司有个数据抽取的模块,是需要一个临时的又高性能的本地KV数据库, leveldb算是个好选择。 以前在人人的时候,我的好多项目都用了leveldb,只是后期改用ssdb的多点。 level...
阅读全文 2

python使用flask实现leveldb的rest api

02-15 6,905 views

     马上就要放假了,因为临过年了,也没啥事干… …   公司有个数据抽取的模块,是需要一个临时的又高性能的本地KV数据库...
阅读全文 2

使用phantomjs抓取动态页面遇到的timeout超时问题

python 6,990 views
原文地址是,http://xiaorui.cc phantomjs无意是强大的无界面的webkit浏览器工具,但是对于有些网站来说,他的返回过慢了点。  我这边是在服务端控制超时的时间,gevent subprocess的组合,但是因为subprocess和我的另一组逻辑有些冲突,所以把超时...
阅读全文 0

使用phantomjs抓取动态页面遇到的timeout超时问题

02-03 6,990 views

原文地址是,http://xiaorui.cc phantomjs无意是强大的无界面的webkit浏览器工具,但是对于有些网站来说,他的返回过慢了点。  我这边是在服...
阅读全文 0

python logging定制logstash的json日志格式

python 8,641 views
最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,是要消耗cpu的成本的,毕竟是需要正则的匹配的。  根据logstash调优的方案,咱们可以预先生成json的格...
阅读全文 1

python logging定制logstash的json日志格式

01-30 8,641 views

最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,...
阅读全文 1

python使用etcd来实现配置共享及集群服务发现 【上】

docker,python 8,505 views
这两天抽了点时间研究了下现在比较火辣的etcd,网上很多的文章都是写etcd和docker的结合使用。  不说docker,咱们单独就etcd这个高可用键值来聊聊吧。  etcd是一个高可用的键值存储系统,主要用于共享配置和服务发现。etcd是由CoreOS开发并维护...
阅读全文 1

python使用etcd来实现配置共享及集群服务发现 【上】

01-23 8,505 views

这两天抽了点时间研究了下现在比较火辣的etcd,网上很多的文章都是写etcd和docker的结合使用。  不说docker,咱们单独就etcd这个高可用键值来聊聊吧。...
阅读全文 1

Flask使用token来防御csrf跨站攻击

python 5,988 views
做pytoner工程师很多时候也是需要写web的。 那么你已经会碰到被攻击的危险。比如Csrf攻击,那么csrf是什么我这里就不再详细的描述,我想大家也应该知道。 Flask本身提供了插件,一些社区也在简单的token之上又做了一些关于csrf的防御。 图中Browse是...
阅读全文 2

Flask使用token来防御csrf跨站攻击

01-19 5,988 views

做pytoner工程师很多时候也是需要写web的。 那么你已经会碰到被攻击的危险。比如Csrf攻击,那么csrf是什么我这里就不再详细的描述,我想大家也应该知道。 F...
阅读全文 2

关于使用动态轮训切换ip防止爬虫被封杀

python 11,641 views
上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. ̷...
阅读全文 7

关于使用动态轮训切换ip防止爬虫被封杀

01-12 11,641 views

上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们...
阅读全文 7

吐槽之关于influxdb聚合计算sum的问题

python 6,223 views
和朋友讨论了下关于influxdb在多个字段下的汇聚聚合计算,看官网的介绍貌似比较的简单,sum(a,b,c)就可以了 。  麻痹,就是不行….  …. 麻痹,爬虫真你妈霸道,原文地址是, xiaorui.cc Python ...
阅读全文 2

吐槽之关于influxdb聚合计算sum的问题

01-10 6,223 views

和朋友讨论了下关于influxdb在多个字段下的汇聚聚合计算,看官网的介绍貌似比较的简单,sum(a,b,c)就可以了 。  麻痹,就是不行….  …...
阅读全文 2

关于python使用AsyncInflux异步操作influxdb的方案

python 6,155 views
虽然Influxdb写入速度还是很给力,但是谁不想更给力呀.   在github看到了一个利用codap和gevent实现的针对influxdb异步的模块,测试了下,挺不错。  博客的原文地址是  ,   http://xiaorui.cc 最主要就是调用codap这个东...
阅读全文 0

关于python使用AsyncInflux异步操作influxdb的方案

01-06 6,155 views

虽然Influxdb写入速度还是很给力,但是谁不想更给力呀.   在github看到了一个利用codap和gevent实现的针对influxdb异步的模块,测试了下,挺不错...
阅读全文 0

大并发下socket通信连接时会导致TCP自连接

python 5,449 views
    今天是2015的第二天了, 心情有些不佳,遇到的狗屎问题更是心情不爽 !还好妈蛋的给解决了 !     问题提示说大不大,说小不小的 ~    TCP的自连接就是client和server bind的端口碰上了 !导致出现连接的异常。 用pyt...
阅读全文 1

大并发下socket通信连接时会导致TCP自连接

01-02 5,449 views

    今天是2015的第二天了, 心情有些不佳,遇到的狗屎问题更是心情不爽 !还好妈蛋的给解决了 !     问题提示说大不大,说小不小...
阅读全文 1

python multiprocessing之间的通信性能测试 Pipe vs Queue

python 6,848 views
今天12306的数据库爆出来了,午饭过后,自己搞了个针对12306密码查询的小api,结果影响有些大,VPS都挂了好几次 !  搞得哥们很是销魂呀 !  后来又听说,搞不好进去,尼玛    吓尿了 !  老规矩,标记下这篇文章的原文地址, http:...
阅读全文 2

python multiprocessing之间的通信性能测试 Pipe vs Queue

12-26 6,848 views

今天12306的数据库爆出来了,午饭过后,自己搞了个针对12306密码查询的小api,结果影响有些大,VPS都挂了好几次 !  搞得哥们很是销魂呀 !  后来...
阅读全文 2

python使用gipc实现gevent的多进程及ipc通信

python 6,878 views
今天在和FK聊天的时候,聊到了利用gevent的多进程模式,我和他交流了下,我的用法,其实模仿了php-fpm的进程模式,就是fork进程,然后开辟一个队列,这个队列是放链接的对象,然后每个进程里面也有一个gevent pool池另外还附带一个队列 。   main Thred的队列...
阅读全文 1

python使用gipc实现gevent的多进程及ipc通信

12-22 6,878 views

今天在和FK聊天的时候,聊到了利用gevent的多进程模式,我和他交流了下,我的用法,其实模仿了php-fpm的进程模式,就是fork进程,然后开辟一个队列,这个队...
阅读全文 1

python使用比with更优雅的contextlib实现上下文

python 6,607 views
前几天发现了一个优化with的模块contextlib,其实就是个封装。 那么首先说下,with是什么,玩python有半年经验的应该知道的。  这东西其实也没有什么太大的用处,只是隐藏的含有了一个关闭的逻辑,很像是try…finally… 这里标记下,原文链...
阅读全文 5

python使用比with更优雅的contextlib实现上下文

12-21 6,607 views

前几天发现了一个优化with的模块contextlib,其实就是个封装。 那么首先说下,with是什么,玩python有半年经验的应该知道的。  这东西其实也没有什么...
阅读全文 5

python调用zookeeper管理thrift集群可用性队列

python,运维开发 7,228 views
        我要开始吐槽了,这两天让公司的Hbase搞的高潮四起,有一个namenode的节点,总是出问题,他的一些个问题,引起其他节点的性能的下降,反正很坑。  以前貌似没这个问题,还好我们组有个百度做底层的大拿,兵强。 这段时间估计会调...
阅读全文 1

python调用zookeeper管理thrift集群可用性队列

12-17 7,228 views

        我要开始吐槽了,这两天让公司的Hbase搞的高潮四起,有一个namenode的节点,总是出问题,他的一些个问题,引起其他节点的性能...
阅读全文 1

python使用xlsxwriter打造excel周报日周的统计图表

python 15,902 views
          最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然后用python streaming实现mapreduce,把结果存入到mongodb里面。只是python这家伙实在慢的可以,直接改用 p...
阅读全文 5

python使用xlsxwriter打造excel周报日周的统计图表

12-14 15,902 views

          最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然...
阅读全文 5

打造metric监控之Influxdb的各种查询及聚合性能的测试

python 8,109 views
前言       这两天看了百度的张俊在研究基于metric的监控系统,很是感兴趣,也打算在爬虫系统里面组织一套。 那么以前metric的收集用过graphite,看到他有推荐Influxdb数据库,不能简单的说它是数据库,他集成了各种的api和web,还有个很强大的w...
阅读全文 3

打造metric监控之Influxdb的各种查询及聚合性能的测试

12-12 8,109 views

前言       这两天看了百度的张俊在研究基于metric的监控系统,很是感兴趣,也打算在爬虫系统里面组织一套。 那么以前metric的收集用过g...
阅读全文 3

时序数据库InfluxDB的sql聚合及搜索语法

python 9,070 views
      那么话说,InfluxDB的查询语法是很给力的,很像SQL语句。下面我会一一介绍下,常用的InfluxDB里面常用的SQL语句。 话说 InfluxDB给与的搜索条件还是很丰富的,有时间分析下  他落地在leveldb的数据结构。  哎,最近爬虫有...
阅读全文 3

时序数据库InfluxDB的sql聚合及搜索语法

12-11 9,070 views

      那么话说,InfluxDB的查询语法是很给力的,很像SQL语句。下面我会一一介绍下,常用的InfluxDB里面常用的SQL语句。 话说 InfluxDB给与...
阅读全文 3

使用grafana influxdb构建metric监控系统

python 9,881 views
InfluxDB 是一个开源,分布式,时间序列,事件,可度量和无外部依赖的数据库。 文章总是被爬虫爬了,这里标记下 原文地址 , xiaorui.cc InfluxDB有三大特性: 1. Time Series (时间序列):你可以使用与时间有关的相关函数(如最大,最小,求和等) 2....
阅读全文 5

使用grafana influxdb构建metric监控系统

9,881 views

InfluxDB 是一个开源,分布式,时间序列,事件,可度量和无外部依赖的数据库。 文章总是被爬虫爬了,这里标记下 原文地址 , xiaorui.cc InfluxD...
阅读全文 5

使用pipe管道使python fork多进程之间通信

python 6,240 views
这两天在研究多进程之间通信的底层的事情,以前可能更多的是用语言本身的特性和封装好的模块。 现在直接用python 本源的os.fork派生进程,用pipe 做简单的数据的交换。如果你要传输对象的话,需要针对对象进行序列化,比如用pickle、msgpack这类的。  不扯了...
阅读全文 0

使用pipe管道使python fork多进程之间通信

12-10 6,240 views

这两天在研究多进程之间通信的底层的事情,以前可能更多的是用语言本身的特性和封装好的模块。 现在直接用python 本源的os.fork派生进程,用pipe 做简单的...
阅读全文 0