python使用flask实现leveldb的rest api

python 9,521 views
     马上就要放假了,因为临过年了,也没啥事干… …   公司有个数据抽取的模块,是需要一个临时的又高性能的本地KV数据库, leveldb算是个好选择。 以前在人人的时候,我的好多项目都用了leveldb,只是后期改用ssdb的多点。 level...
阅读全文 2

python使用flask实现leveldb的rest api

02-15 9,521 views

     马上就要放假了,因为临过年了,也没啥事干… …   公司有个数据抽取的模块,是需要一个临时的又高性能的本地KV数据库...
阅读全文 2

使用phantomjs抓取动态页面遇到的timeout超时问题

python 9,711 views
原文地址是,http://xiaorui.cc phantomjs无意是强大的无界面的webkit浏览器工具,但是对于有些网站来说,他的返回过慢了点。  我这边是在服务端控制超时的时间,gevent subprocess的组合,但是因为subprocess和我的另一组逻辑有些冲突,所以把超时...
阅读全文 0

使用phantomjs抓取动态页面遇到的timeout超时问题

02-03 9,711 views

原文地址是,http://xiaorui.cc phantomjs无意是强大的无界面的webkit浏览器工具,但是对于有些网站来说,他的返回过慢了点。  我这边是在服...
阅读全文 0

python logging定制logstash的json日志格式

python 11,592 views
最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,是要消耗cpu的成本的,毕竟是需要正则的匹配的。  根据logstash调优的方案,咱们可以预先生成json的格...
阅读全文 1

python logging定制logstash的json日志格式

01-30 11,592 views

最近一直在折腾日志的收集,现在算是收尾了。  写一篇算python优化logstash的方案。  其实大家都知道logstash调用grok来解析日志的话,...
阅读全文 1

python使用etcd来实现配置共享及集群服务发现 【上】

docker,python 11,712 views
这两天抽了点时间研究了下现在比较火辣的etcd,网上很多的文章都是写etcd和docker的结合使用。  不说docker,咱们单独就etcd这个高可用键值来聊聊吧。  etcd是一个高可用的键值存储系统,主要用于共享配置和服务发现。etcd是由CoreOS开发并维护...
阅读全文 1

python使用etcd来实现配置共享及集群服务发现 【上】

01-23 11,712 views

这两天抽了点时间研究了下现在比较火辣的etcd,网上很多的文章都是写etcd和docker的结合使用。  不说docker,咱们单独就etcd这个高可用键值来聊聊吧。...
阅读全文 1

Flask使用token来防御csrf跨站攻击

python 8,361 views
做pytoner工程师很多时候也是需要写web的。 那么你已经会碰到被攻击的危险。比如Csrf攻击,那么csrf是什么我这里就不再详细的描述,我想大家也应该知道。 Flask本身提供了插件,一些社区也在简单的token之上又做了一些关于csrf的防御。 图中Browse是...
阅读全文 2

Flask使用token来防御csrf跨站攻击

01-19 8,361 views

做pytoner工程师很多时候也是需要写web的。 那么你已经会碰到被攻击的危险。比如Csrf攻击,那么csrf是什么我这里就不再详细的描述,我想大家也应该知道。 F...
阅读全文 2

关于使用动态轮训切换ip防止爬虫被封杀

python 15,722 views
上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. ̷...
阅读全文 7

关于使用动态轮训切换ip防止爬虫被封杀

01-12 15,722 views

上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们...
阅读全文 7

吐槽之关于influxdb聚合计算sum的问题

python 8,665 views
和朋友讨论了下关于influxdb在多个字段下的汇聚聚合计算,看官网的介绍貌似比较的简单,sum(a,b,c)就可以了 。  麻痹,就是不行….  …. 麻痹,爬虫真你妈霸道,原文地址是, xiaorui.cc Python ...
阅读全文 2

吐槽之关于influxdb聚合计算sum的问题

01-10 8,665 views

和朋友讨论了下关于influxdb在多个字段下的汇聚聚合计算,看官网的介绍貌似比较的简单,sum(a,b,c)就可以了 。  麻痹,就是不行….  …...
阅读全文 2

关于python使用AsyncInflux异步操作influxdb的方案

python 8,208 views
虽然Influxdb写入速度还是很给力,但是谁不想更给力呀.   在github看到了一个利用codap和gevent实现的针对influxdb异步的模块,测试了下,挺不错。  博客的原文地址是  ,   http://xiaorui.cc 最主要就是调用codap这个东...
阅读全文 0

关于python使用AsyncInflux异步操作influxdb的方案

01-06 8,208 views

虽然Influxdb写入速度还是很给力,但是谁不想更给力呀.   在github看到了一个利用codap和gevent实现的针对influxdb异步的模块,测试了下,挺不错...
阅读全文 0

大并发下socket通信连接时会导致TCP自连接

python 7,589 views
    今天是2015的第二天了, 心情有些不佳,遇到的狗屎问题更是心情不爽 !还好妈蛋的给解决了 !     问题提示说大不大,说小不小的 ~    TCP的自连接就是client和server bind的端口碰上了 !导致出现连接的异常。 用pyt...
阅读全文 1

大并发下socket通信连接时会导致TCP自连接

01-02 7,589 views

    今天是2015的第二天了, 心情有些不佳,遇到的狗屎问题更是心情不爽 !还好妈蛋的给解决了 !     问题提示说大不大,说小不小...
阅读全文 1

python multiprocessing之间的通信性能测试 Pipe vs Queue

python 9,206 views
今天12306的数据库爆出来了,午饭过后,自己搞了个针对12306密码查询的小api,结果影响有些大,VPS都挂了好几次 !  搞得哥们很是销魂呀 !  后来又听说,搞不好进去,尼玛    吓尿了 !  老规矩,标记下这篇文章的原文地址, http:...
阅读全文 2

python multiprocessing之间的通信性能测试 Pipe vs Queue

12-26 9,206 views

今天12306的数据库爆出来了,午饭过后,自己搞了个针对12306密码查询的小api,结果影响有些大,VPS都挂了好几次 !  搞得哥们很是销魂呀 !  后来...
阅读全文 2

python使用gipc实现gevent的多进程及ipc通信

python 9,532 views
今天在和FK聊天的时候,聊到了利用gevent的多进程模式,我和他交流了下,我的用法,其实模仿了php-fpm的进程模式,就是fork进程,然后开辟一个队列,这个队列是放链接的对象,然后每个进程里面也有一个gevent pool池另外还附带一个队列 。   main Thred的队列...
阅读全文 1

python使用gipc实现gevent的多进程及ipc通信

12-22 9,532 views

今天在和FK聊天的时候,聊到了利用gevent的多进程模式,我和他交流了下,我的用法,其实模仿了php-fpm的进程模式,就是fork进程,然后开辟一个队列,这个队...
阅读全文 1

python使用比with更优雅的contextlib实现上下文

python 9,262 views
前几天发现了一个优化with的模块contextlib,其实就是个封装。 那么首先说下,with是什么,玩python有半年经验的应该知道的。  这东西其实也没有什么太大的用处,只是隐藏的含有了一个关闭的逻辑,很像是try…finally… 这里标记下,原文链...
阅读全文 5

python使用比with更优雅的contextlib实现上下文

12-21 9,262 views

前几天发现了一个优化with的模块contextlib,其实就是个封装。 那么首先说下,with是什么,玩python有半年经验的应该知道的。  这东西其实也没有什么...
阅读全文 5

python调用zookeeper管理thrift集群可用性队列

python,运维开发 9,078 views
        我要开始吐槽了,这两天让公司的Hbase搞的高潮四起,有一个namenode的节点,总是出问题,他的一些个问题,引起其他节点的性能的下降,反正很坑。  以前貌似没这个问题,还好我们组有个百度做底层的大拿,兵强。 这段时间估计会调...
阅读全文 1

python调用zookeeper管理thrift集群可用性队列

12-17 9,078 views

        我要开始吐槽了,这两天让公司的Hbase搞的高潮四起,有一个namenode的节点,总是出问题,他的一些个问题,引起其他节点的性能...
阅读全文 1

python使用xlsxwriter打造excel周报日周的统计图表

python 19,838 views
          最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然后用python streaming实现mapreduce,把结果存入到mongodb里面。只是python这家伙实在慢的可以,直接改用 p...
阅读全文 5

python使用xlsxwriter打造excel周报日周的统计图表

12-14 19,838 views

          最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然...
阅读全文 5

打造metric监控之Influxdb的各种查询及聚合性能的测试

python 11,231 views
前言       这两天看了百度的张俊在研究基于metric的监控系统,很是感兴趣,也打算在爬虫系统里面组织一套。 那么以前metric的收集用过graphite,看到他有推荐Influxdb数据库,不能简单的说它是数据库,他集成了各种的api和web,还有个很强大的w...
阅读全文 3

打造metric监控之Influxdb的各种查询及聚合性能的测试

12-12 11,231 views

前言       这两天看了百度的张俊在研究基于metric的监控系统,很是感兴趣,也打算在爬虫系统里面组织一套。 那么以前metric的收集用过g...
阅读全文 3

时序数据库InfluxDB的sql聚合及搜索语法

python 14,299 views
      那么话说,InfluxDB的查询语法是很给力的,很像SQL语句。下面我会一一介绍下,常用的InfluxDB里面常用的SQL语句。 话说 InfluxDB给与的搜索条件还是很丰富的,有时间分析下  他落地在leveldb的数据结构。  哎,最近爬虫有...
阅读全文 3

时序数据库InfluxDB的sql聚合及搜索语法

12-11 14,299 views

      那么话说,InfluxDB的查询语法是很给力的,很像SQL语句。下面我会一一介绍下,常用的InfluxDB里面常用的SQL语句。 话说 InfluxDB给与...
阅读全文 3

使用grafana influxdb构建metric监控系统

python 13,802 views
InfluxDB 是一个开源,分布式,时间序列,事件,可度量和无外部依赖的数据库。 文章总是被爬虫爬了,这里标记下 原文地址 , xiaorui.cc InfluxDB有三大特性: 1. Time Series (时间序列):你可以使用与时间有关的相关函数(如最大,最小,求和等) 2....
阅读全文 5

使用grafana influxdb构建metric监控系统

13,802 views

InfluxDB 是一个开源,分布式,时间序列,事件,可度量和无外部依赖的数据库。 文章总是被爬虫爬了,这里标记下 原文地址 , xiaorui.cc InfluxD...
阅读全文 5

使用pipe管道使python fork多进程之间通信

python 8,341 views
这两天在研究多进程之间通信的底层的事情,以前可能更多的是用语言本身的特性和封装好的模块。 现在直接用python 本源的os.fork派生进程,用pipe 做简单的数据的交换。如果你要传输对象的话,需要针对对象进行序列化,比如用pickle、msgpack这类的。  不扯了...
阅读全文 0

使用pipe管道使python fork多进程之间通信

12-10 8,341 views

这两天在研究多进程之间通信的底层的事情,以前可能更多的是用语言本身的特性和封装好的模块。 现在直接用python 本源的os.fork派生进程,用pipe 做简单的...
阅读全文 0

使用pig来实现快速的分析爬虫及cdn日志

python 7,177 views
      苦逼呀,这两天我在分析了爬虫的日志,和一小部分的cdn的日志。爬虫的日志收集cs是我们自己写的一套收集系统。  现在需要做的是离线分析。  也就是对接工单系统,可以方便的自动分析特定的日志。 以前有个哥们是个geek,分析的程序...
阅读全文 3

使用pig来实现快速的分析爬虫及cdn日志

12-06 7,177 views

      苦逼呀,这两天我在分析了爬虫的日志,和一小部分的cdn的日志。爬虫的日志收集cs是我们自己写的一套收集系统。  现在需要做的是...
阅读全文 3

用gunicorn和gevent提高python web框架的性能

python 14,509 views
这两天在准备ppt,里面有涉及到WSGI的应该用,以前自己在51cto写过关于gunicorn的文章,所以就转了过来。那么不扯淡了。 其实比如 Flask,webpy,Django、CherryPy 都带着 WSGI server 。当然性能都不好,自带的web server 更多的是测试用途, 线上发布时,...
阅读全文 4

用gunicorn和gevent提高python web框架的性能

11-22 14,509 views

这两天在准备ppt,里面有涉及到WSGI的应该用,以前自己在51cto写过关于gunicorn的文章,所以就转了过来。那么不扯淡了。 其实比如 Flask,webpy,Dj...
阅读全文 4