最近在做关于分布式爬虫和数据抽取计算的两个方面的日志分析,统计的结果也比较简单,把收集到的日志存入到hadoop,然后用python streaming实现mapreduce,把结果存入到mongodb里面。只是python这家伙实在慢的可以,直接改用 pig 来实现日志的解析,速度明显要好点。  说正题,现在数据的展现用的是 highcharts来前端的现实,实时的数据是放在Influxdb里面,Influxdb是个含有时间序的数据库。   然而我们还是有个需求是,可以做一定程度的日报和周报。 把最大的几个网上抓取数目给抽取出来。 原本我想的有些复杂,打算制作一个干净的图表页面,然后底层调用phantomjs进行截图,然后发邮件。

原文地址是,http://xiaorui.cc

  

          但是问题来了…. … …    人家说,这高端是高端,但是你截图是好,各种的html的样式随你的变。但是你tmd不能让人复制数据呀。 这是多大的仇多大的怨呀… …   顾问说,我原本想把数据复制出来,然后放到其他的数据平台上做运算,好家伙,你这一下子来了个图片,你逗比呐。  让哥哥们一个个的复制呀。   这尼玛 ,这被喷的…  …

      我和你多大的仇,多大的怨 … … …  好吧,改用xlsxwriter重新制作图表。 xlsxwriter 的图表和数据表还是很简单的,这个模块帮你做了很好用的封装。 


有些数据是需要做平均值计算的,看了下官方实例对于AVERAGE的处理函数,还算可以。然后又从某个论坛那边,搜到了刘天斯发表的一段代码,然后改了改就直接用了。自己这是需要关心series值 。 excel是有很多计算的函数计算的,其实我是懒得在接口端做计算, 就直接调用xlsxwriter计算了。

嗯,还有一个中文的问题… ….  居然还犯这么初级的问题…   编码没有指明的问题,需要指明sys.setdefaultencoding,或则会是自己申明decode

大家一定要把xlsxwriter对象给关闭了,不然会报错….

下面是个干净的例子,我把从tornado 接口获取数据,到发邮件的逻辑给去掉了。。。 



对Python及运维开发感兴趣的朋友可以加QQ群 : 478476595 !!!
{ 2000人qq大群内有各厂大牛,常组织线上分享及沙龙,对高性能及分布式场景感兴趣同学欢迎加入该QQ群 }

另外如果大家觉得文章对你有些作用!   帮忙点击广告. 一来能刺激我写博客的欲望,二来好维护云主机的费用.
如果想赏钱,可以用微信扫描下面的二维码. 另外再次标注博客原地址  xiaorui.cc  ……   感谢!
暂无相关产品