关于使用动态轮训切换ip防止爬虫被封杀

上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. …   (干死他们,哥们要是有资源,必须干掉ddos,让你防 !  当然我也就装装逼,没这个资源


该文章写的有些乱,欢迎来喷 ! 另外文章后续不断更新中,请到原文地址查看更新xiaorui.cc

     对于爬虫被封禁 ! 爬虫一般来说只要你的ip够多,是不容易被封的。 一些中小网站要封杀你,他的技术成本也是很高的,因为大多数网站没有vps,他们用的是虚拟空间或者是sae,bae这样的paas云。 其实就算他们不考虑seo搜索优化,用ajax渲染网页数据,我也可以用webkit浏览器组件来搞定ajax之后的数据。

      如果某个网站他就是闲的蛋疼,他就是喜欢从log里面,一行行的分析出你的ip,然后统计处频率高的网站, 那这个时候咋办?   其实方法很草比,就是用大量的主机,但是大量的主机是有了,你如果没有那么爬虫的种子量,那属于浪费资源… …  其实一个主机,多个ip是可以的。。。


这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址,做正向代理…. 你的程序里面维持一组连接池,就是针对这几个正向proxy做的连接池。


正向代理和反向代理最大的区别就是,反向代理很多时候域名是固定的,而正向代理是通过一个http的代理端口,随意访问,只是在proxy端会修改http协议,去帮你访问


如果是python,其实单纯调用socket bind绑定某个ip就可以了,但是标题的轮训是个什么概念,就是维持不同的socket bind的对象,然后你就轮吧 !   跟一些业界做专门做爬虫的人聊过,他们用的基本都是这样的技术。  

http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路,他是借助于urllib2的HTTPHandler来构造的出口的ip地址。 

那么就有一个现成的模块 netifaces  ,其实netifaces模块,就是刚才上面socket绑定ip的功能封装罢了

地址:   https://github.com/raphdg/netifaces


  

7 Responses

  1. will 2017年1月13日 / 下午4:53

    真性情,喜欢

  2. 瀚云代理 2016年8月30日 / 下午7:33

    瀚云代理的分布式动态代理非常不错,可以了解下,www.ipsproxy.com

  3. hehe 2016年4月2日 / 下午11:28

    淘宝那么大的访问量,还能封得你无情无情的。

  4. 洪建家 2015年1月26日 / 上午10:58

    这个方向通过log 统计还得能发现你异常ip的。

    • 峰云就她了 2015年1月26日 / 上午11:10

      恩 也是可以的,但是你知道一个爬虫系统一天要抓取的域名有几十万个,在一定的频率下,使用动态的ip轮训可以减少ip的封杀的。

  5. kslr 2015年1月14日 / 上午9:27

    做正想代理有错字

hehe进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">