关于使用动态轮训切换ip防止爬虫被封杀

上次有说过，我在新公司有部分工作是负责爬虫业务的，爬虫机器有上百台，节点也要计划迁入了Docker平台上。这两天遇到一个棘手的问题，就是因为我们为了追求数据量，在某些机房，用docker启动了不少爬虫节点，导致一些傻逼网站，开始封禁我们…. … （干死他们，哥们要是有资源，必须干掉ddos，让你防！当然我也就装装逼，没这个资源）

该文章写的有些乱，欢迎来喷 ! 另外文章后续不断更新中，请到原文地址查看更新，xiaorui.cc

对于爬虫被封禁！爬虫一般来说只要你的ip够多，是不容易被封的。一些中小网站要封杀你，他的技术成本也是很高的，因为大多数网站没有vps，他们用的是虚拟空间或者是sae，bae这样的paas云。其实就算他们不考虑seo搜索优化，用ajax渲染网页数据，我也可以用webkit浏览器组件来搞定ajax之后的数据。

如果某个网站他就是闲的蛋疼，他就是喜欢从log里面，一行行的分析出你的ip，然后统计处频率高的网站，那这个时候咋办？其实方法很草比，就是用大量的主机，但是大量的主机是有了，你如果没有那么爬虫的种子量，那属于浪费资源… … 其实一个主机，多个ip是可以的。。。

这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址，做正向代理…. 你的程序里面维持一组连接池，就是针对这几个正向proxy做的连接池。

正向代理和反向代理最大的区别就是，反向代理很多时候域名是固定的，而正向代理是通过一个http的代理端口，随意访问，只是在proxy端会修改http协议，去帮你访问

如果是python，其实单纯调用socket bind绑定某个ip就可以了，但是标题的轮训是个什么概念，就是维持不同的socket bind的对象，然后你就轮吧！跟一些业界做专门做爬虫的人聊过，他们用的基本都是这样的技术。

# -*- coding=utf-8 -*-  
import socket  
import urllib2  
import re  
true_socket = socket.socket  
   
ipbind='xx.xx.xxx.xx'  
   
def bound_socket(*a, **k):  
    sock = true_socket(*a, **k)  
    sock.bind((ipbind, 0))  
    return sock  
   
socket.socket = bound_socket  
   
response = urllib2.urlopen('http://www.ip.cn')  
html = response.read()  
ip=re.search(r'code.(.*?)..code',html)  
print ip.group(1)

在http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路，他是借助于urllib2的HTTPHandler来构造的出口的ip地址。

import functools
import httplib
import urllib2

class BoundHTTPHandler(urllib2.HTTPHandler):

    def __init__(self, source_address=None, debuglevel=0):
        urllib2.HTTPHandler.__init__(self, debuglevel)
        self.http_class = functools.partial(httplib.HTTPConnection,
                source_address=source_address)

    def http_open(self, req):
        return self.do_open(self.http_class, req)

handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)

那么就有一个现成的模块 netifaces ，其实netifaces模块，就是刚才上面socket绑定ip的功能封装罢了

地址: https://github.com/raphdg/netifaces

import netifaces
netifaces.interfaces()
netifaces.ifaddresses('lo0')
netifaces.AF_LINK
addrs = netifaces.ifaddresses('lo0')
addrs[netifaces.AF_INET]
[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]

大家觉得文章对你有些作用！如果想赏钱，可以用微信扫描下面的二维码，感谢!
另外再次标注博客原地址 xiaorui.cc

will 2017年1月13日 / 下午4:53

真性情，喜欢

回复
瀚云代理 2016年8月30日 / 下午7:33

瀚云代理的分布式动态代理非常不错，可以了解下，www.ipsproxy.com

回复
hehe 2016年4月2日 / 下午11:28

淘宝那么大的访问量，还能封得你无情无情的。

回复
洪建家 2015年1月26日 / 上午10:58

这个方向通过log 统计还得能发现你异常ip的。

回复
- 峰云就她了 2015年1月26日 / 上午11:10
  
  恩也是可以的，但是你知道一个爬虫系统一天要抓取的域名有几十万个，在一定的频率下，使用动态的ip轮训可以减少ip的封杀的。
  
  回复
kslr 2015年1月14日 / 上午9:27

做正想代理有错字

回复
- 峰云 2015年1月14日 / 上午10:25
  
  感谢….
  
  回复

关于使用动态轮训切换ip防止爬虫被封杀

7 Responses

发表评论取消回复

7 Responses

发表评论 取消回复

发表评论取消回复