使用python解析抽取url中各级域名信息
又是周五了,又有饭局了…. 大家在分析日志及数据分析的时候,会遇到一些url抽取域名信息的需求。虽然urlparse可以把所有的域名给提取出来,但是不能精确到一级域名,二级域名,x级域名。
下面是我封装的一个小模块,性能还可以…至于代码实现也比较的简单,就是预先加载一些常用的域名的后缀,然后用re正则来模糊匹配。
项目名字, ExtractLevelDomain
功能介绍, 通过URL抽取各层各级的域名(一级域名,二级域名….) . 这模块本来是用来分析日志及数据分析的.
pypi install
pip install ExtractLevelDomain
source install
git clone https://github.com/rfyiamcool/ExtractLevelDomain.git cd ExtractLevelDomain python setup.py install
Usage Document:
import ExtractLevelDomain filter = ExtractLevelDomain.ExtractLevelDomain() #普通抽取域名,默认是最多匹配 print filter.parse_url('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc') #parse_url_level可以控制level级,可接收的参数两种参数 1 2 3 或"*" print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=2) #set_level设置level级别 filter.set_level(1) print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=1) #现实Level级别 print filter.level
END….