使用python解析抽取url中各级域名信息

使用python解析抽取url中各级域名信息

又是周五了,又有饭局了….  大家在分析日志及数据分析的时候,会遇到一些url抽取域名信息的需求。虽然urlparse可以把所有的域名给提取出来,但是不能精确到一级域名,二级域名,x级域名。

下面是我封装的一个小模块,性能还可以…至于代码实现也比较的简单,就是预先加载一些常用的域名的后缀,然后用re正则来模糊匹配。

项目名字, ExtractLevelDomain

功能介绍, 通过URL抽取各层各级的域名(一级域名,二级域名….) . 这模块本来是用来分析日志及数据分析的.

pypi install

pip install ExtractLevelDomain

source install

git clone https://github.com/rfyiamcool/ExtractLevelDomain.git
cd ExtractLevelDomain
python setup.py install

Usage Document:

import ExtractLevelDomain
filter = ExtractLevelDomain.ExtractLevelDomain()

#普通抽取域名,默认是最多匹配
print filter.parse_url('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc')

#parse_url_level可以控制level级,可接收的参数两种参数 1 2 3 或"*"
print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=2)

#set_level设置level级别
filter.set_level(1)

print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=1)

#现实Level级别
print filter.level

END….


大家觉得文章对你有些作用! 如果想赏钱,可以用微信扫描下面的二维码,感谢!
另外再次标注博客原地址  xiaorui.cc

发表评论

邮箱地址不会被公开。 必填项已用*标注