使用golang实现ac自动机(ahocorasick)的api接口

我们针对抓取来的页面进行关键词匹配,但是随着爬虫的量级越来越大,关键词计算有些算不过来….  数据队列已经到了100w左右….  又在多个节点上,发布了docker化的关键词匹配服务。  关键词匹配服务的服务器数量已经到了10台,里面的代码逻辑已经做到最优,相关的算法也是用的ac自动机(ahocorasick),我们也看了下python的ahocorasick实现代码,可以说这老外写得不错,代码质量很高,算法实现也很清晰。 在python ahocorasick模块也没几个可以选。   同事小军也在折腾关于他那边业务的ac自动机逻辑,会出现一个问题。 举个例子,我的关键字是 iphone  ,我匹配的内容是 “iphone iphone5 iphone6″ ,但是用python下的ahocorasick匹配的结果是iphone,没有匹配到iphone5和6。 根据ac自动机原理,他是可以匹配到iphone5的,java版本是可以全部匹配的。    个人觉得,python ahocorasick 是做了相关的匹配精度,所有才没有把iphone5匹配到。  

http://xiaorui.cc/?p=1535


正体,python的gil限制了他计算的性能,这种多匹配模式也不太适合用multiprocessing多进程。 今天正好同事分享了golang,那,重新拾起我曾经抛弃的golang,来解决性能问题。  后期会做成http api服务,供业务层接入。 

export GOROOT=/usr/lib/go
export GOPATH=$HOME/go
go get github.com/gansidui/ahocorasick
go build ac.go


对Golang感兴趣的朋友可以加群: 278517979 !!!
另外如果大家觉得文章对你有些作用! 如果想赏钱,可以用微信扫描下面的二维码, 感谢!
另外再次标注博客原地址  xiaorui.cc

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">