使用ElasticSearch的scroll和scan解决大数据集合问题

我的连接,http://xiaorui.cc/?p=3072

内容概要, 主要是解决在ElasticSearch中大数据集合的查询需求,可以使用scroll scan可以较轻松的遍历elasticsearch的某个index.

深度分页那些事

我们知道ElasticSearch的深度分页是相当没有效率的,这根mongodb的limit skip分页一个道理! 什么是深度分页? 使用es的from和size语法来进行范围取值。 比如size=10&from=5000 ,这就是深度分页的用法。 我为了你想要的size 10个数据,es首先会扫描shard分片进行匹配并排序数据,之后算出5000个。这样就能拿到你想要那10个数据。 

但是每次都这样是否很蛋疼? 所以ElasticSearch就有了scroll的概念. 

elasticsearch的scroll是什么? 
可以简单理解为mysql的cursor游标,比如你一次请求的数据会很大,可以使用scroll这样的流式接口,scroll会把你的所需要的结果标记起来。
但是这scroll的查询还是会对数据进行排序的,这样会影响性能。  如果你只是单纯的想要数据,那么可以使用scan,因为scan会告诉 elasticsearch 不去排序。scan模式会扫描shard分片中的数据,单纯的扫除匹配,而不会像scroll进行排序处理。 

如果没有排序的深度分页需求,最好使用 scan scroll的组合。

scan scroll的流式接口用法很是简单,在url里扩充字段 search_type 是scan类型,scroll是3分钟,当次查询的结果会在elasticsearch标记3分钟。 
这里的size 1000个会在每个shard起到作用。  并不是把所有结果限制为1000个 ! 如果你的分片数目有10个,那么你最多可以拿到 1000 * 10的数据。

该文章写的有些乱,欢迎来喷 ! 另外文章后续不断更新中,请到原文地址查看更新。

http://xiaorui.cc/?p=3072

例子我就不用python elasticsearch库了,直接用curl了演示,下面是请求体:


返回体:


如果你想设定更多的时间:


注意: 第一次的查询结果只能拿到scroll_id token,并没有数据。 接着我们可以拿着这个token继续去访问,我们就能拿到真实命中的数据。 这个token只能访问一次,切记… 


检索下一批结果在url里面不用再写index、type。 每一次对scrollAPI的请求都会返回结果的下一批直到没有更多的结果返回为止。比如,当hits数组为空的时候。 这样每次的查询都会拿到一个scroll token和response hits结果集。

如果你想删除scroll id,那么可以调用delete方法删除.  除非是你的scan任务特别的,一般scroll设立个5分钟就可以了。


对于ElasticSearch大批量数据分页的方法就说这么多了,尽量别用深度分页那性能真的是没谁了。 找个时间把python elasticsearch库的scan scroll讲解说一遍。



对Python及运维开发感兴趣的朋友可以加QQ群 : 478476595 !!!
{ 2000人qq大群内有各厂大牛,常组织线上分享及沙龙,对高性能及分布式场景感兴趣同学欢迎加入该QQ群 }

另外如果大家觉得文章对你有些作用!   帮忙点击广告. 一来能刺激我写博客的欲望,二来好维护云主机的费用.
如果想赏钱,可以用微信扫描下面的二维码. 另外再次标注博客原地址  xiaorui.cc  ……   感谢!

源码分析elasticsearch python的scan及scroll实现

上篇文章已经讲过elasticsearch scan scroll的用途, 他们是用来解决获取大数据返回时的性能问题.  有兴趣的朋友可以回顾下 scan,scroll的作用一篇....

阅读全文