使用elasticsearch的scroll和scan解决深度分页问题

使用ElasticSearch的scroll和scan解决大数据集合问题

我的连接，http://xiaorui.cc/?p=3072

内容概要, 主要是解决在ElasticSearch中大数据集合的查询需求，可以使用scroll scan可以较轻松的遍历elasticsearch的某个index.

深度分页那些事

我们知道ElasticSearch的深度分页是相当没有效率的，这根mongodb的limit skip分页一个道理! 什么是深度分页？使用es的from和size语法来进行范围取值。比如size=10&from=5000 ，这就是深度分页的用法。我为了你想要的size 10个数据，es首先会扫描shard分片进行匹配并排序数据，之后算出5000个。这样就能拿到你想要那10个数据。

但是每次都这样是否很蛋疼？所以ElasticSearch就有了scroll的概念.

elasticsearch的scroll是什么？
可以简单理解为mysql的cursor游标，比如你一次请求的数据会很大，可以使用scroll这样的流式接口，scroll会把你的所需要的结果标记起来。
但是这scroll的查询还是会对数据进行排序的，这样会影响性能。如果你只是单纯的想要数据，那么可以使用scan，因为scan会告诉 elasticsearch 不去排序。scan模式会扫描shard分片中的数据,单纯的扫除匹配，而不会像scroll进行排序处理。

如果没有排序的深度分页需求，最好使用 scan scroll的组合。

scan scroll的流式接口用法很是简单,在url里扩充字段 search_type 是scan类型，scroll是3分钟，当次查询的结果会在elasticsearch标记3分钟。
这里的size 1000个会在每个shard起到作用。并不是把所有结果限制为1000个！如果你的分片数目有10个，那么你最多可以拿到 1000 * 10的数据。

该文章写的有些乱，欢迎来喷 ! 另外文章后续不断更新中，请到原文地址查看更新。

http://xiaorui.cc/?p=3072

例子我就不用python elasticsearch库了，直接用curl了演示，下面是请求体:

#xiaorui.cc
curl -XGET xiaorui.cc:9200/blog/breif/_search?pretty&search_type=scan&scroll=3m -d 
{"size":1000,"query":{"match_all":{}}}

返回体:

#xiaorui.cc
{
  "_scroll_id": : "UVM4U0NMd2sdfcvrtrtpjWlJ3YWlBOzExOTpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9sdfou4kjldsfkoicvuefldfjldfgjaY1VyUVM4U0NMd2pjWlJ3YW",
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
    }
    "hits" : {  
    "total" : 0,  
    "max_score" : null,  
    "hits" : [ ]  
  }
}

如果你想设定更多的时间:

Time    Units
y   Year
M   Month
w   Week
d   Day
h   Hour
m   Minute
s   Second

注意: 第一次的查询结果只能拿到scroll_id token，并没有数据。接着我们可以拿着这个token继续去访问，我们就能拿到真实命中的数据。这个token只能访问一次，切记…

curl –XGET 'localhost:9200/_search/scroll?scroll=2m&pretty&scroll_id=UVK8sdfdfgNMSDF2pcRaftJKHlovaMNDSF4M4U0NMd2pjWlJ3YWlBOzExOTpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9sdfou4kjldsfkoicvuefldfjldfgjaY1VyUVM4U0NMd2pjWlJ3YW'

检索下一批结果在url里面不用再写index、type。每一次对scrollAPI的请求都会返回结果的下一批直到没有更多的结果返回为止。比如，当hits数组为空的时候。这样每次的查询都会拿到一个scroll token和response hits结果集。

如果你想删除scroll id，那么可以调用delete方法删除. 除非是你的scan任务特别的，一般scroll设立个5分钟就可以了。

#xiaorui.cc
curl –XDELETE 'localhost:9200/_search/scroll -d "UVK8sdfdfgNMSDF2pcRaftJKHlovaMNDSF4M4U0NMd2pjWlJ3YWlBOzExOTpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9sdfou4kjldsfkoicvuefldfjldfgjaY1VyUVM4U0NMd2pjWlJ3YW"

对于ElasticSearch大批量数据分页的方法就说这么多了，尽量别用深度分页那性能真的是没谁了。找个时间把python elasticsearch库的scan scroll讲解说一遍。

大家觉得文章对你有些作用！如果想赏钱，可以用微信扫描下面的二维码，感谢!
另外再次标注博客原地址 xiaorui.cc

发表评论 取消回复

发表评论取消回复