Lucene学习总结之七Lucene搜索过程解析

上传人：猪*** IP属地：江西上传时间：2022-01-12 格式：DOC 页数：12 大小：596KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、2.4、搜索查询对象 2.4.3、进行倒排表合并在得到了Scorer对象树以及SumScorer对象树后，便是倒排表的合并以及打分计算的过程。合并倒排表在此节中进行分析，而Scorer对象树来进行打分的计算则在下一节分析。BooleanScorer2.score(Collector) 代码如下：public void score(Collector collector) throws IOException collector.setScorer(this); while (doc = countingSumScorer.nextDoc() != NO_MO

2、RE_DOCS) collector.collect(doc); 从代码我们可以看出，此过程就是不断的取下一篇文档号，然后加入文档结果集。取下一篇文档的过程，就是合并倒排表的过程，也就是对多个查询条件进行综合考虑后的下一篇文档的编号。由于SumScorer是一棵树，因而合并倒排表也是按照树的结构进行的，先合并子树，然后子树与子树再进行合并，直到根。按照上一节的分析，倒排表的合并主要用了以下几个SumScorer:· 交集ConjunctionScorer · 并集DisjunctionSumScorer · 差集R

3、eqExclScorer · ReqOptSumScorer 下面我们一一分析：2.4.3.1、交集ConjunctionScorer(+A +B)ConjunctionScorer中有成员变量Scorer scorers，是一个Scorer的数组，每一项代表一个倒排表，ConjunctionScorer就是对这些倒排表取交集，然后将交集中的文档号在nextDoc()函数中依次返回。为了描述清楚此过程，下面举一个具体的例子来解释倒排表合并的过程：(1) 倒排表最初如下： (2) 在ConjunctionScorer的构造函数中，首先调用每个Scorer的nextDoc()函

4、数，使得每个Scorer得到自己的第一篇文档号。for (int i = 0; i < scorers.length; i+) if (scorersi.nextDoc() = NO_MORE_DOCS) /由于是取交集，因而任何一个倒排表没有文档，交集就为空。 lastDoc = NO_MORE_DOCS; return; (3) 在ConjunctionScorer的构造函数中，将Scorer按照第一篇的文档号从小到大进行排列。Arrays.sort

5、(scorers, new Comparator<Scorer>() public int compare(Scorer o1, Scorer o2) return o1.docID() - o2.docID(); );倒排表如下： (4) 在ConjunctionScorer的构造函数中，第一次调用doNext()函数。if (doNext() = NO_MORE_DOCS) lastDoc = NO_MORE_DOCS; return;private int doNext() t

6、hrows IOException int first = 0; int doc = scorersscorers.length - 1.docID(); Scorer firstScorer; while (firstScorer = scorersfirst).docID() < doc) doc = firstScorer.advance(doc); first = first = scorers.length - 1 ? 0 : first + 1;

7、0; return doc;姑且我们称拥有最小文档号的倒排表称为first，其实从doNext()函数中的first = first = scorers.length - 1 ? 0 : first + 1;我们可以看出，在处理过程中，Scorer数组被看成一个循环数组(Ring)。而此时scorerscorers.length - 1拥有最大的文档号，doNext()中的循环，将所有的小于当前数组中最大文档号的文档全部用firstScorer.advance(doc)(其跳到大于或等于doc的文档)函数跳过，因为既然它们小于最大的文档号，而ConjunctionScorer又是

8、取交集，它们当然不会在交集中。此过程如下：· doc = 8，first指向第0项，advance到大于8的第一篇文档，也即文档10，然后设doc = 10，first指向第1项。 · doc = 10，first指向第1项，advance到文档11，然后设doc = 11，first指向第2项。 · doc = 11，first指向第2项，advance到文档11，然后设doc = 11，first指向第3项。 · doc = 11，first指向第3项，advance到文档11，然后设doc = 11，first指

9、向第4项。 · doc = 11，first指向第4项，advance到文档11，然后设doc = 11，first指向第5项。 · doc = 11，first指向第5项，advance到文档11，然后设doc = 11，first指向第6项。 · doc = 11，first指向第6项，advance到文档11，然后设doc = 11，first指向第7项。 · doc = 11，first指向第7项，advance到文档11，然后设doc = 11，first指向第0项。 · d

10、oc = 11，first指向第0项，advance到文档11，然后设doc = 11，first指向第1项。 · doc = 11，first指向第1项。因为11 < 11为false，因而结束循环，返回doc = 11。这时候我们会发现，在循环退出的时候，所有的倒排表的第一篇文档都是11。 (5) 当BooleanScorer2.score(Collector)中第一次调用ConjunctionScorer.nextDoc()的时候，lastDoc为-1，根据nextDoc函数的实现，返回lastDoc = scorersscorers.length

11、 - 1.docID()也即返回11，lastDoc也设为11。public int nextDoc() throws IOException if (lastDoc = NO_MORE_DOCS) return lastDoc; else if (lastDoc = -1) return lastDoc = scorersscorers.length - 1.docID(); scorers(scorers.length - 1).nextDoc();

12、return lastDoc = doNext();(6) 在BooleanScorer2.score(Collector)中，调用nextDoc()后，collector.collect(doc)来收集文档号(收集过程下节分析)，在收集文档的过程中，ConjunctionScorer.docID()会被调用，返回lastDoc，也即当前的文档号为11。(7) 当BooleanScorer2.score(Collector)第二次调用ConjunctionScorer.nextDoc()时：· 根据nextDoc函数的实现，首先调用scorers(scorers.length - 1

13、).nextDoc()，取最后一项的下一篇文档13。 · 然后调用lastDoc = doNext()，设doc = 13，first = 0，进入循环。 · doc = 13，first指向第0项，advance到文档13，然后设doc = 13，first指向第1项。 · doc = 13，first指向第1项，advance到文档13，然后设doc = 13，first指向第2项。 · doc = 13，first指向第2项，advance到文档13，然后设doc = 13，first指向第3项。 ·

14、doc = 13，first指向第3项，advance到文档13，然后设doc = 13，first指向第4项。 · doc = 13，first指向第4项，advance到文档13，然后设doc = 13，first指向第5项。 · doc = 13，first指向第5项，advance到文档13，然后设doc = 13，first指向第6项。 · doc = 13，first指向第6项，advance到文档13，然后设doc = 13，first指向第7项。 · doc = 13，first指向第7项，advance到文档13，然后设doc = 13，first指向第0项。

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Lucene学习总结之七Lucene搜索过程解析

文档简介

温馨提示

最新文档

评论

Lucene学习总结之七Lucene搜索过程解析

文档简介

温馨提示

最新文档

评论

相关文档