使用 Apache Lucene 搜索文本.doc_第1页
使用 Apache Lucene 搜索文本.doc_第2页
使用 Apache Lucene 搜索文本.doc_第3页
使用 Apache Lucene 搜索文本.doc_第4页
使用 Apache Lucene 搜索文本.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

使用 Apache Lucene 搜索文本/developerworks/cn/opensource/os-apache-lucenesearch/index.html轻松为应用程序构建搜索和索引功能Amol Sonawane, 资深软件工程师, EMCAmol Sonawane 是一名高级软件工程师,拥有班加罗尔国际信息技术学院的研究生学位。他为许多领域设计和开发软件,比如供应链管理、企业应用程序集成和商业智能。他可以使 用 J2EE 技术和框架(Struts 和 Spring)开发应用程序。他与妻子 Anuja 居住在印度普内。除了编程,他还喜欢摄影、下棋和字谜。简介:本文将探讨 Apache Lucene 性能卓越、功能全面的文本搜索引擎库。我们将学习 Lucene 架构及其核心 API。学习如何使用 Lucene 进行跨平台全文本搜索、建立索引、显示结果,以及如何扩展搜索。标记本文!发布日期:2009 年 9 月 14 日 级别:初级 其他语言版本:英文 建议:0(添加评论) 平均分 (共 0 个评分 )简介Lucene 是一个开源、高度可扩展的搜索引擎库,可以从 Apache Software Foundation 获取。您可以将 Lucene 用于商业和开源应用程序。Lucene 强大的 API 主要关注文本索引和搜索。它可以用于为各种应用程序构建搜索功能,比如电子邮件客户端、邮件列表、Web 搜索、数据库搜索等等。Wikipedia、TheServerSide、jGuru 和 LinkedIn 等网站都使用了 Lucene。Lucene 还为 Eclipse IDE、Nutch(著名的开源 Web 搜索引擎)以及 IBM、AOL 和 Hewlett-Packard 等公司提供搜索功能。Lucene 已经兼容许多其他编程语言,包括 Perl、Python、C+ 和 .NET。到 2009 年 7 月 30 日止,用于 Java 编程语言的最新版 Lucene 为 V2.4.1。Lucene 功能众多: 拥有强大、准确、有效的搜索算法。 计算每个文档匹配给定查询的分数,并根据分数返回最相关的文档。 支持许多强大的查询类型,比如 PhraseQuery、WildcardQuery、RangeQuery、FuzzyQuery、BooleanQuery 等。 支持解析人们输入的丰富查询表达式。 允许用户使用定制排序、过滤和查询表达式解析扩展搜索行为。 使用基于文件的锁定机制保护并发索引修改。 允许同时搜索和编制索引。回页首使用 Lucene 构建应用程序如图 1 所示,使用 Lucene 构建功能全面的搜索应用程序主要涉及编制数据索引、搜索数据和显示搜索结果几个方面。图 1. 使用 Lucene 构建应用程序的步骤本文从使用 Lucene V2.4.1 和 Java 技术开发的样例应用程序中挑选了一些代码片段。示例应用程序为存储在属性文件中一组电子邮件文档编制索引,并展示了如何使用 Lucene 的查询 API 搜索索引。该示例还让您熟悉基本的索引操作。回页首为数据编制索引Lucene 允许您为任何文本格式的数据编制索引。Lucene 可以用于几乎任何数据源以及从中提取的文本信息。您可以使用 Lucene 编制索引并搜索 HTML 文档、Microsoft Word 文档、PDF 文件中存储的数据。编制数据索引的第一步是让数据变成一个简单的文本格式。您可以使用定制解析器和数据转换器实现这一点。编制索引的过程编制索引 是将文本数据转换为有利于快速搜索的格式。这类似于书本后面的索引:为您指出主题在书中出现的位置。Lucene 将输入数据存储在名为逆序 索引的数据结构中, 该数据结构以索引文件集的形式存储在文件系统或内存中。大部分 Web 搜索引擎都使用逆序索引。它允许用户执行快速关键字查询,查找匹配给定查询的文档。在将文本数据添加到索引前,由分析程序(使用分析过程)进行处理。分析分析 是将文本数据转换为搜索基本单位(称为项(term)的过程。在分析过程中,文本数据将经历多项操作:提取单词、移除通用单词、忽略标点符号、将单词变为词根形式、将单词变成小写等等。分析过程发生在编制索引和查询解析之前。分析将文本数据转换为标记,这些标记将作为项添加到 Lucene 索引中。Lucene 有多种内置分析程序,比如 SimpleAnalyzer、StandardAnalyzer、StopAnalyzer、SnowballAnalyzer 等。它们在标记文本和应用过滤器的方式上有所区别。因为分析在编制索引之前移除单词,它减少了索引的大小,但是不利用精确的查询过程。您可以使用 Lucene 提供的基本构建块创建定制分析程序,以自己的方式控制分析过程。表 1 展示了一些内置分析程序及其处理数据的方式。表 1. Lucene 的内置分析程序分析程序对文本数据的操作WhitespaceAnalyzer分解空白处的标记SimpleAnalyzer 分解非字母字符的文本,并将文本转为小写形式StopAnalyzer 移除虚字(stop word) 对检索无用的字,并将文本转为小写形式StandardAnalyzer 根据一种复杂语法(识别电子邮件地址、缩写、中文、日文、韩文字符、字母数字等等)标记文本将文本转为小写形式移除虚字核心索引编制类Directory表示索引文件存储位置的抽象类。有两个常用的子类: FSDirectory 在实际文件系统中存储索引的 Directory 实现。该类对于大型索引非常有用。 RAMDirectory 在内存中存储所有索引的实现。该类适用于较小的索引,可以完整加载到内存中,在应用程序终止之后销毁。由于索引保存在内存中,所以速度相对较快。Analyzer正如上文所述,分析程序负责处理文本数据并将其转换为标记存储在索引中。在编制索引前,IndexWriter 接收用于标记数据的分析程序。要为文本编制索引,您应该使用适用于该文本语言的分析程序。 默认分析程序适用于英语。在 Lucene 沙盒中还有其他分析程序,包括用于中文、日文和韩文的分析程序。IndexDeletionPolicy该接口用来实现从索引目录中定制删除过时提交的策略。默认删除策略是 KeepOnlyLastCommitDeletionPolicy,该策略仅保留最近的提交,并在完成一些提交之后立即移除所有之前的提交。IndexWriter创建或维护索引的类。它的构造函数接收布尔值,确定是否创建新索引,或者打开现有索引。它提供在索引中添加、删除和更新文档的方法。 对索引所做的更改最初缓存在内存中,并周期性转储到索引目录。IndexWriter 公开了几个控制如何在内存中缓存索引并写入磁盘的字段。对索引的更改对于 IndexReader 不可见,除非调用 IndexWriter 的提交或关闭方法。IndexWriter 创建一个目录锁定文件,以通过同步索引更新保护索引不受破坏。IndexWriter 允许用户指定可选索引删除策略。列表 1. 使用 Lucene IndexWriter/Create instance of Directory where index files will be storedDirectory fsDirectory = FSDirectory.getDirectory(indexDirectory);/* Create instance of analyzer, which will be used to tokenizethe input data */Analyzer standardAnalyzer = new StandardAnalyzer();/Create a new indexboolean create = true;/Create the instance of deletion policyIndexDeletionPolicy deletionPolicy = new KeepOnlyLastCommitDeletionPolicy(); indexWriter =new IndexWriter(fsDirectory,standardAnalyzer,create,deletionPolicy,IndexWriter.MaxFieldLength.UNLIMITED); 将数据添加到索引将文本数据添加到索引涉及到两个类。Field 表示搜索中查询或检索的数据片。Field 类封装一个字段名称及其值。Lucene 提供了一些选项来指定字段是否需要编制索引或分析,以及值是否需要存储。这些选项可以在创建字段实例时传递。下表展示了 Field 元数据选项的详细信息。 表 2. Field 元数据选项的详细信息选项描述Field.Store.Yes用于存储字段值。适用于显示搜索结果的字段 例如,文件路径和 URL。Field.Store.No没有存储字段值 例如,电子邮件消息正文。Field.Index.No适用于未搜索的字段 仅用于存储字段,比如文件路径。Field.Index.ANALYZED用于字段索引和分析 例如,电子邮件消息正文和标题。Field.Index.NOT_ANALYZED用于编制索引但不分析的字段。它在整体中保留字段的原值 例如,日期和个人名称。 Document 是一个字段集合。Lucene 也支持推进文档和字段,这在给某些索引数据赋予重要性时非常有用。给文本文件编制索引包括将文本数据封装在字段中、创建文档、填充字段,使用 IndexWriter 向索引添加文档。列表 2 展示向索引添加数据的示例。列表 2. 向索引添加数据/*Step 1. Prepare the data for indexing. Extract the data. */String sender = properties.getProperty(sender);String date = properties.getProperty(date);String subject = properties.getProperty(subject);String message = properties.getProperty(message);String emaildoc = file.getAbsolutePath();/* Step 2. Wrap the data in the Fields and add them to a Document */Field senderField =new Field(sender,sender,Field.Store.YES,Field.Index.NOT_ANALYZED);Field emaildatefield = new Field(date,date,Field.Store.NO,Field.Index.NOT_ANALYZED); Field subjectField = new Field(subject,subject,Field.Store.YES,Field.Index.ANALYZED);Field messagefield = new Field(message,message,Field.Store.NO,Field.Index.ANALYZED);Field emailDocField =new Field(emailDoc,emaildoc,Field.Store.YES,Field.Index.NO);Document doc = new Document();/ Add these fields to a Lucene Documentdoc.add(senderField);doc.add(emaildatefield);doc.add(subjectField);doc.add(messagefield);doc.add(emailDocField);/Step 3: Add this document to Lucene Index.indexWriter.addDocument(doc); 回页首搜索索引数据搜索是在索引中查找单词并查找包含这些单词的文档的过程。使用 Lucene 的搜索 API 构建的搜索功能非常简单明了。本小节讨论 Lucene 搜索 API 的主要类。SearcherSearcher 是一个抽象基类,包含各种超负荷搜索方法。IndexSearcher 是一个常用的子类,允许在给定的目录中存储搜索索引。Search 方法返回一个根据计算分数排序的文档集合。Lucene 为每个匹配给定查询的文档计算分数。IndexSearcher 是线程安全的;一个实例可以供多个线程并发使用。TermTerm 是搜索的基本单位。它由两部分组成:单词文本和出现该文本的字段的名称。Term 对象也涉及索引编制,但是可以在 Lucene 内部创建。Query 和子类Query 是一个用于查询的抽象基类。搜索指定单词或词组涉及到在项中包装它们,将项添加到查询对象,将查询对象传递到 IndexSearcher 的搜索方法。Lucene 包含各种类型的具体查询实现,比如 TermQuery、BooleanQuery、PhraseQuery、PrefixQuery、RangeQuery、 MultiTermQuery、FilteredQuery、SpanQuery 等。以下部分讨论 Lucene 查询 API 的主查询类。TermQuery搜索索引最基本的查询类型。可以使用单个项构建 TermQuery。项值应该区分大小写,但也并非全是如此。注意,传递的搜索项应该与文档分析得到的项一致,因为分析程序在构建索引之前对原文本执行许多操作。 例如,考虑电子邮件标题 “Job openings for Java Professionals at Bangalore”。假设您使用 StandardAnalyzer 编制索引。现在如果我们使用 TermQuery 搜索 “Java”,它不会返回任何内容,因为本文本应该已经规范化,并通过 StandardAnalyzer 转成小写。如果搜索小写单词 “java”,它将返回所有标题字段中包含该单词的邮件。列表 3. 使用 TermQuery 搜索/Search mails having the word java in the subject fieldSearcher indexSearcher = new IndexSearcher(indexDirectory);Term term = new Term(subject,java);Query termQuery = new TermQuery(term); TopDocs topDocs = indexSearcher.search(termQuery,10); RangeQuery您可以使用 RangeQuery 在某个范围内搜索。索引中的所有项都以字典顺序排列。Lucene 的 RangeQuery 允许用户在某个范围内搜索项。该范围可以使用起始项和最终项(包含两端或不包含两端均可)指定。 列表 4. 在某个范围内搜索/* RangeQuery example:Search mails from 01/06/2009 to 6/06/2009 both inclusive */Term begin = new Term(date,20090601);Term end = new Term(date,20090606);Query query = new RangeQuery(begin, end, true);PrefixQuery您可以使用 PrefixQuery 通过前缀单词进行搜索,该方法用于构建一个查询,该查询查找包含以指定单词前缀开始的词汇的文档。 列表 5. 使用 PrefixQuery 搜索/Search mails having sender field prefixed by the word jobPrefixQuery prefixQuery = new PrefixQuery(new Term(sender,job);PrefixQuery query = new PrefixQuery(new Term(sender,job); BooleanQuery您可以使用 BooleanQuery 组合任何数量的查询对象,构建强大的查询。它使用 query 和一个关联查询的子句,指示查询是应该发生、必须发生还是不得发生。在 BooleanQuery 中,子句的最大数量默认限制为 1,024。您可以调用 setMaxClauseCount 方法设置最大子句数。 列表 6. 使用 BooleanQuery 进行搜索/ Search mails have both java and bangalore in the subject fieldQuery query1 = new TermQuery(new Term(subject,java);Query query2 = new TermQuery(new Term(subject,bangalore);BooleanQuery query = new BooleanQuery();query.add(query1,BooleanClause.Occur.MUST);query.add(query2,BooleanClause.Occur.MUST); PhraseQuery您可以使用 PhraseQuery 进行短语搜索。PhraseQuery 匹配包含特定单词序列的文档。PhraseQuery 使用索引中存储的项的位置信息。考虑匹配的项之间的距离称为 slop。默认情况下,slop 的值为零,这可以通过调用 setSlop 方法进行设置。PhraseQuery 还支持多个项短语。 列表 7. 使用 PhraseQuery 进行搜索/* PhraseQuery example: Search mails that have phrase job opening j2ee in the subject field.*/PhraseQuery query = new PhraseQuery();query.setSlop(1);query.add(new Term(subject,job);query.add(new Term(subject,opening);query.add(new Term(subject,j2ee); WildcardQueryWildcardQuery 实现通配符搜索查询,这允许您搜索 arch*(可以查找包含 architect、architecture 等)之类的单词。使用两个标准通配符: * 表示零个以上 ? 表示一个以上如果使用以通配符查询开始的模式进行搜索,则可能会引起性能的降低,因为这需要查询索引中的所有项以查找匹配文档。 列表 8. 使用 WildcardQuery 进行搜索/Search for arch* to find e-mail messages that have word architect in the subjectfield./Query query = new WildcardQuery(new Term(subject,arch*);FuzzyQuery您可以使用 FuzzyQuery 搜索类似项,该类匹配类似于指定单词的单词。类似度测量基于 Levenshtein(编辑距离)算法进行。在列表 9 中,FuzzyQuery 用于查找与拼错的单词 “admnistrtor” 最接近的项,尽管这个错误单词没有索引。 列表 9. 使用 FuzzyQuery 进行搜索/* Search for emails that have word similar to admnistrtor in thesubject field. Note we have misspelled admnistrtor here.*/Query query = new FuzzyQuery(new Term(subject, admnistrtor);QueryParserQueryParser 对于解析人工输入的查询字符非常有用。您可以使用它将用户输入的查询表达式解析为 Lucene 查询对象,这些对象可以传递到 IndexSearcher 的搜索方法。它可以解析丰富的查询表达式。 QueryParser 内部将人们输入的查询字符串转换为一个具体的查询子类。您需要使用反斜杠()将 *、? 等特殊字符进行转义。您可以使用运算符 AND、OR 和 NOT 构建文本布尔值查询。 列表 10. 搜索人工输入的查询表达式QueryParser queryParser = new QueryParser(subject,new StandardAnalyzer();/ Search for emails that contain the words job openings and .net and puneQuery query = queryParser.parse(job openings AND .net AND pune);回页首显示搜索结果IndexSearcher 返回一组对分级搜索结果(如匹配给定查询的文档)的引用。您可以使用 IndexSearcher 的搜索方法确定需要检索的最优先搜索结果数量。可以在此基础上构建定制分页。您可以添加定制 Web 应用程序或桌面应用程序来显示搜索结果。检索搜索结果涉及的主要类包括 ScoreDoc 和 TopDocs。ScoreDoc搜索结果中包含一个指向文档的简单指针。这可以封装文档索引中文档的位置以及 Lucene 计算的分数。TopDocs封装搜索结果以及 ScoreDoc 的总数。以下代码片段展示了如何检索搜索结果中包含的文档。列表 11. 展示搜索结果 /* First parameter is the query to be executed and second parameter indicates the no of search results to fetch */ TopDocs topDocs = indexSearcher.search(query,20); System.out.println(Total hits +topDocs.totalHits); / Get an array of references to matched documents ScoreDoc scoreDosArray = topDocs.scoreDocs; for(ScoreDoc scoredoc: scoreDosArray) /Retrieve the matched document and show relevant details Document doc = indexSearcher.doc(scoredoc.doc); System.out.println(nSender: +doc.getField(sender).stringValue(); System.out.println(Subject: +doc.getField(subject).stringValue(); System.out.println(Email file location: +doc.getField(emailDoc).stringValue(); 基本的索引操作基本的索引操作包括移除和提升文档。从索引中移除文档应用程序常常需要使用最新的数据更新索引并移除较旧的数据。例如,在 Web 搜索引擎中,索引需要定期更新,因为总是需要添加新网页,移除不存在的网页。Lucene 提供了 IndexReader 接口允许您对索引执行这些操作。IndexReader 是一个提供各种方法访问索引的抽象类。Lucene 内部引用文档时使用文档编号,该编号可以在向索引添加或从中移除文档时更改。文档编号用于访问索引中的文档。IndexReader 不得用于更新目录中的索引,因为已经打开了 IndexWriter。IndexReader 在打开时总是搜索索引的快照。对索引的任何更改都可以看到,直到再次打开 IndexReader。使用 Lucene 重新打开它们的 IndexReader 可以看到最新的索引更新。 列表 12. 从索引中删除文档/ Delete all the mails from the index received in May 2009.IndexReader indexReader = IndexReader.open(indexDirectory);indexReader.deleteDocuments(new Term(month,05);/close associate index files and save deletions to diskindexReader.close();提升文档和字段有时您需要给某些索引数据更高的重要级别。您可以通过设置文档或字段的提升因子实现这一点。默认情况下,所有文档和字段的默认提升因子都是 1.0。列表 13. 提升字段if(subject.toLowerCase().indexOf(pune) != -1)/ Display search results that contain pune in their subject first by setting boost factorsubjectField.setBoost(2.2F);/Display search results that contain job in their sender email addressif(sender.toLowerCase().indexOf(job)!=-1)luceneDocument.setBoost(2.1F);回页首扩展搜索Lucene 提供一个称为排序 的高级功能。您可以根据指示文档在索引中相对位置的字段对搜索结果进行排序。用于排序的字段必须编制索引但不得标记。搜索字段中可以放入 4 种可能的项值:整数值、long 值、浮点值和字符串。还可以通过索引顺序排序搜索结果。Lucene 通过降低相关度(比如默认的计算分数)对结果排序。排序的顺序是可以更改的。列表 14. 排序搜索结果/* Search mails having the word job in subject and return results sorted by senders email in descending order. */SortField sortField = new SortField(sender, true);Sort sortBySender = new Sort(sortField);WildcardQuery query = new WildcardQuery(new Term(subject,job*);TopFieldDocs topFieldDocs = indexSearcher.search(query,null,20,sortBySender);/Sorting by index ordertopFieldDocs = indexSearcher.search(query,null,20,Sort.INDEXORDER); Filtering 是限制搜索空间,只允许某个文档子集作为搜索范围的过程。您可以使用该功能实现对搜索结果进行再次搜索,或者在搜索结果上实现安全性。Lucene 带有各种内置的过滤器,比如 BooleanFilter、CachingWrapperFilter、ChainedFilter、DuplicateFilter、 PrefixFilter、QueryWrapperFilter、RangeFilter、RemoteCachingWrapperFilter、 SpanFilter 等。Filter 可以传递到 IndexSearcher 的搜索方法,以过滤匹配筛选标准的筛选文档。列表 15. 筛选搜索结果/*Filter the results to show only mails that have sender field prefixed with jo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论