基于.Net技术图书信息全文检索系统.doc_第1页
基于.Net技术图书信息全文检索系统.doc_第2页
基于.Net技术图书信息全文检索系统.doc_第3页
基于.Net技术图书信息全文检索系统.doc_第4页
基于.Net技术图书信息全文检索系统.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于.Net技术图书信息全文检索系统 摘要:本文将开源全文检索技术应用到图书信息管理系统,提高了全文检索速度。最后,本文着重讨论了系统实现的关键技术。 关键词:全文检索;图书.Net 中图分类号:J218.7文献标识码:A 文章编号:1007-9599 (2010) 15-0000-01 Book Information Text Retrieval System on .Net Technology Huang Jianguo (Computing Center,Statistics Bureau of Yixing,Yixing214200,China) Abstract:This article will open full-text retrieval technology into library information management system to enhance the full-text retrieval speed.Finally,the paper focuses on the key technologies of the system. Keywords:Full-text retrieval;Books.Net 一、引言 随着互联网技术的不断发展,信息量的快速膨胀,使万维网已经发展成为一个巨大的海量信息空间。现代的搜索引擎已由收录几千万到现在收录和几百亿个页面。如何有效,快速,准确地在海量的信息中找到我们所需要的内容已成为当前研究的一大热点。因此,信息检索技术在当今的信息社会中将发挥越来越重要的作用。全文检索则是信息检索中一个极重要的部分。人们每天在网上使用的百度,谷歌等搜索引擎来查找所需要的信息。而这些搜索引擎采用的核心技术就包含了全文检索。所谓全文检索是指为需要检索的内容,例如一篇文章的标题和内容,建立索引并指明索引词出现的位置和内容。当用户输入关键字进行查询时,检索引擎根据事先建立的索引进行匹配查找,并将查找的结果反馈给用户的检索方式。然而,目前现有的关系数据库检索是以结构化数据为检索的。数据以记录形式存储。数据类型有结构化和非结构化之分。结构化的数据即具有固定长度的数据,例如整型、字符、日期型等。而非结构化的数据通常是存放内容,文本等,这些数据都是不定长的。然而,对于这些非结构化数据进行检索时,通常是使用关系数据库支持的SQL语句进行匹配查询类似“like%key%”。显然,使用SQL实现的全文检索通常会占用大量的CPU和内容,使数据库处于极繁忙状态。目前主流的数据库例如Oracle,SQLServer等内置的全文检索技术检索效率很低,其速度也相当慢。 本文为解决现有数据库实现全文检索的不足,利用微软的.NET技术,借助全文检索系统Lucence1的相关接口,实现了一个能提供全文检索的图书信息检索系统,从而大大加快了检索速度,提高检索准确度。 二、全文检索系统模型 本文实现一个简单的图书搜索引擎,使用开源框架DotLucene来实现搜索引擎系统。DotLucene是一个从Apache的Lucence检索框架移植到.Net上的。Lucene是目前最为流行的基于全文检索的工其包。Lucene检索本质上是索引检索,即采用空间来换取时间,它对需要检索的文件、字符流进行全文索引。在进行检索的时候对索引实行快速检索,从而得到检索的位置。 三、系统实现的原理与技术 图书全文检索系统的实现原理可分为如下几步:(1)建立图书数据库;(2)对图书库建立索引;(3)在索引数库中实行全文搜索;(4)对搜索结果进行处理和排序。 (一)建立图书信息库 该步骤是一个长期信息录入过程。如果有新的图书信息需要入库,操作员通过系统提供的图形界面按指定的格式要求进行数据录入。 (二)对图书库建立索引 该步骤主要目的是使用DotLucene技术对图书信息库建立索引。如果使用传统的方法查询图书内容,例如含有“设计模式”的关键字,则对数据库提交类似如下的SQL语句“like%设计模式%”。这样的执效显然十分低效。本文通过DotLucene技术对需要检索的内容先进行索引,并将这些索引信息存放在磁盘上。在使用DotLucene类库时,首先要在.Net系统工程引入“Lucene.Net.dll”动态类,并引入如下包: using Lucene.Net.Documents; using Lucene.Net.Index; using Lucene.Net.Search; using Lucene.Net.QueryParsers; using Lucene.Net.Analysis.Standard; 之后,建立与图书库的链接,并从数据库读取需要建立索引的字段。假定只为图书标题(Title)和图书摘要(Abstract)建立索引。 IndexWriter writer=new IndexWriter(d:bookindex,new Lucene.Net.Analysis.Cn.ChineseAnalyzer(),true); Document doc=new Document(); doc.Add(new Field(BookID,从数据库读取图书ID); doc.Add(new Field(Title,从数据库读取图书标题); doc.Add(new Field(Abstract,读数据库读取图书摘要); doc.Add(new Field(indexcontent,+标题+摘要); writer.AddDocument(doc); writer.Optimize();/索引完成后的优化处理 writer.Close(); 其中代码的行3到行8循环将数据库中读取的记录进行索引,而行9将所有索引的字段写到磁盘。 (三)在索引数库中实行全文搜索 建立后索引文件后,当用户提交查询时,系统不是直接检索数据库,而是将查询请求提交到全文检索模块,由检索程序对索引进行检索,代码如下: IndexSearcher srch=new IndexSearcher(d:bookindex); QueryParser qp=new QueryParser(indexcontent,new StandardAnalyzer(); Query query=qp.Parse(要查读的关键字); Hits myhit=srch.Search(query); Response.Write(搜索到+myhit.Length()+个结果); (四)对搜索结果进行处理和排序 如果搜索空间很大,可能返回的结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论