基于lucene的图书垂直搜索引擎探析_第1页
基于lucene的图书垂直搜索引擎探析_第2页
基于lucene的图书垂直搜索引擎探析_第3页
基于lucene的图书垂直搜索引擎探析_第4页
基于lucene的图书垂直搜索引擎探析_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/6基于LUCENE的图书垂直搜索引擎探析基于LUCENE的图书垂直搜索引擎探析随着信息的多元化发展和互联网信息的急剧增长,互联网上的图书信息也在急剧增加,在这种现状下,通用的搜索引擎已经不能快速、全方位的帮助用户查找相关信息资料,而图书垂直搜索引擎的出现适时的帮助用户解决了这一难题。这是由于与通用的搜索引擎相比,图书垂直搜索引擎的搜索结果更实用、更准确和更精确。比如某用户想要找某一主题的图书,通常情况下需要通过搜索引擎搜索到许多个图书类站点,然后到每一个网站上去寻找需求的图书,而图书垂直搜索引擎则能够按照该图书的主题,把符合该主题的图书一次性全部搜索出来,显示在检索界面中以供用户选择,这样可以为用户节省大量的时间,而且检索到的图书信息更加全面,方便了用户的需求。1垂直搜索引擎概述垂直搜索引擎是一种具有行业色彩的搜索引擎,是通用搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人2/6群或某一特定需求提供的有一定价值的信息和相关服务,如图书垂直搜索引擎、汽车垂直搜索引擎、房产垂直搜索引擎等。垂直搜索引擎具有“专、精、深”的特点,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎主要由三部分组成抓取模块、索引库模块和检索模块,如图所示。图垂直搜索引擎组成结构2图书垂直搜索引擎结构分析图书垂直搜索引擎结构上也主要分三个部分,实现图书信息采集的抓取系统,建立图书信息索引的索引库系统,以及直接面向用户的检索系统,其结构如图所示。图图书垂直搜索引擎结构图图书信息的采集在图书信息的采集过程中,首先要对图书信息采集条件进行相关设置,然后利用网络爬虫工具通过URL来采集网页图书信息,抽取网页的图书内容并将这些图书网页信息存储在图书信息数据库,接着找到原始网页中的其它链接地址,通过这些链接地址寻找下一个图书网页,就这样循环,直到将相关网站所有的图书网页都抓取完为止。3/6建立图书信息索引库建立图书信息索引库,主要是针对网页采集到的图书信息进行分析,利用分词处理技术对图书文本进行处理,可根据图书的主题、出版社、丛书名、作者等,以及之前将该图书信息存储到图书信息数据库时的ID,按照相应的规则存入图书信息索引库中,来为索引系统服务。而在LUCENE中,图书信息索引的建立可以直接由LUCENE提供的索引引擎实现。图书信息检索在图书垂直搜索引擎的用户接口处,用户在通过关键字检索图书信息时,检索系统会先在图书信息索引库中进行快速检索,得到和关键字相关的图书信息,并进一步得到这些图书在图书论文联盟信息数据库中的ID,再在图书信息数据库中查找与这些ID对应的图书信息记录,最后将完整的图书信息返回给用户,这样就完成了一次检索,这一检索过程可直接由LUCENE提供的查询引擎实现。3检索系统中基于LUCENE的图书排名算法分析在图书垂直搜索引擎实际检索过程中,有时根据用户关键词的局限性和不完整性所检索到的图书信息会有很多页面,在这种情况下,怎样在用户检索接口处显示用户最希望得到的图书信息就需要对检索系统中的检索算法进行分析,这里通过对LUCENE基础检索算法的分析,来探究4/6图书垂直搜索引擎检索系统中图书信息排名的算法。LUCENE是APACHE软件基金会JAKARTA项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。LUCENE的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是论文联盟以此为基础建立起完整的全文检索引擎。LUCENE基础检索排序算法描述如下SCOREDTFTINDIDFTNORMT,D其中1TFTIND表示词条频率,即检索词条T在文档D中出现的次数。2IDFT表示词条T在文档D中的倒排词频。3,该值是搜索时的一个权重因子。4NORMT,D是标准化因子,包括三个参数DOCUMENTBOOST、FIELDBOOST、LENGTHNORMFIELD。一个检索词在一个长度为L和长度为10L的文档中各出现一次,那么长度为L的文档得分高于10L的文档。在LUCENE检索过程中,主要流程是先找到与关键字匹配的图书文档集合,然后给该图书文档集合中的每一个5/6记录计算检索相似度,得到每个图书记录的SCORED,最后进行该文档集中图书记录的排序,在用户接口处呈现给用户。根据LUCENE基础检索算法,通过图书的主题、作者、出版社、丛书名等关键字检索到的图书信息是按照该图书记录的SCORE高低排序的,但如果出现多个图书记录SCORED近似的情况,LUCENE输出的图书排名很难满足用户的需求,这种情况下,就需要一种改进的LUCENE检索算法来实现用户的需要,具体描述如下SCOREK1LUCENESCOREK2PAGERANKSCORE其中LUCENESCORE是根据LUCENE基础检索算法得到的图书记录D的得分,PAGERANKSCORE是采集图书信息记录D时,其所对应的原始网页的PAGERANK得分。这样在检索过程中加入网页的PAGERANK因素,可以使LUCENE检索的具有近似SCORE的图书记录排序有了差异,能更好的满足用户的需求。4结束语垂直搜索引擎的发展是当今互联网信息膨胀作用下必然出现的结果,而图书垂直搜索引擎作为垂直搜索引擎的一个重要组成部分,其需求也在不断增加,怎样设计和建设良好的图书垂直搜索引擎,方便用户从海量图书信息中筛选出所需求的图书信息,这需要图书垂直搜索引擎实现信息采集的全面性和完整性,以及实现图书信息检索的6/6个性化需求。参考文献1李晓红,朱鸿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论