基于Nutch的搜索引擎网页摘要改进_第1页
基于Nutch的搜索引擎网页摘要改进_第2页
基于Nutch的搜索引擎网页摘要改进_第3页
基于Nutch的搜索引擎网页摘要改进_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Nutch的搜索引擎网页摘要改良基于Nuth的搜索引擎网页摘要改良一、引言随着计算机相关技术和网络应用领域的逐渐扩展,互联网信息呈爆炸式增长,相继出现的搜索引擎为网络用户获取有效信息提供了很大方便。最早现代意义上的搜索引擎出现于1994年7月。当时ihaelauldin将JhnLeavitt的蜘蛛程序接入到其索引程序中,创立了大家熟知的Lys。同年4月,斯坦福Stanfrd大学的两名博士生,DavidFil和美籍华人杨致远GerryYang共同创办了超级目录索引Yah,使搜索引擎的概念深化人心。从此搜索引擎进入了高速开展时期1。现有搜索引擎采用的是一种静态网页摘要方法,该方法是选取网页中首

2、段的头、尾句或者含有搜索关键词的句子,然后结合标题,编稿时间,作者等信息作为网页的摘要。该方法实现简单,摘要构造性好,易于阅读,但不能突出表达网页内容主题思想,不利于用户判断搜索结果是否正确。在百度中搜索美利坚合众国二字的时候,结果页面显示如图1:在谷歌中搜索美利坚合众国的时候,结果列表中网页摘要和百度相似,都是采取的静态网页摘要。通过此法,用户很难知道网页的主题思想。本文的工作就是运用自动文摘技术生成网页摘要,让用户获取网页的主题思想,快速确定搜索结果是否准确。二、研究根底:一Nuth工作原理Nuth是一个开源代码、建立在Luene根底上的完好的eb搜索引擎系统,可以每个月抓取几十亿网页,并

3、为这些网页维护索引,对索引文件进展每天上千次的搜索2。图2为Nuth的工作流程图:总体上,Nuth工作分两个流程,爬虫ral和查询Searher。ral主要用于从网页上抓取网页并为这些网页建立索引。Searher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引。二自动文摘本文介绍一种称为自动摘录的自动文摘技术。自动摘录将文本视为句子的线性序列,将句子视为词的线性序列。它通常分为五步进展:1.将文本分句分词。2.计算词本文由论文联盟.Ll.搜集整理的权值;3.计算句子的权值;4.对原文中的所有句子按权值降序排列,权值最高的假设干句子被确定为文摘句;5.将所有文摘局按照它们

4、在原文中的出现顺序输出3。在自动摘录中,计算词权、句权、选择文摘句的根据是文本的5种形式特征:1.词频。衡量一个词的重要性莫过于该文本中该词出现的频率,词的频率越高,其权重相应也就越大。2.标题。标题和附属于该标题下的内容有严密的联络。3.位置。研究说明,文章中85%的重要语句存在于段首,而只有5%的重要语句存在于段末。故衡量一个句子的重要性,句子的位置不可忽略。4.句法构造。句法构造是指除陈述句外的疑问句、感慨句等都不宜出如今文摘中。5.指示性短语。指示性短语,包括关联词、过渡词、顺序词、类别词等。如:综上所述、因此、诚然、此外等相关词。三、基于Nuth的网页摘要方法介绍在上一节谈到的Nut

5、h的Searher局部,研究其查询返回结果局部,我们会看到如下源码:根据分析,搜索过程中会产生一个Hits类型的对象,此对象封装了命中结果集的相关属性。通过此结果集,我们可以获取命中网页去除标签后的文本内容。实现代码如下:其中suary就是一篇网页中的文本内容。接下来对此文本内容进展处理,运用上节提到的自动文摘生成技术,生成网页摘要。我们定义以下概念和公式:ij表示句子i,j共同出现的词语的个数,通过扫描文本的线性序列计算出来;1i表示句子i的非停用词的个数,即句子长度;siij表示句子i,j的相似度,Eighti表示句子的权重。下面介绍几个公式:句子相似度计算:(1)句子权重计算之前,这里我

6、们先进展归一化处理:2计算句子权重:3摘要生成算法如下:1.将网页解析后的文本内容进展句子切分,保存为句子的线性序列;2.将句子进展词语切分,保存有用词,去掉停用词,保存为词的线性序列;3.计算句子之间相似度,如公式1,2所示;4.计算句子的权重,并求句子的平均权重,如公式3所示;5.将句子权重大于平均权重的句子抽取出来,作为文章的主要内容。四、实验结果分析为了验证此方法的有效性,在本机环境下启动Nuth中ral模块,爬取了60的网页数据,约20000个EB页面。虽然量小,但这些数据足以证明此方法的有效性。我们照旧搜索美利坚合众国:网页摘要改良前效果如图3所示:网页摘要改良后效果如图4所示:比照上述结果,改良后的方案直接将网页主题思想显示出来。五、完毕语本文运用自动文摘技术生成搜索引擎的网页摘要,加快用户的检索速率,进步信息准确与否确实认效率。由

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论