(计算机科学与技术专业论文)搜索引擎返回结果的自动摘要研究.pdf_第1页
(计算机科学与技术专业论文)搜索引擎返回结果的自动摘要研究.pdf_第2页
(计算机科学与技术专业论文)搜索引擎返回结果的自动摘要研究.pdf_第3页
(计算机科学与技术专业论文)搜索引擎返回结果的自动摘要研究.pdf_第4页
(计算机科学与技术专业论文)搜索引擎返回结果的自动摘要研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类 搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查 询词的数目有限,因此仅通过用户输入的关键词并不能很好的体现用户的查询意图。另 外,搜索引擎将查询结果返回给用户时,往往将只包含用户查询请求的几个句子作为 w e b 页面的摘要返回给用户。虽然返回摘要的内容包含用户的查询关键词,但是这些句 子并不能表达出整个w e b 文档的中心意思。也就是说,用户通过阅读搜索引擎返回的 摘要并不能确定自己查找的信息是否包含在这个页面中。 针对上述问题,本文对搜索引擎返回结果的自动摘要进行了研究,在对用户查询关 键词扩展的基础上,提出一种适合用户查询的句子权重计算方法,通过有效地利用关键 词间的距离信息来提高摘要的准确率和覆盖率,方便用户查找自己所需要的信息。 基于伪相关反馈的思想,对用户的查询关键词进行扩展。根据用户的原始查询关键 词将文本中的句子分为主题相关句和非主题相关句,只选取主题相关句子中的名词或者 名词短语作为查询扩展的候选扩展词语。通过计算候选词与用户查询关键词之间的相关 权重来选择查询扩展的扩展词。从而使最终得到的查询关键词序列既体现w e b 页面的 主题,又满足和查询的相关性。 在计算句子的重要度时,考虑句子中包含的用户查询关键词之间的关系,基于“词 距离越近,关系越密切 的原则,在句子权重计算公式中有效地引入词的距离信息,提 高用户查询的准确效率。实验结果表明,使用融合词距离信息的句子权重计算方法可以 帮助用户更加有效地选择用户感兴趣的句子,使得生成的摘要既能准确的表达用户的查 询意图又能体现w e b 页面的中心思想,从而提高用户查询信息的效率,节省查找信息 的时间。 关键词:自动摘要,查询扩展,伪相关反馈,句子权重计算 r e s e a r c ho na u t o m a t i ca b s t r a c t i o nb a s e do ns e a r c he n g i n er e s u l t z h a n gw e n j i n g ( c o m p m e rs c i e n c ea n dt e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f e s s o rs u o h o n g g u a n g a b s t r a c t c u r r e n t l y , m o s ts e a r c he n g i n e sw e r eb a s e do nk e y w o r d sm a t c h i n gf o ri n f o r m a t i o n r e t r i e v a l b e c a u s et h en u m b e ro fq u e r yw o r d si n p u t t e db yt h eu s e r sw a sl i m i t e d ,s oi tw a sn o t w e l lr e f l e c tt h eu s e r s q u e r yi n t e n t i o n i na d d i t i o n ,w h e ns e a r c he n g i n e sr e t u r n e ds e a r c hr e s u l t s , w h i c hw e r ec a l l e ds n i p p e t st ot h ee n du s e r s ,t h ef i r s tf e wl i n e so faw e bd o c u m e n to rt h e s e n t e n c e sc o n t a i n i n gq u e r yk e y w o r d sw e r eb r i e f l ye x t r a c t e da sas u m m a r y t h i sm e t h o dw a s s i m p l ea n dt h es n i p p e t sw e r ea l m o s tt h eu s e r s m o s ti n t e r e s t e dc o n t e n t s h o w e v e r , t h e r e l i a b i l i t ya n da c c u r a c yo ft h es n i p p e t sw e r en o th i g h ;m e a n w h i l e ,i f j u s tg i v e nt h es n i p p e t so f t h es e a r c he n g i n e ,u s e r sc o u l dn o td i r e c t l yu n d e r s t a n dw h e t h e rt h ew e bd o c u m e n tw a si n d e e d r e l e v a n tw i t h o u ta c c e s s i n gi t a c c o r d i n gt ot h ea b o v ep r o b l e m s ,a u t o m a t i cs u m m a r i z a t i o no fw e bd o c u m e n tr e t u r n e d b yt h es e a r c he n g i n ew a sr e s e a r c h e di nt h i sp a p e r o nt h eb a s i so fu s e r s q u e r yk e y w o r d s e x p a n s i o n ,as e n t e n c ew e i g h tc a l c u l a t i o nm e t h o d ,w h i c hw a sr e l e v a n tf o rt h eu s e r s q u e r y , w a s p r o p o s e d t h r o u g ht h ee f f e c t i v eu s eo f t h ed i s t a n c ei n f o r m a t i o nb e t w e e nt h ek e y w o r d si no n e s e n t e n c e ,t h ea c c u r a c yo ft h es u m m a r i z a t i o nw a si m p r o v e da n di tw o u l db ec o n v e n i e n tf o rt h e u s e r st of i n dt h ei n f o r m a t i o nt h e yn e e d e d b a s e do nt h ei d e ao fp s e u d o - r e l e v a n c ef e e d b a c k , q u e r yk e y w o r d se x p a n s i o nw a s p r o p o s e d a c c o r d i n gt ot h eu s e r s o r i g i n a lq u e r yk e y w o r d s ,s e n t e n c e sw e r ed i v i d e di n t o t o p i c - r e l e v a n ts e n t e n c e sa n dt o p i c - i r r e l e v a n ts e n t e n c e s o n l yt h en o u na n dn o u np h r a s e c o n t a i n e di nt h et o p i c - r e l e v a n ts e n t e n c e sw e r es e l e c t e da sq u e r ye x p a n s i o nc a n d i d a t e sw o r d s t h ee x p a n d e dw o r d sw e r es e l e c t e db yc a l c u l a t i n gt h ec o r r e l a t i o nw e i g h tb e t w e e nt h eq u e r y e x p a n s i o nc a n d i d a t ew o r d sa n dt h eu s e r s q u e r yk e y w o r d s t h u s ,t h ee x p a n d e dw o r d sn o to n l y r e f l e c t e dt h et o p i co fw e bd o c u m e n t s ,b u ta l s om e tt h eq u e r yr e l e v a n c en e e d i nt h ec i r c u m s t a n c eo ft h es e n t e n c ei m p o r t a n c ec a l c u l a t i o n , t h er e l a t i o n s h i pb e t w e e nt h e q u e r yk e y w o r d sc o n t a i n e di n t h es e n t e n c ew a sc o n s i d e r e d o nt h e c o n s i d e r a t i o no ft h e p r i n c i p l e t h en e a r e ro f t h ew o r d s ,t h ec l o s e ro ft h ew o r dr e l a t i o n s h i p ”,t h ew e i g h tf o r m u l af o r c a l c u l a t i n gs e n t e n c ei m p o r t a n c ee f f e c t i v e l yi n t r o d u c e dt h ew o r d sd i s t a n c ei n f o r m a t i o nw h i c h w a sc a l c u l a t e db ys t a t i s t i c i n gt h en u m b e ro fw o r d sb e t w e e nt w on e i g h b o rq u e r yk e y w o r d s e x p e r i m e n t a lr e s u l t ss h o w e dt h ep r o m i s i n gr e s u l t so fo u rp r o p o s e dm e t h o d s k e yw o r d s :a u t o m a t i ca b s t r a c t i o n ,q u e r ye x p a n s i o n , p s e u d o r e l e v a n c ef e e d b a c k , s e m e n c cw e i g h tc a l c u l a t i o n 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名么碰 日期:口肋年岁月;秒日 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印 刷版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机 构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、 借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、 缩印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名:猛盘叠 指导教师签名:宴擎互址 日期:2 驴肜年r 月乡口日 日期:珈f o 年r 月弓d 日 中国石油大学( 华东) 硕上学位论文 第一章绪论 进入2 l 世纪以来,计算机网络得到了空前发展,网络上拥有的信息也急剧膨胀。 如何从急剧膨胀的互联网信息中快速、准确的获得自己需要的信息,已成为人们日益关 注的问题。由于互联网上绝大部分信息是以文本的形式存在的,从而极大地推动了自然 语言处理技术的发展。 1 1 课题的背景和意义 2 0 世纪9 0 年代末,i n t e m e t 在世界范围内得到了迅猛发展。显然,网络已成为现代人 获取信息的主要来源。由于信息量的迅猛增长,使得人们从网络上快捷、方便地找到自 己真正需要的信息变得更加困难。搜索引擎系统为用户在互联网上提供信息检索服务, 它以一定的搜寻策略在互联网中搜索信息,并对信息进行理解、提取、组织和处理,最 后将查找的结果返回给用户,起到信息导航的目的。 目前应用最为广泛的搜索引擎系统是基于用户关键词查询的搜索引擎系统。在使用 这类搜索系统进行信息查找时,它只是利用词的表层信息去匹配,并没有涉及到用户查 询关键词的语义信息。往往由于存在大量的同义词和多义词,从而导致搜索引擎系统的 查全率较低,给准确的信息检索带来不便。例如在百度上查找“西红柿的原产地是哪 里? ”,返回的页面中只是匹配有关“西红柿或是原产地 的信息,而对于“番茄 的信息并不进行匹配。同时研究人员发现用户在搜索过程中对近义词并不了解,并且对 于将原始查询词语中的词语进行词义挖掘,从而获得新的查询词语的途径并不是特别熟 悉,例如用户将查询词“土豆转基因技术力改为“马铃薯转基因技术 重新检索的比 例只有3 0 左右,因而就需要搜索引擎为用户提供更多的相关信息【l j 。另外,使用这类 搜索引擎系统向用户提交查询结果时,它只是简单地截取文档的前几行或者将包含用户 查询关键词的几个语句抽取出来作为文章的摘要返回给用户。这种方法比较简单也容易 实现,并且显示的结果也多是用户感兴趣的内容,但是摘要内容的可靠性和准确性不高, 用户无法根据搜索引擎系统返回的摘要来判断某个搜索结果是否真正包含自己所需要 的信息。 对搜索引擎检索行为的调查发现i l 】:用户在搜索引擎的返回结果中没有找到自己需 要的信息时,往往对检索行为做出调整。大约3 7 2 的人浏览部分搜索结果并获取相关 信息,然后重新搜索;大约有2 6 1 的人则利用上次查询词语的同义词或者相关词进行 搜索,因此可以看出用户往往将搜索的过程看作一个学习改进的过程,他们通常根据网 第一章绪论 页的摘要或网页的内容获取一定的信息并改进搜索关键词。如果搜索引擎的返回结果中 包含了用户查询关键词的同义词或多义词的相关网页信息,比较精准的返回用户需求的 搜索内容,同时,搜索引擎提供的网页摘要信息能够帮助用户获得更多的网页内容信息, 则帮助用户改进了搜索的过程,节省了用户的查询时间,提高了用户对搜索引擎的信任 度。 自动文摘技术以将信息全面、简洁的呈现给用户,提供给用户真正需要的信息,提 高用户获取信息的效率为目标,正好可以解决单独利用搜索引擎系统不能提供给用户简 洁、直接的答案的问题,弥补使用搜索引擎系统获取信息的不足。通过对搜索引擎系统 返回结果的自动摘要进行研究,将为用户使用搜索引擎系统查找信息提供更多便利,提 高用户获取信息的效率。 针对上述问题,本文对搜索引擎返回结果的自动摘要进行了研究。在对用户查询关 键词扩展的基础上,提出一种适合用户查询的句子权重计算方法。在生成摘要的过程中, 通过加入查询扩展模块和有效地利用句子中包含的用户查询关键词间的距离信息来提 高摘要的覆盖率和准确率,方便用户查找自己所需要的信息。 1 2 国内外研究现状 1 2 1 自动文摘 近年来,自动文摘技术越来越引起人们的关注。计算机软硬件性能的飞速提高也为 自动文摘技术提供了良好的研究环境,一些学者纷纷开始从各个方面展开研究,提出了 实现自动文摘系统的新的思路和方法。目前国内在中文自动文摘方面做的比较好的有哈 尔滨工业大学、中科院自动化研究所、上海交通大学等。同时一些国际性软件公司也在 开发中文自动文摘系统,比如i b m 中国研究中心、微软亚洲研究院、摩托罗拉中国研究 中心等。 自动文摘按照面向的用户不同可划分为通用型文摘和偏重型文摘。通用型文摘面向 多数用户,对文章内容进行概括和总结;而偏重型文摘则是侧重于用户的兴趣,它根据 用户的需要或者是用户输入的查询请求来生成有侧重点的摘要内容。随着信息个性化的 发展以及用户需求的不断增加,通用型文摘已经越来越不能满足用户的查询需求,生成 满足用户个性化需求的摘要已经成为文本处理领域所面临的主要问题。为此,研究人员 对面向用户查询的自动文摘进行了大量的研究。 林鸿飞【2 】提出一种基于段落匹配和分布密度的偏重文本摘要实现机制。该方法首先 利用同义词词典对用户的查询关键词进行扩展;然后利用基于侧面相似度的段落匹配方 2 中国石油大学( 华东) 硕上学位论文 法,把和用户查询相关的段落集合找出来:最后通过计算文本窗口的分布密度函数,找 到用户查询关键词在段落中的密集区域,选择密集区域的句子作为候选文摘句。实验结 果表明,该方法对于生成多主题文本的偏重摘要更为有效。 f e i g u i n a l 3 1 提出一种根据消费者的评论来生成偏重摘要的实现机制。他指出在一些购 物网站上,消费者对某一产品的评论越来越受到关注。因此,文中指出可以对消费者关 于某一种产品的评论进行总结处理,生成该产品的特性说明。 f e n gj i n 等人 4 1 实现了一个基于问答的查询型文摘系统。当用户输入要查询的问题 时,系统返回一个此问题相关的摘要。这个文摘系统主要有以下几个模块组成:问题分 析模块、查询重构模块、基于句子评分的潜在语义索引模块、句子倾向性检测模块和冗 余去除模块。该系统在n i s t 提供的标准数据集上进行了测试,实验结果表明系统可以取 得良好的效果。 1 2 2 查询扩展 最近几年在查询扩展领域已经开展了许多的研究工作。由于自然语言存在的歧义性 和利用一个词语来表示信息概念的困难性,所以才使得查询扩展成为必须的工作。利用 查询扩展,用户可以重新组合查询关键词来获取更好的检索结果。查询扩展的主要目的 就是将有意义的扩展词语加入到原先的查询序列中,选择新的扩展词语的方法可以是手 工选择,自动选择和用户协助选择。例如,大多数搜索引擎都提供了交互式查询扩展功 能,交互式查询扩展是指在用户检索过程中提供具有建议性的相关性词语来帮助用户提 高检索效果,主要有:大多数搜索引擎在检索结果页的下部提供的“相关搜索 功能; 用户在输入关键词的时候搜索引擎给出的相关检索的列表功能:用户在检索学术类文章 过程中,第一次检索之后对学者的分类显示:用户在使用数字图书馆的过程中,对于文 章的分类提示和对于查询关键词的扩展等。研究发现交互式查询扩展功能提高了用户检 索过程中的成功率。 。基于语料统计的查询扩展 2 0 世纪六七十年代,许多研究者对基于词语聚类的查询扩展方法进行了研究。通过 聚类算法将属于同一个类别的文章聚类到一个簇中,通常情况下假设属于同一个簇的文 章都是关于同一个主题的。基于这一假设,如果一个查询关键词能够映射到一个簇中, 那么这个簇中的关键词就可以作为查询扩展的候选词语,但是由于对于不同类型和数目 的文章进行聚类,聚类的效果不是特别好,因此这种方法的应用受到了限制【5 】。 基于词语共现的查询扩展,词语共现是指两个或者多个词语在一篇文章中处在相邻 3 第一章绪论 的位置上。很多研究者发现,单纯利用词语共现模型来进行查询扩展并不能带来很好的 效果。于是s c h a t z l 6 】采取了利用词典和词语共现列表结合的方法,词典是人工基于本领 域的知识库构建的,而词语共现列表是基于统计的方法实现的,词语共现列表按照词语 的共现频率排列,这种方法取得了较好的效果。并且有研究者提出,利用多种查询扩展 技术结合比利用单个查询扩展技术能取得更好的效果。 b h o g a l 7 j 指出基于语料的查询扩展方法比较适合于固定文本集合的文档。对于w - e b 页面而言,知识模型需要不断的更新来适应w e b 不停变化的特性,而且仅当存在足够 的相关文档并且这些文档中包含相当数量的跟查询相关的词语时,这种方法才比较有 效。 基于本体的查询扩展 本体是用来描述某个领域甚至更大范围内的概念以及概念之间的关系,基于 w o r d n e t 和特定领域本体库的查询扩展方法近年来被提出并取得了一定的成果。基于本 体的查询扩展方法成功应用的决定因素有:领域知识模型的质量、用户对于领域知识的 熟悉度、知识模型的适航性等。l i x i nh a n 8 】提出一种基于本体的协同过滤方法来判断行 为习惯相似的用户,同时利用r b f 神经网络来训练行为习惯相似用户的检索词语和检 索文档之间的关系。 个性化查询扩展 结合用户日志,h a n gc u i 【9 】提出一种基于用户查询日志的查询扩展模型。该方法认 为一个文档内的词语丁和查询词语具有相关性,则查询中的每个词语与包含这个文档内 的词语丁的文章在用户日志中以较高的频率存在,并且利用条件概率连接这两者之间的 关系,用贝叶斯公式来选择查询扩展词。受到文献【9 】的启发,c h i d t a t l o 】等人提出一种利 用个人历史信息的个性化查询扩展方法,个人历史信息包含用户收集的文章、电子邮件、 网页缓存等。实验结果表明,这种方法的效果比传统方法提高了8 4 7 。随后,b i a n c f l a n a 【l l 】提出一种基于关系矩阵的查询扩展方法构建个性化w e b 搜索。 有关文献对影响查询扩展的因素进行了研究。研究发现,相关反馈文档的数量和查 询扩展词的数量对扩展效果有影响。为了验证这个问题,一些学者进行了相关的研究。 b e nh e l l 2 】对首次检索质量和话题偏移问题进行了研究,指出第一次检索反馈的文档的相 关性对于查询扩展的质量影响不大。对于查询扩展词语在相关性文档中的分布研究发 现:查询扩展的效果会随着相关文档跟查询主题的相似度而变化,并指出通过在包含查 询词语比较多的段落中分析待扩展词语和查询关键词共同出现的频率,可以更好的选择 4 中国石油大学( 华东) 硕士学位论文 查询扩展词。而z i g h e l n i c 1 3 】贝0 对防止查询偏移,构建鲁棒的查询扩展机制进行了研究。 他指出将查询关键词和扩展词语融合比没有采用查询扩展的方法取得更好的效果,并且 比单纯采用查询扩展方法具有更好的健壮性。 1 2 3 句子重要度计算 目前大部分自动文摘方法都是基于抽取型的自动文摘,通过抽取文章中的句子、段 落、语义段落来组成文摘。但是在抽取型自动文摘的研究中,基本上都是把句子作为抽 取的基本单元,这主要是因为句子作为文章处理单元,往往具有完整的语义信息,一个 句子基本上可以提供比较清晰的、可用的信息。另外,将句子作为文摘的基本单元也比 较符合读写习惯。基于句子抽取的自动文摘可以分成三个步骤:( 1 ) 根据自动文摘的需 求,按照句子中包含的信息量来计算句子的重要度:( 2 ) 去除冗余信息,以增强句子的 可读性;( 3 ) 将抽取的句子组织成最后的文摘。作为处理的第一步,句子的重要度计算 具有重要作用。 面向查询自动文摘句子重要度计算 在基于查询的自动文摘中,查询条件提供了摘要的需求,因此具有重要的信息。蒋 效宇【1 4 】等人提出一种面向用户查询的自动文摘方法,该方法在计算句子重要度时将基于 查询条件的句子权重计算融入其中,实验结果表明该方法生成的文摘能有效的帮助用户 快速、准确的找到要查询的信息。 t o m b f o s 【1 5 】指出对偏向用户查询的文摘的要求除了和常规摘要一样外,更重要的是 要体现出用户的查询请求。因此利用抽取的方法生成摘要时应该将用户的查询关键词考 虑进去。在计算句子的重要度时,除了考虑句子在文章中的位置、文章的标题信息以及 包含关键词权重以外,还需要加入查询权重。他指出句子中包含用户查询关键词的数目 越多,句子的权值越高,从而越能体现用户的查找意图。 p e m b e 等人1 1 6 】提出一种用于w e b 信息检索的自动文摘方法,该方法在计算句子权 重时充分考虑了w e b 页面的结构特征和用户的查询条件。实验结果表明,这种方法对 提高搜索引擎返回结果的摘要有重要意义。r y e nw h i t e 17 】实现了一个基于用户查询的 w e b 页面自动文摘系统w e b d o c s u r n 和评价系统。与传统的方法相比,通过w e b d o c s u m 系统生成的摘要对用户查找信息有很大的帮助。用户只需通过阅读摘要,而无需查看 w e b 页面的全文就可以辨别出与查找内容相关的文档。 通用型自动文摘句子重要度计算 在通用型自动文摘中,自动文摘的产生是基于文章的主题形成的,而文摘的主题可 5 第一章绪论 以通过统计文章中的关键词分析。通用型自动文摘中的句子重要度可以通过句子特征加 权、机器学习等方法获得。 有研究者提出一种基于特征加权的句子重要度计算方法,首先对文章进行层次聚 类,然后根据词语的概率分布是否跟文章的聚类层次相关,对词语赋予一定的权值,句 子的重要度是根据句子中包含的所有词语的权值确定,最后通过“h a r m i n gw i n d o w f u n c t i o n 对于句子的重要度进行调整。 近年来基于机器学习的方法在自动文摘领域得到了广泛应用,一些研究人员对采用 机器学习的方法来计算句子的重要度进行了研究。2 0 0 8 年,m e t z l e r 1 8 1 提出一种用机器 学习的方法来选择文摘句。该方法首先根据用户的查询关键词将文章中包含用户查询关 键词的句子和段落标记出来;然后,通过机器学习的方法来抽取句子,生成文章的摘要。 随后,f u r uw e i 等人【1 9 1 提出一种半监督的句子排序方法,这种半监督算法是在融合了 “c o m b i n e t h e n r a i l k 和“r a n k t h e n c o m b i n e 一方法的基础上,提出的一种 “r a n k t h e n c o m b i n e 方法。由于这种方法结合了“c o m b i n e - t h e n - r a n k 和 “r a n k - t h e n c o m b i n e 两种方法的优点,因而取得了比较好的效果。w | e iw a n g 2 0 j 等j k 提出利用聚类技术构建基于句子的超图,超图中集成了多个句子之间的组关系和两个句 子之间的对关系。在超图构建完成之后,利用半监督的句子排序算法对句子进行排序, 查询关键词通过构建的超图结构来传递参数并最终形成每个句子的重要度。 另外,一些研究人员根据文章的结构信息、句子和词语之间的关系等方面对句子重 要度计算进行了研究。王志琪【2 1 1 采用一种基于互增强关系的迭代算法模拟句子和词语之 间的循环加权关系。研究发现对句子加权和对句子中的词语加权存在循环依赖关系并利 用迭代算法计算句子的权重,实验结果表明基于互增强关系的迭代算法收敛速度快。而 y ;e h l 2 2 1 等人则对文章的结构进行分析,提出构建句子网络模型。通过计算网络句子节点 的度数和句子节点的重要度来衡量句子的重要度,并且通过迭代传递来调整句子的权 值。y a n g 2 3 1 通过建立文章的层次结构来构建句子之间的关系模型。在计算句子的重要度 时,充分考虑了人工文摘员在做文摘时候考虑的主题特性、文本的位置特性、首尾特性、 标志性线索特性,按照这四个特性对句子的重要度进行计算并抽取句子。 1 3 课题研究目标及研究内容 对用户的原始查询关键词进行扩展,使最终得到的用户查询关键词序列一方面能更 加准确的表达用户的查询意图;另一方面还能反映w e b 页面的主题,提高用户查询的 准确性。在对用户查询关键词扩展的基础上,通过对基于用户查询的自动文摘句子重要 6 中国石油大学( 华东) 硕士学位论文 度计算方法进行分析,提出一种适合用户查询的句子权重计算方法,使选入文摘的句子 能更加准确、全面的表达用户的兴趣。 根据一定的结果评测方法,对提出的新方法进行验证,给出结果分析。将查询扩展 的模块加入到自动文摘系统中,增强文摘的覆盖率,提高文摘质量。 本文的研究工作主要集中在以下两个方面: 1 用户查询关键词扩展 为了提高信息的查准率,本文使用基于伪相关反馈的方法对用户的查询关键词进行 扩展。在查询关键词扩展阶段,充分利用了句子和查询关键词之间的关系来选取扩展词, 即在主题相关的句子中选取查询扩展的候选词。通过计算候选词与用户查询之间的相关 权重来选择候选词,从而使得最终得到的查询关键词序列既体现w e b 页面的中心思想, 又满足与查询的相关性。 2 句子重要度计算 在计算句子重要度时,考虑句子中查询关键词之间的关系。基于“词距离越近,关 系越密切 的原则,在句子权重计算公式中有效地引入词的距离信息,提高用户查询的 准确率。最终综合考虑每个句子中包含查询关键词的个数、句子所在的位置、句子中包 含关键词的权重以及句中查询关键词间的距离信息等因素,计算得到句子的综合权重。 1 4 研究成果 以下是本文采取的技术路线框架图: 图1 - 1 摘要生成的框架图 f i g l - i t h ep r o c e s so fa b s t r a c tg e n e r a t i o n 第一步是采集实验文本数据。实验中所用到的文本数据主要是通过在百度、g o o g l e 、 7 第一章绪论 y a h o o 等搜索引擎接口上输入一些关键词组合以后抓取的一些w e b 页面。可以采集具有 相同主题的一组新闻或者是不同主题的其他类别的文本,然后根据一定的原则来选取指 定数目的w e b 页面。在利用搜索引擎进行信息查找时,与用户的查找意图越相近的页 面往往被显示在返回文档列表的前面。因此本文选取文档返回列表中的前2 0 个文档作 为实验的文本集。 1 预处理 采集到相应的实验文本数据后,对文本集进行预处理。首先,抽取w e b 页面中的 文本块,本文根据w e b 页面中正文的长度要超过任何其他文字组合的长度这一特点对 w e b 页面中的文本块进行抽取;抽取出w e b 页面的正文以后对文本中的句子进行分词, 本文使用的分词软件是中国科学院计算技术研究所研制的分词标注系统。利用现有的停 用词词表作为过滤词典,去除那些对文章主题贡献不大的词语。 2 用户的查询关键词扩展 在分析了当前面向查询的摘要系统中查询扩展方法优缺点的基础上,本文利用伪相 关反馈技术对用户的查询关键词进行扩展。使用该方法对用户的查询关键词进行扩展 后,将扩展后的关键词集合应用到文摘生成系统中,使得最终生成的摘要与w e b 页面 的主题相关度比使用同义词词典对用户的查询扩展词扩展后生成的摘要与w e b 页面的 主题相关度提高了1 2 。 3 句子重要度计算 在自动文摘研究领域,句子重要度是衡量句子重要性的一个标准。本文在计算句子 重要度时,主要考虑以下几个方面: ( 1 ) 句子中包含用户查询关键词的个数。句子中包含用户查询关键词的个数越多,与用 户查询的信息越相近,句子的权重也越大。用户查询关键词是指包含用户的原始查 询关键词在内的利用伪相关反馈方法扩展的所有关键词。 ( 2 ) 句子在文本中的位置。一般情况下,位于标题、副标题、段首和段末中的句子对文 本主题的贡献度较大,因此赋予较高的权重。 ( 3 ) 句子中查询关键词间的距离。句子中包含多个查询关键词时,关键词之间的距离越 近,说明它与用户查询的信息越相似,因此句子的权重也越大。 ( 4 ) 句子中包含关键词的权重。句子中关键词的权重之和越大则说明句子越重要,为了 消除句子长度的影响,将关键词权重之和除以句子中关键词总数得到句子的平均权 重。 8 中国石油大学( 华东) 硕士学位论文 本文在计算句子重要度时,重点考虑了句子中包含扩展后的查询关键词个数和用户 的查询关键词在句子中的距离,即用户关键词在句子中的密度对句子重要度的影响。 4 自动摘要的生成 在文摘句选取阶段,将句子按照权重从大到小进行排序,根据文摘要求的比例,选 取权重最大句子输出。为了减少文摘的冗余和不完整性,采用了基于m m r 的句子抽取 算法来生成摘要,使最终生成的摘要能全面的体现w e b 页面的中心内容和更好的满足 用户的查询需求。 1 5 论文结构 本文共分为五章,各章的内容如下: 第一章:绪论,介绍了课题研究的背景和意义、研究的目标、内容与成果,并对自 动文摘技术、查询扩展技术以及句子重要度计算方法的国内外的研究现状做了详细的介 绍。 第二章:面向用户查询的中文w e b 页面自动摘要相关技术介绍,主要介绍了中文w e b 页面中正文抽取技术、查询扩展技术及文本主题句提取技术。 第三章:基于伪相关反馈的查询关键词扩展,分析了现有的查询关键词扩展方法的 优缺点,基于伪相关反馈的思想,提出一种新的查询关键词扩展方法。通过该方法对用 户的查询关键词进行扩展,使得最终得到的查询关键词序列既体现w e b 页面的主题,又 满足和查询的相关性,然后将查询扩展模块加入到自动摘要的生成系统中,提高了基于 查询的自动文摘的准确率。 第四章:搜索引擎返回结果的自动摘要生成与评价,本文在分析相关工作的基础上, 提出一种适合用户查询的句子权重计算方法并采用基于m m r 的句子抽取方法来生成摘 要,从而使得最终生成的摘要既能满足用户的查询要求又能体现w e b 页面的中心思想, 同时还保证了摘要的完整性,减少了摘要中的冗余信息。 第五章:结论,本章主要对所做的工作进行了总结并对未来的研究工作进行了展望。 9 第二章面向用户查询的中文w e b 页面自动摘要相关技术介绍 第二章面向用户查询的中文w e b 页面自动摘要相关技术介绍 随着互联网的普及,人们获取信息的方式也越来越多。为了方便用户快速、准确地 获取自己想要的信息,网络搜索引擎的使用也越来越普及。在利用搜索引擎系统对w e b 网页进行检索时,用户的查询关键词和返回结果中w e b 页面的摘要都是对文档内容的 简要概括,对w e b 文档的标题、主题类别起着补充作用。通过阅读搜索引擎返回结果 中w e b 页面的摘要而不是全文能极大地加快信息过滤速度,帮助用户更快地找到要查 找的信息。因此搜索引擎返回结果中w | e b 页面的摘要质量至关重要。 基于关键词匹配的搜索引擎系统在向用户提交搜索结果时,它只是简单地截取文档 的前几行或者将包含用户查询请求的几个语句抽取出来作为w e b 页面的摘要返回给用 户。很多情况下,返回给用户的摘要内容并不能表达w e b 页面的主题,从而用户也无 法根据返回摘要的内容来判断某个搜索结果是否是自己所需要的网页。从用户的角度出 发,用户希望在使用搜索引擎查询自己需要的信息时,搜索出相关的文档后,文档的摘 要一方面能体现用户的查找意图,另一方面又能反映页面的中心内容。这样用户在使用 搜索引擎进行信息查询时,就可以既方便又快速的找到自己想要查找的结果。这样就大 大提高了用户查找信息的效率,缩短了查找信息所用的时间。可见,w e b 文档的自动 摘要在搜索引擎系统中具有非常重要的地位。 2 1 中文w e b 网页正文抽取 与普通的文本文档相比,w e b 页面是用h t m l 标记表示的一种半结构化数据。网 页中除了文本信息以外还插入大量的非文本信息,比如:文字或图片导航信息、图片、 广告条、动画、交互表单及一些附加信息等。w e b 页面清洗的目标是根据不同应用的需 求,将不需要的部分去除,将需要的部分从页面中抽取出来。在对搜索引擎的返回结果 做摘要时,主要关注w e b 页面中文本块的信息,因此本文清洗w e b 页面的主要目标是 抽取w | e b 页面中的文本块。 2 1 1 基于网页结构特征分析的正文抽取技术 使用基于网页结构特征分析的正文抽取技术抽取w e b 页面中正文信息时,首先根 据w e b 页面的结构布局来产生抽取规则,抽取规则可以手工编写也可以自动生成;然 后使用写好的抽取规则来抽取网页中的文本数据。由于抽取规则是根据页面的布局来编 写的,因此一种抽取规则一般只能抽取一个网站或者一类网站上的文本信息。在使用这 种方法对网页文本信息进行抽取时,由于网页结构的复杂性及不规范性,针对某类网站 i o 中国石油大学( 华东) 硕士学位论文 编写的抽取规则对其他结构布局不同的网站上的页面信息抽取可能并不适用。如果待抽 取的信息是来自页面结构不同的各类网站,那就需要针对不同的页面布局生成不同的抽 取规则。这样抽取规则的生成和维护就成了一件非常复杂的工作。 为了能对网络上大量各类网页的正文信息进行抽取,需要生成一个比较普遍适用的 抽取规则。针对这个问题,m a r l i n 2 4 】实现了一种信息抽取系统。这个系统的特点在于: 它能迅速生成针对不同内容,不同结构信息的信息抽取规则。该系统利用h t m l 语言 半结构化的特点对网页结构进行分析,将用户自定义的查询语言作为启发式规则实现信 息抽取。 2 1 2 基于统计的网页正文抽取技术 基于统计的正文抽取方法与基于网页结构特征分析的文本信息抽取技术相比,该方 法克服了需要针对不同结构类型的网页构造不同抽取规则的缺点,具有一定的普适性。 但利用这种方法对网页正文信息抽取时过分的依赖阈值p 和丁。阈值p 对是否选择 中的文本块起着决定性的作用。对于每一个 结点,如果它的内容是不包含 任何h t m l 标记的字符串并且字符串中的中文字符的数量大于预先设定的阈值尸,则 该 结点作为候选结点。阈值r 的设定是为了处理嵌套的 节点,如果一个结 点不是前面任意一个结点的后代结点或者它是前面某个结点的后代结点并且所包含的 信息量在该结点所含的信息量中占有的比例大于r ,那么这个结点就是要选择的结点。 阈值p 决定了选择网页中哪些文本块,如果p 值过大,就会使得正文文本块的漏选; 如果p 值过小,抽取结果就可能存在噪声。实验结果表明,该方法对正文内容较少或者 包含 单元较多的网页抽取的效果不是很好。文献 2 5 1 q a 采用了这种技术。另外, 也有文献采用基于d o m 树的形式表示网页,并利用基于统计的方法实现正文内容抽取。 2 1 3 基于启发式规则的网页正文抽取技术 基于启发式规则的正文抽取方法可以针对特定类型的网页定义一类启发式规则。该 方法以一组启发式规则为基础,利用信息检索的技术以及w e b 网页的特征,提取网页 的主题以及和主题相关的内容,从而达到网页净化的目的。但它必须对网页采用一种人 为的启发式规则来进行分类,仅对一些明显的主题型页面产生一定的清洗效果,缺少一 定的适应性,不能自动的清洗其他类型的页面,而且对于广告图片的净化也没有很好的 效果。 第二章面向用户查询的中文w e b 页面自动摘要相关技术介绍 2 1 4 基于数据挖掘的网页正文抽取技术 基于数据挖掘的网页正文抽取技术是把数据挖掘技术中的文本分类、文本聚类和决 策树等技术应用到对网页正文抽取的过程中,大大提高了对网页正文抽取的准确率。为 了克服传统网页正文抽取方法中需要根据网页的结构来构建结构树的缺点,蒲宇达r 6 等人提出了一种基于数据挖掘思想,从中文新闻类网页中抽取网页正文的方法。该方法 突破了网页结构树形化的束缚,利用网页自身的特点和文本分类思想对文本块过滤,最 后利用段落聚类得到网页的正文。实验结果表明,使用该方法对中文新闻类网页中正文 抽取,抽取的准确率可以达到9 9 以上。 2 2 查询扩展 利用基于关键词匹配的查询系统进行信息查找时,用户的需求是通过用户输入的查 询关键词来表示的。通常,用户输入的查询关键词往往仅含有一个或者几个跟用户需求 主题相关的词语。由于提交的查询词语不是很规范并且语义不完整,从而使得用户的实 际需求与查询关键词之间存在较大语义差距。如何缩小两者之间的差距是实现面向用户 个性化信息查询服务的关键。 查询扩展技术是指把与原始查询序列中相关的词语或者语义相关联的概念添加到 用户的原始查询序列中,构成新的用户查询序列。通过对用户的查询关键词进行扩展, 缩小用户的实际需求与查询关键词之间的语义差距,弥补用户查询信息表达不足的缺 陷,从而提高信息检索的效率。为了消除用户查询意图与检索结果之间的语义偏差和查 询词的歧义问题,一些学者对查询扩展进行了深入的研究并根据不同的领域提出不同的 查询扩展模型。 2 2 1 基于词典资源的查询扩展 基于词典资源的查询扩展,利用“同义词词林 、w o r d n c t ( 针对英文单词) 、h o w n e t 等语料资源作为查询扩展的资源。“同义词词林 是一个人工生成的中文语料资源库, 包含了大部分中文词语的同义词信息。w o r d n e t 也是一种人工生成的资源,它提供了英 文单词之间的复杂关系,包括同义词、反义词、修饰词等词语间的相关关系。h o w n e t 是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念和概念之间以及概念 所具有的属性之间的关系为基本内容的语料库。 基于词典资源的查询扩展方法通过将待扩展的查询词语作为输入,从语料库中查询 到该词语的同义词、相关词语和词语概念等信息,并将这些词语作为查询关键词语的扩 1 2 中国石油大学( 华东) 硕士学位论文 展词语。由于中文词语的意项多,往往一个词语含有多种不同的语义,同时一个词语有 时候具有不同的词性。使用这种方法导致的一个问题是扩展出来的关键词太宽泛,有些 词语并不是待扩展词语真正意义上的同义词,从而引入大量噪声。而且大多数基于词典 资源的扩展独

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论