(计算机应用技术专业论文)基于概念的中文文本检索研究.pdf_第1页
(计算机应用技术专业论文)基于概念的中文文本检索研究.pdf_第2页
(计算机应用技术专业论文)基于概念的中文文本检索研究.pdf_第3页
(计算机应用技术专业论文)基于概念的中文文本检索研究.pdf_第4页
(计算机应用技术专业论文)基于概念的中文文本检索研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于概念的中文文本检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文中文摘要 摘要 中文文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是采用 关键词的检索方法,其核心是关键字符的机械式匹配,存在的问题之一就是召回 率低,导致检索系统的整体性能低。概念检索通过基于语义的自然语言处理来析 取各种概念信息,并由此形成一个知识库,然后,根据对用户提问的理解来检索 知识库中相关的信息以提供直接的回答,有效地弥补了关键词检索存在的缺陷。 本文就中文文本检索中文本的重构、查询的扩展进行了研究。主要研究工作 如下: 1 提出了基于文本关键词同义合并的词条权重计算方法,构建了基于概念语 义同义扩展的文本检索模型。t f i d f 是现有典型的文本词条权重计算方法,其存 在的主要问题有:1 ) 没有考虑语义同义关系;2 ) 文本词条没有固定权重;3 ) 支 撑主题的核心词易被赋予较低权重。基于文本关键词同义合并的词条权重计算方 法,有效解决了上述三个问题,并借助该方法,构建了基于概念语义同义扩展的 检索模型。实验表明,该模型较关键词检索模型在精确率小幅度下滑的同时,召 回率得到较大提高,综合性能得到了改善。 2 构建了基于概念语义同义扩展检索模型与关键词检索模型结合的检索模 型。精确率和召回率是检索系统性能评价的两个重要指标,针对基于概念语义同 义扩展的文本检索模型较关键词检索模型精确率低的现象,采取了相应的补救措 施:将其与关键词模型结合检索,旨在通过调整两者不同的结合参数,找到一个 更优的模型。理论分析与实验表明,该结合模型中的比例参数调整适当,能平衡 检索系统的准确率与召回率,获得更好的检索效果。 3 提出了检索概念权重计算的两种方法和一种基于检索概念扩展的文本概念 权重计算方法,构建了基于概念树扩展的两个检索模型。分析了概念在语义层次 上的扩展,将概念树中的父子概念关系用词语的相似度进行量化,检索概念采用 两种权重计算方法;并将这两种方法用于两个对应的检索模型,基于检索概念的 文本概念权重计算方法将用于其中的一个模型。实验显示,这两个检索模型的精 确率与关键词检索模型保持基本一致,召回率却得到较大提高。 关键词:自然语言处理,文本检索,检索模型,概念扩展,权重计算 重庆大学硕士学位论文 英文摘要 a b s t r a c t c h i n e s et e x tr e t r i e v a li sa ni m p o r t a n tf i e l do fi n f o r m a t i o nr e t r i e v a l ,c u r r e n t l y , r e t r i e v a lt e c h n i q u eb yk e y w o r d si sa p p l i e dt oa l m o s ta l lt h es e a r c he n g i n e s a n dt h e i r p r i n c i p l ei sm e c h a n i c a lm a t c ho f k e y w o r d s o n eo f t h ep r o b l e m si st h a tt h el o wr e c a l lr a t ew o u l di n f l u e n c et h ep e r f o r m a n c eo f t h er e t r i e v a ls y s t e m c o n c e p tr e t r i e v a ls y s t e mc a ns o l v et h i sp r o b l e mu s i n gt h e f o l l o w i n gp r i n c i p l e :c o n s t r u c t i n gak n o w l e d g eb a s eb yc o n c e p t u a li n f o r m a t i o n e x t r a c t e dt h r o u g hn a t u r a ll a n g u a g ep r o c e s s i n gt e c h n i q u e s ,a n dt h e np r o v i d i n ga d i r e c ta n $ w e rt ot h eu s e r s q u e s t i o n sb ys e a r c h i n gt h er e l e v a n ti n f o r m a t i o ni nt h e k n o w l e d g eb a s e i nt h i sp a p e r , t e x tr e c o n s t r u c t i o na n dq u e r ye x p a n s i o ni nc h i n e s et e x tr e t r i e v a l a r es t u d i e d t h em a i nr e s e a r c hw o r ki sl i s t e da sf o l l o w s : 1 am e t h o d ,n a m e da st k s m ( t e x tk e y w o r d ss y n o n y m ym e r g e r ) ,f o rt e r m s w e i g h tc o m p u t a t i o nb a s e do nt e x tk e y w o r d ss y n o n y m o u sm e r g e ri sp r o p o s e da n da m o d e l ,n a m e da sc s s e r m ( c o n c e p ts e m a n t i cs y n o n y m ye x p a n s i o n r e t r i e v a lm o d e l ) , o ft e x tr e t r i e v a lb a s e do nc o n c e p ts e m a n t i cs y n o n y m o u se x p a n s i o ni sc o n s t r u c t e d t h em a i np r o b l e m so ft f - i d fw h i c hi st h et y p i c a le x i s t i n gm e t h o do ft e x tt e r m s w e i g h tc o m p u t a t i o n :1 ) t h es e m a n t i cs y n o n y m o u si sn o tc o n s i d e r e d 2 ) t e x tt e r m s h a v en of i x e dw e i g h t 3 1t h ec o r ew o r d s w h i c hs u p p o r tt e x tt h e m ee a s i l yg i v el o w e r w e i g h t t k s mp r o v i d e sa ne f f e c t i v ew a y t os o l v et h ea b o v et h r e ep r o b l e m s o nt h e b a s eo f t k s m ,t h er e t r i e v a lm o d e lc s s e r mi sc o n s h u e t e d e x p e r i m e n t ss h o wt h a tc s s e r mh a sal i t t l el o w e rp r e c i s i o nt h a nk e y w o r d s r e t r i e v a lm o d e l ( k r m ) ,b u th i g h e rr e c a l lr a t e t h et r a d e o f f p e r f o r m a n c eo f c s s e r m i sb e r e r 2 ac o m b i n a t i v er e t r i e v a lm o d e l ( c 砌v oc o m b i n i n gk r ma n dc s s e r mi s p r e s e n t e d p r e c i s i o na n dr e c a l lo fr e t r i e v a ls y s t e ma r et h et w oc r i t e r i a t h ep r e c i s i o n o fc s s e r mi sal i t t l e1 0 w e rt h a nk r m ,a n dac o r r e s p o n d i n gm e a s n ei st a k e n , w h i c hi sc o m b i n i n gk r ma n dc s s e r m ,b ya d j u s t i n gt h ec o m b i n a t i v ep a r a m e t e r s t of i n dab e t t e rm o d e l t h e o r e t i c a la n a l y s i sa n de x p e r i m e n t ss h o wt h a tt h e c o m b i n a t i v ep a r a m e t e r sc a nb ea d j u s t e dt ob a l a n c et h ep r e c i s i o na n dr e c a l lr a t et o a c h i e v eab e t t e rr e t r i e v a lr e s u l t 3 t w om e t h o d s ,w h i c ha r eb a s e do nc o m p u t i n gr e t r i e v a lc o n c e p t sw e i g h t ,a n d 重庆大学硕士学位论文英文摘要 o n em e t h o d ,w h i c hi sb a s e do nc o m p u t i n gt e x tc o n c e p t sw e i g h tb a s e do nr e t r i e v a l c o n c e p t se x p a n s i o n ( r c e ) ,a l ep r o p o s e d ,t w or e t r i e v a lm o d e l sa r ec o n s t r u c t e db a s e d 0 1 1c o n c e p tt r e ee x p a n s i o n a n a l y z i n ge x p a n s i o no fs e m a n t i cl e v e l so fc o n c e p t ,t h er e l a t i o n s h i pb e t w e e n f a t h e ra n ds o nc o n c e p ti nc o n c e p tt r e ei st r a n s l a t e db yt h es i m i l a r i t yo fw o r d s t h e w e i g h to fr e t r i e v a lc o n c e p ti sc o m p u t e db yt w om e t h o d sw h i c hw i l lb eu s e di nt h e t w oc o r r e s p o n d i n gr e t r i e v a lm o d e l s r c ei su s e di no n em o d e l e x p e r i m e n t ss h o w t h a t t h ep r e c i s i o no ft h et w or e t r i e v a lm o d e l si st h es a m ea sk e y w o r d sr e t r i e v a l m o d e l ,b u tt h er e c a l lr a t ei si m p r o v e dg r e a t l y k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ,t e x tr e t r i e v a l ,r e t r i e v a lm o d e l , c o n c e p te x p a n d i n g ,w e i g h tc o m p u t i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重废盘堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:私磷涵 签字日期:沙7 年月够日 学位论文版权使用授权书 本学位论文作者完全了解重废太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重庞塞堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密() 。 ( 请只在上述一个括号内打“”) 学位论文作者签名:珏球池 导师签名: 镑芗 签字日期:讼。7 年f 月眵日 签字日期:徘厂月矽日 重庆大学硕士学位论文 1 绪论 1 绪论 随着大容量的存储介质技术与馆藏信息数字化的发展,各种形式的电子资源 经过收集、加工后都可以通过网络提供远程的存取,实现资源的管理与共享。面 对越来越多的信息,迫切需要一个高效的检索系统,以便对这些信息进行整理、 加工与获取。 文本检索( t e x tr e t r i e v a l ,t r ) 是指从文本集合中查找出所需文本的程序和方 法。文本集合是指有组织的文本整体,它可以是数据库的全部记录,还可以是某 个文本收藏单位收藏的全部文本,当然也可以是某个单位通过i n t e m e t 发布的各类 文本形式的集合。w e b 文本检索是指从大量w e b 文本的集合中找到与给定的查询请 求相关的、恰当数目的文本子集【l 】。 文本检索是信息检索的重要组成部分,在i n t e m e t t 言息检索的初始阶段,基于 当时互联网的信息状况,信息检索以目录式搜索为主,目录式搜索引擎基本工作 原理是基于分类技术,即把网站进行树状的归类。但是目录系统并不是严格意义 上的搜索引擎,为了分类科学准确,需要有一支由各领域人才组成的维护队伍, 所需的维护费用较高,同时,人类对每个网站也只能作简单的描述,其描述能力 不能深入到网站的内部细节,因此用户不能查询网站内部的重要信息,造成了信 息丢失。另外,随着互联网的商业化,互联网发展日新月异、互联网信息急剧膨 胀,已有的目录检索系统数据量有限、更新不及时、相对成本较高等弊端逐渐显 露出来,建立一个全自动、大数据量的网络导航系统迫在眉睫,即严格意义上的 搜索引擎。 从用户的角度来看,当前的检索系统或者是结果中无关信息过多,或者是查 询结果的顺序混乱,没能区分信息类型,另外,查询结果的准确性和相对复杂查 询的支持上也有待改善。人们期望研究开发出功能强大、覆盖面广、精确度高、 具有足够多的智能的检索系统。 多数情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需 要检索的内容,表达困难导致检索困难。另外,人类的自然语言中,随着时间、 地域或领域的改变,同一概念可以用不同的语言表现形式来表达。因此,对同一 概念的检索,不同的用户可能使用不同的关键词来查询。这两个问题造成的直接 结果是返回大量的无关信息,用户必须从结果中进行筛选。造成上述检索结果原 因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实 现,缺乏知识处理能力和理解能力,也就是说检索系统无法处理在用户看来非常 简单的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而 重庆大学硬士学位论文1 绪论 变化的区域性知识以及随领域不同而变化的专业性知识等等。因此,结合人工智 能技术的网络检索系统给人们描绘了一个崭新的网络世界,把文本检索从目前基 于关键词层面提高到基于概念( 或知识) 层面,是解决问题的根本和关键。目前 世界各国包括我国在内的多家网络软件公司和研究机构都投入大量资金和人力用 于智能化搜索引擎的研制和开发。 1 1 论文研究的意义 近年来。随着互联网技术的迅速发展和广泛应用,传统的检索系统面临着巨 大的挑战:i ) 信息容量的巨大性,据统计,w e b 已经拥有超过1 0 0 多亿的静态网页 和6 0 0 0 _ 1 l 左右的动态网页【2 】。尽管各种通用搜索引擎,如g o o g l e ,f a s t ,a i t a s t a 和g o t o 等在索引技术、索引数量上有所提高,但远远无法跟上文档的增长速度, 即使是目前全球最大的搜索引擎g o o g l e ,其索引的文档数量仅占文档总量的 3 0 4 0 1 3 1 :2 ) w e b 的动态性,w e b 页面的内容和结构每天都在变化。索引数据 库的更新维护很匿难,返回给用户豹信息许多都是无效的;3 ) w e b 文档的异构性, w e b 中包含的文档类型各式各样,包括文本、图像、图片、声音等等:4 ) w e b 文 本的重复性;5 ) 高链接性,几乎每个文本都有多个链接指向别的文本。 面对这些挑战,如何在传统的信息检索技术基础上开展针对文本检索的研究, 开发出新的检索工具和技术,提高检索性能,是近年来信息检索领域研究的热点 之一。 目前基于关键词的检索是几乎所有搜索引擎都采用的方法,其核心是关键字 符的机械式匹配。这种方式固有的缺点是参与匹配的只有文字的外在表现形式, 非它们所表达的概念。其制约文本检索的进一步发展表现为 4 1 :1 ) 关键词语言难 以反映词间的相关关系;2 ) 分散主题,影响查准率;3 ) 建库成本低是以用户后 期成本的付出为代价的;4 ) 自动标引无法完全髂决标引不一致的问题。 由于自然语言存在大量的同义词、多义词和歧义词造成的不规范以及未能显 示词语间的关系,人们在检索时总希望能进行准确的语义检索,这就要求检索系 统能解析各种信息的内容结构及其相互之间复杂的概念关系。目前搜索引擎技术 还不能很好地理解人的查询请求,不能区分关键词的同形同义,也不能联想到相 关同义词,更不能考虑到关键词所处的特殊语言环境,因而基于字形的搜索引擎 检索不能满足这种自然语言的检索要求,召回率低。 概念检索通过对文本集合中繁多的原文信息进行语义上的自然语言处理来析 取各种概念信息,并由此形成一个知识库,然后,根据对用户提问的理解来检索 知识库中相关的信息以提供直接的回答。基于概念的检索就是利用了词条在概念 2 重庆大学硕士学位论文1 绪论 上的相关性,检索出那些并不显示的包含用户指定的词条,却包含其同义词或下 位词的文档。概念检索系统因实现了语义的蕴含扩展、语义的外延扩展和语义的 相关扩展、可以较大幅度提高召回率。 目前大众的检索系统仍是关键词检索,概念检索还处于起步阶段;加之自然 语言处理的复杂性,进行概念检索技术研究是一项长期的工作,概念检索也是未 来文本检索技术发展的必然方向。 1 2 国内外研究现状 信息检索己开始融进以神经网络、模糊系统、迸化计算、概率学习等为代表 的软计算技术。基于神经网路和遗传算法的信息检索模型中,神经网络用于通过 传播激活评价标准单一的查询,而遗传算法用于产生一组查询,并选择最能匹配 需要查询的部分,最终的响应由组合最好的查询结果构成【5 1 。 用于文本检索的模型主要有:布尔模型( b o o l e a nm o d e l ,b m ) 、向量空间模 型( v e c t o rs p a c em o d e l ,v s m ) 、概率模型( p r o b a b i l i t ym o d e l ,p m ) 、概率推理 网络( p r o b a b i l i t yr e a s o n i n gn e t w o r k ,p r n ) 。 目前,检索系统主要提供两类服务方式:基于目录结构的检索以及基于查询 串的文档检索【6 j 。基于目录结构的检索,用户根据已分好的类别直接访问网页,它 可以较准确的查找到相关文本。但往往无法满足用户搜索某一特定信息文本的要 求;基于查询串的检索方法,用户可以提交信息( 通常提供查询词) 来限定检索 的内容范围,这种检索方式的缺点是导致检索结果里包含很多的无关文本。 检索方法主要分为3 类:基于目录的检索( 分类法) 、基于关键字匹配的检索 和基于概念的检索。目录式的检索以某种分类形式组织w e b 信息资源。y a h o o 是一 个典型的例子,它将相关主题的站点组成一个层次化的目录树。y a h o o 的目录结构 由人工建立,分类按照内容、地名、名称以及字母顺序等符合人们使用习惯的概 念来构造。 基于概念的扩展检索已经成为文本检索的发展趋势,与此同时,如何获得有 效的概念语义网络也成为该研究领域内的前沿课题。目前,国内外在这方面进行 了很多探索性的研究【_ ”。例如斯坦福大学的i n f o m a ps e a r c he n g i n e ,旨在建立一个 智能的基于概念的信息检索引擎,通过选用不同的训练语料,测试生成的概念语 义网络对查询效果的影响,在此基础上,利用医学相关语料和双语词典生成一个 概念网络,建立医学文档检索的示范应用【7 】;国内较典型的相关研究有:中国科学 院计算技术研究所用共现分析以及h o p f i e l d 网络生成概念空间,从而实现了基于概 念空间的扩展检索【8 】;北京邮电大学针对计算机及其应用领域,手工创建了一个含 3 重庆大学硕士学位论文1 绪论 有5 0 0 多个概念节点,包括一个分类体系和近3 0 0 种概念相关关系的语义网络, 初步实现了特定领域的概念检索 9 1 ;中国科学技术大学和中国科学院计算技术研究 所联合研究开发的基于概念语义空间的联想检索系统,通过共现分析建立概念语 义空问,并借助于大型语义词典知网,为用户提供了一个智能检索接口【1 0 】。 文献【ll ,1 2 利用反馈杌制和聚类技术,提出了基于概念相关反馈的w e b 信息 检索;文献 1 3 1 提出了一种基于概念的中文搜索引擎,并给出了理论模型和工作机 制;文献【1 4 】提出了一个自动构建知识库的智能模糊信息检索系统;文献 1 5 】把本 体引入到企业文本检索中来,以文本的自然段为检索的最小单位,提出从企业文 本中抽取信息而建立本体描述符的信息检索模型;文献 1 6 】提出一种自动构建语义 库和相关性查询扩展的方法,方法利用关联规则挖掘技术,自动从文档中导出概 念词语之间相关性及层次关系,构建关联库,再通过关联库,对查询请求进行相 关性扩展以实现概念检索。 国内外虽然有一些公司做出了概念检索的产品( 如日本的j u s t r e s e a r c h 公司) , 但仅仅做到了语用层面,而对于中文搜索引擎来说,因为有着中文处理方面的问 题,这方面的研发工作起步较晚旧。 1 3 本文研究的目的和研究内容 1 3 1 本文研究的目的 在现有信息检索技术的基础上,针对关键词检索模型主要存在召回率低的现 状,概念检索突破了关键词匹配局限于表面形式的缺陷,本文将检索词通过同义 扩展、上下义扩展后形成的检索概念,组成概念检索模型,提高检索系统召回率, 得到综合性能更优的检索系统,用于中文文本的检索。 1 3 2 本文研究的主要内容 本论文的研究内容( 研究工作) 主要有: ( 1 ) 提出了基于文本关键词同义合并的词条权重计算方法,构建了基于概念 语义同义扩展的文本检索模型。 现有典型的文本词条权重统计方法是 i f i d f ,存在问题是:1 ) 没有考虑语义 同义关系;2 ) 文本词条没有固定权重;3 ) 支撑主题的核心词易被赋予较低权重。 为此,本文提出了基于文本关键词同义合并的词条权重计算方法,有效解决了上 述3 个问题,并结合检索概念同义词之间的等价关系,构建了基于概念语义同义 扩展的检索模型。实验证明,该模型的精确率较关键词模型在小幅度下滑的同时, 召回率得到较大提高,综合性能得到了改善。 ( 2 ) 构建了基于概念同义扩展检索与关键词检索结合的文本检索模型。 4 重庆大学硕士学位论文1 绪论 在信息检索中,精确率和召回率是检索系统性能评价的两个重要指标。针对 提出的基于文本关键词同义合并的词条权重计算方法构建的概念检索模型,较关 键词检索存在精确率下降的现象,本文采取了相应的补救措施:将基于概念语义 同义扩展的文本检索模型与关键词模型结合检索。旨在通过调整两者不同的比例 关系,找到一个较优的模型,检索模型具体评价指标采用了f 度量。实验证明, 该结合模型中的比例参数调整适当,能得到一个比两者单独检索更优的模型。 ( 3 ) 提出了检索概念权重计算的两种方法和一种基于检索概念扩展的文本概 念权重计算方法,构建了基于概念树扩展的文本检索模型。 分析了概念在语义层次上的扩展,本文将概念树中的父子概念关系用词语的 相似度进行量化,提出了检索概念按概念树扩展后的两种权重计算方法( 合并增 大法和展开减小法) 和一种基于检索概念扩展的文本概念权重计算方法,并将检 索概念权重计算的两种方法用于两个对应改进的向量空间模型进行检索,基于检 索概念的文本概念权重计算方法将用于其中的一个模型。实验证明,这两个基于 概念树扩展检索的文本检索模型的精确率能与关键词检索模型保持基本一致,但 召回率却得到较大提高。 1 4 本文的内容安排 全文整体结构如下: 第一章是绪论。首先针对当前信息检索的现状提出了进行文本检索研究的意 义,并对文本检索技术的国内外的研究现状进行了综述性的介绍,最后提出了本 文的三个主要的研究内容。 第二章分析了文本检索的基本结构与检索模型,介绍了文本检索过程中用到 的部分算法,相关的自然语言处理技术,对关键词检索和概念检索进行了概括性 介绍,最后对检索系统中搜索引擎部分进行了结构的展示和功能的介绍。 第三章分析了常用的文本词条权重计算方法及t f i d f 存在的不足;提出了基 于文本关键词同义合并的词条权重计算方法及对应的概念检索模型;针对该概念 模型的精确率较关键词模型存在下滑的现象,采取了一种补偿措施:构建了概念 模型与关键词模型结合的检索模型。 第四章介绍了概念树的有关知识,提出了将检索概念基于概念树展开的两种 权重计算方法:展开减小法和合并增大法。将展开减小法用于传统向量空间模型 组成新的概念检索模型;合并增大法与基于检索概念扩展的文本概念权重计算方 法组成文本检索模型。 第五章对本文构建的三个文本检索模型进行了实验,对实验结果进行了分析 5 重庆大学硕士学位论文1 绪论 比较,得出了实验结论。 第六章总结了全文,并指出了研究的不足和进一步的研究方向。 6 重庆大学硬士学位论文 2 文本检索概述 2 文本检索概述 文本检索是对文本集合与需求集合的匹配与选择,我们可以把一个文本检索 系统形式化描述为一个四元组:s = ( lj ,q ,4 ) 。其中z 鼍乃,乃,z d ,q = ( q j , 9 ,q ,1 - ( 1 1 ,乃,功,a :口n s 。t 表示某系统中经过索引的文本 集合,朋i q 分别代表所有可能存在的索引词集合和检索提问词集合,a 为匹配函 数,s 为检索结果。文本检索系统的结构如图2 1 所示。 图2 1 文本检索的基本结构 f i g2 1t h eb a s i cs t r u c t u r eo f t e x tr e t r i e v a l 2 1 文本检索的评估指标 评估检索系统性能,除了检索速度,系统稳定性等指标外,还有:准确率 ( p r e c i s i o n ,简记为p ) 、召回率( r e c a l l ,简记为r ) ,以及两者的综合评估。好的 检索系统中准确率和召回率应该有较好的平衡关系,且有较高的综合评估值。 尹t 检索到的相关文本数检索到的全部文本数 r = 检索到的相关文本数文献库全部相关文本数 借助于聊r 的综合性能评估,通常有两种方法: ( 1 ) f m e a s u r e 为了综合考虑尸和r 并通过统一的评估公式对信息检索系统的检索性能作出评 价,有入提t f - m e a s u r e 方法【l s l ,它的计算如下: f = 丌2 = 嚣 - l p尺 瑚取值在 0 ,l 】内,并随尸,r 的增大而增大。,越大,说明检索系统的综合 性能越好。f m e a s i 珊对聊r 两者没有权重上的偏向,它们对躏的贡献是相同的。 7 重庆大学硕士学位论文2 文本检索概述 肚 i + 一r , a 2 ) p r :半 b 。p + r8 “。、 口是尸的偏向度参数: 当口= 1 ,肺卿眄者的权重相等,e - m e a s u r e r s ;于f m e a s u r e : 当声 1 ,p 的权重比r 高: 当口 l ,r 的权重比p 高; 根据对蹦鼬不同偏重,可以灵活选择罗。 2 2 文本检索模型与算法 2 2 1 文本检索模型 文本检索模型一直是信息检索领域的重要研究课题,研究者从不同的角度提 出了大量的检索模型,其中比较典型的模型有布尔模型、向量空间检索模型、概 率检索模型以及它们的变形。各种模型都有相应的理论基础,有的模型已在一定 程度实现了检索系统,并在实践中取得较好的效果。检索模型的深入研究有利于 人们加深对检索过程的机理认识,提供检索系统的匹配机制,对选择合理的匹配 技术以及降低匹配过程的复杂性都有举足轻重的作用。文本检索系统大多基于向 量空间模型,并在应用中体现出其实用性和较好的检索效果。 ( 1 ) 布尔模型 布尔模型 1 2 , 1 9 以布尔逻辑为基础,是一种简单而且常用的严格匹配模型,利 用运算符a n d 、o r 、n o t 来连接关键字作为查询请求。它定义了一个二值变量 集合来表示文本。这些变量对应文本中的特征项,一般是由训练文本集中的词条 或短语组成,如果词条对文本内容有贡献则赋予t r u e ,否则为f a l s e 。检索时,根 据用户提交的检索条件是否满足文本表示中的逻辑关系将检索文本分为两个集 合:匹配集和菲匹配集。因匹配结果的二值性,所以无法在匹配结果集中进行查 询结果的相关性排序。布尔模型实现简单,检索速度侠,在许多检索系统中得到 应用,例如y a h o o ,i n f o s e e k 等诸多网络检索站点均采用了这种模型。布尔模型逻 辑表达式过于严格,往往会因一个条件未满足而忽略了其他全部特征,造成漏检, 由于它并没有对词条计算权重,导致返回了大量的无序文本,用户不得不通过添 8 重庆大学硕士学位论文2 文本检索概述 加、删除词条,或者重新输入一个复杂的查询表达式来控制检索文本的数量。 p 范数模型2 0 1 是对布尔模型的扩展,它克服了简单布尔模型匹配函数过于严格 而导致漏检的致命缺陷。在p 范数模型中,假设文本r 可表示为;7 k f 如,t 2 , 岛 ,用户查询可表示为:q 参。q 2 ,”,鳜 ,其中矗和9 1 分别表示第i 个特征词 条对文本内容和查询内容的贡献程度,t f ,q t 在【0 ,1 的区间上取值。定义文本与 查询条件间的相似度为: r1 跏( r ,d - l _ 陋! 二坐鲤二坐:麴二丛i 卯 lq p + q 董+ | + q gi 其中l p m ,根据具体应用改变西,q 。和p 的取值可达到不同的检索效果。 在实际使用中p 的取值由实验得出,取值范围一般为 2 ,5 】。 ( 2 ) 向量空间模型 向量空间模型是近些年使用较多且效果较好的一种信息检索模型伫,这一模 型主要是将文本t 看作由相互独立的词条组( c t t ,c t 2 ,c t d 构成,对于每一词 条叻,都根据其在文本中的重要程度赋以一定权值嘶,将( c t l ,叻。,c t d 看 成一个,l 维坐标系中的坐标轴,( ,w 2 ,) 为对应的坐标值,从而转化为 一个向量空间。文本映射成为空间中的一个点,从而将文本信息的匹配问题转化 为向量空间中矢量匹配问题。词条嗽在文本t 中的权值坼通常由两部分计算获得: 一部分是m 在文本t 中出现的次数,即碾,另一部分是整个文本集合中包含m 的文本个数,即礞。 w k = 弧园仁碾+ ( 1 0 9 2 ( n n d + 1 ) 其中,代表文本集合中的文本数量,瑰代表在文本集合中出现特征项魄的 文本数目。从上式可知,皈越大,w k 值越大;同样i l k 越小,w k 值也越大,说明特 征项嘞更能代表文本t t 的内容。 查询条件譬的权重也要向量化为( 移彩,g 辨) ,一般采用布尔框架。所 谓布尔框架就是:吼的值要么是l ,要么是o ;如果文本t 中包含鲰,则吼的权值 为1 ,否则为0 。同样在进行查询匹配时,查询条件4 的向量化过程也是如此,如 查询条件g 包含确,则的权值为1 ,否则为0 。 文本向量与查询向量的相似度$ i m ( g ) 计算,通常采用余弦法: s i m ( t ,g ) = 捍 w k q k k = l 9 重庆大学硕士学位论文2 文本检索概述 ( 3 ) 概率模型 布尔模型和向量空间模型都将文本表示词条视为相互独立的项,忽略了表示 词条间的关联性,概率模型则考虑了词条、文本间的内在联系,利用词条之间以 及词条与文本间的概率相依性进行信息的检索。 概率模型最早是由m a r o n 和k u h n s ( 1 9 6 0 ) 提出的,该模型在i n q u e r y t 2 2 系统环境中获得比较好的检索质量。二值独立检索模型( b m ) 是一种实现简单且 效果较好的概率模型 捌,在b i r 中,根据用户的检索口,可以将所有文本分为两 类,一类与检索需求口相关( 集合r ) ,另一类与检索需求不相关( - r ) ,它们的 概率分别表示为:p ( r i t ) 和p ( 一r i t ) 。索引项的分布有如下两条假设:1 ) 文本 r 可以表示为t ( x t ,勋,) ,其中二元随机变量而表示索引项嘶是否在该文 本中出现,如果出现,则斫:l ,否则x r = o ;2 ) 在一个文本中,任意一个索引项的 出现与否不会影响到其它索引项的出现,它们之间相互独立。 文本r 与检索口的相关度排序函数为: s o r t s i m ( 正g ) 印( r i d p ( - r i d 利用b a y s e 公式并经过简化后可得文本与用户查询的相关函数: s i r e ( 砌) = e x , l o g i p t ( 1 - q t ) ( q i ( 1 啦) ) 】 其中p 两,g 尸( f - r i ) f - r ) ,f 表示训练文本集中文本总数,表示训练 文本集中与用户查询相关的文本数,:表示在训练文本集中包含词条的文本数, r i 表示r 个相关文本中包含词条c f l 的文本数。 ( 4 ) 概率推理网络 ”】 概率推理网络模拟人脑的推理想象模型,它将从文本到查询的过程改变为从 匹配到推理的过程。概率推理网络包括两个部分:文本网络和用户查询网络,网 络结构如图2 2 所示: 图2 2 概率推理网络图 f i g2 2t h es k e t c ho f p r o b a b i l i t yi n f e r e n c en e t w o r k 1 0 重庆大学硕士学位论文 2 文本检索概述 破是文本节点,f j 是文本重现节点,岛是文本概念节点,q 是用户搜索节点, 是重现用户搜索概念节点,箭头指向代表节点间关系的可能性,搜索节点的最 终概率可通过节点的前期概率和中间节点的条件概率计算,用户查询q 和文本函 的相关性记为,( g ,d 0 ,p ( g ,d i ) 可通过以两步进行计算:1 ) 将d i 的初始值 置为1 ;2 ) 通过计算q 与4 之间所有可能的连接线路概率,再将各连接线路概率 求和即得p ( g ,函) 。 概念推理网络主要采用基于概念的查询匹配模式,主要研究在于以自然语言 理解为难题的语义推理网络一知识库,由于搜索表达式是输入查询表达式的扩展, 搜索返回的文本中,可能存在大量与查询表达式相关度低甚至不相关的文本,导 致准确率降低。例如,输入查询表达式“电脑的开关机操作”,搜索表达式可能会 变成“( 计算机v 硬件v 软件) 八开关八操作”等形式,返回大量与查询主题不相关 的文本。 2 2 2 文本检索算法 ( 1 ) 基于内容的检索 基于内容的检索主要是从用户查询词条在文本中的出现情况角度来考虑,包 括词条频率、词条位置信息等。 1 ) 词条频率检索方法 向量空闻模型是根据词条频率进行检索的典型算法 2 1 】,最初由s a l t o n 等人在 六十年代初期提出并发展起来的。该模型在2 1 1 已分析过,在此不在讨论。 向量空间模型算法计算简单并且有效,得到广泛的应用脚, 2 6 1 ,但是它也存在 以下缺点: 各个特征项不论处于文本中何种位置,表达文本内容的能力是相同的。而 实际上出现在文本不同位置的特征项对文本内容的贡献程度是不一样的,比如出 项在标题的特征项应该比出现在摘要中的特征项显得更为重要。 文本信息之间的变迁是通过链接完成的,因此,链接的文本信息扶某个角 度上来说代表了被链接文本的重要信息,而利用向量空间模型进行信息查询忽视 了这些信息。 搜索是采用检索词的机械匹配,与检索词相关的内容若不含搜索检索词, 其文本不能被检索返回,导致召回率偏低。例如,输入查询“电脑”,含有“计算 机”的诸多文本中若不含“电脑”,这些文本就不能被检索返回。 2 ) 词条位置检索方法 m i c h a lc u t l e 一2 刀算法是根据词条位置信息,利用h t m l 文本结构和链接信息 进行检索的方法。该方法首先将h 蹦l 标记分为六类:p l a i n tt e x t ( 正文) ,t i t l e ( 标题) 、h 1 1 - 1 2 、h 3 h 6 、s t x o n g ( 包括强调、粗体、斜体、下划线) 、a n c h o r ( 链 重庆大学硕士学位论文 2 文本检索概述 接标记文本) ,并根据重要程度对每类赋予不同的重要度因子a 瓦特征项权值的 计算公式为: 矿= ( t f v o c l v ) + 矽 其中,万矿代表特征项频率向量,t f v = ( 咖,批,籼,咖,扔,舭) , 分别表示特征项t 在正文、s t r o n g 、h 3 h 6 、h i h 2 、标记以及标题中出现的次数。 如当c v = ( 1 ,l ,1 ,1 ,0 ,1 ) 时,特征项t 的权值计算转变为向量空间模型 的权值计算公式: f 矿= ( t f v o c i v ) + i a f = ( 咖j + 0 锄+ b + i 矿0 ) + i d f = 矿+ i d f 不同类别赋以不同重要度因子是因为查询匹配过程中,出现在文本中不同位置的 同一关键词表达文本内容的能力是有差别的。比如,出现在标题中的特征项应该 比出现在链接中的特征项更能确切代表文本的内容,因此该方法有效地提高了检 索质量。同时该方法也存在不足:特征项权值的计算使用了反比文献频率幼知文 本集合增加一篇文本,文本总数就会发生改变,包含该特征项的文本数目也随之 发生变化,因此必须重新计算每一特征项的权值,计算量太大,不适用于文本的 动态更新。文献 2 8 】根据特征项出现在不同部分将一篇文本从逻辑上划分为个相 对独立的文本段,出现在不同独立段的特征项具有不同的权值。 ( 2 ) 基于超链分析的检索 1 ) p a g e r a n k 方法 p a g e r a n k 算法的基本思想( 源于文献的引用) 是【2 9 】:某网页被其他网页链接 的次数越多,就认为该网页越重要( 链接评价值越大) ,一个页面尽管没有被多次 引用,但被一个重要页面引用,则这个页面也很可能是重要的;一个页面的重要 性被均分并被传递到它引用的页面。 链接评价原理:设有网页乃,霸对网页彳进行了链接,p ( t 0 为网页乃 的链接评价值,双乃) 为网页乃的出链数,则对网页a 的链接评价值( 又称p a g e r a n k 值) p r ( 一) 为【3 0 】; p r ( a ) ;0 - d ) + d x 量鬻 i = l 。、1 1 d 为阻尼系数且0 d l ,一般取d = o 8 5 。可见【2 9 l :网页4 的p a g e r a n k 值取决于链接到爿的页面的p a g e r a n k 的递归值;p r ( 乃) 值并不是均等影响 p r ( 么) 的,? 对爿的影响还受出链接数ff 力的影响,的出链接数越多,彳受 ,的影响就越少;对于a ,每增加一个入站链接,都会增加朋翻 阻尼系数 的使用,减少了其它页面对爿的排序贡献。 由职( 么) 的计算式知,计算p r ) ,首先需计算p r ( 乃) ,p r ( t n ) 的 重庆大学硕士学位论文2 文本检索概述 值,而p r 亿,) 的计算要依赖于其它对其进行链接的网页的链接评价值的计算, 其中也可能包含4 的链接,所以通过一种反复迭代法来对链接评价值进行计算。 2 ) h i t s 算法 e i g b e 圳提出的h i t s 算法引入了两类网页:一类称为权威( a u t h o r i t y )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论