(计算机软件与理论专业论文)文本检索中相关性信息的扩展查询.pdf_第1页
(计算机软件与理论专业论文)文本检索中相关性信息的扩展查询.pdf_第2页
(计算机软件与理论专业论文)文本检索中相关性信息的扩展查询.pdf_第3页
(计算机软件与理论专业论文)文本检索中相关性信息的扩展查询.pdf_第4页
(计算机软件与理论专业论文)文本检索中相关性信息的扩展查询.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)文本检索中相关性信息的扩展查询.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学预十学位论文 文本检索中相关性信息的扩展查询 文本检索中相关性信息的扩展查询 计算机软件与理论 硕士生:郑泽奇 指导教师:周青副教授 摘要 本论文陈述一个搜索相关性文本信息的新思想。依照文本信息的特征,文中 给出了相关关键词和相关文本的定义。基于这些定义,本论文提出了一个扩展查 询关键词集的方法并给出了以之查询相关性文本信息的算法,使得计算机能够在 无需理解词义的情况下找到相关的文本信息。经过在因特网上的多次实验以及对 其结果的全面分析,我们发现该思想有较高的可行性和有效性。这个方法使得搜 索相关的文本信息更为全面而又简捷。 关键词:文本检索,相关关键词,相关文本,最接近关键词 中山大学硕十学位论文文本检索中相关性信息的扩展查询 a n i n t e l l i g e n tq u e r ye x p a n s i o n o f s e a r c h i n g r e l a t e dt e x ti n f o r m a t i o n c o m p u t e r s o f t w a r ea n d t h e o r y n a m e :z h e n gz e q i s u p e r v i s o r :z h o uq i n g a b s t r a c t i nt h i sp a p e rw e r e p r e s e n t an e wi d e ao f s e a r c h i n gr e l a t e dt e x ti n f o r m a t i o no n w e b t h es y n t a c t i c a lc h a r a c t e r so fr e l a t e dk e y w o r d sa n dt e x t sa r ed e s c r i b e di nd e t a i l , w h i c hd on o ti n v o l v es e m a n t i c so ft h ek e y w o r d s ,s o c o m p u t e r s c a nf i n dr e l a t e d k e y w o r d sa n da r t i c l e sw i t h o u tu n d e r s t a n d i n gt h e i rm e a n i n g s b a s e do nt h e s e ,a n i n t e l l i g e n te x p a n s i o n o f q u e r y o f s e a r c h i n g r e l a t e dt e x ti n f o r m a t i o ni sp r o p o s e d a l g o r i t h m s f o rs u c ha n e x p a n s i o n a r e p r o v i d e d t h ea l g o r i t h m sa r ee f f e c t i v e t h e r e s u l t so ft h ee x p e r i m e n t so ft h i sm e t h o dw em a d eo ni n t e r n e tb e f o r es h o wt h a tt h e a l g o r i t h m si nt h ep a p e r a r ep o w e r f u la n d s a t i s f y i n g i td o e sm a k e o u r s e a r c h i n go f t e x ti n f o r m a t i o ne a s i e r t h ep a p e rc o n c l u d e sw i t ha c o m p r e h e n s i v ea n a l y s i so n t h e s e r e s u l t so ft h ee x p e r i m e n t s k _ w o r d s :t e x tr e t r i e v a l ,r e l a t e dk e y w o r d s ,r e l a t e dt e x t s ,t h ec l o s e s tk e y w o r d i i 中山大学颁士学位论文 文本检索中相关性信息的扩展查询 1 1 文本检索概述 第1 章前言 当今社会处于信息时代,信息的巨大和信息形式的纷繁芜杂使人应接不 暇,如何利用计算机技术提供方便、有效的信息检索手段成为计算机科学信息检 索领域的一个重要课题。文本、图像、音频和影视等各种信息可以任意的组合并 作为检索对象,i n t e r n e t 上无数的u r l ( u n i f o r mr e s o u r c el o c a t o r ) 成为新的信息 源。在这样的情况之下,信息检索系统的开发者面临新的技术需要和难题,而信 息检索用户则需要选择和掌握合适的检索工具。总的说来,文本检索技术仍是我 们研究的主要对象,因为它是各种媒体信息检索的基础。也是信息用户最主要的 需求。所以,今后信息检索的研究工作主要集中努力于文本检索的更新与发展。 文本检索起源于图书馆的参考咨询和文摘索引工作,从1 9 世纪下半叶首先开 始发展至2 0 世纪4 0 年代,索引和检索已成为图书馆独立的工具和用户服务项目。 随着1 9 4 6 年世界上第一台电子计算机问世,计算机技术逐步走进文本检索领 域,并与文本检索理论紧密结合起来。脱机批量情报检索系统、联机实时情报检 索系统相继研制成功并商业化,2 0 世纪6 0 年代n 8 0 年代,在文本信息处理技术、 通讯技术、计算机和数据库技术的推动下,文本检索在教育、军事和商业等各领 域高速发展,得到了广泛的应用。d i a l o g 雪际联机情报检索系统是这一时期的文 本检索领域的代表,至今仍是世界上最著名的系统之一。 为了准确、快速地检索i n t e r n e t 上丰富的文本信息资源,世界各地的专家和学 者对i n t e m e t 上的文本信息检索技术进行了深刻的研究,以寻求合理的检索方法, 开发出性能优越的检索工具。在计算机和信息管理等各方面人员的共同努力下。 一大批性能优越的检索工具出现了,如a r c h i e ,w a i s ,v e r o n i c a 等,它们都具有较 好的检索性能,针对不同的文本信息资源,这些检索工具发挥了自己独特的作用, 一定程度上降低t i n t e m e t 上文本信息检索的难度,提高了文本检索结果的准确 性。 w o r l dw i d e w e b ( w w w ) 出现之后,信息检索专家们便试图开发在w w w 上 检索各种文本信息的检索工具,他们卓有成效的工作使得一大批w w w j :的文本 中山大学硕士学位论文 文本检索中相关性信息的扩展查询 信息检索工具迅速诞生。有了这些文本信息检索工具,人们检索文本信息变得相 对容易,同时也改变了用户只靠浏览来发觉文本信息的情况,用户可以进行目标 明确的检索。 文本检索技术,包括文本的存储、组织、表现、查询、存取等各个方面,其 核心为文本的索引和检索。从历史上看,文本检索经历了手工检索、计算机检索 到目前的网络化、智能化检索等多个发展阶段。 目前,文本检索已经发展到网络化和智能化的阶段。文本检索的对象从相对 封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新更 快、分布广泛、管理松散的w 曲内容;文本检索的用户也由原来的情报专业人员 扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他 们对文本检索的结果与方式提出了更高、更多样化的要求。适应网络化、智能化 以及个性化的需要是目前文本检索技术发展的新趋势。 1 2 文本检索中“相关性”的概念 在文本检索中,“相关性”( r e l e v a n c e ) 是一个关键性的概念,人们对“相关 性”的理解是基于语义的。从语义上来说,用户想查找的“相关性”文本是指 检索系统能检索出的与用户的查询( q u e r y ) 相匹配的文本信息【1 】。这种匹配关 系必须通过语义去理解查询到的信息是否符合查询的主题。但是,有个重要的 问题是计算机是根本不能理解语义的。所以在文本检索中,计算机无法知道系 统检索出来的文本信息在语义上是否与用户的查询相匹配。那么,计算机是如 何处理检索中的“相关性”问题的呢? 这就要求我们能给予计算机一个可理解 的并可操作的“相关性”定义。 一直以来,检索系统都是在缺乏一个计算机可操作的“相关性”定义的情 况下进行信息检索的【2 ,3 】。对这一问题人们做了大量研究并提出了理论框架, 但这些研究成果无法很好的被加以利用。其实,计算机如何处理“相关性”的 问题半个世纪以来一直引起许多讨论和争议。西方文本检索研究者们已经就这 一问题讨论了几十年,至今未能做出一个明确而又可操作的定义,而在中文信 息检索研究圈子内,对这个概念的讨论非常少,几乎见不到集中讨论这一问题 的论述。中文信息检索研究很大程度上是在西方已有理论体系之内进行的,如 2 中山大学硕十学位论文 文本检索中相关性信息的扩展查、卿 果说有什么特色的话,多半集中在汉语相对于西方语言显示出的特殊性上,如 分词的必要性、句法分析( p a r s i n g ) 以及索引( i n d e x i n g ) 以什么为基本单位等等。 无论是对中文还是对其它语言,计算机其实都可以从语法特征上去理解“相 关性”问题。例如,它能够知道一篇文本都有些什么词;某个词在文本中出现 了多少次以及处于什么样的位置;文本的关键词是什么等等。所以,我们必须 从这些方面出发去给计算机可操作的“相关性”概念,它才有可能找到相关的 文本信息。 1 3 文本检索的原理 由于目前互联网的发展速度之快,传统的检索形式已经不再是我们讨论的 内容。现在的文本检索实际上都是基于互联网或者局域网的范围。所以,我们 要研究的是基于网络的文本检索的原理。 文本检索一般要通过信息的收集、整理、分类、索引,并通过一定的方法 和手段使存储与检索这两个过程所采用的特征标识达到一致,从而产生相应的 信息数据库以供检索,其中存储是为了检索,而检索又必须先进行存储。 存储的过程,主要对信息源进行标引,将其外表和内容的特征( 如信息的 标题、作者、来源和主题等) 用特定的检索语言转化为一定的标识( 如主题词、 分类号和类目名称等) ,再将这些标识按一定的顺序编排后输入检索系统,从而 为检索提供有章可循的途径【4 ,2 6 。所以,它需要大量的人员收集跟踪i n t e r n e t 网络上的w w w ,f r p ,g o p h e r 地址,对它们进行处理,对每个网点加以注释, 给出主题词或者关键词,以便最终用户检索。例如,w e b c r a w l e r 利用全文索引 的技术,对w e b 中的每一个单词进行索引,l y c o s 只对题名,题头以及最重要 的1 0 0 个注释等进行索引,i n f o s e e k 和o p e n t e x t 则提供概念检索和词组检索, 支持“a n d ”,“o r ”,“n o t 等布尔运算符。正是由于这些原因我们不难理解: 为什么对于同样的检索项,各种检索工具会给出差别相当大的检索结果。 检索的过程,主要是检索系统把用户的检索要求与条件通过某种规范或者 语言转换成检索标识,然后检索系统根据标识给出检索的结果【4 ,2 6 】。为了保 证文本信息能存得进、取得出,就必须使文本存储所依据的规则与文本检索所 依据的规则尽量做到一致。也就是说,为了检索过程的顺利进行和达到较高的 3 中山火学硕i :学位论文 文本检索中相关性信息的扩展查询 检索效率,除了在存储和检索过程的各个环节必须依据一定的方法和规则外, 还必须有统一的检索语言和名称规范作为存储人员和检索人员的共同依据。目 前,我们在搜索文本的时候,一般都会通过关键词的布尔关系运算来表达搜索 的内容与条件。检索系统能够提供这种表达关系的输入说明系统本身必须能够 理解这种关系,能把这种要求关系转换成检索标识。 文本信息的存储和检索的全过程可用图1 1 表示: 存储过程 文本文本意息 蕊 信息标识 特征 检索 ( 检索点) 检索 :1 音 系统检 和 标索 名词 识 + 结 检索 规范 检索提问 分果 配 检索 +提问 标识 主题 ( 检索点) 信息 检索过程 。圈1 1 文本的存储与检索过程 对于检索系统而言,在执行上面的文本检索过程中,还有一个不容忽视的 问题就是尽量的优化系统的检索性能。人们对检索性能存在两个方面的要求; 1 ) 尽可能多的找到符合查询主题的文本信息。 2 ) 查询到的文本信息尽量准确。 这两个方面就是我们常说的查全率和查准率。显然,它们是很难达成一致 的,因为查询结果数量越大的话势必会影响查准率。而检索系统在检索过程中, 往往依靠上图中的检索语言和名称规范这过程去处理好查全率与查准率的相 互关系,使得双方都处在定的度之上。 1 4 本文问题描述与基本思想 4 中山大学硕士学位论文文本检索中相关性信息的扩展查询 对于文本信息而言,通常都会有一些关键词索引存储在数据库里面。而且, 这些所谓的索引词都能反映文本所包含的主题。当我们搜索信息的时候,都是在 所涉及的领域输入几个词,然后计算机能根据给的词进行搜索并给出那些至少包 括一个输入词的文章,因为不管是根据何种技术都不可能脱离文本中的词源。目 前,大多数搜索引擎都能以一种相关性排序的方式给出我们所查找到的文本信 息。这个相关性的排序是非常必要的,因为有些文本虽然包含个别索引词,但是 却完全是不同主题的文本,影响了检索的正确性。但是在一些情况下,有很多与 其相同的主题的文本信息却有着不同的关键词集合。那么,当输入的词都不在这 些文本的关键词集合或者全文中时,我们便不能搜索到这些文本。而这些文本却 有可能是我们需要的主题,或者有更大的相关性。是否存在一些方法去找这些相 关性文本信息呢? 我们在这篇论文里将讨论这个问题,匿 1 - - 2 清晰地表述了这个 问题。 一一一一一一一一一一一一一y j 一一一一一一一 、 1 , a 0 ,所以: ,o ) 。万a 丽( 1 - x ) c 。( 仃+ 石) 、,口+ 卫 则意味着,o ) - 告o ,1 n 乏o ) 是一个递减函数。 叫口+ x 。 那么根据( 1 ) ,( 2 ) ,( 3 ) 我们可以得到: 芒:! 兰丝。一三三! 兰竖: 岳5 i 记t 意丽 c l o s e ( v e c ( d , ) ,v e c ( d ) ) 2c l o s e ( v e c ( d , ) ,v e c ( d ) ) ,得证。 c ) 如果有c e c ( d ,) v e c ( d ) ) c l o s e ( v e c ( d , ) ,v e c ( d ) ) 根据上段证明中得到得式子( 2 ) 和( 3 ) ,我们可以得到: 竺:三! 兰型 竺二! 堡: 一r 一一i 2 = = = = = = = 一 石扣- 1 + w , 。石m l + 彬。 又由于我们已经证明了,o ) - 苦o ,1 ,n z o ) 是一个递减函数。 、a + x 一 所以:彤s 彬并且,彬7 苫1 j k 2 面与面暑一k ,得证。 根据刀l m 阳m j ,我们能看到_ 是越大,权值吲的值就越小,这个时候我们 中山人学硕士学位论文 文本检索中相关性信息的扩展查询 可以想象得到向量w c ( d ,) 在某一个方向上偏离i 甸i v e c ( d ) 越小,从而两向量的 夹角越小,则我们的定义值c 0 e ( 唧( d ,) ,眦 【,- 1 】t h e ne x c h a n g en j a n dn i j 一1 】,kj a n d t 卜l ; a d dk j t o 6 ; r e t u r n ( 6 ) ; e n d p r o c e d u r e 。 根据上面的算法,便可以获得r 个。类型的“比较接近关键词”。如果把这 些关键词加入到a l g o r i t h m 4 的集合a 中,则我们就得到了更多的扩展查询词, 通过这些词进行再次文本检索一定可以得到更多的相关性文本信息。下面就是 为了得到更多的相关性文本信息,而对a l g o r i t h m4 进行改进后的算法。 a l g o r i t h m6 ( s e a r c h m o r e ) 输入:k _ i 量。,n :,口。) ,自然数r 。 输出:更多的与k 的相关的文本。 p r o c e d u r e : u := s e a r c h k c y w o r d - s e t s ( k ) ; i f u 1 妒t h e nf :t h e c l o s e s t - k e y w o r d s e t ( k ,u ) e l s eo u t p u t “n ot e x tw h i c h y o u n e e d a n de x i t ; 6 := t h e t y p e 口一d o s e r - k e y w o r d s e t ( k ,u ,r ,r ) ; a = fuk u6 : w = s e a r c h - t e x t - s e t ( a ) ; o u t p u ta l l t e x t s i nw ; e n d p r o c e d u r e 4 2 检索中查准率的提高 现在回到这一章初提出的第二个问题。显然,要解决第二个问题必须减少找 到的“最接近的关键词集合”r 中的关键词的数量。但是究竟应该去掉哪些关 中山人学硕士学位论文 文本检索中相关性信息的扩展查询 键词呢? 这是一个比较麻烦的问题,因为这些词在前面的定义与算法中,都认为 是“最接近关键词”。如果我们还要从f 中去掉一些关键词,我们必须把f 中的 关键词重新赋权值,并进行向量相关度的计算。针对f 中的词,下面定义了有助 于解决这个问题的卢类型的比较接近关键词”。 d e f i n i t i o n5 给定一个查询词集合k ,假定k 。,k :,e 分别是通过k 搜索 到的文本a 。,a :,a 的关键词集合。令d - k ,u k 2 u u k 。一k ,并假定 i d i | ,l 以及r i k 。,口:- ,口, 是对于k 的一个“最接近关键词集合”。在此建立 两个向量: 1 ) v e c ( d ) 一( m ,既) :彬表示每一个在d 中的关键词七;的初始 权重,彬一1 ,1 is m 。 2 ) v e c ( d a ,) 一,肋:,) :对每一个口( 1 j p ) ,建立向量 v 叫d 口a 肋:一1 + 去;彬“1 s f s 肌; 砌j 。陋i = 4 j 托n ,e r n k i 。 这里,n ,表示集合r 中的第j “词,并且h 表示集合爿的基数。按照两个向 量的夹角计算公式,我们定义下面的计算式: c 觚e 竹c ( d 口,) ,v e c ( d ) ) 。丽( ( v 丽e c ( 珂d ) 邓, v e ;c j ( d i 习a i ) ) ( 4 1 ) 我们说关键词n ,比n ,类型”更为接近k 当且仅当 c l o s e ( v e c ( d a ,) v e c ( d ) ) 苫c l o s e ( v e c ( d a ,) ,v e c ( d ) ) ,1 s s , tsp ,i j 。 上面的定义主要是改变了权值的计算方法,所以关键词的权值与相关度之间 的单调关系是没有被改变的。同样地,按照t h e o r e m ,我们可以得到下面的关 于卢类型的“比较接近关键词的推论。 中山大学硕士学位论文文本检索中相关性信息的扩展查询 c o r o l l a r y3一个关键词口,比关键词d ,“p 类型更为接近k 当且仅当 砌s ( 善【 k :口s k l ,口,r n k f ) ,- v a , ( 善i k :q k r , a , e f 1 1 k f ) 根据上面的阐述,我们不难理解出:一个关键词口,比关键词d ,“卢类型 更为接近k ,实际上就意味着包含口,的那个关键词集合比包含a ,的那个关键词 集合与k 有更多的相同的元素。 下面是搜索更少一些的相关性文本的算法:把r 中的词按照卢类型的“比 较接近关键词”的定义进行了排序,同样给出了一个参数,可以自由的去掉, 个相对小的卢类型的“比较接近关键词”。 a l g o r i t h m7 ( s e a r c h l e s s ) 输入:k i ,口,棚 ,自然数,。 输出:相对少的关于k 的相关文本信息集合。 p r o c e d u r e : u := s e a r c h - k e y w o r d s e t s ( k ) ; i f u i 妒t h e nf :t h e c l o s e s t k e y w o r d s e t ( k ,u ) e l s e o u t p u t “n ot e x tw h i c hy o u n e e d a n de x i t ; 【o 】0 。 f o r 净1 t o l f i c 。m p u t i n g 砌( 善1 k ,:口,k i ,r n k l ) a n d l e t t h e r e s u l t i s i n 【,】 f o ri := 1t o t f o r j :一h t oi i f 【,】 n j 一1 】t h e ne x c h a n g en j a n dn j m 4 ,a n d4 一1 ; d e l e t ea j f r o m f ; 中山大学硕士学位论文文奉检索中相关性信息的扩展查询 ) w e g e t t h e s e tfd e n o t e df ; a = f u k : w = s e a r c h t e x t s e t ( a ) ; o u t p u t a l l t e x t s i nw ; e n d p r o c e d u r e 从上面的讨论,可以看到本文陈述的方法比传统的方法更为合理且有效, 因为它很好的控制了了相关性文本的数量,并且在保证了一定的查准率的基础 上提高的查全率。因此,我们的工作对于搜索相关性的文本信息是很有意义的。 3 7 中山大学硕士学位论文 文本榆索中相关性信息的扩蘸查询 5 1 实验描述 第5 章实验与评估 本论文中搜索相关的文本信息的新思想的提出来源于对文本信息的搜索实 践。为了确保工作是有效的,我们在e l s e v i e rs d o s c h i n a c o n s o r t i u m ( h t t p :e l s e v i e r 1 i b t s i n g h u a e d u c n ) 做了一些实验来验证我们的思想。我们先输入 一些查询词,然后搜索引擎便能给查询到一些相关文本。我们下载这些相关文本 下来,这个时候我们可以得到在d 咖豇如n3 中所讨论的k 。k :,k 。,由于我 们已经证明了“最接近关键词集合”中的相关度计算与k 是成正比的,所以我 们统计了各个y ;,从而可以非常简单的找到相对于我们输入的查询词集合的“最 接近关键词集合”,然后又把“最接近关键词集合”作为查询集合在搜索引擎上 进行查询,我们又找到了大量的文本,根据论文中的思想,这些文本中有很多是 不包含原始查询词的,那么实验的关键就是看这些文本是否与我们要查询的主题 相关。尽管,我们在算法中对原始的搜索技术没有讨论,而是基于布尔搜索,但 是这不影响到我们在本论文要做的研究工作:扩展查询集,搜索那些不包含用户 查询词,而确实又与用户要查询的主题相关的文本信息。我们的实验确实找到了 大量的文本信息。能否说明我们的思想是可行,并且有价值的是我们搜索到的文 本究竟有多少与输入查询词具有主题相关性。我们对在搜索引擎上通过“相关关 键词集合”搜索到的文本进行仔细的查看与统计,最后发现相关性文本的比率还 是非常高的。下面的章节将会列出具体的实验数据并加以科学的分析,来说明方 法的有效性。 5 2 实验结果 为了避免实验搜索主题的片面性,我们搜索的主题分别属于三个不同的学 科:计算机科学、社会学、环境科学。通过对实验结果的分析,我们发现通过该 方法可以找到很多本论文所指出的主题性相关的文本信息。下面把一些统计数据 用表5 1 给出: 中山大学硕士学位论文文本检索中相关性信息的扩腱查询 表5 1 :实验统计数据 n a m e e x p e r i m e n t1e x p e r i m e n t 2 e x p e r i m e n t3 k k 1髟蚝 i 222 r r 2r 3 2 471 2 f n 1 659 在表5 1 中,k 表示输入的查询词集,k = a r m s t r o n gr e l a t i o n ”) ,憋= ”a d u l t l i t e r a c y ”) ,k 32 ”t r e e m a n a g e m e n t ”) ;n t 表示根据输入的查询词集合k 查询到的文本数目;r 表示“最接近关键词集合”,e = f u n c t i o l l a l d e p e n d e n c i e s ” ,r 2 。 a d u l te d u c a t i o n ” ,r 3 = f | u r b a n f o r e s t ”,”u r b a n t r e e “) ; n ,表示根据r 查询到的不包括以的相关文本数目;n 表示按照r 找到的不包含 k 中关键词的符合我们主题的相关文本数目。 。 5 3 评估方法 任何的检索方法或者技术都必须有个评估的标准,并根据此标准进行评 估,否则我们不能知道它是否是可行或者有用的,也就是研究它的检索效果如 何【4 】。为了对本论文的研究工作进行评估,我们先介绍几种评估的方法与一 些文本检索的评估知识。 检索效果是指利用检索系统( 或工具) 开展检索服务时所产生的有效结果。 计算机检索效果如何,直接反映检索系统的性能,影响系统在信息市场上的竞 争能力和用户的利益。 评价系统的检索效果,目的是为了准确地掌握系统的各种性能和水平,找 出影响检索效果的各种因素,以便有的放矢,e 女越系统的性能,提高系统的服 中山大学硕士学位论文文本梭索中相关性信息的扩展查询 务质量,保持并加强系统在市场上的竞争力。检索效果包括技术效果和社会经 济效果两个方面。技术效果主要是指系统的性能和服务质量,系统在满足用户 的信息需要时所达到的程度。社会经济效果是指系统如何经济有效地满足用户 需要,使用户或系统本身获得定的社会和经济效益。因此,技术效果评价又 称为性能评价。社会经济效果评价则属于效益评价,而且要与费用成本联系起 来,比较复杂。 根据f w l a n c a s t e r 的阐述,判定一个检索系统的优劣,主要从质量、费 用和时问三方面来衡量【1 7 1 。因此,对计算机信息检索的效果评价也应该从这 三个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索 费用是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准 备时间、检索过程时间、获取文本时间等。查全率和查准率是判定检索效果的 主要标准,而后两者相对来说不是很重要。 查全率是指系统在进行某一检索时,检出的相关文本量与系统文本库中褶 关文本总量的比率,它反映该系统文本库中实有的相关文本信息量在多大程度 上被检索出来。 查全率= 夏篥喜等嘉淼x 1 0 0 c s 一, 例如,要利用某个检索系统查某个主题。假设在该系统文本信息库中共有 相关文本信息为4 0 篇,而只检索出来3 0 篇那么查全率就等于7 5 。 查准率是指系统在进行某一检索时,检出的相关文本数量与检出文本总量 的比率,它反映每次从该系统文本信息库中实际检出的全部文本中有多少是相 关的百分比重。 查准率二篙器x 1 0 0 ( 5 刊 如果检出的文本总数为5 0 篇,经审查确定其中与项目相关的只有4 0 篇, 另外1 0 篇与该课题无关。那么,这次检索的查准率就等于8 0 。显然,查准率 足用柬描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。查准率 和查全率结合起来,描述了系统的检索成功率。 查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文本 的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索 中山大学颀士学位论文 文本检索中相关性信息的扩展查询 引语言、标引工作和检索工作等有着非常密切的关系。 影响查全率的因素从文本存储来看,主要有:文本库收录文本不全;索引 词汇缺乏控制和专指性;词表结构不完整;词与词之间的关系模糊或不正确: 标引不详:标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。 此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不 当;检索途径和方法太少:检索人员业务不熟练和缺乏耐心;检索系统不具各 截词功能和反馈功能,检索时不能全面地描述检索要求等【1 8 。 影响查准率的因素主要有:索引词不能准确描述文本主题和检索要求:组 配规则不严密:所选的词与词之间关系不正确;标引过于详尽;组配错误:检 索时所用检索词( 或检索式) 指明度不够,检索面比检索要求更广;检索系统 不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截选词的 方法不当,检索式中使用逻辑“或”不当等等。 实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实 验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范 围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。 企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方 面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保 证检索有比较好的效果。 5 4 执行评估 通过上面对检索的评估方法的了解,我们知道对检索的评估主要是查全率 和查准率。对于上一节所提到的花费与时间性能的评估,我们在此不作详细的 论述。因为我们在本论文中主要是提出了解决问题的思想,还没有开发出实际 的检索系统,所以讨论成本花费是没有任何意义的,而对于时间性能,显然我 们的算法都是基于线性时间的。那么,我们对于本论文的解决方法的评估主要 是基于前面的实验数据。在本章第一节,已经详细的论述了为什么我们的实验 能够验证论文中的思想是可行的,并说明了关键问题在于:通过扩展的“最接 近关键词集合”在搜索引擎上查询到的文本是否与初始主题相关。实际上这就 是我们在评估方法里面讲的查准率,即相关率。而对于查全率,我们这里没有 4 1 中山大学硕卜学位论文 文本检索中相关性信息的扩展查询 统计,但是可以说明的是,我们在算法改进的章节里面,已经对查全率进行了 控制,a l g o r i t h m6 就是一个可以搜索更多的相关文本的算法。所以,下面我们 主要计算出查准率的数据,来说明我们确实能通过本文中的“最接近关键词” 找到相关的文本信息,并且数量之多。 根据公式5 2 和表5 1 ,我们可以定义在本论文中的查准率计算式。 d e f i n i t i o n6 给定一个查询词集合x ,假定r 是对于k 的一个“最接近关 键词集合”;一是根据r 查找到的不包括初始查询到的文本总数;是通过仔 细审定查找到的文本内容,最后确定的相关文本数量。那么,我们说此次文本 检索的查准率: m c 协n 一熹x 1 0 0 ( 5 - 3 ) 根据上面的定义,我们能计算上述三个实验的准确率p r e c i s i o n : e x p e r i m e n t j : p r e c i s i o n 。旦1 0 0 :1 6 1 0 0 :6 6 7 r2 4 e x p e r i m e n t 2 : p r e c i s i o n :旦1 0 0 :三1 0 0 :7 1 。4 r 7 e x p e r i m e n t 。3 : 。 p r e c i s i d ”。旦1 0 0 :9 x 1 0 0 :7 5 o j v r 1 2 通过上面的评估执行,我们得到了对实验的评估系数。数据是令我们可喜 的,因为我们可以看到查准率p r e c i s i o n 的百分比数值都是较高的。这说明,通 过“最接近关键词”能够在一般的搜索引擎上找到很多我们需要的主题性相关 文本,并且这些文本与我们初始输入的查询词集合在传统的检索方向上是没有 任何的关系的。而我们却找到了那些相关文本,并且上面的实验数据与评估系 数也充分爵定了论文中的方法的合理性与可行性。 4 2 6 i 本文工作总结 第6 章总结 本文主要阐述了一个搜索相关性文本信息的新方法。主要工作包括: 1 1 引入了根据相关关键词搜索相关的文本信息的问题。该问题不同于传统的 检索模型所讨论的相关性检索,因为有一个很大的不同点就是传统的检索 技术搜索到的相关性文本信息的索引集或者全文一定包含用户输入的查询 词,而我们认为存在很多文本即使不包含用户输入的查询词,仍然是与用 户所需求的主题相关的文本。本文着重阐述怎么样找到这些相关性文本信 息。 2 、讨论了文本检索中关于相关性的诸多问题,并指明本文所讨论的相关性是 基于文本的主题性相关的。另外,论文中阐明了文本的主题性相关检索必 须考虑词的相关性对检索性能的影响。 3 、分析了文本检索领域中的检索模型与技术与本文思想的异同点。本文的思 想主要是从向量模型出发,讨论文本中的关键词与查询词集合的相关度, 从而找到论文中定义的“最接近关键词集合”。最后,通过“最接近关键词 集合”来搜索本文所指出的相关性文本。虽然是以向量模型为基本计算方 法,但是考虑了原始向量模型没有考虑的词的相关性问题。可以说是向量 模型的一个补充与改进。更重要的,用向量模型解决了传统模型所没有讨 论的另外一个方向上的相关性文本信息的检索。纵然目前的同义词技术, 自然语言处理也能解决我们提出的相关性问题。但我们知道,同义词技术 花费量大,且基本上只对汉语语言有一定的实用性。自然语言的处理,涉 及到语义计算的问题,技术还不成熟。可见,我们以向量模型为基础,考 虑词与词的相关性,通过“最接近关键词集合”解决这类相关文本信息的 搜索,可以说是个好方法。 4 1 论文中考虑到检索性能问题,提出了搜索更多或者更少的这类相关性文本 的方法。要想搜索到更多的相关性文本,不是盲目的把那些文本给找出来, 而需要考虑到那些文本与用户的查询主题的相关度问题。如果要使得搜索 的相关性文本相对少些,也肯定是需要剔除那些具有相对较小相关度的文 中山_ 人学硕士学位论文 艾本检索中相关性信息的扩腥查询 本。所以,论文中给出了两个类型的“比较接近关键词”的定义来分别解 决这两个问题。 5 、基于i n t e m e t 上搜索引擎的实验,验证了论文中阐述的相关性问题的存在以 及我们通过相关关键词进行扩展查询的效果是不错的。信息检索的技术研 究中实验与评估是必不可少的。我们通过实验模拟了我们搜索相关性文 本信息的思路。通过对实验数据的分析,以及通过查准率和查全率的结果 来看,其方法确实是有效的。 6 2 未来的工作 本文讨论搜索相关的文本信息,它的特点是找出那些不包含用户输入词的 相关文本信息,通过实验我们也可以看到确实能够找到这样的相关文本信息。 如果想让我们的方法与研究更加完善,未来的工作中有如下问题需要考虑: 1 ) 一词多义的问题影响着我们的搜索结果。例如,当有某一文本的关键词集 合为 r i v e r ”,“b a n k ”) ,而另一个文本的关键词集合为 “a c c o u n t ”,“b a n k ”) 。那 么,这两个文本显然不是相关的文本,因为前者谈论的是与河有关的主题, 而后者所讨论的却是与银行相关的主题。根据算法和定义,在搜索时肯定 会把这样的文本作为相关主题的文本而搜索出。而实际上,它们有可能是 不关系的。这个问题是由于一词多义而造成的,传统的方法也不能解决这 个问题,因为在不去理解语义的情况下,这个问题是很难解决的。 2 ) 我们的“最接近关键词集合”是整个思想的核心,它是在搜索到的相关文 本集的关键词集合的基础上通过计算得到的。但是这些关键词集合我们就 是通过析取范式的布尔搜索检索到的。我们在文中没有重点的去讨论这个 问题。那么这些初始搜索到的文本与用户查询的相关度是否对我们的“最 接近关键集合”的相关度有影响呢? 这又是个非常值得研究的问题,这 样势必会更好的提高检索的性能。 3 ) 任何的科学研究只有在实践运用中,j 1 能体现出研究的最终用途。而本文 的思想与算法还缺乏在检索系统中去执行体现,如果有可能,把这个思想 和算法运用到检索系统中是一个非常具有挑战性,更有意义的工作。 中山人学硕上学位论文文本枪索中相关性信息的扩展查询 第7 章结束语 随着信息时代的到来,专家们预测,在未来的几十年内,新产生的信息量 将等于人类以往文明史的总和。如何有效、快速、准确地在信息海洋中找到我 们所需要地信息,使之成为重要资源,已是信息时代人们的重要需求,因而, 信息检索技术在信息社会中将发挥越来越重要地作用,为使信息尽快成为现实 的战略资源,深入研究信息检索技术,是当| i i 一个非常重要地任务。 文本检索是现代信息检索中最具有诱惑力的科技技术,它需要语言学、人 工智能、信息技术与计算机技术等领域共同协作研究,许多技术还有待于探索 解决。在文本检索中,如何检索到相关的文本信息一直是研究的一个热点,而 如何利用词与词之间的相关性去解决文本的相关问题,更是这个热点中的难点。 文本检索系统的设计目的不仅是给用户提供相关的文本信息,更重要的是 提供直接有实际作用的文本,即能够满足用户的某一特定兴趣,直接影响到用 户的某一个特定活动,从而有助于解决用户的某一特定问题。这才是用户进行 检索的真正的意图。而这个意图就需要文本检索中,检索到的文本必须具有较 大的相关性,如果检索到大量的不相关或者较小相关的文本,给用户带来了很 多不便,提供大量的冗余信息,增加了消耗,这是不可取的。这也与用户检索 的意图相违背,所以,文本检索中,相关性文本的检索探讨是一个永恒的话题。 信息检索系统在用户检索过程中处理的并不是用户需求和原始文本的主题 内容之间的关系。由于用户受主观条件的限制和客观条件的影响,对信息需求 的表示并不能保证完全符合其需求,所以在对检索出文本进行相关性判断时, 最重要的是判断它于信息需求、信息使用之间的相对关系,坚持信息的效用性 原则。在未来的研究里,怎么样把用户实际的主题性表示,以及用户自身对文 本的相关性判断引入到文本信息检索中是一个值得探索的问题,也是信息检索 领域一个更高层次的研究。 ! 些_ 人兰堡兰堂竺堕苎塞查丝墨! 塑茎丝堕皇塑芏壁奎塑 参考文献 【1 】c o o p e r , w s ,a d e f i n i t i o no fr e l e v a n c ef o ri n f o r m a t i o nr e t r i e v a l ,i n f o r m a t i o n s t o r a g e a n dr e t r i e v a l ,1 9 7 1 ,7 ( 1 ) :1 9 - 3 7 【2 】c u a d r a ,c a a n dr v - k a t t e r , e x p e r i m e n t a ls t u d i e s o fr e l e v a n c e j u d g m e n t s : f i n a lr e p o r t i :p r o j e c ts u m m a r y ( n s f r e p o r tn o t m 3 5 2 0 0 0 i 0 0 ) ,s a n t a m o n i c a ,c a :s y s t e md e v e l o p m e n tc o r p o r a t i o n ,2 0 0 0 【3 】c o o p e r , w s ,o ns e l e c t i n ga m e a s u r eo fr e t r i e v a le f f e c t i v e n e s s ,p a r t1 ,t h e s u b j e c t i v ep h i l o s o p h yo f e v a l u a t i o nj o u r n a lo ft h ea m e r i c a n s o c i e t y f o r i n f o r m a t i o ns c i e n c e ,1 9 7 3 ,2 4 ( 2 ) :8 7 1 0 0 【4 】r i j s b e r g e n ,i n f o r m a t i o nr e t r i e v a l ,s e c o n de d i t i o n ,h t t p :w w w d c s , g l a a c u k k e i t h p r e f a c e h t m l ,1 9 7 9 【5 】r i c a r d ob a e z a - y a t e s ,b e r t h i e rr i b e i r o n e t o ,m o d e mi n f o r m a t i o nr e t r i e v a l , e n 百a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论