(系统工程专业论文)文本信息检索中修饰语作用的研究.pdf_第1页
(系统工程专业论文)文本信息检索中修饰语作用的研究.pdf_第2页
(系统工程专业论文)文本信息检索中修饰语作用的研究.pdf_第3页
(系统工程专业论文)文本信息检索中修饰语作用的研究.pdf_第4页
(系统工程专业论文)文本信息检索中修饰语作用的研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(系统工程专业论文)文本信息检索中修饰语作用的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络信息时代的到来,信息日新月异,并呈指数增长趋势,形成“信息 爆炸”。在进行信息检索时,与用户需求匹配的信息经常不在检索结果内,而大 量用户不需求的信息“信息垃圾”,却占用检索结果的相当大的部分。因 此,改进文本信息检索系统的检索性能,提高检索质量就成为亟待解决的问题。 该论文的主要研究目的是,针对可能影响检索效力的一个容易被忽略的因素 修饰语,研究其在文本信息检索中的作用。针对这一目的,开发了改进的向 量空间模型( m o d i f i e d v e c t o r s p a c e m o d e l ,m v s m ) ,并使用英文文本进行了试验, 进而说明修饰语的作用。 本文通过对修饰语作用的研究,主要取得以下成果: ( 1 )传统模型( 如布尔检索模型) 的查询语句关键词以及文本关键词仅仅为 独立的实词( 名词、动词、形容词、副词) ,将传统的向量空间模型( v e c t o r s p a c em o d e l ,v s m ) 进行改进,设计并实现了能够完成该研究目的的信 息检索模型( m v s m ) 。该模型与传统向量空间模型主要区别以及优点 在于:它将传统的检索关键词( 本文中主要指名词) 与修饰它的修饰语 ( 本文中主要指形容词) 作为一个整体关键词来看待,一定程度上确定 了歧义词的真正含义;同时,将检索关键词中的修饰语以及它所修饰的 中心词根据它们的同义词进行扩展并重组,使得一些由于用词生僻而原 本检索不出来的却符合用户需要的文本能够检索出来。 ( 2 )使用标准语料库( t r e c ) ,运用设计好的m v s m 模型,输入共1 5 0 个查 询语句,进行各种针对修饰语的试验,并将其结果与普通检索试验的结 果进行比较,从而说明了考虑了修饰语的模型的意义。 ( 3 )对于信息检索系统主要从精确率、召回率两方面指标进行评价,并使用 e x c e l 画出试验结果图进行统计说明,更加形象地看出,m v s m 模型的 检索精确率、召回率比普通检索有一定程度提高。试验结果表明,修饰 语在文本信息检索中的作用的确不可忽略。 关键词:文本信息检索、修饰语、向量空间模型、精确率、召回率 a b s t r a c t w i t ht h ec o m i n go fi n t e m e te r a i n f o r m a t i o n c h a n g e se a c hp a s s i n gd a ya n d s h o w sa ne x p o n e n t i a j i n c r e a s i n gt e n d e n c y w h i c hl c a d st o j n f o r m a t i o ne x p l o s i o n h o w e v e r , t h ep h e n o m e n o nh a p p e n sm o r eo f t e nt h a nn o tt h a ti sw h e np e o p l er e t r i e v e d o c u m e n t s ,t h ee x a c ti n f o r m a t i o nw h i c hd i dm a t c ht h en e e dc a n tb eo b t a i n e d ,o nt h e c o n t r a r yt o om u c h i n f o r n - i a t i o nr a s h w h i c hi so u to ft 1 1 en e e do fu s e r s i se n g e n d e r e d t h e r e f o r e ,i m p r o v i n gt h ee f f e c t i v e n e s sa n dq u a l i t yo ft h ei n f o r m a t i o nr e t r i e v a l ( i r ) s y s t e m h a sb e c o m ead e s i r e di s s u e t h eo b j e c t i v eo ft h i sp a p e ri st or e s e a r c hi n t ot h ei m p o r t a n c eo fm o d i f i e rw o r d s w h i c hi saf a c t o ro f t e ni g n o r e db u tm a y b ei n f l u e n c e si rs y s t e me r i e c t i v e n e s s t o d o c u m e n ti n f o r m a t i o nr e t r i e v a l a c c o r d i n gt ot h i s am o d i f i e dv e c t o rs p a c em o d e l ( m v s m ) i sd e v e l o p e d e x p e r i m e n t su s i n ge n g l i s hd o c u m e n t sa r ea l s od o n et os h o w t h ei m p o r t a n c eo fm o d i f i e rw o r d s d u r i n gt h ec o u r s eo fr e s e a r c h ,t h ea c h i e v e m e n tc a n b es u m m a r i z e da sf o l l o w s : ( 1 ) i nt h et r a d i t i o n a lk e y w o r d b a s e di n f o r m a t i o nr e t r i e v a lf i r ls y s t e ms u c ha s b o o l e a ni r m o d e l ,q u e r i e sa n dd o c u m e n t s a r er e p r e s e n t e db ym a n y s e p a r a t e d w o r d so rt e r m so fw h i c hs o m ea r en o u n sa n dv e r b s ,a n ds o m ea r ea d j e c t i v e s a n da d v e r b s b a s e do nt h et r a d i t i o n a lv e c t o rs p a c em o d e l s m l m v s mi s d e s i g n e da n dr e a l i z e d t h em a i nd i f i e r e n c eb e t w e e nt h et r a d i t i o n a lo n ea n d t h en e wo n ei st oc o m b i n et h em o d i f i e r ( a d j e c t i v ei nt h i sp a p e r ) w i t hi t s c o r r e s p o n d i n gh e a d w o r d ( n o u n i nt h i s p a p e r ) a si n t e g r a t e dk e y w o r d ( c o m b i n e dt e r m ) i nt h en e wm o d e l ,w h i c hc a nc o n f i r mt h ee x a c tm e a n i n go f p o l y s e m y t os o m ee x t e n to nt h eo n eh a n d m e a n w h i l e e x p a n d i n g t h e m o d i f i e ra n dh e a d w o r da c c o r d i n gt ot h e i rs y n o n y m sa n dr e c o m b i n i n gt h e m c a nr e s u l ti n f i n d i n g o u ts o m eo t h e ru s e f u ld o c u m e n t s w h i c hc a r l 。tb e o b t a i n e do r i g i n a l l yb e c a u s eo f t h er a r ek e y w o r d so f q u e r i e s ( 2 ) e x p e r i m e n t sf o rv e r i f y i n gt h ei m p o r t a n c e o fm o d i f i e rw o r d sh a v eb e e n i m p l e m e n t e db yu s i n gb e n c h m a r kc o r p o r a ( t r e c ) t h em v s m i sa p p l i e dt o t h ee x p e r i m e n t s a n d15 0q u e r i e sa r ei n p u t t e di nf o rt e s t b yc o m p a r i n gt h e r e s u l t so b t a i n e df r o mm v s mw i t ht h a to ft r a d i t i o n a lv s m t h ed i f i e r e n c ei s r e m a r k a b l e s h o w i n g t h eg r e a ti m p o r t a n c eo f m o d i f i e rw o r d s ( 3 ) i n f o r m a t i o nr e t r i e v a lm o d e l st y p i c a l l ye x p r e s st h er e t r i e v a lp e r f o r m a n c eo f t h es y s t e mi nt e r m so ft w oq u a n t i t i e s :p r e c i s i o na n dr e c a l l a n df r o mt h e r e s u l tc h a r t si ne x c e lf o r m a tb o t ho ft h ep r e c i s i o na n dt h er e c a l lo fm v s m a r ef o u n di n c r e a s e d v i s u a l l y t h ee x p e r i m e n t r e s u l t ss h o wt h a tt h e i m p o r t a n c eo fm o d i 矗e rw o r d sc a n t b e i g n o r e di nd o c u m e n ti n f o r m a t i o n r e t r i e v a l k e y w o r d s :d o c u m e n t i n f o r m a t j o nr e t r i e v a i :m o d i f i o r w o r d s :v s m : p r e c i s i o n :r a t a l | i i 文本信息检素中修饰语作用的研究 1 引言 1 1 论文背景 该论文来源于大连理工大学系统工程研究所与日本j u s t s y s t e m 公司的国 际合作项目( 在自然语言处理中根据文本信息前后关系改进向量空问模型检索效 力的研究) “i m p r o v i n g t h ea c c u r a c yo f t h ev e c t o rs p a c er e t r i e v a lm o d e lb y u s i n g t h ec o m e x m a li n f o r m a t i o n a m o n g t h en a t u r a ll a n g u a g ed a t a ”。该项目从2 0 0 3 年 4 月开始,直到2 0 0 3 年1 2 月彻底结束。通过研究该项目,获得了一些可喜的成 果,对提高检索效力的实现有很大意义。其中,参加该项目的主要成员如下: j u s t s y s t e m 公司: h i r o s h im a t s u d a 、h i r o k it a n i o k a 、w a n gs h i z h u 、k e n i c h iy a m a m o t o 系统工程研究所: 老师:王众托院士、吴江宁教授、潘东华教授 学生:马晖男、张隽 本论文的主要侧重点为模型建立及算法研究。 1 2 问题的提出 1 2 1 高速发展的现代信息技术的产生 中国人对i n t e r n e t 已经熟悉,继北京1 9 9 5 年6 月开通公众i n t e r n e t 服务 后,短短的几个月后上海、珠海、天津、重庆等大城市相继开通了这类服务。据 国家经济信息化联席会议办公室统计,1 9 9 6 年我国与国际计算机互联网络联接 的主机由4 0 0 多台增加到6 0 0 0 多台,用户由3 0 0 0 多户增加到4 万多户,至1 9 9 6 年底就有一万台主机、1 0 万个用户入网。据美国“i n t e r n e t 协会”发表调查报 告,i n t e r n e t 在国外的影响更为巨大,全球范围日常联接i n t e r n e t 计算机约有 3 2 0 万台,实际用户多达3 2 0 0 万人。另据美国i n p u t 公司统计,1 9 9 6 年年底 i n t e r n e t 总用户数已超过两亿个,2 0 0 0 年已覆盖全球1 0 0 万个网点、l 亿台计 算机、l o 亿用户,而且目前正以指数级速度增长【”。 通过i n t e r n e t 网络,用户可以获取非常广泛的信息资源,可以参与各学科 文本信息检索中修饰语作用的研究 各热点问题讨论,同时i n t e r n e t 愈来愈多地吸引各领域的研究者开发i n t e r n e t 新技术,并日益扩展其功能,i n t e r n e t 也吸引越多的信息资源的提供者,使网 络资源日新月异。因此i n t e r n e t 己成为现代科学技术交流最基本的技术设施。 在印刷产品出现的同时,先期产生了电子产品文献,为电子文献取代印刷文 献打下基础。特别随着计算机网络和光盘网络的发展,利用计算机书目检索系统, 实现书目系统检索全面计算机化为彻底取代手工检索打下基础。飞速发展的现代 信息技术,把我们的社会推向了信息社会,这个时代,社会的各个方面都在变革, 与信息技术息息相关的文本信息检索课题更是面临严重的挑战。 1 2 2 现代信息技术对文本信息检索的影响 现代信息技术的产生,使得人们在进行信息检索时,信息源更加广泛。但是, 信息日新月异,并呈指数增长趋势,形成了“信息爆炸”。由于信息过多、过繁, 种类各式各样,导致了用户在进行信息检索时,有时候得到的查询结果非常多, 甚至多达几个网页,花了很多时间阅读,而真正合要求、有价的网页不多,也就 是说,大量用户不需求的信息“信息垃圾”占了检索结果的相当大的一部分; 有时候得到的与用户需求匹配的信息非常少,甚至不在检索结果内,大大不能满 足用户的需求。 据分析,产生信息垃圾的原因分析如下: ( 1 ) 切词【2 ,3 l :英语文本中词与词之间存在间隔符,可以自然分开,不用进 行切词。对中文文本处理过程中,先要经过切词。当中文信息处理从 “字处理”阶段过渡到“词处理”阶段时,必须对由连续的汉字流构 成的、单词之间无空白的汉语书面文本进行自动切分,然后迸行词频 统计。因此,切词的准确性大大影响了检索结果; ( 2 ) 歧义词的辨析【4 】:个词、短语或句子可以作两种或两种以上的理解, 或者说有两种或两种以上的意义,这种现象称为歧义。在中英文中, 大部分的词,有不同的意思,如黑车,既可以理解成黑色的车,又可 以理解成违法的车。计算机由于难以准确地识别正确的含义,将包含 相同词的文本都查了出来,产生了大量的垃圾: ( 3 )同义词的扩展 3 】:表达同一个意思的时候,可以使用不同的方式、不同 的用词,如“电脑”与“计算机”,“汉语”与“中文”,它们代表同一 种意思。单纯依赖机械的关键字匹配,可能会造成检索不全面,漏掉 文本信息检索中修饰语作用的研究 很多相关文本。 因此,很需要一个能够滤去大量的信息垃圾,同时又能够将用户们真正需要 的文本留下的工具和方法。虽然用于文本信息检索的模型很多,并且在某些程度 上能够满足用户的检索需求,为信息爆炸时代的到来,网络用户进行文本检索做 出了巨大贡献。但是,它们都忽略了一个可能影响检索效力的重要因素修饰 语的作用。 本文正是致力于提高信息检索效力,从而来进行对修饰语作用的研究。 1 3 文本信息检索的几种模型比较 1 9 5 7 年,y 巴一希列尔( b a r h i l l e l ) 最先探讨了布尔逻辑应用于计算机检 索的可能性。1 0 年后,布尔检索模型正式被大型文献检索系统所采用,并逐渐 成为各种商业性联机检索系统的标准检索模式。此外,其它类型的检索模型也相 继出现,如向量空间模型( v s m ) 、概率检索模型( p m ) 、模糊集合模型、扩展 布尔检索模型、潜在语义检索模型( l s i ) 等。下面,将对它们作一简单描述: 一、布尔检索模型 布尔检索模型【5 】基于集合论。文本被表示为短语集合,查询语句为基于短语 的布尔表达,根据布尔检索公式来进行检索。该搜索机制进行完全匹配,那些符 合布尔查询的文章被作为相关文章,其它的作为不相关的文章。这种模型主要用 于商业文本搜索系统。 布尔检索模型具有简单、易理解、易实现以及能处理结构化提问等优点1 6 j 。 不过,由于它采取准确匹配策略,太僵硬,因此它的主要缺陷是,无法搜出那些 符合要求但查询用词不同的文章,带有一定的主观性。 二、向量空间模型( v s m ) 向量空间模型( v s m ,v e c t o rs p a c em o d e l ) 1 5 7 ,趴就是将文本和查询语句尽 可能地在搜索短语空间中,用向量表示。文本向量由短语权重( 即短语在文本集 中的频率) 构成:而查询向量就是那些基于短语的二元向量。是否匹配是基于文 本与查询之间的相似度来确定的( 通常由查询向量和给定的文本向量之间的余弦 夹角来表示) 。当全部文献向量与某个提问向量的相似度都计算完毕后,系统就 把相似度超过某一规定阈值的文献( 或者根据预定要检出的文献数量) 按相似度 大小降序排列输出。 采用这种向量检索模型的典型系统就是g 萨尔顿( s a l t o n ) 等人6 0 年代中 文本信息检索中修饰语作用的研究 期开始研制的试验性系统一s m a r t ( s y s t e m f o r m e c h a n i c a l a n a l y s i s a n d r e t r i e v a l o f t e x t ) 【6 1 。 该模型优点1 9 j :用户提问向量能够完整的表达用户需求:输出结果按匹配程 度排序;不止依靠概率统计频数,还引入权重概念:能提供相关文档的文摘。向 量空间模型为信息检索的基本原理做出重要贡献。但它也存在着某些明显的缺陷 叫:对索引词两两正交的假设太僵硬:向量空间维数的改变对检索结果产生影响。 三、概率检索模型( p m ) 概率检索模型( p m ,p r o b a b i l i s t i cm o d e l ) f 6 19 】是根据概率排序规则进行的。 基本的文本检索推理网络包括文本网络和用户提问网络。文本网络使用不同的文 本表示框架来表示文本集,对每一个文本集,文本网络只建立一次,且在检索过 程中不改变其结构。用户提问网络则只有一个表示用户提问信息的节点及一个或 多个查询表达式。文本网络与用户提问网络之间的连接则出文本概念表示节点与 提问概念表示节点之间的链来表示。不论是文本网络还是用户提问网络,每一节 点有一个概率值。节点与节点之间的因果关系表示为;给定文本节点的先验概率 及中间节点的条件概率,就能得到每一节点的后验概率。原始文本集与用户提问 集经过概率计算,得到文本与用户提问的匹配程度。该推理机制与人脑思维模式 相似,因此,概率推理网络经提出就受到了广泛重视。 该检索模型主要优点:用户输入为自然形态词或词组,可以全面反映用户的 需求;按照匹配度进行排序,输出结果。缺点:参数估计难度大,当许多文本含 有相同数量的匹配词或者词组时,此办法依旧不能区分各文本的重要性。 四、模糊集合模型 模糊集合模型【6 l 建立在模糊集合论的基础上。对于每个标引词,都存在一个 模糊的文献集合与之相关。同时,对某一给定的标引词,用某种隶属函数去表示 每文献与该词相关的程度,即隶属度 0 ,1 】。当全部文献标引完毕后,实际上 就已经为每个标引词定义了一种隶属函数,指明了每一文献与每个标引词的相关 程度。提问可以用布尔表达式表示,并指定所需文献对每个标引词的隶属度。检 索过程中,模糊集合的运算根据扎德所定义的规则来进行。最后,将检索结果按 文献的权值排序输出。 该模型的主要优点是:它比布尔检索更具灵活性,能满足那些既想利用布尔 检索的长处,又想避免其二值相关测度的局限性的需要;文献可按用户定义的重 要程度排序输出。它的主要缺点是:由于它建立在布尔检索的框架内,故它也带 有传统布尔模型的某些缺陷;其排序能力对提问式中的所有词并不灵敏:如何定 文本信息检索中修饰语作用的研究 义隶属函数比较难。 五、扩展布尔检索模型 扩展布尔检索模型 6 1 是8 0 年代初出现的一种更灵活的布尔提问处理技术。 它用一个标准化的距离函数( 基于线性向量范数) 来匹配提问式与文献。 该模型优点:它适应常规布尔检索中的标准提问式结构,且通过计算提问 文献的相似度,可以避免潜在的无意义解释:许可在文献表示和提问式中加入词 权值:可以按相似度的降序来排列输出文献,因而在响应某一给定提问时,可以 控制要检索的文献数量。缺点:对于查询用词不同的文章依然无法搜出。 六、潜在语义检索模型( l s i ) 潜在语义检索模型( l s i ,l a t e n ts e m a n t i ci n d e x i n g ) l l o 1 1 , n 1 就是将短语与文 本之间用潜在语义关系来表示。它通过降维的奇异值分解来分析文本中用词的概 念结构。应用单值与降维的奇异值分解获得的相关向量,将多维向量空间表示成 一个与较低维向量空间相映射的相关的短语文本。 它能够反映出文献集中相关的主题模型,面忽略掉那些次要因素。尽管潜在 语义检索模型通过标准的词汇检索技术能够体现出有意义的检索性能,但是由于 它的复杂性,使得它的操作效率,尤其是处理大量的文献集的时候,远远差于那 些简单的模型,如布尔模型。 总的说来,这些模型的实现基本存在以下困难: ( 1 ) 传统的基于关键字检索和统计技术的信息检索存在同义词问题,多义词 问题,短语问题,局部性问题和全局性问题等局限性。 ( 2 ) 分词与词性标注过程中存在歧义问题。 ( 3 ) 中文文本中,短语边界确定,短语语义标注也是一个需要进一步研究的 课题。 ( 4 ) 语段中的指代和省略问题的解决需要引入语境分析技术。 综上所述,以上几种检索模型可说是各具特色,虽然不同检索模型使用的方 法不同,但所要达到的目标是相同的,即按照用户要求,提供用户所需的信息。 1 4 对修饰语作用的分析及解决思路 1 4 1 对修饰语作用的分析 总的说来,修饰语具有如下两个作用 文本信息检索中修饰语作用的研究 1 语义性。修馋语要与中心词搭配,加入了一定程度的上下文关系。从语 法角度来看,形容词雌1 t “,16 j 指的是这样些词或短语,它们指明了一种属性, 从语法上,与名词相关,用来修饰名词或描述名词:副词 16 】则是修饰或限制如形 容词、动词、副词或这些词性的词组,表明了地点、时间、环境、方式、原因、 程度等关系。在本文中,形容词和副词被称为修饰语( m w s ) ,名词和动词被称 为中心词( h w s ) 。 2 限制性。一些修饰语与中心词的搭配是有一定原则或要求的,如英语中 不能够用修饰语b e a u t i f u l 来修饰中心词b o y 。 因此,假如形容词或副词独立存在,就没有实际的意义。也就是说,形容词 和副词都是限制性词,而不是独立概念,它们在用户查询语句或文献集中,都起 到限制和语义修饰的作用。 由上可见,对这些起限制和语义修饰作用的修饰语进行重点研究,会使检索 系统的检索结果更加理想,改进文本信息检索系统的检索性能,提高检索质量。 1 4 2 解决思路 在目前所存在的检索系统中,根据所表达的词性分析,索引关键词一般都为 独立的名词、动词、形容词、副词这样的实词。由于形容词或副词这样的起修饰 作用的词独立存在没有实际意义。因此,有如下想法:若将修饰成分与中心词组 合为整体,比如将查询语句中的形容词与它所修饰的名词作为一个整体,这样, 倘若有的名词有很多意思,而被某个形容词修饰后它的意思在一定程度上便明 确了,一定程度上确定了歧义词的真正含义。这样,所搜的文章的范围便相对减 小了,能够将那些虽然同形,但意思不对的文章,即信息垃圾筛掉:另外,由于 表达一个意思的词有很多,作者们写作风格不同,用词也不同,所以,为了扩大 符合查询语句要求的文章的覆盖范围,就耍对查询语句进行查询扩展( 当然,既 可以扩展修饰语,又可以扩展中心词,本文中主要研究的是修饰语作用,因此主 要研究扩展修饰语) 。 由于检索过程中,查询语句最常使用的修饰语与中心词般为形容词修饰名 词这种形式,而且,副词作为修饰语的情况与形容词的类似,因此,本论文以研 究形容词作为修饰语,名词作为中心词为重点,来研究其中的修饰语。 基本的方法是:将带有修饰语的查询语句中的修饰语与它所修饰的中心词作 为一个整体( 本文中称这样的整体为合成短语) ,并可根据需要,通过模糊同义 义本信息检索中修饰语作用的研究 词词典进行查询扩展,将得到的新的修饰语与新的中心词重新组合成新的具有相 近意思的合成短语,并重新计算这些合成短语的权重以及文本向量与查询向量间 的相似度。 例如: 带有修饰语的查询语句为:“f i n dd o c u m e n l st h a td i s c u s si n s t a n c e sa b o u t r i o l e n tc r i m e ” 传统模型中检索关键词为 i n s t a n c e s ,v i o l e n t ,c r i m e 改进的模型中检索关键词为 i n s t a n c e s ,v i o l e n tc r i m e 如果i n s t a n c e 的同义词有a = i n s t a n c e ,c a s e ,e x a m p l e v i o l e n t 的同义词有b = v i o l e n t ,f i e r c e ,f u r i o u s ,t e r r o r i s t c r i m e 的同义词有c = c r i m e ,o f f e n c e 则改进的模型中经过查询扩展之后的检索关键词为 a ,b c l 改进的检索模型与传统检索模型主要区别以及优点在于:它将传统的检索关 键词( 本文中主要指名词) 与修饰它的修饰语( 本文中主要指形容词) 作为一个 整体关键词来看待,一定程度上确定了歧义词的真正含义:同时,将检索关键词 中的修饰语以及它所修饰的中心词根据它们的同义词进行扩展并重组,使得一些 由于用词生僻而原本检索不出来的却符合用户需要的文本现在能够检索出来。 相关的 不相关 检索到的 未检到 时确率:召:回率:- : 【 o o i : i i 0 0 : 信息 垃圾 图1 i 理想的检索结果 f i g ,1 1i d e a lr e t r i e v a lr e s u l t 相关的 不相关的 检索到的 未检到 卜:- : 瞻息: 瞳畦 图1 2 普通检索的结果 f i g 1 2n o m l a l r e t r i e v a lr e s e t 文本信息检索中修饰语作用的研究 相关的 不相关的 检索到的 未检到 r _ 匝 要塞口 图1 3 合成短语作关键词的检索结果 f i g 1 3c o m b i n e m o d i f i e ra n dc e n t r a l w o r dr e s u l t 相关的 不相关 图1 4 合成短语作关键词 并扩展修饰语的检索结果 f i g 1 4e x p a n d m o d i f i e r sr e s u l t 图1 5 修饰语、中心词都扩展的检索结果 f i g 1 ,5e x p a n d m o d i f i e r sa n dh e a d w o r d sr e s u l t 图1 1 图1 5 分别给出了理想的检索结果、普通检索的结果、合成短语作 关键词的检索结果、合成短语作关键词并扩展修饰语的检索结果、修饰语中心词 都扩展的检索结果。这些图中,将检索的结果分为四个区域:为检索出来的并 且对用户有用的文本;为对用户有用,但系统却没有检索出来的文本;为检 索出来的,但是对用户却没有用的文本,即信息垃圾;为既没有检索出来,而 且对用户也没有用的文本,这一部分我们就不关心了。我们的预计效果是:强调 修饰中心词的修饰语,即将修饰语与中心词的合成短语作检索关键词,区域的 阴影范围就要缩小,去掉了部分垃圾,提高了文本检索的精确率,但要牺牲一部 分召回率;经过查询扩展,区域的阴影范围就要相对增加,使原来没有检索出 来的有用的文本现在能够检索出来,提高了文本检索的召回率,相对的要牺牲一 定的精确率。最后,究竟是精确率提高得更多,还是召回率提高得更多,要通过 该系统的实现来说明。 文本信息检索中修饰语作用的研究 1 5 本文所做的工作 由于对中英文进行文本检索的处理方法有点不同:处理中文文本时,首先要 对中文语句进行切词,然后才能够进行其它的处理步骤。而切词的准确率将会大 大影响到检索最终结果:处理英文文本时,由于英文的词与词之间都是用空格来 区分的,所以,不必经过切词步骤。由于该论文的目的仅仅是研究修饰语在 检索过程中的作用到底有没有、重不重要,无论对英文文本还是中文文本进行检 索,其结论都是相同的。为了便于研究,仅对英文文本进行了修饰语作用的研究 便足够了。 为了研究文本信息检索中修饰语的作用,设计并实现了一种能够完成该研究 目的的信息检索模型( m o d i f i e dv e c t o rs p a c em o d e l ,m v s m ) ,它是以传统的向 量空间模型( v s m ) 为基础的,不同之处在于,m v s m 模型的关键词是通过将 用户的查询语句中的修饰语与中心词合成,作为整体关键词,同时将修饰语与中 心词分别扩展并重组;而传统的v s m 模型的关键词仅仅为独立的实词。 之所以选用向量空间模型,是因为目前所有检索模型中,向量空间模型在信 息检索研究中影响力最大,它在性能方面优于其它模型【5 1 。因此,研究中,采用 向量空间模型来构造这个改进的信息检索系统。 论文中,不仅建立了新的模型,还指出如何计算向量中合成短语的权重。由 于满足带有修饰语的查询语句不是很多,为了更加明确修饰语的重要性,还根据 需求,构造了4 2 个查询语句。所设计的m v s m 信息检索系统,由于修饰语的限 制,使文章的搜索领域针对客户需求相对缩小了;同时,又由于对查询语句的扩 展,使得那些虽然没有包含查询语句中的相同的短语,但却与查询语句相关的文 章也能够检索出来,扩大了检索覆盖面。试验通过标准语料库t r e c ,来测试检 索的效果。 试验中,由于没有满足试验需求的解析器,将j u s t s y s t e m 公司的j p o t 解析器结合世界著名的a p p l e p i e p a r s e r 解析器加以改进,开发了n l p s 解析工具, 并对其进行了测试评估。 为了对m v s m 系统的检索质量进行评价,从而说明修饰语的作用,进行了 以下五种试验:普通检索试验( n s ) 、中心词加权检索试验( h w t s ) 、中心词加 权并扩展检索试验( h w t p l u s e s ) 、修饰语形容词检索试验( m a s ) 以及查询语 句过滤试验( q f ) 。 文本信息检索中修饰语作用的研究 2 文本信息检索系统研究的理论基础 随着因特网和光盘等大容量存储技术的迅速普及,机储文本语料库的规模己 冲破1 万亿( 1 0 坨) 字节【1 7 1 。这种情况一方面带来了巨大的商业利益,促进了信 息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模 真实文本信息处理技术的革新。 图2 1 给出了文本信息检索、文本信息处理、自然语言理解、自然语言处理、 语料库之间的关系f 1 8 1 9 2 0 l : 自 然 语 图2 ,l 自然语言处理机制 f i g 2 1t h e m e c h a n i s mo f n a t u r a ll a n g u a g e p r o c e s s i n g 由于机器不能够像人那样去理解自然语言,因此,要将自然语言进行一定处 理,从而达到对自然语言的理解。这一过程中,基于语料库的方法是将自然语言 处理达到对自然语言理解的手段之,语料库具有以下优点:由于它是基于概率 分析的自然语言处理,因此对不受限制的极其复杂的真实语料的处理成功率较 高,使用语料库进行处理的系统结实( r o b u s t ) ,在遇到自然语言中大量存在的 不规范旬或部分规范旬时系统不会中断。对自然语言理解后,机器才能够对自然 语言进行应用。由此可知,自然语言理解的部分功能是信息检索的必要前提;信 息检索是自然语言理解的结果【2 ”。 文本信息处理属于自然语言处理范畴,对文本信息处理的应用包括文本信息 检索( i r ) 、信息抽取( i e ) 智能地回答问题、文本归类与文摘生成、通过上下 文语境进行语义判断、文本分类、词典编纂、翻译、拼写与语法纠错、语音识别 与字符识别等。 本文主要研究的是文本信息检索,它属于文本信息处理技术的重要应用之 一。在信息检索中,最常见的一类检索是文本信息检索,人们对它研究最早,成 果也最为显著。面对信息社会浩如烟海的信息数据,如何快速有效地找到需要的 信息,是一个十分重要的课题。目前,人们对文本信息检索技术的研究正在深入, 文本信息检索中修饰语作用的研究 新的检索技术不断出现。 2 1 文本信息检索的基本原理 在人们日常生活、工作、学习所获取的信息中,文本信息占据很大的比例, 它主要以文字、或辅以图片呈现在人们面前。信息检索是一种不确定性检索,用 户在检索信息时,并不知道信息源里是否有符合需要的东西,检索出来的信息并 不一定完全符合用户的需要。信息检索过程是信息源中的信息和用户需求相互之 间匹配的过程,信息源就是某个信息检索系统。 总的说来,任何检索过程基本上可分解为六个主要组成要素口2 】: 文献集合:文献或记录的信息集合: 检索方法:文献集合的索引或检索方法; 用户需求:用户的信息需求; 查询策略:用检索语句序列或菜单选择来表达信息需求; 检索集合:按照查询策略得出的检索结果; 相关性判断:检索结果满足用户信息需求程度的判断。 各检索系统之间的差别在于对实现以上过程而提供的支持功能不同。例如, 新型系统要从各种来源采集信息,这些来源可能跨越广泛的地理区域分布,并且 可能以不同的介质、不同的格式产生信息等。而计算机硬软件的发展促使信息检 索采用高性能或专用计算机和大容量存贮设备,实现网络分布式检索,更新或发 展新的检索模型、索引技术、算法、文件结构、提问操作、用户界面等等。我们 可根据检索系统实现检索过程的不同方法和功能差别,归纳出检索系统构成的各 个层面。任何当代信息检索系统都可按照这些层面及其特征的组合进行分类: 信息介质:文本,数值,图形,图象、影视,声音; 硬件环境:冯诺曼机,并行机,检索专用机,光盘,磁盘: 网络环境:本地系统,终端主机,c s ,并行系统; 概念模型:布尔,扩展布尔,概率,串查询,向量空间,并行处理; 前期处理:人工赋词,自动抽词,结构化,s g m l ,h t m l ; 文档结构:流式文档,倒排档,特征,图形,混列,超文本; 提问操作:反馈,解析,布尔,聚类; 词汇操作:词干,加权,词表,停用词表,截词。自然语言处理; 文献操作:解析,显示,聚类,分类,排序,字段掩码,赋辨识符; 文本信息检索中修饰语作用的研究 访问方式:查询,导航。浏览,观看; 用户界面:检索命令,c c l ,菜单,多视窗,表格: 后期处理:编辑、排版、套录。 文本信息检索的基本原理图如图2 2 所示,它主要包括用户需求、文献集合、 匹配与选择这三部分。人们在完成某一任务或满足某种需要时,往往会觉得缺少 某些知识,因而产生了需求,要访问信息检索系统。文献集合是一种公共知识结 构有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识 或事实,或获取知识的线索,或者提供某种信息去激活人脑中存贮的知识。而匹 配与选择则是一种机制,它负责把需求集合与文献集合进行相似性比较,然后根 据一定的标准选出符合需要的文本。 匹配与选择 斛弼 图2 2 文本信息检索基本原理示意图 f i g 2 2t h e b a s i cp r i n c i p l eo f t e x ti n f o r m a t i o nr e t r i e v a ls y s t e m 众所周知,现实世界中的信息量非常庞大,仅仅每年发表的科技文献就已达 数百万篇。所以,要想进行有效的匹配和选择,首先必须对大量的原始文本进行 收集和加工处理,使之从无序到有序,使每篇文本都获得某种特征化表示,即让 原来隐含的、不易识别的特征显性化。这种加工处理作业通常称为内容分析与标 引,其结果是使每篇文本都得到某种标识( 分类号、主题词等) 。 另一方面,对用户提出的需求( 问题或检索课题) 也需要做类似的加工处理, 即分析需求的内容,提取出主题概念或其它属性,并利用与文献集合相同的标识 系统( 检索语言) 来表示需求中所包含的概念和属性。经过这样加工处理的需求 称为提问( q u e r y ) 。 这样,原来的用户需求与文献集合的匹配就简化为提问与有序的、特征化表 示的文献集合之间的匹配,即两组有限的语词符号化特征之间的匹配比较。这种 简化显然可以提高匹配和选择的效率。 文本信息检索中修饰语作用的研究 还可以用下列一个四元式表示信息检索原理阢6 】: s 2 ( d ,t ,q ,d ) d = ( d 1 ,d 2 ,d 3 ,d ) t = ( t l ,t 2 ,t 3 ,t 埘) q = ( q 1 ,q 2 ,q 3 t ,q i ) p :q x d rr 为某一值集,通常r e 0 ,l 】 式中,d 表示某系统中经过标引的文献集合,t 和q 分别代表所有可能存在 的索引词集合和提问集合,p 为匹配函数,r 为函数值集合。 2 2 文本信息预处理方面的重要技术 信息检索系统要完成其检索功能,就必须要对文本信息进行预处理。由于研 究的是英文文本,因此,不必进行切词过程。英文文本信息预处理过程如图2 3 所示,主要包含以下三个核心技术:句子解析技术、停用词过滤技术、保留词根 技术。 2 2 1 句子解析技术 图2 3 文本预处理过程 f i g 2 3d o c u m e n tp r o c e s sv i e w 语料库就是按照语法结构标示好了的自然语言运用样本的集合。 解析器能够利用语料库完全自动地分析出待分析语句的语法,而不象以前那 样需要完全依靠人力或者半自动化。不过使用语料库的这种方法还是存在一些问 题,比如语料的有效性、覆盖领域的局限性等等,但是它语法分析的性能确实相 当不错。 世界上,著名的解析器有美国纽约大学s a t o s h is e k i n e 开发的a p p l ep i ep a r s e r 解析器雎。 经过解析器解析之后的句子根据词性加上了标签。例如图2 4 所示,输入的 语句为“t h i sg i r li sm yl i t t l es i s t e r ”,经过解析之后,便有了词性标注。这旱, 文本信息检索中修饰语作用的研究 n p l 表示名词词性,v p 表示动词词性。 图2 4a p p l ep i ep a r s e 解析实例 f i g 2 4a ne x a m p l eo f a p p l ep i ep a r s e 2 2 2 停用词过滤技术 停用词过滤词【2 5 1 ( s t o pw o r d s f i l t e rw o r d s ) 这两者意义一样,都是指一些 太常用以至没有任何检索价值的单词,比如英文中一些冠词“a ”、“t h e ”,连词 “a n d ”、“o r ”,介词“o f ”、“i n ”、“o n ”,b e 动词的变格“i s ”、“a r e ”、“w a s ”等 等。 在进行文本信息处理时,如果没有忽略停用词,它们将会大大影响用户们实 际上所关注的那些具有实际意义的关键词的权重,使有意义的关键词权重降低, 甚至被忽略,而无意义的停用词权重很大。 停用词过滤的方法:在进行信息检索时,首先建立一个停用词词库,该词库 包含所有没有意义的停用词。关键词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论