




已阅读5页,还剩57页未读, 继续免费阅读
(系统工程专业论文)模糊同义词典在VSM文本信息检索方法中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要文本作为信息的主要存储形式正在以惊人的速度增长。为了便于查找信息,多种信息检索模型应运而生,并在实际应用过程中得到了完善和提高。当然文本信息检索也存在一些问题画待解决。例如,检索模型经常会检索出大量包含褒询条件中的个别词语但是与整个查询条件并不相关的信息垃圾,或是检索结果遗漏与查询条件高度相关但并不包含查询条件中关键词的相关信息。因此,在现有的检索结果较好的文本信息检索方法的基础上进行改进,是有重要意义的工作。通过对常用的文本信息检索方法的比较和分析,本文选取了v s m ( 向量空间检索模型) 作为原型。改变了向量的提取方式,将中心词及其修饰成分结合起来形成t e r m ( 短语) 作为向量中的特征被提取出来。通过修饰语对中心词的约束作用使得系统缩小检索范围,在一个比较准确的相关领域内检索,滤出那些只包含查询语句中的个别词语但与查询并不相关的信息垃圾。建立模糊同义词典扩展查询,对原本查询向量中的词语进行适当的语义扩展,根据同义词间的相似度修改查询向量中维的权重。这样可l 煺得查询相关信息的覆盖面扩大,检索出不包含查询向量关键词但是与查询语句高度相关的信息。在查询语句与文档进行匹配的过程中,我们提供了一个可选择阈值,它可以根据用户的不同需求调整检索系统的输出结果,为用户提供更加完善的服务。为了检验应用模糊同义词典的v s m 方法的效果,我们设计并实现了一个新的文本信息检索系统。选取了通用的语料库与查询语句作为实验数据,实验结果表明:应用模糊同义词典的v s m 方法在精确度和召回率等重要的系统性能评价指标上确有改善。关键词:模糊同义词典、向量空间模型、文本信息检索、扩展查询a b s t r a c ta st h em a i ns t o r a g ef o r l t l ,t e x t1 n f o r m a t i o ni n c r e a s e sv a s t l y an u m b e ro ft o o l sa n dm e t h o d sa r ed e v e l o p e dt of i l t e ri n f o r m a t i o nj u n ko u ta n dr e t a i nt h ed o c u m e n t st h a tu s e r sr e a l l yw a n t m e a n w h i l e ,m o s tk e y w o r d b a s e di n f o r m a t i o nr e t r i e v a lm e t h o d sa l w a y sg e n e r a t et h el a r g et r a s ha n dm i s sm u c hi m p o r t a n ti n f o r m a t i o n t oo v e r c o m et h ed r a w b a c kr e s u l t i n gf r o mt h ek e y w o r d - b a s e di rm o d e lm e n t i o n e da b o v e ,i ti sv e r yv a l u a b l et od e v e l o pn e wt e x ti n f o r m a t i 妇r e t r i e v a lb a s e do nf u z z ys y n o n y mt h e s a u r u s r e f e r r e dt ot h ec u r r e n tt e x ti r ,m ep a p e ri n t r o d u c e sf u z z ys y n o n y mt h e s a u r u st ot h et e x ti rp r o c e s s b ys u m m a r i z i n gt h er e s e a r c h e sd o n eb yt h ef o r e i g na n dd o m e s t i cr e s e a r c h e r s ,t h ep a p e rc h o o s e sv s ma r i db u i l d sf u z z ys y n o n y mt h e s a u r u s t h e ns o m em o d i f i c a t i o nh a sb e e nm a d ed u r i n gt h eq u e r yv e c t o ri no r d e rt oi m p r o v er e c a l l i na d d i t i o n ,f u z z yt h e o r yh a sb e e nu s e dt oc o m p u t et h ew o r dw e i g h t i n g f i n a l l y ,t h r e s h o l di si n t r o d u c e dt od e a lw i t ht h eq u e r yr e s u l tt om e e tt h eu s e r s s p e c i a ln e e d i no r d e rt ov e r i f yt h ee f f e c to ft e x ti 碰= ib a s e d0 1 3 f u z z ys y n o n y mt h e s a u r u s ,at e x ti n f o r m a t i o nr e t r i e v a ls y s t e mh a sb e e nd e s i g n e d t h r o u g ht h em e t h o d w ec a nr e t r i e v er e l e v a n td o c u m e n t si nar e l a t i v e l yn a i r o ws e a r c hs p a c ea n dm e a n w h i l ew i d e nt h ec o v e r a g eo ft h er e t r i e v a lt ot h er e l a t e dd o c u m e n t st h a td on o tn e c e s s a r i l yc o n t a i nt h es a m ew o r d sa st h eq u e r y b yc o m p a r i n gt h ec u r r e n tt e x t1 rw i t hn e wi rm e t h o dd e v e l o p e di nt h i sp a p e r , t h eo b t a i n e df r o mt h en e wt e x tp r e c i s i o na n dr e c a l l r e t r i e v i n gr e s u l t si nt w om e t r i c s ,k e y w o r d s :f u z z ys y n o n y mt h e s a u r u s ,v s m i r ,e x p a n s i o nq u e r y模糊同义词典在v s m 文本信息检索方法中的应用1 引言1 。1 问题的提出由于以i n t e r n e t 为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着人们的生活和工作方式,人们真正处于一个“信息爆炸”的时代。一方面,i n t e r n e t 上蕴涵的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是,一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息,同时保证人们在信息选择方面的个人隐私权利,成为学术界和企业界所关注的焦点。在线文本日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等。如此众多的信息,仅仅依靠大脑来牧集和整理所需要的信息显然是不够的。所以,自动收集和整理所需要的各类信息,成为信息产业面临的新的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化为信息检索、信息过滤、信息分类等方向。目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接受的形式,因此,我们主要讨论文本信息检索的处理技术。文本信息检索与文本处理领域的其他分支有着十分密切的联系( 如文本过滤、文本分类、文本浏览、和文本摘要等) ,并迅速成为业界的热点,各种相应的国际学术会议不断召开,已成为计算语言学领域新的增长点。1 2 文本信息检索方法概述文本信息检索就是根据用户提出的具体查询,在大量相对稳定的文本源中,检索出符合用户查询条件的文本,并按满足查询的程度排列检索结果 2 l 。文本检索技术的发展已经有3 0 年的历史,取得了很大的成就,产生了大批使用的检索系统,积累了许多成熟的技术。比较典型的几种方法:布尔模型:利用布尔模型进行信息过滤,就是给定一系列的具有二值逻辑的特征变量 3 1 【4 】 5 1 。这些变量是从文档中抽取出来的,用来描述文档的特征,如关键字或索引词。有时也可以是时间、作者的姓名等个性信息。通过布尔操模糊向义词典在v s m 文本信息检索方法中的应用作符把表示文档信息的特征变量构成布尔表达式,此即为一查询。当在一个查询中,两个查询关键词之间用布尔操作符a n d 相关联,则表示这两个关键词必须同时包含在过滤文档中。如果两个查询关键词之间用布尔操作符o r 相关联,则表示对于这两个关键词其中有一个包含在过滤文档中即可。利用布尔模型构造的过滤系统在运算的环境下可取得显著的过滤效果。更进一步来说,这种技术就是基于一系列的差与和来执行布尔操作的,相对来说比较易于理解。但是这种传统的布尔过滤技术也存在一些不足之处嘲:( 1 ) 对于一个给定的查询很难控制它的输出结果。有时会得出很多结果,可与用户个性兴趣相一致的却很少。相反,有时却得不到任何信息。( 2 ) 在一次查询所获得的文档中,没有把文档符合用户个性兴趣的相近程度表示出来,即:所有获得的文档都处于同样的重要程度。( 3 ) 对于关键词来说,没有标识其对文档或查询的重要程度的重要因子或权重。即:所有文档中或查询中的关键词都处于同样重要的地位,没有主次之分。( 4 ) 布尔查询公式可能会产生有背于人们的直觉思维模式的结果。比如一个查询 aa n dba n dca n dda n d i e ,只有包含此查询中全部项的文档爿被得出,包含其中任意一项( 或多项) 与一个项也不包含同样不被作为结果得出。鉴于传统的布尔模型存在这些不足,专家又给出了扩展的布尔模型信息检索系统s a l t o n 7 】。这个布尔模型信息检索系统是介于布尔查询处理和向量处理模型之间。它的查询构架还是以布尔模型为基础,只是同时增加了关键词相对于查询或文档的重要程度,也称为捌重。或然检索模型同样是对文本中的所有实词进行提取,得到文本向量【4j 。之后在检索过程中对文本向量与查询向量进行逻辑或运算,导致得出的检索结果中有大量文本只与查询条件中的任一部分吻合,而与用户实际的需求毫无关联,这些文本通常被称为检索垃圾,因此这种方法检索出的结果多呈现出较高的召回率和较低的精确率。上面介绍的信息检索是在关键词向量空间中进行的,如果词典很大,那么关键词向量空间就是高维的。由于受列同义词,多义词的影响,简单词汇匹配技巧是不足的,其准确性完整性不够理想,并且,从文档空间中删除关键词,既费时问又不能有效地改变关键词文档矩阵的关系。为了解决这些问题,人们开始了基于概念的信息检索技巧的研究,潜语义标引( l a t e n ts e m a n t i ci n d e x i n g ,l s i )就是这样一种技巧【8 l 【”。潜语义标引是将矩阵的奇异值分解用到文档的语义特征抽取中,将文档的关键词向量空间转化为语义概念空间,在低维的语义概念空间中,计算查询向量与文档向量的相似度,根据相似度的大小。返回给用户按相模糊同义词典在v s m 文本信息检索方法中的应用关性排序后的文档。潜语义标引的思想是根据数学方法,将m x n 的关键词一文档矩阵a 进行奇异值分解( s i n g u l a r v a l u e d e c o m p o s i - t i o n ,s v d ) :a = u v t 这里u是m m 的正交矩阵( 即u u l = u 7 u = i m ,i m 是m x m 单位矩阵) ,称为a 的左奇异值向量( 即u 是a 1 a 的正交特征向量) ;v 是n x n 的正交矩阵,称作a 的右奇异值向量( 即v 是从的正交特征向量) ;是m n 的对角矩阵,对角元为a l ,a 2 ,a m i n ( m ,n ) ,且a la 2 a r a i 嘲一 o ,a l ,a 2 ,a 耐m 。) 是a 的奇异值( 即是a 7 a 非负的平方根) 。设秩( a ) 气则存在k ,k r 且k m i n ( m , n ) ,a 的秩k 近似矩阵a k 为a k 2 u k f v 。t( 1 - 1 )其中u k 是m k 的矩阵( 由u 的前k 列组成) ;k 是k x k 矩阵,是由的前k 行、前k 列组成;v k 是k x n 矩阵,由v 的前k 行构成。k 的取值,一般在1 0 0 3 0 0 之间,可以根据实际文档数据库的大小,选择合适的k 值。这样定义的a 。是矩阵a的秩一k 近似矩阵,可以证明:a k 近似到a 曲a 的秩k 近似矩阵a k ,就可将文档的关键词向量空间转化为语义概念空间,并且语义概念空间的维k 满足:k a )为五的强口截集,或五的强口水平集:口称为闽值或置信水平。2 2 2 模糊同义词典建立的原理信息检索系统中的查询通常表示为词语的集合,而这些词语一般都是含糊不够精确的。同时,语料库中的文本也有相同的问题。因此我们需要一些有效的理论和方法去解决以上提到的不确定的问题。自从1 9 6 5 年z a d e h s 提出模糊集理论之后它被广泛应用在消除语言不确定性的模型中,有效性得到了验证,产生了强烈反响。因此,我们试图通过模糊集来解决一词多义以及多个词形表达相同概念等复杂的语言现象,大体思路就是鉴于现有文本信息检索方法中切词工具的实际发展状况,我们选择英文文本作为研究对象。同时考虑各词性在文本中具体的使用情况,如在语言使用过程中,名词的使用频率是最高的,但是名词的概念也是最复杂的,所以从实际操作的可行性以及应用的角度,我们选择了名词和经常修饰名词的形容词作为模糊同义词典的存储内容。当然本文中提出的模糊同义词典的建立方法同样适用于各种其他的词性。建立一个同义词库,通过对词语在语义上进行适当程度的扩展,选取多个具有相同或相近词义的不同词语生成新的查询语句,然后再与文档进行匹配,这样就可以有效地解决由于词语本身的含糊性而导致检索结果不令人满意的难题。详细情况如下所示。建立一个模糊同义词词典,实际上就是在不同的词之间建立起一种模糊的关系,如( 2 - 1 ) 式所示。如何建立这种关系,对不同词之间的相似程度,即隶属度的获取就成为词典建立的关键。w 1w 2r =_w nw lw 2i lt 22 i2 2l:w n卢i 卢2 一腑( 2 一1 )模糊同义词典在v 涮文本信息检索方法中的应用求取隶属度通常有六种方法:笛卡尔积;闭形表达式:查表;知识的语言规则:分类;数字处理方面的相似性方法。本文采用了知识的语言规则的方法。模糊同义词典的应用作为新方法中的主要环节,在整个研究过程中我们采用了多种建立方法。在模糊同义词典的建立过程中,我们以w o r d n e t 词库 2 卅中形容词同义集合作为基础。2 3 模糊同义词典建立的方法我们在整个研究过程中,采取t - 种不同的方法建立模糊同义词典:人工建立模糊同义词典方法、基于统计建立模糊同义词典方法、基于知识的语言规则建立模糊同义词典方法,具体情况如下所述。2 3 1 人工的模糊同义词典建立方法人工建立模糊同义词典方法 3 0 j ;利用人类具有智能的特点,将人类长期学习积累的知识,应用到建立模糊同:义词典的过程中,对于词语的复杂性如一词多义、多个词形表达相同概念等问短的解决有积极作用。在本方法中具体体现在:研究者首先根据经验选取现有的、权威的、得到相关领域认可的同义词词典作为参照物。然后将词典中的内容录入计算机,存储为电子版本。其中考虑通常存在的一词多义情况,我们必须根据词形的不同词义对同一词形进行多次存储,并且赋予不同的编号作为诃库中唯一的标识。在词库的输入过程中,录入者必须根据自己对词语的使用及理解,赋给同义词一个相似度,取值范围 0 ,1 。在整个人工建立词库过程中,我们共录入2 6 0 0 多个词形,词库中相应的存储记录约为一万多条。具体架构如! ;:f :哟。哟l a s碱kr o 。nz f12 砌iir i o 巧1 巧。i喊【_ 1 2 实例如下:1 2 一( 2 2 )模糊同义词典在v s m 文本信息检索方法中的应用$a b l a z ea f i r ea f l a m ea l i g h tb l a z ir l gb u r n i n gf i e r yf l a m i n ga b l a z e1 0a f i r e0 91 0a f l a m e0 90 91 0a l i g h t0 80 80 91 0b l a z i n g0 90 90 90 91 0b u r n i n g0 90 80 80 90 81 0f i e r y0 90 90 80 80 80 81 0f l a m i n g0 90 90 90 90 90 。80 81 0人工建立法有不容忽视的问题,如人工录入效率低下、不同人对相同问题有不同的理解而无法统一、长时间录入不可避免要出错等。2 3 2 基于统计的模糊同义词典建立方法基于统计的模糊同义词典建立方法【3 ”,根据概率统计理论、词语解析工具等现有理论基础,通过对大量真实语言文本资料的读入,对文本中高频率共同出现的词语搭配进行概率统计,具有显著搭配力的词,可以被认为是同义词,机器自动将其抽取并存储到相应的数据库中。这种方法的优点:可以读入海量文本资料、效率高、通过数理统计避免人为主观因素影响数据的真实有效性。缺点:不具有人工智能,只能完全通过概率统计方法计算共现词语间的搭配力,忽视了词语搭配中固有的不同词义但同类别的情况。假设两个短语在同一文档中频繁共现又隶属同一概念。那么,查询中原始短语“与扩展短语厶的相似度可以由短语间相关系数决定。例如t a n i m o t o系数:= 二生一( 2 3 )月女+ 托e 一”妇公式中,代表词库中包含短语“的同义词集合数,h 。代表词库中包含短语名的同义词集合数,代表词库中既包含短语红又包含短语岛的闻义词集合数。用这样的相关系数来表示短语“与扩展短语岛之间的贴近度,该值为o ,1 】。当为l ,我们就认为短语与短语相同,具有相同的概念。当为0 ,一1 3 模糊同义词典在v 蛳文本信息检索方法中的应用则表示短语靠与短语岛各自具有不同概念。对于短语靠与所有相应的扩展短语之间的所有贴近度形成了一个相关的矩阵。该矩阵风是一个短语的相关系数模糊矩阵,表示如下:f lr x = t 2t n k巧11:1t n km吃m:坼( 2 4 )元素表示词巩与k 的贴近度, 0 ,1 ,m 表示扩展短语的个攀。r b = r 。t ,r = r 。,= 1 在现实世界的应用中,并不是所有的扩展短语都彼此相关的,从这个观点,我们定义了个反映扩展短语之间相似程度的隶属值函数。这里,隶属值表示为以下公式:虬h = 1 一兀( 1 一亿)f o r 尼( 2 5 )e z l式中# 表示短语如与短语t k 之间的隶属值,它作为所有包含的扩展短语的负代数积的补充。k 表示短语相关矩阵震“中短语珞和短语岛的相关值。这里采用了相对于给定的索引短语“的所有扩展短语的代数和( 而不是经典的最大值函数) ,对卢b 这个因素,该公式是一个很好的转换。对于所有的扩展短语,这些隶属值构成了相似度矩阵,形式如下:f 【肚。,2:,i1 22 2:弘nk 2l m。2 n ,:p n 一。( 2 6 )如果一个扩展短语与索引短语“( i e 如专1 ) 强烈相关,那么段。接近l证明了当前的扩展短语c 。在肼中相当重要如果扩展短语只是与“松散相关,那么以。接近0 也就证明当前的扩展短语戈在肌中并不重要因此,4 。可以被1 4 -乞;础,模糊同义词典在v s m 文本信息检索方法中的应用认为是一个衡量扩展短语如在相似度矩阵弘中重要程度的量,通过这个值所有的扩展短语可以与相应的索引短语如相互比较。通过公式( 3 - 8 ) 的值排序,在胁矩阵中值高的扩展短语将被提取进入扩展短语列表。2 3 3 基于知识的语言规则的模糊同义词典建立方法后期,我们采用基于知识的语言规则建立模糊同义词典方法 3 ”,处理大量词语,生成更加完备的模糊同义词典,以备信息检索时使用。这种方法主要是根据查询语句中解析出来的查询向量中的词语,至l j w o r d n e t 词库中查找它的同义词集合、近义词集合以及反义词集合。在对隶属度赋值时,假想集合中每个单词是平等的,在区间段中对隶属度进行随机赋值。这样在三个子集合中的单词与中心词之间的模糊隶属关系就自动建立起来了。在w o r d n e t 中输入一个词时,我们可以查出这个所要查询词的词义,即数据库文件中的注释部分。同时我们还可以利用w o r d n e t 查出这个词对应的同义词,远义词,反义词以及与这个单词有其他关系的词。w o r d n e t 能完成这些功能都是借助于在数据库文件中的标注的指针符号与指针。在这里我们把所需要查询的词称作中心词。为了建立模糊同义词词典,我们可以利用w o r d n e t 中存在的关系定义三个与中心词有关的子集:同义词集合用s y r z 硅表示:近义词集合用仍口睐表示:反义词集合用, 4 n t 来表示。在建立的这三个子集的基础上我们可以用以下的方法来求取一对单词之问的相似程度。假设有式( 2 7 ) 的一个函数,其中妫词的集合,哟 0 ,1 的一个表示隶属度的区间。函数,表达了两者之间的相互映射关系。,:u 斗矿,s c u ,y c v ,s = b ,j :,晶( 2 7 )这种映射关系我们可以通过自然语言所表达的模糊i f t h e n 规则来表达【3 3 】,:i fsi ss y nt h e nyi sh i g ha n dl isi sc o o l t h e nyi sm e d i u ma n di fsi sa n tt h e nyi sl o w模糊同义词典在v s m 文本信息检索方法中的应用在这里s ,y ,h i g h ,m e d i u m ,。绑是语言变量。m g h 取o 6 n 0 1 值之间:m e d j u m取0 2 n 0 6 值之间:d 诹0 到0 2 2 _ 间。以上的规则集合可以用下面的隶属函数图来表示:1nh i g ho 6m e d t u mo 2l o w0 0 d ! q q x 塑盥;! ! ! 生! ! 苎二,! ! ! 璺! ! 坐;n ! o d 3 凹趔;图2 1 同义词集合模糊分布f i g 2 1 f u z z yg r a p hf o ras y n o n y ms e t图中我们可以看到s 轴上的分属于不同集合的变量可以从y 轴上相应的区间上获取隶属值。这个隶属值的大小表示了此变量与中心词之间的相似程度。因此在各个不同的集合中的词与中心词之间的相似程度可以由式( 2 8 ) 求解。另外我们可以发现所构造的隶属函数与理论中的隶属函数( 虚线所形成的三角形) 基本上是相吻合的。语义类的y ( 。) :f 卅h 蒯i g 姗h 矿i f【l o wi fj e s y ns c o o rj a n t( 2 8 )虽然事实上同一个子集合中的词与中心词的相似程度也是不完全相同的,每个单词需要具体分析才能从相对应的区间中取一个相似程度值来表示与中心词的相似程度。但在这里我们忽略了这种差别,假想集合中每个单词是平等的。在对隶属度赋值时,对集合中的词的隶属度在区间中平均分布。在被分成更小的区间段中对隶属度进行随机赋值。这样在三个子集合中的单词与中心词之间的模糊隶属关系就自动建立起来了。对应一个中心词,他的同义词集合、近义词集合与反义词集合是如何来确定的呢71 6 模糊同义词典在v s m 文本信息检索方法中的应用w o r d n e t 最具特色之处是根据词义来组织词汇信息的,在其数据库文件中每条语义用一个同义词集合来标识。在w o r d n e t 的一个同义词集合中,除去中心词所剩下的词组成的词的集合就对应了这里所划分的同义词子集合。在w o r d n e t 同义词集合中的各个词之间具有相互的同义关系,每个单词都与集合中的其他的单词之间为同义关系。模糊同义词词典建立的实践在w i n d o w s 平台下,对于w o r d n e t 中的每个句法范畴都有两个对应的数据库文件p o s i d x 署d p o s d a z ,这里的p 。计表的分别是n o u n ,v e r b ,a d j j na d v 。索引文件按字母顺序列出了相应的词性中的所有单词。每一行中单词的后面对应的是一个相应数据文件的指针( 同义词位移) 列表,每个指针对应了包含该词的一个同义词集合。每个句法范畴的数据文件包含了相应的同义词集合的信息,关系指针用“同义词位移”来解决。文件中每行对应的是一个同义词集合,每行以“同义词集合位移”开始,用来作为每行的标识,即一个同义词集合的标识在同义词集合后的指针通过同义词位移来表示同义词集合之间的关系。经过对w o r d n e t 的关系网络的分析可以知道这个网络是错综复杂的,相应的数据库文件的结构显然也是复杂的。出于自动建立模糊同义词典的需要,在这里简单列出数据库文件的结构。如图2 2 所示。图2 2 数据库文件结构f i g 2 2 t h es t r u c t u r eo f d a t a b a s ef i l e下面我们以形容词为例来描述如何利用自动建立模糊同义词集合的原理来建立形容词的模糊同义词词典。1 7 模糊同义词典在v s m 文本信息检索方法中的应用当在w o r d n e t 中输入“b r o k e n ”后,对于形容词词性,在所得到的1 3 个词义中可以看到词义3 经过近义词和反义词查询可得到如下显示:s e n s e3b r o k e n ,c r u s h e d ,h u m b l e d ,h u m i l i a t e d ,l o w 一( s u b d u e do rb r o u g h tl o wi nc o n d i t i o no rs t a t u s :”b r o u g h tl o w ”:”ab r o k e nm a n ”:”h i sb r o k e ns p i r i t ”)= h u m b l e ( v s p r o u d ) ( m a r k e db ym e e k n e s so rm o d e s t y :n o ta r r o g a n to rp r i d e f u l :”ah u m b l ea p o l o g y 4 :”e s s e n t i a l l yh u m b l e a n ds e l f e f f a c i n g ,h ea c h i e v e dt h eh i g h e s tf o r m a lh o n o r sa n dd i s t i n c t i o n s ”b k m a l i n o w s k i )i n d i r e c t ( v i ah u m b l e ) 一 p r o u d 一一( f e e l i n gs e l f r e s p e c to rp l e a s u r ei ns o m e t h i n gb yw h i c hy o um e a s u r e sy o u rs e l f w o r t h :o rb e i n gar e a s o nf o rp r i d e :”p r o u dp a r e n t s ”:”p r o u do fh i sa c c o m p l i s h m e n t s ”:4 ap r o u dm o m e n t ”:”p r o u dt os e r v eh i sc o u n t r y ”:”ap r o u dn a m e ”:p r o u dp r i n c e s ”)应用上述原理,对于中心词“b r o k e n ”可得到词的三个子集合:s y n ,c o o r ,和a n t 。用图2 3 表示。图2 3 实例的同义词集合分布f i g 2 3 f u z z yg r a p hf o ras y n o n y ms e ti dw o r d s y n o n y m ss e t c o o r d i n a t es e t a n t o n y ms e t g l o s s我们注意到了词的多义性,所以在临时文本数据库文件和数据库的s u b j e c t1 8 -模糊同义词典在v s m 文本信息检索方法中的应用表中一个词可以在多行中出现。但无论是在临时文本数据库文件或是数据库的s u b j e c t 表中所对应的i d 以及g l o s s 都是不同的。这样可以区分两个词之间的某种关系是存在何种特定词义的条件下的。这样的话就可以解决了词的多义问题。另外需要说明的r e l a t i o n 表中对应的i d f 与i d s 都是用来标识代表某种特定词义的词,r e l a t i 洲表示的这两令词的 目似程度;s y m b o l 表中对应的是关系的类型:0表示“词相同”,1 表示“同义”,2 表示“近义”,3 表示“反义”。图2 4 同义词典的数据库结构f i g 2 4 t h ed a t a b a s es t r u c t u r eo f t h et h e s a u r u s另外隶属度的取值是非常关键的。在这里根据每个子集合中所含元素的数量对赋值区间进行了平均分隔,使得每个元素对应一个区间。元素与中心词之间的隶属值就在对应的区间内随机取值。为了满足模糊同义词词典的一致性要求,需要保证a b 和b a 两组词对之间钓隶属值相同。接下来具体如何用编程的手段来实现模糊同义词词典的建立。实现的过程是分两个步骤来进行的。首先建立一个中间文本数据库文件,列出所有的形容词以不同词义为中心词时的注释,同义词集合,近义词集合以及反义词集合( 文件的格式如图4 所示) 。接下来第二步对这个中间文件进行操作,建立模糊同义词词典,把数据信息保存在数据库中。数据库的结构设计在下面将有详细介绍。2 4 模糊同义词典的数据结构模糊同义词典的数据库结构、存储过程及内容为:首先,对查询条件进行解析,提取核心词及其修饰成分;然后,根据修饰词在一级修饰词库中的编号( 见表2 i ) ,n - - 级的同义词词库( 见表2 2 ) 中检索修饰成分的同义词,将这- 1 9 模糊同义词典在v s m 文本信息检索方法中的应用些同义词与查询条件中的核心词重新搭配,生成新的查询向量。具体的存储内容包括存储修饰成分的原形、序号、描述、相应的扩展内容及其词语间贴近度。以形容词同义词库为例:形容词同义词库的结构:表2 1 形容词一级同义词库结构t a b l e2 1t h es t r u c t u r eo f t h ea d j e c t i v el e x i c o n属性名称属性描述数据类型数据长度针对形容词某一具体意思的i d li n t4序号a d j形容词c h a r2 5d e s c r i p t i o n形容词某一具体意思的描述v c h a r5 0表2 2 形容词二级同义词库结构t a b l e 2 2t h es t r u c t u t o f t h ea d j e c t i v et h e s a u r u si 属性名称属性描述数据类型数据长度i d 2核心词序号i n t4i d l核心词的同义词序号i n t4s y n同义词c n a r2 5d e g r e e核心词与同义词的相似度f 1 0 a t82 0 模糊同义词典在v s m 文本信息检索方法中的应用表2 3 形容词一级词库t a b l e 2 3a d j e c t i v el e x i c o ni d ia d jd e s c r i p t i o ns e n s e l :r e f e rt os o m e t h i n g ,s u c ha sa c t i v i t y1 8f a s to rm o v e m e n t ,m a r k e db yg r e a ts p e e d 1 9f a s ts e n s e 2 :f i r m l yf i x e do rf a s t e n e d :2 lf a ts e n s e l2 5h e a v ys e n s e i1 0 8q u i c ks e n s e l2 5 6t e n s es e n s e l2 1 模糊同义词典在v s b l 文本信息检索方法中的应用表2 4 形容词二级同义词词库t a b l e 2 4f u z z ya d j e c t i v et h e s a u r u si d 2i d ls y nd e g r e e1 81 8f a s t1 o1 81 0 8q u i c ko 91 91 9f a s t1 o1 92 5 6t e n s eo 82 l2 lf a t1 02 12 5h e a v y0 72 52 5h e a v y1 02 52 lf a to 71 0 81 0 8q u i c k1 01 0 81 8f a s to 92 5 62 5 6t e n s e1 o2 5 61 9f a s to 8同义词词库的建立,不仅表明了同义词之间的贴近度,同时对一词多义的复杂情况予以分解简化,避免检索出大量文本垃圾。2 2 模糊同义词典在v s m 文本信息检索方法中的应用3 应用模糊同义词典的v s m 方法设计与系统实现3 1v s m 文本信息检索方法在通常的空间向量模型中,每一篇文档d ,j 1 ,脚,用为语料库中包含文档的数量,具体可以表示为一个权重的向量d = w 1 ,w 2 , 1( 3 1 )表示词语如在文档中的一个非负的权重,l 表示d 文档中词语的数量,t 表示对向量进行转置运算【3 4 i 。我们讨论的正是那些在本篇文档中出现而在其它的文档中没有出现的词语的权重。他们对应于空间中的每一维。埘篇文档被表示成为一个l x m 个词语的文档矩阵丑口=w l ,w 1 2 w l mw 2 1w 2 21 4 , 2 w l lw 1 2 w h( 3 2 )同样地,一个查询也可以表示为一个向量,其中权重表示每个词语在整个查询中的重要性。因此,查询向量锄 1 ,羽,刀表示查询向量中包含词语的数量,可以表示为:毋2 w i ,w 2 j ,w 口 1 ,口=( 3 - 3 )表示词语“在查询向量。中的一个非负的权重,l 和t 的含义如上所述。对于全部力个查询,i x n 的矩阵口可以表示如下w 1 1w 1 2w 2 lw 2 2m im 2w t nw 2 n:2 3 ( 3 4 )模糊同义词典在v s m 文本信息检索方法中的应用我们得到矩阵口和口以后,我们就可以按照下面的公式计算文档与查询问的相似度,s = 穆xq =s 1 1 2s h$ 2 1j 2 2j 2 月( 3 5 )s 表示相似矩阵,s 表示某一篇文档与某个具体查询的相似程度。矩阵口和p 分化为单独的向量后,两个向量西和q 1 间的相似度可以通过其夹角的余弦值来计算占( 4 ,0 = c o s ( 以彩( 3 - 6 )依照获得的相似度的值,将文档按降序进行排列。- 2 4 模糊同义词典在v s m 文本信息检索方法中的应用c b jr e t r i e v a l ,e v a i u a ti o ni n t r 0 血c t i o n :t 磁c 、o l l e c t l o n ,i su s e dh e r e 、t o e v a 。l u a t e :c b jr e , t r l e v a l p 颦f o r 、m n c e t 磁i n c l u d e sa 斛毋酸国l 醛h 蜘麟醢交蔓e 螭懿;g 埏蛰彰霹避s e 北萄e t si ss h o w ni nt h ef o l l 赢迎疆i s t 努自h i 蕊i 争谗甜f 蔷 i s :_ 【i n 分曲;a i 9 0 i ;i t 两o fc o - x e s e a r c hp r o j e c t :e a c h r e q u e s tj i s la ,如s 汀i p t 莹吼_ 1 1 0 f 甑。 i 目f 咖a 娃o nn e e di nn a t u r a ll a r 卿a g e 、峨蟛蠛e 。c t 、1 m 。g 。: , ;a 。r e q u e s ti e 蛳巍姆s e o r ab u t t o na n dw a i t i n gf o r 矗l 酶t i 晦。强蘸稳酾i s l 。畦h 螗;:1 1 ;l 蛔蟛f o l l o w e db y8 1 1 , w 舱rs e th a ;r i 啪缸t 城霉鲢:萄a :童蛾戳蛾诺锺潼6 面诺越s ej ( | 强了i i e cc o l l e c t i o r l ? f o r , 上a o hr e q u e s 岛蕾s e t 程r a l e w t 、:d o c u m e r i t si sa v a i l a b l e 。f i n a l l y , s o m e ,e w l u a t i o n , m e 砌e s 量黪鹤 ,髓嗔s i 哆鲤蛳h a r m o n i c ! 【| e a nfo fr e c a l la n dp r e c i s i o n ? 赫c m p u t # da n ( 1 $ i _ 。峨s e l e c ta 啦e r 矗豳曲蠢章n lj 矗卿m e n u 气os e a r e 】i l l e v y :j 。t e r n a t i o n a lo r g a n i z e dc r i m :0 球燃i 鸯o r g a n i z a t i o n st i a _ i _ 1 ;! b a r t i c i p a t ei nt e m a t l o n a l 酗m i 嘟鲼i 骥懿蠖辩i 蠹镜薄蛾蜒p 蹿鲢慨i i a b 叫a i n g 醯g 雠z a t i 6 泌。蕊a 。t 妊c ( : i _ 耐嚣醅赫涵1 讯图3 1 普通v s m 检索系统的检索界面f i g 3 1t h ei n t e r f a c eo f n o r m a ls e a r c h2 5 模糊同义词典在v s m 文本信息检索方法中的应用s e l e c taq u e r yf r o mt h ep u l ld o o mm e n ut os e a r c h 砭c r i m i n 缸厦o r g o n i z e臣i n t c l n a t i o n a l臣a c t i 诚t yt e r m sc o t m t = f 2摩、c 缸l 曲o r a i e眵i 赫! 盘瑟c o t m t r y巨t r i m鹿p a r f i c i p a t e:露p o s s i b i e甓i n v o l v e餐o r g 砬z a _ f i o n图3 2 普通v s m 检索系统的解析结果f i g 3 2t h ep a r s e dr e s u l t so f n o r m a ls e a r c h2 6 模糊同义词典在v s m 文本信息检索方法中的应用a n s w e rs e t :r e le v ,a n t | d o c u m e n t ss e t :3 0 i ,o ,r ,:! l a 0 1 0 5 9 q 0 0 8 4 , a ,03 0 i ,钆r0 文0 1 1 3 9 0 0 0 4 6 , a j3 0 l 。:| rl a o l l 3 9 0 = 0 1 5 6 , a j3 0 l j0 ,rl k 0 1 1 4 9 0 - 0 1 1 5 ,a ,3 0 l ,、仉l t :l k o n 7 9 0 一0 1 2 8 , a j嚣o l 吼、rl 柏l i 8 9 0 = 0 1 2 5 屯:)3 0 l ,l = ! ,霹l j l | 0 r 1 9 9 9 一9 1 0 2 ,a j:)s o j ;i o ;& 礁d l _ 2 1 9 0 一0 1 2 瓯as 8 l ,0 i 最i l l l :! 1 2 6 9 0 一0 ;! :_ 6 譬如3 0 1 1 n 瓯砭礤0 1 2 8 9 0 :0 0 73 j 3 0 k 辑砖醴口2 1 5 9 0 0 2 0 电如3 0 i ;= o ;re a :j 。2 l 弓9 0 0 49 ;也:)q l ,! :,。焉l a 0 2 2 5 9 q o ig i ,a j3 0 l 甜民a 0 2 2 7 9 0 - :0 0 8 9 ;凡3 0 i , :o ,s q l j 瓯_ l 磊0 萼1 3 8 9 口0 3 8 ia |3 q 0 。噬焉毒a 9 1 6 8 9 0 :i s o , a j3 0 蠢鼯嘲4 1 8 9 0 9 0 7 5 ,如8 0 l i :憾l k 0 5 0 6 9 0 - 0 i 3 4 ,赴图3 3 普通v s m 检索系统的部分检索结果f i g 3 3p a r t s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工方案审查收费依据
- 纯碱盐水工工艺创新考核试卷及答案
- 水产养殖智能算法研究报告
- 电器附件制造工新员工考核试卷及答案
- 橡胶育苗工综合考核试卷及答案
- 法治素养考试题库及答案
- 湖北省武汉为明实验学校高中地理必修3教学设计:4.1区域农业发展
- 服装行业服务创新竞争力评估分析报告
- 热处理设备节能改造分析报告
- 促销活动反馈分析报告
- 第四章 解离平衡
- 小学生仪容仪表课件
- 初中语文中考复习 专题01 名著阅读之《朝花夕拾》(课内文言文+课外文言文)-2022年中考语文一轮复习黄金考点讲练测
- 我国上报数据的民营医院医疗数据统计资料
- JJF 1664-2017温度显示仪校准规范
- GB/T 38997-2020轻小型多旋翼无人机飞行控制与导航系统通用要求
- GB/T 38207-2019中国地理实体通名汉语拼音字母拼写规则
- GB/T 14181-2010测定烟煤粘结指数专用无烟煤技术条件
- DISC性格特质分析课件
- 丹佛斯变频器modbus通讯
- (中职)氯碱PVC生产工艺及设备8项目八 PVC生产教学课件
评论
0/150
提交评论