(计算机软件与理论专业论文)基于潜在语义分析的智能检索系统.pdf_第1页
(计算机软件与理论专业论文)基于潜在语义分析的智能检索系统.pdf_第2页
(计算机软件与理论专业论文)基于潜在语义分析的智能检索系统.pdf_第3页
(计算机软件与理论专业论文)基于潜在语义分析的智能检索系统.pdf_第4页
(计算机软件与理论专业论文)基于潜在语义分析的智能检索系统.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机软件与理论专业论文)基于潜在语义分析的智能检索系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于潜在语义分析的智能检索系统 上海师范大学硕士学位论文 摘要 随着计算机网络技术的飞速发展,网络上大量丰富的信息为人们生活和工作 带来方便,如何准确、快速地获取有用的信息凸现重要。如果计算机能够准确理 解用户的需求,它就可以将那些最符合用户要求的信息找到并反馈给用户。准确 理解用户的需求在一定程度上就是准确理解用户输入的含义,因而建立基于语义 的检索变得非常重要,它也会使得计算机的检索更具有智能性,进而实现智能信 息检索。 本文主要研究智能检索系统的理论和实现方法,根据潜在语义分析理论,开 发了一个有关地理知识的智能检索系统。首先对潜在语义分析的一些算法进行了 改进,具体为:( 1 ) 对传统的权重计算方法进行了改进,进一步提高了检索的 准确率;( 2 ) 提出了奇异值分解中k 值自动选择算法;( 3 ) 为了使检索结果更加 符合用户的需要,提供了逼近检索的功能;( 4 ) 基于用户输入信息的特殊性,考 虑了关键字的因素。然后对有关地理知识的智能检索系统进行了详细的功能分 析,包括具体模块的设计、实现方法和关键技术。最后编程实现了这个智能检索 系统。该系统利用自然语言的处理方法,在一定程度上实现了基于语义的检索功 能,比传统的基于关键字匹配的检索具有更好的效果。 关键词:智能检索,潜在语义分析,奇异值分解,权重计算 第1 负 基丁| 渐在语义分析的智能检索系统 上海师范大学硕士学位论文 a b s t r a c t a l o n gw i t h t h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r kt e c h n o l o g i e s ,l a r g e a m o u n to fi n f o r m a t i o ng r o w sq u i c k l yo ni n t e r a c ta n db r i n g sm u c hc o n y e n i e n c ef o r 0 1 1 1 l i f ea n db u s i n e s s t h u s i ti sg e t t i n gm o r ea n dm o r ei m p o r t a n tf o ru st or e t r i e v e i n f o r m a t i o na c c u r a t e l ya n de f f i c i e n t l yt o d a y c o m p u t e r sc a l ls e n db a c ks a t i s f y i n g i n f o r m a t i o n , u n l e s st h e yc a l lu n d e r s t a n do u rr e q u i r e m e n t sa c c u r a t e l ye n o n g h o na c e r t a i ne x t e n t ,u n d e r s t a n d i n gu s e r sr e q u i r e m e n t si st ou n d e r s t a n dt h ew o r d su s e r s i n p u tf o rs e a r c h i n g t h e r e f o r e ,i ti sn e c e s s a r yt od e v e l o pa l li n t e l l i g e n tr e t r i e v a l s y s t e mb a s e d o ns e m a n t i c t h i sp a p e rm a i n l yr e s e a r c h e so nt h et h e o r i e sa n dt e c h n o l o g i e so fi n t e l l i g e n t r e t r i e v a ls y s t e ma n dd e v e l o p sa ni n t e l l i g e n tr e t r i e v a ls y s t e mc o n c e r n i n gg e o g r a p h y k n o w l e d g e b a s e do nl a t e n ts e m a n t i ca n a l y s i s ( t s a ) t h i sp a p e ra l s oi m p r o v e so n s o m ea l g o r i t h m so fl s a :( 1 ) t h ew e i g h tc a l c u l a t i o na l g o r i t h mi si n n o v a t e dt oi m p r o v e t h ei n f o r m a t i o nr e t r i e v a le f f i c i e n c y ;( 2 ) akv a l u es e l e c t i o na u t o m a t i cs e l e c t i o n a l g o r i t h mi sp u tf o r w a r d ( 3 ) a na p p r o a c hs e a r c ha l g o r i t h mi sp u tf o r w a r dt om a k e s e a r c hr e s u l t ss a t i s f y i n g ( 4 ) d u et 0t h ep a r t i c u l a r i t yo fu s e r si n p u t s ,k e y w o r d sf a c t o r i sa l s ot a k e ni n t oc o n s i d e r a t i o n i na d d i t i o n , t h em a i nf e a t u r e so ft h ei n t e l l i g e n t r e t r i e v a ls y s t e mc o n c e r n i n gg e o g r a p h yk n o w l e d g ea r ed i s c u s s e di nd e t a i l ,i n c l u d i n g m o d e ld e s i g n ,d e v e l o p m e n tm e t h o d sa n dk e yt e c h n o l o g i e s f i n a l l y , t h ee x p e r i m e n t r e s u l t so fi n t e l l i g e n tr e t r i e v a ls y s t e ma r eo u t l i n e d t h es y s t e mu t i l i z e sn a t u r a l l a n g u a g ep r o c e s s i n gt e c h n o l o g i e sa n dr e a l i z e si n f o r m a t i o nr e t r i e v a la ts e m a n t i cl e v e l c o m p a r e dw i t ht r a d i t i o n a lr e t r i e v a lc t l g j n e sw h i c hm a i n l yu s ek e y w o r d sm a t c h i n g m e t h o d s ,t h i ss y s t e ms h o w si t sa d v a n t a g e si ne x p e r i m e n t s k e y w o r d s :i n t e l l i g e n tr e t r i e v a l ,l a t e n ts e m a n t i ca n a l y s i s ,s i n g u l a rv a l u e d e c o m p o s i t i o n ,w e i g h tc o m p u t e 笫玎贝 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者签名: 程冰拈 论文使用授权声明 日期:嗣:主呼 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 作者签名: 盟林琳 导师繇7 捌胁刎7 j 基于潜在语义分析的智能检索系统上海师范大学硕士学位论文 第一章绪论 随着网络技术的发展,人们越来越习惯于从网络获取资源,如何从大量数据 中快速找到用户需要的信息就变得非常重要。智能检索系统能够更好地实现这一 目标。本章主要介绍智能检索系统的意义、发展现状及实现方法,同时简单阐述 了本文的主要工作及创新之处。 1 1 信息时代需要智能检索系统 1 1 1 信息越来越丰富和准确获取越来越困难之间的矛盾 随着计算机网络技术的飞速发展,i n t e m e t 已经进入了人们生活的每一个部 分,无论是工作、学习,还是休闲娱乐。网络上大量丰富的信息为人们带来了极 大的方便。据估计,每4 个月左右,w w w 网上的信息量就会增加一倍l 。面对 如此庞大的信息量,如何高效地使用i n t e r n e t ,准确地找到用户所需要的信息就 变得至关重要。 网络上信息量的快速增加得益于信息本身具有的分布性、开放性和异构性的 特点 2 1 。也正是因为这些特点,使得i n t e m e t 上的信息缺乏统一的组织与管理, 没有一定的层次目录结构或索引机制,所有信息均分散在各个w w w 服务器上 p j 。于是,用户在网上迅速、准确地获取所需信息变得越来越困难。这就形成了 我们常说的“r i c hd a t ap o o ri n f o r m a t i o n ”1 4 的尴尬局面。面对这浩如烟海、杂 乱无章的庞大信息库,如果没有快速高效的检索工具,无异于海底捞针。 1 1 2 检索工具搜索信息量过大和信息丢失之间的矛盾 搜索引擎从1 9 9 4 年出现以来,经过十几年的迅猛发展,在速度和效率方面 都取得了巨大的进步。像g o o g l e ,b a i d u 等知名的网上检索工具已经成为用户查 找信息不可缺少的用具。但是现在大多数的检索工具都是基于关键字匹配进行查 找的,这种查找方式存在着许多不足,基于关键词的简单匹配,常常使搜索的结 果完全依赖于关键词的词形,而不是词义。 全文检索是一个很成熟的技术,它能够解决对网页细节的检索问题1 5 】o 从理 第1 页 基于满在语义分析的智能检索系统 上海师范大学硕士学位论文 论上说,只要网页上出现了某个关键词就能够使用全文检索用关键词匹配把该网 页查出来,但是这又导致了它的缺陷返回的信息太多。比如,我们在g o o g l e 中输入“计算机”,想查找有关计算机方面的信息,搜索结果共找到了1 1 9 。0 0 0 0 0 0 条信息,用户不可能有时间将这些信息全部阅读;又因为中文中“一词多义”现 象非常普遍,很多词语都同时含有几个不同的意思,因此基于关键字匹配的检索 会查找出很多用户不需要的内容。例如:用户输入“东西”,系统会返回所有包 含该词语的文档,但是“东西”这个词语的含义最少5 种,只有一种可能与用户 的期望相关,其他四种都是多余的返回结果。 传统检索工具存在信息量过大问题的同时,又存在“信息丢失”的问题,很 多用户关心的有用信息并没有被检索到。信息丢失的原因主要有三个【6 1 : 第一个是“忠实表达”问题: 由于检索工具是基于关键字的匹配,这就要求用户所输入查询信息必须能够 准确反映出其想要检索的内容。这一点在很多情况下用户是难以做到的。因为有 时候我们只是知道想查找内容的大概信息,而很难用某几个确定的词进行描述。 例如:用户想查找哪些形容词能够形容“才华”,但是却不知道应该如何表达。 第二个是“表达差异”问题: 同样一个问题,人们习惯的表达方式是不一样的,那么如果想要查找同一个 问题的信息,表达不同的人就会得到不同的答案,而且每个人得到的信息都只是 所有相关内容中的一部份。另外,很多学术上的专业术语是从国外音译过来的, 本身就存在着不同的翻译方式,那么用户在搜索该术语的相关资料时,必定会遗 漏那些以另一种方式描述该问题的文章。在中文表达中,同义词的现象非常普遍, 一个事物不止有一种描述方式。以上这些情况都会导致查询的结果不全。例如: 我们在搜索关于“电脑”的信息时,必定会丢失很多关于“计算机”的信息。 第三个是“机械式匹配”问题。 由于现有的大多数搜索工具都是基于关键字的匹配,也就是说所有的搜索结 果只是根据关键字的词形,而不是词义,这样就会导致大量和关键字相关但是 文档中又没有出现该关键字的信息丢失。 例如,我们想查看体育新闻,当输入“体育新闻”后,只有那些明确出现“体 育新闻”四个字的文档才能够被检索到,而像网球、阳径、足球等明显属于查找 第2 贝 基丁潜在语义分析的智能检索系统 上海师范大学硕士学位论文 范围的新闻会被遗漏。 从以上几个方面可以看到,要想得到理想的查询结果,最好的解决方式就是 改变当前搜索引擎的基本检索方法一关键字匹配,进而采用基于语义的查询, 即尽量使计算机能够理解用户输入语句的含义,而不仅仅是字面上的字形。实现 基于语义的检索是智能检索系统的一个重要目标。要实现这样的目标,首先要使 计算机能够理解用户输入语句的含义。自然语言的机器理解是我们要解决的关键 技术。 1 1 3 自然语言将成为人机之间交流的最直接最广泛的方式 近年来,计算机在硬件方面取得了巨大的进步,但是在图形和多媒体之类的 计算机应用软件方面,我们仍然在使用和2 0 年前几乎一样的用户界面。我们与 计算机的交互方式还停留在从计算机给出的一个可选集合中选择命令的阶段。也 就是说,不得不为适应计算机来改变我们的行为。j a m e s a l l e n 在他的自然语 言理解一书中指出:自然语言理解将为下一次的计算机革命提供动力。他认为: 在未来,为适应人类解决问题和行动的方式,应该是计算机做出改变。界面应该 是目标驱动的;并以一种符合用户知觉的自然方式向用户返回信息。 自然语言将成为人机之间最直接的交流方式。因此,检索工具应该具有更加 友好的交互界面,支持用户使用自然语言进行检索,并且计算机能够理解用户的 输入信息,在大量文本中找到用户真正需要的内容。 1 2 智能检索系统的意义 通过以上对现有检索系统的分析说明,基于语义的智能检索系统是计算机技 术尤其是i n t e r n e t 进一步发展的需要,是人类与计算机自然交流的需要,是用户 更加方便、高效使用网络信息的需要。智能检索系统能够提供更加友好的操作界 面,无论是专业还是非专业用户都可以根据需要输入自然的语句,并且得到和输 入信息最相关的资源。因此,智能检索系统的研究对于提高检索的准确率,使用 户更加高效方便的共享网络资源具有很强的现实意义和广阔的应用前景。 实现信息智能检索的关键技术是机器的自然语言理解。自然语言理解是人工 智能领域中一个非常重要的分支。从1 9 5 6 年人工智能被正式提出,已经有了4 0 年历史1 7 1 。加年来,人工智能获得了很大的发展,成为一门广泛的交叉和前沿科 学。人工智能工作者一直以来研究的目标,即使计算机能够具有人类的智能,如: 第3 负 i 基于潜在语义分析的智能检索系统 上海师范大学硕士学位论文 判断,推理,理解,思考和学习等思维活动f 8 j 。 被称为人工智能之父的图灵( t u r i n g ) ,不仅创造了一个简单的通用的非数字 计算模型,而且直接证明了计算机可能以某种被理解为智能的方法工作 7 1 。1 9 6 8 年,费根鲍姆( f e i g e n b a u m ) 所领导的研究小组成功完成了第一个专家系统 d e n d r a l ,用于质谱仪分析有机化合物的分子结构。此后,许多著名的专家系 统,如p r o s p e c t o r 地质勘探专家系统,r i 计算机结构设计专家系统和a c e 电话电缆维护专家系统等被相继丌发。整个8 0 年代,专家系统和知识工程在全 世界得到了迅速发展。然而,人工智能的发展并非一帆风顺,直到现在,当时一 些专家过于乐观的预想并没有实现。人工智能的研究比当初专家的预想要艰难, 复杂得多。理解人类认知与智能的机制是人类面临的最困难和最复杂的课题之一 7 1 。但是面对困难,我们不应该止步不前,而是要以更加饱满的信心,更加艰苦 的钻研来迎接挑战。人工智能工作者始终相信:暂时的停滞只是孕育着新的进展 和突破川。 自然语言理解研究的目的就是使计算机理解人类的认知,由于难度非常大, 到现在仍然没有达到很高的水平。因此,需要更进一步的研究和探索。智能检索 系统就是自然语言理解在信息检索方面的应用。 总之,智能检索系统是自然语言理解的重要应用,在人工智能研究和探索方 面有着重要的意义。 1 3 智能检索的主要方法 智能检索系统从产生到现在发展非常迅速,经过十几年的理论研究和探索试 验,出现了各种各样用于检索的方法。主要有以下几种【9 】: 1 3 1 矢量空间模型( v e c t o rs p a c em o d e l ) 矢量空间模型的基本思想是将用户的输入信息和被检索文档看作是由词语 组成的矢量,用户信息生成的矢量称为检索矢量,文档生成的矢量称为文档矢量。 通过计算检索矢量和每个文档矢量的相似度,将所有和检索矢量相似度较大的文 档反馈给用户。通常情况下,文档的内容可以通过检索它所使用的词语来提取, 进一步讲,文档的内容可以通过文档中的核心关键词来衡量。 矢量空间模型的方法是否有效,关键在于如何计算两个矢量之f a j 的相似程 度。计算相似度的方法有很多种,比如可以通过两矢量的差值矢量来计算,这种 第4 虹 基_ f : 在语义分析的智能检索系统 上海师范大学硕士学位论文 方法对于处理复杂文档时更有效。也可以通过计算两个矢量的内积得到它们之间 的角度,认为两个文档矢量的角度越小,相似度越大。下面简单介绍一下利用内 积的方法。 设k 表示关键字f ,d j 表示文档,表示序偶对( k ,d ,) 的权重,检索矢 量表示为:;= ( ,哆。,) ,文档的矢量表示为:石。( q ,吐,) , 其中t 表示检索矢量和文档矢量中所有关键词语的数量。检索矢量和文档矢量的 相似程度,即日和d ;的相关性用下面公式来计算: 、 州印卜翮d j q 。摭 一一 口f 下图中,口的余弦值即为c o s q ,鼋) q ( 1 - 1 ) 矢量模型有如下优点: 1 ) 部分匹配的策略使得检索的结果文档集更接近用户的检索需求; 根据结果文档对于查询串的相关度通过c o s i n er a n k i n g 公式对结果文档 进行排序。 1 3 2 概率检索策略( p r o b a b i l i s t i cr e t r i e v a ls t r a t e g i e s ) 基于贝叶斯概率论原理的概率模型不同于矢量空间模型,它利用相关反馈的 归纳学习方法,获取匹配函数。给定一个用户的查询串,对于该串存在一个包含 所有相关文档的集合。我们把这样的集合看作是一个理想的结果文档集,在给出 理想结果集后,我们能得到结果文档。 概率模型基于以下理论:给定一个用户的查询串q 和集合中的文档d ,概率 模型来估计用户查询串与文档d ,相关的概率。概率模型假设这种概率只取决于 查询串和文档。更进一步说,该模型假定存在一个所有文档的集合,即相对于查 询串日的结果文档子集,这种理想的集合用r 表示,r 的补集r 表示非相关文档 第51 i l 基于潜在语义分析的智能检索系统 上海师范大学硕士学位论文 的集合。石表示文档d j 的向量文档。石与查询串q 的相关度为: 咖- 粼 m 2 , 其中,尸俾i 石) 表示石与q 相关的概率,p ( i i 石) 表示石与g 不相关的概率。 叶斯勰s i m ( d j , q ,= 粼= 丽p ( d j i r ) 。p ( r ) 。s , 对于所有文档来说,p ( n ) 和p ( r ) 是一样的。因此, s i m ( d p q ) 一端。 n 4 , 概率模型的缺点在于没有明确定义计算相关度的概率,开始时需要猜想把文 档分为相关和不相关的两个集合,但也存在明显的优点,文档可以按照他们相关 概率递减的顺序来计算秩( r a n k ) 。 1 3 3 推理网络( i n f e r e n c en e t w o r k ) 推理网络的方法是通过用户检索信息和文档信息之间的关系,建立所有文档 和检索信息之间的网络图。推理网络分为三层,文档层中每一个节点代表一篇文 档,词语层中包含每一篇文档包含的所有词语,检索层是用户输入检索信息的词 语节点。具体如下: 关系喇络图 第6 瓠 基于潜在语义分析的智能检索系统 上海师范大学硕士学位论文 上图中检索词语无需和文档中词语直接匹配,仅需要匹配概念,所以概念层 将给结论网络在匹配问题上带来弹性。这样,处理贯穿网络,词语节点被激活, 或实例化后产生连接,检索节点也被激活。 1 3 4 神经网络( n e u r a ln e t w o r k s ) 将神经网络用在信息检索中的想法最早是由b e l e w 在1 9 8 9 年提出的。神经 网络由节点和节点间的连线组成,其中节点负责处理输入和输出数据,连线表示 节点关系的权重。当输出的节点被激活时,会沿着连接传递给其它节点。在连接 处赋予权重,这样,沿节点传递的数值是权重与上一个节点输出值的乘积。节点 的输入值是所有传递到该节点的值的总和。在神经网络检索系统中,分为三层来 实现信息的检索,它们是检索层、关键词层和文档层。具体如下图: 神经网络图 上图中,通过负反馈不断调节各个连接的系数,最终使其最优。当某个节点 的输出值大于设定的阂值时,该节点被激活,向下一个节点产生输出。开始时, 在检索层的各个节点被赋予初始值1 ,被激活,沿着连接传递到词语层。连接的 系数表示每个词的权重,在词语层得到的将是检索层中词的数值与对应的词的权 重的乘积,再由词语层激活的节点传递给文档层一篇文档所有包含的词语节点 输出的数值之和即为该文档节点的值。可以通过设定各个文档节点的权重,反馈 回检索层节点,调节相应连接的系数,使最终达到最优解。 第7 页 基于 f 在语义分析的智能检索系统上海师范大学硕士学位论文 1 4 智能检索的发展现状 为了能够实现真正意义上的智能检索,即基于语义的检索,虽然面临巨大的 困难,但是人工智能研究者从来没有停止钻研和探索。 1 e x c i t e ( h t t p :w w w e x c i t e c o r n ) 是1 9 9 5 年由a r c h i t e x t 软件公司研发的。 e x c i t e 的倒排索引表中,行代表的不再是文献,而是文献所表达的概念和含义。 这些概念的建立主要是基于词义之问的联系,如同义、近义、蕴含、反义等,通 过统计的方法得到。例如,它可以把含有m o v i e 和f i l m 的文献都归在f i l m 这一 概念下。不过,由于e x c i t e 所使用的这些技术还不太成熟,所以在性能上不是非 常理想。 2 m i c r o s o f tr e s e a r c h ( m s r ) 微软研究院的n a t u r a ll a n g u a g ep r o c e s s i n gg r o u p 在进行智能检索的研究工 作。特别是他们对中文智能检索的研究,很有应用价值。 词法分析层面,在e n g l i s h ,s p a n i s h ,f r e n c h ,g e r m a n 等语言的行文中,单 词之间是以空格作为自然分界符的,但中文只对字、句和段有明显的分界符来简 单划界,唯独词没有形式上的分界符。因此,中文分词成为中文信息处理系统的 首要任务。有关m s r 采用的中文分词方法可参见文献1 0 和1 1 。 在句法分析层面,m s r 提出了很多方法。如:文献1 2 ,1 3 ,1 4 。 此外,m s r 在新词识别上也就较深的研究。目前,这个领域很少有研究涉 及。m s r 在文献1 5 ,1 6 中详细阐述了新词识别的算法思想。 m i c r o s o f t 在智能检索中投入了大量的人力物力,也做出了许多研究成果。 不过,目前还没有研发出成熟的产品。 1 5 本文的主要工作和创新点 本文主要研究了智能检索系统的理论和实现方法,并对潜在语义分析的发展 现状、实现步骤和关键技术进行了比较深入的钻研和探讨。考虑到用户使用检索 系统时的特点和系统运行时的效率,对传统的潜在语义分析算法进行了改进。设 计并开发了一个关于高中地理知识的智能检索系统。文中对该系统的模块设计、 功能分析、算法改进都进行了详细介绍。通过试验测试表明,在一定程度上实现 了基于语义的检索,并且具有较好的准确率和速度。 本文的创新点主要有以下四点: 第8 贝 基于潜在语义分析的智能检索系统上海师范大学硕士学位论文 1 考虑语义检索中关键字的因素 由于自然语言本身的复杂性和用户检索信息时的特点,本系统并没有完全排 斥关键字的因素,而是根据是否包含关键字将文档集分为两类,分别进行计算, 综合两个方面得到结果。需要强调的是,考虑关键字的因素并不是基于关键字匹 配,而是在文档集分类的基础上进行语义计算。 2 潜在语义分析权重算法改进 潜在语义分析中,词一文档矩阵的确定至关重要。权重计算方法的好坏,会 直接影响检索结果的准确与否。本文在传统权重计算方法的基础上进行了改进, 提出了一种新的权重计算算法。经过试验表明,改进后的权重计算方法能够得到 更好的检索效果。 3 奇异值分解k 值自动选择算法 潜在语义分析中,对文档生成的词一文档矩阵进行奇异值分解,通过保留前 k 个奇异值,其他奇异值设置为0 的方法,使原矩阵塌陷,从而使得词汇问蕴涵 的语义关系凸现出来。一般的解决方法是通过人工测试来手动调整k 值的大小。 本文通过对大量文档的观察测试,提出了一种k 值自动选择算法。 4 提出逼近检索功能 由于用户检索时输入信息的特殊性,导致检索结果会丢失部分与检索信息相 关的文档。为了提高检索结果的准确率,本智能检索系统为用户提供了检索结果 逐渐逼近最优化的功能。 以上创新点将在第四章中详细介绍。 1 6 论文的结构 第一章主要介绍了研究智能检索系统的意义、进行智能检索常见的方法以及 当前智能检索的发展情况,简单阐述了本论文的创新点。 第二章主要介绍潜在语义分析的相关知识,包括潜在语义分析中涉及的数学 理论和工具、潜在语义方法的优势、潜在语义方法的具体实现以及潜在语义分析 在智能检索系统中的应用。 第三章详细论述了本智能检索系统的整体结构。系统分为三个模块:查询语 句处理模块、文档预处理模块和信息抽取模块。详细介绍了每一个模块的功能、 实现步骤和所有步骤涉及的重点和难点。 第91 ;f 基于潜在语义分析的智能检索系统上海师范大学硕士学位论文 第四章主要介绍了本文的四个创新点。第一个是在智能检索中基于用户使用 系统的实际情况,考虑了关键字的因素。第二个是对传统的权重计算方法进行了 改进,进一步提高了检索的准确率。第三个是对奇异值分解中的k 值选取方法进 行了改进,使用一种自动选择算法。最后一个是为了使结果更加符合用户的要求, 提供了逼近检索的功能。 第五章通过对系统的试验和测试,以大量的试验数据为依据,表明本关于高 中地理知识的智能检索系统在一定程度上实现了基于语义的检索。 第六章对本文的主要内容进行了总结,重申了本文中的关键理论和技术,同 时提出了有待进一步改进的地方,对未来的发展提出了展望。 基于渐在语义分析的智能检索系统 上海师范大学硕士学位论文 第二章潜在语义分析技术 如果计算机能够理解人类的自然语言,就可以理解用户的需求和网络上资源 的含义,从而很方便地找到所有满足要求的信息,使检索具有一定的智能性。实 现智能检索有许多理论和方法,潜在语义分析是其中一种效果较好并已经被应用 在很多领域的方法。本章主要介绍潜在语义分析理论的背景、特点以及如何应用 在实际系统中。 2 1 潜在语义分析的提出 2 1 1 传统信息检索模型需要改进之处【t 7 】 传统的信息检索模型主要有布尔模型、概率模型和向量空间模型。但无论采 用哪种模型,都是基于关键字匹配进行检索的,都不可能从根本上解决词的同义 和多义问题。 词的同义现象是指不同的用户根据个人的需要、所处的环境、知识水平以及 语言习惯等不同,对同一事物的表达方式也不一样。实验表明,对于同一事物, 用相同词语表述的用户不到2 0 9 6 ,这样就导致用户的查询与检索文本表面上不一 致,但实际上两者却是匹配的,造成了漏查现象,使检索的查全率大大下降。查 全率是返回的相关文本在文本集中的比率,它是衡量检索系统的一个很重要的性 能指标。 词的多义现象是指相同的词在不同的语境中表达的意义并不相同,这样就使 得用户的查询和检索文本表面上一样,但两者却并不相关。这样就把本来无关的 文本作为检索到的相关文本返回给了用户,造成了查准率的下降。查准率是相关 文本在返回给用户的检索结果中的比率,查准率是衡量检索系统性能的另外一个 重要指标,查全率和查准率两者综合考虑,反映系统的综合性能。 除了同义和多义现象,传统的信息检索还存在一个问题,那就是其技术多是 基于g s a l t o n 的向量空间模型v s m 研制的。v s m 的优点是简单,不苛求语义方面的 知识,将非结构化的文本表示为向量形式,使得各种数学处理成为可能;但同时 假定各个关键词之问是相互独立( j 下交) 的,相互之间没有语义上的联系,但这 基于满在语义分析的智能检索系统 上海师范大学硕士学位论文 种情况在实际语境中很难满足。因为系统处理的大部分文档中出现的词语往往存 在一定的相关性,即出现“斜交”情况。因此v s m 不能很好地反映出文档中包含 的深层次的语义信息。 为了使计算机能够尽可能地理解文本的含义,我们需要一种新的文本计算方 法。这种方法不仅考虑词汇本身的含义,同时要考虑到词汇之间的关系,要考虑 到文本所包含的语义层面上的信息。潜在语义分析j 下是为了解决这个问题出现 的。 2 1 2 潜在语义分析的提出【1 8 j 【1 9 j 1 9 9 0 年,u n i v e r s i t yo fc h i c a g o ,b e l lc o m m u n i c a t i o n sr e s e a r c h 和u n i v e r s i t y o fw e s t e r no n t a r i o 的s c o o td e e r w e s t c r ,t h o m a sk l a n d a u e r 等五位学者共同提 出了潜在语义分析( l a t e n ts e m a n t i c a n a l y s i s ) 这一自然语言处理方法【加1 。 潜在语义分析的前提假设是文本中词与词之间存在某种联系,即存在某种潜 在的语义结构【2 ”。在潜在语义分析中,检索文档被看作词语空间中的一个子空间, 两个文档所对应子空间之间的距离越小,那么这两个文档在语义上就越接近;词 语被看作文档空间中的一个子空间,两个词语所对应子空间之间的距离越小,那 么这两个词语在语义上就越接近【矧。 潜在语义分析采用统计的方法生成词一文档矩阵( t e r m - d o c u m e n tm a t r i x ) , 把文本空间和词语空间结合在一起,组成语义结构空间。由于文本和词语在词语 空间和文本空间中的分布不是随机的,它们处在上下文语义结构的制约中,因而 语义结构空间表现出了文本一文本,文本一词语,词语一词语之间在语义上相关 性【矧。 由于词文档矩阵的数据往往非常庞大,并且受到一词多义与同义词带来的 “噪声”干扰【2 4 1 。因此,潜在语义分析还要利用矩阵奇异值分解( s i n g u l a rv a l u e d e c o m p o s i t i o n ,缩写为s v d ) 的方法,把原来的语义结构空间简化为潜在语义 结构空间。在潜在语义结构空间中,文本空间和词语空间的维数大大下降,不仅 简化了语义结构空间,而且消除了“噪声”干扰。 2 2 潜在语义分析的数学工具 潜在语义分析理论的提出,有着一定的数学理论作为依据,下面我们就简单 介绍一下其使用的数学工具1 2 6 1 。 基于潜在语义分析的智能检索系统 上海师范大学硕士学位论文 定义2 i 矩阵一- ) 。称为正交矩阵,如果a r a - e ,这里爿7 是矩阵,| 的转 置。 定义2 2 设a 是数域p 上线性空间v 的一个线性变换,如果对于数域p 中一 数,存在一个非零向量 ,使得 一;一h , ( 2 一i ) 那么称为爿的一个特征值,而;称为一属于特征值如的一个特征向量。 定义2 3 如果v 是数域k 上的线形空间,且对于v 的任一向量z , 对应一个实值函数m ,它满足以下三个条件: 1 非负性:当x 一0 时,嘲,0 ,当z o 时,h | _ o ; 2 齐次性:剐一i 口酬i ,a e k , x - v ; 3 三角不等式:i x + , l - n q y l i ,毛y y ; 则称删为v 上向量x 的范数,简称向量范数。 定义2 4 向量z 的尸范数为肛l ( 善k n i ( 2 2 定义2 5 矩阵空间c 是一个m x 一维的线性空间,设爿- ) c 一,那么 肛b c ;| ;缈声 浯。, 被称为f r o b e n i u s 范数或简称为f 一范数。 定义2 6 对于一个秩为r 的矩阵爿,。,一7 _ 的特征值为 t 如z o t 以“一- 九一0 ,那么有 ,一 怕i j :q , 其中q 。石,i = 1 , 2 ,一称为a 的奇异值。 定理2 1 奇异值分解定理( s i n g u l a rv a l u ed e c o m p o s i t i o n ) ( 2 4 ) ( 2 5 ) 基于淆在语义分析的智能检索系统上海师范大学硕士学位论文 设a e r 一,且r a n k ( a ) - ,s m i n ( m , ) ,则总存在正交矩阵u e r ”和y 月一, 使得: a u s v 7( 2 - 6 ) 其中s 。( 刚”, 这里 s 1 - d i a g ( a z ,a i ) ,o 1 乏盯2 扣2 0 r2 0 , u u 7 - ,7 - i n 分解式( 2 6 ) 称作a 的奇异值分解,通常简称s v d ,其中u 和v 的列分别称为 矩阵a 的左右奇异向量,5 被称为矩阵a 的奇异值标准形,s 的对角元素被称为 矩阵a 的奇异值。 定理2 2 a 的非零奇异值的个数等于r a n t ( a ) 。 定理2 3 设矩阵a 的s v d 分解由式( 2 - 6 ) 给出,且,一砌,l 七卅) s p - m j n 帆 ) , 那么 a k - q 唯叫a 屹7 q _ 7 表示a 的k 阶截矩阵。其中 以- 0 l ,“;,) ,吒一o l ,”4 ,v d ,鼠- d i a g ( o z ,0 2 , ,o k ) ,则 。r a i n 。怕一口i ,。卜a k ,。 。r a i n p 一占l :。一州z 。吼“ 也就是说,在f 一范数意义下,4 是和a 最接近的k 秩矩阵。 2 3 潜在语义分析的特点 潜在语义分析技术通过分析大量的文档集合,自动生成关键词汇和语义之间 的映射规则。l s a 认为词语在文本中的使用模式内存在着潜在的语义结构,同义 词之间应该具有相同的语义结构,多义词的使用必定具有多种不同的语义结构。 l s a 就是通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多 义词的影响,提高文本表示的准确性i 韧【冽i 矧。 在潜在语义空间结构中,文本和特征词汇依据语义上的相关程度被组织存 第1 4 贝 基于潜在语义分析的智能检索系统 上海师范大学硕士学位论文 放,即i 如1 : 。 分散在不同文本中的同义词空间位置相邻: 包含不同特征词汇但是主题语义接近的文本位置相邻; 总体来说,潜在语义分析具有以下特点: 2 3 1 更加强化语义关系f 划 l s a 年u 用潜在的语义结构表示词汇和文本,将词汇和文本映射到同一个k 维的 语义空间内,均表示为k 个因子的形式,向量的含义发生了很大的变化,它反映 的不再是简单的词汇出现频率和分布关系,而是强化的语义关系。在保持原始的 大部分信息的同时,克服了使用传统向量空间表示方法时对多义词、同义词和单 词依赖的现象。同时,在新的语义空间中进行相似度分析,比使用原始的特征向 量具有更好的效果,因为它是基于语义层而不仅是词汇层。 2 3 2 能够分析词汇和文档之间的关系例 由于词和文本被映射到同一k 维的语义空间,因此在l s a 模型中不仅能够进行 传统的词一词、文本一文本之间的相似关系分析,而且能够分析词和文本之间的相 似关系,与传统的向量空间模型相比,具有更好的灵活性。 2 3 3 有效处理大规模文本库【刈 对于原始的词一文本矩阵,通过l s a 分析提取出k 维语义空间,在保留大部分 信息的同时大大降低了空间维度,这样用低维词、文本向量代替原始的空间向量, 可以有效地处理大规模的文本库。 2 3 4 不需要人工干预p o l s a 不同于传统的自然语言处理过程和人工智能程序,它是完全自动的。所 谓自动,就是l s a 不需要人工干预,不需要预先具有语言学或者知觉相似性知识 ( 无须知识基础、语义网络、文法、词法、句法剖析器等,它的输入只是原始的 未经处理的文本序列) ,它完全是根据普通数学学习方法,提取合适的维度语义 空间,达到有效展示文本内容的目的。 2 4 潜在语义分析的发展现状 潜在语义分析自从1 9 9 0 年被s c o t td e e r w e s t e r ,s u s a nt d u m a i s 等五位 学者提出后,十几年来得到了迅速的发展。国内外一大批学者致力于研究该方法, 第1 5 虹 基于潲在语义分析的智能检索系统 上海师范大学硕士学位论文 不断改进和完善它的理论,并且应用在了各种不同的领域。 2 4 1 国外发展现状 1 1 美 b e r k e l e y 实验室的d i n g 等人用双重概率模型来解释l s a 的理论方法f 1 8 】。 1 2 孟菲斯大学认知科学实验室的a r t h u r :c g r a e s s e r 等人用l s a 方法建立了一 种类似于人类辅导员的自助教学辅导系统a u t o t u t o r l l 8 】。 1 3l s a 的最早提出者之一的t h o m a sk l a n d a u e r 和他的k - a - t 团队开发的 i n t e l l i g e n te s s a ya s s e s s o r ( i e a ) 是l s a 的应用之一,l e a 对人们撰写的文 章中上下文概念上的合理性给予评估和建议,被d i s c o v e r 杂志评价为一个“创新 性的进步”1 1 8 】。 2 4 2 国内发展现状 2 1 东北大学的全德在2 0 0 5 年利用潜在语义分析的方法对文本分类技术进行了 研究,主要讨论了稀疏矩阵、权重计算和特征选取这三个因素对潜在语义分 析的影响。并对传统的模型进行了改进,降低了对存储空间的要求。 2 2 西南交通大学的贺扬研究了基于潜在语义分析模型的查询语义扩展模型,该 模型完全抛弃了复杂的语法分析,利用语义空间提取语义信息,克服了传统 信息检索模型的弱点,在潜在语义索引模型的基础上进一步提高了检索的性 能。 z 3 大连理工大学的张兰轩研究并开发了基于潜在语义分析的大学概况中文问 答系统。和传统的问答系统相比,它提供了更加友好的人机交互界面和良好 的中文信息处理能力。 2 4 吉林大学的赵天雪研究了潜在语义分析在答疑系统中的应用,使用奇异值分 解和因子分解两种方法,实现了答疑系统的答疑功能和挖掘知识点功能。 2 5 潜在语义分析的实现步骤 2 5 1 词一文档初始矩阵 潜在语义分析的主要方法即是对文档进行计算,找到其中隐含的语义关系f 3 l 】 i3 2 1 。要计算文档,首先应该将文档切分成具体的词汇,然后再计算词汇之日j 的关 系。因此,潜在语义分析的第一步就是要将原始文档以矩阵的形式存储在计算机 中,以便迸一步的计算。 基于淆在语义分析的智能检索系统上海师范大学硕士学位论文 要生成矩阵,首先需要筛选出文档中所有的关键词语,将这些词语是否出现 在某一个文档中进行标记。 我们以几个简单的句子为例具体介绍一下如何表示词一文档矩阵。 例如,存在三篇文档,每篇文档中有一句话。 d 1 :h u m a n m a c h i n ei n t e r f a c ef o ra b cc o m p u t e ra p p l i c a t i o n s d 2 :as u r v e yo fu s e ro p i n i o no fc o m p u t e r s y s t e mr e s p o n s et i m e d 3 :t h ee p su s e ri n t e r f a c em a n a g e m e n t s y s t e m 我们只提取关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论