




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 航空公司希望能根据飞机的故障描述检索故障案例数据库,即给出与输入的故障 描述类似的故障案例来指导飞机的故障隔离。 本文在介绍了潜在语义索引模型基本原理的基础上,详细地讨论了如何将该模型 应用到飞机的故障案例检索系统中。在对故障案例进行预处理时,本文针对信息检索 的特点提出了基于n 一元的统计标引法对故障案例进行自动标引。本文以系统的检索 性能为依据通过大量的实验确定了潜在语义索引模型所使用的权值方案、k 值、相似 度阈值等参数。 根据实验的结果,本文设计开发了故障案例检索系统,并对系统进行了优化。 关键词:故障隔离、案例检索、信息检索、潜在语义索引、自动标弓 站j - 垒呈! ! 坠曼! a b s t r a c t l a t e n ts e m a n t i ci n d e x i n g ( l s i ) i sac o m p l e t e l ya u t o m a t i cy e ti n t e l l i g e n t i n d e x i n gm e t h o d ,w i d e l ya p p l i c a b l e ,a n dap r o m i s i n gw a y t o i m p r o v eu s e r s a c c e s so fm a n yk i n d so ft e x t u a lm a t e r i a l s l s it r i e st oo v e r c o m et h ep r o b l e m o fl e x i c a lm a t c h i n gb yu s i n gs t a t i s t i c a l i fd e r i v e dc o n c e p t u a i n d i c e si n s t e a d o fi n d i v i d u a lw o r d sf o rr e t r i e v a l i nt h i st h e s i sl s ii si n t r o d u c e di n t oc a s er e t r i e v a l ,a n dt h ea p p l i c a t i o n o fl s ir e d r e s e n t e da l s o i no r d e rt op r e p r o c e s st h et e x t o fa i r c r a f tf a u l t , an e wa u t o m a t i ci n d e x i n gm e t h o db a s e do nn - g r a mi sp r o p o s e d ,l a r g eq u a n t l t l e s o fe x p e r i m e n t st oa d j u s t t h ep a r a m e t e r so fl s im o d e l a r ed o n es ot h a tt h e d e r f o r m a n c eo fc a s er e t r i e v a ls y s t e mi s e x c e l l e n t a nl s i b a s e dc a s er e t r i e v a ls y s t e mi sd e v e l o p e da n ds o m ew o r k i sd o n et o o p t i m i z e t h es y s t e m k e y w o r d s :t r o u b l e s h o o t i n g ,e a s e r e t r i e v a l ,i n f o r m a t i o nr e t r i e v a l ,l a t e n t s e m a n tici n d e x i n g ,a n da u t o m a t i ci n d e x i n g 筑i i0 1 1 课题背景 第一章引言 中国加入w t 0 以后,航空公司面临着更加激烈的竞争,如何降低生产运营成本、 提高服务质量成为航空公司能否在竞争中获胜的关键。飞机在使用过程中由于使用寿 限等各种原因,经常发生故障。为了保证飞行安全、维护乘客和货主的利益、缩短飞 机停场时间、降低生产运营成本,快速准确地排除故障、保证飞机的适航性是必不可 少的。 1 1 。l 故障诊断简介 航空器维修,是指对航空器和或航空器部件进行的维护、维修、检查、更换、 改装和排故的总称。按照民用航空器维修许可审定的规定,对民用航空器和或 航空器部件的维修工作分类为:校验、改装、维修、翻修、航线维修和定期检修。航 空器维修必须以可靠性为中心、采取最经济、最有效的维修,对航空器的可靠性实施 最优控制。 故障诊断技术是- - f 应用型交叉学科,它的理论基础涉及控制理论、计算机工程、 数理统计、信号处理、模式识别、人工智能以及相应的应用学科。故障诊断技术已经 得到了国际自动控制界的高度重视,成为自动控制的一个重要分支。其中心任务是根 据设备运行状态信息查找故障源,并确定相应决策。 故障诊断包括以下几个方面: 故障的特征提取,即通过测量和一定的信息处理技术获取反映系统故障的特征描 述的过程。 故障的分离与估计,即根据检测的故障特征确定系统是否出现故障以及故障的程 度的过程。 。 故障的评价与决策,即根据故障分离与估计的结论对故障的危害及严重程度做出 评价,进而做出是否停止进程及是否需要维修更换的决策。 1 1 2 飞机的故障隔离 按照目前国内及国外航空公司维修的方法,排除故障的一般步骤是以机组飞行记 第1 页 潲血i 凸义索s i “e 帆敞障震例检索中f 内膨 求本反i i 火i i , j 故障现象为依据,参考该型飞机的 字符( 百分号)表示可以与任意长的( 长度可以为零) 字符串匹配 所有的其它字符只代表自己 例如:s nl i k e p 一表示姓名s n 长度至少是3 个字符且倒数第三个字符必 须是p 。 这种查询实际上是一种数据查询( d a t ar e t r i e v a l ) ,它的目标是检索出满足明确 定义的条件( 如特定的规则表达式、者关系代数表达式等) 的所有的对象,即数据。对 于数据检索系统来说,检索到的所有对象中只要有一个不符合条件就意味着检索的完 全( 彻底) 失败。所以数据检索在这里却行不通。 1 2 2 基于模糊集理论的查询 $ q l 语句只能表示和处理精确数据,无法表示自然语言中的模糊概念。如果要在 一个教师数据库中查找“年轻教师”的名单,通过s q l 条件组合和扩展是无法实现对 于“年轻”这个概念的查询任务的。 要完成此类模糊查询,可以有两种方法。”:一是建立模糊数据库模型。在模糊数 据库中,有些字段的值是模糊化的,如教师“年龄”字段就可以作为模糊化字段。在 进行数据库录入时,首先进行数据模糊化处理,将精确数据转化为模糊数据。而在数 据查询时,直接进行模糊值的匹配。这种方法查询简单,但在数据录入时需要进行额 外的计算工作,且模糊字段值的确定并不容易。二是依然建立精确数据库,而将s q l 语言本身进行模糊化扩展,将查询条件通过模糊计算,转化成一个模糊范围,再进行 精确的s q l 查询。这种方法无需增加数据录入人员的负担,查询过程与一般查询相同, 操作简单自然,查询结果明显,查询条件易于工具化自动生成而且可以动态修正。周 泓等人在文献 5 2 中使用第二种方法进行了数据库查询工具的设计。 使用这两种方法建成的系统在本质上仍然是使用s q l 语言的查询系统,并不能解 决文本的相似性检索问题,即根据给出的文本检索出与该文本类似的文本。 1 2 3 案例检索 人们在日常生活中,往往会遇到“把类似的病案找出来f ”( 目的是借助于已积累 的医疗档案,为疑难杂症的诊断和治疗提供可靠参考) :“把类似的文章找出来! ”( 检 索同类或近似主题的文章,是现代常见的社会需求) 等等,诸如此类的以案例为基础 的信息检索要求已成为信息时代的需求。 第j 页 潜在语义索引在飞机故障案例检索中的应用 所谓案例检索,实质上就是要在用户给出案例之后,检索系统能够自动地从案例 数据库中,寻找出用户所指定的方面与案例完全相同或部分相同的案例来;而且要求 输出结果能按符合于用户的要求的程度进行排序,符合提问程度高的优先输出。王永 成等人在文献 4 3 中指出案例检索的难点有三个: 自动地从案例中提起出主题等特征信息: 要精心地设计案例检索的实现算法,才可能实现实时性检索的要求; 存储空间的巨耗与排序耗时。 针对这三个难点,王永成等人在文献中分别进行了讨论,并提出了相应的算法。 但是文献中所指的案例检索是在用户的检索要求只是对作者、标题、分类号与主题词 这些特征的相同或相近要求这一假设下进行的”,与本文所要解决的问题存在较大的 距离。 1 2 4 文本检索 文本检索系统是一个文本存储、检索和维护系统,其任务是根据给定的用户信息 需求从文本集中识别出最为匹配的文本。如果以黑箱的形式描述一个基本的文本检索 系统,将会得到如下图所示的三个组成部分:输入、引擎和输出。”。 图1 1 文本检索系统基本组成示意图 文本检索是信息检索中最常见的一类检索,人们对它的研究最早、成果也最显著。 在实践中,研制成功了许多成功的信息检索系统,如美国的m a s s a c h u s e t t s 大学的 i n q r e r 系统:c o r n e l 大学的s m a r t 系统,中国北大方正的n a r s 系统。文本检索目前 采用的技术主要有布尔模型检索、向量空间模型检索和概率模型检索。3 。 1 布尔模型检索 布尔检索就是采用布尔表达式来表示用户提问,通过对文本标识与用户给出的检 索式进行逻辑比较来检索文本。该模型具有简单,易理解,容易在计算机上实现且检索 速度快等优点,在许多检索系统中得到应用,例如y a h o o ! ,i n f o r s e e k 等诸多网络检索 丑1 j i 均采用和尔检索技术。“:。 但是,斫i 尔检索有两个缺点“4 ”7 :( 1 ) 给定一个文本,它要么符合条件( 称为棚关) 要么不符合( 称为不相关) ,无法按照用户定义的重要性排序输出:( 2 ) 要么检索到满 足条件的所有文本要么不能检索到任何文本。例如:当许多项进行析取时,包含所有 的( 或者许多) 析取项的文本与只包含个折取项的文本没有任何区别。同样,当许多 项进行合取时,不包含一个合取项的文本与不包含任何合取项的文本没有任何区别。 为了克服上述缺陷,人们对布尔检索理论进行了改造,形成了所谓的加权布尔检 索,或称扩展布尔检索,如b o o k s t e i n 检索模型,s a l t o n 模型等“”。实验表明,使用 扩展布尔模型的检索系统的性能要比使用经典布尔模型、使用向量空间模型的检索系 统要高。然而,构造一个高效的扩展布尔查询是需要代价的,它要求用户具有较多的 专业知识。 2 向量空间模型检索 在向量空间模型中,文本表示为标引词的集合。一般情况下,标引词从文本中自 动提取,可能是单词、短语、n 一元或者由人所赋予的描述性标引词。这些标引词定义 了一个空间,每一个不同的标引词表示空间中的一维,每一个文本都用一个标引词集 表示,这个空间就可以看作文本空间。空间中的每一个文本d 由表示它的标引词的 权值定义。 , 用户给出一个标引词集合并给出与其对应的权值作为一个查询,或者用户以自然 语言的形式给出。在第二种情况下,必须以与文本处理同样的方式处理查询( 查询可 能是一个文本,即用户要查询的那类文本的一个样品) ,并被看作是文本空间中的一 个新的文本。 在向量空间模型中,文本相似度通过计算表示文本的向量之间夹角的余弦值获 得,也有通过计算表示文本的点之间的距离获得的,但一般使用前者。 向量空间检索为标引词加权,通过调节标引词权值的大小来反映标引词与被标引 文本的相关程度,部分地克服了传统布尔检索的缺陷,同时文本之间相似度使属性相 似的文本尽量聚集在一起,提高了检索的效率。 向量空间检索存在的缺点o “:( 1 ) 相似度计算量大,影响检索速度;( 2 ) 标引词权 值的确定困难;( 3 ) 对标引词的相互独立的假设不符合实际情况”1 ;( 4 ) 无法分辨自然 语言的语义模糊性。 3 概率模型检索 概率模型检索以概率论为理论依据,通过赋予标引词某种概率值来表示这些标引 词在相关文本和无关文本之间出现的概率,然后计算某一给定文本与查询相关的概率 值,系统根据概率值做出检索决策。 它的主要缺点是。”:( 1 ) 增加存贮和计算资源的开销:( 2 ) 参数估计难度较大。 第5 页 潜在语义索引在飞机故障案例检索中的应用 航空公司提出的故障案例相似性检索要求可以利用文本检索的原理来实现。 当前,文本检索的一个基本问题就是自然语言的歧义问题,这实际上是一个问题 的两个方面,即同义词和多义词现象“1 。同义词现象是指同一个对象,有多种不同的 描述方式。不同的环境、不同的需要、知识背景、语言习惯都会导致用户使用不同的 词语( 术语) 来描述相同的信息。同义词的大量存在降低了检索系统的查全率。多义词 现象指的是多数词有不止一种意义。同样一个词,在不同的环境中,由不同的人使用, 会呈现出不同的含义,因此在一次查询中一个词的使用并不意味着包含该词的文本一 定就是用户感兴趣的,多义词现象导致了精确率的下降。导致这种现象出现的根本原 因是信息检索的本质是语义检索,传统的信息检索模型都是基于词索引的检索,而独 立的字、词的集合是不可能准确地反映文本和查询的语义的。 为了解决这些问题,s t d u m a i s 等人提出了潜在语义索引模型”1 ,它基于这样 一种断言。“,即文本中存在隐含的关于词的使用的语义结构,这种语义由于部分地 被文本中词的语义上和形式上的多样性所掩盖而不明显。使用这样的结构可以达到消 除词之间的相关性,化简文本向量的目的。潜在语义模型基本解决了同义词问题,并 部分地解决了多义词问题。 本文就是利用潜在语义索引模型实现故障案例的相似性检索的。 1 3 本文的结构 本文第二章详细地阐述了潜在语义索引的原理。在这一章中,首先给出了潜在语 义索引的理论基础并进而阐述了其基本原理,然后通过一个例子来直观的说明潜在语 义索引的使用。最后本文阐述了潜在语义索引模型的一些相关的问题,如:向量的更 新、查询的表示、相似度的计算等。 第三章详细地讨论了预处理与归一化。要将潜在语义索引应用到故障案例的检索 中,需要有标引词文本矩阵,而该矩阵就是通过预处理和归一化得到的。预处理 包括对故障案例数据库进行自动标引、标引词权值的选择、归一化公式的选择等。信 息检索中的自动标引与语言学中的自动标引有较大的区别,本章针对信息检索的特点 将统计标引法中的词频统计法和n 一元标引法结合起来提出了一种基于n 元的统计分 析标引法。 为了评估潜在语义索引应用到故障案例检索中的可行性、获得潜在语义索引模型 在故障案例检索中的相关参数,本文的第四章讨论了实验的设计。在进行实验的设计 之前,首先简单的介绍了信息检索系统的性能评估指标,目前还没有一个普遍适用的 指标,根掘本课题的实际需要,本文选择使用其中的一种衍生指标,即i ! 指标。然后 本文按照一定的规则从故障案例数掘库中拙取了部分故障案例构造了检索系统的测 撕6 堕塑堕丕盔堂堡主兰垡笙茎 试集,并进行了文本标引实验。最后本文以系统的检索性能为依据通过大量的实验确 定了潜在语义索引模型所要使用的各项参数( 各权值公式、女值、相似度闽值等) 。 本文第五章对飞机故障案例检索系统进行了设计,文章给出了检索系统的结构, 并介绍了各部分的主要功能。同时,文章重点阐述了相似性故障案例检索部分。为了 提高系统的检索性能,文章对检索系统进行了优化。 第六章总结了本文所做的工作并指出了下一步的研究方向。 1 4 系统研发的意义 飞机故障对飞机的安全性、经济性都构成了严重的威胁,是影响航空公司正常营 运的第一大敌。因此有效、迅速、准确地排除飞机故障,对保护国家的经济利益、人 民的生命财产都有十分重要的意义。飞机故障案例检索系统的建立将极大地缩短排故 周期,提高排故准确性,为保证飞机的安全性、提高航空公司的效益做出积极有效的 贡献。 南京航空航天大学硕士学位论文 第二章潜在语义索引的基本原理 传统的向量空间模型采用标引词( i n d e xt e r m s ) 来表示用户查询和文本。检索是 通过用户查询和文本之间的字、词匹配来实现。这种匹配,是浅层次概念匹配,而非 深层次的语义匹配,是不准确的。一方面,同一概念可以有不同的方式,这就是字、 词的同义性问题。因此,用户查询中的字、词很可能和一个真正与用户查询相关的文 本中的字、词不匹配。研究表明,描述性词汇使用的多样性远远超出了我们的想象, 例如,两个人使用相同的词汇描述熟知的对象的几率是2 0 “11 同义词现象的大量存 在,大大降低了信息检索系统的查全率。另一方面,语言中的许多字、词有不同的含 义,即字、词的多义性问题。由于字、词的具体含义和语境以及使用该字、词的人等 因素密切相关,这使得用户查询可能匹配到其实并不相关的文本上去。这种现象的存 在导致了查准率的下降。 由于这一问题的存在,有些人已经完全抛开向量空间模型,试图从自然语言处理 技术中得到新的解决办法,他们认为,更好地理解语义对于有效地检索相关信息至关 重要。这样检索系统就需要具有复杂的知识库结构,要进行大量的语义处理。目前在 此指导思想下所做的研究大多使用特定的知识表示方法,在知识工程方面的投资巨 大,所建的系统多局限于某个特定的领域,因此,尚不具备实用的价值o ”。 另一部分人选择了对向量空间模型进行改进。潜在语义索引模型( l a t e n t s e m a n t i ci n d e x i n g ,l s i ) 便是向量空间模型的进一步发展。 在向量空间模型中,文本集合定义了向量空间,在文本集合中出现的所有的标引 词就是空间中的维,而文本集合中的文本则是空间中的向量。空间中,每一个坐标的 值为与其相对应的标引词的权值,它表征着包含该标引词的文本与其他文本相区别时 该标引词的重要程度。这种方法是文本集合统计特征的一个有效近似,然而却过于简 化,因为它是基于这样一个假设的”:在文本集合中出现的标引词是文本空间中彼此 独立的正交维。在现实世界中,这个假设很难满足,这些标引词之间往往存在某种程 度的“斜交”现象,影响了向量空间模型的检索性能。潜在语义索引的提出,大大降 低了标引词之间的“斜交”现象,将词汇空间映射为潜在语义空间,从而更加全面地 反映了标引词与文本之间的关系”。 l s i 试图利用统计得出的概念索引而不是单个的词来解决上述词的匹配问题。它 基于这样一种断言“,即文本中存在着隐含的关于词的使用的语义结构,这种语义 由于部分地被文本中词的语义上和形式上的多样性所掩盖而不明显了。l s i 使用矩阵 九勺奇异值分解( s v d ) 来评估这种语义结构,进而通过使用由s v d 得到的奇异值和向量 进行检索。实验表明,这种衍生的向量能够更好的表述文本的意义。 向艿i 航。e 航犬人;珂! 一 f 0 沦文 2 1 、理论基础 奇异值分解广泛地用于解决非受限的线性最小平方问题、矩阵的秩估计、特征向 量分解和谱分析等问题。给定一m h 的矩阵a ,不失一般性设 ,r a n k ( a ) = r , i 的奇异值分解( 用s v d ( a ) 表示) 定义为 a = u s v 7 ( 2 1 ) 其中, u 7 u = v 7 v = ,。, 毗 ,黔浆黑 即矩阵u 和矿蟛前r 列分别为矩阵州r 材一的正交特征向量,分别 与各自的r 个非零特征值对应,矩阵u 和矿的列向量分别称为矩阵爿的左奇异向量和 右奇异向量,矩阵a 的奇异值为矩阵s 的对角元素,这些对角元素分别是矩阵删7 的 n 个特征值的非负平方根。 下面两个定理给出了s v d 的性质,l s i 正是利用了s v d 的这些性质来揭示标引词 文本矩阵结构的重要信息的。 定理i :设矩阵4 的s v d 由式( 1 ) 给出,且 5 t s 2 s , s ,+ l = 。- 。= s 。= 0 令r ( a ) 和n ( a ) 分别表示矩阵a 的域和零空间,则 1 、秩的性质:r a n k ( a ) = ,( 4 ) - ;s p a n vr + i ,v 。) ,r ( 一) ;印口n “,“。) ,其 中,u = k 。材:】,v = v i 屿】 2 、二重分解:a = ,j h 7 ; f - i 3 、范数:i 彳i i = 砰4 - - - - + 2 ,且l i 爿畦= 丑。 定理的证明参见文献 5 。 定理2 :设a 的s v d 由式( i ) 给出,且r a n k ( a ) = r p = m i n ( m ,n ) ,b 为a 的近似 第9 页 一 堂尘坐整笙! ! 垒! ! ! 墼堕壅型丝丝! ! ! ! 坐型 矩阵,且r a n k ( b ) = k ,定义: 爿。= “,s ,v j ( 2 2 ) ,= i 贝j , m i n q l 爿一b i ;= 1 1 4 一a 。| | := s :+ 。+ + s : ( 2 3 ) 定理的证明参见文献 6 。 换句话说t 由矩阵a 的k 个最大的奇异元组组成的a 。是秩为的4 的最佳逼近。 因此, m i n l l a 日1 i := 忡一a 。i i := 气+ ( 2 4 ) 2 2 、潜在语义索弓 2 2 1 、原理 潜在语义索引从标引词文本矩阵开始,首先对该矩阵进行奇异值分解导出潜 在语义结构模型。将标引词文本矩阵分解成三个特殊矩阵的过程就是将标引词一 一文本矩阵所表示的词与词闻的关系分解成线性独立的分量的过程。这些分量中有许 多非常小,完全可以忽略,从而得到维数少得多的近似模型。在这个模型中,标引词 标引词,标引词文本,文本文本之间的相似性都可以方便的计算,当然 得到的值是近似的,这种计算在几何上表现为向量的点积或者向量夹角的余弦值。 因此,从信息检索的角度来看,通过对矩阵的奇异值分解,可以导出一个不相关 的因子的集合,在这个集合虽,每一个标引词和文本都用这些因子来表示。可以看出。 由于奇异值分解的降维作用,原来使用不同的标引词的文本有可能被映射为相同的向 量,这正是我们所期望的。通过奇异值分解,单个的标引词被导出的正交因子所代替, 这能帮助我们解决前面所提到的同义词问题和多义词问题。 为了应用l s i 模型,首先必须构造标引词文本矩阵,该矩阵的每一元素代表 了每一个标引词在某一文本中的出现频率,即: a = k j ( 2 - 5 ) 这里为标引词f 在文本- ,中的出现频率一般情况下,一个标引词不会在每一个文 第1 0 页 南京航空航天大学硕士学位论文 本中出现,所以矩阵五为稀疏矩阵。奇异值分解将矩阵4 分解为三个矩阵:分别包含 a 的左右奇异向量的正交阵u 和v 以及由a 的奇异值组成的对角阵s ,奇异值分解就 是从这三个矩阵中导出潜在语义结构模型的。奇异值分解的过程就是将隐含的关系分 解成线性独立的向量( 或称因子) 的过程。选取合适的k 值,保留s 中的前k 个最大的 奇异值,并保留c ,和v 中相应的行和列,使用删减后这些矩阵相乘得到4 即a 的秩 为k 的最小二乘意义上的近似矩阵。式( 2 - 2 ) 可以表示为: a i = u i s 呀 ( 2 - 6 ) 下表列出了l s i 模型中各符号的解释: 表2 1l s i 模型中各符号的意义 符号解释符号解释 a 的秩为k 的最佳近似矩 4标引词文本矩阵4 阵 u标引词向量 氓降维后的标引词向量 s4 的奇异值 s l4 的奇异值 矿 文本向量的转置k降维后的文本向量的转置 m 标引词总数 刀 文本总数 k因子的数量 r a 的秩 图2 1 给出了奇异值分解的数学表示: 标弓l 谒向置k 奇异僵文本向置 阳。口凹 图2 一】奇异值分解的数学表示 潜在语义索引在飞机故障案例检索中的应用 导出矩阵a 。只能近似于矩阵a 而不能与矩阵a 完全相等,这一点非常重要。可以认 为4 包含了爿的主要特征( 即标引词与文本的语义关系) ,舍去了噪音。以奇异值分解 推导出的简化模型近似初始矩阵中代表标引词文本之间关系的数据,由于其维数k 远远小于系统中所使用的标引词数,次要的标引词上的区别就被忽略了:在消除多义 性标引词方面,由于一个标引词在某个特定的文献中的意义取决于其上下文,与其它 标引词的出现有关联,两篇文献的相似程度由标引词的使用模式决定,即取决于其中 所含标引词的意义在多大程度上一致,从而部分地消减了多义词的影响。 2 2 2 、示例 在本节中,采用一个具体的例子来阐明潜在语义索引的过程,该例取自文献 4 。 在表中给出了9 篇文章的篇名,将出现在多个篇名中的词作为标引词,使用斜体 字表示。总共有两类:从c l 到c 5 是关于人机交互( h u m a n c o m p u t e ri n t e r a c t i o n ) 的,从m 1 到m 4 是关于图论( g r a p h s ) 的。为简单起见,标引词文本矩阵中的每一 个元素的值使用对应的标引词在各文本中出现的频率表示。这样的矩阵可以直接作为 基于关键字的检索系统的输入,当然在这里作为s v d 计算的输入。 表2 2l s i 模型应用实例 序号篇名 c 1h u m a nm a c h i n ei n t e r r a c ef o rl a ba b cc o m p u t e ra p p l i c a t i o n s c 2a s u r v e yo fu s e ro p i n i o no fc o m p u t e rs y s t e mr e s p o n s et i m e c 3t h ee p su s e ri n t e r f a c em a n a g e m e n ts y s t e m c 4 s y s t e ma n dh u m a ns y s t e me n g i n e e r i n gt e s t i n go fe p s c 5r e l a t i o no fu s e r - p e r c e i v e dr e s p o n s et i m et oe r r o rm e a s u r e m e n t m lt h eg e n e r a t i o no fr a n d o m ,b i n a r y ,u n o r d e r e dt r e e s m 2t h ei n t e r s e c t i o ng r a p ho fp a t h si nt r e e s m 3g r a p hm i n o r si v :w i d t h so ft r e e sa n dw e l l 一q u a s i o r d e r i n g m 4 g r a p hm i n o r s :as u r v e y 下面给出本例的标引词文本矩阵 讹1 2 负 j 堑i ! ! 堕塾丕丕兰堡主堂垡堡塞 a = 其中矩阵a 的行按照c 1 ,c 2 ,c 3 ,c 4 ,c 5 ,m 1 ,m 2 ,w 3 ,m 4 的顺序,而列按照h u m a n i n t e r f a c e ,c o m p u t e r ,u s e r ,s y s t e m ,r e s p o n s e ,t i m e ,e p s ,s u r v e y ,t r e e s ,g r a p h m i n o r s 的j 顷序j j 列。 对矩阵a 进行奇异值分解,并取女= 2 得到矩阵一:、u 2 、s :、。为了将标引 词呈现在二维平面上,我们用的第一列乘第二个奇异值昌作为标引词的z 轴坐标, 用u :的第二列乘第二个奇异值s :作为标引词的y 轴坐标,即: t m 2 = u 2 s 2( 2 - 7 ) 矩阵t m :的第一列和第二列就分别是相对应的标引词在x 轴和y 轴的坐标。同 样,我们可以得到文本在二维平面上的坐标分别是矩阵 d m 2 = 是哆( 2 8 ) 的第一行和第二行的相对应的值。图2 2 给出了各标引词和文本在二维空间中的位 置: o o 0 o o o o o 1 0 1 l o 0 0 o o o o o o ,l 1 o o o 0 o o o o 0 ,l o o 0 o 0 0 o o o 0 ,o o o o o 1 o 1 1 0 o o o o 1 o o o 2 o o ,o 0 o o o 1 o 1 1 o 0 l o o 0 o o o l 1 1 1 l 0 1 o o 0 1 l 1 o o o o o 0 0 o o 一 鲎垄堕墨鲞! ! 垄! 塑垫堕壅趔望室塑窒旦 。1 5 一g r a p h f m 3 + c 3 一c 4 卞c 2 o05 15225 图2 2 标引词和文本在二维空间中的表示 图中用“+ ”表示文本的位置,用“ ”表示标引词的位置,在各点的附近标出了 该点所对应的文本或者标引词。可以看出在斜线的下方的文本恰好全部属于第二类, 即都是关于图论的,而斜线的上方的文本恰好全部属于第一类,它们都是关于人机交 互的。标引词也类似。当然,为了在二维空间中取得良好的显示效果,d e e r w e s t e r 等人对文本和标引词进行了精心的选择。 2 2 3 、向量的更新 在已经构造好的l s i 语义空间中添加新的标引词和文本有三种方法可以选择:对 标引词文本矩阵重新进行s v d 计算、将新的标引词或者文本f o l d i n g i n 到现有 的语义空间中以及对l s i 语义空间进行s v d 更新“2 。对标引词文本矩阵重新进 行s v d 计算就是重复前面的过程,比较简单,这里只介绍一下后两种。 l 、f o l d i n g i n 追加新文本的过程与前面的查询表示类似。每一个新的文本均应表示成女维空问 中的向量,设陔文本棚应的m x l 文本初始向量为d ,则在k 维空问中的向量可表示成: d = c i | 7 u s i l ( ! 一l ) 堕塞塾至堕墨奎兰堡主堂垡笙茎 每个新的文本向量均应追加到现有嘭的列上,如图所示 围困固 图2 - - 3 在k 维空间中追加p 个新文本 类似地,对每个新的词语,设其相应的1 x n 标引词初始向量为t ,则在k 维空间 中的向量可表示成: r = t v , s - , 新加入的标引词向量应追加到u 。的行上,如图 忍 困固 甜哪xh m 卅ty kxkk 。 图2 - - 4 在女维空间中加入g 个新标引词 ( 2 - 1 0 ) 大量新标引词的加入会使女维l s i 空间上的查询性能下降,因而要求初始的训练 集足够大,也可当新加入的标引词达到一定的数量时重新进行s v d 计算。 2 、l $ i 空间的s v d 更新“2 3 3 与f o l d i n g i n 不同,s v d 更新将新增加的文本或标引词直接追加到矩阵a 。中 设d m ,为需要追加的p 个文本的初始向量表示,则追加d 。,后标引词文本 矩阵变为b = ( 4ld ) 。 h cn t p m h 汝r 。为需要追加的,个标引词的初f c i 向量表示,则追加r 。后标引涮文二,: 堂垄堡墨窭! ! 垄3 垫墼堕壅型垒室箜窒旦 阵变为b = 。 然后利用公式龈以+ 一z j 对标引词的权值进行修正,其中l 为m ,维变换矩 阵,z ,为n ,维标引词权值调整矩阵。 重新计算s v d 最准确但对内存和时间要求较高,f o l d i n g i n 方法计算速度最高、 内存占用较少但随着大量的文本的追加而降低检索系统的性能,而s v d 更新充分利用 了已有的矩阵4 的奇异值和奇异向量,在内存使用、计算速度和检索性能之间取得了 良好的平衡“”。 2 2 4 、查询表示 为了便于检索,用户的查询必须表示成k 维空间中的一个向量,才能与以向量表 示的文本进行比较。查询跟文本类似,为了将查询表示成向量的形式,必须对查询进 行定的处理( 这些处理必须与对文本的处理相同) 。经过处理后,查询就可以表示为 标引词的集合,进而查询可以表示为向量的形式: g = q r u 剐( 2 - 1 d 这里,g 是用户查询中的标引词向量与相应的权值的乘积,权值因所采用的加权策略 的不同而不同。9 7 u 。表示七维标引词向量的和,而右乘断1 则是对不同的维进行加权, 改变了每一维的区分度,这样查询向量就表示成了标引词向量各分量的加权和。然后 将查询向量与所有的文本向量进行比较,并按照与查询向量的相似性( 贴近程度) 排列 各文本向量,般情况下返回前z ( z 称为文本截止值,其值可以由用户指定) 个最贴 近的文本或者是夹角余弦超过某一给定阈值所有文本。常用的相似性的度量是查询向 量与文本向量夹角的余弦值。 2 2 5 、相似度的计算 l s i 模型可以计算三种相似度:标引词之间的相似度、文本之间的相似度以及标 引词与文本之间的相似度,根据相似度可以进行文本的查询和分类。查询与文本之间 的相似度可以归结为文本之间的相似度。 ( j ) 标引词之问的相似度 南京航空航天大学硕士学位论文 标引词之间的相似度反映了两个标引词在整个文本集中有相同出现模式的程度, 它定义为矩阵a 。中与标引词对应的行向量的点积。对所有的标引词,n n 2 _ f 司的相 似度为: 4 4 j = ( u s 。曙) ( u s 。嵋) 7 ( 2 1 2 ) 由于矩阵k 为正交阵,根据矩阵的性质有: 4 彳:= ( u s 。) ( u s 。) 7 ( 2 1 3 ) 上式说明矩阵4 鬈的第i 行,列的元素可以由矩阵u 最的第i 行和第j 行的点积得 到,如果将以的行看作k 维l s i 语义空间中的向量,这些向量的点积恰好就是所 对应的标引词之间的相似度,而对于矩阵u 女s 。,当k = 2 时正好是式( 2 7 ) 中的矩阵 t m :,这就是我们在前面使用矩阵t m 2 的行作为标引词的向量的原因。由于s 。是 对角阵,对k 维空间中的坐标进行适当地缩放即可用u 。代替u 。s 。来构造标引词在k 维空间中的向量而不影响各标引词向量间的相似度。因而在k 维l s i 语义空间中,可 以将u 看作标引词向量。 ( 2 ) 文本之间的相似度 与标引词之间的相似度类似,文本之间的相似度为: 4 ;4 。( u 瓯哆) 7 ( 以v j ) = ( s 曙) 7 ( s 曙) = ( 以墨) ( 以) ( 2 一】4 ) 基于同样的原因,可以将曙看作文本向量,代替瓯曙来构造文本在k 维l s i 语 义空间中的向量。 ( 3 ) 查询与文本之间的相似度 前面我们已经给出了查询的表示,计算查询与文本之间的相似度只需要将文本间 的相似度公式中的彳? 替换成g 而以不变,即: g a 。= ( q7 u 。s i l ) ( s 。嵋) = q7 u ( 2 1 5 ) 或者将a 。替换成q 。而爿| 不变,即: 筑17 t 潜在语义索引在飞机故障案例检索中的应用 a r k q ”= ( s 曙) 7 ( 9 7 u 女1 ) 7 = v , u q ( 2 1 6 ) 矩阵g a 。与a q ”互为转置,在本文中我们使用矩阵g a 。来计算查询与文本之间的相 似度。 南京航空航犬人学硕卜学化论文 第三章预处理与归一化 在 j 面一章中,我们没有涉及如何对故障案例文本进行处理以便得到标引词 文本矩阵、如何对标引词文本矩阵加权以及如何归一化。这一章我们将分别予以 详细地讨论。 要得到标引词文本矩阵,首先必须对文本进行标引。下面讨论如何对文本进 行标引。 3 1 、文本的自动标弓 简单地说,标引就是给出能反映文本特征的标识的过程。在检索系统中,标引处于 承上启下的地位。它既是文本存入检索系统的依据,又是从检索系统中查出文本的依 据。标引的目的是为快速准确地检索文本提供方便。手工标引在文献检索的历史中曾 经起过重要的作用,然而,手工标引也有不能回避的缺点,据统计,如果两位有经验 的标引员依据周一个叙词表标引同一篇文献,那么在最后的标引结果中只有3 0 的标 引词相同”。而且,手工标引显然需要专业人员进行长时间的文献阅读。现在,文献 的自动标引越来越受到人们的重视。 3 1 1 、自动标引方法介绍 人们研究自动标引的目的是利用计算机自动地从文本中生成能够用以代表文本 特征的标识,以方便检索。王知津在文献 5 5 中全面地介绍了现代标引法及其技术, 现代标引法主要有:统计标引法、概率标引法、句法分析标引法、语义分析标引法和 人工智能标引法。其中,统计分析标引法是各类标引法中使用历史最长、运用范围最 广的方法,根据其统计处理对象的不同及处理方法的差异统计标引法又可分为词频统 计法、逆文献频率加权标引法、n 一元标引法和统计学习标引法等。 词频统计法认为”,一个词在一篇文章中的出现频率是这个词对于这篇文章的重 要性的有效测度。高频词多为反映句子语法结构的虚词,显然不具备标引意义,而文 献作者用来阐述主题的核心词也不可能是低频词,这样高频词和低频词都不适合做标 引词,而只有频率介于高频和低频之间的词才具有标引意义,可以作为标引词。词频 统计法原理简单,但标引词的选择范围较大,难以高精度地选择标引词。 逆文献频率加权标引法认为0 3 “,在一篇特定的文献中,出现频率高的特征词 与文献主题的相关程度也高,所以候选标引词必须在某个特定文献中出现的频率较 第1 9 页 t 佟化l “义索j im 琶 螂苌例 令糸一m - j ,川 h_一_一 t 瓿,而诅:憋个文献集r 1 1 现的频率较低。 在信息检索的统计方法,1 ,n 元( n g r a m ) 标引法足乍成阳艟的:; j 力划:之、f 统的信息检索认为,艾本由标引词的集合组成,这些标引词就构成了文小伞m 的维。 窿n 一冗方法中,文本空问的维是个一个的n 一元,这些n 一冗怂从文本l ”抽取水f 一 长度为n 的连续的字彳哿串,而且在通常情况下n 一元的抽取并4 i 考蠼l 字f f j 边界( 这怂指 庄英文畔) 。 n 一元的氏度和提取方法因实验者和具体应用的不同而不同g r e e n g r a s s 在文献 1 4 给出了不同的系统中n 的取值,其中d a m a s h e k 使用长度为5 和6 的n 一元进 j - 文 本聚类。g r e e n g r a s s 还介绍了由d a m a s h e k 提出的滑动窗口法,这种n 一元方法需要极 少的预处理,一般只是将文本中的数字和标点符号去掉,有时甚至不需要进行预处理。 该方法通过在文本和查询中移动一个长度为n 的窗口来获得n 一元,一次移动一个字 符。因此,我们将得到以文本中除最后n 1 个字符以外的所有字符开头的长度为n 的n 一元。这样,文本集中的每一个文本都可以表示成向量,向量的每一个分量表示 所对应的n 一元在文本中的出现。 n 一元方法是一种纯粹的统计方法,在使用中只关心给定的文本集合中字符串的统 计特性,而不去考虑语言的词汇、词法和语法等自然语言特性。 汉语文献的自动标引研究是从6 0 年代开始的,到现在已经建立了许多实验系统, 取得了一定的研究成果。但是,与西文不同的是,汉语句子中的词语之间既无空格, 又无特殊的间隔标志,因此汉语文献自动标引中一个无法回避的问题是切分词问题。 目前典型的汉语自动标引方法有。”:词典标引法、切分标记法、语法分析标引法、汉 语自动标引专家系统单汉字标引法,这些自动标引法都在一定程度上解决了分词问 题。其中,词典标引法在汉语自动标引中使用得相当普遍,但是该方法词典的构造较 为困难,需要大量的专业人员参与,同时词典的维护代价也较高。单汉字标引法避开 了分词障碍,无须构造词表。但这种方法对于文本中的隐含概念主题难以处理,容易 造成漏检,而且该方法的响应时间慢于其他方法。“。 3 1 2 、本文所使用的自动标引方法 本文使用自动标引的目的是通过对故障案例的自动标引得到能够代表文本的标 引词的集合,并利用这一集合生成标引词文本矩阵。由于在故障案例描述中,有 大量的专业术语存在,而且很多专业术语使用缩略语而这些缩略语由于使用的人员 不同而大不相同,专业术语及其缩略语都是朱登录词,所以需要采用无词典的抽词疗 法。本文将n 一元方法和逆文献频率加权标引法结合起来完成文本的标b j ,h 口堆于n 一 元的统计标引方法。该方法统计每一个n 一元在文本中的出现频率将达到指定的阀 值的n 一元作为候选标引词。 第2 0j 1 南京肮空航大入学硕士学位论文 在现代汉语中,二字词占绝大多数,而且任何个整词均可以由二字词和一字词 组配而成。= ”1 ,另外,考虑到故障案例的描述都比较短( 根据统计故障案例的平均长 度在4 8 个字节,最短的故障描述只有l1 个字节) ,n 的取值不宣过大,本文中取n = 2 。这里n 取2 ,是指两个汉字。另外,在故障描述中往往会有英文单词出现,本 文把个英文单词作为一个n 一元。 为了表达的方便,我们称某n 一元在文本集中出现的次数为该n 一元的出现频率 ( w ) ,称包含某n 一元的文本个数为该n 一元的文本频率( f ) 。 首先利用个包含一些虚词、符号或无检索意义的词汇的停用词表作为文本词汇 的分割标志,将文本切分成若干字
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届山东省临沂市平邑县九年级化学第一学期期末检测试题含解析
- 就业协会工作总结
- 公司工作总结亮点
- 阿里市重点中学2026届九年级化学第一学期期中综合测试试题含解析
- 2026届湖北省宜昌市夷陵区化学九年级第一学期期中学业水平测试模拟试题含解析
- 2026届江苏省靖江市靖城中学九年级英语第一学期期末达标测试试题含解析
- 云南省红河州建水县2026届英语九上期末学业质量监测试题含解析
- 2025年中级风力发电场运维员技能考试题库及答案
- 2026届云南省昆明市实验中学化学九年级第一学期期中考试试题含解析
- 江苏省扬州市部分学校2026届九年级化学第一学期期中联考模拟试题含解析
- 阜外体外循环手册
- 2024年度食品行业互联网营销合同协议
- 工程款结清协议书书
- PCB设计检查表(评审检查表模板)
- 国家职业技术技能标准 4-01-06-01 电子商务师S 人社厅发202233号
- 电梯维保服务应急处理方案
- 事业单位公开招聘报名表
- 生活垃圾发电厂炉渣综合处理及建筑垃圾资源化项目可行性研究报告写作模板-备案审批
- 癌症患者生活质量量表EORTC-QLQ-C30
- 小区门卫合同范本(2024版)
- IBM-i2数据分析演示-课件
评论
0/150
提交评论