[自然科学]基于潜在语义索引的中文文本检索研究080327m.doc_第1页
[自然科学]基于潜在语义索引的中文文本检索研究080327m.doc_第2页
[自然科学]基于潜在语义索引的中文文本检索研究080327m.doc_第3页
[自然科学]基于潜在语义索引的中文文本检索研究080327m.doc_第4页
[自然科学]基于潜在语义索引的中文文本检索研究080327m.doc_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士学位论文 第 64 页西 南 交 通 大 学 研 究 生 学 位 论 文基于潜在语义索引的中文文本检索研究年 级 二0 0 五级 姓 名 李媛媛 申请学位级别 工 学 硕 士 专 业 计算机应用技术 指 导 教 师 马永强 二00八 年 三 月 Southwest Jiaotong UniversityMaster Degree ThesisResearch of Chinese-text retrieval based on Latent Semantic IndexingGrade: 2005Candidate: Li YuanyuanAcademic Degree Applied for: Master DegreeSpecialty: Computer Application TechnologySupervisor: Ma Yongqiang ProfessorMarch 2008摘 要互联网上绝大多数的信息是以文本的形式保存的,文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而日常语言中多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。而潜在语义索引(LSI-Latent Semantic Indexing)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSI通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构,进一步提高了检索性能。 本文围绕着如何利用LSI技术及其特点进一步提高中文文本检索的性能展开讨论。首先对LSI的相关关键技术以及数学基础进行了深度挖掘,对其在中文文本中的应用进行了举例和深入分析。其次对LSI的重要优化过程权重计算进行了深入分析,提出了一种基于“非线性函数”和“位置因子”的新权重方案,并对其效果进行了对比验证。然后利用LSI能够方便计算出文本和文本相似度的特点,提出了“文本文本检索”功能,弥补了由于检索语句较短和输入不准确等问题对检索查准率的影响,能够更好的帮助用户进行更加有效的检索。最后,开发了“中文潜在语义索引分析系统”作为实验平台,针对 LSI的每个相对独立的环节专门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中作了验证。关键词:信息检索;潜在语义索引;权重计算;文本-文本检索 AbstractMost information on Internet is based on text. The explosive growth of text information is a great challenge to information retrieval, making it increasingly difficult to find useful information on internet rapidly and accurately. In the most used information retrieval based on keywords match, what match is the explicit representation, but there exists uncertainty in natural languages, such as synonym and polysemy. It is not easy for users to express what they really want to retrieve just with keywords or keyword chains. Latent Semantic Indexing Model is easy to calculate and requires less human intervention. Latent semantic Space is established by truncated singular value decomposition, terms and documents are projected onto the LSI-Space. Then the semantic relationships among terms are abstracted to present the semantic structure of natural languages, it improves the retrieve performance. The thesis focuses on how to improve the Chinese text information retrieval system performance based on LSI and its features. Firstly,The key technology and mathematical basis of LSI were analyzed deeply. Examples were given and analyzed which aimed at Chinese text retrieval. Secondly,The term weighting which is of great importance in LSI is studied in detail, and a new weighting design based on non- linear function and location factor was proposed. The retrieval performance has been improved further.Using the concept that the LSI-Space can calculate the relation among documents conveniently, “doc-doc retrieval” is put forward to make uers retrieval more effectively. It offsets the effects that the retrieval sentences and input inaccurately affects the retrieval precision. At last, an experimental platform,namely“Chinese LSI Analysis System” ,has been developed. In this system, each vital link in LSI is correspond to special experimental method, and presents the result visually. All aspects in the dissertation are evidenced with experiments on this system.Keywords: Information Retrieval; Latent Semantic Indexing;Term Weighting; doc-doc retrieva目 录第1章 绪论11.1 信息检索综述11.1.1 信息检索的发展11.1.2 信息检索的基本定义21.2 信息检索模型31.3 潜在语义索引51.3.1 潜在语义索引综述51.3.2 潜在语义索引的研究概述61.4 本文的研究意义71.5 论文结构71.6 本章小结8第2章 潜在语义索引的基本理论9 2.1 潜在语义索引的基本思想9 2.2 奇异值分解9 2.3 潜在语义索引的数学依据13 2.4 LSI/SVD的特点14 2.5 潜在语义索引中相似关系的计算15 2.6 潜在语义索引中词汇和文本的扩充17 2.7 本章小结18第3章 中文潜在语义索引的处理19 3.1 LSI在中文文本处理中的应用19 3.1.1 LSI中文样本实例分析19 3.1.2 LSI中文文本信息检索的处理24 3.2 中文LSI信息处理的特点25 3.3 中文LSI检索系统性能评价指标26 3.4 本章小结28第4章 潜在语义索引的权重改进29 4.1 潜在语义索引权重计算综述29 4.1.1 布尔权重304.1.2 权重314.1.3 熵权重314.1.4 TF-IDF-IG31 4.2 潜在语义索引权重改进方案324.2.1 非线性加权方法334.2.2 特征词在文本中的位置对权重的影响34 4.3 本章小结35第5章 中文潜在语义索引分析系统的开发36 5.1 系统总体设计36 5.2 “中文潜在语义索引分析系统”的预处理37 5.3 中文潜在语义索引分析系统的设计与实现385.3.1 模块与LSI过程的对应关系395.3.2 文本集处理模块40 5.3.3 奇异值分解模块415.3.4 计算机文献检索模块42 5.3.5 文本文本检索模块445.3.6 文本内容显示模块46 5.3.7 分词和扩展模块47 5.4 本章小结48第6章 中文潜在语义索引分析系统的测试496.1 测试语料库的设计49 6.2 实验结果与分析50 6.2.1 潜在语义索引新权重改进实验50 6.2.2 中文潜在语义索引分析系统测试516.3 本章小结55结论56致谢58参考文献59攻读硕士学位期间发表的论文及科研成果63第1章 绪 论1.1 信息检索综述1.1.1 信息检索的发展信息检索作为一项行为已有很长的历史,我国古代西汉时期的古文经学家、目录学家刘歆撰写了我国第一部系统目录七略,但作为一个学科来发展始于20世纪40年代末。1949年美国数学家年Calvin W.Mooers首次提出了“信息检索”这个概念。所谓信息检索是指在对信息进行表示、存储、组织和存取的基础上,用户为处理解决各种问题而查找、识别、获取相关事实、数据、文献的活动及过程。简单来说就是根据用户的信息需求,从文本集中检索出与用户信息需求相关的文本子集。信息检索系统由信息组织和信息检索两大部分组成,信息检索性能的提高需要良好的信息组织。根据这一概念可得出较为狭义的信息检索定义,即:从大量收集的数据或文本集中,找到与给定的查询请求相关的恰当数目的数据或文本子集。信息检索是随着科学技术的发展和信息数量的成倍增长而发展起来的研究与应用领域。随着人类信息生产的能力超过了人力对信息的处理、组织和吸收能力,信息检索的战略地位亦日益重要。纵观信息检索的发展,经历了三个大阶段:手工信息检索、机械信息检索和计算机信息检索。其中计算机信息检索出现最晚,但发展最为迅速。计算机信息检索起源于20世纪50年代初。1954年美国海军兵器中心图书馆IBM701机开发计算机信息检索系统,它标志着计算机信息检索阶段的开始。而纵观计算机信息检索系统的发展,可以将其发展过程划分为三个阶段。第一阶段:1971年以前建立的许多信息检索系统,其工作方式是传统的批处理检索方式,这一阶段的数据存取与数据通信能力都比较差。第二阶段:1971年以后,产生并发展了联机情报检索系统。如OCLC,Dialog在线数据库联机检索系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。第三阶段:以Internet的出现为标志,系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字形式表达,多媒体和多载体,内容覆盖全社会领域,分布无序,难以规范化和结构化,内容特征抽取复杂,用户界面要求高。这些特点导致了信息处理从传统模式想新型模式的转变,如:信息结构从结构化到非结构化,体系结构从终端主机方式到客户/服务器结构方式,网络环境从局域网到Internet等开放网络等。这些变化必将促进信息检索技术的研究和不断发展,以满足人们对提高信息利用能力的需要。经过近几十年的发展,计算机信息检索算法得到了充分的发展,从小规模文献检索到大规模的WEB信息检索,从实验室到图书馆到大规模的商业应用,检索质量也同时不断提高,很多大型的商业搜索引擎已经能够较好的满足用户的需求,实验室中的信息检索理论研究也在不断的进步。1.1.2 信息检索的基本定义 一个基本的检索系统应该包含如图1-1所示的5部分: 图1-1 信息检索系统简图任何学科都离不开最基本的定义和定理。信息检索领域也是如此,这些基本定义是开展研究的基础,下面就根据“信息检索系统简图”对信息检索中的基本定义进行简要介绍:文本(Document):信息检索系统被检索的对象。它是最简洁,最抽象的人类记载知识的最重要工具。在信息检索领域,文本往往是无结构的,也即是自然语言生成的文字,而不是像数据库中的结构化数据。查询向量(Query String):信息检索系统据以检索的对象。查询由用户生成,往往也是自然语言描述的用户信息需求。除了布尔模型之外的其他检索模型,往往把查询看成一个文本,检索的过程就是找到与查询文本最相关文本的过程。文本集(Document Corpus):一定数目文本的集合。数据集对信息检索有特别的意义,检索必须在一个有限的集合内进行。相关度(Similarity):文本与查询相关程度的表示。相关度是文本满足用户需求的性质,是一个很难准确定义的概念。对相同的文本,不同的人会有不同的相关度的判断,即使是相同的人,在不同的时期,也会有不同的判断。不同的信息检索模型都会提出自己的相关度定义。排序(Rank):检索结果往往是一个文本的列表,对大部分检索模型来说,这个列表是经过相关度排序的,相关度高的文本最先呈现给用户。1.2 信息检索模型本节讨论近年来提出的集中最重要的检索模型,其中包括布尔模型,向量空间模型和概率模型。布尔检索模型(Boolean Model)是最早也是最成熟的检索模型,在传统的信息检索中有着广泛的应用。它将文本表示成布尔表达式,然后再通过与用户的查询表达式进行逻辑比较来检索相关文本。标准布尔逻辑模型是二元逻辑。在布尔模型中,首先要针对文本定义一系列的二元特征变量,这些特征变量一般是从文本中提取出来的文本索引关键词,有时也包括一些更为复杂的特征变量,如数据、短语、私人签名和手工加入的描述词等。其次,使用这些特征变量的集合来表示文本“”,其中,m是特征项的个数;为True或False,如果特征项k在文本内容中出现,就赋予True值,反之置为False。在布尔模型中,用户可以根据检索关键词在文本中的布尔逻辑关系,用“”等逻辑运算符将多个特征词连接成为一个逻辑表达式来递交查询。匹配函数由布尔逻辑的基本法则确定,通过对文本表达式与用户查询表达式的逻辑比较进行检索,所检索出的文本或者与查询相关,或者与查询无关。其检索策略依赖于一个倒排文件,用于指出哪些文本描述与布尔表达式准确匹配,一个文本当且仅当它能够满足布尔查询式时,也即:完全匹配时才能将其检索出来。传统的布尔检索模型中没有相关度的概念,因此不能按照相关度排序输出,后来Waller等人提出了加权的布尔检索模型,初步具备了相关度的概念。到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解。通过使用复杂的布尔表达式,可以很方便地控制查询结果。而且经过某种训练的用户可以容易地写出布尔查询式。但同时,布尔模型被认为是功能最弱的方式,它很难表示用户复杂的需求,很难控制被检索的文本数量,很难对输出进行排序,也很难进行自动的相关反馈。 向量空间模型(Vector Space Model)是上个世纪Salton等五位学者提出的一种基于统计的检索模型。假设文档集包含m个词汇,n个文本,VSM把每个词汇看作一个向量,这些词汇被认为是互不相关,然后根据词汇在文本中的不同的重要程度进行加权,则由这m个词汇所对应的向量可以生成一个n维空间,文本集中的任一文本可被表示为这m个词汇的向量(中间大量为0)。同样查询也可被表示为一个m维的向量,用m行n列的词汇文本矩阵进行直观表示,行向量是词汇向量,列向量是文档向量,这样查询和文档间的匹配问题就转化为一个向量空间中(也即:词汇文本矩阵)的距离计算问题,因此,VSM有了真正的相似度的概念。著名的IR系统Smart就是一个VSM的典型实例。向量空间模型的优点主要有以下三点:(1) 对词汇进行加权的算法提高了检索的性能。(2) 部分匹配的策略使得检索的结果文本集更接近用户的检索需求,克服了布尔模型的缺点。(3) 可以根据文本对于查询串的相似度,通过Cosine Ranking等公式对结果文本进行排序。它简单、快捷,计算复杂性小,便于处理,且更为直观易懂的特性,受到了广泛的应用。概率检索模型(Probabilistic Model)则是为了解决检索中存在的一些不确定性而发展起来的,以数学理论中的概率论为原理的一种检索模型。在此模型中,文本和用户查询的表示与布尔模型相同。它的基本思想是:对于某个特定查询,某一文本是否为相关文本可看作一个随机事件。根据先前检索过程中得到的相关性的先验信息,计算文本集合中每篇文本成为相关文本的概率,然后根据Bayes决策准则决定输出标准,确定哪些文本作为命中文本输出。概率检索模型的优点在于它采用严格的数学理论,能够按照相关度概率对检索结果进行排序,表示和应用较为精确和完善,检索效率要明显优于布尔模型。缺点在于需要根据用户的相关反馈把文本分为相关和不相关的两个集合,一般来说很难。上述几种检索模型中应用最广泛的是布尔检索模型和向量空间模型,其核心仍然是特征词的机械匹配。参与匹配的只有外在的字符表现形式,没有考虑词之间的相关性,无法分辨自然语言的语义模糊性,同时忽视了上下文语境地限制,仅以孤立的关键词来表示文本的内容,因而在很大程度上影响了信息检索的查准率和查全率。一方面,不同的查询者,其检索目的、知识背景、语言习惯之间的差异,会导致他们对同一概念用不同词汇来表达。有国外学者研究发现,词汇运用的不确定性远远超乎想象,以西文表达为例,两人用相同词汇表达一个人们熟悉的概念的概率小于20%,这一因素大大降低了检索系统的查全率。例如:“发动机”和“马达”所指为同一事物,但由于使用习惯的不同,出现在不同的文档中。在基于关键词匹配的检索系统中,仅输入“发动机”作为查询,那些只包含“马达”的文本由于不符合匹配的要求不会出现在检索结果中。另一方面,单个词汇的歧义性表现为一个词汇在不同的语言环境下,或被不同的人使用,则可能代表不同的含义。因此,仅仅判断文本中是否包含与提问词“形态”一致的词汇,检出的文本很可能是不准确的,词汇的歧义现象是影响查准率的潜在因素。同时还存在,虽然相关文本不一定包含检索词及其同义词,但是内容符合检索要求。例如:检索词为“电磁感应”,文本集中包含如下文本“变化着的电场能产生磁场,变化着的磁场也能产生电场。”,尽管该文本不包含“电磁感应”一词及其同义词,但是这个文本内容仍然是阐述电磁感应的现象,因此是“电磁感应”的相关文本。为了解决以上问题,研究者想出了各种各样的办法,比如:HowNet,Ontology的提出,但归根结底,这些方法采取的大都是将查询信息的概念通过概念词典或概念网络扩展和联想,得到其相关内涵。但由于概念词典或概念网络目前仍然需要大量的人工参与,并且可计算性不高等的局限,发展缓慢。那么能否找到一种能够自动获取词汇间的语义关系,将词汇和文本以某种可计算性和可操作性高、某种程度上代表其内在语义的形式表示和存储,对未来的检索意义重大。潜在语义分析就是这样一种具有以上特点、可用于信息检索的自然语言统计模型。1.3 潜在语义索引1.3.1 潜在语义索引综述1988年,来自Bell Communications Research、University of Chicago 和 University of Western Ontario 的 Susan T.Dumais、Thomas K.Landauer、Scott Deerwester 等五位学者共同提出了潜在语义索引(Latent Semantic Indexing,缩写为 LSI)这一自然语言处理的方法。也被称为潜在语义分析(Latent Semantic Analysis,缩写为 LSA),本文采用第一种称法。潜在语义索引的出发点是假设文本中的词汇与词汇之间存在某种联系,即存在某种潜在的语义结构,这种潜在的语义结构隐含在文本中词汇的上下文中。在这种结构中,同义词之间具有基本相同的语义结构,多义词必定具有不同的语义结构。并且采用统计计算的方法,即可对大量的文本进行分析来寻找这种潜在的语义结构,不需要确定的语义编码,仅依赖于上下文中事物的联系。用语义结构来表示词汇和文本,达到消除词汇之间的相关性,简化文本向量的目的。1.3.2 潜在语义索引的研究概述LSI一经诞生就引起各语种国家学者的广泛注意,在文本检索、文档聚类/分类、信息过滤、信息抽取、自动问答系统、认知科学,数据挖掘等领域得到了广泛应用,在国外LSI已逐渐步入商业应用阶段。在国外研究方面,尤其是针对文本的检索,很具有启发和借鉴意义。得克萨斯大学的Todd A.Letsche等人比较了向量空间模型和潜在语义分析,研究了LSI在大规模文本信息检索中的应用技术。Dian I.Witter等人提出的潜在语义空间更新的算法,用于快速计算添加文本或词汇后的近似潜在语义空间,具有很重要的实用价值。索非亚大学的Preslav Nakov比较系统地对比了潜在语义分析各种权重计算方法下的效果。英国爱丁堡大学的学者Peter则探讨了如何将句法分析引入LSI中,寻求一种能使LSI处理那些存在于句法当中的文本信息的方法。除了截断的奇异值分解之外,还有一些学者研究了通过其它计算获得潜在语义空间的方法。潜在语义分析在其它领域重要的应用有:科罗拉多大学的Thomas K.Landauer和他的 K-A-T 团队开发的 Intelligent Essay Assessor是LSI的典型应用之一,被Discover杂志评价为一个“创新性的进步”。University of Memphis智能系统研究所的Arthur Graesser等人开发的智能辅导系统AutoTutor,能帮助学生在自然语言交谈和激励下学习某一学科。 Telcordia公司开发的“Telcodia LSI Engine”是潜在语义分析IR模型的一个实验系统,其中提出的快速检索算法值得借鉴。另外,有报道称,Google也正在研究如何采用LSI技术,作为搜索引擎和广告服务的算法。而国内对于潜在语义索引的研究起步相对较晚,其中哈尔滨工业大学、东北大学、中科院等很多研究单位的相关实验室在这方面做了大量的研究工作,打下了坚实的基础。同时,一些研究者对LSI的研究也提出了自己很好的见解,比如:南京大学的盖杰、同济大学的顾榕等人分别研究了潜在语义分析在信息检索中的应用;西安交通大学的何明、广西师范大学的黄海英等人分别研究了潜在语义分析在文本分类中的应用。南京理工大学的戚涌则研究了潜在语义分析在Web文本自动聚类;尤其是针对特征词权重的设计方面,山西大学的郑家恒等人提出的“成对比较法”,上海交通大学的韩客松等人提出的“义长”概念,解放军理工大学的刘海峰等人的把“位置因子”作为特征词加权系数的讨论,对作者在特征词权重方面的设计提供了很有益的思路。在商业应用上,LSI已经被应用在国内最有影响的Internet化学化工资源导航站点ChIN中,同时取得了比较理想的检索效果。1.4 本文的研究意义我国的语言学家对汉字熵的测算结果为9.65比特,而英文是4.03比特,法文是3.98比特,一般认为汉字的信息量最大,因而在信息管理和传递中,中文处于很不利的地位。针对中文信息的一些特点,探索针对中文的检索就显得非常有必要。同时,基于潜在语义索引的检索已经被证明是对传统的向量空间技术的一种改良,可以达到消除词之间相关性,化简文档向量的目的。用潜在语义索引进行检索,不是基于文档集中表层的词汇信息而是潜在语义结构,其性能比关键字匹配方法要高出许多。因此,研究如何利用潜在语义索引技术进行中文文本检索的研究就具有很重要的实际意义和应用价值。1.5 论文结构论文共分六章,按以下方式组织:第一章绪论,介绍了信息检索的相关模型、重点介绍了潜在语义索引以及其研究现状和研究意义,并说明了论文结构。第二章LSI的基本理论,介绍了LSI的基本思想、奇异值分解、LSI的数学依据和特点,以及文本和词汇的扩充等LSI的相关基本理论。第三章中文潜在语义索引的处理,对LSI在中文样本上进行了实例分析、介绍了中文LSI的处理步骤,中文LSI的特点以及性能评价方法。第四章潜在语义索引的权重改进,对目前常用的特征词权重设计方案进行了介绍,针对TF-IDF所存在的不足,提出了一种基于“非线性函数”和“位置因子”的新权重方案,并对其进行了深入分析。第五章中文潜在语义索引分析系统的开发,设计开发了用于验证LSI相关理论和新权重公式对LSI的影响的测试系统,对总体设计、各模块功能进行了详细介绍。第六章中文潜在语义索引分析系统的测试,从新权重在特征词选择方面的性能,以及对基于LSI的系统性能的影响进行了测试分析。最后对论文的工作进行了总结,并指出了潜在语义索引的研究发展方向。1.6 本章小结本章首先对信息检索的发展,信息检索的基本定义和传统模型进行了描述,然后对本文研究的信息检索模型潜在语义索引的思想及其在国内外的研究情况进行了阐述,最后提出了本文的研究意义及论文组织。 第2章 潜在语义索引的基本理论2.1 潜在语义索引的基本思想潜在语义索引使用了向量空间模型的方法来表示词汇文本矩阵的,是对向量空间模型的扩展,传统的基于关键词的向量空间模型(VSM),用表示m个词汇和n个文本构成的文本集合,其中每一行代表一个词汇向量,每一列代表文本集中的一个文本向量,它的优点在于将非结构化的文本表示为向量形式,使得各种数学处理成为可能。但是,向量空间模型是基于词汇之间关系相互独立的基本假设(正交假设),在实际情况下很难得到满足,文本中出现的词往往存在一定的相关性,在某种程度上会影响计算的结果。LSI则将自然语言中的每个文本视为以词汇为维度的空间中的一个点,认为一个包含语义的文本出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。同样地,也将每个词汇视为以文本为维度的空间中的一个点。文本是由词汇组成的,而词汇又要放到文本中去理解,体现了一种“词汇文本”双重概率关系。LSI把词汇中的一些不经常的用法,如:一些词汇的误用,或不相关的词汇偶然出现在一起,还有高频词,低频词等不能代表文本主题的词汇视为“噪声”,应当从主要语义结构中排除掉。利用截断的奇异值分解降维的方法,达到信息过滤和去除噪声的目的。通过对词汇文本矩阵A进行截断的奇异值分解,得到矩阵A的秩为k的“近似矩阵”,从数据压缩的角度看,“近似矩阵”是秩为k的前提下矩阵A的最小二乘意义上的最佳近似。LSI不同于VSM中文本和词汇的高维表示,而是将文本和词汇的高维表示投影在低维的潜在语义空间中,缩小了问题的规模,得到词汇和文本的不再稀疏的低维表示,同时这种低维表示揭示出了词汇文本之间语义上的联系。2.2 奇异值分解潜在语义索引重点应用了矩阵的奇异值分解(Singular Value Decomposition,SVD)。SVD是数理统计中常用的方法之一,大量应用在不受限的最小立方问题,矩阵阶次估计和规范相关分析等问题的解决方案中。矩阵的奇异值定义:设A是mn实矩阵,称n阶方阵AA的非0特征值的算术平方根为矩阵A的奇异值。矩阵的奇异值分解定理:设A,秩为r,则存在m阶正交矩阵U和n阶正交矩阵V使得: (2-1)称 (2-2)为矩阵A的奇异值分解。在信息检索中应用的是奇异值分解的一种特殊形式,因为在信息检索问题中需要进行奇异值分解的矩阵一般都是高阶稀疏矩阵。不失一般性,假设词汇文本矩阵A是m行n列的一个稀疏矩阵,其中mn,已知rank(A)=r。由奇异值分解定理可得A的奇异值分解为: (2-3)其中:的各列正交且长度为1,即。的列向量称为矩阵A的左奇异值向量。 称为矩阵A的奇异值标准型,是一个单值的对角矩阵,即:,且有,其中是的奇异值。的各列正交且长度为1,即。的列向量称为矩阵X的右奇异值向量。一般,对于,矩阵,都是满秩阵,它们表示了原始矩阵A的全部信息。SVD分解的优点在于可以利用较小的矩阵做到了最优的近似。如果对角线上的元素均按照大小排序,则选取前k个最大的奇异值,其余设置为0,这样得到的矩阵运算结果记为,是原始矩阵A的一个近似值,其秩为k。可以证明,矩阵是所有秩为k的矩阵中与A用F-范数评价时最接近的一个。在中引入0以后,可以通过删除相应的行与列来化简,获得了新的对角矩阵S。同时,取和的前k个列,分别获得矩阵T和D,则可以构建A的k-秩近似矩阵。 (2-4)这是对A的一个最佳均方逼近的秩为k的模型,我们用它来估算所需数据。降维因子k值的选取关系到语义空间模型的效率,k值过小会使一些有用的信息丢失,k值过大则会使运算量增大,一般选k时,对于,且有,可令k满足贡献率不等式: (可取40%,50%) (2-5)其中,为包括原始信息的阈值,贡献率不等式是参考因子分析的相应概念提出的用以衡量k维子空间对于整个空间的表示程度。 图2-1 词汇文本矩阵奇异值分解图示对近似矩阵,T的行向量称为词汇向量,D的行向量称为文本向量,在此基础上进行文本检索和其他文本处理,即为潜在语义索引LSI,词汇向量和文本向量可被投影在一个相同的k低维空间,这个空间就被称为潜在语义空间。图2-2 词汇和文本在潜在语义空间上的表示 LSI通过奇异值分解和取k-秩近似矩阵,一方面有效的解决了同义词和多义词问题。比如:“电脑”,“计算机”,“程序”和“植被”这四个词,其中,“电脑”和“计算机”是同义词,而“程序”是和“电脑”,“计算机”相关的词,而“植被”则与其它三个词完全无关。在基于关键词的检索系统中,若文本中没有直接出现“电脑”,则当输入“电脑”一词进行检索时,对于包含“计算机”的文本和包含“植被”的文本都不会被命中。但用户希望在查询“电脑”时能把关于“计算机”的文本找出来,或把关于“程序”的文本也找出来,只是相关度相对于关于“计算机”的文本要低一些,但绝对不希望把关于“植被”的文本找出来。潜在语义索引技术通过奇异值分解得到的潜在语义空间可以很好的表示这些词之间的内在联系,在此空间,“电脑”,“计算机”和“程序”的上下文语境在某种程度上基本一致,也即:距离更接近,而和“植被”的距离则较远,从而,更加凸显了词汇间的语义关系,对于词汇和文本,文本和文本间也是一样的。另一方面,一般情况下,k只需要取一个比较小的值,得到的语义空间就可以表示原始矩阵A的大部分关键信息,同时属于“噪音”的信息被去除。而且k-秩近似矩阵比原来的mn高维稀疏矩阵的项数小的多,矩阵的压缩降低了计算的复杂度,有利于提高检索的效率。2.3 潜在语义索引的数学依据实验表明:潜在语义索引通过奇异值分解,不仅减少了词汇文本矩阵的维数,而且大大消减了一直困扰基于关键词的信息检索的文本中的词汇的同义性和多义性问题,那么,潜在语义索引的数学依据是什么呢?我们通过下面的两个关于奇异值分解定理来进行剖析:定理1:假设A的奇异值分解由给出,并且有: ,R(A)和N(A)分别表示A的表示区域和A的零空间,则有:(1) 阶特性:,;(2) 二阶分解性:(3) 规范性: 。其中,和分别代表矩阵的F-范数和谱范数,定理1说明了单位向量,与矩阵A的关系,同时也体现了矩阵A的特征值与其范数的关系。但是,向量对词汇文本矩阵A的影响程度是不一样的。因此,常常需要对矩阵A的相应的语义空间进行压缩,由于r个特征值是按大小排序的,只保留前k个最大的特征值,即所谓的对A进行奇异值分解。所以上面最重要的是奇异值分解的阶特性,它表明可以将矩阵的奇异值作为矩阵定性分析的定量手段。而奇异值分解的二阶分解性表明,在很多应用场合中可以对矩阵进行大胆的压缩。定理1的三个方面可以用来证明下列定理:定理2:假设A的奇异值分解由式给出,其,对于任意的,定义: (2-6)那么, ; (2-7) ; (2-8)这一重要结论表明,由A的k个最大的奇异三元组构成的是和A最接近的k-秩矩阵,换言之,LSI将词汇文本矩阵从高秩投影到低秩后,尽可能地保留了原始矩阵A的大部分信息含量和查询能力。但是,这还不足以说明为什么LSI模型改进了查询能力。为此,C.H.Papadimitriou等在一个比较严格的前提下,得到了下面的一个定理,这个定理能够更加明确地指出LSI模型确实能够改进检索性能。定理3:假设C为一个纯粹的,可分为包含k个主题的文本库模型,而且每一个词汇在某一主题中出现的概率最大为,为一个大于0的足够小的值。若有m个文本由C模型产生,则秩为k的LSI以的概率偏向C。2.4 LSI/SVD的特点概括起来,与传统的向量空间模型比,LSI的优点在于:(1) LSI利用潜在的语义结构表示词汇和文本,将词汇和文本映射到同一个k维的语义空间内,均表示为k个因子的形式,向量的含义发生了很大的变化。它反映的不再是简单的词汇出现频率和分布关系,而是强化的语义关系。在保持了原始的大部分信息的同时,克服了传统向量空间表示方法时产生的多义词、同义词和单词依赖的现象。同时,在新的语义空间中进行相似度分析,比使用原始的特征向量具有良好的效果,因为它是基于语义层而不仅是词汇层。(2) 由于词汇和文本在相同的空间,使得LSI更具灵活性,允许用户使用自然语言提交查询请求,查询条件可以是独立的词汇,也可以是文本,使得查询和反馈更容易。(3) 用低维的词汇文本空间代替了原来的词汇文本空间,可以有效地处理大规模的文本集,有效地提高了检索的效率和准确率。(4) LSI不同于传统的自然语言处理过程和人工智能程序,它是完全自动的。所谓自动,就是LSI不需要人工干预,不需要预先具有语言学或者知觉相似性知识(不使用人为构造的字典、知识基础、语义网络、文法、词法、句法剖析器等,它的输入只是原始的未经处理的文本序列)。它完全是根据普通数学学习方法,提取合适的维度语义空间,结合其他理论方法,达到有效展示对象和文本内容的目的。通过对大量的文本分析,LSI可以自动地模拟人类的知识获取能力,甚至分类、预测的能力。潜在语义索引模式以其数学理论严谨、处理文本过程思路清晰得到了信息检索领域的重视,该方法在语言建模、视频检索等方面取得了较为成功的应用,在朴素贝叶斯分类模型、KNN模型和SVM模型中都被证明是非常有效的方法。但是,该方法也存在着一些不足之处:(1) 潜在语义在进行信息提取时,忽视了词汇的语法信息甚至词汇出现的顺序,它仍然是一种Bag-of-word方法,即:简单地通过所有词汇向量的线性总和来产生文本向量,表示文本的含义。但是句子的语法结构包含了词汇之间更深层次的语义关联信息,忽视这种关联信息在一定程度上影响了潜在语义对文本内容的把握,虽然潜在语义通过新的空间在一定程度上实现了降维。(2) 因子k值的选取直接关系到语义空间模型的效率,k值过小则会使一些有用的信息丢失,k值过大则会使运算量增加,但是,k值是一个可变的参数,对其确定是很困难的,现在还没有特别好的办

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论