




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国内图书分类号:O229 密级:公开 西西 南南 交交 通通 大大 学学 研研 究究 生生 学学 位位 论论 文文 基于聚类分析的潜在语义文献检索 申请学位级别 理学硕士 专 业 应用数学 Southwest Jiaotong University Master Degree Thesis LATENT SEMANTIC RETRIEVAL BASED ON DOCUMENT CLUSTERING ANALYSIS Grade: 2010 Candidate: Chunjiang Wu Academic Degree Applied for : Masters Degree Speciality: Applied Mathematics Supervisor: Hailiang Zhao(Prof.) May.2013 西南交通大学西南交通大学 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人 授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1保密,在 年解密后适用本授权书; 2不保密,使用本授权书。 (请在以上方框内打“”) 学位论文作者签名: 指导老师签名: 日期: 日期: 西南交通大学硕士学位论文主要工作(贡献)声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰 写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。 本人完全了解违反上述声明所引起的一切法律责任将由本人承担。 。本人在学位论文中所做的主要创新点如下: 1. 词频矩阵的建立。利用从查询关键词出发,获取相关文献,同时从相关文献中 获取高质量扩展关键词,不断迭代搜索,获得更多的链式文献以及扩展关键词汇,建 立词频矩阵。这步仅解决因数据更新造成词频矩阵更换不便等问题,也能够不借用所 有原始数据库进行语义分解,提高检索效率 2.在奇异值降维分解中,对截取矩阵的选择。用变化率:来替代 1kk k 。 222 12 ,() kkr Frobenius 3.采用均值聚类方法,在计算相似度时不用欧式距离,改用余弦相似度 原模型: 2 11 1 ,(12, ;1,2, ) m ijipjp p d XXxxik jkkn ,LL 改进后: 1 22 11 1,21,2 ,cos, , n ikjk k ijij nn ikjk kk iiiinjjjjn x x sim XXXX xx Xx xxXx xx 学位论文作者签名: 日 期: 毕业设计(论文)原创性声明和使用授权说明毕业设计(论文)原创性声明和使用授权说明 原创性声明原创性声明 本人郑重承诺:所呈交的毕业设计(论文) ,是我个人在指导教 师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别 加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过 的研究成果,也不包含我为获得 及其它教育机构的学位 或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人 或集体,均已在文中作了明确的说明并表示了谢意。 作 者 签 名: 日 期: 指导教师签名: 日 期: 使用授权说明使用授权说明 本人完全了解 大学关于收集、保存、使用毕业设计(论 文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和 电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并 提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其 它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论 文的部分或全部内容。 作者签名: 日 期: 学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行 研究所取得的研究成果。除了文中特别加以标注引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律后果由本人承担。 作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权 大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期: 年 月 日 导师签名: 日期: 年 月 日 指导教师评阅书指导教师评阅书 指导教师评价:指导教师评价: 一、撰写(设计)过程 1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格 2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格 3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格 4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格 5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格 二、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格 三、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格 2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格 3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格 建议成绩:建议成绩: 优优 良良 中中 及格及格 不及格不及格 (在所选等级前的内画“”) 指导教师:指导教师: (签名) 单位:单位: (盖章) 年年 月月 日日 评阅教师评阅书评阅教师评阅书 评阅教师评价:评阅教师评价: 一、论文(设计)质量一、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格 二、论文(设计)水平二、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格 2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格 3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格 建议成绩:建议成绩: 优优 良良 中中 及格及格 不及格不及格 (在所选等级前的内画“”) 评阅教师:评阅教师: (签名) 单位:单位: (盖章) 年年 月月 日日 西南交通大学硕士研究生学位论文 第 I 页 教研室(或答辩小组)及教学系意见教研室(或答辩小组)及教学系意见 教研室(或答辩小组)评价:教研室(或答辩小组)评价: 一、答辩过程一、答辩过程 1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格 2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格 3、学生答辩过程中的精神状态 优 良 中 及格 不及格 二、论文(设计)质量二、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格 三、论文(设计)水平三、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格 2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格 3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格 评定成绩:评定成绩: 优优 良良 中中 及格及格 不及格不及格 (在所选等级前的内画“”) 教研室主任(或答辩小组组长):教研室主任(或答辩小组组长): (签名) 年年 月月 日日 教学系意见:教学系意见: 系主任:系主任: (签名) 年年 月月 日日 西南交通大学硕士研究生学位论文 第 II 页 摘 要 传统文献检索算法将用户提问关键词与系统数据库存文献关键词集进行匹配,然 后根据匹配程度的大小检测文献。实践证明,此方法存在一些不足。其一,词语具有 多义性,很难确定文献中该关键词表达的具体含义是否符合检索内容。其二,多词一 意,即文章的主题可以由不同关键词构成。因此, 严格匹配可能会丢失大量相关文 献。鉴于以上问题,LSA 即语义分析法(Latent Semantic Analysis)在相似文献的检 索中能取得较好的效果。 LSA 认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文 献主题。LSA 基于数学理论和计算机技术的结合,通过大量文献集的词频分析,建立 关于关键词和文献的词汇-文献矩阵。然后通过奇异值分解,最终分解成词汇矩阵, 起连接作用的对角矩阵,以及文献矩阵的乘积。因此,即使查询词关键词不在文献关 键词集内,只要其主要内容和文献一致,也可以通过与语义分解后的文献向量进行相 似度运算,进而检索出相关文献。 本文在研究 LSA 产生背景以及基本原理及应用的基础上,着重讨论了从查询关 键词出发,对相关文献链建立的方法。文献关系链的建立依赖于相同关键词在不同文 献中出现的频率。显然两篇不同文献中相同的关键词越多,这两篇文献就越具有相关 性。通过寻找相关文献,对文献中的众多关键词取并集,进而获得更多的关键词,即 所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集,获得 1 级高质量 关键词。然后通过一级高质量关键词不停地做循环搜索,进而获得 2 级,3 级, ,n 级扩展关键词集,以及更多的相似文献集。根据扩展关键词集以及文献集建立 词汇-文献矩阵,并将其进行奇异值分解,分解成三个矩阵的乘积,其中中间的矩阵 为对角阵,对角元素按照奇异值由大到小的顺序排列,其值反映了对原矩阵作用的大 小。按照奇异值变化率选定某链接关系度阈值,并依据阈值对分解后的三个矩阵进行 截取降维处理。然后对降维后的文献矩阵中的列向量进行 k 均值聚类,形成 k 类的文 献列向量簇,以及 k 个簇类中心点。根据用户偏好,选取扩展关键词作为查询词集, 并将其对 k 个聚类中心点做相似运算。选择相似度高的簇内中心点,并对其内文献向 量进行同样相似运算,最终依据相似程度输出文献。 关键词:潜在语义分析 聚类分析 降维 奇异值分解 文献链 西南交通大学硕士研究生学位论文 第 III 页 Abstract The traditional document retrieval is based on keywords matching based strictly, to the user query keywords and the system database storing text keyword matching, then according to the size of the matching degree of the relevant text detection. But in practice, this method is inadequate. First, because the word is ambiguous, it is difficult to determine the specific meaning of the keywords in the text of the expression, consistent with the content retrieval. Second, many words are the theme of this article can be composed of different keywords, so strictly matching may lose a lot of relevant text. In view of lexical ambiguity, semantic analysis method (Latent Semantic Analysis, LSA) is an effective solution to this keyword strict matching problems. LSA believes that text by keyword through certain structure is connected, and a collection of keywords shows the theme of the text. LSA combined with mathematical and computer based on the analysis of a large corpus of text and the word frequency, the keywords and text is mapped to the term-document matrix A, and then through the singular value decomposition (SVD), the final decomposition into lexical matrix, document matrix, as well as the diagonal matrix connection function. Therefore, even if the user queries keywords absolute matching and document keywords without, but the theme and documents are the same, it can also pass through the projection of the key words semantic space, to find a corresponding semantic space, and then compare the similarity cosine document and the value of key words, and then retrieve the relevant documents. In this paper, based on LSA in the background as well as the basic principle and application, we discussed the starting user queries based on keywords to establish the literature chain structure. Establishment of the literatures on the relationship between chain depends on the level of the same key words in different articles. Obviously two different literatures have the same keywords more, the two articles have more relevant. By searching the literature, we can take the union of many key words in the literature, and then get more keywords, then the high frequency keywords intersection, to obtain high quality key words. Followed by a high quality keyword cant stop doing circular search, and then get more of the level 2, level 3.N keyword set, of course, this time also get more literature. But because of the lack of semantic keywords , we can not only use high quality key words of each level and the corresponding literature to create the literature chain from grade 1 to grade n. So we need LSA Latent Semantic Intelligent Analysis and classification of 1 to n 西南交通大学硕士研究生学位论文 第 IV 页 keywords. Through the establishment of document frequency matrix, which is decomposed into three matrices by SVD, to intercept the document matrix dimension reduction after treatment for K clustering, and according to user preferences, select the extended keyword similarity calculation of cluster center, and the center point of high similarity in the literature were also similar operations, based on the similarity of the output chain literature. Keywords: latent semantic analysis; Cluster analysis; the reduction of dimension; singular value decomposition; literature chain 西南交通大学硕士研究生学位论文 第 V 页 目目 录录 第第 1 1 章章 绪绪 论论 .1 1 1.1 研究背景和意义.1 1.2 国内外研究概况 .2 1.2.1 国外研究状况 .3 1.2.2 国内研究现状.3 1.3 文献搜索的若干模型介绍.3 1.3.1 布尔模型.4 1.3.2 概率模型.4 1.3.3 向量模型.4 1.3.4 潜在语义模型.5 1.4 本文主要研究内容.6 1.5 本文结构安排.7 第 2 章 SVD 分解的数学理论基础及应用.8 2.1 奇异值的分解理论.8 2.1.1 奇异值分解的意义.9 2.1.2 奇异值近似分解.10 2.1.3 降维估计的合理性 .12 2.1.4 降维阈值的选取: .12 2.2 传统 SVD 分解在潜在语义文献搜索中的应用.13 2.2.1 词汇-文献矩阵的建立 .13 2.2.2 词汇-文献矩阵的奇异值分解.13 2.2.3 提问式的几何表示.14 2.2.4 文献的扩充 .14 2.2.5 词汇的扩充.15 2.2.6 查询向量和文献间的相关度计算.15 2.3 小型英文样本的分解示列 .16 2.3.1 原始样本概况.17 2.3.2 词汇-文献矩阵及查询向量模型的建立.17 2.3.3 词汇-文献矩阵的奇异值分解.19 2.3.4 潜在语义空间的形成.20 2.3.5 潜在语义空间下的 K 维查询向量与文献的相似度计算.22 第 3 章 基于 K 均值聚类分析的文献语义检索模型 .23 3.1 文献聚类综述.23 3.1.1 相似文献的聚类基础.23 3.1.2 文献聚类意义.23 3.2 相似度量.23 3.3 基于余弦相似度的 K 均值聚类算法 .24 3.4 改进的K均值聚类算法与潜在语义分析检索结合.25 3.5 本章小结 .25 西南交通大学硕士研究生学位论文 第 VI 页 第第 4 4 章章 实证分析实证分析 .2626 4.1 样本集建立及数据的初始化.26 4.1.1 分别以模糊控制和房地产为查询关键词建立文献集.26 4.2 词汇文献矩阵建立.26 4.3 词汇-文献矩阵的 SVD 分解,以及潜在语义空间的形成.28 4.4 查询词语义向量化.30 4.5 分别计算偏好语义向量和聚类中心点相似度及对相关文献检索.31 结论与展望 .34 致致 谢谢 .3535 参考文献参考文献 .3636 攻读硕士期间发表的论文攻读硕士期间发表的论文 .4040 附附 录录 .4141 西南交通大学硕士研究生学位论文 第 1 页 第 1 章 绪 论 1.1 研究背景和意义 文献检索虽作为数据挖掘的重要组成部分,但有着其独特性。文献检索研究的主 要对象来自于大量各种数据源文献。其中包括:新闻文章、学术论文、期刊、专利文 献、政府出版物、电子邮件、Web 页面等。诸如以上文献可能包含标题、关键词、作 者、出版日期等结构化数据,也包含摘要、内容等非结构化内容2。由于其内容是人 们使用的非结构化自然语言,所以计算机对其语义的处理显得十分艰难。因此,文献 检索的语义研究显得十分重要。 科技发展,网络信息日新月异,信息增长遍布整个网络。据中国互联网络信息中 心报告,截止 2008 年底,中国网页总数超过 160 亿个5。面对如此浩瀚的信息,至少 有两个方面值得我们研究。第一:如何快速有效获取我们需要的信息;第二:如何根 据用户提供的查询信息找出一系列链式的相关信息。信息时代,科学技术作为第一生 产力,最新技术的研究成果大多以文献方式发布于网上(除特殊保密技术外) 。据世 界知识产权组织统计,世界上新科学技术和新发明有 90%至 95%记载在文献里面6。 因此无论学术研究还是新产品创新,通过阅读大量文献,不仅能够及时了解研发进程、 开阔研究者视野,而且能够避免重复研究,侵犯他人知识产权。由于我国属于发展中 国家,科学技术相对发达国家而言较为薄弱,科学技术的引进和借鉴显得尤为重要。 据世界知识产权组织统计,在技术研究领域,专利文献能提高研发人员的科研水平, 拓展思维,激发创造性,进而缩短研发时间 60%,节约 40%的研究费用33。 由于不仅存在不同词汇间的同义性和单个词汇间的歧义性,而且文献集是由大量 不同索引关键词聚集而形成的集合,因此,文献检索极具复杂性,且主要表现在以下 方面: 首先由同义词汇引起的复杂性体现在:查询词不同、查询目的、文化背景、语言 习惯等差异,直接导致运用不同同义词汇表示相同概念。有国外研究表明,词汇运用 的不确定性远超出人们现在的想象。以英文为列,两人用相同词汇表达统一概念的概 率小于 20%33。这大大影响相关文献的检出率。 其次单个词汇的多义性。即同一词汇在不同语境表达不同含义。因此仅根据关键 西南交通大学硕士研究生学位论文 第 2 页 词汇判断文献是否与提问词意一致是不够准确的。词汇的歧义现象大大降低了检索的 准确性。 显然基于传统关键词的匹配算法不能很好处理词汇间的语义性。问题主要表现在 以下三个方面: 第一:索引词不够完整。这里指的是被用来描述文献内容的词汇缺乏,覆盖面窄。 主要有两种可能:一是文献用同义词汇代替查询词汇;二是文献索引词的建立具有偶 然性,存在人为删除或者遗漏重点关键词汇的情况。虽然词汇同义性可依靠词汇的智 能扩充或者建立同义词表来解决。但由于词表扩充后,仅利于知识面比较丰富的查询 者,他们有能力提供更多的检索词。但与此同时,新问题也随之产生了,即新进的词 汇必然会增加词汇的歧义性,从而降低检索的准确率。国外有研究表明,无论从海量 文献还是从用户的实际使用中将新词汇加入词汇表,在不降低检测准确率的前提下, 对检测出结果改善并不明显6。所以,在词表中无限地增加同义词汇集是否可以改进 检索效果,仍有待进一步研究。 第二:缺乏解决词汇间歧义问题的智能算法。以前常用受控词表和人工转换来确 定语义。但该方法效率低,成本高,难以推广。 第三:由于需要在海量文献中找出相关需求信息,聚类方法可以提高在各种信息 提取中的速度。文献聚类是文献搜索中的研究内容之一,它可以根据数据中的不同特 征,按照一定算法,将其划分为不同的数据簇。并且同簇之间相似度大,不同簇之间 相似度小。虽然用几个簇代表整个数据集会丢失部分信息,但其抓住了主要信息,有 利于用户在海量信息中检索出他们所需要的信息。但在高维向量下的聚类方法不仅耗 时,而且聚类质量不佳。 基于以上原因,信息检索不仅需要解决词汇歧义以及关键词汇的智能扩充的问 题,而且为了突出聚类效果,还需要尽可能地将高维向量映射到低维向量。在此背景 下,国外研究人员提出了一种智能型的检索方法潜在语义分析法。这种方法不仅 能够消除词汇的多义现象,而且还能对高维向量进行降维处理,是一种实现语义和降 维的双重算法。 1.2 国内外研究概况 西南交通大学硕士研究生学位论文 第 3 页 1.2.1 国外研究状况 国外关于潜在语义分析(LSA)的研究可以追溯到 20 世纪 80 年代末。1988 年, 贝尔通信实验室的 Susan TDumais 等多人撰写的Using Latent Semantic Analysis to Improve Access to Textual Information (潜在语义分析对文献信息检索效果的改进) 是 LSA 方法早期的研发成果8。该论文发表至今,仍被广泛引用。其中文献9比较 全面地阐述潜在语义分析产生背景和基本思路,并对 SVD 分解做了简要分析,并选 择了两个巨型样本进行仿真验证,对传统词汇匹配法,Smart 和 Voorhees 系统法以及 潜在语义分析法进行检索效果的比较。文献7该文着重论证了 LSA 的数学相关原理, 解决了词汇-文献矩阵的状态更新,开拓了 LSA 的实际应用领域。但以上文献都缺乏 对检索结果重新分类的研究。 1.2.2 国内研究现状 当前我国主要的中文信息检索研究单位有:中国科学院计算机研究所、清华大学、 复旦大学、香港大学、台湾大学,哈尔滨工业大学等。其中北京大学研发的天网搜索 引擎已经实现了个性化搜索、专业搜索,以及地域信息等方面的搜索。清华大学的 PINS 系统和 Bookmark 系统,借助用户信息以往的搜索习惯,挖掘用户需求信息14。 近年来,有关 LSA 的论文研究也非常丰富。文献23利用 LSA 对文献分类进行了研 究。主要讨论了权重计算、稀疏矩阵、特征选取这三个因素对潜在语义分析的影响。 其次对传统模型进行了改进,进一步降低对存储空间的要求。文献2基于潜在语义模 型研究了中文问答系统。和传统的问答系统相比,潜在语义系统在人机交互界面以及 中文信息处理能力上更有优势。文献5基于潜在语义分析模型的查询语义扩展模型, 抛弃了复杂的语法分析,利用语义空间提取语义信息,克服了传统信息检索的弱点, 进一步提高了检索性能。文献13将潜在语义分析运用于答疑系统中,并且使用奇异 值分解和因子分解两种方法,实现了答疑系统答疑功能和挖掘知识功能。但以上研究 都缺乏对搜索结果的后续研究。借助现有的搜索结果,根据用户喜好,检索出用户偏 好的文献可能更能凸显 LSA 的经济价值和实用价值。 1.3 文献搜索的若干模型介绍 西南交通大学硕士研究生学位论文 第 4 页 尽管查询词的千差万别以及网络信息浩瀚繁多,而且信息获取的途径和方式各不 相同,但回顾其检索过程,二者最终还是基于某种算法匹配,最终达到信息检索的目 的。这揭示了信息检索的基本原理:检索系统利用某种算法将查询词(集合)与储备 数据信息(集合)进行相似度计算,依据相似度大小输出检索信息。 1.3.1 布尔模型 布尔模型2运用布尔逻辑将查询词和文档集建立一种相似度关系。它虽具有简单、 容易理解、简洁的形式化等优点,但是随着信息检索理论的进一步研究,布尔模型也 面临着一系列挑战,具体有以下方面: (1) 基于精确的关键词匹配。布尔模型采用精确的“非此即彼”的二值判断标准,即 只有当查询词集以及文献 D 的索引关键词完全匹配时,才能被检测出。这完全忽略了 词汇间的同义和多义现象,使得检索结果不足,容易出现输出结果为零的现象。而且, 最终的相似函数结果也只有 0 和 1 的二值判断标准,缺乏对查询结果相关性检索,无 法满足人们对相关知识搜索的需求。 (2) 由于布尔检索模型没有对索引词汇进行加权处理,它无法对检索的最终结果进 行排序。当最终检索输出结果过大时,查询者不能依据输出结果快速检测自己所求信 息。 1.3.2 概率模型 就本质而言,信息检索是处理随机事件的过程。概率模型2利用这种不确定性,首 先对每个检索词赋予不同权值,表示索引词在相关文献和不相关文献中出现的概率。 然后计算查询词与随机文献之间的相似度概率。其检索过程吸收了相关反馈信息,不 断逼近目标检索文献,并最终确定检索信息。但其检索方式也存在一定的局限性。如 关键词权重取值为 0,1,各种参数估计难度较大,并且索引词之间相互独立的假设不 一定成立等。 1.3.3 向量模型 VSM 模型4将查询关键词和文献映射成一个同维数向量,通过计算两向量间的余 弦相似度,进而检索出相关文献。算法首先建立索引关键词集 K=k1,k2.,kt,文献集 西南交通大学硕士研究生学位论文 第 5 页 D=d1,d2,dj,查询词集为 q。分别依据 t 个关键词将 q 和 di投影到 t 维向量空间上, 并将投影向量分别记为和 Dj。然后对和 Dj做余弦值运算,得到它们之间的相似 q X q X 关系,根据其值大小,输出相似文献。这种方式能够将无结构的文字转化为有数学背 景的向量结构,进而借助数学的算法求解文献和查询词之间的相似度。实践证明,此 算法优于布尔模型和概率模型。但由于其仅仅利用关键词的频率,并假定每个索引词 之间相互独立,忽略的一词多义和多词一意,使得查询结果不尽人意。 1.3.4 潜在语义模型 潜在语义分析法4将文献看作是由若干相关词汇根据一定顺序组合而成的语义集 合。认为文献和词汇之间必存在某种联系是该法的基本出发点。它借助数学原理及计 算机技术对这个结构进行处理,保留文献与词汇之间的主要信息,去除其它庞大而冗 余的次要信息,以达到对该结构优化的目的,最终形成语义结构。这与原始文献词汇 结构相比,不仅规模减小,而且还能保留其主干信息,进而挖掘出文献与词汇的潜在 关系。运用数学相关算法,就能在该简化的语义空间里找出与查询词相关联的文献信 息。 用词频统计算法对原始 n 篇文献,m 个词汇统计,并建立 12 , n d dd 12 , m c cc m 行 n 列的巨型词汇-文献矩阵 A= (wij) mn。行向量表示同一词汇在不同文献中出现的 频数;列向量表示同一文献中不同词汇出现的频数。其中,表示关键词在文献 ij w i c 中出现的频数。 j d 潜在语义分析法是采用矩阵分解理论中的奇异值分解法,将巨型词汇-文献矩阵 分解成三个矩阵的乘积。由于此时分解后的三个矩阵规模太大, m n A m mm nn n TSD 造成储存不变以及主要信息不明显等弊端,降维处理是克服该弊端的有效做法。如何 选择降维方法是一个关键问题,有文献依据分解后的奇异值呈递减特性,利用末尾非 零奇异值平方和小于给定阈值,以达到剔除较小奇异值进而对矩阵降维目的,即 。但此法没有考虑奇异值的变化率,奇异值变化率强度直接影响 222 12kkr 中奇异值分布,进而对分解后三个矩阵的乘积影响巨大,最终影响原始矩阵。 m n S m n A 因此,奇异值变化率的研究可以进一步提高降维的可靠性,并且显然对提升潜在语义 结构至关重要。 1.4 本文主要研究内容 西南交通大学硕士研究生学位论文 第 6 页 基于上述分析,可以看出,潜在语义分析在文献检索中最具语义特性,更能搜索 出内容和查询词集一致的相关文献。本文将从以下几个方面,对现有潜在语义分解法 做尝试改进研究。 首先依据原始查询词集,获取相关文献集和扩展关键词集。根据原始查询词集获 得相关文献,并且根据同一关键词在不同文献中出现的词频进行阈值处理,获得一级 1 n 高质量扩展关键词集。由不停地做循环搜索,进而获得 2 级,3 级,n 级扩 1 c 1 c 展关键词集以及相关文献集,建立词汇-文本矩阵。 m n A 其次从理论上论证了词汇-文本矩阵经过分解成乘积后, m n A svd , m mm nn n TSD 三个矩阵对的作用。即对的行作用大,对的列 m mm nn n TSD m n A m m T m n A n n D m n A 作用大,对的行列作用都大,起到连接,的作用。 m n S m n A m m T n n D 再次针对分解后的三个矩阵进行降维处理。考虑到中奇异值增量突变特性, m n S 故考虑阈值的选取由原来的,改为,其优点在于充 222 12kkr 1kk k 分利用奇异值突变特性,将突变率大的奇异值作为截取点,与原来相比,克服了对奇 异值突变特性挖掘的不足。因此,本文利用对角矩阵 S 中奇异值变化率改变的特点进 行阈值 K 的选择,并对进行阈值 K 的压缩处理,最终得到降维矩阵 , m mm nn n TSD 的乘积。从而优化语义空间。 m kk kk n TSD 对于相似度计算的问题,考虑到欧氏距离范围在 0 到,范围过大,改为余弦相 似系数,使得相似范围在到 。而且据文献2知,IBM 公司的 Intelligent Miner for 11 Text 产品是目前最佳的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025关于制定个人的汽车租赁合同范本
- 2025北京市家具买卖合同范本(桌椅类)
- 妊娠合并缺铁性贫血
- 小说家创作艺术与职业发展全解析
- 幼儿园医学启蒙教育
- 河北省衡水市2024-2025学年高二下学期4月期中联考试题 生物 含答案
- 浙江省衢州市五校联盟2024-2025学年高二下学期期中联考语文试卷(PDF版含答案)
- 委托勘察业务协议
- 某酒吧的广告策划
- 某房地产贩卖技巧培训
- 教学茶树植物保护茶树常见害虫及防治
- 连用文件云通用方案
- 电力安装EC总承包工程技术投标文件
- 施工单位与劳务分包工程量结算单
- 广告设计制作、施工安装及售后服务方案
- 线段的垂直平分线(第1课时) 教学设计
- 建筑工程概预算智慧树知到答案章节测试2023年浙江广厦建设职业技术大学
- 合肥一中2021-2022学年第一学期高一年级期末考试数学试卷
- 数据出境安全评估申报指南(第一版)
- GB/T 3164-2007真空技术图形符号
- GB/T 1048-2019管道元件公称压力的定义和选用
评论
0/150
提交评论