已阅读5页,还剩57页未读, 继续免费阅读
(管理科学与工程专业论文)面向领域文本的潜在语义分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕 :论文面向领域文奉的潜稿:语义分析研究 摘要 传统基于词语独立性假设、原始高维词语特征表示和字面匹配方法的文本信息处 理往往忽略了文本信息中所隐藏的语义结构,无法形成对文档、作者、研究结构等处 理单元的正确语义表示,影响了检索、聚类、分类、相似度计算、关联挖掘等深层文 本信息处理的效率、准确率和召回率。因此,探索一种有效的语义分析和表示技术, 对于文本信息处理和挖掘有着重要的意义。 针对传统文本信息处理存在的问题,本文引入了潜在语义分析( l s a ) 模型,试 图通过奇异值分解( s v d ) 、半离散分解( s d d ) 以及非负矩阵分解( n m f ) 等语义降 维方法达到信息过滤和去除噪声的目的,实现原始“词语一文档矩阵 的分解,获得 原始矩阵的降维近似逼近阵,从而将文档和词语的高维表示投影到低维的潜在语义空 间中,缩小问题的规模,得到不再稀疏的词汇和文档的低维表示,进而揭示出词汇( 文 档) 之间的语义联系。 在对文本信息处理和潜在语义分析的国内外研究与应用的现状和问题的总结基 础上,本文阐述了潜在语义分析( l s a ) 模型的基本思想和原理,重点研究了基于 s v d 、s d d 等的潜在语义分析实现方法、各种方法的数学原理以及实现过程,同时将 这些方法与p c a 等传统语义成分提取方法进行比较,对这些方法应用于文本信息处理 的科学性进行了理论解释,弥补了相关方法研究在理论解释方面的不足。论文重点实 现了基于s d d 的潜在语义分析处理。这是一种在理论解释、效率和精度等方面均较优 异的方法,国内相关研究则较少,本文在此方法上的理论、实现和实验研究是一种有 意义的尝试。 然后,论文探索了基于潜在语义空间的领域文本信息处理的典型应用问题的方法 与机理,通过对比试验、选择合适的评价模型研究了潜在语义分析处理在文本聚类中 的应用相对于传统的文本聚类在效率、准确率、召回率等方面产生的本质差别。在实 验研究的基础上,论文得出了一些有意义的结论,这些结论对于相关研究在方法选择、 语义维度设定等方面有着一定的参考意义。 关键词:文本信息处理潜在语义分析奇异值分解半离散矩阵分解文本聚类 a b s t r a c t 硕士论文 a b s t r a c t t r a d i t i o n a lt e x ti n f o r m a t i o np r o c e s s i n gb a s e do no r i g i n a lh i g h - d i m e n s i o n a lf e a t u r e r e p r e s e n t a t i o n ,t e r m si n d e p e n d e n c ea s s u m p t i o na n dl i t e r a lw o r d sm a t c ho f t e no v e r l o o k st h e h i d d e ns e m a n t i cs t r u c t u r eo ft e x ti n f o r m a t i o n s oi tc a n tf o r mc o r r e c ts e m a n t i cp r o c e s s i n g u n i t so fd o c u m e n t s ,a u t h o r sa n dt h es t u d yi n s t i t u t i o nt h a ta f f e c t st e x ti n f o r m a t i o n p r o c e s s i n ge f f i c i e n c y , a c c u r a c ya n dr e c a l l d e e p s e a t e d t e x ti n f o r m a t i o np r o c e s s i n g i n c l u d e st e x tr e t r i e v a l ,t e x tc l u s t e r i n g ,t e x tc l a s s i f i c a t i o n ,t e x ts i m i l a r i t ym e a s u r e sa n d c o r r e l a t i o nm i n i n g t h e r e f o r e ,t oe x p l o r ea ne f f e c t i v es e m a n t i ca n a l y s i sa n d r e p r e s e n t a t i o n h a sg r e a ts i g n i f i c a n c et ot e x ti n f o r m a t i o np r o c e s s i n ga n dm i m n g t os o l v et r a d i t i o n a lt e x ti n f o r m a t i o np r o c e s s i n gp r o b l e m s ,t h i sp a p e ri n t r o d u c e s l a t e n ts e m a n t i ca n a l y s i s ( l s a ) m o d e l ,t r i n gb ys i n g u l a rv a l u ed e c o m p o s i t i o n ( s v d ) , s e m i - d i s c r e t ed e c o m p o s i t i o n ( s d d ) ,n o n - n e g a t i v em a t r i xf a c t o r i z a t i o n ( n m f ) a n do t h e r d i m e n s i o nr e d u c t i o nm e t h o d st oa c h i e v et h es e m a n t i ci n f o r m a t i o n o nt h eb a s i so fs u m m a r ys i t u a t i o na n di s s u e si nd o m e s t i ca n di n t e r n a t i o n a ls t u d yi n t e x ti n f o r m a t i o np r o c e s s i n ga n dl a t e n ts e m a n t i ca n a l y s i s ,t h ep a p e re l a b o r a t e so nt h eb a s i c i d e a sa n dp r i n c i p l e so fl a t e n ts e m a n t i ca n a l y s i sm o d e l ,f o c u s i n go nm a t h e m a t i c a l p r i n c i p l ea n dr e a l i z a t i o np r o c e s so fs v d ,s d da n do t h e rs e m a n t i ca n a l y s i sm e t h o d s a t t h es a m et i m e ,t h e s em e t h o d sa r ec o m p a r e dw i t ht r a d i t i o n a ls e m a n t i cc o m p o n e n te x t r a c t i o n m e t h o d s ,s u c ha sp c a a n de x p l a i n e dt h ef e a s i b i l i t yo ft h e i ra p p l i c a t i o ni nt e x ti n f o r m a t i o n p r o c e s s i n gt om a k eu pt h ed e f i c i e n c i e so fc o r r e l a t i o nm e t h o di nt h e o r e t i c a li n t e r p r e t a t i o n t h e r ei s l i t t l ed o m e s t i cr e s e a r c h , t h i sp a p e rg o i n gi nf o rt h e o r e t i c a la n de x p e r i m e n t a l s t u d i e so fs d di sa m e a n i n g f u la t t e m p t t h e n ,t h ep a p e re x p l o r e st e x ti n f o r m a t i o np r o c e s s i n gi ns o m ef i e l dt y p i c a la p p l i c a t i o n o ft h em e t h o da n dm e c h a n i s mb a s e do nl a t e n ts e m a n t i cs p a c e b yc o n t r a s tt e s t ,s e l e c t i n g t h ea p p r o p r i a t ee v a l u a t i o nm o d e li sf o rs t u d y i n gt e x tc l u s t e r i n gd i f f e r e n c ei ne f f i c i e n c y , p r e c i s i o na n dr e c a l lr a t eb e t w e e nt r a d i t i o n a lw a ya n dt h ew a yb a s i n go nl s a o nt h eb a s i s o ft h ee x p e r i m e n t ,t h ep a p e rd r a w ss o m ei n t e r e s t i n gc o n c l u s i o n sa n dc e r t a i nr e f e r e n c e v a l u ei n f o r m a t i o ni nt h em e t h o do fc h o i c ef o rr e s e a r c ha n ds e m a n t i cd i m e n s i o n ss e t t i n g k e yw o r d :t e x ti n f o r m a t i o np r o c e s s i n g l a t e n ts e m a n t i ca n a l y s i s s i n g u l a rv a l u e d e c o m p o s i t i o n s e m i d i s c r e t ed e c o m p o s i t i o nt e x tc l u s t e r i n g i i 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或 公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文 中作了明确的说明。 研究生签名: 谛占月屿 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密 论文,按保密的有关规定和程序处理。 研究生签名: 硕j :论文面向领域文本的潜在语义分析研究 1 绪论 1 1论文研究的背景 本论文的直接研究背景来源于总装部课题“面向领域文本信息处理的潜在语义分 析及其应用研究 ,同时也源于文本信息处理领域的研究现状和存在的问题。 随着互联网的快速发展和企业信息化程度的提高,文本信息的快速积累使信息检 索、内容管理以及信息过滤等变得越来越重要和困难,同时也给企业、政府及科研机 构等带来巨大的挑战。主要表现在:一方面,互联网和企业信息系统每天都产生大量 文本数据,这些文本资源中包含许多有用信息,有数据表明企业系统中的重要信息 8 0 是以文本形式储存;另一方面,基于现有技术从海量、动态、异构的信息资源中 获取潜在有价值的信息十分困难。因此,如何处理和利用这些文本型数据至关重要, 文本信息处理相关研究应运而生。 目前,大多数文本处理研究和软件开发工作使用的是基于倒排或者后缀树的“文 档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性 假设在这些组织模型中广泛使用。尽管这个假设使得信息检索模型的设计变得简单, 但事实上,语言中词语之间的严格独立性显然不成立。 针对文本信息处理领域存在的上述问题,本文试图引入潜在语义分析( l a t e n t s e m a n t i c a n a l y s i s ,l s a ) 模型,利用奇异值分解( s v d ) 、半离散分解( s d d ) 以及 非负矩阵分解( n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ,n m f ) 等语义降维方法达到信息过滤 和去除噪声的目的,实现原始“词语一文档矩阵 的分解,获得原始矩阵的降维近似 逼近阵,从而实现借助l s a 将文档和词语的高维表示投影到低维的潜在语义空间 ( l a t e n ts e m a n t i cs p a c e ) 中,缩小了问题的规模,得到不再稀疏的词汇和文档的低 维表示,同时这种低维表示可以进一步地揭示出词汇( 文档) 之间的语义联系。 对于特定领域( 比如某个科学理论或技术方法研究领域、特定工程应用领域、特 定的企业业务领域等) 的文本信息处理来说,上述意义上的潜在语义分析显得尤为重 要。这是因为领域知识表征的多样性( 如同义、近义、多义等) ,使得传统基于词语 独立性假设和字面匹配方法的文本信息特征索引、组织、检索、聚类、分类、相似度 计算、关联挖掘等深层处理的效率、精确率和准确率受到极大的限制。因而,近些年, 基于形式化本体技术或者自动化语义发现技术的语义化处理在领域文本信息处理中 得到了广泛的关注和研究。 基于上述背景,本论文将尝试通过领域文本试验,分析潜在语义分析在语义识别 和文本信息处理领域应用的有效性,并对不同语义降维模型( s v d 、s d d 以及n m f 1 绪论硕士论文 等) 进行对比试验分析,得出有意义的结论,进而为后续的文本信息处理应用奠定基 础。 值得一提的是,大多数文本信息处理应用是在“文档一词语矩阵 的基础上完成 的。因为领域文本信息的规模性,这种矩阵往往是高维或者超高维的( 比如一千篇学 术文档资源,其所包含的有语义意义的术语和词汇可能达到1 0 万个,即相关矩阵的 规模为1 0 0 0 1 0 0 0 0 0 维) ,在原始矩阵的基础上使用传统的方法进行聚类、分类存在 着效率和计算资源上的极大挑战,通过主成分分析、多维尺度分析等手段对这种高维 矩阵进行分解、语义成分提取并在此基础上进行深度处理也存在着较多的局限性( 以 s p s s 、m a t l a b 等软件为例,针对1 0 0 0 1 0 0 0 0 0 维矩阵的处理在一般计算机上基本无 法完成) 。从这个意义上讲,本文后文所要研究的潜在语义分析的实质,是针对高维 矩阵的处理,对于经济和管理统计的类似问题,也具有一定的可参考性。 1 2 国内外研究现状 本论文所要研究的问题涉及到文本信息处理领域的相关知识,同时本论文拟采用 潜在语义分析( l s a ) 模型作为文本信息语义组织模型,因此下面本文将主要从文本 信息处理以及潜在语义分析两个方面对国内外的研究现状和发展进行总结。 1 2 1 文本信息处理研究 中文信息处理,指的是用计算机对汉语( 包括口语和书面语) 进行转换、传输、 存贮、分析等加工的科学。它是一门与多种学科相联系的边缘交叉性学科,是自然语 言信息处理的一个重要分支。文本信息处理的过程涉及到文本表示、文本切词、文档 特征表示等基础技术。 1 ) 文本信息处理的研究现状 文本信息处理的相关研究主要有文本的知识组织发现和文本信息语义处理两个 方向。 文本知识组织发现的相关研究有文本挖掘和机器学习等方面。文本挖掘( t e x t m i n i n g ,t m ) ,也称文本数据挖掘( t e x td a t am i n i n g ,t d m ) 或文本知识发现 ( k n o w l e d g ed i s c o v e r yi nt e x t s ,k d t ) 。目前其定义等尚没有统一的概念。比较认可 的是由r o n e nf e l d m a n 等人提出的:t h ep r o c e s so fe x t r a c t i n gi n t e r e s t i n gp a t t e r n sf r o m v e r yl a r g et e x tc o l l e c t i o n sf o rt h ep u r p o s eo fd i s c o v e r i n gk n o w l e d g e n l 。在此背景下,可以 将文本分类聚类、文本检索、文本摘要、信息过滤等都视为文本挖掘的一个子方向。 国外在2 0 世纪5 0 年代末开始出现文本挖掘的相关研究,h e l u h n 乜3 提出基于词 频统计思想的文本自动分类,实现了文本信息处理领域的开创性研究。在6 0 年代初, m a r o n 1 在j o u r n a lo fa s m 上发表了第一篇关于自动分类算法的论文。随后,众多学 2 硕士论文 面向领域文奉的潜在语义分析研究 者在这一领域进行了卓有成效的研究工作。r o n e nf e l d m a n h l 在其发表了k n o w l e d g e d i s c o v e yi nt e x t u a ld a t b a s e s 一文中介绍了k d t 系统。h e l n e aa h o n e n 的研究小组在 数据挖掘中的关联规则技术方面进行了大量的研究。m a r k d i x o n 在研究中定义了文本 挖掘框架的四个步骤。a h h w e e t a n 在其发表的文章中定义了文本挖掘的同时,给出 了文本挖掘的通用框架。k s p a r k 、g s a l t o n 隋1 以及k s j o n e s 呻3 等人在该领域都有显著 的研究成果 国外的文本挖掘研究发展较快,其研究己从最初的基础理论研究通过试验性研究 实现了实用化研究,目前在邮件分类、电子会议、信息过滤等方面的应用获得较好的 效果。一些研究机构( 如贝尔实验室和帕洛阿尔托研究中心) 多年来的研究成果已在商 业领域得到广泛的应用,开发了一些比较有名的文本挖掘应用程序,例如i b m 的 i m i n e r 、t e x t w i s e 公司的核心产品d r 1 i n k 、m e g a p u t e r 的t e x t a n f l y s t 以及t e l t e c h 公司的产品等。此外一些政府机构,例如美国国防情报局、美国国家安全部和美国联 邦调查局等,也使用文本挖掘软件对搜集的各种类型的情报数据进行评估和分析,例 如麻省理工学院为白宫开发的邮件分类系统盯1 。 国内对文本挖掘的研究开始较晚。1 9 8 1 年,候汉清n 2 3 教授对计算机在文本挖掘 工作中的应用进行了阐述和探讨。近年来,随着网络的飞速发展,国内学者日益关注 w e b 文本挖掘并进行了一定的研究,国内的黄豫清n 3 3 对基于w e b 文档的信息抽取进 行了研究,施伯乐n 铂和陈滢n 朝等以w e b 文档特有的半结构化特点为出发点,深入探 索半结构化模型。此外,国内学者也致力于文本挖掘系统的设计和建立,中科院计算 机语言信息工程研究中心、清华大学、上海交通大学以及东北大学等在该领域都有一 定的研究成果。纵观已发表的有代表性的研究成果,目前国内文本挖掘的相关研究主 要是消化吸收国外相关的理论和技术以及实现小规模实验阶段。 机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能。 其通过重新组织已有的知识结构使之不断改善自身的性能,它是人工智能领域的一个 重要分支。 在机器学习的研究领域中,c a r b o n e l ln 6 3 指出机器学习的4 个研究方向,即连接 机器学习、基于符号的归纳机器学习、遗传机器学习与分析机器学习。之后d i e , e r i c h u 7 。 提出了4 个新的研究方向,即分类器的集成、海量数据的有教师学习算法、增强机器 学习与学习复杂统计模型。同时有研究人员将机器学习应用于文本挖掘领域,提出了 一个新的研究方向,即数据库中的知识发现,之后很多学者深入进行了该方面的相关 研究。 文本信息语义处理的研究主要分为两个方向: ( 1 ) 基于形式化的规范语义知识库的知识组织体系构建,具有代表性的相关研 究有w o r d n e t 、h n c 、h o w n e t 、本体论、语义网络等。通过明确的概念和概念关系体 3 1 绪论硕十论文 系来实现面向内容的语义处理和语义互操作。 ( 2 ) 潜在语义知识框架构建。本论文主要关注第二种文本信息语义处理方式, 其研究现状将在下一节详细阐述。 2 ) 现有研究存在的问题 总结现有研究工作,可以发现目前有关在文本信息处理主要存在以下几个方面的 问题: ( 1 ) 正如前文所述,现有大多数文本处理研究和软件开发工作采用基于倒排或 者后缀树的“文档词语映射”建立信息组织模型,例如在向量空间模型中将文档表示 为词语的向量。这些组织模型都是基于词语间的独立性假设。上述假设使信息检索模 型的设计简单、快捷,但是在真实环境下,同一文本中词与词之间都具有一定的关联 性,不可能相互之间完全独立,即每个文档( 同理可延伸到作者、研究机构等信息处 理单元) 可被视为以词语为维度的空间中的点,每个包含语义的文档出现在上述空间 中,其分布绝对不是随机的,而是服从某种语义结构。同样地,也可将每个词语视为 以文档为维度的空间中的一个点。文档的语义是由词语组成的,而词语又要放到文档 中去理解,体现了一种“词语一文档”双重概率关系。文档语义结构隐藏于文本当中, 潜在地对词语的出现和文档的构成发挥作用,但是由于词语使用的不一致性和文档主 题的不确定性等因素的存在,这种语义结构被“噪声”所淹没。传统信息处理方式忽 略了这种语义结构的存在,进而导致了其无法形成对文档、作者、研究结构等处理单 元的正确表示。 ( 2 ) 基于上述传统组织模型的文本过滤和检索都采用简单的关键字匹配,无法 应对自然语言中的同义词和多义词现象。 ( 3 ) 此外,文本信息处理的对象具有半结构甚至是无结构的特点,从而使用传 统文本信息处理方法会形成高维稀疏文档表示模型,这使大规模领域文本信息检索、 聚类、分类、相似测度等典型应用工作的效率和精度面临严重的挑战。 1 2 2 潜在语义分析研究 1 ) 潜在语义分析的研究现状 潜在语义分析是针对现有的信息检索模型中存在的问题进行改进的基础上提出 的。潜在语义分析理论和实践研究在国外己开展多年。从潜在语义的概念被提出之后, 在此基础上相继有其他的模型提出。c h r i sh q d i n g n 胡提出了双重概率模型,初步揭 示了自然语言现象中的词语和文档出现规律与l s a 的关系。s t o r y 口钔的研究将潜在语 义分析视为等价于b a y e s 回归模型的一种模型。 在理论研究方面,词语权重的研究是学者关注的重点。p r e s l a vn a k o v 通过实验 对基于不同权重计算方法下的潜在语义分析进行效果对比。胡祥恩乜等人在解释潜在 4 硕士论文 面向领域文本的潜在语义分析研究 语义空间维度的统计特性的基础上,提出了维度加权思想,对l s a 基础理论进行了 重要补充。 潜在语义分析的应用研究也是一个重要的研究分支并获得了一定的研究成果。 l s a 一经诞生就引起各语种国家学者的广泛注意,在信息检索、文档聚类分类、信 息过滤、信息抽取、自动问答系统等领域获得了广泛应用,在国外l s a 已逐渐步入 商业应用阶段。k g e e 乜2 1 将潜在语义分析理论引入到文本分类的研究中。p y o u n g 乜羽 研究了基于潜在语义分析的跨语言检索技术实现问题。t o d d a l e t s c h e 口钉等对向量空 间模型和潜在语义分析进行比较,同时研究了l s a 在大规模文本信息检索中的应用 效果。s u s a nt d u m a i s 口副等人研究将l s a 应用于个性化信息提取和信息过滤等领域中。 y o n g g u a n gb a o 汹3 等则将潜在语义分析和粗糙集结合提出新的文本分类方法。研究过 程中将文本作l s a 处理后,运用基于可辨识矩阵和逻辑运算的属性约简生成分类规 则,最后利用知识库对文档进行分类。在具体实践中的应用研究也已取得一定的研究 成果。t h o m a sk l a n d a u e r 2 7 】的团队开发i n t e l l i g e me s s a y a s s e s s o r ( i e a ) 系统,是 l s a 的典型应用之一,该系统可以评价文章中上下文概念上的合理性。a u t o t u t o r 嘲嘲 系统可以模仿辅导员的角色,实现基于自然语言鼓励学生学习某一学科。类似的实验 性质的l s a 信息检索系统还有t e l c o d i al s ie n g i n e b 以及b e r r y 等人设计的“l s i r s ” 【3 2 】 o 尽管潜在语义分析最初是应用于信息检索领域,但随着研究的深入逐渐引入到其 他领域的研究中。其中应用之一即为人类认知方面的研究。l a n d a u e r 3 3 等借用文本理 解、托福考试和学校儿童对词汇的学习等方面,比较l s a 结果与人类行为之间的差 异,发现l s a 可以获取( a c q u i s i t i o n ) 、归纳、( i n d u c t i o n ) 和表述( r e p r e s e n t a t i o n ) 知识:此外还通过实验考察l s a 应用于论文质量评估的有效性,发现l s a 的判断与 人类的行为几乎没有差异,从而为心理学中知识获取和有效化研究提供了可计算的数 学模型。 学者在不断探索如何获得效率更高的潜在语义空间方法,已经引入其他领域中的 半离散分解( s d d ) 以及非负矩阵分解( n m f ) 等方法。潜在语义空间新方法的研究也 是研究的热点,m i c h a e lw b e r r y 1 等提出了潜在语义空间的更新算法,解决了增加文 档或词语后的潜在语义空间改变的问题。d i a ni w i t t e r 口引等人也进行了相似的研究, 提出了潜在语义空间更新的算法,用于快速计算添加文档或词语后的近似潜在语义空 间,具有很重要的实用价值。 从国内相关文献中发现国内的相关研究大概要晚十年。目前以“潜在语义 为关 键词在c n k i 获得的检索结果只有百篇左右,涉及的博士硕士论文只有二十篇左右, 国内的相关研究刚刚开始。国内学者的研究很少涉及对潜在语义分析基础理论的拓展 研究,主要是研究其在信息检索等领域的应用研究。 1 绪论 硕上论文 在信息检索领域的应用研究主要有问答系统的改进啪3 、个性化服务b 力以及跨语言 检索3 等。 在文本分类和聚类的研究中,学者们不仅仅将l s a 与传统方法简单结合,还进 行了对l s a 模型的改进研究,例如语义标注、较小特征值的处理钔以及多层分类模 型n 们等,以获得更好的分类聚类效果。 在信息过滤的研究中应用潜在语义分析,首先要对用户感兴趣的信息实例进行分 析,构建出用户兴趣主题的潜在语义空间模型,将用户的信息需求倾向向量化。牛伟 霞h 妇成功构建了中文科技文献过滤系统的兴趣主题模型,当k 取1 0 0 时,平均准确率 比向量空间模型高1 3 6 。潜在语义分析应用于垃圾邮件过滤的关键是用户主题l s a 模型或垃圾邮件语义空间的构造,杨清、陈华辉h 羽h 羽等都对潜在语义分析在邮件过滤 系统中的应用进行了研究。 国内还有学者研究将潜在语义分析应用于图像处理、语音识别以及信息抽取等领 域,也都获取了一定的成果。 2 ) 现有研究中存在的问题 经过二十多年的努力,关于l s a 的研究获得了一定的成果,基于已发表文献可 以发现在l s a 领域尚有许多问题需要解决。 ( 1 ) 当前比较有成果的研究是针对英语环境进行的,涉及中文环境的研究还很 少。英语环境和中文环境存在很大的差别,不能直接将英语环境下的研究应用于中文 环境,需要适当的改进和完善。 ( 2 ) 目前的研究中k 值一般是根据经验确定的,取值在5 0 1 5 0 之间。k 值的选 取会影响l s a 信息检索质量,因而有必要根据不同处理对象和条件建立具有普遍性 和通用性的k 值确定方法。 ( 3 ) 通过s v d 分解会舍弃奇异值较小的向量,而有时恰恰是这部分向量决定 文本的特征,因而如何在压缩语义空间和保留奇异值较小的向量之间寻找一个平衡点 也是值得关注的问题之一。 ( 4 ) 将l s a 与传统分类和聚类技术实现优劣势互补研究以提高分类和聚类的 准确率和速度。此外利用l s a 技术进行多元和多层分类模型的研究都是在文本挖掘 领域需要研究的方向。 ( 5 ) 现有的理论研究中尚没有关于潜在语义分析的各种分解模型的理论解释。 尽管潜在语义分析在实验研究中获得很好的研究效果,但是需要在理论研究里领域中 提供其科学性和合理性的解释。 此外,s v d 算法时间代价的改善以及通过l s a 建立面向文本处理领域的概念词 典也是未来研究需要关注的。 6 硕士论文面向领域文本的潜在语义分析研究 1 3研究内容及主要结构 1 - 3 1 论文的主要研究内容 本论文主要包括以下几个方面的内容: 1 ) 根据现有文献总阐述文本信息处理的研究现状并总结文本信息处理领域中存 在的问题。同时详细介绍潜在语义分析( l s a ) 模型的基础理论与研究方法,包括潜 在语义分析的基本思想、现有的矩阵分解算法、各种矩阵分解算法的基本原理以及实 现过程等理论。该部分主要是论文的理论部分。 2 ) 基于潜在语义分析( l s a ) 模型,运用现有文本切分和术语提取的研究成果, 结合已有的文本数据,研究面向领域文本的语义分析的理论和方法,探索潜在语义分 析领域研究存在的问题。主要包括: ( 1 ) 根据潜在语义分析模型的基本思想,对潜在语义分析模型在解决文本语义 分析方面的科学性给予理论解释; ( 2 ) 通过领域文本试验,对比分析基于不同的矩阵降维方法形成的潜在空间的 性能差别,例如s v d 、s d d 等矩阵降维方法。 ( 3 ) 探索基于潜在语义空间的领域文本信息处理与检索的典型应用问题的方法 与机理,即通过对比试验、选择合适的评价模型研究潜在语义分析处理在文本聚类中 的应用相对于传统的文本聚类产生的本质差别。 1 3 2 拟解决的主要问题 本论文主要解决一下两方面的问题: 1 ) 面向领域文本的潜在语义空间的构建、解释、维度确定等关键问题。 主要是基于文献调查和实验分析的方法。潜在语义分析的研究仍处于初级阶段, 现有的技术和方法尚不成熟,其理论解释和维度确定等基础问题尚没有公认的研究成 果,而这些基础理论制约着潜在语义分析的广泛应用。本文试图探索潜在语义分析应 用于文本处理的合理性以及实现现有的矩阵降维模型的对比分析。 2 ) 面向领域文本的语义分析的典型应用。 目前文本数据挖掘主要应用于图书情报、新闻、互联网等行业,本论文尝试将文 本挖掘应用于某领域文本的研究中,同时将潜在语义分析模型应用于文本聚类中,实 现一定的研究创新。在此基础上进行潜在语义分析在文本信息处理中的应用有效性评 价。 1 3 3 论文结构 7 1 绪论硕上论文 s耋em薹id i s c r e t edeco:mposititiion) 半离散分解( s d d )i - , 基于潜在语义分析的典型文本信 息处理应用研究 潜在语义分析使用的矩阵降维模型 潜在语义分析处理过程 潜在语义分析的基础理论研究 基于s v d 形成的潜在语义空 间上的文本聚类效果评价 基于s d d 形成的潜在语义空 间上的文本聚类效果评价 潜在语义空间上的文本聚类与 传统文本聚类效果评价 基于相同语义空间上的不同聚 类类目的效果评估 潜在语义空间上基于维度和聚 类类目交叉影响的文本聚类效 果比较评价 潜在语义分析应用于文本信息处理领域的可行性分析 文本信息处理嚣蒿誓有研究中存在il 潜在语义分析的研究现状 的问题li 图1 1 论文结构示意图 1 3 4 本文的主要工作 本论文的创新点主要是以下三个方面: 1 ) 在对基于s v d 、s d d 的潜在语义分析的理论研究基础上,将这些方法与p c a 等传统语义成分提取方法进行比较,对基于s v d 和s d d 的潜在语义分析的科学性给出 了一定的理论解释,一定意义上弥补了相关研究在理论解释方面的不足。 2 ) 基于s v d 和s d d 方法研究了潜在语义分析在文本信息处理中的应用,尤其是 基于s d d 方法,其是一种无论从理论、还是效率和精度方面都较优异的方法,而国内 外相关研究则较少,本文尝试在此方面进行一定的深入探索。 3 ) 基于大量对比实验研究了潜在语义分析对文本信息处理的典型应用( 文本聚 类) 的效率、准确率、召回率等的影响,得出了一些有意义的结论,这些结论对于相 关研究在方法选择、语义维度设定等方面有着一定的参考意义。 8 硕士论文面向领域文奉的潜稿:语义分析研究 2 潜在语义分析基础理论与研究方法 2 1向量空间模型( v s m ) 概述 向量空间模型在1 9 5 0 年提出的,是目前信息检索领域中广泛使用的一种模型, s m a r t 系统首先在实践中使用该模型h 副。 向量空间模型的基本理念是词与词之间是不相关的,即相互之间是完全独立的, 文本只是文本中出现的字或词的简单集合。在此基础上用向量表示文本,并且对每个 特征项依其对文本语义的贡献程度不同赋予不同的权重。 假设d 表示文本,t j 表示文本的内容特征项,其一般为字、词或短语等基本语言 单位,则文本可以表示为d ( t 1 ,t z t n ) ,一般不考虑t k 在文本中的顺序但必须为互 异的。矩阵中的元素t i 为文本内容特征项在对应文本中的频数。此外,根据每一个特 征项t i 在文本d 中的重要程度不同而赋予不同的权重w , 即 d = d ( ( t i ,w i ) ;( t 2 ,w 2 ) ( t n ,w r n ) ) ,则文本d 表示为多维向量空间的一个向量 d = d ( w 1 ,w 2 w n ) h 副。 2 2潜在语义分析研究背景 在文本信息处理领域中,向量空间模型将非结构化文本表示为向量形式,其处理 过程简单、快捷,但是在现实环境中同一文本中的词与词之间都具有一定的关联性, 不可能相互之间完全独立,词语之间存在隐含的语义信息,研究表明这种隐含信息可 以通过词语的频数进行描述h 6 儿4 7 1 。 此外基于向量空间模型的文本过滤和检索等信息处理过程都采用简单的关键字 匹配模式,这样无法应对自然语言中的同义词和多义词现象。由于用户所处的环境、 知识背景以及语言习惯等方面的差异会使不同个体对同一事物或概念有不同的表达 方法,表现为语言学中的同义词现象。研究数据表明,两个人对同一个普通事物采用 同样词语进行描述的概率小于0 2 ,此外,不论专家学者还是普通用户其与检索系统 的标引词语之间的一致性也很低。因此基于关键词的检索方式会遗漏部分与用户查询 符合的文档,在一定程度上降低了检索系统的“查全率”。在语言学中,还存在一类 词语,这类词语具有一个以上的具体含义,即多义词,也称同形异义词。在不同的语 言环境下,不同的用户使用同样的词语可能表达不同的意思,从而包含查询关键词的 文档或是文档的标引未必是用户真正需要的信息,这样降低了检索系统的“查准率 ( 4 8 9 2 潜相:语义分析基础理论与研究方法硕j :论文 2 3 潜在语义分析定义 基于向量空间模型存在缺陷的改进,s u s a nt d u m a i s 、t h o m a sk l a n d a u e r 、s c o t t d e e r w e s t e r 等人在1 9 8 8 年共同提出了潜在语义分析( l a t e n ts e m a n t i ca n a l y s i s ,l s a ) 的概念h 引。与这个概念紧密相关的概念还有潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g , l s i ) ,两个概念具有共同的内涵和目标,在本文中采用第一种称法。 潜在语义分析是基于文本中存在某种隐含的语义结构并且可以通过统计学的方 法考察这种隐含的语义结构的假设基础。在l s a 中,每一个文档被视为以词语为维 度的向量空间中的一点,每一个词语视为以文档为维度的空间向量的一点。其中包含 语义的文档出现在以词语为维度的空间中,其分布不是完全随机的,而是服从某种语 义结构;同样地,一个词语出现在某个文档中也不是随机的,而是与该文档中的其他 词语有密切关系,这样词语与文档之间表现为双重概率关系。 潜在语义分析对向量空间模型的改进主要表现为将向量空间模型的高维文本表 示投影到低维的语义空间中,减小了问题的规模,同时降低高维矩阵的稀疏程度,进 而实现文档有效信息的抽取和冗余信息的删减,试图发现潜在的语义结构h 训。 设某一文档集包含n 个文档,涉及m 个词语,建立行向量代表词语维度、列向 量代表文档维度的秩为r 的m x n 阶词语文档矩阵a m 训该矩阵实际是向量空间模型 中生成词语文档矩阵的转置。矩阵a 中的每一个元素a i i 是对应词语i 在文本j 中的 出现频率,潜在语义分析的后续研究中也提出根据词语与文档语义之间解释和重要程 度的差异对矩阵的元素进行适当的加权。即矩阵 a m n = 【a i j 】m n = ( d o c l ,d o e 2 d o c n ) = ( t e r m l ,t e r m 2 t e r m m ) 将其表示为: 表2 1 词语文档矩阵示意图 d 。d 2 d 。 乃 a l la 1 2 a 1 n t 2 a 2 la 2 2a 孙 :ii ; t m 屯,a 舶 一般情况下,文本处理过程中形成的原始词语文档矩阵都是高维稀疏矩阵,会需 要比较巨大的存贮空间,同时会降低文本处理的效率。为了克服上述难题,希望借助 潜在语义分析将上述高维稀疏矩阵投影到低维的语义空间中,并保证将为过程中尽量 多的保留有用信息。 l o 硕士论文 面向领域文本的潜订:语义分析研究 实现原始词语文档矩阵降维的主要方法有很多,本文的研究主要研究以下三种方 法在潜在语义分析中的应用,即奇异值分解( s i n g u l a r v a l u ed e c o m p o s i t i o n ,s v d ) , 半离散分解( s e m i d i s c r e t ed e c o m p o s i t i o n ,s d d ) 以及非负矩阵分解( n o r m e g a t i v em a t r i x f a c t o r i z a t i o n , n m f ) 。n m f 已经被研究人员从图像处理领域引入到潜在语义分析的 研究中,并期望可以比s d d 和s v d 具有更好的表现。 2 4潜在语义分析的处理过程 图2 1 潜在语义分析处理过程示意图 1 ) 构造词语文档矩阵:即对样本集数据进行预处理。通过文本切词、分词、词 性标注、词性识别、停用词过滤、特征抽取等步骤获得原始的词语文档矩阵 a m n = 【a i j 】m n 。 2 潜在语义分析基础理论与研究方法硕十论文 2 ) 加权运算:由于l s a 原理中有很多统计学的相关知识,因而基于矩阵a 获得的 潜在语义空间的应用效果优劣在很大程度上取决于矩阵a 中元素的选取能否最大限 度地体现文本特点。因而引入权重计算的方法来提高潜在语义分析的效率。常用的权 重计算方法有局部权重计算方法、词语全局权重计算方法和文档全局权重计算方法。 3 ) 原始词语文档矩阵降维:矩阵降维方法很多,其中最常见的是奇异值分解 ( s i n g u l a r v a l u ed e c o m p o s i t i o n ,s v d ) 。本文也将介绍并应用半离散分( s e m i d i s c r e t e d e c o m p o s i t i o n ,s d d ) 。但是n m f 应用于潜在语义分析中的过程与图2 1 有一定的差 别,具体的内容可参考相关文献。 2 5 潜在语义分析的普适性和局限性 潜在语义分析借助数学和统计学的知识,基于原始语料文档中使用的词语提取文 档的表述意思以及词语间的关系。潜在语义分析与传统的自然语言处理方法有本质的 区别,其不是一种人工智能处理过程,因为其过程中不涉及人工词典、语义网络等内 容。潜在语义分析相比与其他的其它概念检索模型具有一定的优势,主要表现在需要 人的参与性少,可计算性和可操作性强。随着潜在语义分析被引入到更多领域的研究 中,潜在语义分析逐渐被定义为一种研究的基础工具,从一定程度上表明潜在语义分 析的应用范围具有很大的可拓展性。 潜在语义分析在提出之初主要是应用于信息检索领域的研究。但逐渐被其他领域 的研究人员引入到其各自的研究领域中。目前潜在语义分析已经在认知研究
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安徽扬子职业技术学院单招职业适应性考试必刷测试卷带答案解析
- 2026年开封文化艺术职业学院单招职业倾向性测试必刷测试卷附答案解析
- 2026年四川卫生康复职业学院单招职业技能考试题库及答案解析(名师系列)
- 2026年惠州卫生职业技术学院单招职业适应性考试题库及答案解析(夺冠系列)
- 2026年德阳城市轨道交通职业学院单招职业倾向性测试题库带答案解析
- 2026年南通科技职业学院单招职业倾向性考试题库及答案解析(名师系列)
- 2026年江西省抚州市单招职业倾向性考试必刷测试卷及答案解析(夺冠系列)
- 2026年山西经贸职业学院单招职业倾向性测试必刷测试卷带答案解析
- 2025年卫生招聘考试之卫生招聘(财务)自我检测试卷B卷附答案
- 2020-2025年公务员(国考)之申论通关试题库(有答案)
- 2025年初级会计资格考试题及答案
- 超长距离顶管非开挖施工方案
- 2025年9月青少年软件编程(图形化)等级考试三级真题(含答案和解析)
- 英语教师素养大赛笔试题及答案解析(2025年版)
- 10.1国家利益高于一切 课件 2025-2026学年统编版道德与法治 八年级上册
- 2025天津滨海传媒发展有限公司招聘13人考试笔试备考试题及答案解析
- 2025年安康旬阳市人民医院招聘(15人)笔试考试参考题库及答案解析
- 货物贸易外汇管理
- 2025年中国浙江省公安民警心理测验真题及答案
- 美食嘉年华策划方案
- 烹调工艺与营养职业规划
评论
0/150
提交评论