(计算机应用技术专业论文)基于语义和领域相关的文本聚类研究.pdf_第1页
(计算机应用技术专业论文)基于语义和领域相关的文本聚类研究.pdf_第2页
(计算机应用技术专业论文)基于语义和领域相关的文本聚类研究.pdf_第3页
(计算机应用技术专业论文)基于语义和领域相关的文本聚类研究.pdf_第4页
(计算机应用技术专业论文)基于语义和领域相关的文本聚类研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于语义和领域相关的文本聚类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,我国石油行业信息化建设发展迅速,但针对石油领域的文本聚类研究却寥 寥无几。现有聚类技术大多是面向综合文本的研究,对主题信息的聚类研究尚不完善, 因此研究和开发专业的石油主题聚类方法具有很大的价值。 传统文本聚类研究采用基于关键词集的向量空间模型,它仅考虑文本语法层面上 字、词的简单匹配,没有考虑隐含在文本的语义信息,缺乏对其所包含语义信息的理解, 影响了文本聚类的质量。 本文针对传统聚类挖掘基于关键词集向量空间模型的不足,以及对相关领域信息不 完善的问题,提出了基予语义和领域相关的聚类挖掘思想。首先,利用主题概念树在语 义处理方面的优势,提出了基于主题的特征提取思想。然后,在主题概念树的基础上, 提出了权重的计算方法,并利用h a s h 技术对语义进行了扩展,在一定程度上解决了文 本聚类预处理中高频词和低频词的问题。最后,在知网的基础上,提出了基于语义相似 度预处理的算法,解决了聚类预处理的同义现象,降低了文本的特征维数,从而在特定 领域上使基于语义的聚类挖掘成为可能。 实验表明基于语义和领域相关的聚类挖掘模型能够解决传统聚类挖掘缺乏语义信 息的问题,较之传统的聚类挖掘具有更高的准确率,提高了聚类的精度和质量。 关键词:文本聚类,主题概念树,知网,语义相似度 r e s e a r c ho f t e x tc l u s t e r i n g b a s e do ns e m a n t e m ea n dd o m a i nc o r r e l a t i o n k o n gj i n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o s h in i a n y u n a b s t r a c t i n f o r m a t i o ni n d u s t r yh a sb e e nd e v e l o p i n gr a p i d l yi nr e c e n ty e a r s ,b u tt h e r e i sl i t t l e r e s e a r c ho nt e x tc l u s t e r i n ga b o u tp e t r o l e u mt h e m e m o s to ft h e e x i s t i n gc l u s t e r i n g t e c h n o l o g i e sa r ea b o u ti n t e g r a t e dt e x t sa n dt h er e s e a r c h e sa b o u tp e t r o l e u mt h e m ea r e i m p e r f e c t s oi ti sg r e a ta n ds i g n i f i c a n tt or e s e a r c ha n dd e v e l o pt h ep e t r o l e u mt h e m et e x t c l u s t e r i n gf o rt h es p e c i a l i s t s t h et r a d i t i o n a lt e x tc l u s t e r i n gu s e st h ev e c t o rs p a c em o d e lb a s e do nk e y w o r d s ,i to n l y s i m p l yc o n s i d e r st h ew o r d s a n dc h a r a c t e r s m a t c h i n gi ng r a m m a ra n dd o e sn o tt a k ea c c o u n t o fs e m a n t i ci n f o r m a t i o n ,i ta l s ol a c k so ft h eu n d e r s t a n d i n go ft h o s es e m a n t i ci n f o r m a t i o n c o n t a i n e di nt h et e x t s ,s oi ta f f e c t st h eq u a l i t yo ft e x tc l u s t e r i n g b e c a u s eo ft h es h o r t c o m i n go ft r a d i t i o n a lc l u s t e r i n gb a s e do l lv e c t o rs p a c em o d e la n d i m p e r f e c td o m a i ni n f o r m a t i o n ,t h ep a p e rp r o p o s e sam e t h o do ft e x tc l u s t e r i n gb a s e do n s e m a n t e m ea n dd o m a i nc o r r e l a t i o n f i r s t l y ,w i t ht h ea d v a n t a g e so fs e m a n t i cp r o c e s s i n go f t h e m ec o n c e p th i e r a r c h y ,an e wm e t h o do ff e a t u r ee x t r a c t i o nb a s e do nt h e m ei sp r o p o s e d 。 t h e n , o nt h eb a s i so ft h e m ec o n c e p tt r e e ,t h em e t h o do fc o m p u t i n gw e i g h t si sp u tf o r w a r dt o s o l v et h ep r o b l e mo fh i g h - 行e q u e n c ya n dl o w - 厅e q u e n c yw o r d st os o m ed e g r e e ,a n dh a s h t e c h n o l o g yi si n t r o d u c e dt oe x p a n ds e m a n t e m e f i n a l l y , b a s e d0 1 1t h ea n a l y s i so fk n o w l e d g e n e ts u c ha sh o w n e t ,a na l g o r i t h mb a s e do ns e m a n t e m es i m i l a r i t yp r e p r o c e s s i n gi sp r o p o s e d a g a i n s tt h es y n o n y m sp h e n o m e n o n , w h i c hc a nr e d u c et h ef e a t u r e sd i m e n s i o na n dm a k ei t p o s s i b l et ou t i l i z et h es e m a n t e m e - b a s e dc l u s t e r i n gm i n i n gi ns o m es p e c i a la r e a s t h er e s u l t so ft h ee x p e r i m e n t ss h o wt h a tt h e c l u s t e r i n gm i n i n gm o d e lb a s e do n s e m a n t e m ea n dd o m a i nc o r r e l a t i o nc a l ls o l v et h ep r o b l e mo fl a c k i n go ft h es e m a n t e m e i n f o r m a t i o n 。c o m p a r i n gw i t h t h et r a d i t i o n a l c l u s t e r i n gm i n i n g ,t h e s e m a n t e m e - b a s e d c l u s t e r i n gs y s t e mh a sh i g h e ra c c u r a c ya n db e t t e rq u a l i t y k e y w o r d s :t e x tc l u s t e r i n g ,t h e m eo fc o n c e p th i e r a r c h y h o w n e t ,s e m a n t e m es i m i l a r i t y 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:孟l 每 日期:砷年f 月伽日 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印 刷版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门 ( 机构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被 查阅、借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用 影印、缩印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名:幺 ) 盘 指导教师签名:j p 寻乏。 日期。哼年岁月e 1 日期岬年士月护日 中国石油大学( 华东) 硕士学位论文 第一章前言 1 1 课题的提出和研究意义 当今社会是一个信息爆炸的社会,随着数据库技术的迅速发展以及数据库管理系统 的广泛应用,人们积累的数据越来越多。与数据库中结构化的信息相比,非结构化的文 本信息更加丰富与繁杂。互联网络的发展,更使w e b 上的文本资源呈现爆炸式地增长。 寻找有效的手段,对丰富的文本资源加以充分利用,成为日益紧迫的问题。聚类分析作 为数据挖掘的一种重要手段,在文本挖掘中也扮演着非常重要的角色。 文本挖掘【1 】是指在大量文本集合或语料库上发现隐含的、有用的模式和知识。文本 聚类是文本挖掘的重要手段。文本聚类【2 】是一种无指导的文档分类,它把一个文本集分 为若干称为集簇( c l u s t e r ) 的子集,每个集簇的成员之间具有较大的相似性,而集簇之间 的文本具有较小的相似性。文本聚类研究是自然语言处理和文本数据挖掘的重要内容, 在大规模文档集的组织与浏览、文档集层次归类的自动生成等方面都具有重要的应用价 值。文本聚类是一种有效的w e b 文本挖掘方法,能从大量文本数据中发现潜在的知识和 规律,它既是一个知识获取技术,也是一种文本处理过程。经过聚类后的文档集会分成 若干个分类,类中相似,类间不同,并得到每个分类的匹配程度,为优化查询结果提供 了很好的基础。在海量i n t e m e t 信息检索中,文本聚类的有效标识不但为使用者提供了方 便,而且有利于信息资源的合理存储。快速和高质量的文本聚类技术可以将大量信息组 织成少数有意义的簇,并且可以改善检索性能,提供导航、浏览机制,发现相似文档等。 因此,文本聚类研究已成为数据挖掘的一个非常重要的课题。 传统的文本聚类挖掘主要采用基于关键词集的向量空间模型( v s m ) p 】,此模型是一 种统计的文本表示模型,主要用于对一组对象或特征进行数学模型化处理,它认为对象 的属性之间是独立的。对不包含结构信息的文本进行聚类时,可以取得较好的效果。但 是,它没有考虑文本中的深层语义信息和丰富的语义关联,无法表达概念之间的语义联 系,影响了文本聚类的质量。同时,现有的文本聚类方法大多面向综合文本的研究,对 主题信息的聚类研究并不完善,从而难以实现按照某一领域对文本进行聚类。 聚类挖掘所面临的语义问题主要表现为以下两个方面: ( 1 ) 特征提取的语义问题 第一章前言 在现有的聚类挖掘预处理中,对于特征词的提取,传统的方法是排除那些被认为无 关或关联性不大的特征,而忽略了特征词的隐含语义信息,即不考虑高频词和低频词问 题。例如,“王进喜 在某文档中的出现频率很高,但对特定领域的贡献却相当小;“甲 基醚 在某文档中的出现频率很低,但属于石油产品领域的添加剂一类,具有很大的贡 献。这些高频词和低频词在聚类文本预处理时往往被忽略,影响了聚类的效果。 ( 2 ) 词语之间的语义问题 目前v s m 模型的文本相似度计算方法不能揭示词语间的相关性,它是严格的矢量 坐标的计算方法。例如:在一篇描述汽油的文章中有特征词“乙醇 但没有词“酒精 , 在计算两向量的夹角余弦时,由于“乙醇”和“酒精”是不同的坐标,它们会加大两向 量的夹角,使两向量的相似度变小。其实“乙醇 和“酒精”表示的是相同的概念,它 们应该有很强的相关性,但由于这些等义词在数据库中是分别地进行记录,因此影响了 向量之间的相似度计算,并增大了向量空间的维数。 因此,把现有的文本聚类挖掘从目前基于关键词层面提高到基于语义层面,并将其 应用于石油领域的相关文本中,是解决问题的关键。基于此,提出基于语义和领域相关 的文本聚类研究,期望在某特定领域中能够进行基于语义的匹配,实现基于语义聚类的 智能性,从而进一步提高聚类效果。 1 2 课题的研究现状 文本聚类是在没有任何预知信息的情况下,将大量文本信息按照一定的相似关联进 行自动归类,使得更好更快地浏览和查找相关信息。与结构化数据挖掘对象有所不同, 文本聚类所处理的数据对象主要是一些非结构化或半结构化的文档数据,具有数据稀疏 性的特点。文本聚类的目标是将意思相似的文本聚成一类,最为理想的结果自然是能够 正确地模拟人们所理解的语义,把人们认为语义相近的文本聚成一类。 要进行文本聚类,首先就是要对文本数据进行数学描述,其中最常用的数学模型是 g s a l t o n 在1 9 8 8 年提出的向量空间模型,即使用向量来表示文本,每一个不同的词作 为特征空间中的一维,每个文本是特征空间中的一个向量【4 】。但是向量空间模型出现一 个严重的问题,就是高维稀疏问题。为了克服传统向量模型的局限性,s t d u m a i s 等人 提出了一种新的模型:潜在语义索弓 ( l a t e n ts e m a n t i ci n d e x ) 瞪】。l s i 利用统计计算导出 文本中的词和文档之间的潜在语义联系,并通过奇异值分解,取前k 维近似矩阵进行处 2 中国石油大学( 华东) 硕士学位论文 理,大大降低了处理矩阵的维数。为了解决聚簇描述难的问题,文献【6 】提出一种基于语 义相似度的文本聚类算法t c u s s ,利用两个概念列表中词语间的语义相似度作为文档 相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。 也有文献【7 】提出基于c o s a 算法的文本聚类,改进了聚类的距离定义,把属性权重作为 变量,使得每个属性在不同分组中所起作用不同。较基于欧式距离的聚类算法有更好的 性能,而且对于属性的变化,c o s a 算法更加稳定。另外,文献【8 】还提出一种用于文本 聚类的改进k m e a n s 算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点, 提出了一种基于局部搜索优化的思想来改进算法,有效地提高了聚类的质量。 上述研究内容主要集中在对聚类算法的改进,对文本间的语义处理考虑不多。事实 上,为提高文本聚类挖掘的质量,应当考虑文档间存在丰富的语义关联信息,而语义问 题已经引起了研究人员的关注。德国卡尔斯鲁厄大学的a n & e a l sh o t l l o 和s t e f f e ns t a b 等 人提出一种基于本体的文档聚类算法【9 】。其基本思想是将词映射为概念,如具体的旅店 名称统统映射为“旅店”一词。他们主要是利用w o r d n e t 作为知识源来解决语义问题。 美国n e c 国家实验室的w e ix u 1 0 】等人提出一种概念分解的方法。通过概念映射或概念 词的扩展,使得同类文档之间的相似度加大,而缩小了不同类文档之间的相似度。中国 科学院计算所的卜东波、白硕等利用迭代的方法来处理和利用特征权重计算的对偶现 象,获得了文本的隐含概念。采用概念空间代替原始词空间来表示文本,有助于加强同 一类别文档的聚合能力【l 。 因此,诸多基于语义的方法提出并应用于文本聚类当中。文献【1 2 】针对文本聚类研究 忽略词之间语义信息的问题,提出了一种基于语义的文本聚类方法。该方法从语义上分 析文本内容,利用文本的具体语义来计算文本间的相似度,从而使得最后代表类的特征 词更加逼近主题。b h o o p e s h 和p u s h p a k 提出了基于语义的文本聚类【1 3 1 ,使用句子中词 语的语义关系来产生特征向量,应用自组织映射( s e l f - o r g a n i z i n gm a p s ,简称s o m ) 较好 地实现高维数据到二维平面空间的映射,将相似的文档映射到相同或邻近的神经元。文 献【1 4 】提出一种基于本体论和潜在语义索引的文本语义处理方法,引入一个虚拟标准文本 作为参照,采用潜在语义索引方法对文本集合进行语义聚类。 另外,知网作为语义知识库也是文本聚类挖掘的一大研究热门,利用它可以获 得词语的语义信息。文献【1 5 】提出基于概念语义分析的文本聚类研究。文中通过知网的内 容构建具有添加和删除特点的概念语义树,通过知网义原的特点来更好地得到词向量与 概念向量的相似度。此方法可以对词进行解释,解决了同义词和多义词的问题,并通过 3 第一章前言 语义相关度的方法解决了结构性歧义问题,提高了聚类的效果。文献【1 6 】提出了一种基于 主题概念的文本聚类方法,利用知网( h o w n e t ) 提取文本的主题概念,然后使用 c h a m e l e o n 算法将文档集中的主题概念进行聚类,再根据主题概念的聚类结果完成对文 本的聚类。该方法用概念代替某个词条表示文本,减少了文本特征之间的相关性,有效 地降低了聚类的时间复杂度。文献【17 】提出了基于本体的文本聚类研究,即在聚类预处理 中应用背景知识知网( h o w n e t ) ,来提高聚类结果。文献【1 8 1 针对基于关键词集的文本聚 类存在的问题,提出了基于知网的中文文本聚类算法的研究,更好地将语义相关的文本 聚集在一起,一定程度上提高了聚类的质量。后来也有针对文本主题进行聚类的,提出 一种基于主题的文本聚类方法l f i c 1 9 1 ,该方法能准确识别文本主题,并根据文本的主 题对其进行聚类。 目前,大多数基于语义的文本聚类研究只停留在理论研究中,很少结合特定领域去 研究。因此,需要进一步研究和开发适合某领域文本需要的聚类方法。本文旨在保持文 本聚类优点的基础上,使用相关技术来解决聚类挖掘中缺乏语义的问题,并将其应用到 特定的领域中,构建基于语义和领域相关的聚类挖掘系统模型。 1 3 课题的研究目的和研究内容 1 3 1 研究目的 针对传统聚类挖掘基于关键词集向量空间模型的不足,以及对主题信息不完善的问 题,提出基于语义和领域相关的文本聚类挖掘模型框架。目的是解决传统的向量空间模 型不能处理语义信息的问题,使基于语义的聚类挖掘能够充分利用隐含在文本的语义信 息,并根据用户提供的相关领域信息进行语义方面更加精确的匹配,从而提高聚类挖掘 的质量。 1 3 2 课题的研究内容 主要研究内容包括: 1 、熟悉石油领域的相关知识,在此基础上构建主题概念树。 2 、提出特征词的权重公式,并利用h a s h 函数扩展语义,构建基于语义的聚类挖掘 模型的体系结构。 3 、利用知网,解决传统计算文本相似度无法揭示词语间语义相关性的问题。 4 、将基于语义的聚类挖掘模型应用于石油领域文本,并验证其有效性和可行性。 4 中国石油大学( 华东) 硕士学位论文 1 4 论文的组织结构 第一章简要说明了课题的提出及研究意义,列举了国内外研究现状,介绍了本文的 主要研究内容。 。 第二章介绍了基于语义和领域相关的文本聚类挖掘所涉及到的相关技术,分别为: 文本聚类的简单概述及语义问题、文本的特征提取、概念树的相关知识和语义相似度的 简单叙述。 第三章介绍了实现基于语义聚类挖掘所涉及的关键问题,针对传统向量空间模型忽 略语义信息的不足,提出了基于主题的特征提取思想。在主题概念树的基础上,提出了 计算权值的公式,并对主题概念树的语义进行了扩展,最后通过实验验证了方法的可行 性和有效性。 第四章总结了传统向量模型计算语义相似度的不足,并根据相关领域文本的要求对 其进行了改进。在知网的基础上,利用义原相似度,整体概念相似度的计算方法,提出 了基于语义相似度预处理的算法。 第五章在前几章理论分析和研究的基础上,提出了基于语义和领域相关的聚类挖掘 模型框架,并对该框架的功能模块进行了详细说明。最后通过实验验证表明:较之与传 统基于向量空间模型的聚类挖掘系统,基于语义的聚类挖掘系统在挖掘的精度和质量上 都有所提高。 最后对全文工作进行总结,总结了本文的创新点,以及所做工作的不足和下一步需 要改进的地方。 5 第二章相关知识及技术 第二章相关知识及技术 为更好地理解文本聚类的语义挖掘思想,本章对相关知识及相关技术进行详细介 绍,包括:文本聚类中的语义问题、文本特征的提取、知网、概念树以及语义相似度的 相关知识。 2 1 文本聚类中的语义问题 2 1 1 文本聚类概述 文本聚类是根据文本内容自身的特性来组织文本集合,通过特定的处理和相应的算 法将整个集合聚成若干个簇,并使得同一簇内文本内容的相似性尽可能大( a p 内容相 关) ,而不同簇间的文本差别明显( 即内容无关) 。由于事先没有关于这些文本信息的分类 知识,因此,文本聚类是一种无监督的学( u n s u p e r v i s e dl e a r n i n g ) 。 文本聚类是一个复杂的数据处理过程,它与其它聚类方式有着本质不同。文本聚类 是要把文本表示成计算机能够处理的体现文本本质特征的形式,首先进行文本的预处 理,将文本集分词、向量化,得到特征集合,然后进行特征向量的提取,形成文档集的 特征向量,构成相似度矩阵,最后进行文本聚类。图2 1 是文本聚类过程的一般体系结 构: 图2 - 1 文本聚类的体系结构 f i 9 2 1 t h ea r c h i t e c t u r eo ft e x tc l u s t e r i n g 文本与数据库中的结果数据不同,它或者具有有限的结构,或者根本没有结构。空 间向量模型s m ) 是近年来应用最多且效果较好的用于表示文本的方法。在该模型中, 6 中国石油大学( 华东) 硕士学位论文 文本空间被看作是由一组正交词条向量组成的向量空间,每个文档d 表示为其中的一个 范化特征向量v ( d ) = ( f ,w 。( d ) ;f 2 ,( d ) ;一j 。,( d ) ) 。其中为词条项,可以为单词,也 可以为词组;m ( d ) 为t ,在d 中的权值,一般定y - y g 在d 中出现频率或频率的函数。这 样,就可以用文档集矩阵m ( n ,叻表示,其中n 代表文档数,w 代表词数。行代表文档, 列代表文档中出现的词。 文本聚类有多种应用,不同的应用对聚类质量、效率以及结果可视化程度等方面往 往都有特定的要求,因此要根据应用场合和目的选用适合的聚类算法。下面对一些常用 的文本聚类算法【2 q 进行分析和比较。 ( 1 ) 基于划分的方法( p a r t i t i o n - b a s e dc l u s t e r i n g ) 给定要构建的划分数目k ,首先创建一个初始的划分,然后采用一种迭代的重定位 技术,尝试通过对象在划分空间移动来改进划分。 好的标准就是:同组记录越来越近,不同组记录越来越远。 使用这个思想的算法有:k - m e a n s 算法、k m e d o i d 算法、c l a r a n s 算法。 ( 2 ) 层次法( h i e r a r c h y b a s e dc l u s t e r i n g ) 对文档集合进行层次分解,形成一棵以簇为节点的树。如果按自底向上进行层次分 解,则称为凝聚的( a g g l o m e r a t i v e ) 层次聚类;而按自顶向下进行的层次分解,则称为分 裂法( d i v i s i v e ) 层次聚类。 代表算法有:b i r c h 算法( 利用层次方法的平衡迭代归约和聚类) 、c u r e 算法( 利 用代表点聚类) 。 ( 3 ) 基于模型的方法( m o d e l b a s e dc l u s t e r i n g ) 这种方法的基本思想是给每个聚类假设一个模型( 如密度分布函数) ,然后去寻找能 很好地满足这个模型的数据集。 它的潜在的一个假定是:目标数据集是由一系列的概率分布所决定的,通常有两种: 统计的方案和神经网络方案。 代表方法有:b e r n o u l l im o d e l 、v m f 、g a u s s i a n 。 ( 4 ) s o m 神经网络( s e l fo r g a n i z i n gm a p ) 通过对网络进行训练,将文档从高维空间向二维空间进行保序映射。 代表方法有:s o m l i b ,g h s o m ,w e b s o m 。 ( 5 ) 基于蚁群的方法( a n t s - b a s e dc l u s t e r i n g ) 7 第二章相关知识及技术 在二维空间内随机放置文档对象,蚁群根据文档与其领域文档的相似信息,可以拾 起文档并在适当的位置放下文档。 代表方法有c s i ,a c c l ,a n t c l u s t 。 2 1 2 文本聚类的语义问题 语义问题是数据挖掘研究的热点问题,目前研究主要是集中在语义w e b 上。通过 语义分析,可以理解自然语言语句,并进行深入地知识获取和挖掘,从而使计算机能够 与人类无障碍的沟通。例如对于句子:“石油怎么提取”与“石油如何提取 ,虽然它 们的表述形式不同,但在语义上,表达的是同一内容。利用概念词典可以将这两个句子 映射到相同的概念空间,更准确地表达两个句子的意思。目前对于语义分析研究较多的 是潜在语义分析( l s i ) ,是对深层语义分析的一种简化,它只标注与句子谓词有关的语 义角色,如施事、受事、时间和地点等。潜在语义分析的主要思想是统计所有词的上下 文语义,最大限度地度量词语间的语义相似性。它将每个文本视为以词语为维度的空间 中的一个点,一个包含语义的文本出现在空间中,它的分布一般会服从某种语义结构。 同样也可以将每个词语视为以文本为维度的空间中的一个点。其隐含的思想是,通过语 义处理给定词语的上下文,提取决定词语语义的相关性的相互限制1 2 1 1 。 传统上大多数文本聚类方法都是在特征提取的基础上单纯利用词频信息构造相似 度矩阵。在这种模式下,两篇文本相似度较大的一个主要原因是它们之间存在较多的公 共词。因此,即使人们认为应该属于同类的文本可能由于相似度较小而被误判为不同类。 同时,由于语言表达形式的多样性,即使同一概念,往往有不同的表达方式。如“乙醇 和“酒精 表示的是同一个意思,“笑气”和“一氧化二氮”也是相同的概念。这些同 义词或近义词在数据库中是分别地进行记录,因此在进行数据挖掘和处理时它们是相互 独立的,它们这种隐含的关系在文本处理中也是无法体现的,也即传统的文本聚类无法 实现这种内在的语义关联。这使得传统文本聚类既增加了算法的复杂性,又不能正确反 映文本中所隐含的语义信息。在文本预处理中应当考虑这些特有的语义关联信息,进而 改进聚类的效果。 2 2 特征提取 文本特征伫2 1 主要用于描述文本内容的原始特征,分为描述性特征( 如名称、日期、 大小、类型等) 和语义性特征( 如作者、机构、标题、内容等) 。常用的文本特征表示方法 8 中国石油大学( 华东) 硕士学位论文 有;向量空间模型( v s m ) 、布尔模型、概率型等。 特征提取是在一个模式分类的问题中,为了实现模式类内距离最小化和类间距离最 大化而对原始数据信息的提炼。文本的特征提取,就是从原始的文本特征中提取出最具 代表特征的词和短语,最大限度地覆盖内容主题,即寻找具有彻底性和专门性的有效特 征,主要用于排除那些被认为无关或关联性不大的特征。特征项提取一般分为两种,一 是对一般特征项的提取,主要是分析一些出现频率较高的名词;二是对名字、日期、数 字等专有项的提取。其中专有特征项的提取有名字识别算法、日期识别算法、数字识别 算法和术语识别算法等。 特征提取的方法一般分为两类:结构特征和统计特征。结构特征是对字符进行分析 得到,能更好地区分局部特征。统计特征是利用一些统计方法得到,包括点密度的估计 和特征区分等。结构特征对细节的变化较敏感,可以较好地分辨出结构上细微的差别, 但是对噪声比较敏感。统计特征不能较好地分辨出结构上细微的差别,因为它关注的是 整体的特征,但是它对噪声不敏感,即抗噪能力强。因此,在实际的应用中,二者同时 使用,实现互补。 特征选择就是从一组特征中挑选出一些有效的特征以达到降低特征空间维数的目 的。特征选择可以从两个方面提高系统性能:一是分类速度,通过特征选择,可以大大 减少特征集合中的特征数,降低文本向量的维数,简化计算,防止过度拟合,提高系统 的运行速度;二是准确率,通过适当的特征选择,不但不会降低系统准确性,反而会使 系统精度提高。 在文本处理中,一些常用特征提取评估函数有:文档频数( d o c u m e n tf r e q u e n c y ) 、 信息增益( i n f o r m a t i o no a i n ) i g 、互信息( m u t u a li n f o r m a t i o n ) m i 、文本证据权( w e i g h to f e v i d t e x t ) 、z 2 统计法( c h i ) 、期望交叉信息熵( e x p e c t e dc r o s s 脚y ) 等【2 3 1 。 ( 1 ) 文档频数( d f ) 它是最简单的评估函数,值为训练集合中该单词发生的文本数。d f 评估函数的理论 假设是稀有单词可能不包含有用信息,也可能太少而不足以对分类产生影响,也可能是 噪音,因此可以删去。显然它在计算量上比其他评估函数小很多,但是实践运用中它的 效果却很好。d f 的缺点是稀有单词可能在某一类文本中并不稀有,也可能包含着重要的 判断信息,错误的舍弃可能影响分类器的精度。因此,在实际运用中一般并不直接使用 d f 。 9 第二章相关知识及技术 ( 2 ) 信息增益( i g ) 信息增益表示文档中包含某一特征值时文档类的平均信息量。它定义为某一特征在 文档中出现前后的信息熵之差。假定c 为文档类变量,c 为文档类的集合,d 为文档,伪 特征。对于特征f ,其信息增量记为i g ( f ) ,计算公式如下: i g ( 力= 日( c ) 一h ( ci 厂) = 一p ( c ) l o g ( p ( c ) ) + p ( ) p ( cl 厂) l o g ( p ( ci 力) + p ( 万p ( c i7 ) l o g ( p ( ci 乃) ( 2 - 1 ) = ( p ( c ,) 。g 二专兰;舄) + p ( c ,7 l 。g 二器譬 ( 3 ) 互信息( m i ) 互信息是信息论中作为衡量两个信号之间的相互依赖程度,后来引申为描述两个随 机变量间关联程度的度量,可表示成两个随机变量概率的函数。设,o ,y ) 为随机变量x 和y 的互信息,则,( 墨少) - 1 。g 羞舅爱马,式中:尸( x ) 和尸( j ,) 分别表示x 和y 独立出现的 概率,p ( x ,) ,) 表示x 和y 同现的概率。当i ( x ,y ) 0 ,表明x 和y 的关联程度强;当 ,y ) o ,表明z 和y 的关联程度弱,它们的同现仅属偶然;当i ( x ,少) o ,表明x 和y 互补 分布,不存在关联关系。 ( 4 ) z 2 统计法( c h d 与互信息相同,z 2 统计也用于表示两个变量的相关性。对于类别c 和特征f ,其z 2 估 计的计算公式如下: 托力= 逝焉糍铲 ( 5 ) 期望交叉信息熵 对于特征f ,其交叉熵记为c e ( f ) ,其计算公式如下: c e ( f ) 2 萎础拙惑蒿舄 ( 2 - 3 ) 2 3 概念树及主题概念树 概念树 2 4 1 是按归类方式对数据库中记录的属性字段进行抽象建立起来的层次结构。 l o 中国石油大学( 华东) 硕士学位论文 数据库中许多属性都可以进行数据归类形成概念汇聚点。在这棵树上,越往上越抽象, 越往下越具体。上层概念是下层概念的概括,而下层概念是上层概念的细化,较低层的 概念可以继承较高层概念的特性。在概念树中,最一般的概念是没有具体特性的概念; 最特殊的概念为叶节点,它对应数据库中具体的属性值;处于概念树层次结构中间的概 念是对该属性值归纳过程中产生的更宏观的概念。概念树通常用一个偏序集合( h , ) 来表示。其中h 代表概念的有限集合, 代表在h 中的偏序。例如:“无铅汽油 汽 油 ,h 是f 中元素的数目。利用定 义的哈希函数,建立特征词f 和对象o 的映射,仃:f 专o ,f 为特征集向量,o 为对 象集向量。 例如,由哈希函数h ( f o = ( f 1 i d ) m o d 5 = 1 0 0m o d5 = 0 ,得h ( f 0 = o l 。i d ,即特征“有 机溶剂和“汽油 建立了相应的映射关系。其他词同样处理。 用数据字典表示的映射关系结果如表3 3 所示: 表3 - 3 映射关系表 t a b l e 3 - 3t h et a b l eo fm a p p i n gr e l a t i o n s f e a t u r e o b j e c t 有机溶剂 汽油 燃烧特性煤油 润滑作用润滑脂 亲水性强 汽油 聚合添加剂 助燃汽油 十六烷值柴油 抗腐蚀添加剂 轻柴油柴油 传热性能煤油 ( 3 ) 扩展主题概念树: 特征和对象建立起映射关系后,将特征作为新的节点添加到主题概念树上相应的对 象节点上,即扩展了原先建立的主题概念树。此时,当文本遇到某石油产品的特征属性 时,会在更新的主题概念树的基础上计算其权重。这样用户在特定领域聚类时,就会选 择出较好地表达特定领域的主题特征词,在一定程度上解决了聚类预处理的语义问题。 部分石油产品主题概念树的语义扩展结果如图3 4 所示: 第三章基于主题的特征提取 图3 _ 4 更新的部分主题概念树 f i 9 3 4p a r to fn e wt h e m eo fc o n c e p th i e r a r c h y 它的实现过程如图3 5 所示: o b j e c t 建立彤 1 f e a t u r e 添加箱 f 主题概念树 主题概念树 图3 - 5 语义扩展的实现过程 f i 9 3 5 t h ep r o c e s so fs e m a n t i ce x p a n s i o n 3 2 2 可行性实验验证 在实验中,我们从1 0 0 篇石油领域文章中选取了五个类别的文章,计算每个类的特 征向量,然后利用夹角余弦进行相似度的计算,采用k m e a n s 算法对文本进行聚类, 最后计算它们的准确率。在对文本的特征描述上采用v s m 方法,权值计算分别采用本 文提出的权重计算方法和t f i d f 公式。把采用h a s h 技术扩展语义的方法和基于未扩 展主题概念树的方法,以及基于t f i d f 的方法进行比较,结果如表3 4 所示: 2 4 中国i 油大学( 华东) 硕士学位论文 表3 一准确率比较 t a b l e 3 - 4 a c c n r a c y r a t e c o m l p a r i s o n 方法类别汽油柴油煤油 润滑脂添加剂 t 卜i d f 方式 5 79 “5 32 8 3 36 0 4 88 7 5 68 6 未扩展概念树5 98 1 5 58 5 3 52 5 5 03 0 5 84 6 h a s h 技术引入后 6 32 6 5 61 2 3 6 9 8 5 25 7 6 1 5 删 由咀上实验结果知,采用h a s h 技术对主题概念树进行语义扩展后,得到的平均 准确率比t f i d f 方式大约高出4 个百分点,比未扩展的主题概念树方式大约高出2 个 百分点。实验证明,采用h a s h 技术扩展语义后比单纯的基于主题概念树的方法和传 统的 i f i d f 方法更加准确,提高了聚类的精度。 田3 石准确翠折线圈 f i 审- 6 t h e c u r v e o f a c c u r a c y r a t e c o m p a r i s o n 3 3 本章小结 主题概念树能把分散的相关概念组织起来,形成一定的层次关系,特别是在语义层 次的关联规则挖掘中得到广泛的应用。本章引入主题概念树进行特定领域的特征提取, 并利用哈希技术对主题概念树进行语义扩展,解决了在石油领域中传统聚类挖掘缺乏语 义信息的问题。此外,本章还提出了特征词的权重计算方法,通过计算权重选取了特征 词,解决了高频词和低频词的问题,从而在特定领域上使基于语义的聚类挖掘成为可能。 第四章基于h o w n c t 的语义相似度计算 第四章基于h o w n e t 的语义相似度计算 在文本聚类中,除了对文本进行表示外,还必须对文本进行相似度度量。相似度度 量是影响聚类效果的一个重要方面。 本文在分析传统文本相似度计算方法的基础上,结合研究的具体问题,采用了基于 知网h o w n c t 的语义相似度计算。 4 1 基于v s m 的文本相似度计算 传统的文本相似度计算方法是基于v s m 的方法。它是一种基于统计的文本相似度 计算方法,使用词频信息来进行文本相似度的计算。它的优点是速度快,效率高。两个 文本d 1 和d 2 之间的相似度用s i m ( d i ,0 5 ) 来度量。当文本被表示为向量空间模型时,可 借助于向量之间的某种距离来表示文本间的相似度,有两种最常用的方法对相似度进行 计算: ( 1 ) 最常用的距离度量方法是欧几里德距离( e u c l i d e a nd i s t a n c e ) 4 3 l ,其定义如下: d ( i ,j f ) = ix n x l1 2 + i 工,2 一x _ ,21 2 + + lx 驷一x 彦1 2 ( 4 1 ) 其中,i = ( x ,l x 泓,) 和j f - ( x j lx ,2 ,) 是两个p 维的数据对象。 还有一个常用的距离计算方法是m a n h a t t a n 距离,它的具体计算公式如下: d ( f ,歹) 爿x 订一x j li + 1 而2 一x 2i + + ix 驴一x 彦i ( 4 2 ) ( 2 ) 另一种常用的方法是用向量之间的内积m 进行计算: s i m ( d 1 ,0 5 ) = w l 量宰w 2 i k = l ( 4 - 3 ) 或者用夹角的余弦值来表示: 占 乙i i s i m ( d 1 ,d 2 ) = c o s 0 = 1 叁l - 一 ( 4 4 ) 以木2 ik = li = l v s m 模型是基于关键词特征的相似度计算,利用两个向量夹角的余弦值作为相似 度。文本内容被形式化为多维空间中的一个点,通过向量的形式给出,把对文本内容的 处理简化为向量空间中的向量运算,使问题的复杂性大为降低,实现简单,效率高。 v s m 模型虽然带来了计算和操作上的方便,但它有很大的局限性,主要表现为以 中国石油大学( 华东) 硕士学位论文 下两个方面: ( 1 ) 词语同义性不同的词语表达一个相同的概念。比如,“食盐 和“氯化钠”, 这两个词的外在表现形式不一样,但所表达的概念是一致的,它们应该存在很强的语义 相关性,而基于v s m 的方法却将其作为完全不同的词来看待,即仅仅通过表面的词语 匹配,它们相互之间的词形关联度是o 。因此,增大了向量空间的维数,降低了向量之 间的相似度计算。 ( 2 ) 词语多义性一个词语代表多个概念,并且每个概念可能分属不同的类别。 另外,基于v s m 的方法是用文档中词的集合来代替文档,必然会损失大量的文本 结构信息,因此不能反映概念。而且它把词语看成了独立的元素,词语之间没有联系, 即没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论