（计算机应用技术专业论文）基于语义相似度的论文文本聚类算法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：59 大小：2.76MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（计算机应用技术专业论文）基于语义相似度的论文文本聚类算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大连理工大学硕士学位论文摘要面对网络上日益增多的论文，如何快速有效地检索出符合使用者需要的论文成为论文检索所要面临的一个难题。目前常用的方法是基于关键词匹配的方法，该方法查询速度快，但是没有解决同义词、多义词及词语概念上下位等问题，检索效果不尽如人意。如果利用文本聚类技术，对检索结果进行进一步的处理，把检索结果集合按照其相关主题进行划分，生成不同主题的簇，同时删除冗余的项，为用户提供一个清晰的导航。这将大大的有利于用户发现自己所需的相关论文，提高论文检索的质量。本文改进了一种基于语义相似度的文本聚类算法( t c u s s 算法) 并将其应用于论文文本聚类。改进后的算法提出了一种适合论文文本的特征选择方法和聚簇描述方法，文本数学表示方法和聚类算法通过对t c u s s 算法针对论文文本进行一定改进得到。在特征选择和聚簇描述中，算法利用论文关键词能较好的表达文章主题这一特点，结合w o r d n e t 语义词典，围绕关键词所表达的概念进行特征提取，还利用用词典中的同义词集和计算特征词间的语义相似度分别解决了同义词与多义词问题；在论文文本数学表示方面，本文采用概念列表表示文本；在词语相似度计算中，用关键词所在概念节点代替关键词，计算概念节点在w o r d n e t 中的语义距离，根据语义距离计算词语相似度；文本相似度通过计算特征词间的相似度获得；采用了一种基于语义相似度的文本聚类算法，该算法结合了图的理论进行聚类分析，避免了算法对聚簇形状的限制；用特征词在整个聚簇中出现的词频和其在w o r d n e t 中包含的信息量来衡量特征词权重，选取部分权重大的特征词进行聚簇描述。最后为了检验算法的有效性，设计了一个基于语义相似度的论文文本聚类系统，并通过自建论文文本数据集上与t c u s s 算法和k m e a n s 算法的对比实验证明，该算法对于论文文本聚类具有较高的分类正确率，具备一定的实用性。关键词：文本聚类；语义相似度；概念列表；论文检索大连理工大学硕士学位论文 r e s e a r c ho nt h e s i st e x tc l u s t e r i n gb a s e do ns e m a n t i cs i m i l a r i t y a b s t r a c t f a c ew i t ht h eg r o w i n gn u m b e ro ft h e s e so nn e t w o r k s ，h o wt oq u i c k l ya n de f f i c i e n t l y r e t r i e v et h et h e s e st h a tu s e r sn e e di sad i f f i c u l tp r o b l e mf o rt h e s i sr e t r i e v a l a tp r e s e n tt h e c o m m o n l yu s e dm e t h o di sb a s e do nt h ek e y w o r d sm a t c h , t h i sm e t h o di n q u i r ys p e e di sq u i c l b u th a sn o ts o l v e dt h ep r o b l e mw h i c hb e g o tb ys y n o n y m ，p o l y s e m ya n dc o n c e p tu p p e ro rl o w e r p o s i t i o n , s ot h er e t r i e v a le f f e c ti sn o te n t i r e l ya sd e s i r e d i fu s i n gt h et e x tc l u s t e rt of u r t h e r p r o c e s s i n gt h er e t r i e v a lr e s u l t ，d i v i s i o nt h er e t r i e v a lr e s u l ta c c o r d i n gt oi t sr e l a t e ds u b j e c t ， p r o d u c e st h ed i f f e r e n tc l u s t e ra c c o r d i n gt os u b j e c t ，d e l e t et h er e d u n d a n ti t e m s ，p r o v i d e sac l e a r g u i d a n c ef o rt h eu s e r , i tw i l lb eg r e a t l yb e n e f i c i a lt ot h eu s e r st of i n dt h er e l e v a n tt h e s i s st h e y n e e d ，s oi tc a ni m p r o v et h eq u a l i t yo fr e l r i e v e dt h e s i s i nt h i st h e s i sw ei m p r o v e dat h e s i st e x tc l u s t e ra l g o r i t h m t h a tb a s e do nt h es e m a n t i c s i m i l a r i t y ( t c u s sa l g o r i t h m ) a n da p p l i e di tt oc l u s t e r i n gt h e s i st e x t t h ei m p r o v e da l g o r i t h m u s e st h ef e a t u r es e l e c t i o nm e t h o d sa n dt h em e t h o df o rd e s c r i p t i o no fc l u s t e r o b t a i nt h em e t h o d o ft e x tm a t h e m a t i c se x p r e s s i o na n dt h ec l u s t e ra l g o r i t h mb yi m p r o v i n gt c u s s a l g o r i t h mi n v i e wo ft h et e x to ft h e s i s i nf e a t u r es e l e c t i o n ，b e c a u s et h ek e y w o r d sc a nn o te x p r e s st h et h e m eo ft h et e x ta r t i c l e b e t t e r , s ow eu n i f i e st h ew o r d n e ts e m a n t i c sd i c t i o n a r y , a c c o r d i n gt ot h ec o n c e p tt h a te x p r e s s e d b y k e y w o r d sf i n i s h e dt h ef e a t u r ee x t r a c t i o n u s i n gt h es y n o n y mc o l l e c t i o ni nw o r d n e ta n dt h e c o m p a r i o nw i t ht h es i m i l a r i t yb e t w e e nf e a t u r ew o r d ss o l v e dt h es y n o n y ma n dt h ep o l y s e m a n t q u e s t i o n ；i nt h et h er e p r e s e n t a t i o no ft e x t ，w er e p r e s e n t st e x tw i t hc o n c e p tl i s t i nt e r m so f s i m i l a r i t yc a l c u l a t i o n ，w eu s et h es y n s e tw h i c hi n c l u d et h ek e y w o r d si n s t e a do ft h ek e y - w o r d s ， c a l c u l a t et h es e m a n t i cd i s t a n c eb e t w e e ns y n s e t si nw o r d n e t ，a n dt h e nw ec a nc a l c u l a t e s i m i l a r i t yo fw o r d si na c c o r d a n c ew i t ht h es e m a n t i cd i s t a n c eb e t w e e ns y n s e t s a c c o r d i n gt o c a l c u l a t e ds i m i l a r i t yb e t w e e nf e a t u r ew o r d sw eg e tt e x ts i m i l a r i t y ；t h e nw eu s e dat e x tc l u s t e r a l g o r i t h mt h a tb a s e do nt h es e m a n t i cs i m i l a r i t y , t h ea l g o r i t h mc l u s t e r st e x t sb a s e do ng r a p h a n a l y s i st ob ei n d e p e n d e n tw i t ht h es h a p eo f c l u s t e r s u s et h ef r e q u e n c yo f f e a t u r ew o r d sa p p e a r i nc l u s t e ra n dt h ei n f o r m a t i o nf e a t u r ew o r d sc o n t a i n e di nw o r d n e tt oc a l c u l a t et h ew e i g h to f f e a t u r ew o r d s ，a n ds e l e c tt h er i g h tp a r to ft h ef e a t u r ew o r d st od e s c r i b e f i n a l l yw ed e s i g n e da s y s t e mb a s e do nt h es e m a n t i cs i m i l a r i t yt h e s i st e x tc l u s t e rt oe x a m i n et h ea l g o r i t h mt h ev a l i d i t y , c o n t r a s tt h ee f f e c t st h ea l g o r i t h mi nt h i st h e s i s ，t c u s sa l g o r i t h ma n dk m e a n sa l g o r i t h ma c t o nas e l f - b u i l tv e r s i o no fad a t as e to ft h e s i s ，r e s u l t ss h o wt h i sa l g o r i t h mi m p r o v e dt h et e x t c l u s t e r sc o r r e c t l y , h a sc e r t a i nu s a b i l i t y 基于语义相似度的论文文本聚类算法研究 k e yw o r d s ：t e x tc l u s t e r i n g ；s e m a n t i cs i m i l a r i t y ；c o n c e p tl i s t ；t h e s e sr e t r i e v a l i i i 大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。尽我所知，除文中已经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：蒸蕴堡墨塑型鑫丝i 丝兰簦鳘兰簦堡塑迄作者签名：j 耻乙一日期：耳年土月业日大连理工大学硕士学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定，在校攻读学位期间论文工作的知识产权属于大连理工大学，允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版，可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。学位论文题目：作者签名：导师签名：大连理工大学硕士学位论文 1 绪论 1 1 研究背景和意义在科技飞速进步和教育全面发展的今天，科技论文的数量日益增长而且传播知识的作用越发重要，成为交流和推广知识的一种重要方式。随着计算机的广泛应用和互联网的全球化使得通过网络共享论文资源成为主要的方式，网络技术与搜索引擎的发展已经成了科技工作者方便获取论文资料的重要手段。论文作为一种较为规范的文本数据，有其固定的书写格式和相对稳定的结构，这对聚类中的文本分析有一定的帮助。但面对如今w e b 上数量庞大的论文资料，传统的论文检索大部分都是基于关键词匹配进行检索，由于作为最能体现论文主题的关键词往往受到数量限制，不能完整的体现论文的主题，而且根据作者思考方式和写作习惯，关键词也同样存在使论文外延过大的问题，再加之一词多义以及查询词概念上下位的问题，导致简单的采用关键词匹配使用户往往无法从大量论文资源中快速找到符合要求的论文。如果利用文本聚类技术，对检索结果进行进一步的处理【l 】，把检索结果集合按照其相关主题进行划分，生成不同主题的簇，同时删除冗余的镜像页面，为用户提供一个清晰的导航。这将大大的有利于用户发现自己所需的相关论文，提高论文检索的质量。 1 2 研究现状聚类算法的研究早在2 0 世纪6 0 年代就开始了，但是受当时各方面条件的限制并没有太大的发展，直到2 0 世纪9 0 年代才引起了广泛的关注，并取得非常重大的突破，一大批新的聚类算法被提出，目前仍旧是一个非常热点的问题。但这些算法中大多数不是针对文本数据提出的，只有少部分能应用于文本聚类。大体上，文本聚类算法大致分为划分聚类算法、层次聚类算法、基于密度的聚类算法、基于模型的聚类算法和基于网格的聚类算法、s t c 算法以及其他算法等几大类。目前，应用最多的聚类算法是k m e a l l s 算法、s o m 聚类算法及其改进算法。当然，层次聚类算法和基于密度的聚类方法仍然应用于聚类的各个领域中。 ( 1 ) 划分聚类方法。划分的方法( p a r t i t i o n i n g m e t h o d ) 是根据设定的划分数目k ，通过一定的准则将聚类对象进行划分，使得满足“类内高相似，类间低相似的聚类原则。通常是基于对象之间的距离相近，或者相似度较高来划分。其中最常见划分方法是k m e a n s 算法和k m e d o i d s 算法。这两种方法通过多次的迭代，使得对象在划分过程中不断的在聚簇之间移动调整，以求达到更高的类内相似性。两者的区别在于代表一个聚簇的质心计算方法不同。基于语义相似度的论文文本聚类算法研究 k - m e a n s 算法常常在文本聚类中使用。这类算法虽然运行时间快，但是存在一些缺点如受初始簇中心影响较大，要预先指定聚类数k ，容易受孤立点的影响等。 ( 2 ) 层次聚类方法层次聚类法是对给定数据对象集进行层次的分解。根据层次的分解如何形成，层次法可以分为凝聚的和分裂的。凝聚的方法也称为自底向上的方法，开始将每个对象作为一个单独的组，然后相继地合并相近的对象或组，直到所有的组合并为一个，或者达到一个终止条件。分裂的方法也称为自顶向下的方法，一开始将所有的对象置于一个簇中，在迭代的每一步中，一个簇分裂为更小的簇，直到最终每个对象在单独的一个簇中或者达到一个终止条件。代表性的算法有b i r c h ，c u r e ，c h a m e l e o n 等。 ( 3 ) 基于密度的聚类算法基于密度的方法认为，类别即是向任意方向按相同密度( 对象或者数据点的数口) 扩张的连通区域，只要临近区域的密度超过某个闭值，就继续聚类。因此基于密度的聚类算法可以发现任意形状的类别，同时此算法对噪声有自然的抵制作用。这种算法主要需要考虑数据空间的密度，连通性与边界区。d b s c a n ，o p t i c s 是其中两种有代表性的方法。 ( 4 ) 基于模型的聚类算法基于模型的聚类算法试图优化给定的数据和某些数学模型之间的适应性。这样的方法经常是基于这样的假设：为每一个簇假定了一个模型，然后寻找数据与给定模型的最佳拟合。这类算法主要分为两类：统计学方法和神经网络方法，著名的自组织特征映射 ( s e l f - o r g a n i z i n gf e a t u r em a p ，s o m ) 就是一种利用了人工神经网络技术的聚类方法【2 1 。 ( 5 ) 基于网格的聚类算法基于网格聚类方法是把数据对象空间量化为有限数目的单元，以构成一个网络结构。所有聚类操作都在这个网络结构( 即量化的空间) 上进行。这种方法的主要特点就是处理时间与数据对象数目无关，但与每维空间所划分的单元数目相关，因此基于网格聚类方法的处理时间很短。典型算法有s t l n g ，c l i q u e 等。 ( 6 ) 后缀树( s t c ) 聚类算法后缀树聚类算法：后缀树聚类算法是一种直观的文本聚类算法，它将文本聚类为一组的依据是文本含有共同的短语。实际上是将文本看成词的序列，充分利用了词与词之间的距离信息，在寻找文本共同的短语的过程中使用了后缀树这种数据结构。o r e nz a m i r 首先提出了后缀树聚类算法，并且将这种技术运用到搜索结果的可视化中，取得了很好的效果，具体的算法过程可以参考文献【3 】。搜索引擎c a r r o t 2 中的部分工作也利用了s t c 大连理工大学硕士学位论文算法实现w e b 搜索结果的聚类，并且指出了s t c 算法的若干不足，但没有对聚类结果的质量进行评价 4 】。除了上述常用的聚类分析算法外，在最近的文本聚类研究中，一个比较重要的趋势是，人们希望脱离原先基于语法层次的相似性聚类，得到能够理解文本内容的聚类方法。基于概念的文本聚类，以及最近基于语义、语用层次所做的研究都是这一思想的体现。这种方法能够比较有效地避免基于向量空间模型的算法所带来的常见问题，但是对语义词典或语义网络的依赖度比较大，而且国内还处在研究阶段，没有很成熟的算法。但是随着语义词典和语义网络的不断完善和更新，越来越多的人正在投入到这类聚类方法的研究中。 1 3 存在问题随着网络上科技论文数量的剧增，越来越多的人通过网络检索需要的论文来获取相关知识。目前普遍采用的方法就是关键词匹配的方法，这种方法忽略了文章关键词由于数量有限表现文章主题不完整的问题，而且关键词也存在同义词、多义词以及查询词概念上下位的问题，导致用户往往无法从大量论文资源中快速找到符合要求的论文，造成了检索质量不高。虽然采用文本聚类技术能够有效地提高论文检索的效果，但是目前论文检索中的文本聚类大都采用向量空间模型来进行文本的数学描述。这种方法引发了一个非常严重的问题，那就是高维稀疏问题。因为在通常情况下，即使是一个中等规模的文本数据集也具有几万个单词，这种维度对很多学习算法来说实在是太高了，但是每一个文本通常只包含所有单词中的极小部分单词，这也就是说，一个文本向量在文本空间中绝大部分的维度上都是0 ，这使得文本空间异常稀疏，其稀疏程度通常高达9 5 9 9 t 5 , 6 】。高维稀疏给文本聚类造成了相当大的影响，不仅使得文本聚类具有相当高的时间复杂度，而且会极大降低文本聚类和文本分类的性斛7 8 】。除了高维稀疏之外，文本数据还有近义词和多义词两个特有的语言现象。近义词现象指的是可以用多种不同的方式来描述同一个主题或者内容f 9 】。据f u m a s 等【lo 】的统计发现，两个人在使用相同的词语来表达同一件事物的概率不超过2 0 ，这个数据说明了近义词现象的普遍性。然而近义词的存在极大地降低了信息检索的性能，因为在精确匹配的方式下，使用“篮球”是无法找到“n b a ”、“c b a 等内容的。多义词现象指的是同一个单词具有多重不同的含义】。比如英文单词”c h i n a ”，它既指“中国”，又有“瓷器的意思。多义词最大的损害在于极大降低信息检索的精确度，因为检索“鳄鱼”所返回的结果中可能既包含介绍鳄鱼这种动物的文章，又包含鳄鱼品牌的服装服饰等文基于语义相似度的论文文本聚类算法研究章。近义词现象和多义词现象的存在极大地千扰了文本聚类和文本分类的准确度，使得文本分类和文木聚类变得非常困难【1 2 1 。综上所述，高维稀疏、近义词和多义词三个文本数据所特有的问题不仅使得文本聚类和文本分类具有相当高的时问复杂度，而且极大于扰了聚类和分类学习算法的准确性，使文本分类和文本聚类的性能急剧下降。 1 4 本文主要工作本文提出了一种基于语义相似度的论文文本聚类算法。该算法采用语义相似度作为聚类的依据，避免了采用向量空间模型所带来的高维稀疏问题。同时提出了一种了适合论文文本聚类的特征提取方法和聚簇描述方法，并在特征提取过程中解决了常见的多义词和同义词问题；在文本数学表示、词语相似度计算和文本聚类三个步骤中，本文借鉴了t c u s s 算法【1 3 】，将其做适当调整后应用于论文文本聚类。通过实验对比，本文聚类方法在论文文本数据集上的聚类效果好予t c u s s 算法和k - m e a n s 算法。本文主要工作如下： ( 1 ) 简要叙述了文本聚类的发展概况，并阐述了课题的背景、目的、意义及国内外的研究现状。 ( 2 ) 简要介绍了文本聚类的相关概念，分析了几种常见的文本聚类分析方法及其优缺点。 ( 3 ) 详细阐述了本文所采用的聚类方法中的特征提取的方法和聚簇描述方法，并将本文对t c u s s 算法针对论文文本所做的调整进行了细致的说明。 ( 4 ) 实现了本文的聚类算法，并在自建的论文文本数据集上与t c u s s 算法和 k - m e a n s 算法进行了结果比较，验证了本文方法的有效性和其对论文文本优化的效果。 ( 5 ) 对本论文的主要研究工作给出了一个简要的总结，提出进一步的研究方向。大连理工大学硕士学位论文 2 文本聚类概述 2 1文本聚类定义文本聚类( t e x t c l u s t e r i n g ) 是对一些无结构或半结构化的文本对象进行自动分类的过程。主要包括文本数据的预处理、文本相似度度量、文本聚类算法、结果可视化描述等几方面的工作。与文本分类( t e x t c l a s s i f i c a t i o n ) 不同，文本聚类作为聚类分析技术的一种，并不需要利用己知数据进行训练学习的过程。文本聚类技术在文档的自动整理和组织中应用广泛，典型的有如w e b 页面自动归类，新闻报道自动分类，电子邮件自动分组等。此外，聚类技术在信息检索中也得到应用，例如对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信剧1 4 1 ；而 n e w s b l a s t e r 1 5 】贝0 是一个新闻报道的自动摘要系统，利用聚类技术对每天的重要新闻进行聚类，并生成相应的摘要。 2 2 相关概念介绍 2 2 1文本的特征向量文本的特征向量是通过文档的预处理( 文本分词和文档特征向量的提取) ，将文档用一维向量表示，这个一维向量即文档的特征向且【1 6 1 。其形式如下： ( 特征分量i ，特征分量2 ，特征分量3 ，特征分量n ) 2 2 2 文本间的距离为了定义文本之间的相近或者相似程度，需要定义一些划分类别的计量指标。常用的统计指标有距离和相似系数。“距离属于相异性测度指标，“相似系数”属于相似性测度指标。距离和相似系数成反比，如公式( 2 1 ) 。 s i m ( i ，_ ，) = 1 ( 1 + d ) ( 2 1 ) 对于有n 个特征属性的文档集合来说，m 个文档可以看作n 维空间中的m 个点。为此，可以用点之间的距离来度量文档之间的距离。最常见的距离度量方法是欧几里距剐17 1 ，其定义为公式( 2 2 ) 。 d = ( m 1 一1 ) 2 + ( 2 一2 ) 2 + + ( 一y 加) 2 ( 2 2 ) 其中，第i 篇文档的特征向量和第j 篇文档的特征向量分别用( w ，w f ：) 和 ( w l ，w ，2 w 加) 表示。其中d 表示文档i 和文档j 之间的距离。基于语义相似度的论文文本聚类算法研究 2 2 3 权值表示 ( 1 ) 布尔权重( b o o l e a nw e i g h t i n g ) 布尔权重方法是最简单的特征表示方法，如果特征向量的第i 个分量在本篇文档中出现，则其权重为1 ，否则为0 ，如公式( 2 3 ) 。 r 1 2 ：其中当厶 o 时a k 。1 否则口雎20 。 ( 2 3 ) ( 2 ) 词频权重( w o r df r e q u e n c yw e i g h t i n g ) 词频权重【1 8 】也是种非常简单的特征表示方法，它只是简单地将特征i 在文档k 中出现概率厶作为其特征值，如公式( 2 4 ) 所示。口膳= 厶( 2 4 ) ( 3 ) t f i d f 权重( t f i d fw e i g h t i n g ) 前两种方法并没有计算特征i 在整个训练集合中出现的概率，一个非常有名的特征权重表示方法考虑了这一点，它就是t f i d f 方法，如公式( 2 5 ) 所示。 a 髓= 厶宰l o g ( = ) ( 2 5 ) 2 2 4 文本之间的相似系数对于有n 个特征属性的文档集合来说，m 个文档可以看作n 维空间中的m 个向量。为此，在聚类时可以用相似系数来度量它们之间的相近程度，用s i m ( i ，j ) 表示第i 个向量与第j 个向量之间的相似系数，则有以下性质： v f ，_ ，i s i m ( i ，刮1 即绝对值总不大于1 ； v f ，j fs i m ( i ，j ) = s i m ( j ，i ) 即满足对称性。几种常见的文本间相适度系数： ( 1 ) 余弦系数( c o s i n ec o e f f i c i e n t ) ，如公式( 2 6 ) 。咖( f ，) ：下鱼些竺( 2 6 ) ：。w i k2 ：。2 ( 2 ) 重叠系数( o v e r l a pc o e f f i c i e n t ) ，如公式( 2 7 ) 。删，舻面酉- _ 面, w i k w j k ( 2 7 ) ( 3 ) 雅可比系数( j a c c a r dc o e f f i c i e n t ) ，如公式( 2 8 ) 。大连理工大学硕士学位论文 j 砌( 力2 2 ：；iw a + 2 ：豳= lw k 塑- - e ：= lw l kw k ( 2 - 8 ) 2 2 5 文本类之间的距离设n 和破是两个文档集合，具有n 个特征属性，即n 个索引词。常见的度量两个文本类之间距离有如下几种方法： ( 1 ) 最短距离：定义为两类中最近的两个文档间的距离。如公式( 2 9 ) 所示。 j ( d n ，3 2 ) = 熹：螈d ，) ( 2 9 ) ( 2 ) 最长距离：定义为两类中最不相近的两个文档间的距离。如公式( 2 1 0 ) 所示。墨( d l ，d 2 ) = m a x s ( d l ，d 2 ) i d l d 1 ，d 2 d 2 j ( 2 1 0 ) ( 3 ) 重心距离：定义为两类重心之间的距离。类的重心是指类中所有文档的平均向量。设d g 为d 的重心，即d g2 磊1 己同nd ，；则s ( d l ，d ：) = s ( d 1 g ，d 2 g ) ( 4 ) 类平均距离，如公式( 2 1 1 ) 所示。 j ( d i 圳d 2 去：蝙d 从咖d id ，d 2 ) ( 2 11 ) 2 2 6 数据标准化选用的度量单位将直接影响聚类分析的结果，如果将高度由“米改成“厘米一，重量由“克”改成“千克”，就有可能产生不同的聚类结果；为了避免对度量单位的依赖，数据应当进行标准化，有多种方法，在此介绍三种方法：最4 , 最大规范化，z - - s c o r e 规范化，按小数定标规范化。 ( 1 ) 最小最大规范化：对原始数据进行线型变化，设m i n x 和m i n y 分布为变量x 的最小和最大值。则最d , 最大规范化通过公式( 2 1 2 ) 计算。：粤(maxx,一，)+ewminw n e wn e wm l nn e w m l n ， ( 2 1 2 )= 0 1 j +，i z 1 z j m a x j m l n j 将x 的值w 映射到区间n e w m a x 。，n e w m i n ，】中的。 ( 2 ) z - - s c o r e 规范化：变量x 的值基于x 的平均值和标准差规范化。 x 的值w 被规范化，由式计算：w t ：w - - a 其中，a 和仃分别为x 的平均值和标仃准差。基于语义相似度的论文文本聚类算法研究 ( 3 ) 按小数定标规范化：通过移动x 取值的小数位置进行规范化。小数的移动位置依赖于x 取值的最大数的绝对值。x 的值w 被规范化为w ，由以下公式= 丙w 进行计算，其中j 是使得朋缸( 1w ，i ) l 的最小整数。 l u 。如i - 4 = 9 8 5 ，则j - 3 ，此时= 0 9 8 5 。 2 2 7 文本的表示人在阅读文章后，根据自身的理解能力和已掌握的知识可以对文章内容的产生模糊认识。计算机并不具有人类这样的智能，它并不能轻易地“读懂文章。因此在文本自动分类中遇到的基本问题是如何将文本表示成计算机可以“理解的方式，从而在这个基础上进行分类。文本分类的第一步是转化文档( 通常是字符串) 为满足学习算法或者分类任务输入的表达方式。最常用的文本表示法就是向量空间表示法，这种方法非常简单，但是引发了高维稀疏的问题。因为本文采用语义相似度作为文本间相似度的度量，因此为了避免因使用向量空间模型而带来的高维稀疏问题，本文采用适合基于语义相似度的文本聚类算法的概念列表表示法。为了保证一个文本的概念列表能够很好地反映文本的主题，本文指出了特征词提取部分针对论文文本所做的改进。 2 3 几种常见的文本聚类算法目前存在大量的聚类算法。算法的选择取决于文档集合的类型，聚类的目的和应用。如果聚类分析被用作描述或探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。主要的聚类算法可以分为如下几类：划分的方法【1 9 】，其典型代表算法为k - m e a n s 算法【2 0 之4 】；基于密度的方法【2 5 2 6 ，其典型代表算法为d b s c a n t 2 7 。o 】；基于模型的方法【3 1 1 ，典型代表算法为s o m 神经网络【3 2 。3 7 】；层次方法【3 8 ，3 9 】；基于网格的方法【4 0 4 1 1 。下面简要介绍各类方法，具有代表算法的方法以代表算法为例进行介绍。 2 3 1 划分的方法( k - - m e a n s 算法) ( 1 ) 工作原理首先随机地选取k 个对象，每个对象初始地代表了一个簇的平均值或中心。对象剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值( e l i 重心) 。这个过程不断重复，直到准则函数收敛。 ( 2 ) 算法描述一8 一大连理工大学硕士学位论文任意选择k 个对象作为初始的簇中心； r e p e a t 根据簇中对象的平均值，将每个对象( 重新) 赋给最类似的簇；更新簇的平均值，即计算每个簇中心对象的平均值； u n t i l 不再发生变化。 ( 3 ) 该算法的适用数据类型，以及时空复杂度这个算法尝试找出使平方误差最小的k 个划分。当结果簇是密集的，而且簇与簇之间区别明显时，它的效果较好。对于处理大数据集，该算法是相对高效的，因为它时间复杂度是d ( ，z 幻) ，其中，n 是所有对象的数目，k 是簇的数目，t 是迭代的次数。但是k m e a n s 算法只有在簇的平均值被定义的情况下才能使用。这可能不适用于某些应用，比如设计有分类属性的数据。 ( 4 ) 该算法的优缺点 k - - m e a n s 方法有如下优点：对数值属性有很好的几何和统计意义；对顺序不太敏感；对凸型聚类有较好结果；可平行运行；可在任意范数下进行聚类。 k - - m e a n s 方法有如下缺点：对初始聚类中心选取较敏感，往往得不到全局最优解，而常常得到的是次优解；关于k 值的确定没有可行的依据；缺少可伸缩性；聚类结果有时会失衡。对“噪声和孤立点数据是敏感的，少量的该数据能对平均值产生很大的影响。 2 3 2 基于密度的方法( d b s c a n 算法) ( 1 ) 工作原理只要临近区域的密度( 对象或者数据点的数目) 超过某个阈值，就继续聚类。也就是说：对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据，发现任意形状的簇。 ( 2 ) 算法描述基于语义相似度的论文文本聚类算法研究检查数据库中每个对象的s 邻域，如果一个对象p 的占邻域札( ，) 内包含的对象数目大于等于m i n p t s ，就创建一个包含m 中所有对象的新聚类c 。检查c 中还未处理过的对象q ，如果q 的s 邻域m ( ，) 包含的对象数目大于 m i n p t s ，就把m ( ，) 中未包含在聚类c 的对象加入聚类c 中。对剩下的对象做同样的处理，重复，直到没有新的对象可加入聚类c 。 ( 3 ) 该算法适应的数据类型，以及时间复杂度：该方法可以用来过滤“噪声”孤立点数据，发现任意形状的簇。计算复杂度是o ( n 2 ) 。 ( 4 ) 该算法的优缺点 d b s c a n 存在如下的优点：可以发现任何形状的簇；可以过滤“噪声点。 d b s c a n 存在如下的缺点：随着数据量的增大，需要有很多的内存支持与i 0 开销。由于使用了全局参数e 和m i n p t s ，因此没有考虑数据密度和类别距离大小的不均匀性，d b s c a n 很难得到高质量的聚类结果。 2 3 3 基于模型的方法( s o m 神经网络算法) ( 1 ) 工作原理神经网络方法将每个簇描述为一个标本。标本作为聚类的“原型”不一定对应一个特性的数据实例或对象。根据某些距离量度，距离近的对象可以被分配给标本与最相似的簇。被分配给一个簇的对象的属性可以根据该簇的标本的属性来预测。典型的神经网络方法有自组织特征映射( s e l f - - o r g a n i z i n gf e a t u r e m a p ，s o m ) ，聚类也是通过若干的单元竞争当前对象来进行的。权重向量最接近当前对象的单元成为获胜的或活跃的单元。为了更接近输入对象，对获胜单元及其最近的邻居的权重进行调整。 s o m 假设在输入对象中存在一些拓扑结构或顺序，单元将最终在空间中呈现这种结构。单元的组织形成一个特征映射。s o m 被认为类似于大脑处理过程，对在二维或三维空间中可视化高维数据是有用的。 s o m 神经网络聚类方法与实际的大脑处理有很强的理论联系。由于较长的处理时间和数据的复杂性，需要进一步的研究来使他适用于大型数据库。 ( 2 ) 算法描述初始化网络连接权值( 可取一个较小的随机值) ，设置一个较大的初始邻域。大连理工大学硕十学位论文将一个给定的输入向量加载到网络上。计算输入向量与权值向量的点积，并选择其中的最大者。更新所选中节点及其邻域节点的连接权值。重复步骤，直到满足终止条件。 ( 3 ) 算法的时间复杂度计算复杂度是o ( x y n t ) ；其中x x y 是神经网络的网格点数目，1 1 是输入向量的数目， t 是神经网络的训练次数。 ( 4 ) s o m 聚类算法的优缺点优点：一可以实现实时学习；网络具有自稳定性；无须外界给出评价函数；能够识别向量空间中最有意义的特征；抗噪音能力强。缺点：当训练样本的数目较少时，算法的结果与训练模式输入的次序有关；由于需要训练竞争层，算法时间效率比较差。 2 3 4 层次聚类方法 ( 1 ) 基本思想层次的方法对给定数据对象集合进行层次的分解。根据层次的分解如何形成，层次的方法可以分为凝聚的方法( a g g l o m e r a t i v e ) 和分裂的方法( d i v i s i v e ) 。凝聚的方法也称作自底向上的方法。以开始将每个对象作为单独的一个组，然后相继地合并相似的对象或组，直到所有的组合并成一个( 层次上的最上层) ，或者达到一个终止条件。分裂的方法也称作自顶向下的方法。以开始将所有的对象置于一个簇中。在迭代的每一步中，一个簇被分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者达到一个终止条件。 ( 2 ) 算法描述凝聚聚类的算法：将所有的点各自单独形成一个簇：从现有所有的簇中选择最近( 或者最相似的两个簇) ，进行合并；基于语义相似度的论文文本聚类算法研究如果只剩下一个簇或者达到终止条件( 比如达到需要的簇的数目) ，聚类结束，否则返回。分裂聚类的方法：将所有的点形成一个簇；通过某种策略从现有所有的簇中选择某个簇进行拆分，将该簇拆成2 个簇；如果已经拆成n 个簇( n 为所有文档数目) 或者达到了终止条件则结束。 2 3 5 基于网格的方法基于网格的方法把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构( 即向量化的空间) 上进行。这个方法的主要优点是它的处理速度快，其处理时间独立于数据对象的数目，只与向量化空间中每一维的单元数目有关。 2 4 小结本章主要介绍了文本聚类的定义和一些常用概念，并分析了常见的几种聚类算法的基本思想和优缺点。大连理工大学硕士学位论文 3 基于语义相似度的论文文本聚类本章根据文本聚类的流程对本文提出的聚类方法做了详细的介绍。主要包括文本的预处理、特征词的选择、概念间语义相似度的计算、文本间语义相似度的计算以及采用的聚类算法几个方面。同时为了便于各个阶段的介绍，本章首先详细介绍了w o r d n e t 这个词汇数据库的结构组织方式。然后详细阐述了本文采用的特征词选取方法。对于文本的数学表示，本文改进了t c u s s 算法中的名词概念列表表示法，将概念节点引入到概念列表中，方便了特征词相似度的计算。对于特征词间的相似度计算这里用其所在概念节点间的语义相似度来表示，采用混合法【4 2 】来计算概念相似度。文本间的语义相似度本文通过特征词间的相似度来计算。最后本文采用t c u s s 算法，结合图的理论进行聚类，并提出了一种聚簇描述的方法。 3 1 w o r d n e t ：一个词汇数据库 3 1 1w o r d n e t 简介目前存在很多英文的语义网络，例如k o z i m ah 等人的p a r a d i g m e 语义网络【4 3 1 、 c o l l i nf b 等人的f r a m e n e t 语义网络【删以及m i l l e rg 等人的w o r d n e t 语义网络【4 5 】等。本文采用的w o r d n e t 语义网络。 w o r d n e t 是美国普林斯顿大学的心理学家、语言学家们共同研发的一套用以研究语言学的词汇参考系统。一般的词典都是按字母表顺序组织的，将拼写相似的单词放到一起，但是这样组织却使意义相近的单词分散了。尽管这类词典的在线版本可以减轻用户的查找负担，可是如果仅仅将计算机作为一个快速翻页的工具是非常没有效率的。 w o r d n e t 就是一个将传统词典编纂和现代计算机科学相结合的产物。它的独特之处在于它是依据词义而不是依据词形来组织词汇信息。w o r d n e t 使用同义词集合( s y n s e t ) 代表概念( c o n c e p t ) ，词汇关系在词语之间体现，语义关系在概念之间体现。w o r d n e t 构造的核心是如何表示词汇概念节点，以及在这些概念节点之间建立起各种语义关系。 w o r d n e t 将英语词汇组织为一个同义词集合( s y n s a ) ，每个集合标明一个词汇概念，同时力图在概念间建

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于语义相似度的论文文本聚类算法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于语义相似度的论文文本聚类算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档