文本聚类的开题报告.doc_第1页
文本聚类的开题报告.doc_第2页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

报告范文/开题报告 文本聚类的开题报告 文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。文本聚类开题报告 基于kmean文本聚类的研究摘 要 文本聚类能够把相似性大的文本聚到同一类中。k-means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。中国论文网 xzbu/9/view-6244858.htm关键词 文本聚类;k-means;相似性;度量准则中图分类号:tp391 文献标识码:b*编号:1671-489x(20xx)18-0050-03research for text clustering based on k-mean/zhang yue, li baoqing, hu lingfang, meng liabstract text clustering can make the text similarity large clustered into the same class, k-means usually is used in text clustering, because of impacting on the cluster center, which results in the clustering instability. therefore, this paper uses a text analysis of improved algorithm based on the clustering center, through the experiment, it verifies the effectiveness of the improved algorithm.key words text clustering; k-means; similarity; measure criterion文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大的相似性,不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学习等技术,能够自动地对不同文本进行分类。在文本聚类分析中,文本特征表示一般采用向量空间模型1,这种模型能更好表现文本。在对文本聚类的研究中,steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度2-3,得出结论:采用k-means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在*中根据研究者对k-means的发现,结合实际研究,采用一种基于k-means的改进算法来聚类。dhillod等人对文本聚类进行研究发现,采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多4。1 文本聚类文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法5。在这些聚类方法中,基于划分的k-mean是最常用也是很多改进方法的基础,*中采取的改进方法也是基于k-mean的。k-mean首先由macqueent6提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以k-mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。k-mean以k为初始聚类数,然后把n个文本分到k个聚类中,这样类内的文本具有较高的相似度,不同类间的相似度较小。k-mean具体的算法过程如下:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中;3)重新计算已经得到的各个类的中心,通常计算中心的准则函数采用平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑;4)迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。具体的算法流程如图1所示。2 改进的聚类算法虽然使用k-mean算法进行文本聚类时,具有计算复杂度低,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强的优点,但是实验发现,不仅初始聚类中心的选取对聚类结果有影响,孤立点的存在对文本的相似性的判断也有很大的影响,这就导致聚类判断不稳定。基于此,*采用一种改进的方法来进行文本聚类,改进关键点在于聚类中心的计算,用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。改进的k-means算法描述如下所示:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中,记作means;3)选择类中与类中心大于等于(1+a)*means的文本集合d1,d2,.,dk,其中a-0.31,0.31,重新计算新文本集中的类中心;4)迭代执行第2步和第3步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。3 相似度计算文本聚类中涉及文本的相似性计算,只有相似性大的文本才能聚到同一类中,因此,相似性的度量对文本的聚类很关键。在文本聚类中,相似度度量方式一般有曼哈顿距离、cosine距离、欧式距离,其中cosine距离更能体现文本的相似性。*主要采用cosine距离,当两个文本之间的文本相似度越大,它们之间的相关性越强。文本集用向量空间模型表示后,文本的相似度采用向量之间距离表示:(1) 4 评价标准文本聚类的有效性需要进行验证,*中主要采用f度量、平均纯度来对聚类结果进行评价。1)f度量。f度量把召回率和评价标准准确率结合在一起。准确率:p(i,r)=nir/nr (2)召回率:r(i,r)=nir/ni (3)其中nir是类别r中包含类别i中的文本的个数,nr是类别r中实际文本的数目,ni是原本类别i中应有的文本数,f值的计算公式:(4)由公式(4)最后得到评价函数为:(5)其中n为文本的总数。从公式看出f值越高,聚类效果越好。2)平均纯度。除了用f度量来评价聚类,*中还使用平均纯度来度量文本聚类质量好坏7。设类ci的大小为ni,则该类的纯度为:(6)其中nj表示类ci与第j类的交集大小,则平均纯度公式为:(7)其中k为最终的聚类数目。一般说来纯度越高聚类效果越好。5 聚类实验结果分析*中采用的实验数据主要是搜狗语料库。搜狗语料库主要包括10种文本类别:军事、招聘、it、文化、健康、汽车、体育、旅游、财经、教育。搜狗语料库包含了每一类的文件夹,在文件夹中都是txt文本。为了验证改进后的算法比原算法更有效,进行了多次实验,最终选取了其中一次实验结果为例子,对两种算法的f度量和纯度进行比较,分别如表1和表2所示。从表1可以看出,改进聚类中心的k-means算法在纯度方面相对有一些提高;从表2可以看到f值提高明显;从两个表中的实验结果可以看到改进的算法是有效的。6 结论基于文本的聚类分析能够对大量的文本进行聚类,分析中采用的聚类算法的改进能在很大程度上提高聚类的准确性。实验证明达到设计的效果,同时也为后期的各种数据挖掘工作打下基础。参考文献1salton g, wong a, yang c s. a vector space model for automatic indexingj.comm. acm,1975,18(11):613-620.2steinbach m, karypis g, kumar v. a comparison of document clustering techniquesc.proceedings of kdd 2000 workshop on text mining.2000:1-20.3ying zhao, karypis g. hierarchical clustering algorithms for document datasetsj.proceedings of data mining and knowledge discovery,2005,10(2):141-168.4dhillon i s, modha d s. concept decompositions for large sparse text data using clusteringj.machine learning,2001,42(1):143-175.5邵峰晶,于忠清.数据挖掘原理与算法m.北京:中国水利水电出版社,2003.6macqueen j. some methods for classification and analysisof multivariate observationsc/proceedin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论