文本聚类的开题报告-总结报告模板_第1页
文本聚类的开题报告-总结报告模板_第2页
文本聚类的开题报告-总结报告模板_第3页
文本聚类的开题报告-总结报告模板_第4页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文本聚类的开题报告文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤, 可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。文本聚类开题报告基于 KMean文本聚类的研究摘 要 文本聚类能够把相似性大的文本聚到同一类中。 K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响, 导致聚类不稳定, 因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。中国论文 :s:/9/关键词 文本聚类 ;k-means; 相似性 ; 度量准则中图分类号: TP1 文献标识码: B文章编号: 1671-489X(20XX)18-0050-03Research

2、 for Text Clustering based on K-Means:/ZHANG Yue,LIBaoqing , HU Lingfang , MENG LiAbstract Text clustering can make the text similarity largeclusteredintothe sameclass ,K-Means usuallyis used in textclusteringbecause of impacting on the cluster center, which results in theclustering instability. The

3、refore, this paper uses a text analysis ofimproved algorithm based on the clustering center, through the,experiment , it verifies the effectiveness of the improved algorithm.Key words text clustering; k-means; similarity; measure criterion文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大

4、的相似性,不同类间的文本相似性比较小。 文本聚类是数据挖掘的重要分支, 它应用神经络、机器学习等技术,能够自动地对不同文本进行分类。在文本聚类分析中,文本特征表示一般采用向量空间模型,这种模型能更好表现文本。在对文本聚类的研究中, Steinbach 等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度 2-3 ,得出结论:采用 K-Means算法进行聚类,不仅聚类结果较好, 而且适用于数据量比较大的聚类场合。 在文章中根据研究者对 K-Means的发现,结合实际研究, 采用一种基于 K-Means的改进算法来聚类。 Dhillod 等人对文本聚类进行研究发现,采用余弦夹角作为相似性

5、度量比采用欧氏距离度量的结果好很多。1 文本聚类文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于格的方法。在这些聚类方法中,基于划分的K-Mean是最常用也是很多改进方法的基础,文章中采取的改进方法也是基于K-Mean的。K-Mean 首先由 MacQueent提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以 K-Mean为基础开展进行的, 它的计算复杂度低, 具有与文档数量成线性关系的特性, 计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。 K-Mean以 k 为初始聚类数,然后把 n

6、 个文本分到 k 个聚类中, 这样类内的文本具有较高的相似度, 不同类间的相似度较小。K-Mean 具体的算法过程如下:1) 首先给定 n 个数据文本,从其中任选k 个文本,这 k 个数据文本初始地代表了 k 个类的数据中心 ;2) 对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中 ;3) 重新计算已经得到的各个类的中心, 通常计算中心的准则函数采用平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑;4) 迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。具体的算法流程如图1 所示。2 改进的聚类算法虽然使用 K-Mean算法进行文本聚类

7、时,具有计算复杂度低,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强的优点,但是实验发现,不仅初始聚类中心的选取对聚类结果有影响, 孤立点的存在对文本的相似性的判断也有很大的影响, 这就导致聚类判断不稳定。 基于此,文章采用一种改进的方法来进行文本聚类, 改进关键点在于聚类中心的计算, 用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。改进的 K-Means算法描述如下所示:1) 首先给定 n 个数据文本,从其中任选 k 个文本,这 k 个数据文本初始地代表了 k 个类的数据中心 ;2) 对剩余的每个文本计算其到每个中心的距离, 并把它归到最近的中心类中,记作 means;3)

8、 选择类中与类中心大于等于 (1+a)*means 的文本集合 D1,D2,. ,Dk,其中 a- , ,重新计算新文本集中的类中心 ;4) 迭代执行第 2 步和第 3 步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。3 相似度计算文本聚类中涉及文本的相似性计算, 只有相似性大的文本才能聚到同一类中,因此,相似性的度量对文本的聚类很关键。在文本聚类中,相似度度量方式一般有曼哈顿距离、 Cosine 距离、欧式距离,其中 Cosine 距离更能体现文本的相似性。本文主要采用 Cosine 距离,当两个文本之间的文本相似度越大,它们之间的相关性越强。 文本集用向量空间模型表示后, 文

9、本的相似度采用向量之间距离表示:(1) 4 评价标准文本聚类的有效性需要进行验证,文章中主要采用 F 度量、平均纯度来对聚类结果进行评价。1)F 度量。 F 度量把召回率和评价标准准确率结合在一起。准确率: P(i ,r)=nir/nr (2)召回率: R(i ,r)=nir/ni (3)其中 nir 是类别 r 中包含类别 i 中的文本的个数, nr 是类别 r 中实际文本的数目, ni 是原本类别 i 中应有的文本数, F 值的计算公式:(4)由公式 (4) 最后得到评价函数为:(5)其中 n 为文本的总数。从公式看出F 值越高,聚类效果越好。2) 平均纯度。除了用 F 度量来评价聚类,文

10、章中还使用平均纯度来度量文本聚类质量好坏。设类ci 的大小为 ni ,则该类的纯度为:(6)其中 nj 表示类 ci 与第 j 类的交集大小,则平均纯度公式为:(7)其中 k 为最终的聚类数目。一般说来纯度越高聚类效果越好。5 聚类实验结果分析文章中采用的实验数据主要是搜狗语料库。搜狗语料库主要包括 10 种文本类别:军事、招聘、 IT 、文化、健康、汽车、体育、旅游、财经、教育。搜狗语料库包含了每一类的文件夹, 在文件夹中都是 txt 文本。为了验证改进后的算法比原算法更有效, 进行了多次实验, 最终选取了其中一次实验结果为例子, 对两种算法的 F 度量和纯度进行比较,分别如表 1 和表 2

11、 所示。从表 1 可以看出,改进聚类中心的K-Means算法在纯度方面相对有一些提高 ; 从表 2 可以看到 F值提高明显 ; 从两个表中的实验结果可以看到改进的算法是有效的。6 结论基于文本的聚类分析能够对大量的文本进行聚类, 分析中采用的聚类算法的改进能在很大程度上提高聚类的准确性。 实验证明达到设计的效果, 同时也为后期的各种数据挖掘工作打下基础。参考文献Salton G , Wong A, Yang C S. A vector space model for automatic indexingJ.Comm. ACM ,1975,18(11) : 613-620.SteinbachM,

12、 KaryPisG, Kumar V. A parisonof document clusteringtechniquesC.Proceedings of KDD 20XX Workshop on Text: 1-20.Ying Zhao , KaryPis G. Hierarchical Clustering Algorithms forDocument DatasetsJ.Proceedingsof Data Mining and Knowledge Discovery ,20XX,10(2):141-168.Dhillon I S, Modha D S. Conceptdepositio

13、ns forlarge sparse textdata using clusteringJ.Machine Learning, 20XX,42(1) :143-175.邵峰晶,于忠清 . 数据挖掘原理与算法 M. 北京:中国水利水电出版社,20XX.MacQueen J. Some methods for classification and analysisof multivariate observationsCs:/Proceedings of 5th BerkeleySymposium on Mathematics. Statistics and:281-296.HammoudaK,K

14、amel M. Collaborative document clu-steringCs:/20XX SIAM Conference on Data Mining (SDM06).20XX:453-463.下列温度最接近23的是人体的正常体温北方冬季的平均气温让 人感觉温暖、舒适的房间温度冰水 混合物的温度当温度发生变化时,物质的状态通常会发生变化。下列现象中物态变化判断正确的是初秋的早晨,草 叶上出现的晶莹剔透的露珠属于固态变为液态现象 晒在太阳下的湿衣服变干是气态变为液态现象擦 在皮肤上的酒精很快变干是液态变为气态现象初冬 树上的霜是液态变为固态现象下面是的适宜水温是60 第一节物态变化与

15、温度在一个标准大气压下盐 水的凝固点是0 下面分别表示几位同学在练习 用温度计测液体的温 度实验中的做法,正确的是)8 如图所示的温度计,关于它的说法正确的是该温度计是根据固体热胀冷缩的原理制成的在使用该温度计测量物体温度时,可以离开被测物体读数该温度计的量程是 20100该温度计此时的示数约为219. 如图所示是实是_液态的 是 _是_。 均填)12 气、1420_5_2 _,_7 _是 _1.25。131010101014.18490 水蒸气、二氧化碳、 干冰按物质的状态进行分类:属于气态的;属于;属于固态的序号象学里的平均气温是一日当中的时、时时、时这四个时刻气温的平均值,若某地某日这四

16、个时刻的气温如图所示,则此地的最高气温是,最低气温是一天的温差为,平 均气温在寒 冷的冬天,河面上结了一层是否异常毛细血管的温度等许多方面。根据以上信息,你认为下列推测错误的是)A 碳纳米 管的体积在18 490之间随温度变化很小,可忽略不计金属镓的熔点很低,沸点 很高金属 镓的体积在18490之间随温度变化很小,可忽略不计金属镓的体积在 18490 之间随温度变化比较均匀15 如图所示,甲是体温计,乙是实验室用温度计,它们都是利用液体_热胀冷缩_的性质制成的 。可用来测沸水温度的是_乙_;会_(选填会或不会”受到大气 压的影响17有一只刻度均 匀,但实际测 量不准确的温度计,把它放在冰水混合

17、物中,示数是 4; 把它放在标准大气压下的沸水中 ,示数是94。 把它放在某种液体中时,示数是22 ,则该液体的实际温度是_20_,当把该 温度计放入实际温度为40 的温水中时,温度计的示数为_40_ 。第四节地球上的水循水是生命的乳汁、经济的命脉,是自然界奉献给人类的宝贵资源 。下列关于地这是因为衣服上的冰升华成水蒸气了 _。有下列物态变化: 洒在地上的水慢慢变干的过程;放入衣箱中的樟脑球变小的过程; 冬天室内的水蒸气在玻璃窗上形成“冰花”的过程;出炉的钢水变成钢锭的过程。其中 属于凝华的是_,属于吸热过程的是 _填写序号。5. 有一天,雨、露、冰、雪四姐妹在一起争论自己的出生由来,谁也不认

18、同谁。下列她们的说法中,你认为正确的是)A雨说:我是水汽化而来露 说:我成是凝华现象,放出热量 8.以下常见的物态变化实例中,放热的是春天 ,冰雪消融夏天,积水干涸秋天,草木上出现了霜冬 天,冰冻的衣服变干9. 下列有关物态变化的判断,正确的是擦 在皮肤上的酒精很快变干,是升华现象,需要吸热夏 天会看到冰棒周围冒白气,是汽化现象,需要吸热秋天 的早晨花草上出现小露珠,是液化现象,需要放热 寒冷的冬天室外飘起了雪花 ,是凝固现象,需要放热10关 于自然资源并保护环境。12夏天,从冰箱中取出饮料瓶,可观察到瓶子表面有小水珠,擦干后很快又形成,这个过程中发生的物态变化是_ 液化_;南极地区年平均气温是25,降水量很小,但这里的空气却很湿润,这是由于冰发生了升华现象,升华过程需要_吸热 _选填吸热或放热。13随着科技的发展,过去呼风唤雨的神话已成为现实。人工降雨的原理是用飞机在空中喷你家窗户的玻璃上会形成一层冰花,这是水蒸气_凝华_而成的,这层冰花在你家窗户玻璃的_内 侧_( 选填外侧或内侧。16 某同学在探究物态变化的实验中,在试管中放入少量碘。塞紧盖子放入热水中,观察到试管中固态碘逐渐消失,变为紫色的碘蒸气并充满试管。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论