版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文本聚类的开题报告文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理, 是一种处理文本信息的重要手段。基于 KMean文本聚类的研究摘要文本聚类能够把相似性大的文本聚到同一类中。 K-Means 常用来聚类文本, 但是由于聚类中心的选取对聚类结果有影响, 导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本, 通过实验,验证算法的有效性。中国论文网 s:/.xzbu./9/view-6244858.htm 关键词文本聚类 ;k-means; 相似性 ; 度量准则: TP391:B: 1671-489X(xx)18-0050-03 Research
2、forTextClusteringbasedonK-Mean/ZHANGYue ,LIBaoqing ,HULingfang,MENGLiAbstractTextclusteringcanmakethetextsimilaritylargeclusteredintothesameclass,K-Meansusuallyisusedintextclustering,becauseofimpactingontheclustercenter,whichresultsintheclusteringinstability.Therefore,thispaperusesatextanalysisofimp
3、rovedalgorithmbasedontheclusteringcenter,throughtheexperiment,itverifiestheeffectivenessoftheimprovedalgorithm.Keywordstextclustering;k-means;similarity;measurecriterion文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大的相似性, 不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学习等技术,能够自动地对不同文本进行分类。在文本聚
4、类分析中,文本特征表示一般采用向量空间模型1 ,这种模型能更好表现文本。在对文本聚类的研究中,Steinbach 等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度2-3 ,得出结论:采用 K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中根据研究者对K-Means的发现,结合实际研究,采用一种基于K-Means的改进算法来聚类。 Dhillod等人对文本聚类进行研究发现,采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多4 。1 文本聚类文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格
5、的方法5 。在这些聚类方法中,基于划分的K-Mean是最常用也是很多改进方法的基础,文章中采取的改进方法也是基于K-Mean的。K-Mean首先由 MacQueent6 提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以 K-Mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。K-Mean以 k 为初始聚类数,然后把n 个文本分到 k 个聚类中,这样类内的文本具有较高的相似度,不同类间的相似度较小。K-Mean具体的算法过程如下:1)首先给定 n 个数据文本,从其中
6、任选文本初始地代表了k 个类的数据中心 ;k 个文本,这k 个数据2) 对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中 ;3) 重新计算已经得到的各个类的中心,通常计算中心的准则函数采用平方误差准则, 这个准则能够使生成的结果类尽可能地独立和紧凑 ;4) 迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。具体的算法流程如图 1 所示。2 改进的聚类算法虽然使用 K-Mean算法进行文本聚类时, 具有计算复杂度低, 计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强的优点,但是实验发现, 不仅初始聚类中心的选取对聚类结果有影响,孤立点的存在
7、对文本的相似性的判断也有很大的影响,这就导致聚类判断不稳定。基于此, 文章采用一种改进的方法来进行文本聚类,改进关键点在于聚类中心的计算, 用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。改进的 K-Means算法描述如下所示:1)首先给定 n 个数据文本,从其中任选k 个文本,这 k 个数据文本初始地代表了k 个类的数据中心 ;2) 对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中,记作 means;3) 选择类中与类中心大于等于 (1+a)*means 的文本集合 D1,D2,.,Dk ,其中 a-0.31 ,0.31 ,重新计算新文本集中的类中心 ;4) 迭代执行
8、第 2 步和第 3 步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。3 相似度计算文本聚类中涉及文本的相似性计算,只有相似性大的文本才能聚到同一类中,因此,相似性的度量对文本的聚类很关键。在文本聚类中,相似度度量方式一般有曼哈顿距离、Cosine 距离、欧式距离,其中 Cosine 距离更能体现文本的相似性。 本文主要采用 Cosine 距离,当两个文本之间的文本相似度越大,它们之间的相关性越强。 文本集用向量空间模型表示后,文本的相似度采用向量之间距离表示:(1) 4评价标准文本聚类的有效性需要进行验证,文章中主要采用F 度量、平均纯度来对聚类结果进行评价。1)F度量。 F 度
9、量把召回率和评价标准准确率结合在一起。准确率: P(i ,r)=nir/nr(2)召回率: R(i ,r)=nir/ni(3)其中 nir 是类别 r 中包含类别 i 中的文本的个数, nr 是类别 r 中实际文本的数目, ni 是原本类别 i 中应有的文本数, F 值的计算公式:(4)由公式 (4) 最后得到评价函数为:(5)其中 n 为文本的总数。从公式看出F 值越高,聚类效果越好。2) 平均纯度。除了用 F 度量来评价聚类,文章中还使用平均纯度来度量文本聚类质量好坏 7 。设类 ci 的大小为 ni ,则该类的纯度为:(6)其中 nj 表示类 ci 与第 j 类的交集大小,则平均纯度公式
10、为:(7)其中 k 为最终的聚类数目。一般说来纯度越高聚类效果越好。5 聚类实验结果分析文章中采用的实验数据主要是搜狗语料库。搜狗语料库主要包括 10 种文本类别:军事、招聘、 IT 、文化、健康、汽车、体育、旅游、财经、教育。搜狗语料库包含了每一类的文件夹,在文件夹中都是 txt 文本。为了验证改进后的算法比原算法更有效, 进行了多次实验,最终选取了其中一次实验结果为例子, 对两种算法的 F 度量和纯度进行比较,分别如表 1 和表 2 所示。从表 1 可以看出,改进聚类中心的 K-Means算法在纯度方面相对有一些提高 ; 从表 2 可以看到 F 值提高明显 ; 从两个表中的实验结果可以看到
11、改进的算法是有效的。6 结论基于文本的聚类分析能够对大量的文本进行聚类,分析中采用的聚类算法的改进能在很大程度上提高聚类的准确性。 实验证明达到设计的效果,同时也为后期的各种数据挖掘工作打下基础。参考文献1SaltonG,WongA,YangCS.AvectorspacemodelforautomaticindexingJ.Comm.ACM,1975,18(11) :613-620.2SteinbachM,KaryPisG,KumarV.AparisonofdocumentclusteringtechniquesC.ProceedingsofKDD2000WorkshoponTextMinin
12、g.2000:1-20.3YingZhao,KaryPisG.HierarchicalClusteringAlgorithmsforDocumentDatasetsJ.ProceedingsofDataMiningandKnowledgeDiscovery,xx,10(2) :141-168.4DhillonIS,ModhaDS.ConceptdepositionsforlargesparsetextdatausingclusteringJ.MachineLearning,xx,42(1):143-175.5 邵峰晶,于忠清 . 数据挖掘原理与算法 M. 北京:中国水利水电出版社, xx.6MacQueenJ.Somemethodsforclassificationandanalysisofmultivariateobs
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 方管隔断施工方案(3篇)
- 景观汉阙设计施工方案(3篇)
- 桥上布线施工方案说明(3篇)
- 水厂拆除安全施工方案(3篇)
- 泡沫砼施工方案路基(3篇)
- 物业发事件应急预案(3篇)
- 电梯地坑基础施工方案(3篇)
- 砼院坪施工方案(3篇)
- 管道交叉施工方案编制(3篇)
- 衣服美甲店活动方案策划(3篇)
- 《黄疸的诊断和治疗》课件
- 《桥梁敷设高压电缆工程技术规范》
- 物联网技术及应用基础(第2版) -电子教案
- 精益管理知识竞赛参考试题库100题(含答案)
- 【MOOC】宇宙简史-南京大学 中国大学慕课MOOC答案
- 人工智能时代财务会计向管理会计转型的路径研究
- 高二下学期数学人教A版(2019)选择性必修第三册7.5正态分布 教学设计
- 浙江宁波市交通建设工程试验检测中心有限公司招聘笔试题库2024
- GB/T 232-2024金属材料弯曲试验方法
- 驻校教官值班制度
- 《牛顿第一定律-惯性》名师课件
评论
0/150
提交评论