



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
半监督学习论文:基于标记样本和相似度调整的k均值算法在文本聚类中的应用【中文摘要】在机器学习领域的众多实际应用中,获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来,半监督学习已经成为机器学习领域的一个研究热点。半监督学习同时利用标记样本和无标记样本来指导学习过程,从而获得更好的学习性能。有关半监督学习的研究可大致分为两类,即半监督分类和半监督聚类。半监督聚类也就是无监督学习,就是使用少量的标记样本对无标记样本的聚类过程进行指导。本文对聚类的相关技术和半监督学习进行了研究,介绍了文本数据的预处理、距离公式、聚类算法评估准则以及几种k-means算法的扩展算法。本文用随机选择的标记样本作为监督信息,并将标记样本转化为Must-link约束集和Cannot-link约束集,用于重构样本集合的相似度矩阵,重新确定样本之间的相似或不相似的标准。k-means+算法提供了一种有效的聚类种子的选择方法,这种方法的可以降低算法对聚类种子敏感的缺点,其聚类精度明显优于传统的随机选择种子的方法。本文在k-means+算法在初始质心的选择过程中加入了标记样本的影响,提出了一种基于标记样本和相似度调整的k-means算法,并在20-newsgroup和Spam两个数据集上进行了测试,实验结果表明本文提出的算法在聚类结果的精度和执行效率上比Seeded k-means算法和k-means+算法有更好的表现。【英文摘要】In many applications field of machine learning, the availability of data tags is usually requires more costly. In some cases, it is very difficult to access to all kinds of the class tags. In recent years, semi-supervised learning has become a research focus in the machine learning field, Semi-supervised learning taking advantage of labeled samples and unlabeled samples to guide the learning process, leading to better learning performance. Research on semi-supervised learning can be divided into two categories, namely semi-supervised classification and semi-supervised clustering. Semi-supervised clustering is to use a small amount of labeled samples and unlabeled samples to guide the clustering process. We studied the clustering of related technology and semi-supervised, introduced the text data preprocessing, distance metrics, the assessment of clustering algorithm and the k-means clustering algorithm based on the constraints.The supervised information is labeled samples selected from collection randomly, these labels are transferred into the Must-link constraint set and the Cannot-link constraints set for the reconstruction of the similarity matrix of the collection, sample re-established the standards of similar or dissimilar among samples. k-means+ algorithm provides an effective method of seeding of clustering, this approach can reduce the sensitive to initial seeds, the clustering accuracy is better than the traditional method of randomly seeding. This paper added the labels impact of the careful seeding process of k-means+ algorithm and proposed a novel k-means algorithm based on the labeled samples and adjusting similarity (LSKM). The experiments on the 20-newsgroup corpus and the Spam email collection show that LSKM consistently outperforms the Seeded k-means and k-means+on both accuracy and efficiency.【关键词】半监督学习 半监督聚类 文本聚类 k-means算法【备注】索购全文在线加好友:.3.8848 同时提供论文写作一对一指导和论文发表委托服务【英文关键词】Semi-supervised Learning Semi-supervised Clustering Text Clustering k-means algorithm【目录】基于标记样本和相似度调整的k均值算法在文本聚类中的应用摘要4-5Abstract5第一章 绪论7-111.1 研究背景于意义7-91.2 研究现状9-101.3 组织结构10-11第二章 相关工作11-192.1 文本处理11-142.1.1 文本表示与权值11-132.1.2 特征选择13-142.2 聚类14-162.3 距离公式16-172.4 聚类算法评估17-182.5 半监督聚类18-19第三章 基于标记样例和相似度调整的k-means 算法19-253.1 相关算法介绍19-223.1.1 COP k-means 算法203.1.2 Seeded k-means 算法20-213.1.3 k-means+算法21-223.2 基于标记样例和相似度调整的k-means 算法22-253.2.1 相似度调整22-233.2.2 选择聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T-CIATCM 030.5-2019 中医临床护理信息基本数据集 第5部分:急诊护理记录
- (正式版)DB2312∕T 088-2023 《禽用油乳剂灭活疫苗细菌内毒素含量检验技术操作规程》
- 淘宝股市课件
- 氯碱工艺培训课件
- 氯气课件总结
- 疫情知识培训资料课件
- 氢能源知识培训内容课件
- S-Methyl-2-6-hydroxy-2-3-dihydrobenzofuran-3-yl-acetate-生命科学试剂-MCE
- Secretin-canine-TFA-生命科学试剂-MCE
- 氢气基础知识培训课件
- 电商企业客服流失的问题及解决对策研究
- 血常规及凝血功能解读
- 2025-2026学年人教版(2024)初中生物八年级上册(全册)教学设计(附目录)
- 2025年华为自动化控制试题
- (2025年)江苏省南通市辅警协警笔试笔试模拟考试试题含答案
- 学堂在线 生活英语听说 章节测试答案
- 抗菌药物合理应用培训
- 2024年陕西延长石油招聘真题
- 动态关系网络分析-洞察及研究
- 26.《方帽子店》课件
- 粮食加工企业管理制度
评论
0/150
提交评论