半监督学习-半监督聚类_第1页
半监督学习-半监督聚类_第2页
半监督学习-半监督聚类_第3页
半监督学习-半监督聚类_第4页
半监督学习-半监督聚类_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

半监督学习:半监督聚类Semi-supervisedlearning:Semi-supervisedClustering主讲:郭志清计算机与信息技术学院视觉智能实验室(VisInt)BeijingJiaotong

University前言机器学习的目的:h:Y=h(X)(X,Y):训练样本空间Y空集(未知)——无监督学习全部已知——有监督学习只给了一部分——半监督学习三种机器学习有监督学习从已标注数据中学习无监督学习从未标注数据中学习半监督学习从<少量>标注数据和<大量>未标注数据中学习其余两种机器学习有监督——分类训练集,带标注数据训练过程:得一模型(分类器)预测:用得到分类器对新样例分类无监督——聚类相似个体聚集为一类最小化类内的距离最大化类间的距离基本假设要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。1)平滑假设(SmoothnessAssumption)2)聚类假设(ClusterAssumption)3)流形假设(ManifoldAssumption)和聚类假设的主要不同:1)聚类假设主要关注的是整体特性,流形假设主要考虑的是模型的局部特性。2)流型假设对输出值没有限制,因此比聚类假设适用范围更广,可用于更多类型的学习任务。半监督学习细化主动学习:若我们先使用有标记的样本数据集训练出一个学习器,再基于该学习器对未标记的样本进行预测,从中挑选出不确定性高或分类置信度低的样本来咨询专家并进行打标,最后使用扩充后的训练集重新训练学习器,这样便能大幅度降低标记成本,这便是主动学习(activelearning),其目标是使用尽量少的/有价值的咨询来获得更好的性能。半监督学习可进一步划分为纯半监督学习和直推学习,前者假定训练数据中未标记样本并非待预测数据,后者假设学习过程中所考虑未标记样本恰是待预测数据,学习目的是在这些未标记样本上获得最有泛化性能。纯半监督学习基于“开放世界”,希望学得模型能适用于训练过程中未观测到的数据;直推学习基于“封闭世界”假设,仅试图对学习过程中观察到的未标记数据进行预测。分类过程聚类过程半监督学习结合<少量>标注数据和<大量>未标注数据半监督分类在<少量>标注数据上训练开拓<大量>未标注的数据不断迭代,最终得到一个更为精确的分类器利用未标注数据,目标是分类半监督聚类利用<少量>标注数据来帮助在未标注数据上的聚类利用标注数据作为约束,目标是聚类为什么要利用未标注数据大规模的标注数据代价昂贵常常需要人工标注耗时未标注数据很容易获得领域标注数据一般都是针对某个特定领域,换个领域就不适用了半监督分类输入未标注对象集,每个对象由一个特征集来描述输出K个聚类的划分目标最小化类内相似度,最大化类间相似度高内聚,低耦合半监督分类半监督K-Means标签传播LP半监督K-MEANSSeededK-Means用已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息可以改变ConstrainedK-Means已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息不得改变一般的K-MEANS1随机选取k个样例,作为聚类的中心2对剩下的n-k个样例计算与k个中心的相似度,将其归于相似度最大的中心的那个聚类3重新计算各个聚类的中心4重复2、3步骤直至收敛SEEDEDK-MEANSSEEDEDK-MEANS例子-1SEEDEDK-MEANS例子-2CONSTRAINEDK-MEANSCONSTRAINEDK-MEANS例子CONSTRAINEDK-MEANS例子COPK-MEANS标签传播标签传播LabelPropagation假设:相似度越高的样例越有可能属于同一类建立一个图结点:所有的样例(标注+未标注)通过图中的边传递标签信息不同的边有不同的权值,权值越大的边越容易传递标签信息示例-1图中每个结点代表一个样例计算这个样例之间的相似度wij图中两个样例有标签,其他都没有怎样预测未标注结点的标签,

借助于图?比较Seeded与ConstrainedK-Means:部分标注数据COPK-Means:约束(Must-link和Connot-link)Constrained和COPK-Means要求所有的约束都要满足种子中如果包含了噪音,这种方法将不那么有效SeededK-Means只是在第一步中使用种子得到各个聚类的中心对种子中的噪音不敏感实验结果表明半监督的K-Means优于传统的K-Means扩展阅读BasuS,BanerjeeA,MooneyR.Semi-supervisedclusteringbyseeding[C]//InProceedingsof19thInternationalConferenceonMachineLearning(ICML-2002.2002.BairE.Semi‐supervisedclusteringmethods[J].WileyInterdisciplinaryReviews:ComputationalStatistics,2013,5(5):349-361..GriraN,CrucianuM,BoujemaaN.Unsupervisedandsemi-supervisedclustering:abriefsurvey[J].Arevi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论