【《半监督分类方法现状综述》1800字】_第1页
已阅读1页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

半监督分类方法现状综述根据学习情况的不同,半监督学习分为分类、回归、聚类和降维[3]。当只有少量数据具有标签时,半监督学习主要考虑分类的问题,即半监督分类。半监督分类的目标是在未标记数据的帮助下训练标记数据,获得比仅使用标记数据训练效果更好的分类器。半监督分类包括四类,分别为生成式方法、判别式方法、基于差异以及基于图的半监督分类方法[4]。生成式方法(GenerativeMethods)生成式方法基于生成式模型,假设样本和类标签服从某种分布,需要充分的先验知识。生成式方法实现半监督分类的过程如下:已知先验分布和条件分布,重复采样和,得到标签数据L以及无标签数据U。计算后验分布,同时找到使其取值最大的标签y并标记。若假设样本总体为高斯混合分布,不同的子分布代表不同种类,则样本总体分布的概率密度函数为式(1.1): (1.1)基于半监督的高斯混合模型如式(1.2)所示: (1.2)其中,有类标签的样本只在真实标签对应的类别中出现,而无标签的样本可能在所有类别中出现。模型的主要任务是有效利用未标记样本隐含的分布信息,估计出各高斯混合成分的参数。具体过程为:利用极大似然函数对参数进行更新迭代,达到收敛条件后停止迭代,得到参数估计,针对未标记样本可计算出样本属于每个类别的后验概率,概率最大者即为预测标签。生成式模型具有易拟合、高效利用无标签数据、生成特征变量等优点;当训练数据满足假设时,生成模型在少量数据时可以取得较好的训练效果。但因为基于生成式模型的半监督分类方法对潜在分布的假设有较高的依赖性,在实际情况中,使假定的生成模型与真实的数据分布相吻合是非常困难的。因此在生成式方法的探究中,关键是解决样本真实分布与假设分布不一致的问题。判别式方法(DiscriminativeMethods)判别式方法是一种利用最大间距算法,通过学习标记数据与未标记数据,直接得出判别边界的半监督分类方法。如图1.1所示,判别边界经过低密度数据区域。线性回归模型、支持向量机等都是判别式模型。半监督支持向量机(S3VM)是一种近年来广泛应用于半监督学习的判别式方法。S3VM的目标是找到一个分类超平面,该超平面可以区分二进制标签样本并跨越所有样本的低密度区域。最著名的S3VM是传输支持向量机(TSVM)[5]。TSVM通过将未标记的样本预测为正或负的方式,找到一个分类超平面,使所有样本之间的间隔最大。在S3VM中,模型必须在每次学习过程中通过计算二次规划问题的方式完成训练,因此其时间复杂度很高。图1.1判别边界划分方法基于差异的半监督学习方法(Disagreement-BasedMethods)基于差异的半监督学习是一种简单而有效的方法。著名的Blum和Mitchell提出的联合训练方法[6]在基于差异的半监督学习研究中最具有代表性。联合训练框图如图1.2所示。标准联合训练任务的输入空间有两种不同的视图(即两组独立的属性),并以迭代的方式工作。在每一轮联合训练中,两个分类器在不同视图下进行学习,并分别对无标签样本进行预测,然后将无标签样本和某一分类器对该样本预测置信度最高的类标签组合成为新样本,扩充至另一个分类器的训练集。图1.2联合训练框图此外,学者们也相继提出了一些基于差异的半监督学习的方法。Zhou和Li[7]提出了三分类训练方法,使用三个具有差异的分类器,通过比较其他两个分类器的一致性来获得标记置信度。三分类训练方法不需要大量的视图,被广泛应用于数据分类场景。基于差异的半监督学习方法在大多数常规情况下表现出良好的分类效果,但是在处理复杂场景时依旧存在问题。针对半监督分类学习过程的模糊性问题,He[8]等人提出用信念函数理论来描述和处理不确定性,更好地对分类和半监督学习过程进行建模。基于图的半监督分类方法(Graph-BasedMethods)图结构可以在实践中有效编码复杂关系的内在物理特性,因此基于图的半监督学习算法是近年来备受关注的一项技术[9]。基于图的方法是利用样本间的关系得到图结构,标记数据的类标签根据边的连接情况在图结构中进行传播,最终完成对未标记数据的标签预测。在图结构中,结点代表样本,连接结点的边的权值代表样本间的相似度,权值越大则样本具有相同标签的概率越大。图结构包括稀疏图和稠密图。如图1.3所示,图1.3(a)中的全连接图是稠密图的经典代表,图中任意结点间均有边相连。图1.3(b)为稀疏图,相距最近的几个结点根据特定的准则相互连接。(a)全连接图 (b)稀疏图图1.3图结构近年来,许多学者对基于图的半监督学习进行了创新性研究。Kim等人[10]提出一种标签传播算法,标记结点的标签只通过位于高密度区域中极大极小路径传播到未标记结点,该方法具有时间复杂度低的优点。汪西莉等人[11]提出的标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论