半监督学习综述.ppt_第1页
半监督学习综述.ppt_第2页
半监督学习综述.ppt_第3页
半监督学习综述.ppt_第4页
半监督学习综述.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/6/5,1,对半监督学习综述李彦鹏,问题,什么是半监督学习?人类是否进行半监督学习?半监督学习的历史及发展?有哪些半监督学习的方法?如何使用?在自然语言处理方面有哪些应用?,参考资料,Semi-SupervisedLearningLiteratureSurvey会议:ICML(机器学习)NIPS(神经计算)COLT(机器学习理论)ACL(自然语言处理)杂志JournalofMachineLearningResearch图书统计学习理论Vapnik1998KernelMethodsforPatternAnalysisJohnShawe-Taylor2005EstimationofDependencesBasedonEmpiricalDataVapnik2006,概念,监督学习(Supervisedlearning)训练集:标注非监督学习(Unsupervisedlearning)训练集:无需标注(同一分布)半监督学习(Semi-supervisedlearning)训练集:标注+未标注(同一分布),举例,判断一个短语是否为学校名训练集:测试集:,清华大学东北大学哈尔滨工业大学上海海事大学,未标语料:大连理工大学大连海事大学,大连理工,返回,举例,判断一个短语是否为学校名训练集:测试集:未标语料起到至关重要的作用,清华大学东北大学哈尔滨工业大学上海海事大学,CMU,未标语料:CarnegieMellonUniversity卡耐基梅隆大学,意义,人工标注耗费时间未标样本容易获得样本充足,锦上添花推理本质的研究,方法,GenerativemodelsSelf-TrainingMulti-ViewlearningTransductiveSVMGraph-BasedMethods,人类是否进行半监督学习?,很难回答。人类对自身的了解甚至不如对宇宙的了解。很多发明来源于生物的启示。如:飞机、神经网络等。,人类是否进行半监督学习?,人类是否进行半监督学习?,判断正面像和侧面像是否是同一个人,人类是否进行半监督学习?,Wallis的实验:错误“UnlabeledData”的影响训练:“错误”的序列测试:正面像和侧面像是否是同一个人返回,人类是否进行半监督学习?,“熟读唐诗三百首,不会写诗也会吟”相当于往大脑中装入大量的未标注语料国外研究表明:如果婴儿以前经常听到某个单词,那么当他再学习该词的时候就会很快,人类是否进行半监督学习?,简单的推理(RajatRaina2007):人大脑中有1014个神经元连接人的寿命109秒每秒需要学105个参数“被指导学习”的时间很有限结论:人类大部分的思维都是非监督的,监督学习起加速作用-人的思维方式=半监督学习?监督学习的研究只是万里长征的第一步,第一个半监督学习算法,传统的支持向量机没有全面的履行SRM原则结构的选择应该独立于训练样本超平面的选择仅仅是根据训练集x基于传导推理的SVM(TransductiveSVM):利用测试集和训练集寻找一个“更好”的超平面局部风险最小化的界要更好,传导推理,传统的推理:特殊-一般-特殊传导推理:特殊-特殊省略了“不必要”的中间过程,传导推理,IwanttoknowGodsthoughtsWhenthesolutionissimple,Godisanswering.-A.EinsteinHowtoactwellwithoutunderstandingGodsthoughts?-VladimirVapnik,Slide18,数据线性不可分,Slide19,构造软间隔分类超平面,原优化模型MinimizeSubjectto对偶优化模型MaximizeSubjectto,SVM的等价表示,基于软间隔最优超平面的SVMSVM=Hingeloss+模的平方,TransductiveSVM,TSVM举例,判断一个短语是否为学校名清华大学东北大学上海海事大学哈尔滨工业大学大连理工大连造船厂,TSVM举例,判断一个短语是否为学校名清华大学东北大学上海海事大学大连理工大学哈尔滨工业大学大连海事大学大连理工大连造船厂,TSVM举例,判断一个短语是否为学校名清华大学东北大学上海海事大学大连理工大学哈尔滨工业大学大连海事大学大连理工大连造船厂,TransductiveSVM,标注未标数据,引进伪实例;决策规则应该在稀疏区域,TransductiveSVM,SVM的损失函数未标数据的损失函数,TSVM技术上的问题,凹函数,找出精确解很难往往通过启发式算法求近似解(Collobert,2006)使用了CCCP启发式算法使得SVM和TSVM的速度进一步加快,获得ICML2006的最佳论文效率仍然很低,无法适用于海量未标语料,TSVM的精度,在某些评测中显示了较好的效果KDD200174.5%-82.3%手写数字识别4.0%-3.3%蛋白质关系抽取+1-2%某些情况效果并不理想,由于很多假设Zhang,T.,&Oles,F.J.(2000).,InferencewiththeUniversum,UniversumvsUnlabeled让超平面穿过Universum密集的区域,UniversumSVM,实验结果,Self-Training(Bootstrapping),训练集,未标数据,分类器,将“最确定”的分类结果加入训练集重新训练,阈值,返回,总结,错误被加强某些小规模实验效果有提高大部分实验效果降低改进:加入约束条件参见:GuidingSemi-SupervisionwithConstraint-DrivenLearningACL2007,Generative模型,最简单的模型,GMM模型参数联合概率决策规则:(条件概率),Generative模型,极大似然估计(训练的过程)监督学习半监督学习:使未标语料也尽可能服从参数为的高斯分布,实验结果,总结,优点:如果数据分布符合模型,效果非常好缺点:大部分数据的“密度”函数的形式很难确定,Co-Training,训练集,分类器1,分类器2,未标数据,结果1,结果2,Co-Training,总结,优点:实现简单适用于任何分类器比Self-training受的噪音干扰小缺点很多问题无法“分割”统一的模型分而治之?,AlternatingStructureOptimization,基本思想:通过多任务学习选择一个最佳的“结构”(特征组合),然后利用该结构进行普通的监督学习传统分类器经过划分后的分类器第二项是一个被多任务“共享的”低维特征空间试图通过多任务学习发现这些特征,AlternatingStructureOptimization,联合经验风险最小化固定和v,分别求得每个u固定u,求得和v通过SVD分解循环叠代,实验CoNLL2003,效果明显好于Co-Training和Self-training,总结,优点:在某些问题中效果非常好,如:命名实体识别鲁帮性较强,减轻了Co-training的独立性假设利用了TransferLearning的思想在大规模语料的实验中也有稳定的提高缺点辅助问题无法得到除了NER的其他问题效果一般只是利用了特征间的线性组合,无法产生新特征本质上是否等同于PCA或LDA之类的技术?,Graph-BasedMethods,返回,Graph-BasedMethods,基本思想:将标注数据与未标注数据连成无向图加入正则化因子,使得预测函数f在整个图上尽可能平滑。(相似的实例尽可能的分到同一类)实现,图示,总结,优点:如果图的构造合适,效果非常好缺点:如果图的构造不合适,效果非常差效率?海量未标注数据?研究现状:大多数学者侧重于如何选择惩罚因子,而如何构造图更为重要,目前半监

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论