(计算机应用技术专业论文)多视图的半监督学习研究.pdf_第1页
(计算机应用技术专业论文)多视图的半监督学习研究.pdf_第2页
(计算机应用技术专业论文)多视图的半监督学习研究.pdf_第3页
(计算机应用技术专业论文)多视图的半监督学习研究.pdf_第4页
(计算机应用技术专业论文)多视图的半监督学习研究.pdf_第5页
已阅读5页,还剩126页未读 继续免费阅读

(计算机应用技术专业论文)多视图的半监督学习研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文版权使用授权书 1 1 1 11 1i i ii iii ii i iiiil y 1 7 817 7 5 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 王娇 i 签字日期:h l d 年月腿e l 名:蘅牝, 导师签名:彳墨m , 签字日期h m 年月店日 中图分类号:t p l 8 1 u d c : 学校代码:1 0 0 0 4 密级:公开 北京交通大学 博士学位论文 多视图的半监督学习研究 s e m i s u p e r v i s e dl e a r n i n gw i t hm u l t i p l ev i e w s 作者姓名:王娇 导师姓名:罗四维 学位类别:工学 学科专业:计算机应用技术 学号:0 3 1 1 2 0 1 5 职称:教授 学位级别:博士 研究方向:机器学习 北京交通大学 2 0 1 0 年6 月 致谢 本论文的工作是在我的导师罗四维教授的悉心指导下完成的。罗老师严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。罗老师不仅将我引入科学 研究的大门,而且帮助我开阔思维,指导我逐步前进。罗老师勤勤恳恳、精益求 精的工作精神,谦虚谨慎、海纳百川的高尚品格,永远值得我学习。罗老师平易 近人,当我遇到挫折时给予我长辈般的关怀,所有这些都让我倍感温暖,我将铭 记于心。在此衷心感谢罗老师这些年来对我的关心和指导,感谢罗老师一直以来 对我的信任。祝愿敬爱的罗老师桃李满天下,永远健康幸福。 黄厚宽教授、于剑教授、田盛丰教授对于我的科研工作和论文都提出了许多 的宝贵意见,在此表示衷心的感谢。 感谢实验室的黄雅平副教授、尹辉副教授、赵嘉莉副教授、刘蕴辉老师、邹 琪老师、田媚老师在研究过程中给予的无私帮助和建议。感谢实验室的同窗好友 们,和你们一起学习使我受益良多,每周实验室的讨论会给了我很多启发和灵感, 很幸运在这段路上有你们同行。 感谢我的父母、我的丈夫以及所有亲人,你们多年来默默支持着我,鼓励我 克服困难、不断前进。没有你们的奉献,我不可能这么专注地进行学术研究。感 谢你们在生活中对我细致入微的关怀和照顾,希望我的点滴成绩可以为你们带来 欣慰和快乐。 最后,感谢所有关心、帮助和支持我的朋友们。 n 摘要 摘要 学习是人类具有的一种重要智能行为,模仿人类的学习过程是机器学习的主 要目标。机器学习根据生理学、认知科学等对人类学习机理的研究成果,建立人 类学习过程的计算模型,研究通用的学习算法,是人工智能和神经计算的核心研 究内容之一。 基于数据的机器学习从观测数据中构建模型,以对无法观测的数据或未见数 据进行预测。随着信息时代的到来,数据大量存在,但获取数据的标记需要耗费 人力物力。这里的“标记”是指数据所对应的输出,如在分类问题中标记就是数 据的类别。传统的监督学习方法从有标记的数据中构建模型,当有标记的数据较 少时所训练出的学习系统很难具有好的性能。半监督学习研究当有标记的数据较 少时如何利用大量的未标记数据来改善学习性能,具有广泛的应用领域,是当前 机器学习研究的热点问题之一。 在机器学习的许多实际问题中数据有多个视图,如何综合利用数据的多个视 图进行学习是具有挑战性的研究内容。本文研究多视图的半监督学习,对多视图 半监督学习中的学习理论、学习算法、以及多视图的构造等关键问题进行了深入 的研究,取得了一定的研究成果,并经过充分的实验验证,为进一步的研究和应 用奠定了基础。 本文创造性的研究成果主要有: 1 提出一种多视图半监督学习中的正则化方法。从有限样本中学习往往是病 态逆问题,解决的办法是对学习过程加以限制,这个过程称为正则化。针对多视 图的半监督学习,利用假设空间的度量结构,定义学习函数的光滑性和一致性。 在每个视图内的学习过程中限制函数的光滑性,在多个视图的协同学习过程中限 制函数的一致性。提出一种两个层次的正则化算法,同时使用函数的光滑性和一 致性进行正则化,并对算法预测误差进行理论分析。实验表明,该算法较仅使用 光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。 2 提出一种基于图的多视图半监督学习方法。分析图表示法的适用性,使用 多个图结构表示多视图数据,将基于图的半监督学习扩展到数据有多个视图的情 况。提出一种多个图的半监督学习算法,在每个图上进行半监督学习,并在多个 图上协同学习,从而同时优化多个图上的学习器。从概率角度分析多个图上的学 习过程。实验表明,该算法较单个图上的半监督学习算法有更高的分类精度。 3 提出一种随机子空间中的多视图构造及学习方法。在数据的特征空间中取 随机子空间,将数据映射到多个随机子空问中,以构造数据的多个视图。提出一 种随机子空间中的多视图半监督学习算法,将每个视图上的学习器预测置信度最 i i i 北京交通大学博士学位论文 高的未标记数据用于训练其它视图上的学习器,从而使各个视图上的学习器协同 训练。使用随机判别理论对算法进行分析。实验表明,该算法在数据特征较多时 较同类算法有更好的预测性能。 4 提出一种排除学习器不确定性的主动学习方法,并将其与多视图半监督学 习结合。运用主动学习思想选取学习器最不置信的未标记数据作为需要查询的数 据。在每个视图内的学习过程中,对于最置信的未标记数据,将其用于训练其它 视图上的学习器;对于最不置信的未标记数据,向外界查询它的标记。实验表明, 该算法能够显著提高学习性能。 关键词:人工智能,机器学习,半监督学习,多视图学习,正则化,主动学习。 分类号:t p l 8 1 a b s t r a c t a b s t r a c t l e a r n i n gf r o me x a m p l e si s a l li m p o r t a n ta b i l i t yo fh u m a nb e i n g s t h eg o a l so f m a c h i n el e a r n i n gi st os i m u l a t et h el e a r n i n gp r o c e s so fh u m a n b ya p p l y i n gt h er e s e a r c h r e s u l t so fn e u r o p h y s i o l o g ya n dc o g n i t i v ep s y c h o l o g yt oc o n s t r u c tt h ec o m p u t a t i o n a l m o d e l sa n da l g o r i t h m s ,m a c h i n el e a r n i n ga i m st op r e d i c tt h eu n s e e ne x a m p l e s ,w h i c hi s a ni m p o r t a n tp a r to fa r t i f i c i a li n t e l l i g e n c ea n dn e u r a lc o m p u t i n g w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , t h e r ea l ea b u n d a n tu n l a b e l e d e x a m p l e sw h i l et h en u m b e ro fl a b e l e de x a m p l e si sl i m i t e d , b e c a u s el a b e l i n gt h e e x a m p l e sr e q u i r e sh u m a ne f f o r t s t h ew o r d “l a b e l i n d i c a t e st h ed e s i r e do u t p u to ft h e e x a m p l e ,e g i nc l a s s i f i c a t i o ni ti n d i c a t e st h ec a t e g o r yo ft h ee x a m p l e t r a d i t i o n a l s u p e r v i s e dl e a r n i n gn e e d sal a r g en u m b e ro fl a b e l e de x a m p l e st oc o n s t r u c tt h em o d e l , w h i c hh a sp o o rp e r f o r m a n c ew h e nt h e l a b e li ss c a r e s o ,s e m i s u p e r v i s e dl e a r n i n g w h i c he x p l o i t su n l a b e l e de x a m p l e si na d d i t i o nt ol a b e l e de x a m p l e st oi m p r o v el e a r n i n g p e r f o r m a n c eh a sb e e nah o tt o p i cr e c e n t l y m a n yp r o b l e m si nm a c h i n el e a r n i n gi n v o l v ee x a m p l e st h a ta r en a t u r a l l yc o m p r i s e d o fm u l t i p l ev i e w s i nt h i sd i s s e r t a t i o n , s e v e r a lk e yp r o b l e m so fe x p l o i t i n gm u l t i p l e v i e w st oe f f e c t i v e l yl e a r nf r o ml a b e l e da n du n l a b e l e de x a m p l e sa r es t u d i e d , w h i c h i n c l u d et h et h e o r ya n dt h ea l g o r i t h mo fm u l t i - v i e ws e m i - s u p e r v i s e dl e a m i n g ,t h e c o n s t r u c t i o no fm u l t i p l ev i e w s ,a n dt h ec o m b i n a t i o no fm u l t i - v i e ws e m i - s u p e r v i s e d l e a r n i n gw i t h a c t i v el e a r n i n g t h em e t h o d s a n dt e c h n o l o g i e s p r o p o s e di n t h i s d i s s e r t a t i o na r ev e r i f i e dt h r o u g hs u f f i c i e n te x p e r i m e n t s 1 1 1 em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na g es u m m a r i z e da sf o l l o w s : i w ep r o p o s ean e wr e g u l a r i z a t i o nm e t h o di nm u l t i v i e ws e m i - s u p e r v i s e dl e a r n i n g l e a r n i n gf r o ml i m i t e de x a m p l e si sa ni l l - p o s e di n v e r s ep r o b l e m ,t ow h i c hr e g u l a r i z a t i o n m e t h o dh a st ob eu s e d b ye x p l o i t i n gt h em e t r i cs t r u c t u r eo ft h eh y p o t h e s e ss p a c e ,w e d e f i n et h es m o o t h n e s sa n dc o n s i s t e n c yo fah y p o t h e s i s at w ol e v e l sr e g u l a r i z a t i o n a l g o r i t h mi sp r e s e n t e dw h i c hu s e st h es m o o t h n e s st or e g u l a r i z et h ew i t h i n - v i e wl e a r n i n g p r o c e s sw h i l eu s e s t h ec o n s i s t e n c yt or e g u l a d z et h eb e t w e e n v i e wl e a r n i n gp r o c e s s t h e p r e d i c t i o ne r r o ro ft h ea l g o r i t h mi sa n a l y z e d e n c o u r a g i n ge x p e r i m e n t a lr e s u l t sa r e p r e s e n t e do nb o t hs y n t h e t i ca n dr e a lw o r l dd a t a s e t s 2 w ep r o p o s ean e wg r a p h - b a s e dm u l t i - v i e ws e m i - s u p e r v i s el e a r n i n gm e t h o d a s g r a p hc a nb eu s e dt or e p r e s e n tt h ee x a m p l e sa n dt h er e l a t i o n s h i pb e t w e e ne x a m p l e s , v 北京交通大学博士学位论文 m u l t i p l eg r a p h s c a r lb eu s e dt o r e p r e s e n t m u l t i - v i e we x a m p l e s b ye x t e n d i n g g r a p h - b a s e ds e m i s u p e r v i s el e a r n i n g t os o l v et h em u l t i v i e wl e a m i n gp r o b l e m , a s e m i s u p e r v i s e dl e a r n i n ga l g o r i t h m w i t h m u l t i g r a p h i s p r e s e n t e d , w h i c hu s i n g u n l a b e l e de x a m p l e st ol e a r n i n gi ne a c hg r a p hw h i l eu s i n gu n l a b e l e de x a m p l e st o c o - l e a r n i n gb e t w e e ng r a p h s t h ee x p e r i m e n t a lr e s u l t so i lr e a lw o r l dd a t a s e ts h o wt h a t o u rm e t h o di sm o r ea c c u r a t ec o m p a r i n gw i t hg r a p h - b a s e ds i n g l e - v i e ws e m i - s u p e r v i s e d l e a r n i n gm e t h o d s 3 w ep r o p o s ean e wm u l t i - v i e wc o n s t r u c t i o nm e t h o d b yp r o j e c t i n ge x a m p l e si n t o t h er a n d o ms u b s p a c e so ft h ef e a t u r es p a c e ,w ec o n s t r u c tv i e w so ft h eo r i g i n a le x a m p l e s am u l t i - - v i e ws e m i - - s u p e r v i s e dl e a r n i n ga l g o r i t h mi sp r e s e n t e d , w h i c ht r a i n sac l a s s i f i e r i ne a c hv i e wa n dc h o o s e st h em o s tc o n f i d e n te x a m p l e so fe a c hc l a s s i f i e rt ot r a i nt h e o t h e rc l a s s i f i e r s r a n d o md i s c r i m i n a t i o nt h e o r yi su s e dt oa n a l y z et h ep e r f o r m a n c eo f t h ea l g o r i t h m t h ee x p e r i m e n t a lr e s u l t so nr e a lw o r l dd a t a s e t ss h o wt h a to u rm e t h o di s e f f e c t i v ew h e nt h ef e a t u r ea r ea b u n d a n t 4 w ep r o p o s ean e wa c t i v el e a r n i n gm e t h o da n dc o m b i n ei tw i t ht h em u l t i - v i e w s e m i - s u p e r v i s e dl e a r n i n gm e t h o d w h e nt h el e a r n e rc a l li n t e r a c tw i t h t h ee n v i r o n m e n t , i t c a nc h o o s es o m ee x a m p l e st oq u e r yt h e i rl a b e l sf r o mt h eu s e r b ys e l e c t i n gt h ee x a m p l e n e a r e s tt ot h ec l a s s i f i c a t i o nh y p e r p l a n e ,w ep r e s e n ta na c t i v el e a r n i n ga l g o r i t h mw h i c h a s kt h eu s e rt ol a b e lt h el e a s tc o n f i d e n te x a m p l e so ft h el e a r n e r t h e n , w ei n c o r p o r a t e t h ea c t i v el e a r n i n gp r o c e s si n t ot h em u l t i - v i e ws e m i s u p e r v i s e dl e a r n i n gp r o c e s s f o r e a c hv i e w , t h em o s tc o n f i d e n te x a m p l e sa r es e l e c t e dt oe n l a r g et h et r a i n i n gs e to ft h e o t h e rv i e w , w h i l et h el e a s tc o n f i d e n te x a m p l e sa r es e l e c t e dt oq u e r y t h ee x p e r i m e n t a l r e s u l t so nb o t hs y n t h e t i ca n dr e a lw o r l dd a t a s e t sd e m o n s t r a t et h a tt h ec l a s s i f i c a t i o n p e r f o r m a n c ec a nb ei m p r o v e dd i s t i n c t l y 、析t 1 1t h ep r o p o s e da c t i v el e a r n i n gm e t h o d k e y w o r d s :a r t i f i c i a li n t e l l i g e n c e ,m a c h i n el e a r n i n g ,s e m i - s u p e r v i s e dl e a r n i n g , m u l t i - v i e wl e a r n i n g ,r e g u l a r i z a t i o n ,a c t i v el e a r n i n g c l a s s n o :t p l 8 1 目录 目录 摘要i i i a b s t r a c t v 1 绪论1 1 1 引言l 1 2半监督学习l 1 2 1 监督学习与无监督学习2 1 2 2 半监督学习2 1 2 3 半监督学习的一些例子3 1 3 多视图的半监督学习一4 1 3 1 多视图数据4 1 3 2 多视图表示的适用性5 1 3 3 多视图的半监督学习6 1 4本文的研究动机。7 1 5本文的研究内容。9 1 6本文的组织结构1 0 2半监督学习研究概述1 2 2 1引言1 2 2 2未标记数据的作用1 2 2 2 1 未标记数据蕴含分布信息1 2 2 2 2 未标记数据起作用的条件一1 3 2 3半监督学习的分类1 5 2 3 1 生成式模型1 5 2 3 2 自训练1 9 2 3 3 协同训练2 0 2 3 4 低密度区域分割2 3 2 3 5 基于图的半监督学习2 7 2 3 6 方法分析及选择3 0 2 4半监督学习的应用3 2 2 4 1 文本分类中的半监督学习3 2 2 4 2 图像分割中的半监督学习3 3 2 4 3 自然语言处理中的半监督学习3 3 “i 北京交通大学博士学位论文 3 4 5 2 5半监督学习与人类学习3 5 2 6 d 、结。3 6 多视图半监督学习的正则化算法3 8 3 1 引言。3 8 3 2学习中的正则化理论3 8 3 2 1 逆问题与正则化3 8 3 2 2 从有限样本中学习与正则化一4 0 3 3利用标记和未标记数据定义正则化函数4 3 3 3 1 假设空间的度量结构4 3 3 3 2 函数光滑性的度量4 5 3 3 3 函数一致性的度量4 6 3 4一种多视图半监督学习的正则化算法4 8 3 4 1 两个层次的正则化4 9 3 4 2 算法分析。5 0 3 5 相关工作一5 2 3 6实验结果与分析5 4 3 7小结5 8 基于图的多视图半监督学习算法6 0 4 1引言6 0 4 2数据的图表示6 0 4 2 1 图的构建6 1 4 2 2 复杂数据的图表示6 2 4 3多视图特征映射6 6 4 4一种基于图的多视图半监督学习算法6 9 4 4 1 单个图的半监督学习6 9 4 4 2 多个图的半监督学习。7 0 4 5相关工作7 2 4 6实验结果与分析7 3 4 7小结7 5 多视图构造算法及其与主动学习的结合7 7 5 1引言7 7 5 2随机子空间中的多视图构造与学习7 7 5 2 1 算法描述7 7 5 2 2 一种随机子空间中的多视图半监督学习算法。8 1 目录 5 2 3 算法分析8 2 5 3相关工作8 4 5 4与主动学习的结合8 5 5 4 1 主动学习概述8 5 5 4 2 一种排除学习器不确定性的主动学习算法8 6 5 4 3 多视图半监督学习与主动学习的结合8 8 5 5实验结果与分析9 0 5 6 小结9 8 6结束语。10 0 6 1本文的主要贡献。1 0 0 6 2未来的研究方向_ 1 0 1 参考文献:10 3 作者简历11 3 独创性声明。11 4 学位论文数据集115 绪论 1 1 引言 1 绪论 机器学习是人工智能一个重要的子领域,在现代智能技术中扮演着关键的角 色。历史上曾经对什么是机器学习有过很多不同的说法,目前比较公认的是s i m o n 对学习的阐述【l j :如果一个系统能够通过执行某种过程而改变它的性能,这就是学 习。基于数据的机器学习,研究如何从一些观测数据( 样本) 出发,得到一些规 律或者内在因素,建立问题世界的模型,以对未来的数据或无法观测的数据进行 预测和分析。感知器【2 】是最早开发出来的学习器之一。 随着信息时代的到来,数据增长速度加快,而获取数据的标记( 1 a b e l ) 则相 对困难。这里的“标记 是指数据所对应的输出,在分类问题中标记就是数据的 类别,在回归问题中标记就是数据所对应的实值。在真实世界的问题中通常存在 大量的未标记数据( u n l a b e l e dd a t a ) ,但有标记数据( 1 a b e l e dd a t a ) 则相对较少, 因为获取数据的标记需要耗费人力物力。例如,在计算机辅助医学图像分析中, 需要医学专家把医学图像中的病灶标识出来,以作为有标记的数据,由于时间精 力的限制,医学专家往往只能标记一小部分图像,但是医院中收集和存储的大量 医学图像都可以作为未标记数据使用。 如何从有限的观测数据中学习是机器学习的一个经典难题。在传统的监督学 习中,学习器需要对大量的有标记数据进行学习,从而建立模型来预测未见数据。 当有标记数据的数量较少时,利用它们所训练出的学习器往往很难有好的泛化性 能。如何利用大量的未标记数据来改善学习性能,已经成为当前机器学习研究中 最受关注的问题之一。 人能够从相对较少的有标记数据中学习到有效的知识,能够综合各种感知信 息得到更好的判决,研究和模拟人的这种感知能力是理解人类智能过程中的关键 一步。利用数学模型增加对学习问题的理解,并迸一步得到模拟人类学习的有效 的计算机学习算法是机器学习的主要目标。 1 2 半监督学习 在监督学习中,标记数据的数量非常重要,因为大样本才能反映数据的真实 分布,从而才能使训练得到的学习器有好的预测性能。而在现实情况中,标记数 北京交通大学博士学位论文 据常常有限,获得标记数据往往要耗费大量的人力物力。半监督学习 ( s e m i s u p e r v i s e dl e a r n i n g ) 研究如何利用未标记数据来辅助学习,以提高传统监 督学习的预测性能,是近年来国内外研究的热点问题之一。为了更好地理解半监 督学习,先简单介绍监督学习和无监督学习。 1 2 1 监督学习与无监督学习 监督学习和无监督学习是机器学习中常用的两种学习方法,它们都是基于数 据的学习。用x 表示数据输入空间,通常x f ,用】,表示输出空间。 监督学习中,给定,个训练数据 ( 五,y 。) ,( 而,y ,) ) ,其中( 薯,咒) x xy ,学习 的目标是学习从x 到】,的映射,使得此映射在未见数据上有好的预测性能。这里, 薯x 表示数据点,咒y 表示数据的标记,当y 取实数值时,称为回归问题: 当y 取离散值时,称为分类问题。一般要求( 五,y ;) 独立同分布。监督学习任务明 确,学习器的性能可以通过测试数据进行评估。 无监督学习中,给定“个数据 而,毛) ,其中五x ,数据没有标记,学习 的目标是发现数据中可能的结构。无监督学习的任务有密度估计、聚类、降维等。 经典的主成分分析( p c a ) 、独立分量分析( i c a ) 、流形学习等属于无监督学习。 无监督学习一般要求数据x j 独立同分布。 1 2 2 半监督学习 半监督学习介于监督学习和无监督学习之间。在半监督学习中,不仅有未标 记数据,还有一些监督信息,但不是每个数据都有监督信息。这些监督信息可以 是数据的标记,也可以是数据的约束等等。 在典型的半监督学习中,数据集由两部分组成,即,个标记数据组成的集合 ( 五,y 1 ) ,( 而,m ) ) 和u 个未标记数据组成的集合 而+ ”,而+ 。 ,其中薯x 表示数 据点,y j y 表示对应的标记。学习的目的是综合利用标记数据和未标记数据学 习从x 到】,的映射,使半监督模型的预测性能比仅利用标记数据的监督学习有所 提高。例如,半监督分类就是这种形式的半监督学习。 还有一些其它形式的半监督学习,例如带约束的无监督学习。在这种情况下, 监督信息是数据间的成对约束信息,即己知两个样本属于同一类或者不属于同一 类。学习的目的是有效利用监督信息发现数据中蕴含的结构。例如,半监督聚类 就是这种形式的半监督学习。 现有的文献中,前一种形式的半监督学习研究相对多一些,即,考虑如何利 2 绪论 用未标记数据中蕴含的信息来辅助传统的监督学习,本文也主要研究这类半监督 学习,而且主要研究这类半监督学习中的分类问题。图1 1 展示了未标记数据辅助 学习的一种方式。图中,“+ ”和“ 分别代表两个类别的标记数据,圆圈代表未 标记数据,虚线代表只考虑标记数据的监督学习方法得到的分类面,实线代表综 合考虑标记和未标记数据的半监督学习方法得到的分类面。如图1 1 所示,当标记 数据较少、未标记数据大量存在时,考虑未标记数据的学习方法更能够建立合理 的模型来描述真实世界的问题。 一 图1 1 一种形式的半监督学习示意图 与半监督学习相关的一个概念是直推学习( t r a n s d u c t i v el e a m i n g ) 。直推学习也 是试图利用大量的未标记数据来辅助学习的一种学习技术,与半监督学习不同的 是,直推学习假定未标记数据就是测试数据,即学习的目的就是在这些未标记数 据上取得最佳泛化能力。换句话说,半监督学习在进行学习时并不知道要预测的 数据是什么,有可能是未标记数据,有可能是未见数据;而直推学习在学习时已 经知道了需要预测的就是给定的未标记数据。直推学习这一思路直接来源于v v a p n i k 的统计学习理论t 3 1 ,其出发点是不要通过解一个困难的问题来解决一个相对 简单的问题。vv a p n i k 认为,经典的归纳学习期望学得一个在整个数据分布上具 有低错误率的决策函数,这实际上把问题复杂化了,因为在很多情况下,人们并 不关心决策函数在整个数据分布上的性能,而只是期望在给定的数据上达到最好 的性能。对比直推学习和半监督学习可以看出,半监督学习包含了直推学习,所 以有一些研究者将直推学习作为半监督学习的一种情况来进行研究。 1 2 3 半监督学习的一些例子 北京交通大学博士学位论文 半监督学习问题在真实世界中大量存在,以下列举几例: 在文本分类中,例如,垃圾邮件过滤问题,所有邮件都可以作为未标记数据, 标记数据的获取则要求用户标注哪些是垃圾邮件,哪些不是,如果使用传统的监 督学习方法,需要用户标记上千个邮件作为样本,才能使训练的学习器有较好的 过滤性能,而几乎没有用户愿意花如此多的时间标记邮件。在只有少量的用户标 记邮件、和大量的未标记邮件的情况下,使用半监督学习方法训练垃圾邮件过滤 器可能是一个好的选择。 在图像处理中,例如,计算机辅助医学图像分析问题,可以从医院获得大量 的医学图像作为未标记数据,但如果要求医学专家把这些图像中的病灶都标识出 来,往往是不现实的,一般只能对少量医学图像中的病灶进行标识,所以需要使 用半监督学习方法来减少对标记数据的需求。 在自然语言处理中,例如,句法分析问题,为了训练一个好的句法分析器需 要构造句子句法树,这是一项十分耗时的工作,构造几千个句法树可能要耗费一 个语言学家几年的时间。而可以作为未标记数据使用的句子是普遍存在的,考虑 未标记数据的半监督学习能解决语言学家的困难。 上述实例表明,随着信息技术的飞速发展,我们面临的问题是,数据大量存 在,但获取数据的标记却需要耗费大量的人力物力。传统的监督学习方法在标记 数据较少的情况下很难获得好的预测性能。半监督学习正是为了解决这类问题而 提出,在理论和实际中都具有重要意义。 1 3 多视图的半监督学习 1 3 1 多视图数据 在一些实际问题中,对于同一事物可以从多种不同的途径或不同的角度对其 进行描述,这多种描述构成事物的多个视图( m u l t i v i e w ) 。本文用带下标的葺表示 第f 个数据点,用带上标的x o ) 表示数据的第f 个视图,则多视图数据可表示为 x = ( x ( n ,x ( 2 1 ,x ( 7 ) ,其中,表示视图的个数。多视图数据在真实世界中广泛存在, 以下列举几例: 在网页分类问题中,既可以根据网页本身包含的信息来对网页进行分类,也 可以利用链接到该网页的超链接所包含的信息来进行分类,这样,网页数据就可 以用两个视图表示,刻画网页本身包含信息的特征集构成第一个视图,刻画超链 接所包含信息的特征集构成第二个视图。 在电视片段的识别问题中,既可以根据视频中包含的信息来进行识别,也可 4 _j1i j 绪论 以根据音频中包含的信息来进行识别,所以电视数据可以用视频和音频这两个视 图表示。 在自然语言理解问题中,同一语义对象,可以用不同的语言来表达,这些不 同的语言描述就构成了此语义对象的不同视图表示。 上述示例中,多视图用于表示数据的不同特征集,多视图还可以用于表示数 据的不同来源。例如对于同一个数据源,用不同的采集装置进行采集,这多个采 集结果构成了数据的不同视图。 另外,多视图还可以用于表示数据间的不同关系。例如,学术论文的分类问 题中,论文间既有参考文献的引用关系,也有作者的合作关系,可以把不同的关 系用不同的视图来表示。 有一些文献涉及多模态( m u l t i m o d a l ) 学习问题,但不同的文献中模态一词的 含义不同。狭义的多模态是指人的不同感官,如视觉、听觉、嗅觉、触觉等。视 觉所对应的图像或文字信息,和听觉所对应的声音信息,就构成多模态数据。广 义的多模态数据是指对于一个事物,通过不同的方法收集到的数据。例如在人脸 识别中,可能收集到人脸的2 d 图像和3 d 形状模型,这就构成人脸数据的两个模 态。在指纹识别中,用不同传感器采集的一个指纹的多种不同印痕,构成指纹数 据的多个模态。对比多模态数据和多视图数据的概念可以看出,多视图的含义里 包含了多模态,多视图可以表示更广泛的实际问题。 1 3 2 多视图表示的适用性 数据的表示问题是机器学习的重点和难点问题之一,因为学习效果往往受到 数据表示方法的影响。对于客观世界的对象,常常提取它的特征,然后用特征向 量表示此对象,即五= 【,k r ,其中刀代表特征的个数。人们希望提取的特征 体现了此对象的本质,从而能够用这些特征学习到目标概念。然而,对于一个学 习问题,需要的最小特征集是不可知的,在缺乏先验信息的情况下,只能提取尽 可能多的特征,提供给学习器,期望学习器能获得更好的预测性能。另外,数据 收集技术的发展,使得人们可以通过更加复杂多样的手段对事物进行描述,这也 导致数据的特征较多。 这些描述对象的特征中,有些特征具有不同的属性,因此不适合使用同一种 学习器进行学习。例如上述电视片段的识别问题中,电视片段具有视频和音频两 部分特征,这两部分特征更适合分别用图像识别方法和声音识别方法来学习。如 果使用单视图( 即用所有特征组成一个特征向量) 来表示电视片段,将无法选择 一种既适合图像又适合声音的“普适”的学习方法。在这种情况下,使用多视图 5 北京交通大学博士学位论文 的表示法较为适合,即把数据表示成多个特征集,然后在每个特征集上可以用不 同的学习方法进行学习。 即使数据的特征能够使用同一种学习器进行学习,多视图学习也可能比单视 图学习具有优势。例如上述网页分类问题中,网页本身所包含的信息和指向该网 页的超链接所包含的信息均由单词构成,网页视图和超链接视图都可以表示成文 本向量的形式,在这两个视图上可以用同一种学习器进行学习。然而,如果要把 这两个视图合成一个视图,则得到的特征向量失去了原有的意义,而且可能增加 了特征空间的维数,从而给学习带来不必要的困难。 另外,数据的多视图表示方法还能够发挥各个视图的优势,利用未标记数据 达到协同学习的目的,以改善学习性能,这一点接下来将具体介绍。 1 3 3 多视图的半监督学习 在多视图的半监督学习中,一方面数据有多个视图,即x = ( x ( n ,x ( 7 ) ,另一 方面数据由标记数据集 ( 五,y 。) ,( 而,乃) ) 和未标记数据集 而+ ,而伸) 组成,学习 算法应考虑如何利用多个视图蕴含的信息和未标记数据蕴含的信息,来辅助传统 的监督学习。 在该领域具有代表性的算法有a b l u m 和t m i t c h e l l 提出的协同训练算法【4 j ( c o t r a i n i n g ) 。该算法假设数据有两个视图。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论