(概率论与数理统计专业论文)基于多元t分布的概率主成分分析及其应用.pdf_第1页
(概率论与数理统计专业论文)基于多元t分布的概率主成分分析及其应用.pdf_第2页
(概率论与数理统计专业论文)基于多元t分布的概率主成分分析及其应用.pdf_第3页
(概率论与数理统计专业论文)基于多元t分布的概率主成分分析及其应用.pdf_第4页
(概率论与数理统计专业论文)基于多元t分布的概率主成分分析及其应用.pdf_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 摘要 主成分分析( p c a ) 是一种常用的降维技巧,在图像处理、模式识别以及数据挖掘中 都有很广泛的应用。但是,作为一种全局线性投影,经典的p c a 用于实际中经常出现 的非线性数据时不可能令人满意。于是,近年来人们提出了各种各样的非线r i i p c a 及 混合p c a 其中,特别重要的是由 3 9 ,4 0 提出的概率p c a ( 本文称为g a u s s i a n p p c h ) 在此学位论文中,我们将g a u s s i a n p p c a 推广为基于多元t 分布的概率p c a ( 下文称为t p p c a ) ,从而得到了一类无论在理论上还是在实际应用中均具有较大意义的通用数据阵 维算法。具体说来,我们的主要工作包含以下内容: 理论方面:假设数据来自m 个d 元t 分布的混合;而每个混合成分均满足迷向( i s o , t r o p i c ) 因子分析模型见3 2 1 ) 。在第三、四两章,我们用e m 型算法导出了模 型参数的极大似然估计。在此基础上,我们得到了一类新的数据投影及其重构 的算法,即,t - p p c a 当f 分布的自由度= o o 时,t - p p c a 就是g a u s s i a n p p c a 当m = 1 时,t - p p c a 定义的数据投影的确来自某个矩阵s 的主成分分解( 见3 1 ) ; 但只有在”= o o 时,s 才退化为样本协方差矩阵s 这说明经典主成分分析仅适用 于来自正态分布的数据。 应用方面:我们用多元t 分布的有限混合作为数据模型,保证了t - p p c a 的稳健 性,从而g a u s s i a n p p c a 更具实用价值。这在第五章的应用研究中得到了充分 的证明。在5 1 的手写英文字母识别的实验中,结果表明t - p p c a 的错误率大大小 于使用g a u s s i a n p p c a 的错误率( 见表5 1 ) 。同时,我们发现数据投影对于某 些分类是必须的。这一现象有待于进一步的研究。在5 2 的图像压缩实验中,我 们的图象重构质量明显优于使用g a u s s i a n p p c a 的图象重构质量( 比较图5 2 及图 5 3 ) 。 关键词:主成分分析图象压缩手写字母识别混合模型e m 算法t 分布 东南大学硕士学位论文 a b s t r a c t p r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) i sap o p u l a rt e c h n i q u ei nd i m e n s i o nr e d u c t i o n s i n c el l l es c o p eo fi t sa p p l i c a t i o ni sl i m i t e db yi t sg l o b a ll i n e a r i t y , s e v e r a lg e n e r a l i z a t i o n s a r ep r o p o s e dr e c e n t l yi nt h el i t e r a t u r e t i l ep r o b a b i l i s t i cp c a ,i n t r o d u c e db yt i p p i n g a n db i s h o pf 3 9 ,4 0 1a n dt e r m e da sg a u s s i a n p p 删h e r e ,i sap a r t i c u l a r l yi m p o r t a n to u e o fs u c he f f o r t i nt h i st h e s i s ;w ed e r i v ep r o b a b i l i s t i cp c a ,w h i c hw ec a l li tt - p p g a lf o r d a t as a m p l e df t o mt h ef i n i t em i x t u r eo fm u l t i v a r i a t et - d i s t r i b u t i o n s ,w h e r e b yw eo b t a i na n e w g e n e r a l p u r p o s ed i m e n s i o nr e d u c t i o na l g o r i t h mw h i c h i so fs o m ei m p o r t a n c ei nb o t b t h e o r ya n da p p l i c a t i o n o u rm a i nc o n t r i b u t i o n sa r es u m m a r i z e da sw h a tf o l l o w s : t h e o r e t i c a hs u p p o s ed a t aw e r es a m p l e df r o n lam i x t u r eo fmd - v a r i a t et - d i s t r i b u t i o n s ;a n de a c hm i x i n gc o m p o n e n ts a t i s f i e sa ni s o t r o p i cf a c t o ra n a l y s i sm o d e l ( s e e 3 21 ) i nc h a p t e r s3a n d4 ,w ed e r i v e dt h em a x i m u ml i k e l i h o o de s t i m a t i o no f t h em o d e lp a r a m e t e r sb yu s i n gt h ee m t y p ea l g o r i t h m ,w h i c hp r o v i d e su san e w d a t ap r o j e c t i o na n dr e c o n s t r u c t i o na l g o r i t h m ,i e ,t - p p c a w h e nt h e d e g r e eo f f r e e d o n :i s = o o t - p p c ai 8e x a c t l yt h eg a n s s i a n p p c a i nt h ec a s em = 1 t h e p r o j e c t i o ni sg i v e nb yt h ep r i n c i p a lc o m p o n e n td e c o m p o s i t i o no fam a t r i xs 7 ( s e e 3 1 ) ,w h i c hi sr e d u c e dt ot h es a m p l ec o v a r i a n c em a t r i xso n l yw h e n = 。o t h i s s h o w st h a tt h eu s u a ip c a i sa d e q u a t eo n l yf o rn o r m a ld a t a a p p l i c a t i o n s :a sd a t ai s m o d e l l e da sf i n i t em i x t u r eo ft - d i s t r i b u t i o n s t - p p c a i sr o b u s ti na p p l i c a t i o n c o m p a r i n gw i t ht h eu s eo fg a u s s i a nd i s t r i b u t i o n ,o u r a p p r o a c hd o e sg i v eb e t t e rr e s u l t s a si s s h o w nb yt h ee x p e r i m e n t si nc h a p t e r5 t h ee x p e r i m e n to nh a n d w r i t t e ne n g l i s hl e t t e rr e c o g n i t i o ni n 5 1s h o w st h a tt h e e r r o rr a t eo ft p p c ai ss i g n i f i c a n t l ys m a l l e rt h a nt h a to fg a n s s i a n - p p c a ( s e et a b l e 5 1 ) w er e c o g n i z e df r o mb o t ht a b l e st h a td a t ap r o j e c t i o nm a yb en e c e s s a r yb e f o r e c l a s s i f i c a t i o n t h i sp h e n o m e n o ni s1 e f tt ot h ef u t u r es t u d y i nt h ee x p e r i m e n t o nd a t ac o m p r e s s i o ni n 5 2 ,b y c o m p a r i n gf 逗5 2w i t h5 3 ,t h eq u a l i t yo ft h e c o n s t r u c t e di m a g eg i v e nb yt - p p c ai s e v i d e n t l yb e t t e rt h a nt h a t v i ag a u s s i a n p p c a k e y w o r d s :p r o b a b i l i s t i cp c a ,i m a g ec o m p r e s s i o n ,h a n d w r i t t e nl e t t e rr e c o g n i t i o n ,m i x t u r em o d e l ,e m a l g o r i t h m ,td i s t r i b u t i o n 东南大学学位论文独创性声明及使用授权的说明 、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示 了谢意。 签名:越墼生日期:里生! 笪主史 二、关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公 布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办 理。 签名:惠。童釜导师签名:芝塞i 墨日期:皂芝坠! 堕兰望 东南大学硕士学位论文 致谢 本论文是在我的导师江其保副教授悉心的指导和关注下完成的。在完成论文的过 程中,江老师渊博的知识和严谨的作风使我受益良多。此外,江老师在严格要求论文质 量的同时,给予本人无微不至的关怀和帮助,在此表示衷心的感谢【 在研究生学习期间,韦博成教授,朱道元教授,胡跃清副教授,徐君祥教授等也给予 我很多教导和帮助。从他们那里,我学到了很多知识,为本篇论文的完成打下了坚实的 基础。在此表示深深的谢意! 东南炙学硕士学位论文 第一章 介绍 1 1 背爨及相关工作 1 1 1 缎数灾难和数据降维 对于计算褥窘,维数d 是一个臭名鼹磐翡参数。在数值分析、运筹学及数器处理等顿域孛,人 翻援鐾数舞万嵇茅鬟酶宠难,名之基鬃教灾难嚣于b e l l m a n ) 。英瑟嚣覆舞孳:一敷瓣吉,瓣莲 酶规模及英诗第笺杂性通常v 2 d 凌幂酶速度增长,孬算法酶浚鼓邃发瓣激d 次幂酶速度下降。这使 得许多高维计算事实上难以进行。比如,通常的数值积分算法对于2 0 维以上的问题平仅收敛速度 慢而且结果很不准确。正因为此,b a y e s 统计一直找不到广泛的应用。直到1 9 9 0 年g d f a n d 等人采 用m c m c 算法计算后验密度中的积分问题,b a y e s 统计才重新获得生命,井成为近十年来统计学中 发展最快的领域之一。详细情况见f 1 嗣注意,多数情况下,m c m c 算法的复杂性仅为d 的线性函 数,挠孬有效蟪避免了维鼓灾难类敲的著名钢子还专运筹学申嚣磊恋规到方整。熊搿,毕竟只寿 帮分巍鞠凌楚簸够装入垂费卷怒鲻羲壤絮,嚣藏,运筹学孛瓣簿数灾难蘑莲运来霉垂黎决+ 在数据处理领域,维数灾难随楚可豫。人们很难儆到商缝数据酶可祝他。高维密度获多元画归 函数的非参数估计比起相应的一维问题瓣困难得多其原因不仅仅是计算的难度,还在于如下令人 感到绝望的事冀;1 3 6 1 :随着维数的增加,人们在感兴趣的区域中拽到样本的概率越来越小,并趋向 于0 比如,各分嚣彼此独立且服从标准正态分布的l o 维随机向擞落在半径为1 1 6 的超球内的概率 不足1 ;并l 蔓越过0 ,5 曲概率落在密度使小予0 。0 1 的区域中。如此带实使得高雏统计推断的有效性和 合理鞋变褥每人镪疑, 在应蘑领蠛,商维数据跑电费是。狳诧之绛,海量数器、非线幢数器鞋及羲器受瑗姆粪时性要 求也是经常磁列的难题。这一切要求人们不断发展数据处理的新技术和新方法在遮方面,数据降 维是普遍采用的思路。从早先的主成分分析、因子分析到1 9 7 0 年左右出现的投影迫踪f l8 1 ,以及后 来的非线性p c a ,混合p c a 和概率p c a ,新的数据投影技术邵断涌现。在 1 2 1 中,作者们将数据 投影与回归函数的估计同时考虑,从而将投影映射的计算化为参数估计问题。这种工作述有许多, 置姥文所列参考文献。本文给出曲t - p p c a 及其混合假定数器寒巍多元分布曲有限混合,簿每个混 台戏务鸯各密赫授彩块慧。这些酸曩掌垮寒鑫极大餐然话谤。蠹予舞蔽麓台可虢鸯藏遥避任毒分布, 东南大学硕士学位论文 再加上分布所闰有的稳健性,所以t ,p p c a 应当是一种普适的数据投影方法 l 。1 2经典跑p e a 主成分分糖( p c a ) 2 2 ,l 是一静常埔盼数裙降雏技术,太多数关于多元舟街舔教萃毒书中部有擐 详细的介绍艇成用领域非常广泛,其中包括数据压缩、图像分析、模式识别、回归分拼以及时闻 序列预测。 p c a 就是样本协方差矩阵的谱分解。下面的定义最早是由h o t e l l i n g 【1 7 于1 9 3 3 年提出来的:对 于d 维观测数据壤 t 。,礼= 1 , ,谯空间r “中寻找q 个两两正交的单位向量w ,j = l ,q , 获褥数撂投影礁这q 令囊量辑强戒鲍q 维予空阐上翡弱寨方蓑毁大。设毛鸯撑本臻毽,豢耪诞锈,这 些盎量w j 薏撵零诲方差矩阵s = 。( k 一乏) ( t 。l 罗玲f 舞蒋牮个主特征方鸯,帮,黉q 令最犬酶睾专 征值所对应的的特征向量。也就是说,我们有s w ,= 、叶,j 端l ,q ; l 2 沁映 射t 。一x 。端w 7 ( t 。一毛) 就是所谓的p c a 投影。这里,w 然( w 1 ,w 2 , ,w 。) 注意,吏中黑体字母表示向量成魍阵,符号r 表示转置,字符i 表示单位矩阵,其阶数由上下文 易知。 p e a 舅一定义可鞋追溯n 1 9 0 1 年羚2 骢工于# ,郅,p c a ) 嫒小祀重搀误差| | t 。一i 。酽妁线 性鬏影。记x 。= w 7 ( t 。一。) ,裂t 。瓣最佳绕桎重穗壶蠢燃w x 。毛凌定,并萎w 瓣爨糖量歪 是s 的4 个主特征商量。洪这种方武定义的p c a 有时被称为k a r h u n e n l o g v e 雯挟。 1 1 3 广义p c a 上面定义曲p c a 不涉及生成数据的概率法则,因而可以用予任何场合及任何数据问题是, 蓬着数据新援跌耪概率摸垄翡不霹,速转投影热毒效牲也犬不撩弼。鼠褥,其台理幢也将援其傣 媾嚣焉定。事蜜上,舞奉支所谨,经典鲤p c a 仅仅适燕子寒嘉燕感分毒羲致器,露分帮羹l 手簸 ( 觅3 ,l ,。遗谶磷,一个好的数据降维算法应当充分考虑数撼酶具体特点。本着这一思想,人们 提出7 若干广义的p e a ,其中包括非线性p c a ,概率p c a 及混奋p c a 。 非线性p c a 【1 4 ,2 5 ,3 8 ,4 1 ,5 】生嚣针对非线性数据所谓数据的非线性性颇夸人赞解,一般 是指沿某个( 弯曲的) 子流形分布的数据,如多峰分布。对于这种数据,非线性p c a 希望用非线性 投影取代经典p c a 中的线性投影,以保留更多的数据方差。这摄然是必要的,台理的媳一思路当 然适燕子经彝数据。不过,对于多元嚣惑数据,最魏授影仍然蔻线注戆,辇爰若没毒褥巅茨善。多 元汾毒是是一夸常霓的撩球形分布壤撂我唾j 翡结果( 墨斡1 ,速一情露酶最饶线瞧授影并菲样 本协方差矩阵的生成分分解,从而不能极大亿保留方差。这谎明,非线性p c a 极大化体蜉方差的做 法是值得怀疑的。 来自混合分布的数据是一类典裂的非线性数据我们当然可以使用非线性p c a 。但曼合理的 处理方法是所谓的踞舍p c a 。在这里,对路定数据点,投影映射按一定的概率分布随机地选自某 线性投影的集念在统计学中,混合摸型及e m 垩算珐早巴翥大量的辑究,已经相当成熟。在规器 学毒覆摸式没熟镶城,捷蠲混合攘燕寒穆专家灌寺在一起旋毙嘏妥癸短戆壹蕊想法 2 镬。这里, 每个专家对藏子混台模型中酶一个成分。雀分类问题中。若数据t 在给定类别编号f 时的条侔密度 2 东南大学硕士学位论文 为p ( t t7 ) ,7 r ,为类编号j 的先验概率,那么在不知道类别编号时t 具有密度,p ( t l j ) 这说明,分类 问题中的数据一般服从某一混合模型。疾病诊断中采用专家组的做法也从另一个侧面说明了混合模 型及“专家混合”在分类问题中的重要性及合理性。 “专家混合”的思想用于数据投影就产生了所谓的“混合p c a ”。这其中包括3 9 ,4 0 1 中给出 的c a u s s i a n p p c a 。除此以外的混合p c a 并未用到生成数据的概率模型。其基本思路是寻找若干 线性投影( 称为局部p c a ) 的混合,使得相应的聚类具有某种最优性,如最小的重构误差。在这些 工作中,由于没有使用数据的参数模型,所以一般采用非参数的聚类方法。对这种混合p c a ,局 部p c a - - 般来自如下的两个过程:先避行数据空间的分类或聚类,再在每一个类中进行主子空问的 估计。由于分类取决于子空间的估计,而估计又取决于分类,所以这两个阶段是耦合在一起的。目 前,这种混合p c a 已经有多种具体的实现f 1 6 ,2 4 ,7 ,1 5 ,1 1 1 ,它们分别对应于不同的算法。之所以 有如此多的实现方案,原因在于聚类标准可以有多种选择:而且聚类算法也有许多种3 7 1 ;既可以 采用“硬”聚类,也可以采用所谓的软聚类。不管如何,在所有这些实现中,由于局部p c a 并非来 自概率模型的参数估计,所以所谓“p c a 的混合”不过是一类缺乏统计学理论根据的算法。 1 1 4 概率p c a t i p p i n g 和b i s h o p 3 9 ,4 0 】的概率- p c a ( g a u s s i a n p p c a ) 假定数据来自多元正态分布的有限 混合,其中的每个说合成分均满足迷向园子分析模型。这样一束,所有的模型参数都可由极大化一 个似然函数来估计,从而,p c a 及混合p c a 就有了清楚的定义和唯一的算法,以及坚实的统计学基 础。所以,姑且不论上述假设的合理性,这一途径的确有许多好处: 对应的似然函数允许与其他密度估计方法比较,从而可以作统计检验。 通过似然与先验的组合可以进行贝叶斯推断,以用于解决模型比较之类的问题。 在分类问题中,可以用p c a 来模型化类条件密度,因而允许计算类成员的后验概率。这与o j a f 3 1 】和h i n t o n 等人【1 5 】的方法形成鲜明的对照。 概率密度函数的值可以用来作为新数据点之“新颖度”( d e g r e eo f n o v e l t y ) g ? 度t 。这可以用 来实现【2 1 ,3 4 】的“基于自动编码的p c a ” 很容易从单个的p c a 定义混合p c a 最后一条尤为重要,因为p c a 仅仅定义了一个数据的线性映射,其应用范围自然受到了限制,特别 是不能用于模式识别中数据 3 东南大学硕士学位论文 1 2 本文的主要工作 1 2 1出发点 我们认为,在所有的广义p c a 中,概率p c a 所采用的途径从统计学的角度看是最自然的,因 而是最合理的然而,同样从统计学( 和应用) 的角度考虑,g a u s s i a n p p c a 的模型假设却不能 令人满意。前文已经指出,数据服从多元正态分布的有限混合是g a u s s i a n p p c a 的基本假设。但 是,统计学的常识告诉我们,正态分布缺乏稳健性。也就是说,数据中的异常点会严重影响参数 的估计值,从而使统计推断的结果严重背离事实。基于这一考虑,所谓稳健统计应运而生。这充分 说明统计方法的稳健性是一个极为重要的问题。 - 3 然,使用有限混合模型本身也是改进稳健性的一 条有效途径,因其至少能够模拟多峰数据。然而,事实证明,这一方法对于图像分析及模式识别之 类的应用问题还不足以解决稳健性问题。这是因为我们的实验结果大大优于g a u s s i a n - p p c a 给出 的结果。根本原因在于理论模型毕竟是理想化的假设,实际数据千姿百态,很难指望其服从人的意 志,真的来自我们指定的模型。 在统计学中,采用分布是获得稳健性的常用方法 2 6 ,8 ,3 3 ,3 5 1 。比如,如果用正态分布拟合 数据,那么异常点会严重影响期望和方差的估计,从而使拟合的密度曲线与实际的密度有很大的 偏离;但如果采用分布,则通过适当选择自由度的大小,有无异常点对期望和方差的估计以及拟 合曲线影响并不大。因此,我们假定数据服从t 分布的有限混合,并采用概率p c a 的思路以及盼布 的处理技术( 主要是e m 型算法) ,以建立一种基于t 分布的概率p c a ,即,t - p p c a 这就是本文 的出发点及主要任务。注意,在一p p c a 情形,我们同样没有理由认为实际数据恰好满足我们的模 型。事实上,就我们的应用领域而言,由于数据的复杂性,谁也不知道数据所满足的精确概率规 则。但是,这一点对于t p p c a 并没有太大的影响。这是因为我们的模型容许实际数据与我们的假 设之间有一定的误差。只要误差足够小,玢布的稳健性就足毗保证结果不会明显偏离现实。另一 方面,我们知道有限混合分布可以逼近任意分布。这说明,只要参数选得合理,就的确能够保证误 差足够小。因此,至少在理论上,t p p c a 应当是一种普遍适用的数据降维方法我们的实验结果 在某种意义上的确证明了这一点。 由于正态分布是t 分布的特例。因此t p p c a 是g a u s s i a n - p p c a 的推广由于t 分布比正态分布 更难以处理,所以这一推广具有一定的理论意义。这也是本文的第二个出发点 1 2 2 一p p c a 的理论研究 自从d e m p s t e r 等人【9 】于1 9 7 7 年提i t j e m 算法以来,t 分布的极大似然估计几乎全部采用e m 型 算法,方法是将分布视为正态分布的某种混合【2 8 1 。具体地说,如果t 卜服从正态分布,r ) ,r 服从g a m m a 分布岔( 2 ,2 ) ,则t 服从t 分布- t ( u ,e ,p ) 变量r 可以认为是生成数据t 的过程中的隐 藏变量。利用这一技巧,我们的假设可以写成32 1 中的一般模型。其要素包含以下两点: d 维数据t 。来自m 个多元分布的混合;混合的权重为分布 7 r 。,丌m ) ;每个混合成分有备自 的参数; 给定混合成分编号t 时,t 。线性依赖于一个q 维向量x 。;,外加各向同性的独立噪声。 东南大学硕士学位论文 将由此模型确定的投影。:t 一吏,竺e ( x :i t ) 按权重丌。混合,就得到了混合t p p c a ;而每个1 1 :均 为单个t p p c a 。 剩下的主要问题是投影。的计算,而这又取决于模型参数的估计。在这方面,使用e m 型算法 是最标准的做法。最原始n e m 来自9 1 其结构非常简单。后来,人们从不同的角度对此进行了各 种各样的改进:比如,针对m 步使用加速方案,以提高收敛速度;使用随机搜索,以获得全局最 优点。撇开这两种改进不谈,那么最一般的e m 型算法应当是3 0 1 中的a e c m 算法。与基本的e m 相 比,a e c m 算法中的e 步也是计算期望对数似然,不同之处在于m 步换成了若干个c m 步。按照 定义,c m 只更新参数向量的某个子向量,即,在其它分量代以其对应的最新值的情况下,选择 该子向量的新值,使期望对数似然达到最大。在一般的a e c m 中,算法的一次选代被划分成若干 轮循环;每一轮均由e 步开始,后接若干个c m 步。在本文中,为了估计f 3 2 1 中的模型参数,利 用f 4 1 中的计算结果我们首先在32 2 3 实现了一个e c m 算法;然后,在此基础上,我们实现了 一个可以估计除混合分支个数m 及维数口以外的所有参数的a e c m 算法( 见t 3 24 5 ) 。与前面 的e c m 相比,后一算法的参数更新表达武更简单,收敛速度更快。因此,在第5 章的计算机实验 中,我们全部采用第二个算法。注意,m 和q 的估计是典型的模型选择问题。对此,我们留待今后 进一步研究。 得到了参数估计之后,我们很容易得出投影。的性质( f 42 ) 及表达式( f 3 26 ) ,以及从 投影的像到原来的数据向量的最优线性重构( 43 ) 。正如我们在f 31 中所指出的那样,由我们 的模型所给出的单分支数据投影来自矩阵s 的谱分解。这一点类似于经典的p c a 投影以及f 3 9 , 4 0 】的g a u s s i a n p p c a 在那里,用到的矩阵为样本协方差阵s 由于这种相似性,我们将本文 得到的数据投影称为亡_ p p c a 起始字母t 表示这里使用t 分布,而不是g a u s s i a n - p p c a 中所考 虑的多元正态分布。此外,从( 41 3 ) 式可以看出,矩阵s 与样本协方差阵s 并不相同。这说明经典 的p c a 投影的合理性对于非正态分布是有问题的;通过极大化保留数据方差来定义数据投影的做法 也是有疑问的。 综上所述,本文的理论贡献主要体现在以下三个方面: 我们导出了一种新的广义p c a 数据投影,即,t - p p c a 及其有限混合;g a u s s i a n - p p c a 是t p p c a 的一个特例。 如经典p c a 那样用样本协方差阵构造数据投影并不总是恰当的,即使对于象t 分布那样的椭 球形分布。 数据投影对于分类而言可能是必须的。这一结论是5 1 的实验结果的副产品我们并未给 出理论证明。容易证明( 见1 1 0 ,t h e o r e m3 3 ) ,任何数据投影只会损失信息,比如,增 j , b a y e s 分类或n n 分类的错误概率。因此,我们的实验结论是相当令人吃惊的。我们判断, 数据投影的必要性可能与模型选择问题中的过度拟合有关。 东南大学硕士学位论文 1 2 3t - p p c a 应用 为了检验一p p c a 的实际应用价值,我们分别将一p p c a 和g a u s s i a n p p c a 用于同样的数据, 然后比较对应的输出。第五章所描述的计算结果表明,无论是图像压缩还是手写字母识别,t p p c a 均明显优于g a u s s i a n p p c a ,这充分显示了稳健性方面的差异所带来的实际效果。由此, 我们认为,t - p p c a 应当具有相当好的应用前景。我们正在考虑用t - p p c a 定义的投影取代。i p e g 中 使用的d c tf d i s c r e t ec o s i n et r a n s f o r m ) ,期望能够得到一个品质更好的图像压缩工具。 在s 52 中,我们考虑一幅真实图像( 见图5 1 ) 的压缩。为此,首先将图像划分成4 0 9 6 个两两 不相交的8 8 0 9 像素块。每个像素块对应于一个6 4 维的数据向量然后,我们用左半幅图像所对应 的数据估计模型参数;另一半数据用于检验压缩效果。我们采用常见的块编码( b l o c ke n c o d i n g ) 的图像压缩方案,即,8 8 的像素块t 压缩成向量( n k ( t ) ,角) ,其中,i i k :豫“+ 彬为混台概 率p c a 中的第k 个p c a 投影。我们对下标南的要求是相应的重构误差l i n k ( t ) 一b k b p k i i 达到最 小。我们给出了使用g a u s s i a n p p c a ( 图5 2 ) 及p p c a ( 图53 ) 压缩之后再重构或解压缩的结 果。比较这两幅图像,我们看到一p p c a 明显好于g a u s s i a n - p p c a ;前者的均方重构误差也只有后 者的8 76 在51 的手写大写英文字母识别的实验中,我们使用了一个包含2 0 ,0 0 0 条数据的免费数据集。 其中的1 6 ,0 0 0 条用作训练样本,剩下0 9 4 ,0 0 0 条用于检验分类器的效果这两组数据对应的分类 错误率e ,及e 。用于衡量分类器的性能。每个数据点并不是字模的位图图像,而是由其统计特征构 成的1 6 维特征向量( f e a t u r ev e c t o r ) 。这些字模来自2 0 个字体,外加随机的扭曲我们的分类器 使用混合概率p c a 模型( 见3 2 1 ) 。在实验中,每个字母对应于p 个混合成分因此,模型共 有2 6 p 个混合成分,分类器的任务是确定任意数据点t 所属的混合成分编号同铀2 ,我们要求选 择的编号南使相应的重构误差最小。最后的实验结果见表5 1 从表中我们看到,当p = 3 时,t p p c a 的( 检验) 错误率仅为g a u s s i a n p p c a 的一半另外,分类器的性能依赖于投影的值域空 间的维数日我们的结果显示,此值过小和过大都不好。前者显然是因为投影丢失了太多的信息。后 者则不好理解:丢失的信息很少,分类错误反而更多。此悖论留待今后进一步研究。 1 2 4余下各个章节的安排 考虑到文章的可读性,我们在第二章给出了隐藏量( 1 a t e n tv a r i a b l e ) 模型的一些概念,并 简要回顾了g a u s s i a n p p c a 的一些主要步骤。第三章第一节的主要的目的是讨论单个t p p c a 投 影的性质;第二节研究完整的混合t p p c a ,包括模型的定义及参数估计但主要的数学推导则 放在第四章。第五章是一p p c a 应用研究,包括字母识别及图像压缩。 东一南大学硕士学位论文 第二章 ga u s s i a n ppca a u s s l a n _ 2 1隐藏变量模型 臆嵩变量摸型认为,d 维的观测数据t 由某个q 维的隐藏变量x 决定 t = y ( x ;w ) + e( 2 1 ) 其中,y ( - ;) 是隐藏变量x 和参数w 的函数;e 是独立于x 的噪声过程。由于隐藏变量能更简洁 的描绘数据、抓住数据的主要部分,所以我们通常有q 0 ,密度函数为 p ( t i p ,”) = g ;若器f 1 + ( t p ) 7 一1 “一p ) 卅一p + 由2 ,( 3 1 ) 的d 元d 分布t 似,e ,) 的随机样本,其中,矩阵是正定对称的。如所熟知 2 8 】当p 1 时,p 为 均值向量;当p 2 时,e v ( p 一2 ) 为协方差矩阵;正态分布札,) 就是极限似,e ,o 。) 此外 盼布可以看作是正态分布的混合。这是一种常用的的数据放大技巧【2 8 ,3 0 ,3 5 】,具体细节如下。 为了生成一个服从分布的随机向i t ,我们先从g a m m a 分布9 ( p 2 ,2 ) 中抽取一个样本r 注意, 一般的岔( d ,卢) 具有密度 p 刊啪= 筹e x p 堆) 得到r 之后,对正态分布 厂m ,r ) 再抽样就得到了向量t 由于 ,( t i r ) = i i ;斋e x p ( 一j ( t ( 32 ) 墨圭查兰堡主堂堡垒查 一一 我们容易验证p ( t 1 ,上,v ) = j p ( t l r ) p ( r ) d t 作为g a u s s i a n p p c a 的自然推广,我们假定服从t 分布的随机向量t 满足以下模型 t j r ,x = w x + p + e ; x l r n ( o ,i r ) ,e l r 一( o ,口2 i r ) 下9 ( 2 ,v 2 ) ( 33 ) ( 34 ) ( 35 ) 在这里,圈子分析模型33 中的辨随机向量x 代表了影响数据t 的各个分量的公共因素;各分量所固 有的因素则是各向同性的噪声向量e 这一点与g a u s s i a n p p c a 完全一样。模型中需要估计的参数 包括口,均值“以及园子负荷w 由t t l x ,r 沁+ w x ,0 - 2 i f ) ,所以我们有t 1 t 咄,e 7 ) 其中= 盯z i + w w 7 根据上一段所给出的分布的两步生成方法,我们不难得到 x t ( o ,i ,p ) ,t t ( p ,p ) ( 36 ) 利用贝叶斯规则,我们可以进一步计算出随机向量x 在给定隐藏变量丁和观测变量t 时的条件分布 x l f ,t 一( w 7 e 一1 ( t p ) ,】- i p ) x | t t ( w 7 e 一1 ( t 一肛) ,t - i p ,) 其中,p = i w 7 一。w 观测数据t 。,n = 1 ,2 ,的对数似然为 如:。l n 阶n ) 】= 一i n l n l | _ 字三n1 n 1 + 刊7 e _ 1 ( t 。刊卅 ( 37 ) ( 3 8 ) 其中,当作一个已知常数。与c 。比较,c 。的极大化比较复杂,不易求解。因此我们改用不同的方法 导出参数向量0 = ( w ,肛,矿) 的极大似然估计与以往一样( 见,比如,【2 8 ,3 0 1 ) ,我们借助于e m 算 法来实现我们的目的。为此,我们把( 3 3 ) 一( 35 ) 看作是关于完全数据( t ,x ,f ) 的模型,其中,t 为观测 数据,x 和r 是丢失信息。 关于基本的e m 及其变形,可以参考f 9 ,2 9 1 ,为了实现e m ,我们只需求出从参数的旧值0 到其新 值日= ( w ,面,子2 ) 的参数更新方程。下文的4 1 成功地完成了这项任务在那里,我们证明,通过 等式( 4 1 0 ) 一( 4 1 2 ) 参数的新值否完全由其旧值0 决定。众所周知,由于e m 迭代总是使得真实的对数似 然c 。的值单调增加( 即c 3 ( 百) c 。( 日) ) ,除非参数更新已经到达c a 的局部最大值点,所以,e m ;g 法 总是收敛的。我们将参数向量e m 算法选代无穷多次之后的极限值记为0 e m = ( w e m ,p e m ,盯毛m ) 不难发现,如果将臼和日全部抉成扫b m ,则日e m 满足更新方程组( 4 1 0 ) 一( 4 1 2 ) 。显然,0 e m 是对数似 然c a 的局部极大值点 一般来说,对数似然可能有许多局部极大值点,从而e m 未必能够到达对数似然c 3 的全局最大值 点在这种情况下,0 e m 并不是极大似然估f r o m 。如果二者正好相等,那么我们能够证明w e m 有 以下分解式f 见42 ) : w e m = w m l = u ( a o h l i ) 1 r ,( : 9 ) ,j o 东南大学硕士学位论文 其中,a 是对角矩阵,r 是任意的( 口x 口) 正交矩阵:r 的第z 个列向量u :和a 的第i 个对角元素是s 的 第2 个特征值一特征向量对。这里,矩阵s 由( 41 3 ) 式定义;其特征值a 。,a 2 ,a d 以降序排列。 利用( 3o ) ,我们也能证明极大似然估计盯l 满足盯k l = 击冬。+ 。a ,。利用( 3 9 ) 和( 46 ) 、我们有 :t r 一i 垒e ( x l t ,0 m l ) = w 晶l 爿l ( t p m l ) = r a 一1 ( a 一矿矗l i ) u 7 ( t p mt ) , 其中,e m l 皇口敲i i + w m l w 晶i 显然,是p c a 型的映射,可以看, 成g a u s s i a n p p c a 的推广。 按照这一映射,数据点t p m l 首先映射到s 的q 维主子空间的点u 7 ( t p m l ) ;然后,在主子空间 中进行尺度变换a 一( a 一盯玉。i ) ,最后再做一个旋转r ,我们就得到了点囊由此,我们可以很清楚 地看出t - p p c a 这一术语的由来。 作为总结,g a u s s i a n - p p c a 的主要结果在t p p c a t 仍然有效。然而,由于s 本身依赖于w e m , 式( 3 9 ) 不能作为参数w 的估计,而只是w e m 所满足的性质。但这性质很重要,因为它表明是p c a 型的投影。另一方面,除了正态情形( = 。) ,s 一般不等于样本协方差矩阵。因此,我们的结 果说明,从保留最大的样本方差的角度寻找数据投影并不总是合理的,即使对于如t 分布那样的椭 球形分布。 3 2混合一p p c a 混合模型是描写真实数据复杂性的常用方法,在机器学习领域,这一模型演变成所谓的“专家 混合”【2 3 ,2 0 l z,受到了广泛的重视,由此派生出一些新模型和新方法、其中包括在分类和图像 压缩中有很重要应用的混合p c a 【1 5 ,1 6 ,4 0 】在这一节,我们用混合模型导出一p p c a 的有限混合。 3 2 1 模型 假定独立同分布的样本n 。) _ ,由以下两个步骤产生:首先按照分布p ( t ) = 丌。, = 1 ,m , 产生一个自然数t ;然后,对于给定的i ,用下面的模型生成数据t 。: t 。i 丁n ,x n ;= w ,x 。+ 地+ e 。; x 。i f 靠,一h ( o ,i r ;) ,e 。小k 一( o ,口;i h 。) ; h i g ( v 1 2 ,2 ) 这就是说,数据服从权重为仉的m 个成分的混合模型注意,每个成分都有自己的均值地及参数w 和盯7 每个成分还有自己的的隐藏向量x 。,它们彼此独立。此外,模型还假定所有成分具有相同的 “自由度”v 3 2 2e m 算法 显然,我们一般不可能获得最大化下列对数似然的显示解 = 2 。,n o 。,( t 。叫 东南大学硕士学位论文 因而,我们需要利用e m 算法来估计模型的参数。这里,丢失数据包括隐藏向量 x ,服从r 分布 的随机标量h 。以及用来表示数据点t 。来自哪个混合成分的二值变量 z 。我们规定,当t 。来自 第i 个混合成分时、磊。取值为1 、否则取值为0 设 v ( t 。,x g 。:) = 丌,p ( t x 。h 。) 为观测变量和隐藏变量的联合分布,其中,p ( t 。,x 。,h ,) 是给定。= l 时向量( t ,。x ,h ,) 的密度函 数。如果忽略所有的下标:,那么此函数完全等同于( 42 ) 式给出的单个成分的密度函数。于是,我们 得到完全数据的对数似然 c a ( ) = 竺,三。1 n 协p ( t 。,x 。“击叫) 其中,目。= ( w 。地,口? ) ,o = ( 札,o i ;i = 1 ,m ) 在e m 的每一次迭代中,模型参数通过e 步和m 步将其旧值 更新为新值= ( 氟,舀,;i = 1 m ) ,这里,i ,= ( 雨:,玩,砰) e 步的任务是计算条件期望 q ( 画; ) = e 。h 小。,o ( c 。( 西) ) 在这里,我们首先在给定观测变量t 。及参数旧值 的条件下,计算丢失数据x 。如。及r :的后验分 布;然后,用此分布计算4 ( ) 的条件期望注意,q ( ;o ) 中的。来自似然函数4 ( ) ,而。则 来自丢失数据的后验分布。 m 步的任务是寻找一个能最大化q ( ;o ) 的函数 = (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论