(概率论与数理统计专业论文)独立分量分析的非参数方法.pdf_第1页
(概率论与数理统计专业论文)独立分量分析的非参数方法.pdf_第2页
(概率论与数理统计专业论文)独立分量分析的非参数方法.pdf_第3页
(概率论与数理统计专业论文)独立分量分析的非参数方法.pdf_第4页
(概率论与数理统计专业论文)独立分量分析的非参数方法.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(概率论与数理统计专业论文)独立分量分析的非参数方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ,c o m o n ( 1 9 9 4 ) ) 是近年来 发展起来的一种信号处理技术。起源于解决盲源分离问题( b l i n ds o u s es e p a r a t i o n , b s s ,j u t t e na n dh e r a u k ( 1 9 9 1 ) ) ,即从混合信号中分离出独立分量( 如不同声音,音 乐或者噪音) 具体地讲,除了已有混合信号的记录外,源信号( s o u r c es i g n a l ) 和混合 方式都是未知的,在这个条件下,设法分离出独立源信号的问题就是盲源分离问题 根据源信号混合形式的不同,独立分量分析可分为线性独立分量分析( l i n e a r i c a ) 和非线性独立分析( n o n - l i n e a ri c a ) ,本文主要研究线陛情况设可观察的 m 维随机变量为x = ( x v 一,x 。) ,未知的具有独立分量的n 维源向量为s = ( 8 h 一,) 它们之间的混合方式为 x = a s 其中a 未知m 礼阶矩阵,称为混合矩阵i c a 的基本问题是利用观测到的信 号x ,估计出源信号s 的一个版本,或者等价地。估计出混合矩阵a 解决这个问 题的经典方法是信息最大方法( 1 n f o m a x ,b e l la n ds e j n o w s k i ( 1 9 9 5 ) ) ,可以证明这类 方法和统计学中的极大似然法( m a x i m u ml i k e l i h o o d ,c a r d o s o ( 1 9 9 7 ) ) 是等价的 独立分量分析的其他方法有非线性主分量分析方法( n o n - l i n e a rp r i n c i p a lc o m p o - n e n ta n a l y s i s ,o j a ( 1 9 9 9 ) ) 累积量法( c u m u l a n t ,c a r d o s o ( 1 9 9 0 ) ) ,b u s s g a n g 算法( c i r o i a m ia n df y f e ( 1 9 9 7 b ) ) 以及快速定点算法( 飚tf i x e d - p o i n t ,h y v a e r i n e na n d o j a ( 1 9 9 7 ) ) 等,所有这些方法的共同问题是在处理未知独立分量的密度上,采取有 限阶矩近似或者参数办法,限制了方法的应用范围比如信息最大化办法就无法分 离含有重尾( h i g hk u r t o s i s ) 分布的信号正式基于这个原因我们考虑非参数方 法一核密度估计( k e r n e ld e n s i t ye s t i m a t e ( k d e ) ,s i l v e r m a n ( 1 9 8 6 ) ) 方法估 j i i 摘要 一 计来知信号的密度,但问题是没有现成的样本数据我们的处理思路是利用观测到 的混合信号x ( t ) r n , t = 1 ,2 ,r 经过投影得到的拟样本( q u a s j s a n lp 】e k s = 叫? x ( 牝= 1 ,2 ,丁,i = 1 2 ,s ( 亡) = w 丁x ( t ) ,t = 1 川2 一,丁做联 合密度和边缘密度函数的非参数密度核估计量: ( 8 ,= 嘉喜( 掣) 舶扣去砉凰( 华) 其中k n ,k 1 分别为n 维和维标准正态分布密度函数: 爿k ( x ) = ( 2 ) - n e x p 一;x t x ,k 1 ( 算) 一( 2 7 r ) 一l e x p 一;茁2 ) 定义 rrn12 g ( w ) = f ,) 一z 瓴) j 作为独立性的定量指标( 日标函数) ,最小化这个目标函数得到参数就是要求的混合 矩阵的元素本文采用随机寻找( r a n d o m s e a r c h i n g ) 的办法得到该参数的估计随 机模拟表明,效果很理想该方法在使用范围上对信源分布没有限制,可用于一般的 独立分量分离| 可题 整个文章安撒h 下; 第一章介绍了独立分量分析的基本背景和应用领域。给出几个i c a 的基本模型 以及假设条件 第二章给出必要的预_ 备知识主要包括梯度概念。因为独立分量分析问题,基本 是算法问题- 所以我们给出了梯度的基本内容另个塞本概念就是独立性结合独立 分量分析的环境,我们给出它和相关性关系的个很好的例子,而这个例子在一般的 文献中都提到,但没有很细致的数学解释,在本章本人给出较全面的分析独立分量 摘要i 分析的第三个明显特征是非线性分析方法,这里的非线性是指高阶方法( h i g h o r d e r m e t h o d s ) ,即研究随机变量的高阶矩有关信息而经典的多元分析方法基本是线性方 法,或二阶方法( s e c o n d o r d e rm e t h o d s ) 。即仅限于研究随机变量的二阶信息所以 本章花了一定精力在两种方法的比较上最后个预备知识是神经网络因为作为一 种重要的非线性算法- 神经网络一在统计学上的应用越来越受到重视,而且在献中, 独立分量分析和神经网络几乎是无法分离的所以我们在这里给了个最经典的后 传网络( b a c k - p r o p a g a t e dd e l t a r u l en e t w o r k s ) 及其应用 第三章把独立分量分析放在统计学习的角度来分析,指出它是一种无师( u n s u p e r v i s e dl e a r n i n g ) 的学习方法 第四章把独立分量分析和多元分析进行的比较,独立分量分析是一种高阶方法, 其主要目的不是。降维”,这是和其他经典多元分析方法的不同之处 第五章把独立分量分析与信息理论结合起来在介绍几个基本概念后,给出i n f o m a x 原则的起源极其处理i c a 问题的不足;目标函数和独立的关系不是一一对应 的,以及处理源信号密度时参数采用手段的缺陷和这个方法本质榷同的极大似然方 法由于也是参数方法,同榉存在类似的同题, 第六章给出独立分量分析和主分量分析的比较,结论是尽管独立分量分析可以 在一定条件下可以非线性主分量分析方法得到但由于其目标函数并不是独立性,而 是最小二乘意义上的拟合误差,独立结果有偶然味道 第七章给出了作者关于独立分量分析的研究一非参数密度估计方法在独立分量 分析中应用,是本论文的重点由于独立在统计上就是密度函数的可因子分解。我们 紧紧围绕这这个定义,井把联合密度和各分量密度乘积的差作为该问题的目标函数 从而得出基i c a 的非参数研究办法本质是对源信号密度的估计,我们用的方法是 非参数”核密度“估计方法,而不是i c a 文献中的各种参数方法这样我们不但有了 联合密度函数。同样也得到各边缘密度函数( 仅用到投影) ,其优点文中给出说明 i v 摘要 第八章简单介绍非线性独立分量分析这里的非线性是指独立分量和观测变量 的非线性函数关系,目前这个领域的研究不多,主要方法是贝叶斯方法,本章简单给 出此方法的说明,并指出我们的方法很容易移植到非线性i c a 问题中 a b s t r a c t i n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ,o rb l i n ds o u r c es e p a r a t i o n ) r e f e r s t ot h e p r o b l e mo fr e c o v e r i n gs t a t i s t i c a l l yi n d e p e n d e n ts i g n a l sf r o ma l i n e a rm i x t u r ew h i c h h a sr e c e i v e dc o n s i d e r a b l ea t t e n t i o ni nt h em a c h i n el e a r n i n gc o m m u n i t yd u r i n gt h e l a s tf e wy e a r s t h e r ei sa v a r i e t yo fs i t u a t i o n sw h e r ew eo b s e r v es i g n a l st h a to r i g i n a t e d a s c o m b i n a t i o no fi n d e p e n d e n tp r o c e s s e so rs o u r c e s a ne x a m p l ei s c o c k t a i l - p a r t y - p r o b l e m ,s o u n da m p l i t u d e si naa c o u s t i ce n v i r o n m e n ta d du pl i n e a r l y m u l t i p l e s o u n ds o u r c e ss u c h 船s p e a k e r s m u s i co rn p i s es o u r c e sa r em e a s u r e db yt h em i c r o p h o n e sa sam i x t u r e t h eq u e s t i o ni s ,h o wc a r lo n er e c o v e rt h ei n d i v i d u a ls p e a k e r s ? e f f e c t i v e l yw ef i n dt h ep r o b l e mo fr e c o v e r i n g s o u r c e sf r o mal i n e a rm i x t u r e w h e n e v e rt h e r ei s i n d e p e n d e n t l yg e n e r a t e ds i g n a l s ,s = ( s l ,a m ) ? ,al i n e a r m e d i u ma a n dan u m b e ro fs e n s o r st od e t e c tt h em i x t u r e sx = a s i nt h ec o c k t a i l - p a r t yp r o b l e mt h et i m ed e p e n d e n t s o u r c e ss ( t ) c o r r e s p o n dt om m u l t i p l es p e a k e r s , w h i l et h em i x t u r e sp a r a m e t e r sa c o r r e s p o n dt ot h er o o mr e s p o n s ec h a r a c t e r i s t i c n o t et h a ta n yp e r m u t a t i o na n ds c a l i n go fi n d e p e n d e n tv a r i a b l e sr e m a i n si n d e - p e n d e n t i nf a c t ,i nt h ef o l l o w i n gs e c t i o n st h er e c o v e r e dm o d e ls o u r c e sa r eo f t e n r e f e r r e dt oa sc o o r d i n a t e s y ,g e n e r a t e db ys o m e l i n e a ri n v e r s i o n ,y = w x s t a t i s t i c a l i n d e p e n d e n c es p e c i f i e st h em o d e l s o u r c e sy o n l yu p t oa na r b i t r a r y s c a l i n g ,e x p r e s s e d h e r ea sad i a g o n a lm a t r i xd ,a n dp e r m u t a t i o np ,i e s = p d y f o rs i m p l i c i t y t h i sw i l lb ei g n o r e di nt h en o t a t i o na tt i m e s ,a n dw ei d e n t i f yt h ee s t i m a t e ds o u r c e s a s = y t h e i c ap r o b l e mh a sb e e ns t u d i e db y m a n yr e s e a r c h e r s i nn e u r a ln e t w o r k sa n d i 1 la b s t r a c t s t a t i s t i c a l s i g n a lp r o c e s s i n g ( j u t t e na n dh e r a n l t ( 1 9 9 1 ) ,c o m o n ( 1 9 9 4 ) , c i c h o c k i , u n b e h a u e na n dk u m m e r t ( 1 9 9 4 ) ,b e l la n ds e j n o w s k i ( 1 9 9 5 ) ,c a r d o s oa n dl a h e l d ( 1 9 9 6 ) ,a m a r i ,c i c h o c k ia n dy a n g ( 1 9 9 6 ) ,p e a r l m u t t e ra n dp a r r a ( 1 9 9 6 ) ,d e c oa n d o b r a d o v i c ( 1 9 9 6 ) ,o j a ( 1 9 9 7 ) ,k a r h u n e n ,o j a ,w a n g ,v i 酌r i oa n dj o u t s e n s a l o ( 1 9 9 7 ) , g i r o l a m ia n df y f e ( 1 9 9 7 a ) ) s e et h ei n t r o d u c t i o no fn a d a la n dp a r g a ( 1 9 9 7 ) f o ra h i s t o r i c a lr e v i e wo fi c a ,s e ek a r h u n e n ( 1 9 9 6 ) f o rar e v i e wo fd i f f e r e n tn e u r a l - b a s e d b l i n ds o u r c e s e p a r a t i o na l g o r i t h m s m o r eg e n e r a li c a r e v i e w sa r ei nc a r d o s o ( 1 9 9 8 ) , l e e ( 1 9 9 8 ) ,a n dl e e ,g i r o l a m i ,b e l la n ds e j n o w s k i ( 1 9 9 9 ) t os u mu p ,t h e s em e t h - o d sc a nb ec l a s s i f i e di n t ot w o t y p e so fl e a r n i n g :b a s e do ni n f o r m a t i o nt h e o r e ma n d o nn o n l i n e a rp c a t h e ya l lh a v et of a c et h es h a p eo fu n k n o w nd e n s r i e so fu n d e r - l y i n gs i g n a l s i nd e a l i n gw i t hd i f f i c u l t i e s ,a l m o s ta l lr e s e a r c h e r sc h o s ep a r a m e t r i c a l a s s u m p t i o nw h i c hl i m i t st h es c o p e so fu s eo ft h e i rm e t h o d s t h ea p p r o a c hw et a k et ot h e s ep r o b l e mi sam o r en a t u r a la n dt o t a l l yd i f f e r e n to n ew h i c hi sm a d eu po ft w op a r t s :t h eo b j e c t i o na n di t sr a n d o ms e a r c h i n g p r o c e d u r e g i v e no b s e r v a t i o n sx ( t ) 冗nt 一1 ,2 ,r ,b yp r o j e c t i n gt h e mt ond i r e c - t i o n s 诎,i = 1 ,2 ,n ,w eg e tq u a s i s a m p l e ss d t ) = w ,x ( t ) ,t = 1 ,2 ,一,r ,i = 1 2 ,一,n ,a n ds ( t ) = w r x ( t ) ,t = l ,2 ,t b yt h e s e o b s e r v a t i o n s ,d e n s i t y e s t i m a t o r sa r ec o n s t r u c t e db yk e r n e lm e t h o d , 孙扣去砉耳( 华) , ( s ,= 嘉喜k ( 华) t h e nt h eo b j e c t i o ni st h ed i f f e r e n c eo ft h ef o l l o w i n ge s t i m a t e s g ( w ) = l m ( u ) ) 一觚( 圳 rr1 o l q = i i = 1 j a b s t r a c tu l b y r a n d o ms e a r c h i n g ,t h e o p t i m a l d i r e c t i o n s a r e o b t a i n e d ,a n d o b s e r v a t i o n s o f s o u r e e s i g n a l sa r er e c o v e r e d i no u rs i m u l a t i o n s ,v a r i o u st y p e so fs o u r c es i g n a l s ,i n c l u d i n gt h a tw i t hh i g h k u r t o s i s8 x es e p a r a t e d ,d o i n gw e l lt h a ni t sc o u n t e r p a r t s ,s a yi n f o m a xr u l e s t h et h e s i sa l s ol o c a t e st h ei c ap r o b l e mi nam o r ew i d el a n d s c a p e ,s u c ha s t h er e l a t i o nw i t hm u l t i v a r i a t ea n a l y s i s ( i n c l u d i n gn o n l i n e a rm u l t i v a r i a t ea n a l y s i s ) , e s p e c i a l l y w i t hn o n l i n e a rp r i n c i p a lc o m p o n e n ta n a l y s i s i ns t a t i s t i c a ll e a r n i n g c i r c u m s t a n c e s ,i tb e l o n g st ou n s u p e r v i s e dl e a r n i n gm e t h o d s t h et h e s i sc o n c l u d e sw i t hi n t r o d u c t i o no fn o n l i n e a ri c ap r o h l e m s ,a n dt h e e x t e n s i o nt on o n - l i n e a ri c ao fo u rm e t h o di se a s i l yf o r m a t t e db ya d d i n gan o n - l i n e a rf u n c t i o n t h et h e s i si so r g a n i z e d8 , sf o l l o w s : t h r e e d e f i n i t i o n s o f i c a a n ds o m e a p p l i c a t i o n s ,b s s o f s o u n d s a n d p h o t o g r a p h s , f e a t u r ee x t r a c t i o na n dt h eu s ei nm e d i c a ls c i e n c e ,a r eg i v e ni nc h a p t e r1 s o m ep r e p a r a t i o n s ,s u c h8 st o n s u r e ,i n d e p e n d e n c ea n dn e u r a ln e t w o r k so r e m e n t i o n e di nc h a p t e r2 r e l a t i o n sw i t hs t a t i s t i c sl e a r n i n ga n do t h e rm u l t i v a r i a t ea n a l y s i sa r eg i v e ni n c h a p t e r3a n dc h a p t e r4r e s p e c t i v e l y , e m p h a s i z i n gi t sc h a r a c t e r i s t i co fu n s u p e r v i s e d l e a r n i n g ,a n dt h ef e a t u r eo fn o - d i m e n s i o nr e d u c i n g i n t r o d u c t i o no f o t h e rm e t h o d sf o ri c a ,s u c ha si n f o m a xr u l e sa n dt h en o n l i n e a r p c am e t h o d b ya n a l y s i so fs o m ep r o b l e m sw i t ht h e s em e t h o d s i nc h a p t e r5a n d 6 ,o u rn o m p a r a m e t e rm e t h o da r ee l a b o r a t e do n i nc h a p t e r7 t h ei n n o v a t i o n s o fo u rm e t h o di n c u d e sq u a s i - s a m p l e sa n dn o n p a r a m e t e rd e a l i n gw i t hd e n s i t i e so f u n d e f l y i n gs j g n a l s ,o v e r c o m i n gt h el i m i t a t i o no fp r e v i o u sm e t h o d s l va b s t r a c t t h e p a p e rc o n c l u d e sw i t hs o m ei d e a s0 1 2l a t e s td e v e l o p m e n t so fi c a ,i n c l u d i n g n o n l i n e a ri c aa n dp r o b l e mo fs e p a r a t i n gn o ns t a t i o n a r ys i g n a l s ,w h i c ha r et h e f u t u r ew o r ko fo u rm e t h o d 第一章独立分量分析基本概念和假设 独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ) ,c o m o n ( 1 9 9 4 ) ) 最初是 为了解决盲源分离( b l i n ds o u r c es e p a r a t i o n ( b s s ) ,j u t t e na n dh e r a u l t ( 1 9 9 1 ) ) 问题 而提出的所谓b s s 问题就是在只观测到混合信号条件下,设法求出原始信号( 信 源) 的问题具体地说我们观察到的信号向量x ( t ) 是未知的独立信号向量s ( t ) 的 线性混合,即x ( t ) = a s ( t ) ,任务是希望对观测到的信号o ( t ) 作某种线性变换y ( t ) = w r x ( t ) ,使得到的信号是源信号的某个版本个典型的应用是“鸡尾会问题”( 图 1 1 ) t 假设些人同时在大厅里交谈,我们想利用通过在不同地点的麦克风记录的混 音恢复不同说话人的声音! 如果记x ( t ) 为第i 个麦克风的记录,m ( t ) 为第i 个人的 语音波形,是待分离的信号,这正是独立分量分析闯题i c a 的另个应用是信噪分 离,如果一个信号是未被污染的,另一个是噪音信号。那么对未被污染信号的估计问 题就是i c a 问题 m i 甜唱心a ns o u s e s , m = n o b s e r v 啦o m 图1 1 鸡尾会 国! 雷 晰h 唧删h n s _ 呲。址啦* “i 怖h 出i 焉( j _ ) = q i s + 鳓岛 岛( f ) = d 2 i 气+ 吒2 屯 图1 2 鸡尾会模型 i c a 在特征般( f e a t u r ee x t r a c t i o n ) 中的应用见b e l la n ds e j n o w s k i ( 1 9 9 7 ) i c a 在摄影图象处理上有更广泛的应用,见图1 3 i c a 在神经科学上的应用也是近 年来的一个热点,如脑点圈( e e g ) ( 观测到2 3 维信号后。得到独立的2 3 个信号。认 l 叭咖 叭 谬 2 5 1 1 线性独立分量分析的三种定义 。翟黯,蛔”。,h jw 3 图1 3 图象的盲缘分离 为这2 3 个信号组成一切信号的基础) 心电图( m e g ) ( 得到1 2 2 个独立的信号) ,见 v i g f i r i o ( 1 9 9 8 ) 1 1 线性独立分量分析的三种定义 本文主要考虑线性独立分置分析的主要问题尽管非线性独立分量分析已有相 关研究我们只在论文最后给出这个问题的研究现状以及本论文在这方面的拓展, 笙二垦垫塞坌茎坌堑! 幽垒塑堡丝; 不做详细展开对于线性独立分量分析的概念,文献中有三个描述以下记x = ( z l ,七。) 7 为观测变量 室墨! :! :! 个随机向量x 的独立分量分析问题就是要找到一个线性变换y = ( y ”,掣。) 7 = w t x 及独立性指标f ( y l ,) ( 如互信息函数) ,使其在最大( 小) 化意义下可,是独立的。 室墨! :! :! ( 带有噪音的独立分量分析模型) 一个随机变量的独立分量分析在于 对以下模型 x = a s + n 进行估计,其中随机变量s = ( s l ,8 。) 7 的各分量隐变量s i 假定是独立的矩阵 a 是m n 阶待估计的混合矩阵,n 是m 维随机噪音向量 室竖! :! :! ( 无噪音独立分量分析模型) 个随机变量x 的独立分量分析在于估 计如下模型 x = a s 待估矩阵a 和随机变量s 含义同定义1 1 2 ,这也是整篇文章所采用的定义 1 2 独立分量分析模型的限定 在实际问题处理中,我们般假设观测数据的维数与独立变量的维数相等一方 面是由于已观测变量的维数如果太高,在计算上是不经济的,对于过多的分离变量, 也不易简化问题这时有一个降维的问题,即通过对观测变量作某种变换,使得变换 后的变量不但维数降低了,而茸具有是零均值和单位方差的线性无关的分量具体做 法为,设x = ( 茹1 ,茁。) 为零均值随机向量,其协方差阵v a r ( x ) = 的前r 个 特征向量为p 1 ,p 2 ,p ,记p = 魄,m ,肼) 则y = p t x 的协方差阵满足 v a t ( y ) = d i a g ( a l , 2 ,a r ) 令m = d i a g ( 六,六,去) ,则z = m y 的协方 4 1 2 独立分摄分析模型的限定 差阵v a r ( z ) = m v a r ( y ) m 7 = e = d i a g ( 1 ,1 ,1 ) 这样我们就通过线性变换把原 来的变量转换为单位方差且线性无关的少数变量以后本文的观测变量都是已经处理 过的标准变量。即零均值,单位方差且线性无关的变量对于这样的标准随机变量, 独立分量分析的过程就是对原来无关的标准变量作某种线性变换,使得到的各分量是 独立的标准变量另外我们假定这些随机分量也是零均值,单位方差的标准变量这 种假设的合理性在于,如果分量的方差不是一,可以认为它是由是一个常数和一个单 位方差的变量的乘积得到的,而这个常数就体现在混合矩阵上在这样的假定下,混 合矩阵必然是行正交矩阵的即a a t = e 。因为e = v a r ( x ) = a v a r ( s ) a t = a a 7 对于定义1 1 1 ,如果得到最优勰为。那么t 阿,玩也是最优解其中丁为 单位阵e 经过互换某些行得到的交换矩阵阵,风是单位阵的某行乘以某常数k 得到 标度阵即最终得到的最优阵在不记行序和标度的意义下是唯一的现在的i c a 模型 还通常限制。独立分量中不能有超过两个变量是正态的这种限制的一个目的在于保 证混合矩阵的唯一性具体解释为:一般地。在只有两个隐含独立正态随机变量条件 下,且混合矩阵为正交阵时,即x = a s ,则x 自然是独立正态的当我们的可观测变 量是这样产生的时候,任何正交阵都是独立分量分析的解,从而不具有唯一陛同样 在s 维数大于2 时,且有两个分量是独立正态的时候。不妨设s l ,8 2 是标准独立正态 分量,且混合矩阵的二阶主对角阵是正交阵,我们同样会出现不唯一的解的情形其 实这种唯性的要求往往是可以忽略的,如果我们只关心隐古变量的估计值而已 2 1 1 梯度算法 第二章预备知识 2 1 最优化算法相关理论 宣竖! :! :! :! ( 梯度) 个扎元函数,:舻一r 在点。= ( x l ,。,嚣n ) 的梯 度定义为 v 他,= 瞄,差,差 t 定义2 1 1 2 ( 容许方向) r “中非零向量d 是在定义域n 内一点。是容许的, 如果存在正数锄,及任意理f 0 ,a o ,有z + 口d q 对于图2 1 中点x ,d 为非容 图2 1 容许方向 许方向,而对于点弘任何方向都是容许方向 定义2 1 1 3 ( 方向导数) 一个礼元函数,:r “一r 在方向d 上的导数定义为 矿o _ s 删l i m 塑等型 5 6 5 2 1 最优化算法相关理论 如果似“= 1 ,则嘉是,在方向d 上的变化率由于嚣= 矗,p + d d ) i 。:o = v ,( 茁) 7 d = ,所以有 鱼壁! :! :! :! 是函数f 在点茁关于方向d 的变化率,当取值为正 时表明为函数的增加方向,方向为负表明为函数的减少方向 由c a u c h y s c h w a r z 不等式 曼l l v f ( x ) l l 当且仅当d v f ( x ) l l v f ( x ) 时等号成立从而不难得到 命题2 1 。1 。2 在很小范围内。梯度方向d = v f ( x ) 是函数f ( x ) 的最大增量方 向,一d 是最大减少方向 所以如果v f ( z ) 0 ,那么对于任意正数o t ,由t a y l o r 定理,我们得到 ,0 一a v ,( ) ) = , ) 一a l l v f ( x ) 1 1 2 + o ( a ) 那么对于充分小的正数n ,有 , 一口v ,( 窖) ) - j ( u n s u p e r v i s e dl e a r n i n g ) ,也可以用于( 非线性) 分类 ( c l a s s i f i c a t i o n ) 等有师学 - - j ( s u p e r v i s e dl e a r n i n g ) 中下面具体以非线性可分样本 为例,说明b p 的具体实现过程 设有两类如图2 6 的样本分别记为x ( ) ,f = 1 ,2 ,n l y ( # ) , = 1 ,2 ,砌, 第二章顶备知识1 1 图2 6 非线性分类 样本的维数决定了输入节点的个数。而样本的分类难度决定了隐含层节点的个数, 这里不详细展开输出层的节点为简单只要一个即可我们希望对于第一类的样本输 入,阿络输出的是1 ,而来至第二类的样本输入得到的输出是0 这样我们得到的偏 差函数就是 e ( 叫) = ( 。一如) 2 n = 1 其中n = n l 十扎2 ,o n 为第n 个样本的实际输出值,“为第n 个样本的希望输出 值叫= ( o ,b ) 为两类权重分别对应于输入层与隐含层间的权重,隐含层与输出 层间的权重自然我们希望经过学习,找到合适的两类权重,使得到的网络有最小 的输出偏差现看网络的输出是如何得到的对于一个输入样本,比如两维情况o = ( 。l ,幼) 经过肌,茹2 的线性组合得到隐含层的输入值。如对于隐含层的第一个接点有 输入值u = n o + o l 茁1 十0 2 0 2 这个输入值经过一个非线性变换得到隐含层的输出值 y = 9 ) ,这个非线性变换是有界单诵函数如雪( 锰) = 1 ( 1 + e “) 。所有隐含层的节点 的输出值的线性组合有得至u 输出层的输入值再经过个非缭陛变换得到输出值,如 o = 9 ( ) , = b o + b l y l + b 2 y 2 完成这个过程就是前面程序的子程序f o r w a r d 下 面就是求每个样本的偏差函数对两类权重的偏导数。用到的是后向子程序b a c k 这 个程序还把每个样本的偏导数累积起来得到最后的e ( 叫) 对权重的偏导数,之所以 1 2 5 2 3 神经网络极其应用 先计算对以的偏导数,是由于再计算m 的时候要用到机最后的子程序得到新的权 重的调整值,循环调用子程序f o r w a r d 。b a c k 得到更小的偏差,知道达到理想 值为止 神经网络在其他统计问题中的应用是处理有关海量数据计算的一个用力工具, 当然象解央本文的i c a 问题,更是个常用的工具,这一点会在接下来的内容看到 第三章独立分量分析与统计学习 3 1 统计学习有关理论 统计问题原来在农业和工业实验中应用,随着计算机和信息时代的到来,统计问 题无论从数量和复杂程度都在膨胀,如数据储存、整理和寻找导致了数据挖掘( d a t a m i n i n g ) l 在生物和医药中统计和计算问题又引出生物信息学( b i o i n f o r m a t i c s ) 统计 学工作者的任务就是抽取重要的模式以及理解“数据所言”,即从数据中学习从数 据中学习导致有效统计计算的重要地位。目前在这方面取得进展的多是计算机科学 和工程界学者 统计学习粗略地可以分为有师学习和无师学习前者是基予给定的输入输出的 示例( e x a m p l e s ) ,通过学习调整系统,试图找出给定输入的理想输出后者的训练 只是依赖输入,其目的就是发现数据的相似性( h o m o g e n e i t y ) 或者降低数据的冗 余( r e d u n d a n c y ) ,常被用来俸为数据压缩的工具 3 2 有师学习的模式识另0 所谓模式( p a t t e r n ) ,就是噪音的对立,如指纹l 手迹;面孔;语音倍号;i r i sp a t t e r n 等有师学习的模式识别由两个过程形成。先是特征提取,再是j i f 蝎0 分析( d i s c r i m i n a n t a n a l y s i s ) 具体地讲。就是先提取实际输入的若干典型特征( 实际上是从现实世界到 特征空间种映射,即特征提取) ,然后对映目循的向量做出判断准则,以判别某一特 定输入个的类别,这就是判别分析,见图3 1 缌睫判别分析在一般的多元分析教材中有详细介绍,见张尧庭和方开泰( 1 9 s 3 ) 现在不断出现各种非线性判别分析。如支撑向量分类器( s u p p o r tv e c t o rc l a s s i f i e r , 1 3 1 4 5 3 2 有师学习的模式识别 图3 1 特征提取 v a p n i k ( 1 9 9 8 ) ) ,b o o t i n g ( f r e u n da n ds c h a p i r e ( 1 9 9 7 ) ) 支撑向量的是核( k e r n e l ) 方 法的个应用,见h e r b r i c h ( 2 0 0 2 ) 我们简单介绍一下b o o s t i n g b o o t i n g 是过去的 十年中最强大的学习思想之一,直接用于分类其学习算法为“a d a b o o s t m l ”以两 类判别为例,记输出变量y 一l ,1 ) ,分类器( c l a s s i f i e r ) g ( x ) 产生预测值为1 , 或者1 误判率为 e ”2 嘉地g ( 蛳 如果卟分类器的误判率仅仅小于随机判别的误判率,称这个分类器为弱分类器( w e e k c l a s s i f i e r ) b o o s t i n g 的目的就是不断实施弱判别算法以修改数据的版本,最后得到 预测 g = f m 釜= l s i g n1 嘁) g ( z ) = g 。( 茹) , 算法为h d a b o o s t ( f r o u da n ds c h a p i r e ,1 9 9 6 ) 1 初始 匕观测权重溉= 1 n ,i = 1 ,2 , 2 i n - - i l l + 1 ( 2 1 ) 实施判别g 。( z ) ,计算误判率e r r 。= 型- 鼍l ! 旦丛业”t ( 2 2 ) 计算口。= l o g ( ( 1 一e r r m ) e r r 。) ( 2 3 ) 更新彬i = w i e x p ( n 。j ( 弘( p i ) ) ) ,i = ,2 ,m 第三章独立分量分析与统计学习 1 5 3 输出g = s i g n 笔1q 。g m ( x ) 从权重的调整( 2 , 2 ) 可以看出给上次判错的观测更多的权重,即主要把精力用在 容易出错的观测上下面是一个极其平凡的弱分类器对于两组( 各1 0 0 0 个) 1 0 维观 测x = ( x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论