




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
四川大学顼士学位论文 y9 9 5 i1 1 无穷维统计神经流形 专业:应用数学 研究生,陈雄志指导老师:蔡长林 。人工神经网络( a n n ) 是一种最常用的、能胜任一系列工作的人工智能( a i ) 工具。 通常,单个人工神经网络未必能够精确而全面地掌握某一特定工作的特点,因此人们 提出了“人工神经网络e n s e m b l e ”( 【1 】) 模型种集成一定数量单个人工种经网 络使它们能够按照一定机制给出统一的输出的构架。 随着对神经网络模型的数学基础研究的深入和实际应用需要的增长,人们提出了 统计神蝴( s t a t i s t i c a ln e u r a lm a n i f o l d s ) ( 【2 】,f 3 】) 模型,来考察某类神经网络的总体 性质以及神经网络问信息流的动力学特性。最近的神经网络的数学基础的前沿研究将 兴趣投向神经场理论( 【4 1 ,【5 】,【6 】) ,以便在提供大规模神经元的数学行为的描述的同 时给出神经网络的统一统计数学模型。 本文的工作可以分成三类:一,对最优网络构架和推理原则是否一致【7 】的研究; 二,统计神经流形上的f i s h e r 信息矩阵的表示和计算;三,对神经网络统计模型的统 一数学描述的探索具体说来,本文有创新意义的工作主要有; i )提出了适用于具有三层总体网络拓扑构架的网络或e n s e m b l e 的动态子网选择 机制。并给出了e n s e m b l e 具有唯一,稳定统计最优输出组合权值的充要条件 2 ) 给出了全参数m l p 神经流形上的f i s h e r 信息矩阵的分快矩阵表达式,并给出 其关键子块的显式表达和逆 3 ) 基于亚指数s - 型- t g ( s u b - e x p o n e n t i a ls i g m o i d a ln e t w o r k s ) ( 【8 】) 的v a l m i k - c h e r v o n e n k i s 维( v c - d i m e n s i o n ) 的有限性( 【8 】,【9 】) 结果,给出了s 一型m l p 神 经流形上的“一致自然梯度算法” 4 ) 提出了无穷维统计神经流形模型,将所有有限维神经流形统一纳入此模型。 关键词:无穷维统计神经流形,动态子网选择机制,统计神经流形的f i s h e r 信息矩阵, 一致极小化经验风险推理原则一致自然梯度。 四川i 大学碗士学位论文 i n f i n i t ed i m e n s i o n a ls t a t i s t i c a in e u r a lm a n i f o i d m a j o r :a p p l i e dm a t h e m a t i c s g r a d u a t es t u d e n t :c h e nx i o n g z h i s u p e r v i s o r :c n lc h a n g l i n k e y w o r d s :i n f i n i t ed i m e n s i o n a ls t a t i s t i c a ln e u r a lm a n i f o l d , d y n a m i cc o m p o n e n t n e t w o r ks e l e c t i o nm e c h a n i s m ,f i s h e ri n f o r m a t i o nm a t r i xo ns t a t i s t i c a ln e u r a lm a n i f o l d s , c o n s i s t e n te m p i r i c a lr i s km i n i m i z t i o ni n d u c t i o np r i n c i p l e ,c o n s i s t e n tn a t u r a lg r a d i e n t a r t i f i c i a ln e u r a ln e t w o r k s ( a n n ) a r et h em o s tc o m m o ne n t i t yo f a r t i f i c i a li n t e l l i g e n c e ( a i ) c a p a b l eo f p e r f o r m i n ga m u l t i t u d eo f t a s k s ,u s u a l l y , s i n g l ea n n sm a yf a i lt oc a p t u r et h e f e a t u r e so f ag i v e nt a s ka c c u r a t e l ya n dc o m p r e h e n s i v e l y , h e n c ea n ne n s e m b l e sa r ep r o p o s e d a sa n e t w o r ka r c h i t e c t u r e t h 砒c o m b i n e so f t e na f m i t e n u m b e r o f i n d i v i d u a l a n n s a n d a tt h es a m et i m e w i t hi n c r e a 辩i ne f f o r t so nt h em a t h e m a t i c a lf o a n d e f i o no f n nm o d e l s a n di nt h e i rr e a lw o r l da p p l i c a t i o n s ,s t a t l s t c a iu c u f a lm a n i f o i d s ( f 4 l 。f 5 1 ,f 6 1 ) h a v eb e e n p r o p o s e dt os t u d yt h eo v e r a l lc h a r a c t e r i s t i c so f c e r t a i nc l a s so f n e u r a in e t w o r k sa n dp r o p e r t i e s o f i n f o 姗a t i o nf l o wb e t w e e nn n s r e c e n tf i o n t i e r si nn ns t o d yh a v eb e e nf o c u s i n go n a c h i e v i n ga u n i f i e dm a t h e m a t i c a ld e s c r i p t i o no f a l ls t a t i s t i c a ln nm o d e l sw h i l ea t t a i n p t i n gt o p r o v i d ead e p i c t i o no f t h eb e h a v i o ro f m a s sa r t i f i c i a ln e u r o n s t h i st h e s i ss h o w se f f o r t ss u c ha s :r e s e a r c ho no p t i m a ln e t w o r ka r c h i t e c t u r ea n d c o n s i s t e n c y ( 1 7 】) o f c e r t a i ni n d u c t i o np r i n c i p l e s ,p r e s e n t a t i o na n dr e l a t e dc a l c u l a t i o n so n f i s h e ri n f o r m a t i o nm a t r i xo l ls t a t i s t i c a ln e u r a lm a n i f o l d s ,a t t e m p t st oo n i f ym a t h e m a t i c a l l y a l ls t a t i s t i c a ln e u r a ln e t w o r km o d e l s t ob ee x p l i c i t , w o r k so f c r e a t i v i t yc o n t a i n e dh e r e i n c l u d e : 1 1 p r o p o s i t i o no f “d y n a m i cc o m p o n e n ts e l e c t i o nm e c h a n i s m ”s u i t a b l ef o rn e t w o r k s o re n s e m b l e sb e a r i n g 锄o v e r a l lt l i r c 皓- l a y e rt o p o l o g i c a ln e t w o r ka r c h i t e c t u r e a n d p r o v i d i n gt h e “n e c e s s a r ya n ds o 伍c i e n tc o n d i t i o nf o rt h ee x i s t e n c e u n i q u e n e s s a n ds t a b i l i t yo f l h es o l u t i o nl dt h es t a t i s t i c a l l yo p t i m a jo l l l d u tc o m b i n i n gw e i g h t so f e n s e m b l e s ” 2 1p r o v i d i n g “b l o c kr e p r e s e n t a t i o no f t h ef i s h e ri n f o r m a t i o nm a t r i xo nn e u r a l m a n i f o i d so f f l l i i - p a r a n t e t r i s e dm l p s ”a sw e l i 笛“e x p l i c i tp r e s e n t a t i o n so f i 扭k e y b l o c k sa n dt h e i ri n v e r s e s ” 3 1p r o p o s i t i o no f c o n s i s t o n tn a t o m ig r a d i e n tl e a r n i n gm e t h o do l ln e u r a im a n i f o l d so f s i g m o i d a lm l p s ( 【8 】) ”,b a s e do nt h ef m i t e n e s sr e s u l t so nt h ev c - d i m o n s i o n ( 【8 】, 【9 】) o f a l ls u b - e x p o n e n t i a ls i g m o i d a ln e t w o r k s ) 【8 】 4 1p r o p o s i t i o no f “i n f i n i t ed i m e n s i o n a is t a t i s t i c a ln e u r a lm a n i f o i d ”嬲t h eu n i f i e d d e s c r i p t i o no f a l if i n i t ed i m o n s i o n a in e u r a lm a n i f o i d s i i 四川大学硕士学位论文 第一章选择性激活e n s e m b l e :动态子网选择机制 1 1 背景 传统的来说e n s e m b l e 【1 】就是一定数量的经过训练的不同神经网络组成的网络 组成e n s e m b l e 的网络称为“子网”或者。专家网络( e x p e r t ) ”它们的有共同的输入 端( 也就是,e n s e m b l e 的输入端) ,它们对每个输入产生的输出由一定的方法结合而产 生e n s e m b l e 最终的输出。通常来说,e n s e m b l e 的构建包括两个相继的步骤:第一训 练一些网络:第二,将受过训练的网络视为子网组成e n s e m b l e 。当e n s e m b l e 接收输 入时,所有的子网都将处理这个输入并给出输出,它们的输出通过特定的方法处理后 作为e n s e m b l e 的输出。图i l 给出了e n s e m b l e 的块状网络构架。 图i - 1e n s e m b l e 的块状图 般而言,e n s e m b l e 的性能比单个神经网络好但是,大量试验结果和对误筹 分解( 【l o 】) 的研究表明如果组成一个e n s e m b l e 的子网过度地或者不精确的把握了某 个现象的某个特点,那么这个e n s e m b l e 的性能可能还不如这些网络中的某一个因此 ,要使e n s e m b l e 成为性能优良的工具就有必要使组成它的子网同时具有多样性 ( d i v e r s i t y ) f t 目精确性( a c c u r a c y ) ( 【t 】,【l l 】) ,也就是说,必须使每个子网都独立地把握某 个现象的一个性质,并且这些子网在这个现象地不同部分上的泛化能力是不重叠的( 此时,我们称这种子网是不相关的( d e c o r r e l a t e d ) ) 获得这两个特性一般是通过特定的 训练和组网方案来实现的( f i i ,【l l 】,【1 2 】) 。在完成子网的训练后,如何依照所面临的 问题来组织这些子网使所组成的e n s e m b l e 具有好的性能就成为一个关键问题。很多研 究者提出了各种各样的修剪子网的方法( f 1 3 】,【1 4 】) 来使e n s e m b l e 的总体性能具有某 种统计意义f 的最优,这种最优一般指使得期望风险,或者说是,泛化误差在某种量 化意义下最小。特别的。【1 3 】提出了施加在e n s e m b l e 输入端的静态子网选择机制,这 种机制由极小化评估误差诱导,它不考虑单个输入的性质而一律选择固定的子网来实 现e n s e m b l e 的输出 本章将使用。依样本学习的模型( t h e m o d e l o f l e a r n i n g f r o m e x a m p l e s ) ”( 【7 】) 来 给出采用线性组合输出方案的e n s e m b l e 的针对极小化经验风险( e r m ) 的最优组合输 出权值的存在性、唯一性、稳定性的充要条件,从而数学上严格的给出了能对其实行 最优线性组合输出权值方案的e n s e m b l e 的子网所必须具有的相关度的描述。在此基础 上,本章给出动态子网选择机制( d c s m ) :同时,在假设针对此e n s e m b l e 运用的极小 化经验风险( e r m ) 推理原则是一致的( c o n s i s t e n t ) ( 【7 】) 的前提f ,说明其极小化经验风 四川大学硕士学位论文 险过程( e r mp r o c e s s ) 【7 】是收敛于真实极小期颦风险的( 如果后者存在的话) 。我们将 在第二章中利用关于v c 维的有限性结果说明这种一致性假设对于某些特定的 e n s e m b l e 来说是合理。这种动态子网选择机制包含了【1 3 】中的静态子网选择机制。它 包括可以分别运用在任何具有三层总体网络拓扑结构的网络的输出或输出端的两个子 机制 构造网络的思路是基于这样的观点:任何神经网络不论其网络拓扑结构如何, 都可以被认为是一个独一无二的输入输入关系( 本文中称为“网络映射”) 。这个映射 针对每个输入给出相应的输出,改变这个映射就相当于改变了现有的网络。因此将 一个网络映射与某个特殊的( s 型) 参变数函数相乘,井让这个( s 型) 参变数函数来决定 改变后的网络针对原来的输入仅仅给出与未改变前的网络相同的输出,还是给出0 输 出,我们实际上得到了一个对每个输入有潜在的选择性的新网络。具有这种统一选择 机制的e n s e m b l e 实质上代表一种动态网络构架,本文称其为。选择性激活e n s e m b l e ”,或省写为“( s a n ) ” 1 2 动态子网选择机制及其网络实现 1 2 i 动态网络构架 在给出s a e 之前,我们列出几对名称不同但意义相同的词,亦即,“泛化误差 ( g e n e r a l i z a t i o ne r r o r ) ”和“期望风险( e x p e c t e dr i s k ) ”l “评估误差( v a l i d a t i o ne r r o r ) ” 和“经验风险( e m p i r i c a ld s k ) ” 假设给定了来自样本空间j 的某个随机变量x 的n 个独立的样本“,i = l ,2 , ;同时,假设这些样本与来自某空间r 的随机变量y 之间存在随机依赖关系,且其对 应于而的实现为m ,f = i ,2 ,这两个样本集共同组成样本大小为n 的训练样本或者 称为是,加标签的样本集5 = “, ) ,= l ,2 ,j r 通常情况下这个训练样本集s 就是学习机( 这里是e n s e m b l e ) 可获得的关于z 和y 之间的目标函数相依关系y = 厂o ) 的全部信息。假定f ( x ) 是抽取样本x 时所依照的既定的但不为这个e n s e m b l e 所知的 由定义在样本空间上的测度空间( ,只p ) 的钡i 度p 诱导的分布函数;( r ,口,p r ) 为定义 在空间y 上的测度空问且,r 为对应的测度;两者诱导出乘积测度空问 ( x x r ,x 玩,x b ) x y 上的概率测度p b 以及j ,y 的联合分布函数,l ,o ,) 这里还假设对所考虑的e n s e m l b e 而言,所使用的e r m 推理原则是一致的。 下面我们就来构造s a n ,步骤如下t 假设有p 个训练好的网络,用m ,= i 。2 ,p 表示它们每个网络为将输入工映为 并= ( ,) 的映射z :r m _ r 一,即石为网络的网络映射进一步。假设对适当的 , 0 ,石将开球b := 扛e r 。i i i = 一毫i i 0 映入开球 b j = 扛e i :一舅l k , o 。这里( 毫。虫) e r r 。是某个训练样本( 亦即,“加 标签的样本”) ( 葺。虫) 和毫分别被称为网络的核和输入核。 首先,定义函数 2 四川大学硕士学位论文 一( a ) = 时p 一口( a 一声) 】【l + 陬“叫似一,) h ,( 1 2 1 ) 其中a 2 0 称为“距离指标”, o 称为“门限距离”,口 o 是一个预给的用来控 制函数在,附近的坡度的充分大的实数。容易看出, 坐盟,( ) 2 z i a ,l ( ) ,坐艮,口( ) 2 1 这- , mx e ( j ) 满足:如果j e e ,则z e ( j ) = i ;否则,z e ( j ) = o 。 然后,利用。口( ) 将每个:r 一变成 ( 1 2 2 ) g a p j ( ,) t 州x 一岛嗍,) = 而e x 丽p ( - a 丽( 1 l x i - ;, 耵i i - = p 而) ) - , ,) ( i 2 - 3 ) 假设! 婴l 石( j ) 睁* 对f = i 2 ,p 都成立那么对任何足够小的f o ,存在足够大的 口 0 ,满足 i 户+ 口 譬。,( = z ( j ) 2 j r i i x - j , i l = 声 ( i 2 - 4 ) 【 ( 1 - f ) ( j ) * 工“) 矿l i x 一毛 0 和, 0 的初始值取得充分大来使得新网络的核与输入核与原来的一样。 最后,将这p 个新改造的网络m 组成一个e n s e m b l e ,且令其网络映射为 蟊,( ,) ;圭 g 。棚( 对0 2 - 5 ) i l l 其中二j 丑= lo 丑 o ,二i 皇l 就是满足:l = l 和o o 成 立对于不等式l h p 五叠f o 而言。其成立与否是需要验证的,但文 1 3 1 没有验证 这个不等式的有效性而直接假设它成立了一般说,l 。五1 。 o 可能不成立 事实上,如果在【1 3 】中,采用原文的符号,并令n ;2 , 四川大学确士学位论文 c = ( c 彳) 2 i := ( ! l :) t 则c 4 是正定的t 它必定是某个相关矩阵c = ( ) “z 的逆矩阵但是可以得到”o - = o 。这个极优值就不满足条件,o ”o j i - i k n 在本文中由于假设五。,满足条件c 1 ) ,所以o - 。, o i 二i 乃一o 。再由可j m ,( j ”,力= 2 瓦,和 c 1 ) 可知对任何非零的,e 朋( j 7 ) 有,v j 厶,( 驴,沙7 = 2 j 压q ,y 7 o 。因此 ( s 1 ) 给出的驴是极小化问题( i 2 7 ) 的充分解。 综上所述,在( c 1 ) 成立时,亦即,相关矩阵五即可逆且其逆满足l h ,五办 o 时 ,极小化问驴= a r g m 。i c n f a ,( 七有唯一稳定解,且其解就是 ( 1 2 - 1 2 ) 1 2 3 动态子两选择机制 现在我们给出统一选择机制并给出调节e n s e m b l e 的输出的机制。 _ ) 方案l :由紧跟( 1 2 - 4 ) 的讨论可知,如果参数口 0 取得充分大,并且给参数 卢 o 设定门限限制a f o ,那么参数, o 就会针对每个输入x 来控制每个予网 的性能。因为对任何子网来说,针对这个输入产生的误差为 刖( j ) = 鼠力( j ) 一y ( x ) ,于是对磊( j ) = 一毫i l b + a 口的那些子网,绝对 误差约满足i 朋( 砷l “i ) ,“) i ,而对于4 ( 对= lj x 一南i i o ,a 口 o 共同诱 导了一个与输入相关的选择机制,它针对每个输入r ,动态的只选择满足 焉( 曲= l l x 一南h o 的函数因为= i 却五i i ,0 。i ( a - 。- i ,) u 从( 1 2 - 2 ) 至( 1 2 - 4 ) 可以推出 牌如剧( 。) - 胁l i m 昵a 州。一- t1 1 ) 1 5 ( 5 ) 2 石( ( 1 2 - 1 9 ) ( i 玉。1 9 ) 意味这所有组成e n s e m b l e 的子网都将被选择,因为此时距离门限为无 穷大。如果样本和网络未见过的点不是分布的太稀疏,也就是说,它们都属于 对应的e u c l i d e a n 空阃的一个有界子集,那么充分大的口 o 将不会滤掉任何子网 - 此时就可以采用1 2 3 中提出的选择方案2 ,在这种情况下,如( i 2 1 0 ) o 给出 的优化问题就变成 = a r g m 。i c n z , 一( 1 ( j ) ,“j ) ;v ) = a r g m i n 目。p l ( k ( x t ) 一“而) ) ,0 2 - 2 0 ) 这里啊一) = 二五斤“) 是给定输入,时,由具有与i 2 i 中构造的e n s e m b l e 相似 网络构架的e n s e m b l e 给出的输出,z o ) 为子网m 原来的网络映射 8 四川大学硕士学位论文 现在,令 ( ( z x ,t j ) ) ;【 ( j ) 一“, 2 ( 1 2 2 1 ) 那么对这样的e n s e m b l e 来说,0 2 - 1 5 ) 和( 1 2 1 6 ) 可以被写为 和 矗( ( j ) ,“,) ) ;【 ( z ) 一y ( j h 2 d f ( x ) = 厶e l - i 丑一勺( 1 2 - 2 2 ) 矿= a r g m i n m e ( h ( j ) 鹏) ;v ) = a r g m m i n r i - - 一t m 目。v 【m 却) 一y ( x 1 ) 1 2 ( 1 2 - 2 3 ) 其中q = j “( j ,一“州l ,j j ) 一“j ) 1 d 凡j ) 就是 1 3 1 中所提到的第i 个子网与第j 个子网之问的相关系数。( 1 2 - 2 3 ) 是1 1 3 1 诱导最优组合权值然后对这些权值施加 门限来诱导输出层的静态选择机制的核心关系式。 可见,本节的方法解决了e n s e m b l e 的子网的最优输出组合权值向量的存在 性问豚,并且得到了一个与输入相关的可以有两种实现方式的选择机制,它将 【1 3 】中的静态子网选择机制推广了 c ) 关于条件( c 1 ) ;对任何评估集1 ,五。助有满足l 忡五易 0 的逆 从1 2 4 可以看出c 1 ) 是优化问题2 a g 魄毛,( z ;有唯一稳定解的 充要条件尽管这个条件太强而使得动态子网选择机制无法应用到普通情形种 但是,还有比( c 1 ) 更强的条件,亦即: 五。,一曲昭 厅l ,厅, ,一 o ,= 1 ,p ( 1 2 - 2 4 ) 由于( i 2 - - , 2 4 ) 成立的充要条件是:第一,五。= l 当且仅当,;,( 即,所有子网对 任何评估集y 而言都是不相关的( t m e o r r e l a t e d ) ,这时。我们称这些子网在评估 集y 上是“经验无关的( e m p i r i c a l l y t m e o r r e l a t e d ) ”) 第二,所有子网在评估集y 上的输出都为常数所以,( 1 m 4 ) 实际上要求子网同时具有如i l 】,f i l 】提到的多 样性( d i v e r s i t y ) 和最弱的精确度( a c c u r a c y ) 顺便指出如果只要求乙丑= 1 那么以五二l ,的存在就是( 1 2 - l o ) 有唯一稳定解的充分条件。 9 四川大学硪士学位论文 2 1 背景 第二章统计神经流形上的f i s h e r 信息矩阵 在参数模犁的框架下普通梯度算法实际卜会在参数空间里画出折线状的搜索路 径这个路径对参数空间的内蕴几何性质很敏感,所以梯度算法容易在搜索时迷失方 向咖陷入高原( p l a t e a u ) 或局部极值陷阱。为了减轻甚至消除这个不足。a m a r i 提出了能 够考虑参数空间内禀几何件质的自然梯度( n a t u r a lg r a d i e n t ) 和自然梯度学习( n a t u r a l g r a d i e n t l e a r n i n g ) ( 【3 】,【l8 】) 并将其成功的应用到某些问题中。自然梯度是由定义在参 数守问的切窄问上的r i e m a n n 度帚给出的。由十采用了与参数空日j 的切卒闻等价的由 i 形式张成的切宅例作为实际切宅间,其相应的r i e m a n n 度量实质上就是定义在i 一形 式切字间上的f i s h e r 信息矩阵f i l m ) ,所以。计算神经流形上的f i m 就具有荤要的意 义:首先,f i m 给出流形上代表神经元的点之间的距离的近似度量,亦即,f i m 提供 了参数估计中点估计的优良程度;其次,没有f i m ,就无法求得用以引导自然梯度算 法搜索最优值的自然梯度,自然也就无法实施自然梯度学习 关于f i m 的计算的最详尽的记录可能要算( 【2 】,【3 1 ,【1 8 】) ,但这地都不包含针对由 全参数前馈m l p 组成的神绎流形朋上的f i m 及其逆的计算。本章将给出仝参数( 即 还带有门限参数的) m l p 神经流形朋上的f i m 的分块表达式,并给出某些关键块及其 逆的计算和紧凑显式表达,这些结果可以认为是【l8 】中相应结果的推广和细化;同时 ,这些结果也可以真正运用到实际计算中。更多的细节可参看【t 9 1 , 2 0 l 。 本章将针s - 型网络的v c 一维的有限件结果( 【8 】,【9 】) 和f i m 的形式逆给出联合搜 索机制,即“一致自然梯度”这个联合搜索机制结合了e r m 推理原则的一致性和 自然梯度算法,它为一类s - 型神经流形的极小化过程提供了具有默认一致性的学习环 境。也给第一章中提出的在某类s a e 上应用e r m 推理原则的致件假设提供理论支 持和算法支持此外,它也可视为将一致性原则应用于自然梯度学习的一个尝试 为简洁起见,我们简单叙述【1 8 】中定义的神经元的统计模型,它实际上与【7 】中定 义的模型几乎是一样的: t假设所有的权值,偏簧( 如果后者有必要考虑的话) 构成一个参数向 量,这个向量是某个参数空间的子集贝的元素假设,( ) 是一 个神经元能实现的甬数,这里假设j 是依某个分布函数抽取的一般 的,这个分布函数通常被认为是标准正态分布,即x ( p ,j ) t假设这个神经元的输入输出映射为y = ,( 暑) + 5 ,其中s 是一个与 x 独立、与,( ) 无关的随机误差项,并且s 通常被认为服从均值 为,方差为仃2 的正态分布,即( ,仃2 ) 特别的,参数集敛经常被假设为某个t 维e u c l i d e a n 空间r ,的子集,这样以来, 所有可以实现的参数函数就形成一个集合 h = ,( z :耵_ r 1 w = ( w l ,w t ) re9 t c r ,通过相似的方法,可以从【2 l ,【1 8 q 1 给出任何神经网络的统科模型,这里将不给出具体的细节。 1 0 四川大学硕士学位论文 2 2 全参数m l p 流形m 上的f i mg ( p ) = g ( w ,o ,v ) 。为了简洁的给出f 文的内容,除特别声明外,这里使用的符号,约定、记号应理 解如下; t 任何e u c l i d e a n 空间的元素都视为e h 其坐标组成的列向量:对任何两个向 量口= 心,。a k ) 7 ,b = ( ,以) 7e r 而言,“口b ”的定义为“ 口b = 毛q 6 ,”,“a * b ”的定义为“a * b = ( q 也,吼以) 7 ”,这里上标 个表示转簧。“乳”表示关于下标z e r 的传统梯度算子它产乍一 个列向量:e 是数学期卑算子。矩阵的期颦被定义由其元的期翅组 成的舒阵:“o ”为张量算子 t ,= ( 而,屯) 7e ,_ ,分别表示神经网络。比如说,m l p 的输入和其对 应的输出;审= ( h ,h ) 7 e r ;一= q ,b ) 7 e r ;= ( 嵋,雌) r 是 一个k x n 矩阵,其中嵋。( 嵋l ,”,) re r 。1 f f i 。i i 粗体的4 e r 表示其元全是口的向量或矩阵,i 表示单位矩阵 tf ( x ) = ( 石( w l j + 岛) ,五( 峨j 4 - 以) ) 1e r ;坼= 一,+ 岛,却= ( h 。,) ; 寺,= ( 锐a i ,现,饥,要注意的是,寺,f 有着通用的意义t 因 为对具有多个神绎元的网络来说,三元组z ,嵋,只,足以确定这个网 络的第i 个神经元的行为,而且这个三元组对个神经元而言是唯一的。 t ,;( g 譬暮卜r 州。1 繁菇r 二多 2 2 1 g 【p ) = g ( ,口,”的关键块及其逆 现在,我们考虑【1 8 】中提出的的全参数m l p 模型: ,霉r ,( j ) + 等二坼z ( 坼j + b ) + f 其中j 一( o i ) ,f n ( o , 0 2 ) 对模型( 2 扣1 ) 来说,其联合密度函数为 ( 2 扣1 ) l n p ( x , y , w 地咖) i n p ( v l 莓w - l n 拈) - l n ( 屙) 一古旷吖洲2 四j i i 大学硕士学位论文 其梯度为 ( 2 - d v r l n 西) = i 【y 十似肌加舌m )v r l n 刖2 【y + 似 m ) 2 寺m ) 审h 1 _ p ( ) = 争【y v ,( ,) 讲( 嵋,+ 岛h 哆,( 砷玲 v ,i n p ( ) = 7 i 沪吖( 堋v 帚= 争( p 帚 其中p ( - ) = p ( x ,y ;w ,v ,们满足【2 】给出的正则性( r e g u l a r i t y ) 条件且p c 1 ) = p ( 川墨矿,p ,一) 。 由【1 7 】中的定义可知,模型( 2 扣1 ) 对应的f i m 应为 g ( p ) = g ( ,以p ) 篁e ( v ,i n p ( ) i v ,i n p ( ) 】7 ) 特别的,令g - = ( g - 竹) ;g - 一o g 竹,其中 g h = v 。i n p ( ) i v ,h l _ p ( ) 】7 ) = 等e 彳( 嵋,+ 岛彬( 叶,+ 哆) , ( 2 2 - 2 ) 下面我们给出f i m g ( p ) = g ( w ,只p ) 的块q 的子块g ,i 事j o f u w = ( g ) h 及 其逆的显性表达式,其计算细节在【2 0 】中给出。 定理2 假设m h t 缈= i ,那么对上述设定下的模型,= r ,( j ) + f = 乞,( 坼,+ 6 ;) + p ,f i m 的块g 0 ,j 及其逆分别为 g 如;伟毛) ( 台岛o ,八i f 哆z , , j i = 岛,+ ( h 叶) 嘞( 嵋叶) r , 。铂疋) 阿6 煳哪小帆讲 其中的符号的意义在证明中给出 证明i 由于对( 嵋,w j ) 而肓,存在r 。的正交规范基“,) 使得 b = s p a n v l ,屹 = 印 坼,叶 ,并且h 上h ( e u c l i d e a n 意义下的垂直) ,其中 l l = s p a n p , , 于是“,神中所有的向量相互统计独立并且都服从标准正 态分布( o i ) 令 1 2 四i i i 大学硕士学位论文 订肛像乏 “rk a p - 几p up 凡2 j 1 ) = 毒杀( 甍2 那么t 我们首先可以得到关于一,竹和v l , v 2 的两组独立的值,它们是 ( 2 - 3 ) a = ( v 以小咖隧v 2 t g w l w l v i 州嵋吲h 咖 糍: 菩 显然t = j ,或者等价的,有鸣;,p r 对卟,2 l n - 我们有 ( 2 4 ) j 岛2 吩7 g h 咋z 争e 彳( 嵋,+ b ( 一,+ 嘭) ) ,2 t ,s 1 4 一= 吩1 g 0 叶- o 篁o 2 1 ,m s n , i n f 菩 令置= ( 坼_ ) ;正= ( 1 屹) ,疋= ( 吩) ,弓= ( 五艺) 7 ;c i = 岛。m 。i , q = 出昭 4 ,q 卜:出曙 ,岛“:m 。,) 则有z r - 朋7 d 4 ( 2 - 3 ) ,( 2 4 ) ,可得 t r = c ,进而有 吒。= 巧7 q 巧= ( 将( 2 2 - 1 0 ) 展开成 毛,p 岛二。,煳 叱毛,p 易 ( 善 啾私椰7 同时,由( 2 2 ) 可知 五以7 ;( ( 2 扣1 0 ) 吩) ( 筹, 对俨2 1 j f l v n 7 j 1 = 对。屿叶7 + 。n 屹7 + 碍,。吃q 7 + 碍。屹吩7 ( 2 2 ) 此外,由r = ( z 毛) 7 的正交性,可知 n 竹 w 州 叶 哪 叶 吒 ri 碍 = 、, 吃吃 咖细 矿哆 扩 叶叶糍 四川大学硕士学位论文 l r z = i - v , v , 7 一叱口 所以,我们有 ( 2 2 - 1 2 ) ( i m # 硝屹叶7 + 矿h + 刀。吒一7 + 碍。屹吃7 + 岛( ,一嵋叶7 一吩吩7 ) , 亦即, g 。叶= e t 嵋,+ q ) ,( 嵋,+ 岛) 砧7 = 岛,+ ( h ,) q ( 嵋”,) ,( 2 2 一1 4 ) 其中岛= p 7 4 ,一岛p r p = ( 2 至于g i 。的逆我们有 岛的值见f 2 0 】。 g w ,, , - i = c l 瓦,阿z 施h - - z 何 s , 令i a l y - i i = = 南晖料 w w 2 南p 因此, 屹,阵 吖叱疋) 阿烈豺伽( 肌( 嵋,( 2 州 其中;,r 以。,一岛- , , r p f f i ( 乏急 由【2 。】给出 2 流形上的一致自然梯度( c n g ) 我们约定称激活函数为s 型函数的m l p 为“s 型m l p ”,并称使得e r m 推理 原则是( 严格) 一致的设置( s e t t i n g s ) 为- - 个“( 严格卜诹的e r m 推理环境( ( s t r i c t l y ) c o n s i s t e n t e r m i n d u c t i o ne n v i r o n m e n t ) ”,并且称致e r m 推理环境的下的自然梯度 1 4 = 、, 寸矿v j 八 前 四川大学硬士学位论文 为“一致自然梯度( c o n s i s t e n t n a t u r a l g r a d i e n t ) ”,以便将自然梯度的f i s h e r 渐进有效性 ( a s y m p t o t i c f i s h e r e f f e c t i v e n e s s ) 【1 8 】与上述自然梯度能诱导一致梯度下降法的能力区分 开来。 假设输入- 输出关系y ( x ) = _ i ,( 薯w ) + f 要么是 要么是 y = 。r ( w j ) + s y = v ,( j ) + e = 捌tv 、 咋j + 只) + 占 ( 1 1 ) 那么按照f i m 的定义可知,对应的参数空间对模型( 1 ) 来说就是9 t c r 一,对模型( i i ) 来 说就是9 t c r t “2 于是,可以推出给定输入j 时,关于y 的条件p d f 的对数为 i l l “) ,l 幕w ) 一i n ( 2 4 磊, 7 ) 一专眇十,( 坩 关于:= ( j ,) 的联合p d f 的对数为 l n p “只w ) = l i l 叮( j ) l n 烈y i j ; ) = h g ( j ) 一i n ( 互嘉) 一万i l y r ,( x ) 】2 ( 2 3 - 2 ) 进一步假设参数p d f 集p =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法律科技(LawTech)专员考试试卷及答案
- 2025年金溪县遴选教师考试笔试试题【答案】
- 2025年海水淡化及水处理设备项目建议书
- 2025年山西省住房和城乡建设厅下属事业单位招聘考试笔试试题【答案】
- 2025年宁波市奉化区交通控股集团有限公司招聘考试笔试试题【答案】
- 2025年吉林省长白山公安局招聘警务辅助人员考试试题【答案】
- 2025年南宁市第十三中学招聘初中顶岗教师考试笔试试题【答案】
- 2025年乐山市沙湾区妇幼保健院招聘专技人员考试试题【答案】
- 2025年乙酸甲酯项目合作计划书
- 大学生家具厂实习报告范文
- 2025年北京市中考数学真题试卷及答案解析
- AI+Agent与Agentic+AI的原理和应用洞察与未来展望
- 事故隐患内部报告奖励制度
- 【艾青诗选】批注
- 最新-伤口愈合新进展和美容缝合课件
- 调度系统介绍课件
- tpo41阅读听力部分参考答案
- 黑布林The Clever Woman 聪明的妇人公开课课件
- 采购年中工作总结汇报PPT(24P)
- 施耐德ATV31变频器说明书
- 房屋建筑构造(地基与基础)课件
评论
0/150
提交评论