(计算机软件与理论专业论文)视觉超完备拓扑表示的稀疏编码计算模型.pdf_第1页
(计算机软件与理论专业论文)视觉超完备拓扑表示的稀疏编码计算模型.pdf_第2页
(计算机软件与理论专业论文)视觉超完备拓扑表示的稀疏编码计算模型.pdf_第3页
(计算机软件与理论专业论文)视觉超完备拓扑表示的稀疏编码计算模型.pdf_第4页
(计算机软件与理论专业论文)视觉超完备拓扑表示的稀疏编码计算模型.pdf_第5页
已阅读5页,还剩92页未读 继续免费阅读

(计算机软件与理论专业论文)视觉超完备拓扑表示的稀疏编码计算模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

视觉超完备拓扑表示的稀疏编码计算模型 摘要 视觉问题是科学领域和工程领域中一个极富挑战性的研究课题,具有重要的理 论意义和广泛的应用前景。其中生物视觉的研究揭示了大量的事实,如感知刺激、 神经元活动和感知行为之间的关系等等,但却很少有成果被转化到计算机视觉领域 而产生实际的应用,而计算机视觉领域的研究成果也几乎和真正的生物视觉相去甚 远。近年来,生物视觉与计算机视觉,这两个研究方向的交叉与融合逐渐成为视觉 研究的热点。其中,视觉的概率统计方法,从计算的角度,利用信息论,研究视觉 系统完成计算任务的工作原理与信息处理机制,为二者的融合提供了很好的结合 点,从而促进人们更加全面而透彻的认识视觉的本质。 本文基于概率统计的方法,从计算的角度,系统地研究了在自然景物输 入条件下,大脑的初级视觉皮层( v 1 区) 进行超完备( o v e r c o m p l e t e ) 、拓扑 ( t o p o g r a p h i c ) 和稀疏( s p a r s e ) 表示的计算模型及其生理学功能等问题。由于大脑 的初级视觉皮层中,大量存在着超完备、拓扑和稀疏表示的现象,这些表示策略具 有很大的优点,可以更有效率和灵活地提取信号中的内在结构、综合局部表示和分 布式表示的优点、更加易于找到相似性和高阶相关、增加信噪比和增加联想记忆的 存储和表示容量等等。因此,研究其计算机理及生理学功能有着重要的意义、提出 的计算模型具有广泛的应用前景。 本文的主要贡献有以下几个方面: 1 本文结合基函数的高维空间准正交性的先验假设,在基函数和输入数据向 量的点积上定义独立的特征子空间,基于最大化后验概率( m a x i m u map o s t e r i o r i ,m a p ) 的方法,得到了超完备的独立子空间分析模型( o v e r c o m p l e t e i n d e p e n d e n ts u b s p a c ea n a l y s i s ,o i s a ) 。o i s a 模型不仅进一步拓展了独立分量 分析算法,能够从自然图像中得到重要的相位不变的特征,而且解决了超完备 表示的问题。 2 针对二维空间拓扑结构的超完备表示问题,本文在基函数与输入数据向量的点 积上定义具有二维空间拓扑结构的二层生成模型,并基于最大化后验概率的 上海交通大学博士学位论文 方法,结合准正交性的混合矩阵先验,得到了超完备拓扑独立分量分析模型 ( o v e r c o m p l e t et o p o g r a p h i ci n d e p e n d e n tc o m p o n e n ta n a l y s i s ,o t i c a ) 。通过使 用自然图像训练,o t i c a 模型能够同时得到超完备表示、相位不变性( 用来解 释初级视觉皮层中复杂细胞的反应属性) 以及拓扑结构( 这与初级视觉皮层中 的功能柱类似) 三种特性。因此,o t i c a 可以更加合理地作为v l 区复杂细胞反 应属性的解释模型。通过与其他传统的模型比较,o t i c a 模型具有更高的编码 效率。 3 当输入为自然图像序列,引入时间因素时,我们结合稀疏性、时间稳定性和拓 扑结构三种统计属性的统一框架下,定义包含时间因素的邻域函数,利用最大 化后验概率的方法,得到超完备冒泡算法( o v e r c o m p l e t eb u b b l em o d e l ) 。由于 进一步考虑了时间稳定性,超完备冒泡算法同时得到了超完备、空间和时间上 的拓扑结构。模型得到的泡状反应结构能够更好地提取输入中的低阶不变特 征。 4 针对往往包含大量噪声的实际情况,本文在基函数系数上定义二维空间拓扑结 构的二层生成模型,采用近似极大似然的方法,得到了具有超完备表示的拓扑 稀疏编码( t o p o g r a p h i cs p a r s ec o d i n g ,t s c ) 。t s c 模型进一步拓展了经典的稀 疏编码模型,能够从自然图像中得到相位不变的特征以及与初级视觉皮层相 似的功能柱结构。同时,由于t s c 模型本身考虑了噪声以及超完备的表示,因 此t s c 模型具有很好的去噪功能。与其他去噪算法相比,具有更高的信噪比, 更好地保留了图像的细节信息。 关键词:超完备表示,独立分量分析,独立子空间分析,拓扑独立分量分析,冒泡 模型,稀疏编码,初级视觉皮层,复杂细胞 一一 s p a r s ec o d i n gm o d e l s f o ro v e r c o m p l e t ea n dt o p o g r a p h i c r e p r e s e n t a t i o n so fv i s i o n a bs t r a c t v i s i o ni sac h a l l e n g i n gr e s e a r c hs u b j e c ti nt h ef i e l d so fs c i e n c ea n de n g i n e e r i n ga n d i so fg r e a tt h e o r e t i c a ls i g n i f i c a n c ea n db r o a da p p l i c a t i o n s h o w e v e r , g e n e r a l l yc o m p u t e r v i s i o nw o r k si naq u i t ed i f f e r e n tw a yf r o mb i o l o g i c a lv i s i o n f i n d i n g sf r o mb i o l o g i c a lv i s i o n h a v ep r o v i d e dp l e n t yo fe v i d e n c e s ,s u c ha sr e l a t i o n so fs e n s o r ys t i m u l u s ,n e u r o na c t i v i t i e s a n dp e r c e p t i o nc o n d i t i o n f e wa c h i e v e m e n t sa r eu s e di nt h ef i e l do fc o m p u t e rv i s i o nf o r p r a c t i c a la p p l i c a t i o n s w h e r e a st h ea c h i e v e m e n t so fc o m p u t e rv i s i o nb e a rl i t t l er e s e m b l a n c e t ob i o l o g i c a ls t u d i e so f v i s i o n r e c e n t l y ,t h ec u t t i n ge d g es t u d i e sb e t w e e n t w or e s e a r c hf i e l d s h a v ea t t r a c t e dc o n s i d e r a b l ea t t e n t i o ni nt h er e s e a r c ho fv i s i o n i np a r t i c u l a r , p r o b a b i l i s t i c m e t h o dg i v e su sac o m p u t a t i o n a lv i e wo nt h ep r i n c i p l ea n di n f o r m a t i o np r o c e s s i n go fv i s u a l s y s t e mp r o v i d i n gu san e wi n s i g h to ni n f o r m a t i o np r o c e s s i n gi nt h ev i s i o ns y s t e m b a s e do np r o b a b i l i s t i cm e t h o d ,t h i st h e s i ss y s t e m a t i c a l l yi n v e s t i g a t e sc o m p u t a t i o n a l p r i n c i p l ea n dm o d e l sf o ro v e r c o m p l e t e ,t o p o g r a p h i ca n ds p a r s ec o d i n go fp r i m a r yv i s u a l c o a e x ,a n dt h e i rc o r r e s p o n d i n gb i o l o g i c a lf u n c t i o n s t h er e p r e s e n t a t i o no fp r i m a r yv i s u a l c o a e xa r eo v e r c o m p l e t e ,t o p o g r a p h i ca n ds p a r s e t h e s es t r a t e g i e su s e di nv i s u a ls y s t e mr e f l e c tm a n ya d v a n t a g e s ,s u c ha se x t r a c t i n gi m p l i c i ts t r u c t u r eo fs i g n a lm o r ee f f i c i e n t l ya n d f l e x i b l e ,i n t e g r a t i n gt h em e r i t so fl o c a la n dd i s t r i b u t e dr e p r e s e n t a t i o n s ,r e c o v e r i n gs i m i l a r i t y a n dh i g h e r - o r d e rc o r r e l a t i o ne a s i l y , e n h a n c i n gt h es i g n a lt on o i s er a t i o ,a n di n c r e a s i n gt h ec a p a c i t i e so f m e m o r ya n dr e p r e s e n t a t i o no f a s s o c i a t em e m o r y t h e r e f o r e ,t h em o d e l sp r o p o s e d i nt h i st h e s i sa r ep r o m i s i n gi naw i d er a n g eo fa p p l i c a t i o nf i e l d s t h em a i nc o n t r i b u t i o n so ft h i st h e s i sc a nb ed e s c r i b e da sf o l l o w s : 1 f o rt h eo v e r c o m p l e t er e p r e s e n t a t i o n ,w ed e f i n es u b s p a c e so nt h ed o tp r o d u c tb e t w e e n ab a s i sf u n c t i o na n dt h ei n p u td a t av e c t o r , b a s e do nm a x i m u map o s t e r i o r i ( m a p ) m e t h o d ,w ep r o p o s ea no i s am o d e lb yu s i n gt h eq u a s i o r t h o g o n a l i t yo fb a s i sf u n c - t i o n si nh i g h e rd i m e n s i o n a ls p a c e t h i sm o d e ln o to n l ye x t e n dt h ei c a a l g o r i t h m , w h i c hc a ne x t r a c ti m p o r t a n tp h a s ei n v a r i a n tf e a t u r e sf r o mn a t u r a li m a g e s ,b u ta l s o a c h i e v eo v e r c o m p l e t er e p r e s e n t a t i o n 上海交通大学博士学位论文 2 f o rt h eo v e r c o m p l e t er e p r e s e n t a t i o no ft w od i m e n s i o n a ls p a c et o p o g r a p h i c a l l y , w ed e v e l o pa no t i c am o d e lb a s e do nm a pm e t h o 也b yd e f i n i n gat w o l a y e rg e n e r a t i v e m o d e lw i t hat w o d i m e n s i o n a lt o p o g r a p h i cs t r u c t u r eo nt h ed o tp r o d u c tb e t w e e nb a s i s f u n c t i o na n di n p u td a t av e c t o r , a n dc o m b i n i n g q u a s i - o r t h o g o n a lp r i o rp r o b a b i l i t yo f m i x i n gm a r x o t i c am e t h o dc a ng e n e r a t et h r e ec h a r a c t e r i s t i c s s u c h 勰o v e r c o m - p l e t er e p r e s e n t a t i o n ,p h a s ei n v a r i a n tf e a t u r e s ( s i m i l a rt or e s p o n s ep r o p e r t i e so ft o m p l e xc e l l si nv 1 ) ,a n dt o p o g r a p h i co r g a n i z a t i o n ( s i m i l a rt of u n c t i o n a lc o l u m ni nv o t h e r e f o r e ,o t i c am o d e l i sm o r es e n s i t i v et h a no r d i n a r yt i c am o d e lt oe x p l a i nt h e r e s p o n s ep r o p e r t i e so fc o m p l e xc e l l si nv i t h ec o m p a r a t i v ee x p e r i m e n t so fc o d i n g l e n g t hd e m o n s t r a t et h a to t i c a m o d e li sm o r ee f f i c i e n tt h a no r d i n a r yt i c am o d e l 3 t a k i n gt e m p o r a lf a c t o ri n t oc o n s i d e r a t i o n ,w ep r o p o s ea no v e r c o m p l e t eb u b b l em o d e l b a s e do nm a pm e t h o db yc o m b i n i n gs p a r s e ,t e m p o r a lc o h e r e n c ea n dt o p o g r a p h i c s t a t i s t i c a ld e p e n d e n c y b u b b l em o d e li sa u n i t i n gf r a m e w o r kf o rt h r e el o w 1 e v e ls t a t i s t i c a lp r o p e r t i e so fn a t u r a li m a g es e q u e n c e s i nc o n s i d e r a t i o no ft i m ef a c t o r , t h e o v e r c o m p l e t eb u b b l em e t h o do b t a i no v e r c o m p l e t e ,s p a t i a la n dt e m p o r a lt o p o g r a p h i c s t r u c t u r e s t h i sb u b b l el i k er e s p o n s es t r u c t u r ei sp r o n et oe x t r a c tl o wl e v e li n v a r i a n c e o fi m a g es e q u e n c e s 4 f o rt h eh e a v yn o i s eu s u a l l yf o u n di np r a c t i c a lc a s e ,w ed e f i n ea t w o - l a y e rg e n e r a t i v e m o d e lw i t l lat w o d i m e n s i o n a lt o p o g r a p h i cs t r u c t u r eo nb a s i sf u n c t i o nc o e f f i c i e n t s w e p r o p o s eat o p o g r a p h i cs p a r s ec o d i n gw i t ho v e r c o m p l e t eb a s i sf u n c t i o n sb a s e do n a p p r o x i m a t i o nm a x i m u ml i k e l i h o o dm e t h o d t s cm o d e lc a nc a p t u r ep h a s ei n v a r i a n t f e a t u r e sf r o mn a t u r a li m a g e sa n ds h o wt o p o g r a p h i co r g a n i z a t i o n ,w h i c hi ss i m i l a rt o t h ef u n c t i o n a lc o l u m ns t r u c t u r ei nv 1 m o r e o v e r , t s cm o d e li ss u i t e df o rt h ei m a g e d e n o i s i n gs i n c et h eo v e r c o m p l e t er e p r e s e n t a t i o na n dn o i s ea r ee x p l i c i t l yc o n s i d e r e di n t h em o d e l t h es i m u l a t i o nr e s u l t so fi m a g ed e n o i s i n gs u g g e s tt h a tt s cm e t h o do u t p e r f o r m sc o n v e n t i o n a ld e n o i s i n ga l g o r i t h m sa n dp r e s e r v e sm o r ed e t a i l e di n f o r m a t i o n o fi m a g e s k e yw o r d s : o v e r c o m p l e t er e p r e s e n t a t i o n ,i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i n d e p e n d e n ts u b s p a c ea n a l y s i s ,t o p o g r a p h i ci n d e p e n d e n tc o m p o n e n ta n a l y s i s ,b u b b l em o d e l , s p a r s ec o d i n g ,p r i m a r yv i s u a lc o r t e x ,c o m p l e xc e l l 一一 m a p m l l t p l t d s t d p l g n v 1 c l 强 g m b s s i c a i s a t i c a b m s o m m s e s n r 主要符号对照表 最大化后验概率( m a x i m u map o s t e f i o f i ) 极大似然( m a x i m u ml i k e l i h o o d ) 长时程增强( 1 0 n g t e r mp o t e n t i a t i o n ) 长时程抑制( 1 0 n g t e r md e p r e s s i o n ) 脉冲定时依赖可塑性( s p i k et i m i n gd e p e n d e n tp l a s t i c i t y ) 侧膝状体( 1 a t e r a lg e n i c u l a t en u c l e u s ) 初级视觉皮层( p r i m a r yv i s u a lc o r t e x ) 经典感受野( c l a s s i c a lr e c e p t i v ef i e l d ) 生成模型( g e n e r a t i v em o d e l ) 盲源分离( b l i n ds o u r c es e p a r a t i o n ) 独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ) 独立子空间分析( i n d e p e n d e n ts u b s p a c ea n a l y s i s ) 拓扑独立分量分析( t o p o g r a p h i ci n d e p e n d e n tc o m p o n e n ta n a l y s i s ) 冒泡模型( b u b b l em o d e l ) 自组织映射( s e l f - o r g a n i z i n gm a p ) 均方误差( m e a ns q u a r e de r r o r ) 信噪比( s i g n a lt on o i s er a t i o ) 上海交通大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何他个人或集体 已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在 文中以明确方式标明。本文完全意识到本声明的法律结果由本人承担。 学位论立作者签名夯勿放学位论文作者签名:塑丝坠 e l期:幺年月艺 日 上海交通大学学位论文版权使用授权书 本学位论文作者完全了解上海交通大学有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 ( 保密的论文在解密后应遵守此规定) 学位论文作者签名:弛 日期:址年玉月旦e t e t 日期:噬一年上月掣 指导教师签名: 日期:出j 月驹 第一章绪论 在本章中,首先概要介绍视觉研究的一般问题以及当今视觉计算研究领域的概 率统计模型与建模方法。综述了视觉编码模型研究的最新进展。最后,给出全文的 研究内容概要介绍以及组织结构安排。 1 1 视觉研究概述 视觉系统从外部环境获取各种感知信息,将这些信息进行一系列的处理并进行 各种内部的表示,如图1 1 所示。人类对于外部世界的感知,包含了视觉、听觉、触 觉、嗅觉等等多种方式,而在众多的感知信息中,视觉信息占据了相当大的比例, 也是人类适应复杂多变环境的感知基础。首先,外界物体发出或者反射的光线进入 图1 1视觉示意图 f i g 1 1t h e i l l u s t r a t i o no fv i s i o n 自然世界 l 图像 t 模型 眼球,眼球通过投影透视的方法,将光线聚焦在视网膜上,形成二维平面的图像。 关于三维世界中的各种信息,如颜色、形状、尺度、运动等等都包含在了这个二维 上海交通大学博士学位论文 的图像中。视觉不但从中提取有用的信息,而且还将这些信息进行内部的表示,这 种内部表示是我们进行各种思维和行为活动的基础。因此,视觉不但是“视”,而且 是“觉”。各种人工系统,如照相机,在结构上与眼睛差别很大,但它们形成图像的 过程,在本质上是相似的,都是将光学图像转变成某种信号,以表示图像中每个点 上的光强度。但照相机仅仅完成了一个图像信息的收集过程,而视觉所要完成的信 息提取和内部表示却都没有做。 对于视觉的研究,基本上可以分为两大领域,一个是生物视觉、一个是计算机 视觉。生物视觉是神经生物学的分支,主要研究现有生物视觉系统的结构与功能以 及视觉系统是如何形成视觉的。而计算机视觉是研究如何而使得计算机具有类似于 生物视觉的能力。这两个领域都是由众多学科交叉而组成的。视觉研究与其他相关 学科之间的关系如图1 2 所示。 图1 2视觉研究与其他相关学科间的关系图 f i g 1 2t h er e l a t i o n s h i pb e t w e e n v i s i o nr e s e a r c ha n dc o r r e l a t i v es c i e n c e s 对于生物视觉的研究,它涉及众多的研究学科,如解剖学、神经生理学、神经 影像学、生物物理学、心理学、认知科学等等,着重对生物视觉系统的结构与功能 进行研究。首先,从解剖学上,我们可以知道大脑不同的区域可以执行不同的功 能,如视觉区、听觉区、运动区等等。而这与神经心理学息息相关,从心理学的实 验中,我们可以获得很多大脑损伤效果的证据,这对于理解不同脑区的功能大有裨 益。而近些年来发展的神经影像技术,能够更加直观地显示大脑不同的处理活动所 处的区域,哪些功能是彼此相关或无关的。而生物物理学的知识也是必不可少的, 这可以帮助我们理解大脑不同计算单元是如何工作的,并指导我们建立何种更加符 一2 一 第一章绪论 合生物实现的计算模型。另外一个很重要的学科就是神经计算。神经计算的方法是 在一定的自然环境和生物行为模式下,用实验来观察生物的感知系统对外部刺激做 出的反应,并由此建立模型来解释和预测感知系统的反应,对诸如视觉系统的计算 机理给出合理的解释。同时,视觉也是认知科学十分重要的基本问题,如注意的机 制、物体识别如何实现等等。 另一方面,使计算机具有与人类相似的视觉处理能力,从而能更好地帮助以至 于代替人的工作,这是人类长期追求的梦想。为此,计算机需要具有完成获取、处 理和理解图像的能力。因此,计算机视觉的研究也涉及了许多的研究领域,包括图 像处理、机器视觉、模式识别、数理科学、信息科学等等。图像处理主要研究图像 的各种变换,例如边缘提取,几何变换、压缩、去噪等等。机器视觉研究能够用于 检测和测量的视觉,在机器人领域为机器人提供眼睛的功能。通过图像感知、控制 理论以及图像处理来实现实时高效的机器人控制和操作。近年来,随着计算机计算 速度、存储器容量和网络带宽的不断增加,这些原本妨碍发展的瓶颈成为过去,使 得计算机视觉的研究与应用得到了很大发展,并为传统学科,如应用数学、人工智 能、神经网络等注入了新的活力。同时也与一些新兴的科技密切相关,如计算机图 形学、搜索引擎,信息发掘等等。 生物视觉研究已经为我们提供了大量关于视觉皮层对感知输入的数据,特别是 初级皮层的数据。这些研究主要是从实验和现象上研究了神经元属性,如最优刺 激、反应调节曲线和自适应特性等,以及神经元之间的通讯,如不同区域之间的连 接、抑制和激励连接等等。然而,迄今为止,我们对于视觉信息处理机制与工作原 理的理解还停留在相当初始的阶段。一些非常重要的中心问题亟待全面的理解,无 论是生物视觉,还是计算机视觉的各学科并未给出令人信服的解释或根本未有解 释。比如,信息是如何编码的? 这些编码是如何进行学习的? 而且,对于信息编码 解剖学上的研究也非常的欠缺。如,信息编码到底是由脑的哪个层次、何种结构来 完成的? 是在树突还是在轴突? 是单个神经元,还是神经元群? 是局部进行了信息 表示还是全局的动态变化? 是分层结构,还是递归网络? 是由底向上将低级的像素 信息传送到高级皮层的前馈处理,还是由上而下的反馈信息处理? 是否或者何种计 算包括了同层神经元间的侧连接? 抑或是在所有这些层次上都进行了信息表示? 等 等。这些问题涉及到众多的学科,给出一个完整的理论体系来解释是一件异常困难 的事情。而且,我们对于大脑视觉的结构功能以及信息处理的理解是否正确? 这也 是非常重要的问题。一种有效的检验方法就是进行计算模型模拟。通过对计算模型 模拟的结果与实际的大脑功能的比较,从而给出大脑如何计算的精确定义,并量化 地检验提出的理论的正确性。因此,脑科学和生物视觉的研究亟需与信息学科进行 交叉与结合。 一3 一 上海交通大学博士学位论文 另一方面,从2 0 世纪7 0 年代中期,以m a r r 等人为代表的研究学者们提出了一整 套视觉计算的理论来描述视觉问题 1 】,其核心是从图像中恢复物体的三维形状。这 一理论影响深远,至今仍是计算机视觉研究的基本框架。但随着对计算机视觉系统 各个层次进行了大量深入的研究,传统的图像处理和计算机视觉方法存在的问题越 来越暴露出来。在处理高层的图像理解与模式识别问题时,遇到了前所未有的瓶 颈,如特征绑定问题、不变性表示问题、二维图形到三维立体的病态问题、大规模 并行和实时处理能力、识别精度等等。然而,这些问题对于人类的视觉系统来说, 却是易如反掌。通常人们在看东西的时候,一切都觉得那么地简单和自然,可以说 不费吹灰之力。这切都归功于我们天生配备了完美的视觉系统。一般地,我们并 不会意识到信息进入大脑的整个复杂处理过程,我们只是体会到了这种复杂处理后 的结果。m a r r 的视觉系统理论框架是一个自上而下、模块化的、单向的、数据驱动 型的结构。而生物视觉的研究表明,生物视觉系统的认知过程是与外界不断进行相 互作用的、有目的、主动的过程,而不只是一种被动的反应。 近年来,视觉科学的研究学者们越来越意识到融合生物视觉与计算机视觉研究 的重要性,这两个研究领域的交叉逐渐成为视觉研究的热点。其中,视觉的概率统 计方法由于成功地从理论分析和计算建模的角度上,解释了生物视觉通路的很多功 能属性,同时又有广泛的应用前景,因此得到了越来越为广泛的关注。下面小节将 对视觉的概率统计方法进行简要的介绍。 1 2 视觉研究的概率统计方法 我们所处的环境,是一个高度结构化的三维世界。通过视觉,我们能够感知到 组成这个世界的实体和这些实体之间的关系,以及这些实体在时间和空间上的连续 变化。由于组成这个世界存在一些内在规律,比如万有引力定律、光线按直线传 播、太阳升起又落下等等,使得我们所感知的世界中包含了丰富的统计特性。然 而,由于视网膜是一个二维的面,环境中的显著特征经过非线性的混合,表达在了 这个二维的面上,在这个过程中,必然丢失了现实世界大量的细节和信息。那些现 实世界的结构化的信息被隐含地包含在了二维的图像中。如图1 1 所示。 视觉系统实际上就是对这些二维图像进行处理,提取有用的结构信息,并得到 内部表示的。而这个过程通常都是不适定的,也就是说,对于任何一个给定的图 像,我们可以给出许多不同的处理和解释,而理论上是无法知道哪一个解释是正确 的。例如下面这个经典的错觉图像的例子,如图1 3 所示。当你关注图像中间部位 的时候,你会看到一个男子在对另外一个人求爱。而当你关注图像的白色区域整体 时,你会看到一个骷髅! 同样一副图像却可以得到不同的解释。从不同的角度,不 一4 一 帮章绪论 酬13错盘的绎虮例子:爱陆的背后娘r 足婚捌的葬礼r t , 57 f i g 13t h ec l a s s i c a le x a m p l eo f i l l u s i o n 同的人可以有不的解释。正是这种还原过程产生的歧义性,使得问题变褂更加复 杂。 既然对二维冈像的解释订很多种,那我们自然就会问:哪种解释是最有r 能的睢? 其实,这就用到r 概率统计的极人似然的思想。除了极大似然,概率统 计中还包括叭斯推理、生成模型、隐马尔可犬场等等各种方法来解决视觉引算 问题。其实,很早舰有人意识到将概爷统计方法应用于视觉研究的重要性。a t t e a v e 2 】和b a r l o w 【3 1 布凹f 多年前就将信息理论引八到视觉计算中,提出了著名的有效编 码假设( e f f i c i e n tc o d i n gh y p o t h e s i s ) 。尽管这种方法有很k 的历史,仕l 还是最近时期 才在视觉领域引起足够的重视。a i x n e a v e ( 11 1 9 5 4 年提h 视觉感知的目标足对输入信号 进行有效的编码。b a r l o w 在1 9 6 1 年提 感知神经元的功能是移除感知信号巾的) c 余 信息。之后,随着j 他学者研究的深入,逐渐形成了订效编码的假设1 48 1 。根据进 化沧,有效编码假设:生物体经过亿儿年的进化,je 感知系统是适应了周围环境信 号刺激的统计特性的 9 】。也就足说,闪为我们所处的环境足一个结构化的世界而小 是门噪声的世界,很自然地假设感知i 系统能够根好地处理那些经常出现的信号。这 样,就将自然环境的统计属性与感知系统的处理联系了起来。因此,生物体在进化 l 海交通人学博士学位论文 过程中不断适应所牛存的环境,以趋近最优的方式,对外界环境的统计特陛进行有 效的内部表示,能够非常有效率地编码感知信息。 将自然环境的统计属性与感知处理建立起确切和量化的关系十分重要。这不但 为我们理解神经元的功能属性提供一个理论的框架,而且这种联系使得我们可以根 据环境统计届性来找到新的计算模型。根据新的计算模型的研究结果,可以进一步 指导我们设计新的实验,来发现生物神经元的新的属性同时验证模型的正确性。 而且,这还会产生大量的应用,如腩机接口等等。 尽管人们对于感知计算受环境统计特性的影响这一点的重要性很早就有了广泛 的认识,但是将二者进行明确而定量联系却是一什极其困难的事情。目前,基本上 有两种主要的方法来验证或者改进有效编码的假设。如图l4 所示。 图i4验证和改进有散编码假设的两种方法 f i g l4t w o m e t h o d o l o g i e sf o rt e s t i n ga n dr e f i n i n gt h ee f f i c i e n tc o d i n gh y p o t h e s i s 一种方法就是直接观察在模拟自然条件下,感知神经元反应活动的统计属 性【4 ,8 ,l o _ 1 2 。这种方法主要从实验的角度来验证感知编码是= 占为有效编码。而且 与过去神经生物学采用光栅等人i 。条件照射眼球,以得到视觉通路神经元反应活动 的方法不同,这种方法直接用具有复杂统计特性的自然图像等信号,作为视觉通路 的输入刺激,以观察视觉神经元的反应属性。因为根据有效编码的假设,视觉神经 元是适应了其所处环境的,而这个环境恰恰应该是自然的。光栅等人工的条件也许 并不能反映出神经元活动的真实统计属性。 另一种方法是从计算的角度,直接研究自然景物的统计属性,导出视觉感知处 理的计算模型1 3 _ 2 0 。南于有效编码的目的足确定是否感知系统的属性是通过它们 所处的环境的自然感知刺激的统计性来解释的,因此这就使得人们对于环境在决定 第一章绪论 神经计算结构方面所扮演的角色产生了浓厚的兴趣。这种方法根据某种统计优化的 准则,直接对自然图像等数据进行某种变换( 如线性或非线性变换) ,得到感知处 理的模型,从而得到感知神经元反应活动的某种比较好的描述,并与实际生物感知系 统的属性进行比较,以验证模型的合理性和正确性。这种方法已经被成功用于解释 许多早期视觉通路的感知数据,包括视网膜 2 1 ,1 6 】、侧膝状体( l g n ) 2 2 ,1 0 和初 级视觉皮层 1 7 - 1 9 ,2 3 ,2 0 ,2 仁3 3 】的神经元反应属性等等。 近年来,随着计算机计算能力的大大提高,为我们研究更加复杂的视觉计算模 型提供了可能性。现在我们已经可以用大数据集来验证提出的模型,并已经可以用 实验来验证单个神经元和群体神经元的有效编码的假设。如果有效编码的假设的确 是正确的,那么对于自然刺激的统计理论的研究就可以揭示出神经元表示信息所遵 循的重要的设计原则。可以更好的理解神经元到底在做些什么以及为什么神经元要 这么做。 现在对视觉计算机理的研究就像过去研究鸟儿是如何飞行的一样。实际上,并 不用做鸟飞来飞去的实验就可以知道鸟飞起来的秘密,只要我们做了最关键的实 验一测量当空气流过翅膀时,翅膀上下的压力。研究视觉信息处理机制及计算原理 不仅用来解释视觉神经科学、认知科学的大量实验结果,而且理论模型的预测结果 反过来可为视觉神经科学的进一步实验提供新的思路。将生物视觉研究与计算机视 觉研究结合起来,对推动新型信息技术的发展,如脑型计算机、机器认知、新型人 机交互模式等都具有重要的作用,对研究认知计算的核。i i , 技术具有重要的现实意 义。在模式识别、身份验证、安全监控、智能的人机交互界面有广泛的应用前景。 1 3 本文研究内容和组织安排 在大脑视觉通路中大量存在着超完备表示、拓扑和稀疏编码现象。从计算的角 度看,这三种表示策略具有很大的优点。超完备表示在提取信号中的内在统计结构 方面更有效率;在图像去噪、语音识别等方面都有很重要的应用:而且超完备表示 是信号处理中的难点问题。稀疏编码策略与超完备表示是紧密联系的,它可以综合 局部表示和分布式表示的优点、更加易于找到信号中的相似性和高阶相关、增加信 噪比以及增加联想记忆的存储和表示容量。另一方面,神经元的刺激响应特征是按 照拓扑结构进行组织的,也就是说,彼此邻近的神经元,它们的反应属性也是密切 相关的。而神经元的这些功能并不是先天就有的,是通过后天适应环境的学习过程 的结果。这种学习拓扑表示的能力也许生物信息处理能力强大的重要原因。因此, 建立能够同时具有这三种表示策略的计算模型,对于视觉研究具有相当重要的意 义。本文重点研究用概率统计的方法,从计算的角度,对自然图像或视频进行处 一7 一 上海交通大学博士学位论文 理,研究视觉系统信息处理计算模型、计算机理和实现算法,通过学习过程,同时 得到视觉的超完备表示、拓扑表示和稀疏编码。全文的内容组织如下: 第二章概要描述与本论文密切相关的视觉通路必要的生物知识。如什么是神经 元的感受野,以及视觉通路中的一些功能属性,如拓扑组织结构、超完备表示以及 稀疏编码等。这些生物系统中的现象为接下来章节的计算模型提供了生物启发。在 接下来的第三章中概要介绍概率统计方法中基于生成模型的独立分量分析、稀疏编 码及其对视觉皮层简单细胞的解释等。 第四章我们主要研究超完备表示的独立子空间分析问题。从基函数在高维空间 中具有准正交性的先验假设入手,在基函数和输入数据向量的点积上定义独立的特 征子空间,然后基于最大化后验概率的方法,推导得到超完备的独立子空间分析模 型。从而解决了极大似然方法无法得到超完备表示的困难。超完备独立子空间分析 模型不仅进一步拓展了独立分量分析算法,解决了超完备表示的问题,而且能够得 到重要的相位不变的特征。通过最优刺激的实验,得到了视觉皮层复杂细胞的反应 属性,从而验证了模型的有效性。 第五章研究在理想无噪声情况下,针对二维空间拓扑结构的超完备表示问题。 受视觉初级皮层的拓扑表示启发,在基函数与输入数据向量的点积上定义具有二 维空间拓扑结构的二层生成模型,并采用最大化后验概率的方法,结合准正交性 的混合矩阵先验,得出超完备拓扑独立分量分析模型。通过使用自然图像训练, 模型能够同时学习得到超完备表示、相位不变性( 对应于初级视觉皮层中复杂细 胞的反应属性) 以及拓扑结构( 与初级视觉皮层中的功能柱类似) 三种特性。因 此,o t i c a 可以更加合理地作为v l 区复杂细胞反应属性的解释模型。在本章最后, 给出了超完备表示的拓扑独立分量分析与传统t i c a 方法的编码效率比较,从实验结 果可以看出,本文的提出的模型得到了更高的编码效率。 第六章进一步研究自然图像序列的超完备拓扑表示。在结合稀疏性、时间稳定 性和拓扑结构三种统计属性的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论