02第二章___基本神经元模型及学习规则_第1页
02第二章___基本神经元模型及学习规则_第2页
02第二章___基本神经元模型及学习规则_第3页
02第二章___基本神经元模型及学习规则_第4页
02第二章___基本神经元模型及学习规则_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第 2 章章 基本的神经元及其学习规则基本的神经元及其学习规则 本章先介绍了大脑神经元的组成及神经元之间的信息传递过程,在此基础上给出了 简化的神经元数学模型,并讨论了神经元模型中基函数和激活函数的类型。然后讨论了 单个神经元的学习规则,包括 Widrow-Hoff 学习规则、Hebb 学习规则、学习规则等。 由于单个神经元能力有限,设置不能解决异或问题,而多个神经元可以轻而易举地解决 这一问题,我们引入了神经网络的概念,并介绍了常用的神经网络结构。 2.1 神经元模型 2.1.1 大脑神经细胞 1) 神经细胞组成神经细胞组成 神经细胞又称为神经元(neuron) ,是大脑神经组织的主要成分。大脑神经元的数量 庞大,形态多样,结构复杂。大脑神经元在生理上具有感受刺激、传导冲动和产生反应 等功能。 神经元包括胞体和突起两部分,其中突起又分轴突和树突两种。 (1) 胞体 神经元的胞体(soma)在于脑和脊髓的灰质及神经节内,是神经元的代谢和营养中 心。胞体的结构与一般细胞相似,有核仁、细胞膜、细胞质和细胞核。其中细胞膜是一 个敏感而易兴奋的膜,在膜上有各种受体(receptor)和离子通道(ionic chanel) 。形成 突触部分的细胞膜增厚。膜上受体可与相应的化学物质神经递质结合,使膜的离子通透 性及膜内外电位差发生改变,从而使胞膜产生相应的生理活动:兴奋或抑制。 (2) 突起 神经元的突起是神经元胞体的延伸部分,由于形态结构和功能的不同,可分为树突 和轴突 树突(dendrite) 树突是从胞体发出的一至多个突起,呈放射状。靠近胞体部分较粗,经反复分支而 变细,形如树枝状。树突具有接受刺激并将冲动传入细胞体的功能。 轴突(axon) 轴突是一根长神经纤维,其主要功能是将神经冲动由胞体传至其他神经元。轴突传 导神经冲动的起始部位是在轴突的起始段, 沿轴膜进行传导。 每个神经元只有一根轴突。 (3) 突触 神经元与神经元之间之间的连接点,称为突触(synapse) 。它是神经元之间的传递 信息关键性结构。突触可分两类,即化学性突触(chemical synapse)和电突触(electrical synapsse) 。 化学性突触 化学性突触位于轴突末端,呈球状或环状膨大,附在另一个神经元的胞体或树突表 面。通常一个神经元有许多突触,可接受多个神经元传来的信息。根据神经元种类不同, 突触数目为几千到几十万个不等。 化学性突触由三部分组成:突触前部、突触间隙和突触后部。突触前部和突触后部 相对应的细胞膜较其余部位略增厚,分别称为突触前膜和突触后膜,两膜之间的狭窄间 隙称为突触间隙。在突触前膜部位的胞浆内,含有许多突触小泡(synaptic vesicle) 。突 触小泡内含有化学物质, 称为神经递质 (neurotransmitter) 。 各种神经递质在胞体内合成, 形成小泡,通过轴突运输到轴突末端。突触后膜具有受体和化学门控的离子通道。根据 突触前膜和后膜的胞质面致密物质厚度不同,可将突触分为和两型:一般认为型 突触是兴奋性突触,型突触是一种抑制性突触。 化学突触的特征,是一侧神经元通过出胞作用释放小泡内的神经递质到突触间隙, 相对应一侧的神经元(或效应细胞)的突触后膜上有相应的受体。具有这种受体的细胞 称为神经递质的效应细胞或靶细胞,这就决定了化学突触传导为单向性。突触的前后膜 是两个神经膜特化部分,维持两个神经元的结构和功能,实现机体的统一和平衡。故突 触对内、外环境变化很敏感,如缺氧、酸中毒、疲劳和麻醉等,可使兴奋性降低。茶碱、 碱中毒等则可使兴奋性增高。 电突触 电突触是神经元间传递信息的最简单形式。此时,轴突末端无突触小泡,传导不需 要神经递质,是以电流传递信息,传递神经冲动一般均为双向性。神经细胞间电阻小, 通透性好,局部电流极易通过。电突触功能有双向快速传递的特点,传递空间减少,传 送更有效。 电突触对内、外环境变化很敏感。在疲劳、乏氧、麻醉或酸中毒情况下,可使兴奋 性降低。而在碱中毒时,可使兴奋性增高。 2)神经元之间的信息传送)神经元之间的信息传送 图 2.1 为神经元之间的连接示意图。 如前所述,神经元之间通过突触传递信息。当神经冲动传至突触前膜时,突触小泡 移向突触前膜,以胞吐方式释放小泡内的神经递质,其中部分神经递质与突触后膜上的 相应受体结合,后膜内外两侧的离子分布状况发生改变,呈现兴奋性或抑制性变化,从 而影响突触后神经元(或效应细胞)的活动。使突触后膜发生兴奋的突触,称兴奋性突 触(exitatory synapse) ,而使后膜发生抑制的称抑制性突触(inhibitory synapse) 。突触的 兴奋或抑制决定于神经递质及其受体的种类。 由于一个神经元通常有许多突触,其中有些是兴奋性的,有些是抑制性的。如果兴 奋性突触活动强度总和超过抑制性突触活动强度总和,并达到一定阈值,就能使该神经 元的轴突起始段发生动作电位,产生神经冲动。出现神经冲动时,则该神经元呈现兴奋, 反之,则表现为抑制。 图 2.1 神经元之间的连接 2.1.2 MP 模型 人工神经网络的第一个数学模型是由 McCulloch 和 Pitts 建立的McPi1943。该模型 是基于这样一种思想:即神经细胞的工作方式是要么兴奋,要么抑制。基于这一思想, McCulloch 和 Pitts 在神经元模型中引入了硬极限函数,该函数形式后来常被其它神经网 络(多层感知器、离散 Hopfield 网络)所采用。 由于神经元之间的信号连接强度取决于突触状态,因此在 MP 模型中,神经元的每 个突触的活动强度用一个固定的实数即权值模拟。于是每个神经元模型都可以从数十甚 至数百个其他神经元接收信息,产生神经兴奋和冲动;同时,在其他条件不变的情况下, 不论何种刺激,只要达到阈值以上,就能产生一个动作电位。但如果输入总和低于阈值, 则不能引起任何可见的反应。 图 2.2 MP 模型 图 2.2 所示为 MP 模型示意图。 图中 1 x, 2 x, , n x为神经元的输入, 1 w, 2 w, , n w为相应的连接权值,T为神经元的兴奋阈值,y为神经元的输出。神经元的输出取 下面的二值函数: = = = n i ii n i ii Txw Txw y 1 1 , 0 , 1 若 若 (2.1) 上式中, i x表示神经元的第i个输入, i w表示神经元的第i个输入权值,y表示神经元 的输出,T表示神经元的阈值,n为输入个数。 单个 MP 神经元模型可以实现与、或、与非、或非等二值逻辑运算(但不能实现异 或运算) 。 另外, 该模型曾因说明了人工神经网络可通过简单的计算产生相当复杂的行为, 从而引起极大的轰动,但它是一种静态神经元,即结构固定,权值无法调节,因此缺乏 一个关键性的要素,即学习能力。 2.1.3 一般神经元模型 图 2.3 通用神经元模型 由于 MP 模型过于简单,而且权值不能学习,因此需要更复杂的灵活性更高的神经 元模型。图 2.3 所示为一个具有n个输入的通用的神经元模型。与 MP 模型一样, ()()T n xxx,., 21 = =x为神经元输入,( () )T n www,., 21 = =w为可调的输入权值,为偏移 信号, 用于建模神经元的兴奋阈值。()u和()f分别表示神经元的基函数和激活函数 (也 叫神经元函数、挤压函数或活化函数) 。基函数()u是一个多输入单输出函数 (),wxuu=;激活函数的一般作用是对基函数输出u进行“挤压” :( )ufy=,即通 过非线性函数()f将u变换指定范围内。 下面介绍常用的基函数及激活函数的类型。 1) 基函数类型基函数类型 线性函数 绝大多数神经网络都采用这种基函数形式, 如多层感知器 (MLP) 、 Hopfield 网络等。 采用线性函数时,基函数输出u为输入和阈值的加权和: = = = wxT n j jjx wu 1 (2.2) 在多维空间中,该基函数形状是一个超平面。 距离函数 此时基函数输出为: wxu= = = n j jj wx 1 2 )( (2.3) 上式中w常被称为基函数的数据中心(Unit Center) 。显然,u表示输入矢量x和权矢量 w之间的欧氏距离。在多维空间中,该基函数形状是一个以w为球心的超球。径向基函 数主要用于 RBF 网。 椭圆基函数 如基函数采用椭圆基函数,则神经元输入的总和为 = = n j jjj wxcu 1 2 )( (2.4) 在多维空间中,该基函数形状是一个椭球。 2) 激活函数类型激活函数类型 激活函数可以是线性的,也可以是非线性的。常用的激活函数有以下一些类型: 硬极限函数 硬极限函数的表达式如下: = 0, 0 0, 1 )( u u ufy (2.5) 或者 = 0, 1 0, 1 )()( u u uSgnufy (2.6) 其中()Sgn为符号函数。 对应于式 2.5 和 2.6,硬极限函数的曲线形状如图 2.4(a)和 2.4(b)所示。式 2.5 的硬极限函数也叫单极限函数,式 2.6 的硬极限函数也叫双极限函数。 硬极限函数常用于分类。 (a) (b) 图 2.4 硬极限函数 线性函数 如果激活函数采用线性函数,则神经元输出取基函数的输出u,即 uufy=)( (2.6) 图 2.5 线性函数 线性函数的曲线如图 2.5 所示。该激活函数常用于实现函数逼近的神经网络的输出 层神经元。 饱和线性函数 饱和线性函数的表达式如下: ()11 2 1 )(+=uuufy (2.6) 图 2.6 饱和线性函数 饱和线性函数的曲线如图 2.6 所示,该函数也常用于分类。 Sigmoidal 函数 Sigmoidal 函数也叫S函数,是一类非常重要的激活函数,无论神经网络用于分类、 函数逼近或优化,Sigmoidal 函数都是常用的激活函数。Sigmoidal 函数的表达式为: u e ufy + = 1 1 )( (2.7) 或 u u e e ufy + = 1 1 )( (2.8) 式中的参数称为 Sigmoidal 函数的增益,其值决定了函数非饱和段的斜率,越 大,曲线越陡。对应于式 2.7 和 2.8,Sigmoidal 函数的曲线如图 2.7 所示。式 2.7 的函数 也称单极性 Sigmoidal 函数,式 2.8 的函数也称双极性 Sigmoidal 函数或双曲正切函数。 (a) (b) 图 2.7 Sigmoidal 函数 与硬极限函数相比,Sigmoidal 函数是连续可微的,使得神经元的权值可用误差反向 传播学习算法(BP 算法)调节。 高斯函数 图 2.8 高斯函数 高斯函数(也称钟形函数)也是极为重要的一类激活函数,常用于径向基函数神经 网络(RBF 网络) 。高斯函数的表达式为: 2 2 )( u eufy = (2.8) 其中参数被称为高斯函数的宽度或扩展常数。越大,函数形状就越平坦;反之, 越小,函数形状就越陡峭。 高斯函数的曲线如图 2.8 所示。 2.2 神经元学习算法介绍 我们知道,生物之所以能适应环境,是因为生物神经系统具有从周围环境进行学习 的能力。对人工神经网络来说,学习能力也是其最为重要的特点。神经网络的学习有两 种形式:有导学习和无导学习。 有导学也叫有监督学习(supervised learning) 。一般情况下,有导学习的训练样本是 输入输出对()()Nidi,.,2 , 1,= = i p,其中 i p为样本输入(通常) , i d为相应的样本输出, 也称教师信号(为标量) 。神经网络训练的目的,是通过调节各神经元的自由参数,使网 络产生期望的行为,即当输入样本 i p时,网络输出尽可能接近 i d。 无导学习也叫无监督学习(unsupervised learning)或自组织学习(self-organized learning) 。无导学习不提供教师信号,而是只规定学习方式或某些规则,具体的学习内 容随系统所处环境(即输入信号情况)而异,系统可以自动发现环境特征和规律。 不管是有导学习还是无导学习,都要通过调整神经元的自由参数(权值或阈值)实 现。下面讨论神经元的学习算法。 对 单 个 神 经 元 , 若 令 权 矢 量 T n www),.,( 21 = =w, 输 入 样 本 T n xxx) 1,.,( 21 =x, 于 是 阈 值 就 可 以 并 到 权 矢 量 中 , 于 是 当 前 权 值 为 ( )()T n wwwt,., 21 =w。对有导学习,假定输入x对应的期望输出为d。于是神经 元学习算法的内容是确定神经元的权值调整量( )tw,并得到权值调节公式: ()( )( )tttwww+=+1 (2.9) 其中称为学习率,一般取较小的值。 ( )tw的值一般与x、d及当前权值( )tw有关。 2.2.1 hebb学习规则 Hebb 学习是一种无导学习算法。 1949 年, 神经生物学家 Hebb 在其著作 Organization of behavior中给出了著名的 Hebb 学习规则Hebb1949,假设了人脑神经元之间突触联 接强度的改变是学习和记忆的基础。 Hebb 学习规则指出, 如果一个突触前活动在时间上 紧随以一个突触后活动, 那么突触的连接强度将会增强。 后来其他人将之引申Sten1973, ChDa1976,并把突触联接强度的改变与突触前后电位相关联,即突触联接强度的增加, 是与突触前和突触后电位的相关性成比例的。可以这样说,如果一个突触有一个正的突 触前电位和一个正的突触后电位,则突触的通导性得到增强;相反地,如果突触前电位 为负/正,突触后电位为正/负,则突触通导性减弱。 Hebb 规则说明: 使用频繁的突触联系会变得更紧密, 从而可理解为突触的特点是用 进废退。长时程增强是 Hebb 学说的实验证据:高频刺激突触前神经元后,在突触后神 经元上纪录到的电位会增大,而且会维持相当长的时间。 根据 Hebb 规则,假定神经元的当前的输入为()T n xxx,., 21 =x,输出为 ()xw T tfy)(=,则权矢量( )tw的调节量为 ( )xwyt= (2.10) 故神经元的权值修正公式为 ()( )xwwytt+=+1 (2.11) 神经元的初始权值一般取零附近的随机值,激活函数f可以取任意形式。式中 ( )tw可理解为样本x对当前权值的影响。 除了上述的基本Hebb学习规则, 根据应用的不同, 还有Oja和KarhunennOjKa1995, OjHy1996,OjOg1991的非线性 Hebb 学习算法。 Hebb 学习规则常用于自组织网络或特征提取网络。 2.2.2 离散感知器学习规则 如果神经元的基函数取线性函数,激活函数取硬极限函数,则神经元就成了单神经 元感知器。单神经元感知器的学习规则称离散感知器学习规则Rose1958,是一种有导 学习算法。 对样本输入x,假定神经元的期望输出为d,当前输出为y,而神经元的激活函数 取符号函数。则离散感知器学习规则中,权值调整量为 ( )xw)(tet= (2.12) 其中误差信号为 ( )()xwTSgndydte= (2.13) 神经元的初始权值可以取任意值。 离散感知器学习规则常用于单层及多层离散感知器网络。 2.2.3 学习规则 学习规则也称梯度法或最速下降法, 是最常用的神经网络学习算法。 学习规则是 一种有导学习算法。 1) 梯度法基本原理梯度法基本原理 假定神经元权值修正的目标是极小化标量函数( )wF。如果神经元的当前权值为 ( )tw,且假设下一时刻的权值调节公式为: ()( )( )tttwww+=+1 (2.14) 其中( )tw代表当前时刻的修正方向。显然,我们期望每次修正均有 ()()() 1(tFtFww+ (2.15) 那么什么样的( )tw才是合适的呢?我们对() 1(+tFw进行一阶泰勒展开,得 ()()()()()()()() 1(tttFttFtF T wgwwww+=+ (2.16) 其中( ) )( )( t Ft ww wg = =为( )wF在( )tww=时的梯度矢量。显然,如果我们取 ( )(tctgw= (2.17) 其中c取较小的正数(称学习率) ,即权值修正量沿负梯度方向取较小值,则式 2.16 的 右边第二项必然小于零,式 2.15 必然满足,这就是梯度法的基本原理。 下面以寻找 2 )(xxf=的最小点为例,介绍梯度法的使用过程。在该例子中,我们 取初始点1)0(=x,学习率4 . 0=c。 t )(tx ()(txg )(tx ()(txf 0 1.00 2.0 -0.80 1.0 1 0.20 0.4 -0.16 0.04 2 0.04 0.08 -0.032 0.0016 3 0.008 0.016 -0.0064 0.000064 4 0.0016 0.0032 -0.00144 0.00000256 5 0.00016 表 2.1 梯度法的叠代过程 可见,进过 5 次叠代,便可以找到比较满意的近似解。 应该指出,局部最小点和学习率取值对梯度法的最终解影响很大。 2) 神经元的神经元的 学习规则学习规则 由于梯度法要用到目标函数的梯度值,因此在神经元权值调节的 学习规则中,神 经元基函数取一般的线性函数,激活函数取 Sigmoidal 函数,即取 u e uf + = 1 1 )(或 u u e e uf + = 1 1 )(,因为 Sigmoidal 函数是连续可微的。 神经元权值调节 学习规则的目的,是通过训练权值w,使得对于训练样本对 ()d,x,神经元的输出误差()()() 2 2 2 1 2 1 xwTfdydE=达最小。通过计算梯度矢 量()()xxw w T fydE =,并令( ) w wEt=,即可得到权值修正公式: ( )()()xxww T fydct = (2.18) 神经元的初始权值一般取零附近的随机值。 学习规则是应用最广泛的学习规则,常用于单层及多层感知器、BP 网。 2.2.4 Widrow-Hoff学习规则 Widrow-Hoff 学习规则WiHo1960也叫 W-H 学习规则,是一种有导学习算法。 Widrow-Hoff 学习规则与 学习规则的推导类似,但该学习规则也可用于神经元激 活函数取硬极限函数的情形,如图 2.8 所示。通过训练权值w,使得对于训练样本对 ()d,x, 神 经 元 的 输 出 误 差()() 2 2 2 1 2 1 xwTdydE=达 最 小 。 由 于 ()xxw w T dE=,故权值修正公式为: ( )()xwydct= (2.19) 图 2.9 Widrow-Hoff 学习规则原理 Widrow-Hoff 学习规则常用于自适应线性单元(Adaline) 。 2.3 单个神经元的解决问题的能力 下面以异或分类问题为例,讨论单个神经元和多个解决问题的能力。 图 2.10 异或问题是早期神经网络研究的经典问题,该问题是指用离散感知器神经元解决图 2.10 所示的分类问题。图中,样本()1, 1和()1, 1 属于一类,而()1, 1和()1, 1 属于另 一类。真值表如表 2.2 所示。 1 x 2 x y 1 1 1 1 1 1 1 1 1 1 1 1 表 2.2 2.3.1 单个神经元的分类能力 离散感知器神经元的分类直线为+= 2211 xwxwy,0y为一类,0y为另 一类。为了对上述样本进行分类,必须满足: + + 21 21 21 21 ww ww ww ww (2.20) 显然这是不可能的,因此单个离散感知器神经元不可能解决异或问题。由图 2.10 可 以清楚地看到这一点:任何一条直线都不可能把图中地四个点正确分成两类。 2.3.2 多个神经元的分类能力 尽管一条直线不能对二维平面上的异或问题进行分类,但是我们知道,对三维空间 内的任意四点,我们总可以用一个平面将它分成任意两类。对上述异或问题来说,如果 存在某个变换,该变换将平面上的四个点映射成三维空间的四个点,则我们就可以用一 个平面将变换后的四个点分成两类,从而解决异或问题。一种变换的方法是保持其余点 不变的情况下,将点()1, 1上移(或下移) ,如图 2.11。 图 2.11 将平面上的四个点转换成三维空间的四个点 图 2.11 的变换对应的真值表为表 2.3. 1 x 2 x 3 x y 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 表 2.3 图 2.11 的变换对应的真值表 由于单个神经元解决问题的能力有限, 为了实现表 2.3, 可以用四个离散感知器神经 元组成图 2.12 所示的简单网络,此图即可实现异或问题。 图 2.12 实现异或问题的神经网络 在图 2.12 中,隐节点的作用是将 1 x、 2 x转换为 3 x,输出节点(3 输入 1 输出)的作用 是实现图 2.11 中的分类超平面。 可见,如果将许多单个神经元进行组合,组成复杂的神经网络,将极大的提高神经 网络的能力。遗憾的是除了异或等简单问题外,我们对绝大部分问题还没有找到设计最 好神经网络结构的方法。 2.4 神经网络的拓扑结构 神经元之间的连接可以有任意形式,但最常见的结构是前向神经网络和反馈神经网 络。 2.4.1 前向神经网络 前向神经网络也称多层前向网或简称前馈网络,是指拓扑结构为有向无环图的神经 网络。在前向神经网络中,各神经元接受前一层的输入,并将计算结果输出给下一层, 没有反馈。除了输入层之外,隐层和输出层神经元都实现一定的运算,因此称计算节点。 下图的 2.13 至 2.16 所示常见的前向神经网络。 图 2.13 两层感知器网络 图 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论