(概率论与数理统计专业论文)bp网络与logistic回归模型在模式分类中的比较研究.pdf_第1页
(概率论与数理统计专业论文)bp网络与logistic回归模型在模式分类中的比较研究.pdf_第2页
(概率论与数理统计专业论文)bp网络与logistic回归模型在模式分类中的比较研究.pdf_第3页
(概率论与数理统计专业论文)bp网络与logistic回归模型在模式分类中的比较研究.pdf_第4页
(概率论与数理统计专业论文)bp网络与logistic回归模型在模式分类中的比较研究.pdf_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 模式分类是许多领域都涉及到的重要问题,而统计方法和神经网络是模式分类中应 用非常广泛的两种方法,因而对这两种方法进行必要的研究就显得非常必要人工神经 网络是对生物神经网络的数学模拟,这和统计方法有着本质的区别,但是它们在很多方 面却也有很多类似的地方本文首先对比了用于线性分类的p e r c e p t r o n 和f i s h e r 判别 法。之后结合东北师范大学贫困学生评价标准这一实例,对b p 神经网络和l o g i s t i c 回 归做了详细的比较研究 “ 关键词tp e r c e p t r o n ;f i s h e r 判别法;b p 网络;l o g i s t i c 回归模型 a b s t r a c t p a t t e r nc l a s s i f i c a t i o ni sav e r yi m p o r t a n tp r o b l e mi nm a r l yf i e l d s a n ds t a t i s t i c m m e t h o d sa n da r t i f i c a ln c u r a ln e t w o r ka x et h em o s tu s e f u l lm e t h o d si np a t t e r nc l a s - s i f i e a t i o n ,s oc o m p a r ea n ds t u d yt h a tt w om e t h o d si sv e r yn e s s a x y a t i f i c i a ln e u r a ln e t r w o r k s ( a n n ) t h a ts i m u l a t et h eb i o l o g i ct h en e u r a ln e t w o r ka x em a t h e m a t i c a lm o d e l s ,a n d t h e r ea r es o m ed i f f e r e n ta s p e c t sb e t w e e na n na n ds t a t i s t i cm e t h o d sc o n s t i t u t i o n a l l y , b u t t h e r ea r ea l s om a n yh o m o l o g o u sa s p e c t sb e t w e e nt h e m b e s i d ec o m p a r i n gt h ep e r c e p t r o n a n df i s h e rd i s c r i m i n a t i o nm e t h o dw h i c ha r eu s e dt ol i n e a rc l a s s i f i c a t i o n ,c o m b i n i n gt h e e x a m p l e so fh o wt oc l a s s i f i ep o o rs t u d e n t si nn e n u ,t h i sp a p e ra n a l y s e st h ed i f f e r e n c e s a n dh o m o l o g o u sa s p e c t sb e t w e e nb pn e u r a ln e t w o r ka n dl o g i s t i cr e g r e s s i o nm o d e l k e yw o r d s :p e r c e p t r o n ;f i s h e rd i s e r i m i n a t i o n , b pn e t w o r k ;l o g i s t i cr e g r e s s i o nm o d e l i l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使 用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意 学位论文作者签名 枇嗍学 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留,使用学位论文的规定,即;东北 师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被 查阅和借阅本人授权东北师范大学可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印,缩印或其它复制手段保存、汇编学位论文 学位论文储签名l 兰4 童垫指导教师繇;碴圣 日期 学位论文作者毕业后去向 工作单位 通讯地址t 呼也日 期。等业 电话 邮编 第一章引言 当前很多的领域都涉及到模式分类和识别的问题。比如生物身份认证、d n a 序列 分析、图像识别,数据挖掘和信号处理等而神经网络和统计方法是模式分类中常用的 两种方法 人们对人工神经网络的研究始于1 9 4 3 年一耀学家w s m c c u l l o c h 和数学家w p i t t s 研究并提出的m - p 神经元模型,到现在已经有6 0 多年的历史了,然而在这6 0 多年里它 却经历了非常曲折的发展道路 自人工神经网络产生之日起一共经历了两个发展的高潮期第一个高潮期是从二十 世纪5 0 年代初到6 0 年代末,在这一时期产生了感知器神经网络( p e r c e p t r o n ) ,这一网 络模型的典型应用是成功地解决很多线性可分的分类问题,并且三层感知器网络成功的 解决了异或问题 1 9 6 9 年m m i n s k y 和p a p e r t 在lp e r c e p t r o n 一书中从数学上深入分析了简单 神经网络的缺陷,即只能处理线性分类的问题,倘若要处理非线性的问题必须增加隐含 层。而增加隐含层是否有意义有待于数学上的进一步证明,并且增加隐含层将面临诸多 问题,比如隐含层的个数以及权值的调整规则等在7 0 年代,神经网络的发展陷入了低 谷 第二个高潮期是在经历了一个较长低谷时期的8 0 年代,1 9 8 2 年j h o p f i e l d 提出循 环网络。并将l y a p u n o v 函数引入人工神经网络。作为网络性能判定的能量函数,阐明了 人工神经网络与动力学的关系,用非线性动力学的方法来研究人工神经网络的特性对 于人工神经网络来说。这无非是一个突破性的进展1 9 8 5 年,美国加婀大学圣地亚哥分 校( u c s d ) 的h i n t o n ,s e j n o w s k y s r u m e l h a x t 等人所在的并行分布处理( p d p ) 小 组的研究者在h o p f i e l d 网络中引入了随机机稿,提出所谓的b o j t z m a n n 机1 9 8 6 年, r u m e l h a x t 提出了b p 学习算法,从此以后,b p 网络在实践中得到了极为广泛的应用。 据统计,有百分八十以上的神经网络采用了这一算法或者它的变形算法在这以后,神 经网络的理论获得了稳步的发展,特别是其在各个领域的应用得到了进一步的扩展和深 入。 在处理分类的问题中,神经网络具有广泛的应用,假如特征是线性可分的,感知器 就是一个很好的选择,面在统计上的却有很多处理的手法,f i s h e r 判别准则就能很好的 解决线性可分的模式分类问题 然而在处理实际问题中。非线性的问题往往比线性的是更为常见的,而神经网络中 1 的b p 网络在处理非线性分类的问题中却有着非常好的应用前景与之对应,l o g i s t i c 回归模型也可广泛地应用于解决社会统计类问题的而在处理分类问题中,有很多是典 型的社会类问题,其中东北师范大学贫困学生评价标准的确定就是一个很典型的代表, 本文分别使用了b p 网络和l o g i s t i c 回归模型去懈决这一问题并且就其结果傲了详细的 对比。 感知器( p e r c e t r o n ) 是早期人工神经网络模型的典型代表,其后的很多的网络的结构 都是它的推广,不同的是只是参数的训练算法 早期的感知器有两层构成t 输入层和输出层,其结构如图一所示 辕入晨辘出层 图一 假如神经元的一组输入用向量表示t x = ( :r l ,x 2 ,- r ,z n ) 其相应的权值为; w = ( o ) 1 ,w 2 ,) 神经元的阀值为口,输出为y ,则 y = ,( f z j i x i 一口) 2 一般响应函数为f 为双极值阶跃函数,即t 他,= b 东 另外,其响应的函数也可以采用符号函数,m p ; 驰卜1 l 茗 它充分体现了生物神经元的四个基本特性t 它多输入单输出的元件,它是一个具有 非线性输入输出特性的元件,它具有可塑性以及它的输出响应是各个输入的综合作用 的结果 假如网络的输入模式向量为 & = ( s :,建,s :) 对应的输出为t 矿,= 1 ,2 ,m ,而输入层至输出层的连接权向量为t w = ( w l ,地,一,) 那么网络的学习规则即权值的调整规则如下t a ,对连接权和输出单元的阀值进行初始化。一般是赋予( 一1 ,1 ) 区间内的随机数 b ,对连接权进行修正,首先,网络的输出按照下面的表达式进行计算t f = ,( 咄s :一日) 其中,不妨假设f 为双极值阶跃函数( 为符号函数也可) ,那么有 m ,= 二烹 其次,计算输出层单元希望输出y 与实际输出y 之间的误差; d k = y 一y 最后,修正输入层各单元与输出层之间的连接权与阀值- 岫( + 1 ) = 挑( ) + 咄( ) 3 咄( ) = q s :驴 o ( n + 1 ) = o ( n ) + 或( ) a o t ( n ) = 口扩 上述表达式中,l = 1 ,2 ,n ,其中n 为学习回数,d ,p 为正常数( 0 8 1 , 0 卢 1 ) e 对i n 个输入模式重复步骤b ,直到误差扩= 1 ,2 ,m ) 趋于零或小于预先 给定误差限s 这是神经网络权值和阀值调整的一般算法,并且可以证明此算法是收敛 的 上面就神经网络的一般结构和运算规则给于了说明作为早期网络的感知器,它为 后来应用更加广泛的b p 网络提供基础,而与之不同的仅仅是网络的层数和权值的调整 规则,换句话来说,在这之后的很多具有代表性的网络都是它的推广 本文结合砂基液化的例子就p e r c e p t r o n 网络和f i s h e r 判别方法傲了对比;结合东 北师范大学贫困生评价标准这一实例对b p 神经网络和l 0 9 i 8 t i c 回归模型做了详细的比 较 4 第二章p e r c e p t r o n 与f i s h e r 判别准则 lp e r c e p t r o n p e r c e p t r o n 即感知器网络,对它而言,如果训练的样本是线性可分的,那么其权向 量和阀值按照引言的调整规则是收敛的 先固定扩,那么不妨令其权向量为a 时,由其权向量构成的平面可以把所有样本实 现正确的分类,即两类样本点落在平面的两边,为了处理上的方便,把平面上一侧的点 关于平面对称到另一侧,不妨对称到正侧,那么a ,玑对所有的i 都是正的,设k 和口为 一个正的比例因子,由此可知 a ( n + 1 ) 一k a = ( a ( n ) 一k h ) - t - q 因此 0n ( + 1 ) 一k h l j 2 = j ia ( n + 1 ) 一k h9 2 + 2 ( d ( ) 一k a ) a y + 0v t y 2 假如y 是被错分的,则有( ) q 0 ,所以 0a ( n + 1 ) 一k d1 1 2 0 故有不等式。 0a ( n + 1 ) 一k h l l 2 _ 1 la ( n - t - 1 ) 一k h i l 2 2 k c + b 2 如果选 七:一b 2 c 因而就有 0a ( n + 1 ) 一k d l l 5 1 la ( n - t - 1 ) 一七a0 2 6 2 而扩是在逐渐减小的,所以每一次权值的调整,都使得权值与真实权值的平方距离 减小,故感知器网络是收敛的正如算法叙述的那样,感知器对线性可分的情形能有很 好的分类效果, 5 假如有平面上线性可分的两类点,一共有五个点,数据如表一所示,用感知器可以 成功的找出区分两类点的曲面,下面是所得的结果:经过五次训练,即可得到一个能够 把五个点正确分类的平面,网络的权值为( 5 ,4 ,2 6 ,一2 6 ) ,阀值为一4 ,训练的平均 绝对误差最终为0 ,其误差随训练次数的变化曲线可见图二,分类平面的表达式为, z = 5 4 x 1 + 2 6 x 2 2 6 x 3 4 表一 x iz ;z 类别 = 11111 t = 23 3 4 571 i = 3131 42 51 = 40120 i = 51 52 35 ,20 图二 2f i s h e r 判别法 统计方法中的判别分析在模式分类中有着极为广泛的应用并且取得了很好的效果, 而判别分析所涉及到的方法也特别的多,比如距离判别法、b a y e s 判别、f i s h e r 判别法、 逐步判别法等,而f i s h e r 判别法是判别法中的一种重要的实现线性分类方法f i s h e r 判 别法对总体的分布没有任何的要求,它利用投影的思想,把所有的样本点投影到同一个 6 方向向量上,最终的目的在于找出一个方向向量,而要找的方向向量就是使各类别样本 数据投影后能够区分得最开的方向,而寻找方向向量的方法利用了方差分析的思想,使 组间平方和与组内平方和之比达到最大的向量即为所求,很显然这是一种线性分类的方 法 3 模拟与对比 为了更好的对两种方法加以说明,下面就结合具体的例子来比较,不妨拿砂基液化 的例子加以说明,影响砂基液化的因素有很多,经过筛可选取七个因荔震级,震中距, 水深。土深。贯入值,最大地面加速度和地震持续时间分别用f i s h e r 判别法和感知器 网络对其进行分类而由f i s h e r 判别法找出的方向向量n 为 o = ( o 0 2 0 2 ,- 0 0 0 0 1 0 3 ,- 0 0 1 7 5 ,o 0 1 5 6 ,0 0 1 6 ,- 0 7 3 3 ,- 0 0 0 1 6 1 ) 其中有三个样本数据不能实现正确的分类,由平面的法向量可知其判定平面为 z = o 0 2 0 2 噩一0 0 0 0 1 0 3 x 2 0 0 1 7 5 x a + 0 0 1 5 6 x 4 + o 0 1 6 x 5 0 7 3 3 x 6 - 0 0 0 1 6 1 x 7 一o 1 3 5 4 6 对感知器而言。网络有七个输入,其权值向量w 为t w = ( 2 8 9 5 i ,- 5 8 ,3 5 0 5 ,一2 3 7 7 ,一1 6 8 6 ,4 2 8 5 ,3 2 5 ) 而阀值为4 1 2 ,其中有一个样本数据不能实现正确的分类,其训练的误差曲线可见 图三,由图可知其平均绝对误差随训练次数的变化曲线非常的不稳定,主要是由于样本 数据的线性不可分所造成的,但是还是可以经过多次实验找出一个误差小的判定乎面, 分类曲面为一 z = 2 8 9 5 1 x l 一5 8 x 2 + 3 5 0 5 x 3 2 3 7 7 x 4 1 6 8 6 x 5 + 4 2 8 ,5 x 6 + 3 2 5 x 7 + 4 1 2 通过模拟对比研究可知, 1 当模式是线性可分时,用感知器找到的分类平面不是唯一的,而每一个通过训练 权值找到的分类平面都可以把样本实现正确的分类;而通过f i s h e r 判别法找出的判别平 面的法向量是唯一的,面对两种方法的评价还需要通过检验样本来进一步判定 2 ,当模式不是线性可分的时候,而仍然采用线性方法加以分类的话,用感知器寻找 判定平面时其平均绝对误差随训练次数曲线的波动会比较大,但仍然可以寻找到误差小 的一个判定平面;若用f i s h e r 判别法找出判定面不一定是能够对样本数据实现最好分类 的平面,但是是唯一的。这是若光考虑样本数据的分类效果的话,感知器可以我到一个 比较好的判定面,不过感知器这时很不稳定,需要多加以实验才能实现这一点 7 图三 8 第三章b p 网络与l o g i s t i c 回归模型 1b p 网络 尽管感知器获得了广泛的应用,但是它毕竟只适用于线性模式的识别,这是由其结 构的特点决定的而实际中有更多的是非线性模式的识别,这就需要能够进行非线性分 类的网络,而b p 网络就其结构上实现了很大的突破,更重要的是误差逆传播学习算法 ( e r r o rb a c k - p r o p a g a t i o n ) 的产生,解决了困扰人们已久多层网络学习规则如何确定的问 题。b p 网络是一种具有三层或三层以上的阶层型的神经网络,上、下层之问每个神经 元实现的是全连接,即下层的每一个神经元与上一层的每个单元都实现权连接,丽每层 各神经元之闻无连接,本文就三层的神经元展开讨论虽然现在应用于实践中的神经网 络有很多,但是b p 网络仍然是应用最为广泛的一种神经网络,而b p 网络连接权的调 整规则更得到了很多前向网络的青睐 输八层中问层输出层 图四 下面就误差逆传播学习规则进行数学上的讨论,由于s 型函数具有良好的数学性 质:饱和性、可导性、单调递增性和界于【o 1 】之间,更重要的是它可以很好的逼近界于 【0 ,1 1 之间单调递增对称的连续函数,因而它必定成为神经网络连接函数的首选,而在神 经网络中应用最多的有两种函数tl o g i s t i c 函数和双曲正切函数,他们的表达式分别为t m ) = 南 9 m ) = 筹 这两种函数有其实是很类似的,但是在实际的应用中选择那一个函数还是需要进行 比较的,并且也可以选择其它有类似性质的函数,本文就连接函数为l o g i s t i c 函数的情 形对连接权的调整规则进行讨论 与感知器的权值调整规则类似,输出值与实际值的偏差是权值和阀值调节的关键依 据,设第k 次学习后的网络希望输出与实际输出的差值为; 铹= 谚一谚 j = l ,2 ,q 故第k 次学习后总体的偏差可以用下列表达式加以衡量 导 为了使风随着连接权的修正呈梯度下降变化,需求反对网络实际输出 g ) 的偏 由于 篆- _ ( 砖一钟) _ 彬 p l t :q 吣一m t = 1 ,2 ,一,q j = l g = ,( l t ) t = 1 ,2 ,q 连接权铷的微小变化,对输出层的响应可有下式知 黑:坠堕:,姐。)bj:ct(1一q)吩ol 锄tt o v j t “ 1 1 t = 1 ,2 ,一,qj = 1 ,2 ,p 而连接权口t 。的微小变化对第k 个模式的均方差甄的影响由下式可得 甏= 甏甏= 一伐k 嘣k t 1 一瞵 抛社优五咖, 。 t = 1 ,2 ,一,g j = 1 ,2 ,p 按照梯度下降原则,连接权吩t 的调整量t 应为 蛳一嘲= a 煳l 刮6 j 胆尸砖 。 1 1 2 v 一 谚 。 | l 酞 0 0 ) = p ( e 一( d + p z ) ) = 1 一p ( e 一( 口+ 卢z ) ) 而如果5 具有l o g i s t i c 分布,那么有 p = 再否1 石 如果自变量不只个,但只要和潜变量是线性的关系,也能够得到类似表达式,而根 据样本数据利用极大似然估计即可得参数的估计值,不过参数并不能直接解出而是要通 过迭代算法获得得l o g i s t i c 回归模型中的自变量可以是连续变量也可以是分类变量, 不过倘若变量之间存在多元共线性,那么对参数的估计效果会受很大影响 图六 3 应用于东北师范大学贫困生标准确定中的两种方法 学校贫困补助的评定标准跟全校同学特别是生活相对贫困的同学息息相关,对学校 资助中心工作的顺利开展也有重要的作用,然而,一直以来都没有一个相对统一的标准, 依赖的更多的是人为的经验毫无疑同。这样做存在非常大的主观性后来虽然产生一 个相对客观的标准,但是只是一些评价规则的罗列,至于全不全面尚待考证。更不用说 其合理性,毫无疑问会产生诸多的问题,突出体现为评价结果往往跟现实反差很大 因此,建立一套新的评价标准就显得非常有必要了,经过多次组织人员分析和讨论, 向相关心理学人员的咨询,以及走访一些院系从事学生工作的老师,最终确定了建立此 标准的一个完整的方案新的贫困补助标准的实施最终确定为以下几个过程 a 、对研究的问题进行定性归类 通过分析,这很明显是一个典型的分类的问题,因为最终涉及到的是如何把贫困的 学生区分出来毫无疑问,传统的线形回归模型可能是实际研究中最流行的统计分析方 法,但是,它只适用于响应变量为连续的情形,响应变量为分类变量已不再适应。这就 需要另外的模型来解决响应变量为分类变量的问题,经过对这一问题特点的初步讨论, 把着眼点落在现在非常流行的l o g i s t i c 回归模型和p r o b i t 模型,而b p 网络具有很强非 线性的映射能力,因而也同样很适用于此类问题,而最终选择哪一种模型,还需要进一 步的比较,比较的重点应该为对测试样本的分类效果 b 、影响因素的确定 1 4 这一步是整个过程极为重要的一步,也就是说,必需大致确定影响贫困程度的因素, 且最好宜多不宜少作为对比和参考,先看一下以前的贫困评定表,将会发现它具有以 下特点它把造成贫困的原因几乎全部列出,并且分类非常明确,毫无疑问,对于调查 贫困原因,它尽乎完善但是,它却忽视了三点z 1 作为评价的标准以来的是一个学生的贫困程度,而不是造成贫困的原因,笼统地 说,发放补助的原则是越贫困得的补助越多同一原因完全有可能造成不相同的贫困程 度因而,当用那个表评定时。会出现两个学生分值一样,但贫困程度不一样,有时反差 甚至比较大因而,根据贫困原因定分值来评定贫困程度毫无疑问会出现问题 2 ,假如所歹举的因素无法量化,这将导致标准的不明确 3 因素太多将会给实际操作带来极大的麻烦 经过分析,可根据如下三条原则来确定影响因素t 能够直接反映贫困程度、易于量 化和因素的个数不可太多通过查阅相关资辩以及结合我们实际问题,大致确定了如下 几个影响因素t 性别,家庭人口数,是否贷款,月消费,伙食消费,生源类别,家庭年收 入,教育支出,医疗支出很明显,这些变量之间存在多元相关性,但是可在下文建模过 程中进一步讨论这一问题 o 、样本的抽取 在统计学中,样本量的大小取决于所要估计参数个数的多少以及l o g i t i c 回归模型的 响应变量的分类数的多少,一般情况为当样本量大于5 0 0 时用最大似然法估计模型的参 数就显得比较充分。当然,这也不是绝对的,比如存在自变量的高度共线性或因变量变 化太小,那么样本量要求更大经过权衡,我们选择了1 6 0 0 个样本,做出此决定主要据 于以下两点t 1 、由于全校学生为1 5 7 8 0 人,这相当于抽取了总体的1 l o ,易于具体操作; 2 、在提取数据的过程中难免会发生学生填表不认真以及未给填表同学解释清楚等 情况,将会导致一部分学生所填的问卷无效,因而抽取比模型实际要求更大的样本是非 常必要的 样本抽取的方法是均匀分布随机抽样,这样全校学生被袖取的概率均相等,即p = 1 l o 具体操作过程如下;为了便于识别,把总人数按院系分开,再把每个院系的学生 按学生证号排名( 按其他方法排名亦可) ,这样每个学生均对应一个序号,在每个院系随 机抽出的序号对应的学生即为要抽出的学生按照总学生的十分之一抽取学生,将全院 学生排序,每个学生将对应一个序号,把抽出的序号所对应的学生找出即可 d 、数据的采集 数据是通过调查问卷的方式采集的,因而它主要涉及的是调查问卷的设计就调查 问卷的设计而言。有其自身的一些原则,如便于回答,消除答卷者的顾虑等,这里就不 再列举需要主要考虑的是同卷的内容总而言之一句话,怎样设计好问卷,通过抽出 的学生所填的内容,可以得到模型所要求的真实数据? 在问卷中,有一些问题除了为了 跟问卷的基调保持一致外还须作为参照用为了易于回答和尽量得到更为准确的数据, 把医疗支出做了一些技术处理,把它转化为身体状况,并且把一个连续变量转化为一个 分类变量为了消除答卷者的顾虑,必须采取了特殊的处理方法,最后特意把问卷的题 目设计为;大学生健康、消费情况调查问卷,并且所涉及的问题有很大一部分是关于健 康方面的。要做的只是关一l - 的问题只是嵌套于其中,这样答卷者并不知道问卷的真正意 图这样做是非常有必要的,因为问题中有很大一部分是极其敏感的,甚至涉及到家庭 隐私在问卷中,没有出现姓名这一项,这样做也是为了消除答卷者的顾虑,但是凡是 作为样本用的数据,其姓名也必不可少的,因而这时又有一个不可避免的问题t 姓名识 别,通过各种信息的比较以及为了便于操作。最终选择了家庭住址,因为同一个地址同 一院系的学生被抽中的概率比较小在实际操作中,把各个院系的被抽取同学统一到了 一个地点填表,这样可以把每个院系的问卷分开以便姓名识别 e 、有效数据的提取与分析 通过对每一份问卷的详细分析,最终挑选出7 3 9 份有效的问卷,在这一过程中除了 参照表中的参考项外,还特意查找了每个地区的一些具体的参考数据,如各个地区的具 体行业的月收入等,凡是与之相差太大的一律排除,当然,选出的问卷也并不都是没有 缺失数据,但是只要缺失数据可估,那都可以作为有效同卷来用正如事先构思的一样, 姓名识别过程中并没有遇到太多的困难,除了极少数问卷外,大部分均能准确无误地识 别出来 下面开始讨论变量的转化问题,对于虚拟变量我们有以下假定, 性别t1 。男;0t 女 是否贷款。1t 是;0t 否 生源类别,一1t 城镇;1t 农村 对于月消费和伙食消费对贫困程度的影响,很明显,生活越好的学生月消费都比较 多但是,类比于恩格尔系数,真正反映贫困程度的其实是一个比值;伙食月消费 讨论家庭经济状况时,家庭的年收入是一个极为重要的量可以把它分成两种情况来考 1 6 虑t 1 、农村家庭,这时家庭的年收入不可按照月收入来估,但是。每个地区的农民平均 收入可以为我们提供重要的参考,由于每个地区农民平均每人拥有的地变化不大,因而 同一地区农业收入这一顼不会相差很大 2 、城镇家庭,城镇家庭的年收入应该按月收入来估,并且。家庭成员所从事的行业 和所担任的职务具有极为重要的参考价值 作为家庭支出。教育支出和医疗支出是极为重要的两项,教育支出主要体现在家庭 上学成员的学费和住宿费,虽然各个地区的生活费也有差异,但是全国各个学校( 主要 指的是大学) 的食堂伙食不会相差很大,并且每个人的一般生活必需品花消也不会相差 很大 为了得到相对准确的数,把想要了解的医疗支出转化为身体状况,否则你基本上不 可能碍到准确的数。面它是一个分类变量,这时就须要还原,为了建模时应用方便以及 具有明确的区分性,作出如下假定 1 、一3 t 患重病( 或残疾) ,且需长期治疗 2 、2 ,长期患病( 需要长期治疗) 3 ,一1t 患病( 或残疾) 但基本能正常生活 4 o 。健康 其实真正关心的是家庭的医疗总支出,因而必须把家庭每个成员所对应的值相加, 通过各种手段的处理,自变量的各种问题都解决了,而自变量之问存在的关系在模型建 立时再讨论。正因为以前的标准存在很多的问题,它主要体现在跟实际不符,从它的评 定结果跟各院系不一致可以看出,当然,院系的评定结果带有很强的主观性,由此可知 在判断样本应变量的值时就时就显的特别的重要了,但是,把两者取交集之后会跟实际 很吻合只要把姓名识别出来之后就可以判定应变量的值了,在讨论样本应变量为二分 类变量时我们有如下假定t 0t 不贫困;1t 贫困 f 模型的建立 通过对变量进行预处理之后,利用3 0 0 个数据可以建立下面两个l o g i s t i c 回归模型: 1 7 l n 0 ( 1 一p ) ) = 1 4 6 2 6 + o 0 0 0 3 3 a v e e d u 一1 ,5 7 4 4 a v e h e a l t h o 0 0 0 7 5 a v e i n c o m e + 0 4 0 0 9 a r e a i n ( p t ( 1 一p ) ) = - 0 8 0 7 5 + 0 ,0 0 0 3 6 7 a v e e d u o 1 4 8 6 8 a v e h e a l t h o 0 0 0 7 5 a v e i n c o m e + 0 3 3 6 9 a r e a + 3 5 6 5 9 r n r a t i o 其中,a v e d u 表示家庭教育总支出除于总人数,即为学生本人的学费加上其他上学 成员的学费和住宿费除于总人数a v e h e a l t h 表示家庭成员健康状况对应值之和除于总 人数,a v e i n c o m e 表示家庭平均收入,即为年总收入除以家庭人口数,m r a t i o 表示月伙 食费与生活费之比,”e a 表示生源类别, 1 农村;一1 ;城镇在第一项之所以没有 月伙食费与生活费之比是因为并不是对所有的学生这一项都具有很高的可信度,对有些 学生而言,或许连自己也不是很清楚这一值的确切数是多少并且有没有这一项对p 的 影响并不是很大,因为两个模型的s c 值非常的接近 下面可以考虑用b p 网络来解决这个同题,毫无疑问,网络的输入为四个或者五个, 网络的输出为一个,虽然有很多经验性的准则来定中问层的个数, 1 、析而+ d 。其中m 为输出神经元的个数,n 为输入神经元的个数,a 为介 于1 和加之间的常数; 2 、l 0 9 2 n ,其中n 为输入单元数 但是到底用多少个隐含层个数还需要通过结果的比较来确定利用3 0 0 个数据样本 来建立网络,1 0 0 个数据作为测试的样本最终可分析出当隐含层为五的时候网络的效 果是最好的。输入层到中间层的连接函数为l o g i s t i c 函数,而中间层到输出层使用的是 线性函数,阀值为( 1 0 6 6 2 6 ,一6 8 5 6 2 1 ,5 9 5 7 3 ,1 1 ,1 7 2 4 ,一7 5 2 2 5 0 ) ,m s e = 0 0 8 2 2 2 9 3 ,连接权 为一矩阵 通过样本数据的建模可知,就l o g i s t i c 回归模型而言,各参数检验的p 值都非常的 小,均小于0 o l ,而对b p 网络而言,m s e = o0 8 2 2 2 9 3 ,这说明其拟合的效果也很不 错,就样本数据而言,两种模型都达到了要求 g 两种模型的测试与评价 1 8 嚣篇烈 4 a i l 慢鞣蒜 3 1 | | 咖m 啷帅删删咐哪锻艘菩|瑚|曼 篇篇一 罴意姗耄|鸯似萼似化眠叭m|謇耋|薹|鳅 裟篙一 h 椭佣_ w e _ 0 2 2 鹅g 叫* 0 ”篙“”“” 图七 为了检验模型的有效性,光是从样本的拟合效果上来看还是不够的,还必须看对检 测样本的分类效果,为了验证模型的有效性,选取了1 0 0 个样本作为测试样本,两个模 型的检验效果见表二以及续表,两种方法均有一个不能正确的识别 4 总结与对比 通过对比研究,可以得出以下结论t 1 用l o g i s t i c 回归模型去处理分类问题时,必须考虑样本的数量和样本的随机性。 以避免完全分离和空单元等情况的出现,并且其对多元共线很敏感,故建模前必须对数 据进行必要的预处理,而模型选择考虑的主要因素还是自变量的取舍,模型选择的主要 依据就是信息指标如m c 、s c 等值当变量太多时,建立模型的过程将显得比较烦琐 但是其建立的分类模型,可以很好的对各参数的意义进行合理性姆释。 2 用b p 网络无需任何的前提假设,这一点是l o g i s t i c 回归模型无法比拟的其 网络的选择就是中间层个数的选择,虽然有一些经验性的选择依据,但还是要通过多次 实验比较,而比较的依据是m s e 的大小但是它不能像l o g i s t i c 模型一样实现更多的解 释 3 、通过表二可知,两种模型的结果非常的类似,并且其值也非常的接近,这说明只 要是样本数据能够提取足够多的性息,两种模型都能够很好的实现对东北师范大学贫困 学生的初步分类,为进一步的分析奠定基础。 !一十星; 表二 p 的值 b p 的值差值类别 p 的值 b p 的值差值类别 0 0 0 0 1 0 9 8 7 30 0 1 5 20 0 1 5 0 9 0 1 2 7 0 0 0 0 1 1 2 1 9 5 10 0 4 0 60 0 3 9 4 7 8 0 4 9 0 0 6 3 0 6 0 9 7 0 30 5 7 6 40 0 5 4 2 0 9 7 0 310 2 1 2 4 0 8 7 6 40 3 6 8 5 0 1 5 6 0 9 1 2 3 6 o 6 3 9 5 4 1 8 0 60 0 1 6 70 0 1 6 6 9 3 6 0 500 0 0 3 1 5 8 9 3 90 0 1 6 70 0 1 3 5 4 1 0 6 10 0 ,2 1 3 3 9 0 7 4 303 1 0 7,0 0 9 7 3 0 9 2 5 700 5 6 1 5 0 2 3 6 20 8 5 10 2 8 9 4 9 7 6 3 8l o 0 8 2 9 5 2 3 3 10 0 0 0 80 0 8 2 1 5 2 3 3 1 0 0 7 2 8 3 4 1 6 4 50 9 4 6 8 02 1 8 4 5 8 3 5 5 l 0 0 3 3 3 1 0 3 8 30 0 1 6 80 0 1 6 5 1 0 3 8 300 8 8 4 4 3 9 5 5 80 9 5 5 10 0 7 0 6 6 0 4 4 21 0 0 0 4 4 8 3 3 4 1 o 0 2 9 3 o 0 3 3 7 8 3 3 4 1oo 0 0 4 3 2 0 0 1 70 0 1 6 70 0 1 2 3 7 9 9 8 3 o 0 0 3 8 3 0 5 0 7 1 0 ,0 1 6 7 0 0 2 1 6 0 5 0 7 100 7 8 7 4 4 6 8 1 l0 9 5 0 10 1 6 2 6 5 3 1 8 9 1 0 0 0 0 4 9 2 2 2 90 0 1 5 50 0 1 5 0 0 7 7 7 1 00 0 0 2 1 4 0 9 3 10 0 1 7 40 0 1 9 5 4 0 9 3 10 0 0 1 9 7 8 4 1 1 80 0 1 6 70 0 0 3 0 8 4 11 8o0 4 2 4 8 3 7 3 0 50 8 0 1 6一o3 7 6 7 6 2 6 9 51 5 0 0 2 7 2 8 0 50 0 3 5 40 0 3 5 4 5 0 0 2 7 0 0 0 8 9 9 9 0 9 1 70 0 4 0 70 0 4 9 2 9 0 9 1 7 0 0 8 3 0 3 9 4 3 1 808 9 7 60 0 6 7 2 0 5 6 8 210 0 0 0 3 2 0 1 8 10 0 1 6 700 1 6 3 7 9 8 1 90 0 0 0 4 9 6 9 8 30 0 1 7 40 0 2 2 3 6 9 8 300 祁3 5 1 0 0 9 60 9 5 5 30 2 2 1 7 8 9 9 0 41 8 6 8 1 5 3 8 0 8一o 0 4 1 20 0 4 1 2 0 0 0 8 7 0 0 9 1 2 1 0 9 2 8 80 9 4 4 5o 0 3 2 3 9 0 7 1 2l 0 0 3 6 2 5 4 9 80 0 1 7 30 0 5 3 5 5 4 9 8o0 6 0 4 0 6 5 1 7 90 4 4 8 7 0 1 5 5 3 6 5 1 7 9 1 0 0 3 6 1 5 1 9 30 0 4 0 60 0 0 4 4 4 8 0 700 3 3 9 5 7 9 9 4 80 1 1 0 90 ,2 2 8 6 7 9 9 4 80 0 6 0 5 5 7 9 1 2 10 7 6 0 10 1 5 4 5 2 0 8 7 9 l 0 0 2 6 6 7 3 2 1 50 0 4 0 60 0 1 3 9 2 6 7 8 50 0 5 2 1 9 9 9 3 4 30 8 4 4 70 3 2 2 7 0 0 6 5 71o 3 1 2 2 5 1 3 4 20 3 6 10 0 4 8 7 4 8 6 5 80 0 0 0 6 3 8 1 3 9 50 0 1 7 40 0 2 3 7 8 1 3 9 500 0 0 4 0 0 5 500 1 5 90 0 1 1 8 9 4 5 0 0 8 5 0 5 9 0 5 0 60 9 4 9 40 0 9 8 8 0 9 4 9 4 l 0 0 2 7 0 9 2 0 8 00 3 7 2 0 0 6 4 2 9 2 0 8 0 0 0 1 3 9 3 2 7 3 7o 0 1 6 70 0 0 2 7 6 7 2 6 3 o0 6 2 7 3 2 1 5 1 70 9 2 2 2 0 ,2 9 4 8 7 8 4 8 3 l 3 1 5 9 2 7 8 0 60 0 1 6 70 0 1 6 6 9 6 8 4 1oo 2 4 4 6 9 7 6 0 70 1 6 6 20 0 7 8 4 9 7 6 0 7o 2 0 1 9 1 3 8 0 50 0 4 1 10 0 4 1 1 2 0 1 9 1o0 0 5 2 7 3 9 0 5 50 0 3 1 90 0 2 0 8 3 9 0 5 5o 0 0 4 0 4 3 3 2 2 70 0 1 1 70 0 5 2 1 3 3 2 2 7o0 3 3 9 5 7 9 9 4 80 1 1 0 90 2 2 8 6 7 9 9 4 80 8 6 7 1 1 4 8 0 80 0 4 1 20 0 4 1 2 0 0 0 8 700 3 0 9 9 2 9 2 6 80 ,0 5 5 20 2 5 4 7 2 9 2 6 80 0 0 1 4 8 1 6 8 8 70 0 4 0 60 0 2 5 7 8 3 1 1 300 0 1 6 7 7 0 7 6 70 0 1 7 40 0 3 4 1 7 0 7 6 7 o 0 6 4 2 7 6 4 9 1 9 0 6 2 5 90 0 1 6 8 6 4 9 1 91 0 8 6 7 3 0 0 6 9 10 9 5 5 50 0 8 8 1 9 9 3 0 9 1 0 0 4 2 5 2 2 1 4 90 0 1 6 90 0 2 5 6 2 2 1 4 9o0 ,7 0 5 6 2 6 4 9 50 9 5 5 1一o 2 4 9 4 7 3 5 0 5l 0 2 9 3 1 8 5 0 3 20 3 6 8 80 0 7 5 6 1 4 9 6 8 o 0 1 1 1 6 4 4 7 2 70 3 6 8 30 2 5 6 6 5 5 2 7 3o 0 7 3 5 8 7 30 9 5 202 1 6 1 2 710 7 0 9 8 5 1 9 2 60 9 5 2 60 2 4 2 7 4 8 0 7 4l 续表 p 的值 b p 的值 差值 类别p 的值b p 的值差值类别 0 0 0 3 6 9 6 6 1 80 0 1 6 70 0 1 3 0 0 3 3 8 200 4 8 4 5 4 7 7 3 50 3 8 3 20 1 0 1 3 4 7 7 3 5o 0 0 5 9 2 9 0 2 1 10 0 4 0 60 0 1 8 6 9 0 2 1 1o0 0 4 6 5 3 3 8 0 20 3 1 1 80 2 6 5 2 6 6 1 9 80 0 0 1 9 7 8 4 1 1 80 0 1 6 70 0 0 3 0 8 4 1 1 804 0 6 9 2 7 b 0 50 0 0 7 30 0 0 7 2 5 9 3 0 70 5 1 8 0 3 1 8 0 50 0 1 6 70 ,0 1 6 6 4 8 1 9 7o0 6 7 1 3 0 6 0 5 60 9 3 90 2 6 7 6 9 3 9 4 41 0 3 8 4 7 6 3 1 6 90 3 7 1 40 0 1 3 3 6 3 1 6 900 1 7 9 9 1 0 5 9 50 0 0 2 4o 1 7 7 5 1 0 5 9 50 0 6 1 5 6 1 8 0 4 9 0 9 4 3 8 0 3 2 8 1 8 1 9 5 1 l0 0 0 0 7 0 2 9 7 70 0 1 6 7 0 0 1 5 9 9 7 0 2 3 0 o 5 7 0 3 7 8 6 0 10 5 4 3 5o 0 2 6 8 7 8 6 0 l1o 2 9 9 5 3 4 0 8 80 3 8 8 4- 0 0 8 8 8 6 5 9 1 70 0 6 9 6 0 1 0 9 0 50 9 4 2 50 2 4 6 4 8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论