五 判别分析20494PPT课件_第1页
五 判别分析20494PPT课件_第2页
五 判别分析20494PPT课件_第3页
五 判别分析20494PPT课件_第4页
五 判别分析20494PPT课件_第5页
已阅读5页,还剩160页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2008.8,第5章,对象分类,-判别分析,(判别分析),2008.8,第5章判别分析,要点,5.1判别分析的基本思想,5.2距离判别,5.3贝叶斯判别,推荐阅读,5.4 Fisher判别,5.5建立判别函数的方法,5.6SPSS判别分析过程,2008.8,回归,第五章判别分析,学习目的和要求:通过本章的学习,学生可以了解判别分析的概念及其适用范围,并掌握判别分析的四种方法及其应用。采用SPSS软件进行计算。2008.8,5.1.1引用实例,5.1.2引用实例,5.1.2引用实例,5.1.3引用实例,5.1.3引用实例,5.1.2引用实例,5.1.2引用实例,5.1.2引用实例,5.1.3引用实例,5.1.3引用实例,5.1.3引用实例,5.1.3引用实例,5.1引用实例,5.1.4差异和与聚类的关系,2008.8,1,引文1,5.1.1引文1。一家医院有1000个胃炎、肝炎、冠心病、糖尿病等患者的数据,并记录了每个患者的几个症状指标数据,从这些指标数据中可以发现不同患者的差异。这种差异被表示为一个判别公式。当测量新患者的几个症状指标的数据时,可以根据指标数据通过判别公式做出诊断,以确定他患有哪种疾病。有些昆虫的性别很难看出,只能通过解剖来区分。然而,在一些体表测量中,雄性和雌性昆虫之间存在一些综合差异。因此,统计学家根据已知的雄性和雌性的体表测量值(这些用作测量值的变量也被称为预测变量)得出一个标准,并利用这个标准来识别其他未知性别的昆虫。虽然这种区分不能保证100%的准确性,但至少大部分的区分是正确的,没有必要杀死昆虫。在经济学中,一个国家经济发展水平的类型是根据人均国民收入、人均消费水平和人均住房面积等各种指标来确定的。在考古学中,挖掘出来的人类头骨的高度和宽度被用来确定他们的性别是男性还是女性。在税务检查中,有必要判断纳税人是诚实的还是逃税的。2008.8,这些问题有一个共同的特征,即“类”已经被预先划分,或者“类”已经被预先划分成一些已知的样本。判别分析要解决的问题是,当研究对象在已知历史中被某些方法分成几个类别时,确定新的观察样本属于哪个已知类别。5.1.1引用示例,2008.8,1,判别分析的基本思想,2,判别分析的基本思想,回归,5.1.1引例,5.1.2判别分析的基本思想,5.1.3判别分析的类型,5.1判别分析的基本思想,5.1.4差异与聚类的联系,3,数据格式,2008.8,1、判别分析的基本思想5.1.2判别分析的基本思想,判别分析是根据一批已知的各种类型的样本的观测数据,将已知的研究对象分成若干类型(组)而获得的。根据一些标准,建立判别函数以尽可能区分属于不同类型的数据,然后用它们来区分未知类型的样本应该属于哪一种类型。2008.8,用统计语言表示,歧视问题可以表示如下:对于k(类)人口G1,G2,GK(所有类别的样本都测量了相同的p指标,这可以表示为p维向量),它们的分布函数是F1(X),F2(X),fk (x)(所有p元素分布函数),希望建立一个标准,对于给定的样本x,根据这个标准,可以确定这个样本来自哪个群体。1、判别分析的基本思想,5.1.2判别分析的基本思想,判别分析的主要问题是如何找到最佳判别函数和建立判别规则。当然,我们应该要求标准在某种意义上是最优的,例如错误判断的最小概率或错误判断的最小损失。,2008年8月,G1,G2,GK人口;从不同的人群中抽取不同的样本;根据样本,建立判别规则以确定新样本属于哪个群体;当然,根据不同的方法,既定的歧视规则也是不同的。常用的判别方法有:距离判别法、费希尔判别法和贝叶斯判别法。2、判别分析的基本思想、5.1.2判别分析的基本思想、2008.8、 3、判别分析的数据格式、5.1.2判别分析的基本思想、2008.8、 1、根据判别组的数量、2、根据判别函数的形式、返回、5.1.1引用的例子、5.1.2判别分析的基本思想、5.1.3判别分析的类型、5.1判别分析的基本思想、5.1.4与聚类的区别和联系、3根据处理变量的方法,4。根据判别标准,2008.8、5.1.3、判别分析的类型根据数据的性质分为定性数据的判别分析和定量数据的判别分析。本章大部分讨论了定量数据的判别分析。2008.8,1。5.1.3根据判别成分的数量,判别分析有多种类型,根据判别成分的数量,有两组判别分析和多组判别分析。本章大部分讨论两组判别分析。2008.8,2。根据判别函数的形式,5.1.3判别分析的类型,根据判别函数的形式(用于区分不同人群的数学模型),有线性判别和非线性判别。本章大部分讨论线性判别函数及其应用。2008.8,3。不同的方法被用来根据辨别来处理变量。5.1.3鉴别分析的类型包括根据鉴别过程中处理变量的不同方法的逐步鉴别和顺序鉴别。这一章的大部分讨论了顺序辨别。2008.8,4。5.1.3根据不同的标准,判别分析的类型包括距离判别、费雪判别和贝叶斯判别。距离判别原理简单、直观、易懂。2008.8,1,与聚类分析的区别,2,与聚类分析的联系,返回,5.1.1引用,5.1.2判别分析的基本思想,5.1.3判别分析的类型,5.1判别分析的基本思想,5.1.4与聚类分析的区别和联系,2008.8,1、区别于聚类分析,判别分析必须预先知道要判别的判别者的类型和数量,并从已知类型(训练样本)中获得一批样本以建立判别公式(判别函数),然后对于新样本,预先分类通常通过聚类分析获得。5.1.4判别分析和聚类分析的区别和联系,2008.8,1。判别分析和聚类分析的区别。对于聚类分析,被给定批次的样本划分的样本类型和数量事先是未知的。根据一批样本的数据特征,以一定的方式对样本进行合理的分类,使同类事物相对接近,不同的事物被分为不同的类别(仅描述性统计)。5.1.4判别分析和聚类分析之间的区别和联系,2008.8,5.1.4判别分析与聚类分析的区别和联系,2、与聚类分析的联系,聚类分析与判别分析有相似之处,即两者都是研究分类问题;在实践中,两者经常结合使用。样本聚类是判别分析之前的一项必要工作。根据样本聚类的结果进行判别分析。2008年8月,聚类和歧视,聚类分为几类?每个样本属于哪个类别?众所周知,区分分为几类(监督分类)。根据训练样本建立判别函数。待鉴别的样本根据鉴别函数进行分类。2008.8,5.2距离歧视,返回,5.2.1距离歧视的基本概念,5.2.2两个人口的歧视,5.2.3多人口的歧视,2008.8,1、距离判别的基本思想,2008.8,用统计语言表示:给定人口G1,G2,GK,n1,n2,分别从每个群体中提取自然杀伤样本,测量每个样本的p指数,对于新样本X=(X1,X2,XP),从x到G1的距离,G2,计算GK,D(X,G1),D(X,G2).D(X,GK)被记录,并根据距离最近的标准进行分类:即根据数据为每个种群建立距离判别函数,并将每个样本的数据逐一代入计算,得到每个样本与每个种群之间的距离值,并判断该样本属于距离值最小的种群。2008.8,因此,我们首先考虑是否可以构造一个合适的距离函数,通过样本与某个类别之间的距离来判断样本所属的类别。距离辨别也被称为直觉辨别,因为它的方法直观而简单。该方法适用于连续变量的判别和分类。变量的概率分布没有限制。1,距离歧视的基本理念,5.2.1距离歧视的基本理念,2008.8,1,两种人群距离歧视的基本理念,回归,5.2.1距离歧视的基本理念,5.2.2两种人群距离歧视,5.2.3多种人群距离歧视,5.2距离歧视,2,应用实例,2008.8,1,两个群体距离判别,5.2.2两个群体距离判别,有两个群体G1和G2,X是一个P维样本,并定义了样本X到群体G1和G2的距离d2(X,G1)和d2(X,G2)。当总体G1和G2是正态总体且协方差矩阵相等时,选择马氏距离,即:1,2,1和2分别是总体G1和G2的均值和协方差矩阵。2008.8,5.2.2两个种群之间的距离判别由以下规则确定:如果样本x和种群G1之间的距离小于到种群G2的距离,则样本x被认为属于种群G1,否则样本x被认为属于种群G2;如果样本X与总体G1和G2之间的距离相等,那么它将被决定。该标准的数学模型为:2008.8,1,两个群体之间的距离歧视,5.2.2两个群体之间的距离歧视,(5.1),2008.8,1,两个群体之间的距离歧视,5.2.2两个群体之间的距离歧视。等同于上述标准的思想是计算样本X与总体G2和G1之间的距离差。如果差异为正,则样本X属于G1,否则,样本X属于G2。在此基础上,检验了两者之间的差异,假设可以证明:2008.8,1,两个群体之间的距离歧视,5.2.2两个群体之间的距离歧视,2008.8,当已知时,make,W(x)=,W(X)=,make,when,(是已知的p维向量),2008.8,那么判别规则(5.1)可以表示为:例如W(X)0,例如W(X)2),那么从图5-1可以看出,当y实际上属于G1时,它的观测值(测量值)在=(1 2)/2的右侧。如果遵循上面讨论的规则,Y应该被判断为属于G2,因为Y和G2之间的平均距离比Y和G1之间的平均距离更近。这导致了错误的判决。1,2-人口距离歧视,5 . 2 . 2-人口距离歧视,2008.8,图5-1,1,2-人口距离歧视,5 . 2 . 2-人口距离歧视,2008.8,从图中可以看出,当两个种群G1和G2非常接近时,无论用什么方法,误判的概率都很大,此时的判别是没有意义的。也就是说,如果两个群体(类别)之间的差异不显著,那么就没有必要作出判断,也就是说,有效的判断必须基于显著的差异。因此,在考虑建立判别函数之前,我们应该首先检查两个群体之间是否存在显著差异(我们应该在判别之前检查两个群体的平均值之间是否存在显著差异)。H0:H1:2008.8,此外,只要逆矩阵存在,上面讨论的判别函数和规则不涉及群体的特定分布类型。当两个总体的协方差矩阵不同时,上述W(X)不能用于f经计算,各类样本的平均指标值为:2。应用示例,5.2.2双人口距离歧视,2008.8,0.5390.044-0.1060.0030.0880.0640.179-0.0530.0440.032-0.040-0.0250.106-0.052-0.042-0.123-0.106-0.0400.385-0.006-0.1430.0610.0670,2008.8, 1,多人口距离歧视,返回,5.2.1距离歧视的基本概念,5.2.2两人口距离歧视,5.2.3多人口距离歧视,5.2距离歧视,2008.8,1,多人口距离歧视,5.2.3多人口距离歧视,2008.8,G1有很多人,Gk,它们的平均值分别是,协方差矩阵都是,那么,(1)协方差矩阵是相同的,1,多种群距离判别,5.2.3多种群距离判别,2008.8,判别函数为:1,多人口距离判别,5.2.3多人口距离判别,2008.8,相应的判别标准有:当有一个时,对所有事物都要进行判断,当它未知时,可以使用,1,多人口距离判别,5.2.3多人口距离判别,2008.8,1,多群体距离判别,5.2.3多群体距离判别,当判别函数为:(2)协方差矩阵不同时,2008.8,相应的判别准则是,当,未知时,可以用的估计量代替。1。多人口距离歧视,5.2.3多人口距离歧视,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论