第六讲判别分析.ppt_第1页
第六讲判别分析.ppt_第2页
第六讲判别分析.ppt_第3页
第六讲判别分析.ppt_第4页
第六讲判别分析.ppt_第5页
免费预览已结束,剩余84页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类,俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。,判别,有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。,判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题;例如,临床上常需根据就诊者的各项症状、体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。,什么是判别分析,聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。,主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。,判别分析和聚类分析有什么不同呢?,聚类分析,聚类要注意的问题,聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。,判别分析,概述距离判别法贝叶斯判别法费歇尔判别法逐步判别法,11,一、什么是判别分析?设有k个总体G1,G2,Gk,希望建立一个准则,对给定的任意一个样本x,依据这个准则就能判断它是来自哪个总体。应当要求这种准则在某种意义下是最优的,如:错判概率最小或错判损失最小等等。,第一节概述,判别分析的一般步骤,13,判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。,14,判别分析举例:,根据发掘出来的人类头盖骨的高、宽等特征来判断其是男性还是女性。在税务稽查中,要判断某企业是否偷漏税。医生对病情的诊断。信用风险的判定。成功概率的判定。企业运行状态或财务状况的判定。,15,二、判别分析的种类,1、按判别的组数分有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型分有线性判别和非线性判别3、按判别准则的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。,判别分析的假设前提,每一个判别变量不能是其他判别变量的线性组合各组变量的协方差阵相等各判别变量之间具有多元正态分布,16,第二节距离判别,(一)马氏距离距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。,18,设是从期望=和方差阵=的总体G抽得的两个观测值,则,样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:,X与Y之间的Mahalanobis距离,19,马氏距离和欧式距离之间的差别,马氏距离,欧氏距离,20,马氏距离有如下的特点:,2、马氏距离是标准化后的变量的欧式距离,1、马氏距离不受计量单位的影响;,21,3、若变量之间是相互无关的,则协方差矩阵为对角矩阵,22,此时的马氏距离为,(二)两个总体距离判别法,先考虑两个总体的情况,设有两个协差阵相同的p维正态总体,对给定的样本X,判别一个样本X到底是来自哪一个总体,一个最直观的想法是计算X到两个总体的距离。故我们用马氏距离来给定判别规则,有:,1、方差相等,24,考虑和的差,就有:,25,则前面的判别法则表示为,当和已知时,是一个已知的p维向量,W(x)是x的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。,26,例在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?,27,线性判别函数:,30,2、当总体的协方差已知,且不相等,31,随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i=,各总体出现的先验概率相等。又设Y是一个待判样品。则与总体i的距离为(即判别函数),(三)多总体的距离判别法,上式中的第一项x-1x与i无关,则舍去,得一个等价的函数,32,将上式中提-2,得,则距离判别法的判别函数为:,注:这与前面所提出的距离判别是等价的.,判别规则为,33,(四)对判别效果做出检验1、错判概率,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意味着不会发生误判。两总体分别服从其判别函数为,34,显然,只有两个总体的均值有显著差异时,判别分析才有实际意义,35,2、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格,能说明所选择判别方法的有效性。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。,36,37,加权错判率:,设qi是第i类的先验概率,pi是第i类的错判概率,则加权错判率为,简单错判率:,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。,39,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,第三节贝叶斯判别法,一、最大后验准则,40,41,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。,贝叶斯公式是一个我们熟知的公式,42,设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求它属于某类的概率。由贝叶斯公式计算后验概率,有:,判别规则,则判给。在正态的假定下,为正态分布的密度函数。,43,则判给。,上式两边取对数并去掉与i无关的项,则等价的判别函数为:,特别,总体服从正态分布的情形,44,问题转化为若,则判。,45,则判别函数退化为,令,问题转化为若,则判。,当协方差阵相等,46,令,问题转化为若,则判。,当先验概率相等,,47,二、最小平均误判代价准则,设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为,且。,又D1,D2,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判,关键的问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率最小。,48,【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,若用C(j/i)表示相应错判所造成的损失。则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,49,【定理】,若总体G1,G2,Gk的先验概率为,且相应的密度函数为,损失为则划分的Bayes解为,式中,50,含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失,为了直观说明,作为例子,我们讨论k=2的情形。,然后比较其大小,选取其中最小的,则判定样品属于该总体。,51,52,由此可见,要使ECM最小,被积函数必须在D1是负数,则有分划,53,Bayes判别准则为:,54,特别,若,与标准Bayes判别等价,下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入x2:月生活费支出x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限x5:前一个工作的年限x6:目前住所的年限x7:前一个住所的年限x8:信用程度,“5”的信用度最高,“1”的信用度最低。,第四节Fisher判别法,Fisher判别法(先进行投影),所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。,用家庭收入和草地面积来区别城市中家庭可能购买割草机和不太可能购买割草机,将坐标轴旋转至总体单位尽可能分开的方向,此时分类变量被简化为一个,从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。该判别方法对总体的分布不做任何要求。,63,(1)基本思想:从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式:,其中系数c1、c2、c3.cp确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。,一、不等协差阵的两总体Fisher判别法,64,(2)判别函数的导出假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下:,65,假设新建立的判别式为,今将属于不同两总体的样品观测值代入判别式中去,则得:,对上边两式分别左右相加,再乘以相应的样品个数,则有:第一组样品的“重心”第二组样品的“重心”,为了使判别函数能够很好地区别来自不同总体的样品,自然希望:i)来自不同总体的两个平均值相差愈大愈好。,ii)对于来自第一个总体要求它们的离差平方和愈小愈好,同样也要求愈小愈好。综合以上两点,就是要求愈大愈好记为两组间离差。为两组内的离差。,有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y0,在两总体先验概率相等的假设下,一般常取y0为和的加权平均值即,如果由原始数据求得与,且满足,则建立判别准则为:对一个新样品代入判别函数中去,所取得的值记为y,若yy0,则判定;若yy0,则判定。如果,判别准则则相反。,则利用微积分求极值的必要条件可求出使I达到最大值。,或,(3)计算步骤i)建立判别函数,求的最大值点,根据极值原理,需解方程组可得到,写出判别函数:,69,ii)计算判别临界值,然后根据判别准则对新样品判别分类。iii)检验判别效果(当两个总体协差阵相同且总体服从正态分布)。,检验统计量:其中,70,给定检验水平a,查F分布表,确定临界值,若,则被否定,认为判别有效。否则认为判别无效。,结论,考虑比根据Fisher的思想我们要选择使得比值达到最大。利用最大值引理,当时,比值达到最大。特别取时线性函数称为Fisher线性判别函数。,设在维总体的情况下,的线性组合为其中为维向量。设和的均值向量分别为和,且有公共的协方差阵。那么线性组合的均值为,令则有于是Fisher判别准则为:,注意到Fisher判别准则可写为:这就是马氏距离最小判别准则。,75,例子,已知云南某地盐矿分为钾盐及非钾盐(即钠盐)两类。现我们已掌握有两类盐矿有关历史样本数据如下表7-1所示。,76,为对待判样本进行判别,需要进行判别分析。可以求出判别函数为:,根据上述判别函数,可求得:使用上述判别函数进行回判,正确回判率为V=100%。对上述两类进行显著性检验,说明A,B两类差异显著,判别效果是有效的。,77,待判样品结果为:,78,二、多总体Fisher判别法,设有k个总体G1,Gk,抽取样品数分别为,令为第i个总体的第a个样品的观测向量假定所建立的判别函数为其中,记和分别是总体内x的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方差的性质可知,在上的样本均值和样本方差为,记为总的均值向量,则。在多总体情况下,Fisher准则就是要选取系数向量c,使达到最大,其中是人为的正的加权系数,它可以取为先验概率。如果取,并将代入上式可化为:,80,其中E为组内离差阵,A为总体之间样本协差阵,即,我们选择,使得上式达到最大,为了方便,我们约定,定理设为的个非零特征值,为相应的特征向量(满足),则时使得式达到最大,称为第一判别函数。除去,则是在约束条件之下使得式达到最大的解,称为第二判别函数。类推下去,除去,则是在约束条件之下使得式达到最大,称为第个判别函数。,82,于是可构造m个判别函数:,对于每一个判别函数必须给出一个用以衡量判别能力的指标定义为:,83,m0个判别函数的判别能力定义为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论