第五章 判别分析_第1页
第五章 判别分析_第2页
第五章 判别分析_第3页
第五章 判别分析_第4页
第五章 判别分析_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章判别分析 在一些自然科学和社会科学的研究中 研究对象用某种方法已划分为若干类型 当得到的一个新的样品数据 通常是多元的 要确定该样品属于已知类型中的哪一类 这样的问题属判别分析 判别分析是根据观察或测量到若干变量值 判断研究对象如何分类的方法 实际上是根据表明事物特点的变量值和它们所属的类求出判别函数 根据判别函数对未知所属类别的事物进行分类的一种分析方法 分类 1 按判别的组数来分 有两组判别分析和多组判别分析2 按区分不同总体所用的数学模型来分 有线性判别和非线性判别3 按判别对所处理的变量方法不同有逐步判别 序贯判别 4 按判别准则来分 有费歇尔判别准则 贝叶斯判别准则 第一节距离判别法第二节以直线划分的判别法第三节以曲线划分的判别法第四节费歇尔判别法第五节逐步判别法 1距离判别法1 1统计距离 设m维空间上两点P x1 x2 xm 与Q y1 y2 ym P与Q的欧氏距离 d P Q x1 y1 2 x2 y2 2 xm ym 2 1 2欧氏距离在处理统计问题时的缺点 要求坐标各分量的度量一致 波动幅度一致 1936年 印度统计学家Mahalanobios引入统计距离概念 也称为 马氏距离 设Q点坐标固定 P点坐标相互独立变化 用s12 s22 sm2表示P的m个坐标的n次观测的样本方差 则P到Q的统计距离 设X Y是从均值向量为 协方差阵为 的总体G中抽取的两个样本 X与Y两点间的马氏距离定义为 X与总体G的马氏距离定义为 设两总体G1 G2 它们的均值向量为 1和 2 协方差阵都为 则总体G1和G2之间的马氏距离定义为 马氏距离满足距离的三条公理 1 非负性d P Q 0 等号成立的充要条件是P Q 2 对称性d P Q d Q P 3 三角不等式d P Q d P R d R Q 设两个m元总体G1 G2 它们的均值向量为 1和 2 协方差阵分别为 1 2 设X x1 x2 xm 是一待判样品 距离判别准则为 1 若d X G1 d X G2 则X G2 2 若d X G2 d X G1 则X G1 实际问题中 1 2 1 2往往未知 分别用其样本均值和样本方差来估计 则马氏距离的估计值分别为 1 若d X G1 d X G2 则X G2 2 若d X G2 d X G1 则X G1 距离判别准则为 设k个m元总体G1 Gk 它们的均值向量为 1 k 协方差阵分别为 1 k 设X x1 x2 xm 是一待判样品 马氏距离为 若d X Gj mini d X Gi 则X Gj 实际问题中 i i往往未知 分别用其样本均值和样本方差来估计 距离判别准则为 1 2多个总体的距离判别 j 1 k 当k个总体协方差矩阵相等时 1 2 k 判别函数为 Wij X 0 5 d2 X Gi d2 X Gj X 0 5 i j T 1 i j i j 1 k 实际问题中 1 k 往往未知 分别用其样本均值和样本方差来估计 距离判别准则为对所有的j i 当Wij X 0时 则判X Gi 当Wij X 0时 则判X Gi或X Gj 1 3判别准则的评价 1误判率回代估计法设 X1 1 X2 1 Xn1 1 与 X1 2 X2 2 Xn2 2 是分别来自总体G1 G2的样本 以全体样本作为n1 n2个新样本 逐个代入已建立的判别准则中 判别其归属 这个过程为回代 用n12 n21分别表示将本属于G1的样本误判为G2的个数 将本属于G2的样本误判为G1的个数 误判率的回代估计 当一个判别准则提出后 还要研究其优良性 即要考察误判概率 2误判率的交叉确认估计法每次剔除一个样品 利用其余n1 n2 1个样本建立判别准则 再用所建立的判别准则对删除的样品做判别 对样本中每个样品都做上述分析 以其误判的比例来作为误判概率的估计 具体步骤 1 从总体G1开始 剔除其中的一个样品 用剩余的n1 1个样品为G1的样本 G2的样本不变 建立判别函数 2 用建立的判别函数对剔除的样品作判别 3 重复 1 2 对G2也作如此处理 其误判样品个数分别记为n12 n21 4 交叉误判率的估计 注 一般地 总体差异越大 判别准则越有效 2以直线划分的判别法 一 判别的基本思想把观测到的n个样本看作p维空间的n个点 以某种方法将p维空间划分为互不相交的q个区域 每个区域对应着一个类 对于给定的新样本点 必然要落入其中某个类中 对于满足类内样本点接近 类间样本点疏远的性质 可以通过统计量来表现 比值越大说明类与类间差异越大 分类效果越好 二 两个类别的判别步骤 1 计算两类 A B 各自的均值2 计算类内离差平方和与类间离差平方和3 求出判别函数4 计算待判样本的三个值y 5 判断先建立判别临界值y0 在两总体先验概率相等的假设下 一般常取如果 则判定准则为 y y0 x属于A组 yy0 x属于B组 y y0 x属于A组 例1 为研究某地区育龄妇女的生育状况 根据生育峰值年龄 一胎生育率 二胎生育率 多胎生育率及总和生育率5项指标 将12个已知样本点分为两组 根据已知样本建立判别函数 并判定另外3个待判个体属于何组 数据见spssex ex601 三 三个类别情形的判别1 三条线都有通过所有点的重心2 三条线相交组成一个三角形 3以曲线划分的判别法 一 判别原理马氏距离 判别函数 判别原则 二 马氏距离导出的二次曲线判别 例3 研究某年全国各地区农民家庭收支的分布规律 根据抽样调查资料进行分类 共抽取28个省 市 自治区的六个指标数据 先采用聚类分析 将28个省 市 自治区分为三组 其中北京 上海 广州3个城市属于孤立样本单位 未归属于已分的三组中 现采用曲线判别法来判定北京 上海 广州归属于哪个组 原始数据见spssex ex603 4Fisher判别法 设Xi t Xi1 t Xim t 是取自总体Gt的m元样本 t 1 k i 1 nt 令a a1 am T为m维空间的任一向量 u X aTX为X向以a为法线方向上的投影 投影数据为aTXi t 一元数据 记 1 Fisher判别法的基本思想 投影将k组m元数据投影到某一个方向 使得投影后组与组之间尽可能地分开 并利用一元方差分析的思想导出判别函数 由于线性函数的方便实用性 最常用的是线性判别函数 将各组样本均值投影到某条直线上 得到各组样本均值在该直线的投影坐标 投影坐标值距离越远越容易判断待判样本属于哪个组 a b 样本均值 组间离差平方和 组内离差平方和 若k个总体均值有显著差异 则比值应充分大 问题转化为求a使得 a 达到最大 为使解唯一 变为条件极值问题 求a使得 a 在条件aTAa 1达到最大 2线性判别函数的求法 已知a在条件aTAa 1下使 a 达到最大的方向 称u X aTX为线性判别函数 利用拉格朗日乘数法求条件极值 令L a aTBa aTAa 1 1 又令dL da 2 B A a 0 可得Ba Aa 即A 1Ba a 这说明 是A 1B的特征值 a是相应的特征向量 进一步 a aTBa aTAa 问题最终转化为求A 1B的最大特征值 设A 1B的正特征值 1 2 r 0 相应的特征向量a1 a2 ar ui X aiTX为第i个线性判别函数 当第1个线性判别函数不能很好地区分多个总体时 可再利用第2 第3 线性判别函数 a 也称为判别效率 前q个线性判别函数的累计判别能力 q r Pq 1 q 1 r 一 两个总体的Fisher判别准则 易知两总体的组间离阵B的秩为1 故A 1B只有一个非零特征值 对应的特征向量为b 线性判别函数u X bTX 相应的判别效率 判别准则当u 1 u 2 时 若u X u 或u 则判X G1 若u X u 或u 则判X G2 若u X u 或u 则X等待判 当u 1 u 2 时 类似 3Fisher判别准则 记 二 多个总体的Fisher判别准则 先取第1线性判别函数u1 X a1TX k个总体的均值向量在a1上的投影为u1 i a1TX i i 1 k 对待判样品X 计算它在a1上的投影 若存在唯一的i1 使得 则判X G1 若有多于一个总体 使其与u1 X 距离相等且最小 则再利用第2线性判别函数 直到每个样品归属都得到确定为止 例 为研究某地区人口死亡状况 已按某种方法将15个已知样本单位分为三组 选择判别变量为2个 55岁组死亡概率q55和80岁组死亡概率q80 建立判别函数 判定另外4个待判样本属于何组 数据见spssex ex602 SPSS Discriminant过程根据已知的观测量分类和表明观测量特征推导出的判别函数 并把各观测量的变量值回代到判别函数 根据判别函数对观测量所属类别进行判别 对比原始数据的分类和按判别函数所羊的分类 给出错分概率 功能 给出各类观测量的单变量的描述统计量 给出费歇尔判别函数的系数或标准化及未标准化的典则判别函数的系数 给出类内相关矩阵 类内 类间协方差矩阵和总协方差矩阵 给出按判别函数判别的各观测量所属类别 带有错分率的判别分析小结 生成表明各类分布的区域图和散点图 建立判别函数的方法 全模型法 把用户指定的变量全部放入判别函数中 不管变量对判别函数是否起作用 作用的大小如何 逐步选择法 判别分析的基本步骤 1 选择自变量及组变量2 计算各组单变量的描述统计量3 推导判别系数 给出标准化或未标准化的典则判别系数 并对函数显著性进行检验4 建立Fisher线性判别函数5 进行判别分组6 进行样本回判分析 计算错分率7 输出结果 5Bayes判别法 设G1 Gk为k个m维总体 分别有不同的概率密度函数f1 x fk x 设k个总体出现的先验概率分布为q1 qk 误判的损失通常在判别分析前就可估计 用c j i 表示将属于Gi的样品误判为Gj所造成的损失度量 一个判别准则实质是对空间Rm作一不重叠的划分D1 Dk 若X落入Di 则判此样品属于总体Gi 简记判别准则为D D1 Dm 以P j i D 表示在判别准则D下将事实上来自Gi的样品误判为来自Gj的概率 则 1 Bayes判别法的基本思想 Bayes统计的基本思想是 假定对所的对象 总体 在抽样前已有一定的认识 常用先验概率分布来描述这种认识 然后基于抽取的样本再对先验认识做修正 得到后验概率分布 再基于后验概率分布做各种统计推断 在判别准则D下 来自Gi的样品误判为其它总体的期望损失为 在判别准则D下 总的期望损失为 Bayes判别就是 选择判别准则D D1 Dm 使得总的期望损失L达到最小 在判别准则D下 总的期望损失为 要使得总的期望损失L达到最小 取 2两总体的Bayes判别 两个总体的Bayes判别准则 特别地 设G1 G2为两正态总体 其均值向量和协方差矩阵分别为 1 2 1 2 如果 1 2 记 Bayes判别准则为 特别地 设G1 G2为两正态总体 其均值向量和协方差矩阵分别为 1 2 1 2 如果 1 2 记 Bayes判别准则为 6逐步判别分析 一 逐步判别原理逐步判别分析从模型没有变量开始 每一步都对模型进行检验 把模型外对模型的判别力贡献最大的变量加到模型中 同时考虑已经在模型中但又不符合留在模型中条件的变量从模型中剔除 一个变量能否进入模型主要取决于协方差分析的F检验的显著性水平 F统计量的构造 根据筛选后得到的变量 建立贝叶斯判别函数进行判别分析 判别原则 对每个待判样本x 分别计算各类判别函数值 比较值的大小 x属于值最大组 二 选择变量方法1 Wilk s 最小法2 Rao V最大法3 马氏距离最大法4 F统计量最大法5 剩余离差平方和最小法 Wilk s 最小法 U统计量 组内平方和 总平方和 每一步都是统计量最小的进入判别函数容许度 1 Ri2 Ri2为偏相关系数 Rao V最大法 每步都是使RaoV

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论