




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲判别分析 0判别分析的问题 对于非度量 nonmetric 变量的研究 研究者对于预测和解释一个对象所属类别的关系感兴趣 比如一家公司成功还是破产 1判别分析的基本思想 有时会遇到包含属性解释变量和几个度量解释变量的问题 这时需要选择一种合适的分析方法 判别分析的假设条件 1 分组类型在两组以上 在第一阶段工作时每组案例的规模必须至少在一个以上 解释变量必须是测量的 才能够计算其平均值和方差 使其能够合理的应用与统计函数 2 每一个判别变量 解释变量 不能是其他判别变量的线性组合 这时 为其他变量线性组合的判别变量不能提供新的信息 更重要的是在这种情况下无法估计判别函数 4 各判别变量之间具有多元正态分布 3 各组变量的协方差阵相等 判别分析最简单和最常用的形式是线性判别函数 它们是判别变量的简单线性组合 在各组协方差阵相等的假设条件下 可以用简单的公式来计算判别函数和进行显著性检验 一两总体情况 2距离判别分析 设有两个总体G1和G2 x是一个p维样品 若能定义两总体G1和G2的距离d x G1 和d x G2 则可用如下的规则进行判别 若样品x到总体G1的距离小于到总体G2的距离 则认为样品属于总体G1 反之 则以为样品属于总体G2 若样品x到总体G1和G2的距离相等 则让它待判 这个判别准则的数学模型可做如下的描述 当总体G1和G2为正态总体且协方差阵相等时 距离选用马氏距离 即 分别为总体G1和G2的均值和 协方差阵 当总体不是正态分布时 有时也可以用马氏距离来描述样本到总体的远近 于是判别规则为 这个规则取决于W x 的值 通常称W x 为判别函数 由于它是线性函数 又称为线性判别函数 a为判别系数 类似于回归系数 来自于G2的样本 可以得到如下估计 其中 当两个总体协方差阵 1与 2不相等时 可用 作为判别函数 这时它是x的二次函数 二 多总体情况 1 协方差阵相同设有k个总体G1 Gk 它们的均值分别是 1 k 协方差阵均为 类似于两总体的讨论 判别函数为 i j 1 k 相应的判别规则是 若 1 k 未知时 设从Ga中抽取的样本为x1 a xna a a 1 k 则它们的估计为 2 协方差阵不相同 这时判别函数为 的估计是一致的 而 式中 Aa与协方差阵相同时的估计是一致 这时的判别规则为 例1从经验得知 可以用病人心电图中的两个指标x1与x2来区分健康人 G1 主动脉硬化患者 G2 及冠心病患者 G3 三类人 其经验数据所示 见文件患者数据 xls 一个病人的心电图中x1 267 88 x2 10 66 该病人应归入哪一类 解 例2对破产的企业收集他们在破产前两年的年度财务数据 同时对财务良好的企业也收集同一时期的数据 数据涉及四个变量 3Bayes判别 1贝叶斯统计的思想是 假定对研究的对象有一定的认识 常用先验概率分布来来描述这种认识 然后得到一个样本 用样本来修正已有的认识 先验概率分布 得到后验概率分布 各种统计推断都通过后验概率分布来进行 将贝叶斯思想用于判别分析 就得到贝叶斯判别 设有k个总体G1 Gk 分别具有p维密度函数 已知出现这k个总体的先验概率分布为q1 qk 建立相应的判别函数和判别规则 例1设有和三个组 欲判别某样品属于何组 已知 现计算属于各组的后验概率 解 设有k个总体D1 Dk 分别具有Rp的一个划分 即D1 Dk互不相交 且D1 Dk Rp 如果这个划分取的适当 正好对应与k个总体 这时的判别规则可以采用如下方法 问题是如何得到这个划分 用c j i 表示样品来自于Gi而被误判为Gj的损失 这一误判的概率为 于是有以上判别规则 所带来的平均损失为 2贝叶斯判别分析的基本方法 目的是求 使平均损失最小 假设有空间Rm 的平均损失 以贝叶斯判别的思想得到划分D1 Dk为 当抽取了一个未知总体的样本值X 要判断它属于哪个总体 只要计算出k个按先验分布加权的误判平均损失 具体来说 在两种划分下的总平均损失达到极小 说明是贝叶斯判别的解 例3设有和三个组 欲判别某样品属于何组 已知 假定误判损失矩阵为 4Fisher判别 Fisher判别的思想是投影 将k组p维数据投影到某一个方向 使得它们的投影组与组之间尽可能地分开 设从k个总体分别取得k组p维观测值 令a为Rp中地任意向量 u x a x为x向以a为法线方向的投影 上述数据的投影为 正好组成方差分析的数据 其组间平方和为 组内平方和 如果k组均值有差异 则 应充分大 或者 应充分大 所以可以求a 使得 a 达到最大 由于这个a不唯一 因为如果a使得 a 达到极大 则ca也使 a 达到极大 c为任意实数 由矩阵知识 a 的极大值为 1 它是 B E 0的最大特征根 l1 lr为相应的特征向量 当a l1 时 可使 a 达到最大 由于 a 的大小可衡量判别函数u x a x的效果 故称 a 为判别效率 定理4 1费歇准则下的线性判别函数u x a x的解a为方程 B E 0的最大特征根 1所对应的特征向量l1 且相应的判别效率为 1 1 在实际问题中 仅用一个线性判别函数不能很好的区别各个总体 可取 2对应的特征向量l2 建立第二个判别函数l 2x 若u x l x为判别函数 则 u x 也为具有与u x 相同的判别函数 判别规则为 例3为研究一个城市的居民家庭 按有无割草机可以分为两组 有割草机的一组记为1 无割草机的一组记为0 割草机工厂欲判断一些家庭是否购买割草机 调查两个指标 家庭收入和房前屋后土地面积 试建立判别函数 割草机 sav 5逐步判别 变量选择的好坏直接影响判别的好坏 如果在某个判别问题中将主要的指标忽略了 由此建立的判别函数其效果一定不好 在实际问题 事先并不十分清楚哪些指标时是主要的 这时 是否将有关的指标尽量的加入计算 理论和实践证明 指标太多 不仅带来大量的计算而且许多对判别无用指标反而会干扰我们的视线 因此适当筛选变量就成为一个很重要的问题 凡具有筛选变量能力的判别方法称为逐步判别法 逐步判别法的原则 在x1 xm 即m个自变量 中选出一个变量 它使 维尔克斯统计量达到最小 假定首先挑选的变量次序是按自然的次序 即第r步正好选中xr 第一步选中x1 如不显著 则表明一个变量不选 不能用判别分析 如显著 则进入下一步 仿此 如已入选r个变量 不妨设为x1 xr 则在未选中 的变量中逐次选一个与它们进行配合 计算 1i r l m 选择使上式达到最小的变量作为第r 1个变量 进行检验 配合的 1值 选择使 1i达到最小的作为第二个变量 2 在未选中的变量中 计算它们与已选中的变量x1 3 在已选入的r个变量 要考虑较早选中的变量其重要性是否发生变化 应及时把不能提供附加信息的变量剔除出去 4 最后即不能引进变量也不能剔除变量 根据已选中的变量建立判别函数 6判别分析方法步骤 一 判别分析的对象 研究目的 1 确定在两个或者更多事先定义的组上的一组变量的均值是否存在显著性差异 2 确定哪些变量在两个或更多组的平均得分剖面的的差异中解释最多 3 在一组变量得分的基础上 建立将对象分类的步骤 根据目的 对于组间差异或者正确地将个体进行分类归类感兴趣 进行判别分析 4 建立由这两组变量形成的组与组之间判别维数的数目与构成 二 判别分析的研究设计 1 解释变量与被解释变量的选择 2 样本容量 3 样本的分割 三 判别分析的假定 四 估计判别模型和评估整体拟合 1 计算方法 2 统计显著性 3 评估整体拟合 1 计算判别z得分 根据判别函数 可以建立判别z得分的值 式中 Zjk为对象k对判别函数j的判别得分 a为截距 Wi为解释变量i的判别权重 Xik为对象k的解释变量i 2 检验组的差异 一种评估整体拟合的方法式根据判别z得分 确定各组的差异大小 各组差异的综合测量是比较组的重心 判别分析中每个观测是通过它是否被正确归类来评价的 考虑 利用分类矩阵的统计和实际的基本原理 分割点的确定 分类矩阵的构造和评价分类精度的标准 判别函数的显著性检验并没有说明函数拟合有多好 如果判别检验显示判别函数显著通常构造分类矩阵来提供判别函数的判别效力的更精确的估计 3 评价组关系预测的精度 首先临界得分 每个观测得分与临界得分相比较来确定个体应分到哪一类中 临界得分 最优临界得分因各组大小是否相等而不同如果两组是相同的大小 最优临界得分是两组的重心的中点 临界最优得分定义为 各组不是相等的大小 但可假定可以代表总体部分 加权的组的重心可以为判别函数最优临界得分 所有计算临界得分的公式都是假定正态分布和已知组的协方差结构 可以用偏Q统计量来检验分类矩阵的判别效力 评估模型拟合的最后一个方法是在每个观测的基础上研究预测结果 目的是理解被错判的观测和不是该组代表的观测 五 结果解释 推荐用 1 标准化判别权重 2 判别载荷 3 偏F值 研究预测结果 目的是理解被错判的观测和不是该组代表的观测 解释问题 首先能简化判别权重或载荷以利于刻画判别函数 如何表示解释变量对判别函数的影响 当保留两个或两个以上的判别函数时需要一个综合的量来描述一个变量对所有显著函数的贡献 能力指数是反映每个变量判别能力的相对指标 它包括一个变量对判别函数的贡献 判别载荷 又包含一个方程对整个解的相对贡献 对方程特征根的相对测量 综合指数只对有显著性的判别函数上的个体能力指数之和 综合指数仅当每个变量的相对重要性时是有用的 能力指数计算 第一步 计算每个显著的判别函数的能力值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业废水处理技术与流程优化分析
- 工业污染治理及排放标准
- 工业建筑设计与产业园区规划
- 工业物联网与智能安防的融合
- 工业机器人发展现状与市场分析
- 工业绿色制造从废品到再利用的循环经济
- 工业机器人操作与编程技巧
- 工业自动化中的能源管理与节能技术
- 工业自动化控制系统解决方案
- 工业环境监测与法规遵守
- 郴州市2025年中考第二次模考历史试卷
- 酒店项目规划设计方案(模板)
- 2025名著导读《钢铁是怎样炼成的》阅读习题(含答案)
- 2025-2030中国冷热交换器行业市场现状分析及竞争格局与投资发展研究报告
- 美容院和干洗店合同协议
- 前程无忧测评题库
- ICU经口气管插管患者口腔黏膜压力性损伤预防的最佳证据总结 - 学习与临床应用
- 2025急性心梗诊疗指南
- 【闵行区人民法院】上海市闵行区劳动人事争议调解仲裁与审判白皮书(2023-2024年)
- 智能药柜管理系统行业深度调研及发展战略咨询报告
- 大数据导论题库习题试卷及答案
评论
0/150
提交评论