




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计分析简介 1 聚类分析2 判别分析3 主成分分析4 典型相关分析 聚类分析又称群分析 它是研究分类问题的一种多元统计方法 所谓类 通俗地说 就是指相似元素的集合 那么要将相似元素聚为一类 通常选取元素的许多共同指标 然后通过分析元素的指标值来分辨元素间的差距 从而达到分类的目的 聚类分析可以分为 Q型 样品分类 分类 R型 指标分类 分类 这里介绍的是Q型 样品分类 分类 1 聚类分析 聚类分析前的预处理步骤 1 确定聚类类型 对样品聚类称Q型聚类 对变量聚类称R型聚类 2 数据预处理 原因 实际应用所使用的样本资料中 由于不同的变量具有不同的计量单位 或量纲 并且具有不同的数量级 为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析 通常都要对数据进行变换处理 常用方法有 中心化变换 规格化变换 极差正规化 标准化变换 对数变换等 1 聚类分析 3 研究样品之间的关系 通常有两种方法 相似系数 性质相近的相似系数的绝对值越接近于1 彼此不相关的相似系数的绝对值越接近于0 常用相似系数有 夹角余弦 相关系数 指数相似系数 非参数方法灯 计算距离 将样品看作P维空间的一点 通过计算不同样品的距离 距离越接近的点归为一类 距离远的点归为不同类 常用距离有 明科夫斯基距离 欧氏距离 绝对值距离 切比雪夫距离 兰氏距离 马氏距离 4 计算距离矩阵或相似性系数矩阵D 1 聚类分析 聚类分析的一般步骤 Q 型分类 1 聚类分析 进行聚类分析时 由于对类与类之间的距离的定义和理解不同 并类的过程中又会产生不同的聚类方法 常用的系统聚类方法有8种 最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均法 可变法 离差平方和法 1 聚类分析 判别分析方法最初应用于考古学 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等 近年来 在生物学分类 医疗诊断 地质找矿 石油钻探 天气预报等许多领域 判别分析方法已经成为一种有效的统计推断方法 判别分析是一种在一些已知研究对象用某种方法已经分成若干类的情况下 确定新的样品的观测数据属于哪一类的统计分析方法 2判别分析 常用的方法有 距离判别法 Fisher判别法 贝叶斯判别法 逐步判别法 为了能识别待判断的对象x x1 x2 xm T是属于已知类A1 A2 Ar中的哪一类 事先必须要有一个一般规则 一旦知道了x的值 便能根据这个规则立即作出判断 称这样的一个规则为判别规则 用于衡量待判对象与各已知类别接近程度的方法准则 判别规则往往通过的某个函数来表达 我们把它称为判别函数 记作W i x 2判别分析 Bayes判别法的基本思想 总是假设对所研究的对象已有一定的认识 计算新给样品属于各总体的条件概率比较这个概率的大小 然后将新样品判归为来自概率最大的总体 Bayes判别法 2判别分析 设有总体 具有概率密度函数 并且根据以往的统计分析 知道出现的概率为 即当样本发生时 求他属于某类的概率 由贝叶斯公式计算后验概率 有 判别规则 则判给 2判别分析 Bayes判别法的一般步骤 2 计算类内协方差矩阵S及其逆矩阵S 1 3 计算Bayes判别函数中 各个变量的系数及常数项并写出判别函数 4 计算类内协方差矩阵W及总各协方差矩阵T作多个变量的全体判别效果的检验 5 各个变量的判别能力的检验 6 判别新样本应属于的类别 2判别分析 在判别问题中 当判别变量个数较多时 如果不加选择地一概采用来建立判别函数 不仅计算量大 还由于变量之间的相关性 可能使求解逆矩阵的计算精度下降 建立的判别函数不稳定 因此适当地筛选变量的问题就成为一个很重要的事情 凡具有筛选变量能力的判别分析方法就统称为逐步判别法 逐步判别法 2判别分析 逐步判别法其基本思路类似于逐步回归分析 按照变量是否重要逐步引入变量 每引入一个 最重要 的变量进入判别式 同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了 例如其作用被后引入地某几个变量的组合所代替 应及时从判别式中把它剔除 直到判别式中没有不重要的变量需要剔除 剩下来的变量也没有重要的变量可引入判别式时 逐步筛选结束 也就是说每步引入或剔除变量 都作相应的统计检验 使最后的判别函数仅保留 重要 的变量 2判别分析 1 计算各总体中各变量的均值和总均值以及似然统计量 规定引入变量和剔除变量的临界值F进 F出 2 逐步计算 计算全部变量的判别能力 在已入选变量中考虑剔除可能存在的最不显著变量 在未选入变量中选出最大判别能力的变量 对变量作F检验通过检验则接受 否则剔除变量 直到能剔除又不能增加新变量 逐步计算结束 3 建立判别式 使用第2步中选入的变量 用Bayes判别法建立判别式 4 对待判样本进行判别分类 逐步判别法的步骤 2判别分析 假定你是一个公司的财务经理 掌握了公司的所有数据 比如固定资产 流动资金 每一笔借贷的数额和期限 各种税费 工资支出 原料消耗 产值 利润 折旧 职工人数 职工的分工和教育程度等等 如果让你向上面介绍公司状况 你能够把这些指标和数字都原封不动地摆出去吗 当然不能 你必须要把各个方面作出高度概括 用一两个指标简单明了地把情况说清楚 3主成分分析 每个人都会遇到有很多变量的数据 比如全国或各个地区的带有许多经济和社会变量的数据 各个学校的研究 教学等各种变量的数据等等 这些数据的共同特点是变量很多 在如此多的变量之中 有很多是相关的 人们希望能够找出它们的少数 代表 来对它们进行描述 在引进主成分分析之前 先看下面的例子 3主成分分析 100个学生的数学 物理 化学 语文 历史 英语的成绩如下表 部分 3主成分分析 目前的问题是 能不能把这个数据的6个变量用一两个综合变量来表示呢 这一两个综合变量包含有多少原来的信息呢 能不能利用找到的综合变量来对学生排序呢 这一类数据所涉及的问题可以推广到对企业 对学校进行分析 排序 判别和分类等问题 3主成分分析 选择越少的主成分 降维就越好 什么是标准呢 那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分 有些文献建议 所选的主轴总长度占所有主轴长度之和的大约80 即可 其实 这只是一个大体的说法 具体选几个 要看实际情况而定 3主成分分析 主成分分析是一种通过降维技术把多个变量化为少数几个主成分 即综合变量 的统计分析方法 一般来说 我们希望这些主成分能够反映原始变量的绝大部分信息 它们通常表示为原始变量的某种线性组合 并具有最大的方差 3主成分分析 现实生活中两组变量间的相关关系的问题很多 例如家庭的特征 如户主的年龄 家庭的年收入 户主的受教育程度等 与消费模式 如每年去餐馆就餐的频率 每年外出看电影的频率等 等等 为此 1936年由Hulling提出了典型相关分析 揭示了两组多元随机变量之间的关系 4典型相关分析 典型相关分析基本思想 通常情况下 为了研究两组变量的相关关系 可以用最原始的方法 分别计算两组变量之间的全部相关系数 一共有pq个简单相关系数 这样又烦琐又不能抓住问题的本质 如果分别找出两组变量的各自的某个线性组合 讨论线性组合之间的相关关系 则更简捷 4典型相关分析 首先分别在每组变量中找出第一对线性组合 使其具有最大相关性 然后再在每组变量中再找出第二对线性组合 使其分别与本组内的第一线性组合不相关 第二对本身具有次大的相关性 即u2和v2与u1和v1相互独立 但u2和v2相关 如此下去 直至两组变量的相关性被提取完为止 4典型相关分析 对应一些例子 例 从21个工厂中抽出同类产品 每个产品测两个指标 欲将各厂的质量情况进行分类 工厂指标观测值 1 聚类分析 dataex inputx1x2factory cards 数据省略 procclusterdata exmethod wardcccpseudoouttree tree idfactory run proctreedata treehorizontal idfactory run 1 聚类分析 ccc表示要计算半偏R2 R2和ccc立方聚类标准统计量 这三个统计量和下面的伪F和伪t2统计量 主要用于检验聚类的效果 当把数据从G 1类合并为G类时 半偏R2统计量说明了本次合并信息的损失程度 统计量大表明损失程度大 R2统计量反映类内离差平方和的大小 统计量大表明类内离差平方和小 ccc统计量的值大说明聚类的效果好 Pseudo说明要计算伪F和伪t2统计量 一般认为 伪F统计量出现峰值时的所对应的分类是较佳的分类选择 当把数据从G 1类合并为G类时 伪t2统计量的值大 说明不应该合并这两类 1 聚类分析 1 聚类分析 ClusterHistory表示聚类的具体过程 NCL表示当前系统存在类的总个数 ClustersJoined表示当前加入的编号 例如NCL等于20时 是类1 2聚为一类 FREQ表示新类的元素个数 SPRSQ表示类与类间规格化最短距离 RSQ表示R2统计量 ERSQ表示半偏R2统计量 CCC统计量值 PSF为伪F统计量 PST2为伪t2统计量 Tie表示 节 是指当前类间最小距离不止一个的时候 此时可以任意选择一对最短距离进行聚类 在计算其他类与新类的距离 从CCC统计量的结果可以看出 最大值对应的类数为4 从四类合并为三类时 伪t2统计量显著的增加 伪F统计量下降显著 综合各方面的结果 因此分4类最为合适 1 聚类分析 动态聚类图 1 聚类分析 综合以上分析 可以得到结果 将工厂分为4类 分别为第1类 f1 f2 f3 f4 f5 f6 第2类 f7 f8 f9 f10第3类 f11 f12 f13 f14 f15 第4类 f16 f17 f18 f19 f20 f21 1 聚类分析 Bayes判别法的一般步骤 2 计算类内协方差矩阵S及其逆矩阵S 1 3 计算Bayes判别函数中 各个变量的系数及常数项并写出判别函数 4 计算类内协方差矩阵W及总各协方差矩阵T作多个变量的全体判别效果的检验 5 各个变量的判别能力的检验 6 判别新样本应属于的类别 2 判别分析 例题 人文发展指数是联合国开发计划署于1990年5月发表的一份 中公布的数据如下 试通过已知的样品建立判别函数 误判率是多少 并判断待判的归类 2 判别分析 类别国家寿命 X1 成人识字率 X2 调整后GDP X3 1美国769953741日本79 59953591瑞士789953721阿根廷72 195 952421阿联酋73 877 75370保加利亚71 29342502古巴75 394 934122巴拉圭7091 233902格鲁吉亚72 8992300南非62 980 63799待判样品 中国68 579 31950罗马尼亚69 996 92840希腊77 693 85233哥伦比亚69 390 35159 2 判别分析 dataex inputgx1 x3 cards 176995374179 5995359178995372172 195 95242173 877 75370271 2934250275 394 9341227091 23390272 8992300262 980 63799 dataex1 inputx1 x3 cards 68 579 3195069 996 9284077 693 8523369 390 35159 procdiscrimdata extestdata ex1anovamanovasimplelisttestout ex2 classg procprintdata ex2 run 2 判别分析 ProcDiscrim后的常用选择项有 1 Data 数据集名 指定输入数据集名 若缺省则指定最新建立的数据集 2 Testdata 数据集名 指定待作出判别的数据集名 其中的变量名须上Data数据集中的变量名一致 3 Testout 数据集名 指定输出数据集 输出Testdata数据集中所有观测值以及每个观测值的后验概率和判别后的类别 4 List 指定打印每个观测值的回代结果 5 Anova 指定输出各类均值检验的一元统计量 6 Manova 指定输出各类均值检验的多元统计量 7 Simple 指定打印总体和组内的简单统计量 2 判别分析 因此Bayes判别函数为y1 323 21568 5 79107x1 0 26498x2 0 03407x3y2 236 03823 5 14034x1 0 25167x2 0 02533x3 2 判别分析 从上面运行结果得知 两类的误判率均为0 因而得知中国与罗马尼亚归入第二类 希腊与哥伦比亚归入第一类 2 判别分析 1 计算各总体中各变量的均值和总均值以及似然统计量 规定引入变量和剔除变量的临界值F进 F出 2 逐步计算 计算全部变量的判别能力 在已入选变量中考虑剔除可能存在的最不显著变量 在未选入变量中选出最大判别能力的变量 对变量作F检验通过检验则接受 否则剔除变量 直到能剔除又不能增加新变量 逐步计算结束 3 建立判别式 使用第2步中选入的变量 用Bayes判别法建立判别式 4 对待判样本进行判别分类 逐步判别法的步骤 2 判别分析 dataex inputgx1 x3 cards 数据省略 dataex1 inputx1 x3 cards 数据省略 2 逐步判别分析 procstepdiscdata exmethod stepwisesle 0 3sls 0 3 选择用逐步判别法 选择后验概率大于0 3 不注明时系统默认为0 15 classg varx1 x3 run procdiscrimdata extestdata ex1 待判别集合 anovamanovasimplelisttestout ex2 classg varx1x3 选用x1和x3作为判别指标 procprintdata ex2 run 2 逐步判别分析 结果显示 通过逐步判别分析选入两个变量X1 X3作为判别分析的指标 接下来再以变量X1 X3为参考变量作Bayes判别 1 逐步回归选取变量 2 逐步判别分析 2 得到判别函数 2 逐步判别分析 3 误判概率 两类的误判率均为0 说明判别能力很强 于是可以利用已经得到的判别函数去判别新样本 2 逐步判别分析 4 待判样本分类结果 结果表明 中国与罗马尼亚归入第二类 希腊与哥伦比亚归入第一类 2 逐步判别分析 由以上两个例子可知 逐步判别法所得到的结果可看出来 尽管这里没有利用变量X2 成人识字率 但是最终的判别结果与利用全部变量所得得判别结果完全一致 这说明了三个变量在判别式中所起到的作用不同 由此可见 在解决现实问题中应结合两种方法使得更加科学的使用已知数据得到更加合理的结论 2 逐步判别分析 1 对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩 主成分的求解步骤 假设对p个变量进行n次观测得到的观测数据可用下面的矩阵表示 将其进行标准化处理 3 主成分分析 iii 特征分解得 相当于将原来的坐标轴进行旋转得到新的坐标轴U ii 求协方差矩阵Z 得Z的p个非负特征值 这p个特征值就是主成分的方差 3 主成分分析 iv 确定主成分个数 根据累积贡献率 当大于某个阈值时 可认为主成分数目为m Z阵的每一行相当于原数据矩阵的所有行 即原始变量构成的向量 在主成分坐标轴 载荷轴 上的投影 这些新的投影构成的向量就是主成分得分向量 v 写出主成分表达式 3 主成分分析 Vi 构造评价函数 将每个样本的主成分带入评价函数 得到每个样本的综合得分 依据一定的准则可对样本进行排序 3 主成分分析 例以下是收集整理了的1990 2002年13年间影响中国蔬菜产量的若干因素数据 请你对这些影响因素作主成分分析 并分析结果 3 主成分分析 dataex inputx1 x13 cards 数据省略 procprincompout prin varx1 x13 run procprintdata prin varprin1 prin13 run 3 主成分分析 程序中对应运行结果为 从程序结果可以看出 第一 第二 第三主成分累计解释方差的比率已经超过了94 所以只需要求 1 2 2所对应的正交化特征向量 i i 1 2 3 3 主成分分析 3 主成分分析 1 0 31 0 29 0 22 0 30 0 09 0 31 0 30 0 30 0 30 0 31 0 31 0 31 0 13 2 0 03 0 23 0 51 0 11 0 77 0 01 0 09 0 13 0 19 0 07 0 04 0 03 0 09 3 0 03 0 03 0 24 0 08 0 01 0 03 0 02 0 06 0 04 0 03 0 08 0 05 0 96 可知 其中 3 主成分分析 第一主成分与蔬菜种植面积 每公顷物质费用 蔬菜零售物价指数 市场化程度 城市化水平1 城市化水平2 交通 城镇居民可支配收入 农村居民纯收入 农民文化素质等密切相关 表示的是市场经济综合因素 着重反映的是市场经济的成熟程度与国家现代化水平 第二主成分与每公顷劳动投入 成本纯收益率等密切相关 表示的是劳动者动力因素 第三主成分与气候条件密切相关 显然表示的是气候因素 3 主成分分析 主成分得分 3 主成分分析 例蔬菜产出水平主要体现在蔬菜总产量 Y1 人均蔬菜占有量 Y2 蔬菜总产增长速度 Y3 三个方面 并称作因变量组 简称 产出组 问题 因变量组与自变量X1 市场经济综合因素 X2 劳动力动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全国执业兽医资格证考试题库附完整答案详解(考点梳理)
- 高三试卷:2025届湖南省“炎德英才”长郡中学高三10月月考-英语试题+答案
- 基地养殖培训课件
- 任前廉洁从业考试单选及答案解析
- 跨文化认知行为差异-洞察及研究
- 2025年中国二分器数据监测研究报告
- 2025年中国挂钩泡棉胶带数据监测研究报告
- 2025年中国冬凌草糖浆数据监测报告
- 2025年中国跑步鞋数据监测报告
- 2025年5G网络对物联网设备的性能提升
- 社区两委测试卷及答案
- 板房拆除协议书样本
- 行政事务知识培训课件
- 模具部的组建和管理
- 预防出生缺陷健康知识讲座
- 《中国近现代史纲要》课程教学大纲
- 康复专转本试题及答案
- 机械工程图纸会审标准及流程解析
- 2025基于人工智能的智慧公路应用技术研究报告
- 【艾青诗选】22《雪落在中国的土地上》思维导图+批注
- 精神科护理学见习
评论
0/150
提交评论