多元统计分析——主成分分析法_第1页
多元统计分析——主成分分析法_第2页
多元统计分析——主成分分析法_第3页
多元统计分析——主成分分析法_第4页
多元统计分析——主成分分析法_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.,主成分分析 Principal Component Analysis,.,思考1 反映地区社会经济发展的指标体系 X1:国内生产总值(GDP) X2:人均GDP X3:第三产业产值占GDP比重 X4:人均出口额 X5:工业企业劳动生产率 X6:人均社会消费品零售额 X7:每万人拥有卫生技术人员数 X8:每万人高等学校在校生数 X9:教育经费投入占GDP比重 X10:人均货运总量 X11:人均邮电业务总量 X12:每万人电话机装机数 X13:人均固定资产投资 X14:人均实际利用外资 X15:地方财政收入占GDP比重 X16:每万人科研机构数 X17:科研经费占GDP比重,分析全国31个地区

2、的社会经济发展水平。,.,为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。要求每个消费者对食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。,思考2,.,为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益?,思考3服装的定型分类问题,.,大纲,1.基本思想 2.定义 3.主成分的性质、计算等 4.案例 5.主成分回归,.,E.g.Hotelling(1939)用两个主成分反映入学考试成绩: 文科能力 数理能力 预备知识: 方差为

3、零的变量不能区分总体中的个体成员; 可以用一个变量的方差来度量其所传递的信息量。,.,主成分分析的基本概念,一个假设的例子:N=100 均数 101.63 50.71 方差 109.63 55.40 标准差 10.47 7.44 的均数=0 的均数=0,.,预备知识:向量,等方向都是同一个方向,a,b,2a,2b,.,(1)创建,使得 尽可能大, 即寻找一个方向,使得所有点在 此方向上的投影的方差尽可能大,.,(2)创建,使得 与 不相关 尽可能大。 即寻找另一个方向 垂直于 所有点在 上的投影方差最大。,.,.,例 1985年中国人口普查资料:各省汉族青年(19-22岁)形态学指标的平均值。

4、,.,如何综合多个随机变量?,我们想要一个或几个综合变量,概括6个形态指标的大部分信息. 注意:若某指标在人群中方差较大,它就是一个好的指标。,.,寻找综合变量,标准化 (1)找第1个最佳的综合变量 找适宜的系数 ,使得 与其他线性组合相比,有最大的方差 最大 我们关心的是 之间的比值 故限定,.,(2)找第2个最佳的综合变量,找适宜的 使得 最大 限定 (3)找第3个最佳的综合变量 最大 限定 原有6个变量,最多可找到6个独立的综合变量,.,主成分的一般定义,一般地, 样本均数 样本标准差 标准化 (1)在所有线性组合 中,限定 使得 最大的便是第1主成分。,.,(2)在所有线性组合,中,限

5、定 使得 最大的便是第2主成分. 类似地,我们可以定义第3,第4,直到第p个 主成分。,.,主成分的性质,(1)主成分之间不相关 Corr(Ci,Cj)=0 (2)系数(ai1,ai2,aip)是单位向量 ai12+ai22+ +aip2=1 (3)方差递降 Var(C1)Var(C2)Var(Cp) (4)主成分的方差之和等于原变量的方差之和 信息总量不增不减,Var(C1)+Var(C2)+ +Var(Cp) = Var(x1)+Var(x2)+ +Var(xp)=p,.,主成分的计算和解释,(1)计算 的相关矩阵 (2)计算R的特征根(特征值) 即求解方程,.,(3)计算特征向量,即求解

6、方程 得到,.,表1 例1的相关矩阵,只有前几个才是名副其实的“主成分”,表2 例1的相关矩阵的主成分,.,表4 例1 的特征向量,.,主成分的个数,实践中, (1)粗略地决定欲保留的方差百分比; 仅保留前几个主成分 或(2)若某个主成分的方差大于1,就保留它 因为原变量的方差都是1 究竟保留几个? 取决于课题本身的需要,.,碎石图,.,主成分与原变量的相关性,和 的关系: :主要反映身体的大小; 身高、坐高、体重、胸围 :反映宽度 肩宽和骨盆宽度 总之,(1)主成分有助于综合多个变量 (2)主成分的意义有时不易解释,.,例:抑郁症问卷的综合得分 表1 标准CESD问卷的主成分(抑郁症数据),

7、.,C1:多数条目的加权和 C2:反映懒散和精力状况 C3:有关“别人怎样看待自己”的感觉,.,例2 关于下颚6个前齿的结石,1.右犬齿 2.右、侧门牙 3.右、中门牙 4.左、侧门牙 5.左、中门牙 6.左犬齿,.,PC1:加权和,总的结石状况 PC2:门牙与犬齿比较 PC3:左右比较,.,主成分分析的应用,综合评价 市场研究 定型分类问题,.,反映地区社会经济发展的指标体系 X1:国内生产总值(GDP) X2:人均GDP X3:第三产业产值占GDP比重 X4:人均出口额 X5:工业企业劳动生产率 X6:人均社会消费品零售额 X7:每万人拥有卫生技术人员数 X8:每万人高等学校在校生数 X9

8、:教育经费投入占GDP比重 X10:人均货运总量 X11:人均邮电业务总量 X12:每万人电话机装机数 X13:人均固定资产投资 X14:人均实际利用外资 X15:地方财政收入占GDP比重 X16:每万人科研机构数 X17:科研经费占GDP比重,对全国31个地区上述17项指标的数据进行主成分分析,应用SAS软件进行处理。,例1、主成分分析用于综合评价,.,1、 求相关系数矩阵R 2、 计算R的特征值,.,3、 求特征根所对应的单位特征向量,0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.

9、509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756,0.038466 0.276020 0.243654 0.263487 0.180546 0.290834 0.259842 0.280523 0.094233 0.215946 0.292016 0.288268 0.282016 0.259006 0.216793 0.259962 0.212293,X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17,Y2,Y1

10、,特征向量,.,4、主成分的表达式及其含义解释 5、计算主成分得分,.,.,.,为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。对785名消费者进行调查,要求每个消费者对100种食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。,例2 市场研究中的应用,.,将被调查者按性别与年龄分成10组,假若你是该食品加工业决策部门的高级顾问,为了对食品生产作出合理决策,请你对调查资料进行分析,为决策者提供建议。,.,以组为单位,在每组中每个成员都对100 种食品给予评分,然后计算每组成员对每种食品评分的平均值。,15 组表示男性,

11、610 组表示女性 15, 610 年龄从小到大排序,.,.,y1反映了公共平均嗜好程度, y1得分越大,表示大众越喜欢吃此食品。,y2反映了年龄的作用。 y2得分为正时,表示孩子喜欢吃; y2得分为负时,表示孩子不喜欢吃。,y3反映性别的作用。y3得分为正时,表示男性喜欢吃; y3得分为负时,表示女性喜欢吃。,主成分的含义,.,用 得分来表示食品嗜好程度可有七成把握。 在充分注意到人们普遍的嗜好程度基础上,进一步考虑到青少年和老年人的嗜好程度,对食品业的开发方针作出决策时,将有85%的把握。,.,.,为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服

12、装应按怎样的比例分配生产计划才能达到较好的经济效益?,例3 服装的定型分类问题,.,X1:身长 X2:坐高 X3:胸围 X4:头高 X5:裤长 X6:下裆 X7:手长 X8:领围 X9:前胸 X10:后背 X11:肩厚 X12:肩宽 X13:袖长 X14:肋围 X15:腰围 X16:腿肚,对128名成年男子按16项指标进行测量。,.,.,.,y1 是刻画尺寸大小的因子。,y2 反映人的胖瘦情况,是一个体形因子。 反映“长”的尺寸前面的系数为正; 反映“围”的尺寸前的系数为负。,y3 系数多数取值很小,接近于0。只有三个系数绝对值较大。 y3 是反映特殊体形的因子,区分有无畸形。,.,区分有几种

13、型号 (分类) 各种型号的生产量(比例),要解决的问题:,.,主成分回归,数据 分析过程中的一个工具 可应用于下列分析的中间过程: 多重回归 判别分析 因子分析 聚类分析,.,回归中的共线性,当自变量高度相关时, 回归系数估计值不稳定, 结果不易解释. 主成分有助于重新组织原变量,高度相关的变量往往会构成同一个主成分,不同主成分之间不相关. 将主成分作为自变量,就没有自变量之间相关的问题了。,.,表5 孕周和胎儿的形态学指标,Y关于 和 的回归方程 回归系数:头围的系数为负?! 违背常识?为什么?,.,表6 例2的相关矩阵,三个变量高度相关! 头围 的系数为负是因为它 必须挽回 和 的过度贡献。,.,主成分分析,表7 例2的主成分分析,保留前两个主成分 和,.,关于主成分的回归,将 和 的表达式代入这个回归方程, 得到新的回归方程 前面直接关于 , 和 回归时出现的问题消失了!,.,小结,1.预备知识:方差为零的变量不能区分总体中的个体成员:可以用一个变量的方差来度量其所传递的信息量。 2.如果有多个自变量,我们希望用少数几个综合变量来概括大部分信息;主成分是寻找综合变量的方法之一。,.,3.主成分是原变量的线性组合;第一主成分应当最大,第2主成分是在和第1主成分不相关的前提下方差最大,第3主成分是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论