版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 典型相关分析Canonical Correlation Analysis,1 变量组之间的相关性问题 2 数学模型及计算方法 3 典型相关系数的显著性检验 4 应用举例,1 变量组之间的相关性问题,2005年中国28 省市城市男生(1922岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,X6;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,Y5。现欲研究这两组变量之间的相关性。,1 变量组之间的相关性问题,1 变量组之间的相关性问题,两个随机变量X,Y的相关性可用它们的相关系数
2、来度量.,但在许多实际问题中,需要研究多个变量间的相关关系.对于变量组(X1,X2,Xp)和(Y1,Y2,Yq),虽然每个Xi与每个Yj之间的相关关系也反映了两组变量中各对之间的联系,但不能反映这两组变量整体之间的相关性.这样又烦琐又不能抓住问题的本质。,但是,我们可以把两组变量的相关性转化为两个变量的相关性来考虑,即考察一组变量的线性组合,为最大地提取(X1,X2,Xp)与(Y1,Y2,Yq)之间的相关性,我们选择a和b,使U与V之间有最大的相关系数,这时称U和V为第一对典型变量.,进一步,我们还可以确定第二对、第三对典型变量等等,并使各对典型变量之间互不相关.这样就将两组变量间的相关性凝结
3、为少数几个典型变量对之间的相关性.,2 数学模型及计算方法,1 )总体的典型变量与典型相关,设两组随机变量分别为,令,则有,进一步假定11 和22是满秩阵,令,则是(X1,X2,XpY1,Y2,Yq)T的协方差矩阵.,由于,考虑两组变量的线性组合,则U和V的相关系数为,典型相关分析即确定a和b使得U,V达到最大.,可知,给a和b同时乘以非零常数C,U和V的相关系数不变,故可对a和b作如下约束,于是典型相关分析即在上面约束之下,确定a和b使得U,V达到最大.这时,称U,V为典型变量.,如果只有一对U,V还不足以反映X和Y之间的相关性,可进一步构造与U,V互不相关的另外一对典型变量,如此等等.,一
4、般的,第k对(kpq)典型变量是Uk=akTX和Vk=bkTY,其中Uk, Vk具有单位方差,且与前k-1对典型变量中的每个Ui , Vi (i=1,2,k-1)均不相关,在此条件下并使Uk,Vk的相关系数达到最大.,我们称第k对典型变量间的相关系数为第k个典型相关系数.,X1,Y1,Y2,Y3,Y4,Y5,X2,X3,X4,X5,X6,X,Y,U1 U2 U3 U4 U5,V1 V2 V3 V4 V5,典型相关分析示意图,典型相关变量的计算方法,利用矩阵平方根的概念,可得出如下定理.,其典型相关系数为,定理 X=(X1,X2,Xp)T ,Y =(Y1,Y2,Yq) T,Var(X) =11
5、, Var(Y)=22 ,Cov(X,Y)=12 ,其中11和22均为满秩阵且pq.则 X, Y 的第k对典型变量为,其中,为p阶矩阵A的特征值,e1,e2,ep为相应的正交单位化特征向量,f1,f2,fp为q阶矩阵B的对应于前p个最大特征值的正交单位化特征向量.,并且可以得到典型变量Uk和Vk(k=1,2,p)有如下性质:,标准化后的计算,对X和Y的各分量进行标准化,得,其中,其中11,22分别为X*和Y*的相关矩阵,而,为(X1,X2,XpY1,Y2,Yq)T相关矩阵.,则有,从出发作典型相关分析,有类似前述的结果.即第k对典型相关变量为,典型相关系数为,2)样本的典型变量与典型相关分析,
6、则样本协方差矩阵为,其中,其中,以S11, S12, S22, S21分别代替定理中的11,12, 22,21而得到的典型变量称为样本典型变量,相应的典型相关系数称为样本典型相关系数.,这时,样本典型变量为,样本典型相关系数为,为相应的正交单位化特征向量.,为了消除量纲的影响,也可以对样本观测值进行标准化,即令,其中skk(1)和skk(2)分别为S11和S22的主对角线上的第k个元素.,和 分别为 和 的第k个分量.,标准化样本,以R11, R12, R21, R22代替前面的S11, S12, S21和S22,则得到标准化样本的典型变量和典型相关系数.,的样本协方差矩阵即为原样本的样本相关
7、矩阵R.令,在实际分析中,为使典型变量易于解释,通常从R出发,求标准化样本的典型变量,选择样本典型相关系数较大的少数几对样本典型变量,以反映原来两组变量间的关系.,那么,样本典型相关系数多大时,才可认为相应的一对典型变量之间存在显著相关性呢?我们可用Bartlett检验来讨论此问题.,3典型相关系数的显著性检验,如果X和Y互不相关,则有12 =0,典型相关系数k=0 (k=1,2,p);反之也有12 =0.,因此通过检验1=2=k=0,便可以判断X与Y是否显著相关.,若接受H0(2)时,则认为除第一对典型变量显著相关以外,其余各对典型变量的相关性不显著.故可只考虑用第一对典型变量反映X与Y的相
8、关性.,检验假设,当接受H0(1)时,即认为X与Y不相关.这时相关分析便无意义.当拒绝H0(1) 时,可进一步检验假设,若拒绝H0(2)时,则需进一步检验3是否为零.依此类推直到接受H0(k)为止.,前述假设的Bartlett检验方法如下,在满足右边条件下,一般地,若第k-1步检验拒绝H0(k-1),则需检验H0(k),令,当H0(k)为真时,Ak渐近服从自由度为(p-k+1)(q-k+1)的2分布,当满足,否则接受H0(k),检验结束.即认为只有前k-1个典型变量显著相关.,时,拒绝H0(k).,对标准化样本,检验方法完全相同.,四、典型相关分析的应用,1、职业满意度典型相关分析 某调查公司
9、从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论 两组指标之间是否相联系。 X 组: Y 组: X1用户反馈 Y1主管满意度 X2任务重要性 Y2事业前景满意度 X3任务多样性 Y3财政满意度 X4任务特殊性 Y4工作强度满意度 X5自主权 Y5公司地位满意度 Y6工作满意度 Y7总体满意度,Canonical Correlation Analysis,当前和后面的典型相关系数均为零的检验,X组的典型变量,Y组的典型变量,原始变量与本组典型变量之间的相关系数,原始变量与对应组典型变量之间的相关系数,可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系
10、数, u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1,Y2,Y5,Y6有较大的相关系数,说明v1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。,Canonical Redundancy Analysis Raw Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Cumulative Proportion Proportion Propo
11、rtion Proportion 1 0.5818 0.5818 0.1784 0.1784 2 0.1080 0.6898 0.0060 0.1844 3 0.0960 0.7858 0.0014 0.1858 4 0.1223 0.9081 0.0006 0.1864 5 0.0919 1.0000 0.0003 0.1867 Raw Variance of the WITH Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Cumulative
12、Proportion Proportion Proportion Proportion 1 0.3721 0.3721 0.1141 0.1141 2 0.1222 0.4943 0.0068 0.1209 3 0.0740 0.5683 0.0011 0.1220 4 0.1289 0.6972 0.0007 0.1226 5 0.1058 0.8030 0.0003 0.1230,u1和v1解释的本组原始变量的比率: X组的原始变量被u1到u5解释了100% Y组的原始变量被v1到v5解释了80.3% X组的原始变量被u1到u4解释了90.81% Y组的原始变量被v1到v4解释了69.72
13、%,在对房地产指标的典型相关分析中建立了如下的指标体系: X1:开发公司个数(个) X2:年平均职工人数(人) X3:自开始建设至本年底累计完成投资 X4:本年完成投资 X5:施工房屋面积(万平方米) Y1:经营总收入 Y2:土地转让收入 Y3:商品房屋销售收入 Y4:房屋出租收入 Y5:经营税金及附加 Y6:营业利润 Y7:竣工房屋面积(万平方米) Y8:竣工房屋价值(万元) 其中,X1-X5是反映房地产投入的变量,Y1-Y8是反映房地产产出的变量。 数据来源于1999中国统计年鉴,选取了全国30个省市自治区的相应指标值.,2、房地产指标典型相关分析报告,第一对典型变量中,U1主要受自开始建
14、设至本年底累计完成投资影响,V1主要受经营总收入和商品房屋销售收入影响; 第二对典型变量中,U2主要受自开始建设至本年底累计完成投资、本年完成投资和施工房屋面积影响,V2主要受经营税金及附加、竣工房屋面积和竣工房屋价值影响: 第三对典型变量中,U3受各个指标影响都较大,V4主要受房屋出租收入、经营税金及附加和竣工房屋面积的影响;,第四对典型变量中,U4主要受本年完成投资的影响,V4主要受经营总收入和工房屋价值的影响。 第五对典型变量中,U5主要受开发公司个数影响,V4主要受经营总收入、商品房屋销售收入、房屋出租收入和经营税金及附加影响。 但注意到,第一对典型变量的方差贡献率已达92.20%,故
15、保留第一对典型变量用作分析,从而达到降维的目的。 总的来说,房地产的投入变量主要受自开始建设至本年底累计完成投资影响,产出变量集中在经营总收入和商品房屋销售收入上。累计完成投资额与经营总收入,特别是商品房屋销售收入高度相关。,本例想利用我国1999年城镇居民的家庭收入来源和消费性支出的数据了解我国居民消费构成及主要影响因素分析所用的数据来自:中国统计年鉴2000。,3、我国居民消费构成及主要影响因素,收入指标:X1可支配收入 X2实际收入 X3国有单位职工收入 X4集体单位职工收入 X5其他经济类型职工收入, X6转移收入 支出指标:Y1消费性支出 Y2食品 Y3衣着 Y4交通和通讯 Y5医疗
16、和保健 Y6娱乐、教育、文化服务 Y7居住,序号 典型相关系数 典型变量 1 0.990174 U1 =0.9989X1+-0.0595X2+0.0776X3 +0.0489X4-0.0931X5+0.0074X6 V1=1.3263Y1-0.0270Y2-0.0005Y3-0.0769Y4 -0.0717Y5-0.2031Y6-0.0219Y,2 0.868704 U2 =-4.8668X1+0.1264X2+1.9585X3 +0.3299X4+1.4095X5+2.6453X6,V2 =-4.4920Y1+2.5421Y2+1.2480Y3-0.4621Y4 +1.0443Y5+0.86
17、10Y6+0.0586Y7,由累计贡献率得知,第一组和第二组变量的累计贡献率已达到了97.56%,而且,这两组的系数和方差与其他组相比要大得多.即只需要前两组变量就已经可以解释全部信息的97.56%. 在第一对典型变量中,U1 主要受可支配收入的影响,V1 主要受消费性支出的影响;可见实际收入对消费支出的影响远小于可支配收入的影响。居民消费主要依据其可支配收入而定。 第二对典型变量中,U2 主要受国有单位职工收入、其他经济类型职工收入和转移收入的影响,V2 主要受食品、衣着、医疗和保健的影响。,在此可见,我国集体单位的职工收入还不能够与国有甚至是其他经济类型的单位这职工收入相比,这也从一个侧面放反映了集体单位规模等方面的现状。再有就是我国居民食品和衣着方面的支出仍占了总支出的大部分,反映了我国居民总体收入水平还不够高;其次,医疗保健支出的比例比较大是可喜的,说明我国居民已经可以把部分精力放在了自己身体的调养上来,全国居民的总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物资采购入库会计制度
- 物资采购市场调查制度
- 物资采购统计制度
- 特殊采购质量控制制度
- 瓶颈型物料采购管理制度
- 生产零散采购制度
- 生鲜采购奖惩制度
- 电厂物资采购内控制度
- 电子物料采购管理制度
- 电子商城议价采购制度
- 2026河南平顶山发展投资控股集团校园招聘备考题库含完整答案详解(全优)
- 2026年陕西汉德车桥有限公司招聘(25人)考试参考试题及答案解析
- 2026届江苏南通市通州区高三下学期模拟预测化学试题(含答案)
- 2026年中级消防设施操作员习题库(附答案解析)
- 装配式装修行业深度研究报告
- 离婚协议书 2026年民政局标准版
- 2025年浙江长征职业技术学院单招职业技能考试题库带答案解析
- 2026年春季小学信息科技(甘肃版2021)四年级下册教学计划含进度表
- 2026年及未来5年中国直播卖房行业发展运行现状及投资潜力预测报告
- 2026年海底管道智能巡检报告及未来五至十年海洋工程报告
- 检验科设备更新周期的成本效益模型构建
评论
0/150
提交评论