第九章--典型相关分析.doc_第1页
第九章--典型相关分析.doc_第2页
第九章--典型相关分析.doc_第3页
第九章--典型相关分析.doc_第4页
第九章--典型相关分析.doc_第5页
免费预览已结束,剩余7页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章 典型相关分析 为了研究饲料与荤菜价格的关系,统计若干年玉米、豆饼、稻子、麦子以及猪肉、牛肉、鸡肉、鸡蛋、鸭肉、鸭蛋的价格,分析饲料与荤菜价格的关系时,发现单独一种饲料和单独一种肉蛋禽价格关系并不密切(由显著性检验可见),但饲料的某种综合价格则与肉蛋禽综合价格的关系很密切。把饲料价格看成一组随机变量,肉蛋禽价格看成另一组随机变量,找这两组随机变量的线性组合,使之相关系数平方最大,从而分析两组随机变量间的关系,判定这两组随机变量是否有关联,这就是典型相关分析。9.1 典型相关分析数学模型设随机向量与的方差存在,协方差为。为常数向量。则,为了计算方便,限制。定义9.1设在条件下使大,则称为第一对典型相关变量,称为第一典型相关系数。由定义可见,尽可能多地反映原来p对随机变量相关的信息。第一对典型相关变往往不能完全反映随机向量间的关系,必须建立其他典型相关变量,它也应当最能反映随机向量间关系,但是它应当与第一对典型相关变量不相关(不包含第一对典型相关变量的信息)。定义9.1 若常数向量a=, b=在条件 ,下,使最大,则称为第二对典型相关变量,称为第二典型相关系数。若常数向量a=, b=在条件 , , ,下,使最大,则称为第3对典型相关变量,称为第3典型相关系数,。求第1对典型相关变量是在条件下使最大,由Lagrenge乘子法,应当求Lagrenge函数的无条件极大。对a,b求偏导数得 (9.1)假设正定(否则用广义逆处理),(9.1)第1式左乘得;(9.1)第2式左乘得;从而。当时(9.1)式消去a得,从而,b分别是相对于的特征值,特征向量,或的特征值,特征向量。(9.1)式消去b得,从而,a分别是相对于的特征值,特征向量,或的特征值,特征向量。可以证明定理91设,a分别是的最大特征值及相应特征向量;,b分别是的最大特征值及相应特征向量;满足条件 ,则为第一对典型相关变量,为第一典型相关系数的平方。更一般的,设,分别是的第i大特征值及相应特征向量;,分别是的第i大特征值及相应特征向量;满足条件 ,则为第i对典型相关变量,为第i典型相关系数的平方。 实际问题中协差阵总用样本协差阵估计,设是正态总体的一个样本。,则,分别是的极大似然估计样本协差阵。定理(9.1)中协差阵可用极大似然估计样本协差阵代替。这样做的依据是 定理92 设,分别是的第i大特征值及相应特征向量;,分别是的第i大特征值及相应特征向量;满足条件: ,的样本方差都是1;则分别为的极大似然估计,为的极大似然估计。定义92 ,称为第i对样本典型相关变量,称为第i个样本典型相关系数平方冗余分析也是典型相关分析的重要内容 设每组变量都标准化了,从第1组变量提取的典型变量为,从第2组变量提取的典型变量为;原第1组变量为,原第2组变量为;与X分量的相关系数所成向量为,与Y分量的相关系数所成向量为,则第i个典型变量从第1组变量提取的方差比例为,则第i个典型变量从第2组变量提取的方差比例为。令,;则表示9.2典型相关过程 SAS中用CANCORR过程(典型相关过程)计算样本典型相关系数和样本典型相关变量。该过程主要包括以下三个语句:(1) ROC CANCORR语句,一般形式是PROC CANCORR选择项1选择项2PROC CANCORR语句中选项可以是DATA;用以表明输入数据集;OUT;或OUTSTAT;用以表明输出数据集,还可以是ALL,用以表明输出全部计算内容。(2) VAR语句,一般形式是VAR 变量l 变量2;用以指出第一组变量。 (3)WITH 语句,一般形式是WITH 变量1 变量2;用以指出第二组变量。 例91 现有北京地区19511976年冬季的气象资料见表91,其中year:年份Dec:12月份平均气温Jan:次年一月份平均气温Feb:次年二月份平均气温High7:7月500hpa图上13-14E,40-50N范围内6点高度距平和High4:4月500hpa图上(110E,45N)(100W,40N)和(100W,50N)3点高度距平和high8:8月500hpa图上150E,35-45N;100E,40-50N范围内5点高度距平和 表91 北京地区冬季气温yearDecJanFebHhigh7high4high819511.0-2.7-4.34-7121952-5.3-5.9-3.502151953-2.0-3.4-0.86-951954-5.7-4.7-1.1101761955-0.9-3.8-3.115111956-5.7-5.3-5.9-31-121957-2.1-5.0-1.6-1531319580.6-4.3-0.210-301959-1.7-5.72.0-9-5-141960-3.6-3.61.311-3181961-3.0-3.1-0.85-15419620.1-3.9-1.181211963-2.6-3.0-5.2113-31964-1.4-4.9-1.7-11-871965-3.9-5.7-2.5-186-61966-4.7-4.8-3.3-9-6151967-6.0-5.6-4.940-201968-1.7-6.4-5.1-7-2-151969-3.4-5.6-2.0417-231970-3.1-4.2-2.99-16231971-3.8-4.9-3.9-135-21972-2.0-4.1-2.470101973-1.7-4.2-23.6-3.3-2.017-201975-2.7-3.70.1-1-13101976-2.4-7.6-2.259-30以Dec,Jan,Feb为第1组变量,high7,high4,high8为第2组变量座典型相关分析。 解 采用如下程序data temperat;input year Dec Jan Feb high7 high4 high8;cards;1951 1.0 -2.7 -4.3 4 -7 121952 -5.3 -5.9 -3.5 0 21 51953 -2.0 -3.4 -0.8 6 -9 51954 -5.7 -4.7 -1.1 10 17 61955 -0.9 -3.8 -3.1 1 5 111956 -5.7 -5.3 -5.9 -3 1 -121957 -2.1 -5.0 -1.6 -15 3 131958 0.6 -4.3 -0.2 10 -3 01959 -1.7 -5.7 2.0 -9 -5 -141960 -3.6 -3.6 1.3 11 -3 181961 -3.0 -3.1 -0.8 5 -15 41962 0.1 -3.9 -1.1 8 12 11963 -2.6 -3.0 -5.2 11 3 -31964 -1.4 -4.9 -1.7 -11 -8 71965 -3.9 -5.7 -2.5 -18 6 -61966 -4.7 -4.8 -3.3 -9 -6 151967 -6.0 -5.6 -4.9 4 0 -201968 -1.7 -6.4 -5.1 -7 -2 -151969 -3.4 -5.6 -2.0 4 17 -231970 -3.1 -4.2 -2.9 9 -16 231971 -3.8 -4.9 -3.9 -13 5 -21972 -2.0 -4.1 -2.4 7 0 101973 -1.7 -4.2 -2.0 27 -11 41974 -3.6 -3.3 -2.0 17 -2 01975 -2.7 -3.7 0.1 -1 -13 101976 -2.4 -7.6 -2.2 5 9 -30;proc cancorr all;var Dec Jan Feb;with high7 high4 high8;run;执行后得到如下结果 Means and Standard Deviations 3 VAR Variables 3 WITH Variables 26 Observations Variable Mean Std Dev DEC -2.742308 1.859069 JAN -4.592308 1.172663 FEB -2.273077 1.960930 HIGH7 2.038462 10.470839 HIGH4 -0.038462 9.799922 HIGH8 0.730769 13.128771以上给出6个变量的样本均值与样本标准差 Correlations Among the Original Variables Correlations Among the VAR Variables DEC JAN FEB DEC 1.0000 0.3284 0.2652 JAN 0.3284 1.0000 0.1587 FEB 0.2652 0.1587 1.0000 Correlations Among the WITH Variables HIGH7 HIGH4 HIGH8 HIGH7 1.0000 -0.1103 0.1019 HIGH4 -0.1103 1.0000 -0.3871 HIGH8 0.1019 -0.3871 1.0000以上是两组变量的组内样本相关阵 Correlations Among the Original Variables Correlations Between the VAR Variables and the WITH Variables HIGH7 HIGH4 HIGH8 DEC 0.1238 -0.2831 0.1652 JAN 0.4378 -0.4479 0.6645 FEB 0.1180 -0.1812 0.2118以上是两组变量的组间样本相关阵 Canonical Correlation Analysis Adjusted Approx Squared Canonical Canonical Standard Canonical Correlation Correlation Error Correlation 1 0.793562 0.761686 0.074052 0.629741 2 0.190066 -.007368 0.192775 0.036125 3 0.022657 . 0.199897 0.000513以上给出(样本)典型相关系数分别是0.793562,0.190066,0.022657;(样本)典型相关系数平方分别是0.629741,0.036125,0.000513。0.793562远大于两组变量间单个相关系数。 Eigenvalues of INV(E)*H = CanRsq/(1-CanRsq) Eigenvalue Difference Proportion Cumulative 1 1.7008 1.6633 0.9782 0.9782 2 0.0375 0.0370 0.0216 0.99973 0.0005 . 0.0003 1.0000 Canonical Correlation Analysis Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Ratio Approx F Num DF Den DF Pr F 1 0.35670032 2.8612 9 48.82535 0.0086 2 0.96338007 0.1977 4 42 0.9382 3 0.99948666 0.0113 1 22 0.9163似然比检验表明第1对典型相关是高度显著的(0.00860.01);第2,3对典型相关是不显著的(概率0.9382,0.9163远大于0.05)。 Canonical Correlation Analysis Multivariate Statistics and F Approximations S=3 M=-0.5 N=9 Statistic Value F Num DF Den DF Pr F Wilks Lambda 0.35670032 2.861 9 48.82535 0.0086 Pillais Trace 0.66637929 2.094 9 66 0.0424 Hotelling-Lawley Trace 1.73880346 3.6064 9 56 0.0013 Roys Greatest Root 1.70081079 12.4726 3 22 0.0001 NOTE: F Statistic for Roys Greatest Root is an upper bound.多种检验表明两组变量存在相关性。 Canonical Correlation Analysis Raw Canonical Coefficients for the VAR Variables V1 V2 V3 DEC -0.032779661 -0.568666035 -0.13313535 JAN 0.8339789573 0.2818830288 -0.212608817 FEB 0.0889953418 -0.002884889 0.5230182828 Raw Canonical Coefficients for the WITH Variables W1 W2 W3 HIGH7 0.043598289 0.0116551032 -0.085060488 HIGH4 -0.024925353 0.1078948423 -0.007697455 HIGH8 0.0542083662 0.0477850548 0.0403880758上表给出原始变量典型相关变量的系数,第1对典型变量是v1=-0.032779661Dec+0.8339789578Jan+0.0889953418w1=0.043598289high7-0.024925353high4+0.0542083662hign8第2对典型变量是v2=-0.568666035Dec+0.2818830288Jan-0.002884889 Febw2=0.0116551032high7+0.1078948423high7+0.0477850548high8第3对典型变量学者自己找一找。 Canonical Correlation Analysis Standardized Canonical Coefficients for the VAR Variables V1 V2 V3 DEC -0.0609 -1.0572 -0.2475 JAN 0.9780 0.3306 -0.2493 FEB 0.1745 -0.0057 1.0256 Standardized Canonical Coefficients for the WITH Variables W1 W2 W3 HIGH7 0.4565 0.1220 -0.8907 HIGH4 -0.2443 1.0574 -0.0754HIGH8 0.7117 0.6274 0.5302上表给出标准化变量典型相关变量的系数,第1对典型变量是v1=-0.0609Dec+0.9780Jan+0.1754Febw1=0.4565hign7-0.2443huigh4+0.7117high8第2,3对典型变量学者自己找一找。 Canonical Structure Correlations Between the VAR Variables and Their Canonical Variables V1 V2 V3 DEC 0.3065 -0.9501 -0.0574 JAN 0.9857 -0.0175 -0.1678 FEB 0.3136 -0.2336 0.9204以上给出第1组变量与自己典型变量间的相关系数,即冗余分析的, Correlations Between the WITH Variables and Their Canonical Variables W1 W2 W3 HIGH7 0.5560 0.0693 -0.8283 HIGH4 -0.5701 0.8010 -0.1825HIGH8 0.8528 0.2304 0.4687以上给出第2组变量与自己典型变量间的相关系数,即冗余分析的, Canonical Structure Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables W1 W2 W3 DEC 0.2432 -0.1806 -0.0013 JAN 0.7822 -0.0033 -0.0038 FEB 0.2488 -0.0444 0.0209 Canonical Structure Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables V1 V2 V3 HIGH7 0.4412 0.0132 -0.0188 HIGH4 -0.4524 0.1522 -0.0041HIGH8 0.6767 0.0438 0.0106以上是典型变量与对方变量间的相关系数。 Canonical Redundancy Analysis Raw Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion 1 0.2350 0.2350 0.6297 0.1480 0.1480 2 0.3838 0.6188 0.0361 0.0139 0.16183 0.3812 1.0000 0.0005 0.0002 0.1620以上给出 Canonical Redundancy Analysis Raw Variance of the WITH Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion 1 0.5038 0.5038 0.6297 0.3173 0.3173 2 0.1886 0.6924 0.0361 0.0068 0.32413 0.3076 1.0000 0.0005 0.0002 0.3242以上给出 Canonical Redundancy Analysis Standardized Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion 1 0.3879 0.3879 0.6297 0.2443 0.2443 2 0.3192 0.7071 0.0361 0.0115 0.25583 0.2929 1.0000 0.0005 0.0002 0.2560以上给出第1组变量1,2,3个典型变量从标准化的第1组变量提取的比例分别是0.3879,0.3912,0.2929。而分别是0.2443,0.2448,0.2560。 Canonical Redundancy Analysis Standardized Variance of the WITH Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion 1 0.4538 0.4538 0.6297 0.2858 0.2858 2 0.2332 0.6870 0.0361 0.0084 0.29423 0.3130 1.0000 0.0005 0.0002 0.2944以上给出第2组变量1,2,3个典型变量从标准化的第2组变量提取的比例分别是0.4538,0.2332,0.3130。而分别是0.2858,0.2942,0.2944。 Canonical Redundancy Analysis Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 3 DEC 0.0592 0.0918 0.0918 JAN 0.6118 0.6118 0.6118 FEB 0.0619 0.0639 0.0643以上给出第2组变量与第组1,2,3个典型变量相关系数累计平方和,即0. 0592=0.24322,0.0918=0.05

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论