多元统计分析第八章_典型相关分析_第1页
多元统计分析第八章_典型相关分析_第2页
多元统计分析第八章_典型相关分析_第3页
多元统计分析第八章_典型相关分析_第4页
多元统计分析第八章_典型相关分析_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析第八章_典型相关分析第8章 典型相关分析典型相关分析是用来描述两组随机变量(两个随机向量)间关系的统计分析方法。两组随机向量,各含有许多随机变量,能否用少量随机变量来描述其相关性?例如为了研究饲料与荤菜价格的关系,统计若干年玉米、大豆、稻子、麦子、鱼粉以及猪肉、牛肉、羊肉、鸡肉、鸡蛋、鸭肉、鸭蛋的价格,分析饲料与荤菜价格的关系时,发现单独一种饲料和单独一种肉蛋禽价格关系并不密切(由显著性检验可见),但饲料的某种综合价格则与肉蛋禽综合价格的关系很密切。把饲料价格看成一组随机变量,肉蛋禽价格看成另一组随机变量,找这两组随机变量的线性组合,使之相关系数平方最大,从而分析两组随机变量间的关

2、系,判定这两组随机变量是否有关联,这就是典型相关分析。8.1 典型相关分析数学模型设随机向量与的方差存在,协方差为。为常数向量。则,为了计算确定性,限制 EMBED Equation.3 。定义8.1 设在条件:下使大,则称为第一对典型相关变量,称为第一典型相关系数。由定义可见,尽可能多地反映原来对随机变量相关的信息。第一对典型相关变量往往不能完全反映随机向量间的关系,必须建立其它典型相关变量,它应当最能反映随机向量间的关系,但是它应当与第一对典型相关变量不相关(不包含第一对典型相关变量的信息)。定义8.1 若常数向量=,=在条件:,;,下使最大,则称为第二对典型相关变量,称为第二典型相关系数

3、。若常数向量=,=在条件:,;,;,下使最大,则称为第三对典型相关变量,称为第三典型相关系数。求第一对典型相关变量是在条件: EMBED Equation.3 下使最大,由Lagrange乘子法,应当求Lagrange函数的无条件极大。对,求偏导数得: (8.1)假设正定(否则用广义逆处理),(8.1)第1式左乘得;(8.1)第2式左乘得;从而。当时(8.1)式消去得,从而,分别是相对于的特征值,特征向量,或化为:令,则,是的特征值,特征向量。(8.1)式消去得,从而,分别是相对于的特征值,特征向量,或化为:,令,从而、c是的特征值和特征向量。可以证明:定理81 设,c分别是的最大特征值及相应

4、特征向量;,d分别是的最大特征值及相应特征向量;,满足条件 ,则为第一对典型相关变量,为第一典型相关系数的平方。更一般的,设,分别是的第大特征值及相应特征向量;,分别是的第大特征值及相应特征向量;,满足条件 ,则为第对典型相关变量,为第典型相关系数的平方。 实际问题中协差阵总用样本协差阵估计,设是正态总体的一个样本。, EMBED Equation.3 ,则,分别是的极大似然估计样本协差阵。定理(8.1)中协差阵可用极大似然估计样本协差阵代替。这样做的依据是: 定理82 设,分别是的第大特征值及相应特征向量;,分别是的第大特征值及相应特征向量;满足条件: ,的样本方差都是1;则分别为的极大似然

5、估计,为的极大似然估计。定义82 ,称为第对样本典型相关变量,称为第个样本典型相关系数平方冗余分析也是典型相关分析的重要内容。 设每组变量都标准化了,从第1组变量提取的典型变量为,从第2组变量提取的典型变量为;原第1组变量为,原第2组变量为;与分量的相关系数所成向量为,与分量的相关系数所成向量为,则第个典型变量从第1组变量提取的方差比例为,则第个典型变量从第2组变量提取的方差比例为。令,它们称为冗余测度。冗余测度的大小表示这对典型变量能够对另一组变差相互解释程度的大小,对进一步讨论多对建模提供有用的信息。8.2典型相关过程SAS中用CANCORR过程(典型相关过程)计算样本典型相关系数和样本典

6、型相关变量。该过程主要包括以下三个语句:(1)PROC CANCORR语句,一般形式是:PROC CANCORR 选择项1 选择项2 。PROC CANCORR语句中选项可以是DATA,用以表明输入数据集;OUT或OUTSTAT,用以表明输出数据集;还可以是ALL,用以表明输出全部计算内容。(2)VAR语句,一般形式是VAR 变量l 变量2 ,用以指定第一组变量。(3)WITH语句,一般形式是WITH 变量1 变量2 ,用以指定第二组变量。例8.1 现有北京地区19511976年冬季的气象资料见表81,其中year:年份Dec:12月份平均气温Jan:次年一月份平均气温Feb:次年二月份平均气

7、温High7:7月500hpa图上13-14E,40-50N范围内6点高度距平和High4:4月500hpa图上(110E,45N)(100W,40N)和(100W,50N)3点高度距平和high8:8月500hpa图上150E,35-45N;100E,40-50N范围内5点高度距平和表81 北京地区冬季气温YearDecJanFebHhigh7high4high819511.0-2.7-4.34-7121952-5.3-5.9-3.502151953-2.0-3.4-0.86-951954-5.7-4.7-1.1101761955-0.9-3.8-3.115111956-5.7-5.3-5.

8、9-31-121957-2.1-5.0-1.6-1531319580.6-4.3-0.210-301959-1.7-5.72.0-9-5-141960-3.6-3.61.311-3181961-3.0-3.1-0.85-15419620.1-3.9-1.181211963-2.6-3.0-5.2113-31964-1.4-4.9-1.7-11-871965-3.9-5.7-2.5-186-61966-4.7-4.8-3.3-9-6151967-6.0-5.6-4.940-201968-1.7-6.4-5.1-7-2-151969-3.4-5.6-2.0417-231970-3.1-4.2-2.

9、99-16231971-3.8-4.9-3.9-135-21972-2.0-4.1-2.470101973-1.7-4.2-23.6-3.3-2.017-201975-2.7-3.70.1-1-13101976-2.4-7.6-2.259-30以Dec,Jan,Feb为第一组变量,high7,high4,high8为第二组变量作典型相关分析。解 采用如下程序:data temperat;input year Dec Jan Feb high7 high4 high8;cards;1951 1.0 -2.7 -4.3 4 -7 121952 -5.3 -5.9 -3.5

10、 0 21 51953 -2.0 -3.4 -0.8 6 -9 51954 -5.7 -4.7 -1.1 10 17 61955 -0.9 -3.8 -3.1 1 5 111956 -5.7 -5.3 -5.9 -3 1 -121957 -2.1 -5.0 -1.6 -15 3 131958 0.6 -4.3 -0.2 10 -3 01959 -1.7 -5.7 2.0 -9 -5 -141960 -3.6 -3.6 1.3 11 -3 181961 -3.0 -3.1 -0.8 5 -15 41962 0.1 -3.9 -1.1 8 12 11963 -2.6 -3.0 -5.2 11 3

11、-31964 -1.4 -4.9 -1.7 -11 -8 71965 -3.9 -5.7 -2.5 -18 6 -61966 -4.7 -4.8 -3.3 -9 -6 151967 -6.0 -5.6 -4.9 4 0 -201968 -1.7 -6.4 -5.1 -7 -2 -151969 -3.4 -5.6 -2.0 4 17 -231970 -3.1 -4.2 -2.9 9 -16 231971 -3.8 -4.9 -3.9 -13 5 -21972 -2.0 -4.1 -2.4 7 0 101973 -1.7 -4.2 -2.0 27 -11 41974 -3.6 -3.3 -2.0

12、17 -2 01975 -2.7 -3.7 0.1 -1 -13 101976 -2.4 -7.6 -2.2 5 9 -30;proc cancorr all;var Dec Jan Feb;with high7 high4 high8;run;执行后得到如下结果: Means and Standard Deviations 3 VAR Variables 3 WITH Variables 26 Observations Variable Mean ?Std Dev DEC -2.742308 1.859069 JAN -4.592308 1.172663 FEB -2.273077 1.96

13、0930 HIGH7 2.038462 10.470839 HIGH4 -0.038462 9.799922 HIGH8 0.730769 13.128771以上给出6个变量的样本均值与样本标准差。 Correlations Among the Original Variables Correlations Among the VAR Variables DEC JAN FEB DEC 1.0000 0.3284 0.2652 JAN 0.3284 1.0000 0.1587 FEB 0.2652 0.1587 1.0000 Correlations Among the WITH Variab

14、les HIGH7 HIGH4 HIGH8 HIGH7 1.0000 -0.1103 0.1019 HIGH4 -0.1103 1.0000 -0.3871 HIGH8 0.1019 -0.3871 1.0000以上是两组变量的组内样本相关阵。 Correlations Among the Original Variables Correlations Between the VAR Variables and the WITH Variables HIGH7 HIGH4 HIGH8 DEC 0.1238 -0.2831 0.1652 JAN 0.4378 -0.4479 0.6645 FEB

15、 0.1180 -0.1812 0.2118以上是两组变量的组间样本相关阵。 Canonical Correlation Analysis Adjusted Approx Squared Canonical Canonical Standard Canonical Correlation Correlation Error Correlation 1 0.793562 0.761686 0.074052 0.629741 2 0.190066 -.007368 0.192775 0.036125 3 0.022657 . 0.199897 0.000513以上给出(样本)典型相关系数分别是0.

16、793562,0.190066,0.022657;(样本)典型相关系数平方分别是0.629741,0.036125,0.000513。第一典型相关系数0.793562远大于两组变量间单个相关系数。 Eigenvalues of INV(E)*H = CanRsq/(1-CanRsq) Eigenvalue Difference Proportion Cumulative 1 1.7008 1.6633 0.9782 0.9782 2 0.0375 0.0370 0.0216 0.99973 0.0005 . 0.0003 1.0000 Canonical Correlation Analysi

17、s Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Ratio Approx F Num DF Den DF Pr > F 1 0.35670032 2.8612 9 48.82535 0.0086 2 0.96338007 0.1977 4 42 0.9382 3 0.99948666 0.0113 1 22 0.9163似然比检验表明第1对典型相关是高度显著的(0.00860.01);第2,3对典型相关是不显著的(概率0.9382,0.9

18、163远大于0.05)。 Canonical Correlation Analysis Multivariate Statistics and F Approximations S=3 M=-0.5 N=9 Statistic Value F Num DF Den DF Pr > FWilks Lambda 0.35670032 2.861 9 48.82535 0.0086 Pillais Trace 0.66637929 2.094 9 66 0.0424 Hotelling-Lawley Trace 1.73880346 3.6064 9 56 0.0013Roys Greates

19、t Root 1.70081079 12.4726 3 22 0.0001 NOTE: F Statistic for Roys Greatest Root is an upper bound.多种检验表明两组变量存在相关性。 Canonical Correlation Analysis Raw Canonical Coefficients for the VAR Variables V1 V2 ?V3 DEC -0.032779661 -0.568666035 -0.13313535 JAN 0.8339789573 0.2818830288 -0.212608817 FEB 0.08899

20、53418 -0.002884889 0.5230182828 Raw Canonical Coefficients for the WITH Variables W1 W2 W3 HIGH7 0.043598289 0.0116551032 -0.085060488 HIGH4 -0.024925353 0.1078948423 -0.007697455 HIGH8 0.0542083662 0.0477850548 0.0403880758上表给出原始变量典型相关变量的系数,第1对典型变量是v1=-0.032779661Dec+0.8339789578Jan+0.0889953418w1=

21、0.043598289high7-0.024925353high4+0.0542083662hign8第2对典型变量是v2=-0.568666035Dec+0.2818830288Jan-0.002884889 Febw2=0.0116551032high7+0.1078948423high7+0.0477850548high8第3对典型变量读者自己找一找。 Canonical Correlation Analysis Standardized Canonical Coefficients for the VAR Variables V1 V2 V3 DEC -0.0609 -1.0572 -

22、0.2475 JAN 0.9780 0.3306 -0.2493 FEB 0.1745 -0.0057 1.0256 Standardized Canonical Coefficients for the WITH Variables W1 W2 W3 HIGH7 0.4565 0.1220 -0.8907 HIGH4 -0.2443 1.0574 -0.0754HIGH8 0.7117 0.6274 0.5302上表给出标准化变量典型相关变量的系数,第1对典型变量是v1=-0.0609Dec+0.9780Jan+0.1754Febw1=0.4565hign7-0.2443huigh4+0.7

23、117high8第2,3对典型变量读者自己找一找。 Canonical StructureCorrelations Between the VAR Variables and Their Canonical Variables V1 V2 ? V3 DEC 0.3065 -0.9501 -0.0574 JAN 0.9857 -0.0175 -0.1678 FEB 0.3136 -0.2336 0.9204以上给出第1组变量与自己典型变量间的相关系数,即冗余分析的,Correlations Between the WITH Variables and Their Canonical Variab

24、les W1 W2 W3 HIGH7 0.5560 0.0693 -0.8283 HIGH4 -0.5701 0.8010 -0.1825HIGH8 0.8528 0.2304 0.4687以上给出第2组变量与自己典型变量间的相关系数,即冗余分析的, Canonical Structure Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables W1 W2 W3 DEC 0.2432 -0.1806 -0.0013 JAN 0.7822 -0.0033 -0.0038 FE

25、B 0.2488 -0.0444 0.0209 Canonical Structure Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables V1 V2 V3 HIGH7 0.4412 0.0132 -0.0188 HIGH4 -0.4524 0.1522 -0.0041HIGH8 0.6767 0.0438 0.0106以上是典型变量与对方变量间的相关系数。 Canonical Redundancy Analysis Raw Variance of the VAR Va

26、riables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion1 0.2350 0.2350 0.6297 0.1480 0.14802 0.3838 0.6188 0.0361 0.0139 0.16183 0.3812 1.0000 0.0005 0.0002 0.1620 Canonical Redundancy A

27、nalysis Raw Variance of the WITH Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical CumulativeProportion Proportion R-Squared Proportion Proportion1 0.5038 0.5038 0.6297 0.3173 0.31732 0.1886 0.6924 0.0361 0.0068 0.32413 0.3076 1.0000 0.0005 0.

28、0002 0.3242以上给出每组原始变量用它们自己的典型变量和用对方的典型变量解释的方差的累计比例。 Canonical Redundancy Analysis Standardized Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical CumulativeProportion Proportion R-Squared Proportion Proportion1 0.3879 0.3879

29、 0.6297 0.2443 0.24432 0.3192 0.7071 0.0361 0.0115 0.25583 0.2929 1.0000 0.0005 0.0002 0.2560以上给出第1组变量1,2,3个典型变量从标准化的第1组变量提取的比例分别是0.3879,0.3912,0.2929。而分别是0.2443,0.2558,0.2560。 Canonical Redundancy Analysis Standardized Variance of the WITH Variables Explained by Their Own The Opposite Canonical Var

30、iables Canonical Variables Cumulative Canonical CumulativeProportion Proportion R-Squared Proportion Proportion1 0.4538 0.4538 0.6297 0.2858 0.28582 0.2332 0.6870 0.0361 0.0084 0.29423 0.3130 1.0000 0.0005 0.0002 0.2944以上给出第2组变量1,2,3个典型变量从标准化的第2组变量提取的比例分别是0.4538,0.2332,0.3130。而分别是0.2858,0.2942,0.294

31、4。 Canonical Redundancy Analysis Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 3 DEC 0.0592 0.0918 0.0918 JAN 0.6118 0.6118 0.6118 FEB 0.0619 0.0639 0.0643以上给出第一组变量与第二组1,2,3个典型变量相关系数累计平方和,即0.0592=0.24322,0.0918=0.0592+(-0.1806

32、)2,0.0918=0.0918+(-0.0013)2 0.0619=0.24882,0.0639=0.0619+(-0.0419)2,0.0643=0.0639+0.02092。 Canonical Redundancy AnalysisSquared Multiple Correlations Between the WITH Variables and the First M Canonical Variables of the VAR Variables M 1 2 3 HIGH7 0.1947 0.1948 0.1952 HIGH4 0.2047 0.2279 0.2279 HIGH

33、8 0.4580 0.4599 0.4600以上给出第二组变量与第一组1,2,3个典型变量相关系数累计平方和,即0.1947=0.44122,0.1948=0.1947+0.01322,0.1952=0.1948+(-0.0188)2;0.4580=0.67672,0.4599=0.4580+0.04382,0.4600=4599+0.01062。 例8.2利用武汉市2005年五月份的每天的各监测站平均的SO2(so2)、NO2(no2)、PM10(pm10)监测值与每天早上八点钟的风力(wind)、气温(temp)、三小时降水(rain)作典型相关分析。数据见表8.2:表8.2Dateso2

34、no2pm10 wind temprain20050501 22.43 25.43 65.71123.0018.002005050245.5726.1494.71220.400.002005050370.1426.8679.43122.300.002005050447.1427.1476.86222.907.002005050542.2927.0069.00123.000.102005050634.5718.8653.71117.800.002005050746.1429.7163.14120.000.002005050827.8621.1460.43121.600.002005050945.

35、5724.43109.71121.900.002005051053.5727.0098.00124.200.002005051143.2928.4381.71224.100.002005051254.7134.8693.71225.200.002005051349.2925.0076.86023.800.702005051426.5722.4368.43220.700.002005051520.7123.5750.43220.000.002005051626.1429.2975.43122.0013.002005051718.2923.4363.14220.3018.002005051830.

36、2922.2953.14220.200.002005051933.0024.7153.00220.400.202005052046.1439.43116.86020.900.002005052124.1428.57113.57119.205.002005052226.1431.8694.29121.100.002005052342.7138.29134.86023.300.302005052445.0034.4392.14022.300.002005052548.2930.7185.14224.100.002005052652.8632.4386.00223.800.002005052752.

37、2942.86109.00024.300.002005052833.4341.86125.14125.300.002005052944.1427.71104.00224.300.002005053054.8637.8694.43227.600.002005053130.7128.4397.43125.900.00解 采用以下程序:data wuhan;input date so2no2pm10 windtemp rain;cards;2005050122.43 25.43 65.71 123.0018.002005050245.57 26.14 94.71 220.400.002005050370.14 26.86 79.43 122.300.002005050447.14 27

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论