SAS讲义 第三十七课典型相关分析.doc_第1页
已阅读1页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

b718deff35f254788bdea8596d70050b.pdf 商务数据分析 电子商务系列第三十七课 典型相关分析典型相关分析(Canonical Correlation Analysis)是研究两组变量间相关关系的一种多元统计分析方法。它能够揭示两组变量之间的内在联系,真正反映两组变量间的线性相关情况。一、 典型相关分析我们研究过两个随机变量间的相关,它们可以用相关系数表示。然而,在实际问题中常常会遇到要研究两组随机变量间和的相关关系。和可能是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映和之间的相关关系。因此就要找出的一个线性组合及的一个线性组合,希望找到的和之间有最大可能的相关系数,以充分反映两组变量间的关系。这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。如果一对变量(,)还不能完全刻划两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(,)不相关的情况下也具有尽可能大的相关系数。直到进行到找不到相关变量对时为止。这便引导出典型相关变量的概念。1. 典型相关系数与典型相关变量设有两组随机变量和,假定它们都已经标准化了,即,若记此时它们的协方差矩阵(也是相关系数矩阵)为, 其中实际上,我们要找使和的相关系数达到最大。由于对任意常数,有 (其中,),因而不妨假定(37.1)(37.2)此时。在与条件下,使达到最大的与分别与和组成的新变量(37.3)称为第一对典型变量,其相关系数称为第一典型相关系数。若用一对变量还不足以完全反映两组变量的相关时,可以定义第二对典型变量,这时除要求, 外,还要求,和,在这些条件下使达到最大。一般地,第对典型变量定义如下: 称为第对典型变量,其系数向量与使达到最大,并且满足如下条件:(37.4),此时称为第对典型相关系数。2. 求法我们采用Lagrage乘子法,从开始逐一求 、。下面仅以 、的求法作一简述,以下假定是正定矩阵。记(37.5)其中、为Lagrage乘子,用、 表示仅仅为了下面计算式的简单而已。将对 、分别求偏导,并令其为0,再与约束条件联立,则 、应满足以下方程组:(37.6)在式(6.3.6)的前二式两边左乘和,并利用式(37.6)的后二式有,(37.7)由于,故有。再由(37.6)及的非奇异性知(37.8)将其代入(37.6),则(37.9)再由的非奇异性知(37.10)记,(6.3.10)表明 是的特征根,是其对应的特征向量。又由式(37.7)知 是与 的相关系数,要求其达到最大, 一定是的最大特征根,是最大特征根对应的特征向量;进而可由(37.8)求出。第一典型相关系数是的最大特征根的算术根。其实也可证明是的最大特征根对应的特征向量。由于M1 与M2 有相同的非零特征根,因此此时求出的和直接从(37.8)求出的是一致的。用同样方法可知是M1的第二大的特征根对应的特征向量,可通过下式求出:(37.11)一般讲可求出M1 的 个非零特征根,M1对应于这些特征根的特征向量分别记为、,进而(37.12)j = 1,2, ,r,以 、为系数可组成第对典型变量,。第对典型变量对应的相关系数是的算术根,这便是第个典型相关系数,j = 1,2, ,r,这里r min(p ,q) 。实际应用中,通常是未知的,已知的只是的个样品:,。我们只能从样本去其估计、和。然后用相应的估计量代替中相应的未知参数矩阵,因此要考虑矩阵的非零特征根及相应的特征向量,有关的计算可按以前讨论的进行。二、 应注意的几个问题l 典型相关是研究两组变量之间相关性的一种统计分析方法。与主成分分析一样,它也是一种降维技术。多重相关是典型相关的一个特例,简单相关是多重相关的一个特例。l 第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减,各对典型相关所含的信息互不重复。l 经标准化的两组变量间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的。l 典型变量的最大对数等于两组变量中较少一组的变量个数。l 每个典型变量除在另一组里与其配对的那个典型变量外,它同所有其他典型变量变量均不相关。l 第一对典型相关的大小至少同任一变量与对应的那组变量间的多重相关一样大。l 至于选取多少对典型相关可通过检验来确定。三、 Cancorr典型相关分析过程描述两组变量之间的相关性,可用典型相关过程cancorr完成。简单相关和多重相关都是典型相关的特殊情况,此时两组变量中有一组或两组只含一个变量。对于两组变量,如果一组变量用x表示,另一组变量用y表示,那么典型相关分析就是找出()个变量的线性组合值与()个变量的线性组合值,使两者之间的相关达到最大。cancorr过程一般由下列语句控制:proc cancorr data=数据集 ;var 变量列表 ;with 变量 ;partial 变量列表 ;freq 变量 ;weight 变量 ;by 变量列表;run ;通常只有var与with语句经常同proc cancorr语句一起使用。且with语句是必须的。其余语句是可选择的语句。1. proc cancorr语句的。可以分成以下几类:1) 有关输出数据集选项.。l out=输出数据集存储所有的原始数据和典型相关变量得分。l outstat=输出数据集存储典型相关系数等统计数。2) 有关结果输出选项。l all所有输出项。l noprint不输出分析结果。l short只输出典型相关系数和多元分析统计数。l simple简单统计数。l corr相关系数。l vname=变量名为var语句的变量定义名称。l vprefix=前缀名为var语句的典型变量定义前缀。l wname=变量名为with语句的变量定义名称。l wprefix=前缀名为with语句的典型变量定义前缀。3) 有关多元回归选项。l noint模型中不包含回归截距。l b输出由回归分析得到的原始偏回归系数。l stb输出由回归分析得到的标准偏回归系数。l smc输出多重相关系数平方。l t对回归系数进行检验。2. 其他语句类似corr过程。四、 实例分析例37.1 某康复俱乐部对20名中年人测量了三项生理指标:体重(weight )、腰围(waist )、脉搏(pulse )和三项训练指标:引体向上(chins )、起坐次数(situps )、跳跃次数(jumps )。其数据列于表37.1。试分析这两组变量间的相关性。表37.1 某康复俱乐部测量的生理指标和训练指标Obsweight waist pulse chins situps jumps 11913650516260218937522110603193385812101101416235621210537518935461315558618236564101427211385681013881673460612540917631741520040101543356172512501116934501712038121663352132101151315434641421510514247465015050151933646670311620237621221012017176375446025181573252112308019156335415225732013833682110431. 建立输入数据集,程序如下: data fit ;input weight waist pulse chins situps jumps;cards; 191 36 50 5 162 60 189 37 52 2 110 60 138 33 68 2 110 43;run;数据步创建了康复俱乐部测试数据的SAS数据集,名为fit,它有20个观察,6个变量。2. 调用典型相关分析cancorr过程。菜单操作方法为,选择Globals/SAS/Assist/Data analysis/multivariate/canonical correlation analysis(典型相关分析)菜单命令。编程方法如下:proc cancorr data=fit all vprefix=PHYS vname=PhysiologicalMeasurements wprefix=EXER wname=Exercises;var weight waist pulse;with chins situps jumps;run; 程序说明:cancorr过程用于对输入数据集fit做典型相关分析。选项all要求输出所有选择的计算结果。vprefix=定义了来自var语句的变量名的前缀为PHYS,即第一组变量的统一前缀名称为PHYS。vname=定义了来自var语句中第一组变量的标签名为PhysiologicalMeasurements。wprefix=和wname=对with语句中第二组变量名规定前缀为EXER和标签为Exercises。var语句列出了第一组变量的名称,with语句列出了第二组变量的名称。程序运行后,主要的结果见表37.2、37.3、37.4和37.5所示。表37.2 均值、标准差和相关系数Means and Standard Deviations3 Physiological Measurements3 Exercises20 ObservationsVariable Mean Std DevWEIGHT 178.600000 24.690505WAIST 35.400000 3.201973PULSE 56.100000 7.210373CHINS 9.450000 5.286278SITUPS 145.550000 62.566575JUMPS 70.300000 51.277470Correlations Among the Original VariablesCorrelations Among the Physiological Measurements WEIGHT WAIST PULSEWEIGHT 1.0000 0.8702 -0.3658WAIST 0.8702 1.0000 -0.3529PULSE -0.3658 -0.3529 1.0000Correlations Among the Exercises CHINS SITUPS JUMPSCHINS 1.0000 0.6957 0.4958SITUPS 0.6957 1.0000 0.6692JUMPS 0.4958 0.6692 1.0000Correlations Between the Physiological Measurements and the Exercises CHINS SITUPS JUMPSWEIGHT -0.3897 -0.4931 -0.2263WAIST -0.5522 -0.6456 -0.1915PULSE 0.1506 0.2250 0.0349表37.3 典型相关分析的一般结果Canonical Correlation Analysis Adjusted Approx Squared Canonical Canonical Standard Canonical Correlation Correlation Error Correlation1 0.795608 0.754056 0.084197 0.6329922 0.200556 -.076399 0.220188 0.0402233 0.072570 . 0.228208 0.005266Eigenvalues of INV(E)*H= CanRsq/(1-CanRsq) Eigenvalue Difference Proportion Cumulative1 1.7247 1.6828 0.9734 0.97342 0.0419 0.0366 0.0237 0.99703 0.0053 . 0.0030 1.0000Test of H0: The canonical correlations in thecurrent row and all that follow are zeroLikelihood Ratio Approx F Num DF Den DF Pr F1 0.35039053 2.0482 9 34.22293 0.06352 0.95472266 0.1758 4 30 0.94913 0.99473355 0.0847 1 16 0.7748Multivariate Statistics and F ApproximationsS=3 M=-0.5 N=6Statistic Value F Num DF Den DF Pr FWilks Lambda 0.35039053 2.0482 9 34.22293 0.0635Pillais Trace 0.67848151 1.5587 9 48 0.1551Hotelling-Lawley Trace 1.77194146 2.4938 9 38 0.0238Roys Greatest Root 1.72473874 9.1986 3 16 0.0009NOTE: F Statistic for Roys Greatest Root is an upper bound.表37.4 典型变量的系数和典型结构Canonical Correlation Analysis Raw Canonical Coefficients for the Physiological Measurements PHYS1 PHYS2 PHYS3 WEIGHT -0.031404688 -0.076319506 -0.007735047 WAIST 0.4932416756 0.3687229894 0.1580336471 PULSE -0.008199315 -0.032051994 0.1457322421Raw Canonical Coefficients for the Exercises EXER1 EXER2 EXER3 CHINS -0.066113986 -0.071041211 -0.245275347 SITUPS -0.016846231 0.0019737454 0.0197676373 JUMPS 0.0139715689 0.0207141063 -0.008167472 Standardized Canonical Coefficients for the Physiological Measurements PHYS1 PHYS2 PHYS3 WEIGHT -0.7754 -1.8844 -0.1910 WAIST 1.5793 1.1806 0.5060 PULSE -0.0591 -0.2311 1.0508Standardized Canonical Coefficients for the Exercises EXER1 EXER2 EXER3 CHINS -0.3495 -0.3755 -1.2966 SITUPS -1.0540 0.1235 1.2368 JUMPS 0.7164 1.0622 -0.4188Canonical StructureCorrelations Between the Physiological Measurementsand Their Canonical Variables PHYS1 PHYS2 PHYS3WEIGHT 0.6206 -0.7724 -0.1350WAIST 0.9254 -0.3777 -0.0310PULSE -0.3328 0.0415 0.9421Correlations Between the Exercises and Their Canonical Variables EXER1 EXER2 EXER3CHINS -0.7276 0.2370 -0.6438SITUPS -0.8177 0.5730 0.0544JUMPS -0.1622 0.9586 -0.2339Correlations Between the Physiological Measurementsand the Canonical Variables of the ExercisesEXER1 EXER2 EXER3WEIGHT 0.4938 -0.1549 -0.0098WAIST 0.7363 -0.0757 -0.0022PULSE -0.2648 0.0083 0.0684Correlations Between the Exercises and the CanonicalVariables of the Physiological Measurements PHYS1 PHYS2 PHYS3CHINS -0.5789 0.0475 -0.0467SITUPS -0.6506 0.1149 0.0040JUMPS -0.1290 0.1923 -0.0170表37.5 典型冗余分析结果Canonical Redundancy AnalysisRaw Variance of the Physiological MeasurementsExplained byTheir Own The OppositeCanonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion1 0.3712 0.3712 0.6330 0.2349 0.23492 0.5436 0.9148 0.0402 0.0219 0.25683 0.0852 1.0000 0.0053 0.0004 0.2573Raw Variance of the ExercisesExplained byTheir Own The OppositeCanonical Variables Canonical Variables Cumulative Canonical CumulativeProportion Proportion R-Squared Proportion Proportion1 0.4111 0.4111 0.6330 0.2602 0.26022 0.5635 0.9746 0.0402 0.0227 0.28293 0.0254 1.0000 0.0053 0.0001 0.2830Standardized Variance of the Physiological Measurements Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion 1 0.4508 0.4508 0.6330 0.2854 0.2854 2 0.2470 0.6978 0.0402 0.0099 0.2953 3 0.3022 1.0000 0.0053 0.0016 0.2969 Standardized Variance of the Exercises Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion 1 0.4081 0.4081 0.6330 0.2584 0.2584 2 0.4345 0.8426 0.0402 0.0175 0.2758 3 0.1574 1.0000 0.0053 0.0008 0.2767 Squared Multiple Correlations Between the Physiological Measurements and the First M Canonical Variables of the Exercises M 1 2 3 WEIGHT 0.2438 0.2678 0.2679 WAIST 0.5421 0.5478 0.5478 PULSE 0.0701 0.0702 0.0749 Squared Multiple Correlations Between the Exercises and the First M Canonical Variables of the Physiological Measurements M 1 2 3 CHINS 0.3351 0.3374 0.3396 SITUPS 0.4233 0.4365 0.4365 JUMPS 0.0167 0.0536 0.05393. 主要结果分析。见输出结果表37.2中,列出了全部变量的均值和方差;列出了三个生理指标之间、三个训练指标之间及生理指标和训练指标之间的相关系数。生理指标和训练指标之间的相关系数是中等的,其中waist和situps的相关系数最大为-0.6456。组内较大的相关是weight和waist的相关系数为0.8702,chins和situps的相关系数为0.6957,situps和jumps的相关系数为0.6692。见输出结果表37.3中,第一对典型变量(u,v)之间的典型相关系数为0.795608,它应该比生理指标和训练指标两组间的任一个相关系数都大才正确。校正值为0.754056,标准误差为0.084197,典型相关系数的平方(CanRsq)为0.632992。矩阵的特征值等于CanRsq/(1CanRsq),相对应的三个特征值,依此为1.7247=0.632992/(10.632992),0.0419=0.040223/(10.040223)和0.0053=0.005266/(10.005266)。用似然比法检验典型相关系数与零的差别是否显著,其零假设为小于此对典型变量的典型相关系数的所有典型相关系数都为0,其值依次为0.0635,0.9491和0.7748,在显著水平取为0.1时,0.06350.1,说明第一对典型相关系数具有显著意义。与用Wilks统计量进行多元分析的结果是等价的(值和值都相等),测验结果为(Lambda)=0.35039053,近似统计量2.0482, Num DF(分子自由度)=9,Den DF(分母自由度)=34.22293,0.0635。其余典型相关系数明显不显著。另外,从第二个修正典型相关系数为-.076399,也可以得出以上只取一对典型相关系数的结论。见输出结果表37.4中,用原指标来线性表达第一对典型变量的系数,即:PHYS1=0.031404688weight0.4932416756waist0.008199315pulseEXER1=0.066113986chins0.016846231situps0.0139715689jumps由于变量的单位不一致,应考虑标准化的典型系数。用标准化指标来线性表达第一对典型变量的系数,即:PHYS1= 0.7754weight 1.5793 waist0.0591pulseEXER1= 0.3495chins1.0540situps0.7164jumps来自生理指标的第一典型变量主要为waist(1.5793)和weight(-0.7754)的加权差,在waist上的权数更大些,在pulse 上的系数近似为0。来自训练指标的第一典型变量在situps上的系数最大。在给出的典型结构中,即原始变量与典型变量之间的相关系数表中,waist和weight与第一典型变量PHYS1的相关系数皆为正值,分别为0.9254和0.6206。因而wight为一抑制变量,因为它在典型变量PHYS1上的系数符号(-0.7754,负号)与它跟典型变量PHYS1的相关系数符号(0.6206,正号)相反。来自训练指标的第一典型变量在jumps系数(0.7164)上为正号、在situps系数(-1.0540)上为负号、在chins系数(-0.3495)上为负号。而所有变量与第一典型变量EXER1的相关系数皆为负值(-0.7276,-0.8177和-0.1622),只有变量jumps的系数符号与相关符号相反,表明jumps亦为一抑制变量。所谓的抑制变量是指它的增加或减少会引起目标变量间的相关系数的绝对值的减少或增加,即相关性减弱或变强。一个变量成为抑制变量是因为它同典型变量的相关系数符号与系数符号相反。为了理解这是为什么,我们以抑制变量体重(wight)为例来说明情况。一般来说,瘦的人比胖的人起坐次数(situps)多,而来自训练指标的典型变量EXER1主要与起坐次数(situps)相关。来自生理指标的典型变量PHYS1主要由体重(wight)和腰围(waist)的加权差构成,而体重和腰围之间有很强的正相关性(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论