《多元统计分析》(第6版)课件 第8章:典型相关分析理论与应用_第1页
《多元统计分析》(第6版)课件 第8章:典型相关分析理论与应用_第2页
《多元统计分析》(第6版)课件 第8章:典型相关分析理论与应用_第3页
《多元统计分析》(第6版)课件 第8章:典型相关分析理论与应用_第4页
《多元统计分析》(第6版)课件 第8章:典型相关分析理论与应用_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

典型相关分析理论与应用CONTENTS目录01典型相关分析概述02典型相关分析的统计思想03典型相关分析模型与求解04典型相关分析的步骤CONTENTS目录05实例分析:生理指标与运动指标关系06实例分析:城市经济发展与空气质量关系07典型相关分析的应用与拓展08总结与展望典型相关分析概述01核心研究对象典型相关分析是研究两组变量之间整体线性相关关系的多元分析方法,将每组变量作为一个整体进行研究,而非分析组内单个变量。基本思想借用主成分分析降维思想,分别对两组变量提取主成分,使从两组提取的主成分间相关程度达到最大,同一组内部提取的各主成分互不相关。衡量指标用从两组分别提取的主成分(典型相关变量)的简单相关系数(典型相关系数)来描述两组变量整体的线性相关关系。典型相关分析的定义典型相关分析的发展历程思想提出典型相关分析的思想首先由霍特林于1936年提出,为研究两组变量相关性提供了理论基础。发展契机计算机的发展解决了典型相关分析在应用中计算方面的困难,使其从理论走向实际应用。应用现状目前已成为普遍应用的两组变量之间相关性分析的技术,在多个领域得到广泛使用。2026/5/14学习目标理解思想理解典型相关分析研究两组变量整体线性相关关系的核心思想,包括其降维和提取典型相关变量的思路。了解理论方法了解典型相关分析的基本理论,如总体与样本典型相关、典型变量的性质等,以及具体的分析方法步骤。掌握实现与解释掌握利用SPSS或R语言实现典型相关分析的方法,并能正确理解和解释分析过程中产生的各种输出结果,如典型相关系数、典型载荷等。2026/5/14典型相关分析的统计思想02研究对象与要求

研究对象:两组变量整体线性相关关系典型相关分析将每组变量作为整体研究,而非关注组内单个变量间的关系,旨在揭示两组变量间的综合线性关联。

变量尺度要求:至少为间隔尺度两组变量需满足间隔尺度以上测量标准,以确保变量间线性关系的可分析性与结果的有效性。

变量地位:自变量与因变量或同等地位两组变量可存在自变量与因变量的对应关系,也可处于同等分析地位,适用范围广泛。2026/5/14典型相关变量与系数

典型相关变量:线性组合生成的综合变量通过对每组变量构建线性组合(如Ui=aᵢ¹X₁+...+aᵢₚXₚ,Vi=bᵢ¹Y₁+...+bᵢqYq),生成能代表原始变量主要信息的综合变量。

典型相关系数:衡量相关程度的指标典型相关变量间的简单相关系数称为典型相关系数,用于量化两组变量整体的相关强度,按绝对值大小排序。

典型相关变量特性:各对间互不相关不同对典型相关变量之间互不相关,保证每对变量反映两组变量间独立的相关关系,避免信息重叠。2026/5/14降维研究:简化两组变量相关关系通过少数几对典型相关变量代替原两组变量的研究,减少分析维度,更易抓住问题本质与核心关联。显著性检验:筛选有效典型相关变量对典型相关系数进行显著性检验,剔除不显著的典型相关变量,确保分析结果的可靠性与代表性。结合定性分析:深化实际问题解释依据典型相关变量的相关程度及原始变量系数大小,结合研究背景的定性分析,可对实际问题给出深刻的解释与结论。典型相关分析的作用典型相关分析模型与求解03总体典型相关和典型变量随机向量与协方差矩阵

设随机向量(x=(X_1,X_2,…,X_p)^T),(y=(Y_1,Y_2,…,Y_q)^T),协方差矩阵(Sigma=begin{pmatrix}Sigma_{11}&Sigma_{12}Sigma_{21}&Sigma_{22}end{pmatrix}),其中(Sigma_{11})、(Sigma_{22})为组内协方差阵,(Sigma_{12}=Sigma_{21}^T)为组间协方差阵,且(Sigma)正定时(Sigma_{12})、(Sigma_{21})正定。线性组合与目标函数

考虑线性组合(U=a^Tx),(V=b^Ty),在(var(U)=1)、(var(V)=1)约束下,目标是最大化(corr(U,V)=a^TSigma_{12}b),通过拉格朗日乘数法转化为求解极值问题。典型相关变量与系数推导

利用拉格朗日乘数法得到方程组(Sigma_{12}b=lambdaSigma_{11}a)、(Sigma_{21}a=lambdaSigma_{22}b),推导得出(lambda^2)是(Sigma_{11}^{-1}Sigma_{12}Sigma_{22}^{-1}Sigma_{21})的特征根,(a)、(b)为对应特征向量,(lambda)为典型相关系数,(U)、(V)为典型相关变量。2026/5/14典型变量的性质同一组典型变量互不相关且方差为1,即(cov(u_i,u_j)=0)((i≠j)),(var(u_i)=1);不同对典型变量(u_i)与(v_j)((i≠j))互不相关,同一对相关系数为(lambda_i),即(cov(u_i,v_i)=lambda_i),(cov(u_i,v_j)=0)((i≠j))。总体典型相关和典型变量样本典型相关和典型变量

总体协方差阵的估计实际中总体协方差阵(Sigma)未知,设样本((x_i,y_i)(i=1,2,…,n))来自正态总体,极大似然估计(hat{Sigma}=frac{1}{n}A),其中(A)为样本离差阵,当(n>p+q)时(hat{Sigma})以概率1正定。

样本典型相关系数与变量用(hat{Sigma})替代(Sigma),计算(hat{Sigma}_{11}^{-1}hat{Sigma}_{12}hat{Sigma}_{22}^{-1}hat{Sigma}_{21})的非零特征根(hat{lambda}_1^2geqhat{lambda}_2^2geq…geqhat{lambda}_k^2)((k=min(rank(hat{Sigma}_{11}),rank(hat{Sigma}_{22})))),(hat{lambda}_i)为样本典型相关系数,对应特征向量(hat{a}_i)、(hat{b}_i)构成样本典型变量(hat{u}_i=hat{a}_i^Tx)、(hat{v}_i=hat{b}_i^Ty)。

典型变量得分及应用将样本数据代入典型变量表达式得到得分,可绘制散点图用于样品分类研究,如通过典型变量得分分布特征对观测对象进行分组分析。2026/5/14典型相关系数的显著性检验检验原理与原假设若两组变量独立,则(Sigma_{12}=0),典型相关系数(lambda_i=0)。检验第(j)个及后续典型相关系数是否为0,原假设(H_0:lambda_j=lambda_{j+1}=…=lambda_k=0),备择假设(H_1):至少(lambda_j≠0)。巴特莱特X²检验统计量计算统计量(Q_j=-(n-1-frac{p+q+1}{2})ln(prod_{i=j}^k(1-hat{lambda}_i^2))),其中(n)为样本量,(p)、(q)为两组变量个数。(Q_j)近似服从自由度(df=(p-j+1)(q-j+1))的(chi^2)分布。检验步骤与判断标准1.对第一对典型相关系数检验:(j=1),(df=pq),若(Q_1>chi_{alpha}^2(pq)),拒绝(H_0);2.若前(j-1)个显著,检验第(j)个:(df=(p-j+1)(q-j+1)),若(Q_j>chi_{alpha}^2(df)),拒绝(H_0),否则停止检验。2026/5/14典型相关分析的步骤04判断变量组独立性或关系强弱明确两组变量是相互独立,还是存在关联及关联程度,为后续分析提供基础方向。推导最优权重生成典型变量为每组变量推导权重,使生成的线性组合(典型变量)间相关程度最大,且后续组合与前面组合独立。解释变量对典型函数的贡献通过分析每个变量在典型函数中的相对贡献,揭示自变量组与因变量组间的内在联系。确定分析目标设计分析方案

满足多元分析共同要求需考虑测量误差影响、变量类型适配性及必要的数据变换,与多元回归、判别分析等方法要求类似。

确保充足样本量为避免数据“过度拟合”,建议每个变量至少对应10个观测,小样本可能掩盖有意义的相关关系。

合理选择变量组构成研究者需谨慎确定自变量组和因变量组的变量数量,避免因变量过多而忽视样本量的实际含义。2026/5/14检验基本假定线性假定的两方面影响一是变量间相关系数基于线性关系,非线性关系需对变量进行变换;二是典型相关衡量变量间线性关系,非线性关系可能无法被捕捉。正态性假定的要求与处理虽不严格要求所有变量正态分布,但变量分布(如高度偏态)不应削弱与其他变量的相关性,建议检验单变量正态性,必要时进行变换。多元正态性的统计检验典型函数的多元正态性检验有必要,若多元检验不可行,流行准则是保证每个单变量的正态性以满足分析条件。2026/5/14推导典型函数与评价拟合

典型函数的推导过程类似无旋转因子分析,先提取第一对最大相关典型变量,后续变量基于剩余残差提取,且各对典型变量正交独立,最大提取数为最小变量组的变量数。

典型根与共同方差典型相关系数的平方称为典型根(特征根),表示一个典型变量通过另一个典型变量解释的方差,即两者间的共同方差。

冗余指数的概念与计算冗余指数是一组变量方差被另一组变量方差解释的比例,通过三步计算:共同方差比例、解释方差比例(典型相关系数平方)、两者乘积,克服典型根的潜在偏误。2026/5/14解释典型变量

典型权重(标准化系数)反映原始变量对典型变量的贡献大小和方向,但受变量间相关性影响,解释时需谨慎,不能单独作为变量重要性的依据。

典型载荷(结构系数)是原始变量与典型变量的简单线性相关系数,类似因子载荷,能反映原始变量与典型变量的共同方差,是解释典型函数的基础。

典型交叉载荷使原始因变量与自变量典型变量直接相关,提供更直接测量因变量组与自变量组关系的指标,作为典型载荷的有效替代。2026/5/14验证模型

子样本分析比较在样本量允许时构造两个子样本,分别进行分析,比较典型函数相似性、典型载荷等,确保结果代表总体而非单个样本。

变量剔除灵敏度测量通过测量剔除一个因变量或自变量后结果的变化,评估典型权重和典型载荷的稳定性,验证模型的可靠性。

典型相关分析的局限性包括反映变量组线性组合共享方差而非提取方差、典型权重不稳定性、解释困难、难以识别变量子集间有意义关系等,需在应用中注意。2026/5/14实例分析:生理指标与运动指标关系05样本信息研究对象为20名中年男性,测量3项生理指标与3项运动指标,数据来源于《多元统计分析(第6版)》例8-1。生理指标变量包括体重(kg)、腰围(cm)、脉搏(次/分钟),反映身体基本生理状态。运动指标变量包括引体向上(次)、仰卧起坐(次)、跳跃次数(次),衡量运动能力与身体素质。数据样例如序号1:体重191kg、腰围36cm、脉搏50次/分钟;引体向上5次、仰卧起坐162次、跳跃次数60次。数据介绍R语言实现步骤

01数据读取与变量分组使用read.csv函数读取“例8_1.csv”数据,将前3列设为生理指标(PHY),后3列设为运动指标(EXER)。

02安装与加载CCA包通过install.packages("CCA")安装典型相关分析包,用library(CCA)加载包以调用分析函数。

03相关矩阵计算调用matCor(PHY,EXER)函数,输出两组变量的自相关矩阵及交叉相关矩阵,初步观察变量关系。

04典型相关分析与结果输出使用cc(PHY,EXER)执行分析,通过CC1[1]输出典型相关系数,CC1[3:4]输出原始典型系数,CC1[5]输出得分及载荷矩阵。

05标准化系数与显著性检验计算并输出标准化典型系数(典型权重),编写代码进行巴特莱特X²检验,判断典型相关系数的显著性。2026/5/14结果分析01原始变量相关阵解读体重与腰围正相关(0.870),腰围与引体向上、仰卧起坐负相关(-0.552、-0.646),表明肥胖可能降低运动能力。02典型相关系数与显著性第一典型相关系数为0.796(P=0.062),在0.1水平显著;第二、三系数分别为0.201、0.073,均不显著,故主要关注第一对典型变量。03典型变量表达式生理第一典型变量U1=0.0314体重-0.4932腰围+0.0082脉搏,运动第一典型变量V1=0.0661引体向上+0.0168仰卧起坐-0.0140跳跃次数。04典型载荷与交叉载荷分析生理U1与腰围负相关(-0.925),反映肥胖程度;运动V1与仰卧起坐、引体向上正相关(0.818、0.728),反映运动能力。交叉载荷显示腰围与V1负相关,表明腰围越大运动能力越差。05结论生理指标中的腰围是影响运动能力的关键因素,肥胖(腰围大)与引体向上、仰卧起坐能力呈显著负相关,运动对体形有重要影响。2026/5/14实例分析:城市经济发展与空气质量关系06数据介绍经济发展水平指标包含6项指标:地区生产总值(X1)、第二产业增加值(X2)、第三产业增加值(X3)、住户存款余额(X4)、社会消费品零售总额(X5)、医院数(X6),数据来源于2023年《中国统计年鉴》。空气质量指标包含7项指标:细颗粒物(PM2.5)年平均浓度(Y1)、可吸入颗粒物(PM10)年平均浓度(Y2)、二氧化硫年平均浓度(Y3)、一氧化碳日均值第95百分位浓度(Y4)、二氧化氮年平均浓度(Y5)、臭氧(O3)日最大8小时第90百分位浓度(Y6)、空气质量达到或好于二级的天数(Y7)。数据覆盖范围选取我国31个城市2022年的相关数据,涵盖北京、上海、广州等直辖市及省会城市,具有广泛的区域代表性。2026/5/14SPSS操作步骤

数据准备将经济发展水平指标(X1-X6)和空气质量指标(Y1-Y7)数据合并,确保数据格式正确,无缺失值。

菜单选择依次点选“Analyze”→“Correlate”→“CanonicalCorrelation”,打开典型相关分析对话框。

变量设置将X1-X6选入“Set1”下方的框中,将Y1-Y7选入“Set2”下方的框中。

选项配置点击“Options”,在“Display”下勾选“Pairwisecorrelations”“Loading”“Varianceproportions”“Coefficients”,点击“Continue”返回主界面,再点击“OK”运行分析。2026/5/14结果分析

相关系数矩阵经济发展水平各指标间相关性极显著;空气质量指标中Y3(二氧化硫)与部分指标相关性不显著,其余指标间多呈极显著相关,适合进行典型相关分析。

典型相关系数第一对典型变量相关系数为0.8314,在0.1334的显著性水平下显著;第二对相关系数为0.7127,后续典型相关系数逐渐减小,表明第一对典型变量解释了主要相关关系。

典型系数与载荷阵标准化典型系数显示经济发展水平第一典型变量(U1)与X1、X2、X3等呈负相关,反映总体经济水平;空气质量第一典型变量(V1)与各污染物指标相关性符号不同,需结合载荷阵分析。典型载荷阵和交叉载荷阵表明经济发展水平高的城市NO2、O3、PM2.5含量较高,PM10、SO2、CO含量及优良天数较低。2026/5/14经济与空气质量关系结论城市经济发展水平与空气质量存在一定相关关系,经济水平高的城市因汽车尾气、工业规模等因素,NO2、O3、PM2.5等污染物含量较高;经济水平较低的城市因燃煤、自然环境等因素,PM10、SO2、CO等污染物含量较高。结果分析典型相关分析的应用与拓展07应用领域

经济领域:经济发展与空气质量关系研究选取我国31个城市的经济发展水平指标(如地区生产总值、第二产业增加值等)与空气质量指标(如PM2.5浓度、空气质量达标天数等),通过典型相关分析揭示两者间的相关关系,发现经济发展水平较高的城市在部分污染物含量上呈现特定规律。

医学领域:生理指标与运动能力关系研究对20名中年男性的生理指标(体重、腰围、脉搏)和运动指标(引体向上、仰卧起坐、跳跃次数)进行典型相关分析,结果显示第一典型变量主要反映体形肥胖程度与运动能力,腰围大的人体形较胖,运动能力较差。

社会科学领域:多变量组间关系探讨可用于研究教育投入指标(如教育经费、教师数量)与学生成绩指标(如平均分、及格率)等不同变量组之间的整体线性相关关系,帮助分析教育资源配置对学生成绩的综合影响。2026/5/14软件实现对比R语言:功能齐全且灵活R语言可自行编写程序,能实现典型相关分析的各项功能,如计算典型相关系数、典型载荷、进行显著性检验等,适合有编程基础的用户,能满足个性化分析需求。SPSS:操作简便易上手通过菜单操作即可完成典型相关分析,无需编程,能输出相关系数矩阵、典型载荷、交叉载荷等结果,适合非专业编程人员快速进行分析,但灵活性相对较低。SAS:输出结果全面SAS软件在典型相关分析中输出的结果较为全面,包含多种统计量和检验结果,但操作相对复杂,需要一定的学习成本,在专业统计分析领域应用广泛。2026/5/14冗余指数的计算步骤第一步计算共同方差的比例,通过平方每个因变量的典型载荷并简单平均得到;第二步计算解释的方差比例,即自变量典型变量与因变量典型变量间相关系数的平方;第三步将共同方差比例乘以典型相关系数平方得到冗余指数。冗余指数的意义冗余指数用于衡量一组变量的方差能被另一组变量的方差解释的比例,它像多元回归的R²统计量,为评估两组变量间的解释能力提供了综合测量指标,有助于更全面地理解典型相关分析结果。鼓励读者尝试实现冗余指数的计算在R语言中容易实现,读者可基于典型相关分析的结果,按照上述步骤编写代码进行计算,以深入探究变量组间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论