《多元统计分析》(第6版)课件 第7、8章:对应分析理论与实践应用、典型相关分析理论与应用_第1页
《多元统计分析》(第6版)课件 第7、8章:对应分析理论与实践应用、典型相关分析理论与应用_第2页
《多元统计分析》(第6版)课件 第7、8章:对应分析理论与实践应用、典型相关分析理论与应用_第3页
《多元统计分析》(第6版)课件 第7、8章:对应分析理论与实践应用、典型相关分析理论与应用_第4页
《多元统计分析》(第6版)课件 第7、8章:对应分析理论与实践应用、典型相关分析理论与应用_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对应分析理论与实践应用CONTENTS目录01对应分析概述02列联表及列联表分析03对应分析的基本理论04对应分析的方法步骤CONTENTS目录05SPSS软件进行对应分析操作06对应分析案例分析07对应分析的应用价值与总结对应分析概述01对应分析的学习目标

理解列联表分析及对应分析的基本思想明确列联表用于描述属性变量状态及关系的作用,掌握对应分析通过降维同时处理行与列数据、揭示变量间关系的核心思路。了解对应分析的基本理论知晓对应分析中涉及的行剖面、列剖面、距离、总惯量等关键概念,理解R型与Q型因子分析的对等关系及原理。掌握对应分析的方法熟悉从列联表数据规格化、计算Z矩阵,到进行因子分析、提取公共因子并在低维图形呈现结果的完整分析流程。能用SPSS软件进行对应分析并正确理解输出结果能够运用SPSS的对应分析模块处理数据,对输出的列联表、总惯量、因子载荷、二维投影图等结果进行合理解释与分析。2026/5/16R型与Q型因子分析的结合对应分析整合了R型因子分析(研究变量间关系)和Q型因子分析(研究样品间关系),弥补单独分析的局限,实现对变量和样品的同时研究。降维思想的应用借助降维手段,将高维数据结构简化,把属性变量不同取值以二维图上的点表示,直观呈现行与列及各状态间的相互关系。行与列的同时处理区别于因子分析仅对行或列单独处理,对应分析同时对数据表的行与列进行分析,以低维图形形式清晰展示两者间的关联。对应分析的基本思想对应分析的发展历程

思想的提出1933年,理查森(Richardson)和库德(Kuder)首次提出对应分析的基本思想,为该方法的发展奠定了基础。

方法的详细论述与发展法国统计学家让·保罗·贝内泽(Jean-paulBenzécri)和日本统计学家林知己夫(Hayashichikio)对对应分析方法进行了深入且详细的论述,推动其进一步发展和完善。2026/5/16列联表及列联表分析02列联表的概念与形式列联表的定义列联表是描述属性变量(定类或定序尺度)各种状态或相关关系的表格形式,通过横栏与纵列交叉位置的频数呈现数据。两变量列联表示例以公司消费者满意度调查为例,横栏为不同职业(如一般工人、管理者等),纵列为评价等级(非常满意、比较满意等),交叉单元格为相应频数,底部和右侧为汇总行/列。经济研究中的列联表应用在企业研究中,可将横栏设为企业规模,纵列设为获利能力水平,通过列联表分析两者关系;也可按上市/非上市、行业等分类,研究盈利能力、偿债能力等指标。2026/5/16列联表的作用与信息提取基础信息获取从列联表可直接获取不同类别下的频数分布,如各职业消费者对产品的评价频数、所有被调查者的整体评价及职业构成情况。类别间相关关系判断通过比较交叉单元格频数(需抵消不同类别在总样本中的比例影响),判断类别相关性。例如,若管理者与“比较满意”交叉单元格频数相对较大,说明两者有较强相关性。综合指标分析支持列联表可容纳简单或综合指标,如将因子分析提取的公共因子按取值范围分类后,研究其与其他属性变量的关系,为多维度分析提供基础。2026/5/16频率列联表的构建将原始列联表中每个元素除以总频数T,得到频率意义上的列联表,其中每个单元格元素pij表示特性A第i状态与特性B第j状态同时出现的概率。边缘概率与符号定义记PⅠ=(p1·,p2·,…,pn·)为行边缘概率向量,PJ=(p·1,p·2,…,p·m)为列边缘概率向量,且满足PⅠ1=1、PJ1=1(1为全1向量),表格右下角合计为1。概率意义的应用频率列联表中,pij具有概率含义,可用于研究属性变量独立性:若A与B独立,则对任意i、j有pij=pi·×p·j,为后续对应分析等方法提供数据基础。频率意义上的列联表对应分析的基本理论03行剖面与列剖面

行剖面的定义当属性变量A的取值固定为i(i=1,2,…,n)时,变量B各个状态相对出现的概率情况,即矩阵P第i行元素除以行边缘概率pi·,坐标为(p_i1/p_i·,p_i2/p_i·,…,p_iq/p_i·),表示条件概率P(B=j|A=i),且各分量之和为1。

列剖面的定义当属性变量B的取值固定为j(j=1,2,…,q)时,变量A各个状态相对出现的概率情况,即矩阵P第j列元素除以列边缘概率p·j,坐标为(p_1j/p·j,p_2j/p·j,…,p_nj/p·j),表示条件概率P(A=i|B=j),且各分量之和为1。

欧氏空间表示行剖面集合是n个点在q维欧氏空间超平面x₁+x₂+…+x_q=1上的分布;列剖面集合是q个点在n维欧氏空间超平面x₁+x₂+…+x_n=1上的分布,对应分析通过降维将两类点同时呈现在二维图中。2026/5/16距离与总惯量加权距离公式

为消除变量B各状态边缘概率影响,行剖面k与l的加权距离公式为:d(k,l)=√[Σ(p_kj/p_k·-p_lj/p_l·)²/p·j],同理列剖面s与t的加权距离为:d(s,t)=√[Σ(p_is/p·s-p_it/p·t)²/p_i·]。行剖面总惯量

行剖面集合各点与其重心(坐标为√p·j)的加权欧氏距离之和,公式为I_r=Σp_i·Σ[(p_ij/p_i·-p·j)²/p·j],反映行剖面间的总差异,与χ²统计量关系为χ²=T·I_r(T为总频数)。列剖面总惯量

列剖面集合各点与其重心(坐标为√p_i·)的加权欧氏距离之和,公式为I_c=Σp·jΣ[(p_ij/p·j-p_i·)²/p_i·],且行剖面总惯量等于列剖面总惯量(I_r=I_c),均反映属性变量间的相关关系。2026/5/16R型与Q型因子分析的对等关系

协方差矩阵关系对行剖面数据做变换Z_ij=(p_ij-p_i·p·j)/√(p_i·p·j),则R型因子分析协方差矩阵Σ_r=Z^TZ,Q型因子分析协方差矩阵Σ_c=ZZ^T,二者存在对等关系。

非零特征根相同矩阵Σ_r与Σ_c具有完全相同的非零特征根λ₁≥λ₂≥…≥λ_r,这些特征根表示各公共因子解释的总惯量份额,且最大维数为min(n,q)-1(n、q分别为行、列状态数)。

因子结果推导若u_j是Σ_r对应特征根λ_j的特征向量,则Z^Tu_j是Σ_c对应λ_j的特征向量,因此可由R型因子分析结果直接推导Q型因子分析结果,实现变量与样品在同一因子平面上的可视化。2026/5/16对应分析应用于定量变量的情况

适用数据类型适用于定距/定比尺度数据,可将每个观测视为一类(行)、每个变量视为一类(列),通过规格化处理转化为类似列联表的结构,分析观测与变量间的相关关系。

数据预处理要求对应分析要求数据阵中所有元素≥0,若存在负值,需先进行加工(如对变量各取值加常数),确保数据非负后再进行分析,例如经济截面数据可通过分类汇总转化为符合要求的格式。

分析思路与属性变量分析步骤一致:计算规格化矩阵→构建Z矩阵→进行R型/Q型因子分析→在低维图中呈现观测与变量的分布,直观揭示变量间依赖关系及观测分类特征。2026/5/16二维投影的局限性多维空间中相隔较远的点在二维投影图上可能距离较近,易产生误导,需结合状态对公共因子的贡献度(CTR(i)=p_i·a_ik²/λ_k)判断各点对维度的影响,避免误判。缺乏量化相关统计量对应分析仅通过图形提示变量间关系,无法提供具体统计量(如相关系数)度量相关程度,结论主观性较强,需结合列联表分析、χ²检验等方法交叉验证。对异常值敏感数据中极端值或频数较小的状态可能对总惯量和因子载荷产生较大影响,分析前需检查数据质量,必要时对小样本状态合并或剔除,确保结果稳健性。对应分析需要注意的问题对应分析的方法步骤04对应分析的步骤01计算规格化概率列联表将原始列联表中每个元素除以总和T,得到频率意义上的列联表,其中元素pij表示特性A第i状态与特性B第j状态同时出现的概率,边缘概率pi●和p●j分别为行、列之和。02计算Z矩阵基于规格化列联表,通过公式zij=(pij-pi●p●j)/√(pi●p●j)计算Z矩阵,该矩阵消除了边缘概率影响,用于后续因子分析。03进行R型或Q型因子分析并推导结果对Z矩阵进行R型因子分析(分析变量)或Q型因子分析(分析样品),利用二者协方差矩阵Σr=ZᵀZ与Σc=ZZᵀ的对等关系,由一种因子分析结果推导出另一种,提取主因子并确定特征根与特征向量。04在二维图上画变量状态并分析相关性取前两个公共因子,将行、列变量的各状态以二维坐标点形式绘制在同一张图中,通过点的距离直观判断变量间及各状态间的相关关系,距离越近表示关联性越强。2026/5/16对应分析的逻辑框图数据输入与预处理输入原始列联表数据,检查数据有效性(如非负性),若为定量数据需先分类汇总,确保符合对应分析数据格式要求。规格化与矩阵转换将原始频数列联表转换为频率列联表,计算边缘概率pi●、p●j,进而构建Z矩阵,完成数据标准化以消除量纲和边缘概率影响。因子分析与结果推导对Z矩阵进行R型或Q型因子分析,求解协方差矩阵特征根与特征向量,利用R型与Q型因子分析的对等关系,共享特征根并推导对应特征向量,确定低维(通常二维)因子空间。图形绘制与结果解释根据因子载荷计算行、列状态的二维坐标,绘制对应分析图,通过点的分布、距离及聚类情况,解释变量间相关性及各状态特征,结合专业知识得出结论。2026/5/16SPSS软件进行对应分析操作05SPSS对应分析模块介绍

模块功能定位SPSS的correspondenceAnalysis模块是专门用于对应分析的功能模块,能够实现对属性变量列联表数据的降维分析,直观展示行与列变量各状态间的关系。

核心分析目标该模块通过对数据的处理和分析,可在二维图上同时呈现两类属性变量的各种状态,帮助研究者揭示变量间及变量各状态间的相关关系,简化数据结构。2026/5/16数据窗口录入以高校星级排名与学校类型为例,将原始数据(如高校名称、星级排名、学校类型及类型取值)依次录入SPSS数据窗口,确保数据准确对应。变量名称设定在variableview窗口,为变量命名,如“university”“rank”“type”,明确变量含义,便于后续分析操作。变量标签设定对分类变量(如type)的取值设置标签,如“1=综合类”“2=理工类等”,使输出结果更具可读性,操作时通过valueLabels对话框完成标签添加。数据录入与变量设定对应分析对话框操作

模块调用路径在SPSS中依次点选Analyze→DimensionReduction→correspondenceAnalysis,打开对应分析主对话框,准备进行变量设置。

行变量选择与范围定义将行变量(如rank)选入Row框,点击DefineRange按钮,设定其取值范围(如4~8),点击Update确认,完成行变量配置。

列变量选择与范围定义按同样方法将列变量(如type)选入Column框,设定取值范围(如1~5),完成后点击OK运行分析,生成初步结果。2026/5/16模型与统计选项设置

模型参数设定在Model对话框中,可规定对应分析的最大维数(默认2)、距离量度方法(如卡方距离或欧氏距离)、标准化方法及正态化方法(如symmetrical),根据研究目的调整参数。

统计量选择输出在Statistics对话框中,可选中Rowprofiles和Columnprofiles选项,输出行剖面与列剖面数据,还可选择其他统计量以检验对应分析效果,丰富分析结果。2026/5/16参考线添加在SPSS结果输出窗口双击图形进入编辑窗口,通过Options→XAxisReferenceLine和YAxisReferenceLine,添加X=0和Y=0参考线,清晰展示各点相对位置。标记类型修改选中图形图例中变量对应的标记,双击打开properties对话框,在Marker中选择不同标记类型(如菱形),区分不同变量的状态点,提升图形辨识度。图形可读性优化通过调整标记大小、颜色等外观属性,使二维图上的各状态点分布更清晰,便于直观观察变量间及状态间的关系,辅助分析结论的得出。图形编辑与优化对应分析案例分析06高校星级排名与学校类型对应分析案例数据与列联表构建选取2025年中国“双一流”大学排行榜中73所高校,以星级排名(4-8星)和学校类型(综合类、理工类等5类)为属性变量,构建5×5列联表,观测总数73,如4星级仅1所综合类高校,8星级含7所综合类和4所理工类。总惯量与显著性检验总惯量为0.409,反映行列关联强度;χ²值29.848(自由度16),Sig=0.019<0.05,拒绝独立性假设,表明星级排名与学校类型显著相关。维度解释与二维投影分析前两维度累计解释90.5%总惯量,二维图显示:7星级集中于理工类,8星级集中于综合类,5-6星级与医药类、文法类等关联,4星级因样本量小无显著类型特征。2026/5/16农村居民人均可支配收入对应分析

01数据背景与标准化方法基于2022年全国31省区农村居民收入数据(工资性、经营净等4类收入),因数据为分类汇总指标,选择“Columntotalsareequalizedandmeansareremoved”标准化方法消除量纲与均数影响。

02维度提取与解释能力总惯量0.384,前两维度累计解释94.8%(第一维81.8%、第二维13.1%),特征根分别为0.314和0.050,可有效降维展示省区与收入类型关系。

03省区与收入类型关联特征二维投影显示:北京、上海等经济发达地区以工资性收入为主,内蒙古、吉林等农业区以经营净收入为主,江西、河南等地转移净收入占比高,财产净收入整体贡献较低。2026/5/16对应分析的应用价值与总结07对应分析的应用价值

直观揭示变量关系通过二维图同时呈现两类属性变量状态,直观展示变量间及状态间相关关系,如高校星级排名与学校类型的关联分析。

高效简化数据结构利用降维思想,在总惯量信息损失最小前提下简化数据,从原始数据中提取较多信息,适用于列联表等复杂数据。

广泛适用于多领域可应用于消费者满意度调查、企业规模与获利能力研究、农村居民收入来源分析等多个领域,解决实际问题。2026/5/16对应分析的局限性

结果解释主观性较强仅通过图形提示变量关系,无法提供具体统计量度量相关程度,易导致研究者得出主观结论。

图形投影存在偏差风险多维空间中相隔较远的点在二维平面投影可能接近,需结合贡献度等指标深入分析,避免误判。

数据要求有一定限制要求数据阵中数值非负,对含负值数据需先加工处理;分类汇总数据需选择合适标准化方法,增加操作复杂度。2026/5/16拓展多领域应用场景有望在大数据分析、人工智能等领域发挥作用,如结合机器学习算法处理高维复杂数据,挖掘潜在关联。与其他统计方法融合加强与因子分析、聚类分析等方法的结合,形成更综合的数据分析体系,提升对数据的解释力和预测能力。软件功能与可视化优化进一步优化SPSS等软件的对应分析模块,提供更丰富的标准化方法和可视化工具,增强结果的准确性与可读性。对应分析的未来发展展望THEEND谢谢观看典型相关分析理论与应用CONTENTS目录01典型相关分析概述02典型相关分析的统计思想03典型相关分析模型与求解04典型相关分析的步骤CONTENTS目录05实例分析:生理指标与运动指标关系06实例分析:城市经济发展与空气质量关系07典型相关分析的应用与拓展08总结与展望典型相关分析概述01核心研究对象典型相关分析是研究两组变量之间整体线性相关关系的多元分析方法,将每组变量作为一个整体进行研究,而非分析组内单个变量。基本思想借用主成分分析降维思想,分别对两组变量提取主成分,使从两组提取的主成分间相关程度达到最大,同一组内部提取的各主成分互不相关。衡量指标用从两组分别提取的主成分(典型相关变量)的简单相关系数(典型相关系数)来描述两组变量整体的线性相关关系。典型相关分析的定义典型相关分析的发展历程思想提出典型相关分析的思想首先由霍特林于1936年提出,为研究两组变量相关性提供了理论基础。发展契机计算机的发展解决了典型相关分析在应用中计算方面的困难,使其从理论走向实际应用。应用现状目前已成为普遍应用的两组变量之间相关性分析的技术,在多个领域得到广泛使用。2026/5/16学习目标理解思想理解典型相关分析研究两组变量整体线性相关关系的核心思想,包括其降维和提取典型相关变量的思路。了解理论方法了解典型相关分析的基本理论,如总体与样本典型相关、典型变量的性质等,以及具体的分析方法步骤。掌握实现与解释掌握利用SPSS或R语言实现典型相关分析的方法,并能正确理解和解释分析过程中产生的各种输出结果,如典型相关系数、典型载荷等。2026/5/16典型相关分析的统计思想02研究对象与要求

研究对象:两组变量整体线性相关关系典型相关分析将每组变量作为整体研究,而非关注组内单个变量间的关系,旨在揭示两组变量间的综合线性关联。

变量尺度要求:至少为间隔尺度两组变量需满足间隔尺度以上测量标准,以确保变量间线性关系的可分析性与结果的有效性。

变量地位:自变量与因变量或同等地位两组变量可存在自变量与因变量的对应关系,也可处于同等分析地位,适用范围广泛。2026/5/16典型相关变量与系数

典型相关变量:线性组合生成的综合变量通过对每组变量构建线性组合(如Ui=aᵢ¹X₁+...+aᵢₚXₚ,Vi=bᵢ¹Y₁+...+bᵢqYq),生成能代表原始变量主要信息的综合变量。

典型相关系数:衡量相关程度的指标典型相关变量间的简单相关系数称为典型相关系数,用于量化两组变量整体的相关强度,按绝对值大小排序。

典型相关变量特性:各对间互不相关不同对典型相关变量之间互不相关,保证每对变量反映两组变量间独立的相关关系,避免信息重叠。2026/5/16降维研究:简化两组变量相关关系通过少数几对典型相关变量代替原两组变量的研究,减少分析维度,更易抓住问题本质与核心关联。显著性检验:筛选有效典型相关变量对典型相关系数进行显著性检验,剔除不显著的典型相关变量,确保分析结果的可靠性与代表性。结合定性分析:深化实际问题解释依据典型相关变量的相关程度及原始变量系数大小,结合研究背景的定性分析,可对实际问题给出深刻的解释与结论。典型相关分析的作用典型相关分析模型与求解03总体典型相关和典型变量随机向量与协方差矩阵

设随机向量(x=(X_1,X_2,…,X_p)^T),(y=(Y_1,Y_2,…,Y_q)^T),协方差矩阵(Sigma=begin{pmatrix}Sigma_{11}&Sigma_{12}Sigma_{21}&Sigma_{22}end{pmatrix}),其中(Sigma_{11})、(Sigma_{22})为组内协方差阵,(Sigma_{12}=Sigma_{21}^T)为组间协方差阵,且(Sigma)正定时(Sigma_{12})、(Sigma_{21})正定。线性组合与目标函数

考虑线性组合(U=a^Tx),(V=b^Ty),在(var(U)=1)、(var(V)=1)约束下,目标是最大化(corr(U,V)=a^TSigma_{12}b),通过拉格朗日乘数法转化为求解极值问题。典型相关变量与系数推导

利用拉格朗日乘数法得到方程组(Sigma_{12}b=lambdaSigma_{11}a)、(Sigma_{21}a=lambdaSigma_{22}b),推导得出(lambda^2)是(Sigma_{11}^{-1}Sigma_{12}Sigma_{22}^{-1}Sigma_{21})的特征根,(a)、(b)为对应特征向量,(lambda)为典型相关系数,(U)、(V)为典型相关变量。2026/5/16典型变量的性质同一组典型变量互不相关且方差为1,即(cov(u_i,u_j)=0)((i≠j)),(var(u_i)=1);不同对典型变量(u_i)与(v_j)((i≠j))互不相关,同一对相关系数为(lambda_i),即(cov(u_i,v_i)=lambda_i),(cov(u_i,v_j)=0)((i≠j))。总体典型相关和典型变量样本典型相关和典型变量

总体协方差阵的估计实际中总体协方差阵(Sigma)未知,设样本((x_i,y_i)(i=1,2,…,n))来自正态总体,极大似然估计(hat{Sigma}=frac{1}{n}A),其中(A)为样本离差阵,当(n>p+q)时(hat{Sigma})以概率1正定。

样本典型相关系数与变量用(hat{Sigma})替代(Sigma),计算(hat{Sigma}_{11}^{-1}hat{Sigma}_{12}hat{Sigma}_{22}^{-1}hat{Sigma}_{21})的非零特征根(hat{lambda}_1^2geqhat{lambda}_2^2geq…geqhat{lambda}_k^2)((k=min(rank(hat{Sigma}_{11}),rank(hat{Sigma}_{22})))),(hat{lambda}_i)为样本典型相关系数,对应特征向量(hat{a}_i)、(hat{b}_i)构成样本典型变量(hat{u}_i=hat{a}_i^Tx)、(hat{v}_i=hat{b}_i^Ty)。

典型变量得分及应用将样本数据代入典型变量表达式得到得分,可绘制散点图用于样品分类研究,如通过典型变量得分分布特征对观测对象进行分组分析。2026/5/16典型相关系数的显著性检验检验原理与原假设若两组变量独立,则(Sigma_{12}=0),典型相关系数(lambda_i=0)。检验第(j)个及后续典型相关系数是否为0,原假设(H_0:lambda_j=lambda_{j+1}=…=lambda_k=0),备择假设(H_1):至少(lambda_j≠0)。巴特莱特X²检验统计量计算统计量(Q_j=-(n-1-frac{p+q+1}{2})ln(prod_{i=j}^k(1-hat{lambda}_i^2))),其中(n)为样本量,(p)、(q)为两组变量个数。(Q_j)近似服从自由度(df=(p-j+1)(q-j+1))的(chi^2)分布。检验步骤与判断标准1.对第一对典型相关系数检验:(j=1),(df=pq),若(Q_1>chi_{alpha}^2(pq)),拒绝(H_0);2.若前(j-1)个显著,检验第(j)个:(df=(p-j+1)(q-j+1)),若(Q_j>chi_{alpha}^2(df)),拒绝(H_0),否则停止检验。2026/5/16典型相关分析的步骤04判断变量组独立性或关系强弱明确两组变量是相互独立,还是存在关联及关联程度,为后续分析提供基础方向。推导最优权重生成典型变量为每组变量推导权重,使生成的线性组合(典型变量)间相关程度最大,且后续组合与前面组合独立。解释变量对典型函数的贡献通过分析每个变量在典型函数中的相对贡献,揭示自变量组与因变量组间的内在联系。确定分析目标设计分析方案

满足多元分析共同要求需考虑测量误差影响、变量类型适配性及必要的数据变换,与多元回归、判别分析等方法要求类似。

确保充足样本量为避免数据“过度拟合”,建议每个变量至少对应10个观测,小样本可能掩盖有意义的相关关系。

合理选择变量组构成研究者需谨慎确定自变量组和因变量组的变量数量,避免因变量过多而忽视样本量的实际含义。2026/5/16检验基本假定线性假定的两方面影响一是变量间相关系数基于线性关系,非线性关系需对变量进行变换;二是典型相关衡量变量间线性关系,非线性关系可能无法被捕捉。正态性假定的要求与处理虽不严格要求所有变量正态分布,但变量分布(如高度偏态)不应削弱与其他变量的相关性,建议检验单变量正态性,必要时进行变换。多元正态性的统计检验典型函数的多元正态性检验有必要,若多元检验不可行,流行准则是保证每个单变量的正态性以满足分析条件。2026/5/16推导典型函数与评价拟合

典型函数的推导过程类似无旋转因子分析,先提取第一对最大相关典型变量,后续变量基于剩余残差提取,且各对典型变量正交独立,最大提取数为最小变量组的变量数。

典型根与共同方差典型相关系数的平方称为典型根(特征根),表示一个典型变量通过另一个典型变量解释的方差,即两者间的共同方差。

冗余指数的概念与计算冗余指数是一组变量方差被另一组变量方差解释的比例,通过三步计算:共同方差比例、解释方差比例(典型相关系数平方)、两者乘积,克服典型根的潜在偏误。2026/5/16解释典型变量

典型权重(标准化系数)反映原始变量对典型变量的贡献大小和方向,但受变量间相关性影响,解释时需谨慎,不能单独作为变量重要性的依据。

典型载荷(结构系数)是原始变量与典型变量的简单线性相关系数,类似因子载荷,能反映原始变量与典型变量的共同方差,是解释典型函数的基础。

典型交叉载荷使原始因变量与自变量典型变量直接相关,提供更直接测量因变量组与自变量组关系的指标,作为典型载荷的有效替代。2026/5/16验证模型

子样本分析比较在样本量允许时构造两个子样本,分别进行分析,比较典型函数相似性、典型载荷等,确保结果代表总体而非单个样本。

变量剔除灵敏度测量通过测量剔除一个因变量或自变量后结果的变化,评估典型权重和典型载荷的稳定性,验证模型的可靠性。

典型相关分析的局限性包括反映变量组线性组合共享方差而非提取方差、典型权重不稳定性、解释困难、难以识别变量子集间有意义关系等,需在应用中注意。2026/5/16实例分析:生理指标与运动指标关系05样本信息研究对象为20名中年男性,测量3项生理指标与3项运动指标,数据来源于《多元统计分析(第6版)》例8-1。生理指标变量包括体重(kg)、腰围(cm)、脉搏(次/分钟),反映身体基本生理状态。运动指标变量包括引体向上(次)、仰卧起坐(次)、跳跃次数(次),衡量运动能力与身体素质。数据样例如序号1:体重191kg、腰围36cm、脉搏50次/分钟;引体向上5次、仰卧起坐162次、跳跃次数60次。数据介绍R语言实现步骤

01数据读取与变量分组使用read.csv函数读取“例8_1.csv”数据,将前3列设为生理指标(PHY),后3列设为运动指标(EXER)。

02安装与加载CCA包通过install.packages("CCA")安装典型相关分析包,用library(CCA)加载包以调用分析函数。

03相关矩阵计算调用matCor(PHY,EXER)函数,输出两组变量的自相关矩阵及交叉相关矩阵,初步观察变量关系。

04典型相关分析与结果输出使用cc(PHY,EXER)执行分析,通过CC1[1]输出典型相关系数,CC1[3:4]输出原始典型系数,CC1[5]输出得分及载荷矩阵。

05标准化系数与显著性检验计算并输出标准化典型系数(典型权重),编写代码进行巴特莱特X²检验,判断典型相关系数的显著性。2026/5/16结果分析01原始变量相关阵解读体重与腰围正相关(0.870),腰围与引体向上、仰卧起坐负相关(-0.552、-0.646),表明肥胖可能降低运动能力。02典型相关系数与显著性第一典型相关系数为0.796(P=0.062),在0.1水平显著;第二、三系数分别为0.201、0.073,均不显著,故主要关注第一对典型变量。03典型变量表达式生理第一典型变量U1=0.0314体重-0.4932腰围+0.0082脉搏,运动第一典型变量V1=0.0661引体向上+0.0168仰卧起坐-0.0140跳跃次数。04典型载荷与交叉载荷分析生理U1与腰围负相关(-0.925),反映肥胖程度;运动V1与仰卧起坐、引体向上正相关(0.818、0.728),反映运动能力。交叉载荷显示腰围与V1负相关,表明腰围越大运动能力越差。05结论生理指标中的腰围是影响运动能力的关键因素,肥胖(腰围大)与引体向上、仰卧起坐能力呈显著负相关,运动对体形有重要影响。2026/5/16实例分析:城市经济发展与空气质量关系06数据介绍经济发展水平指标包含6项指标:地区生产总值(X1)、第二产业增加值(X2)、第三产业增加值(X3)、住户存款余额(X4)、社会消费品零售总额(X5)、医院数(X6),数据来源于2023年《中国统计年鉴》。空气质量指标包含7项指标:细颗粒物(PM2.5)年平均浓度(Y1)、可吸入颗粒物(PM10)年平均浓度(Y2)、二氧化硫年平均浓度(Y3)、一氧化碳日均值第95百分位浓度(Y4)、二氧化氮年平均浓度(Y5)、臭氧(O3)日最大8小时第90百分位浓度(Y6)、空气质量达到或好于二级的天数(Y7)。数据覆盖范围选取我国31个城市2022年的相关数据,涵盖北京、上海、广州等直辖市及省会城市,具有广泛的区域代表性。2026/5/16SPSS操作步骤

数据准备将经济发展水平指标(X1-X6)和空气质量指标(Y1-Y7)数据合并,确保数据格式正确,无缺失值。

菜单选择依次点选“Analyze”→“Correlate”→“CanonicalCorrelation”,打开典型相关分析对话框。

变量设置将X1-X6选入“Set1”下方的框中,将Y1-Y7选入“Set2”下方的框中。

选项配置点击“Options”,在“Display”下勾选“Pairwisecorrelations”“Loading”“Varianceproportions”“Coefficients”,点击“Continue”返回主界面,再点击“OK”运行分析。2026/5/16结果分析

相关系数矩阵经济发展水平各指标间相关性极显著;空气质量指标中Y3(二氧化硫)与部分指标相关性不显著,其余指标间多呈极显著相关,适合进行典型相关分析。

典型相关系数第一对典型变量相关系数为0.8314,在0.1334的显著性水平下显著;第二对相关系数为0.7127,后续典型相关系数逐渐减小,表明第一对典型变量解释了主要相关关系。

典型系数与载荷阵标准化典型系数显示经济发展水平第一典型变量(U1)与X1、X2、X3等呈负相关,反映总体经济水平;空气质量第一典型变量(V1)与各污染物指标相关性符号不同,需结合载荷阵分析。典型载荷阵和交叉载荷阵表明经济发展水平高的城市NO2、O3、PM2.5含量较高,PM10、SO2、CO含量及优良天数较低。2026/5/16经济与空气质量关系结论城市经济发展水平与空气质量存在一定相关关系,经济水平高的城市因汽车尾气、工业规模等因素,NO2、O3、PM2.5等污染物含量较高;经济水平较低的城市因燃煤、自然环境等因素,PM10、SO2、CO等污染物含量较高。结果分析典型相关分析的应用与拓展07应用领域

经济领域:经济发展与空气质量关系研究选取我国31个城市的经济发展水平指标(如地区生产总值、第二产业增加值等)与空气质量指标(如PM2.5浓度、空气质量达标天数等),通过典型相关分析揭示两者间的相关关系,发现经济发展水平较高的城市在部分污染物含量上呈现特定规律。

医学领域:生理指标与运动能力关系研究对20名中年男性的生理指标(体重、腰围、脉搏)和运动指标(引体向上、仰卧起坐、跳跃次数)进行典型相关分析,结果显示第一典型变量主要反映体形肥胖程度与运动能力,腰围

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论