版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析理论与应用CONTENTS目录01主成分分析概述02主成分分析的基本思想03主成分分析的基本理论04主成分分析的几何意义05主成分的求解方法CONTENTS目录06主成分的性质07主成分分析的应用注意事项08主成分分析的步骤09主成分分析的SPSS实现与案例10主成分分析的总结与展望主成分分析概述01主成分分析的定义
提出背景与核心思想主成分分析由霍特林于1933年首次提出,其核心是利用降维思想,在损失很少信息的前提下,将多个指标转化为少数综合指标(主成分),以简化问题并揭示变量间规律。
主成分的本质特征每个主成分都是原始变量的线性组合,且各主成分之间互不相关,能保留原始变量绝大多数信息,比原始变量具有更优越的性能,便于抓住主要矛盾。2026/5/14主成分分析的学习目标
理论方法理解理解主成分分析的基本理论与方法,包括其降维原理、主成分与原始变量的关系及内在逻辑。
主成分性质掌握了解主成分的性质,如协方差阵为对角阵、方差贡献率等,明确主成分在数据浓缩中的作用机制。
求解与软件应用掌握主成分的求解方法,包括从协方差阵或相关阵出发求解特征根与特征向量;学会使用SPSS软件进行主成分分析,并能正确理解和分析软件输出结果。2026/5/14主成分分析的基本思想02问题的提出
多指标研究的矛盾实证研究中,为全面反映事物特征需考虑多个指标,但指标增多会增加问题复杂性,且各指标对同一事物的反映易导致信息大量重叠,甚至掩盖事物真正特征与内在规律。
主成分分析的需求基于上述问题,需要一种能在定量研究中涉及较少变量却得到较多信息的方法,主成分分析应运而生,其旨在通过原来变量的少数几个线性组合来解释原来变量绝大多数信息。2026/5/14主成分是原始变量的线性组合每一个主成分都是各原始变量的线性组合,这是主成分的基本构成形式。主成分数量少于原始变量主成分的数量大大少于原始变量的数量,从而达到简化问题的目的。主成分保留原始变量绝大多数信息主成分保留了原始变量的绝大多数信息,在研究复杂问题时,只考虑少数几个主成分不至于损失太多信息。各主成分之间互不相关各主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能,便于分析和研究。主成分与原始变量的关系主成分分析的基本理论03基本概念与线性变换
核心概念定义设研究涉及p个指标,构成p维随机向量X=(X₁,X₂,…,Xₚ)′,其均值为μ,协方差矩阵为Σ,用于描述变量离散程度与相关性。线性变换表达式通过线性变换Y=AX生成新综合变量Y,其中Y=(Y₁,Y₂,…,Yₚ)′,X=(X₁,X₂,…,Xₚ)′,A为变换系数矩阵,目标是将高维数据降维。2026/5/14单位向量约束要求变换系数向量满足u′ᵢuᵢ=1(i=1,2,…,p),避免方差无限制增大,确保问题有实际意义。正交无关约束各主成分Yᵢ与Yⱼ(i≠j)相互无关,即cov(Yᵢ,Yⱼ)=0,消除信息重叠,保证主成分独立性。方差最大化约束Y₁是X所有满足单位向量约束的线性组合中方差最大者,Y₂是与Y₁无关的线性组合中方差最大者,依此类推,实现信息有序浓缩。线性变换的约束原则主成分分析的几何意义04二维空间中的几何意义原始变量的二维散布特征在由两个原始变量X1、X2构成的二维坐标系中,N个样品点呈带状散布,沿X1轴和X2轴方向均有较大离散性,单独使用任一变量会损失较多信息。坐标轴旋转与信息浓缩通过逆时针旋转坐标轴θ角度,得到新坐标轴Y1和Y2。旋转后样品点在Y1轴上的离散程度最大,Y1集中了原始数据的绝大部分信息,实现数据信息的浓缩。旋转变换的数学表达坐标旋转公式的矩阵形式为Y=UX,其中U为正交阵(满足Uᵀ=U⁻¹,UᵀU=I),主成分分析的核心即求解该变换矩阵U,使新坐标轴方向为数据变差最大方向。2026/5/14多元正态分布下的几何意义01二元正态分布的密度函数与椭圆方程二元正态分布密度函数经推导可转化为椭圆方程(x-μ)ᵀΣ⁻¹(x-μ)=d²,其中Σ为协方差矩阵。标准化后方程为Z₁²-2ρZ₁Z₂+Z₂²=d²(1-ρ²),椭圆长短轴为2d/√(1±ρ)。02主成分与椭圆主轴方向设Σ的特征根λ₁≥λ₂>0,对应的标准正交特征向量为γ₁、γ₂,正交阵P=(γ₁,γ₂),则椭圆在Y1=γ₁ᵀX、Y2=γ₂ᵀX构成的新坐标系中,主轴方向即为Y1、Y2坐标轴方向,Y1方向集中了最大变差。03多维情况的扩展对于多维正态分布,主成分分析的几何意义类似:通过坐标系旋转,将数据投影到协方差矩阵(或相关矩阵)特征向量构成的新坐标轴上,各主成分方差对应特征根,且变差按特征根大小依次递减,多维空间中数据信息主要集中在前几个主成分方向。2026/5/14主成分的求解方法05从协方差矩阵出发求解协方差矩阵与主成分关系
设随机向量X的协方差矩阵为Σ,λ₁≥λ₂≥…≥λₚ为Σ的特征根,γ₁,γ₂,…,γₚ为对应的标准正交特征向量,第i个主成分为Yᵢ=γᵢ'X,其方差var(Yᵢ)=λᵢ,协方差cov(Yᵢ,Yⱼ)=0(i≠j)。主成分的核心性质
Y的协方差阵为对角阵Λ=diag(λ₁,λ₂,…,λₚ);总方差分解为各主成分方差之和,即tr(Σ)=Σλᵢ;第k主成分方差贡献率αₖ=λₖ/Σλᵢ,累积贡献率用于确定主成分个数(通常≥85%)。因子负荷量的意义
第k主成分Yₖ与原始变量Xᵢ的相关系数ρ(Yₖ,Xᵢ)=γᵢₖ√λₖ/√σᵢᵢ,刻画原始变量对主成分的重要性,其平方和等于该主成分对Xᵢ的方差贡献率。2026/5/14从相关矩阵出发求解相关矩阵的标准化基础对原始变量标准化Z=(Σ^(-1/2))(X-μ),E(Z)=0,var(Z)=1,相关矩阵R即标准化变量的协方差矩阵,求解主成分过程与协方差矩阵一致,特征根λᵢ、特征向量γᵢ意义类似。相关矩阵主成分性质Y协方差阵为对角阵Λ;总方差tr(R)=p;第k主成分方差贡献率αₖ=λₖ/p;因子负荷量ρ(Yₖ,Zᵢ)=γᵢₖ√λₖ,因var(Zᵢ)=1,形式更简单,直接反映标准化变量与主成分相关性。两种矩阵求解的区别协方差矩阵求解保留原始变量量纲差异,适合同度量/同量级数据;相关矩阵求解消除量纲影响,适用于不同量纲/取值范围差异大的指标(如利润总额与市盈率),结果可能显著不同。2026/5/14主成分的性质06方差与协方差性质
主成分协方差阵的对角化特性主成分的协方差矩阵为对角阵Λ,表明各主成分之间互不相关,实现了原始变量信息的无重叠提取。
主成分方差与特征根的对应关系各主成分的方差等于协方差矩阵或相关矩阵的特征根λi,即var(Yi)=λi,特征根大小反映主成分携带信息的多少。
方差总和的不变性主成分方差总和等于原始变量方差总和,即λ1+λ2+…+λp=tr(Σ)(协方差阵迹)或tr(R)=p(相关阵迹,标准化后变量方差和为p),保证信息总量守恒。2026/5/14方差贡献率与因子负荷量
01方差贡献率的定义与作用第k个主成分的方差贡献率为αk=λk/Σλi,反映该主成分解释原始变量总方差的比例;累积贡献率Σαk(k=1至m)用于确定主成分个数,通常取累积贡献率≥85%的m个主成分。
02因子负荷量的概念及意义因子负荷量是主成分Yk与原始变量Xi的相关系数ρ(Yk,Xi),其绝对值大小刻画主成分的成因及原始变量对主成分的重要性,是主成分解释的核心依据。
03因子负荷量与主成分系数的关系因子负荷量ρ(Yk,Xi)=γik√λk/√σii(协方差阵)或ρ(Yk,zi)=γik√λk(相关阵,zi为标准化变量),与主成分系数γik成正比,与原始变量标准差成反比,不可与系数向量混淆。2026/5/14主成分分析的应用注意事项07协方差阵与相关阵的选择指标量纲不同或取值范围差异大时的选择对于度量单位不同的指标或取值范围彼此差异非常大的指标,不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化,从相关矩阵出发求解主成分。例如在对上市公司财务状况分析时,利润总额、市盈率、每股净利率等指标取值范围相差很大,直接用协方差阵分析,利润总额会起支配作用,此时应标准化后用相关阵。同度量或同量级指标的选择对取值范围相差不大或度量相同的指标进行标准化处理后,其主成分分析的结果与由协方差阵出发求得的结果有较大区别。标准化会抹杀原始变量离散程度差异,各变量方差均为1,而方差是数据信息的重要概括,因此对同度量或同量级的数据,直接从协方差矩阵求解主成分为宜。实际应用中的建议在实际工作中,建议分别从协方差阵和相关阵出发求解主成分并研究结果差别,确定哪种结果更可信,不考虑实际情况就标准化或直接用相关阵是有不足的。2026/5/14数据分布与重叠信息主成分分析对数据分布的要求主成分分析不要求数据来自正态总体,无论是从协方差矩阵还是相关矩阵出发求解主成分,均不涉及总体分布问题。它是对矩阵结构的分析,用到矩阵运算、对角化和谱分解技术,只要变量协方差矩阵或相关矩阵非负定,就能求出主成分,扩展了应用范围。原始变量相关性对主成分分析的影响主成分分析适用于变量之间存在较强相关性的数据,若原始数据相关性较弱,如大部分变量相关系数小于0.3,运用主成分分析不能起到很好的降维作用,各主成分浓缩原始变量信息的能力差别不大。主成分分析与重叠信息的关系主成分分析对重叠信息的剔除无能为力,若原始变量存在重叠信息,如某指标被考虑两次,其在生成主成分构成中会起到加倍作用,使主成分方差总和等发生变化。当样本协方差矩阵(或相关阵)最小特征根接近于零时,表明原始变量存在多重共线性即重叠信息,需注意对主成分的解释或筛选初始指标。2026/5/14主成分分析的步骤08分析步骤概述
选取初始分析变量根据研究问题筛选具有代表性的指标,确保变量能反映事物特征及规律,避免遗漏关键信息。
判断矩阵类型依据变量特性选择:若变量度量单位不同或取值范围差异大,采用相关矩阵;同度量或同量级数据,宜用协方差矩阵。
求解特征根与特征向量通过矩阵运算,求解协方差阵或相关阵的特征根及对应的标准正交特征向量,特征根体现主成分方差贡献。
判断多重共线性若矩阵最小特征根接近零,表明原始变量存在多重共线性,需返回第一步重新筛选变量。
确定主成分个数与表达式按累积贡献率(通常≥85%)或特征根碎石图确定主成分个数,根据特征向量得到主成分线性表达式。
结合问题分析利用主成分结果解释变量内在规律,结合实际问题进行深入研究,如综合评价、分类或降维建模。2026/5/14变量筛选与准备起点为根据研究目标选取初始变量,完成数据收集与预处理,为后续分析奠定基础。矩阵选择与计算根据变量特性判断使用协方差阵或相关阵,进而求解其特征根与特征向量,此为核心计算环节。共线性检验与调整对矩阵进行多重共线性判断,若存在问题则返回变量筛选阶段重新优化,确保分析有效性。主成分提取与确定依据特征根及累积贡献率确定主成分个数,得到主成分表达式,实现数据降维与信息浓缩。结果分析与应用将提取的主成分应用于实际问题分析,如综合评价、分类研究等,形成完整分析闭环。逻辑框图展示主成分分析的SPSS实现与案例09SPSS操作步骤
数据录入与准备将原始数据录入SPSS数据表,确保变量名称与数据一一对应,如例5-1中9个行业工资数据按地区分行、指标分列录入。
进入FactorAnalysis模块依次点击菜单栏“Analyze→DimensionReduction→Factor”,打开因子分析对话框,准备进行主成分分析设置。
选择分析变量在FactorAnalysis对话框中,将待分析的原始变量(如X1至X9)选入“Variable(s)”框,作为主成分分析的输入指标。
参数设置点击“Extraction”按钮,设置提取方法为“Principalcomponents”,选择分析矩阵类型(协方差阵或相关阵),并勾选“Screeplot”等输出选项,完成后点击“Continue”返回主对话框。2026/5/14案例一:地区行业工资水平分析
数据背景与分析选择使用2022年我国31个地区9个行业城镇私营企业就业人员平均工资数据(单位:元),因各变量量纲差别不大,选择从协方差阵出发提取主成分。
关键结果解读Communalities表显示第一主成分对X6(金融业)信息提取率最高(96.3%),对X3(电力等行业)最低(40.6%);TotalVarianceExplained表中第一主成分方差贡献率为83.705%,保留原始信息超80%。
主成分表达式建立根据ComponentMatrix表计算特征向量,得到第一主成分表达式:Y1=0.127X1+0.234X2+0.190X3+0.136X4+0.120X5+0.797X6+0.172X7+0.352X8+0.266X9,其中X6(金融业)系数最大,表明其对主成分影响最显著。2026/5/14案例二:工业企业经济效益评价
数据特点与分析方法选取2022年各地区规模以上工业企业8项指标(资产总计、负债合计等,单位差异大),对数据标准化后从相关阵出发进行主成分分析。
输出结果解读相关矩阵显示8个变量间存在强相关性(多数相关系数>0.9);TotalVarianceExplained表中第一主成分方差贡献率达96.499%,仅需1个主成分即可概括原始信息。
主成分表达式与应用第一主成分表达式为Y1=0.3538X1关+0.3552X2关+...+0.3523X8关(标准化变量),系数均为正,可用于排序。地区得分显示广东(9.260)、江苏(7.989)等为第一类,西藏(-2.790)等为第三类,反映工业企业规模与效益差异。2026/5/14案例三:餐饮企业经济效益评价数据与主成分提取使用2022年限额以上餐饮企业7项指标(法人企业数、营业收入等),从相关阵出发提取2个主成分,累积方差贡献率96.809%,涵盖绝大部分信息。主成分经济意义主成分Y1(系数以X2-X6为主)综合反映企业整体规模与收入水平;主成分Y2(X7系数0.874)主要反映盈利能力,二者从规模和盈利两方面刻画经济效益。得分与分类分析计算各地区主成分得分并绘制散点图,江苏(Y1=4.792,Y2=1.955)、四川(Y1=1.970,Y2=1.716)等位于第一象限,为经济效益较好地区;海南、西藏等位于第三象限,企业规模小且盈利能力弱;北京、上海虽规模大但效益欠佳(Y2为负)。2026/5/14主成分分析的总结与展望10主成分分析的优势与局限
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理药物管理授课课件模板
- 语文人教部编版(2024)湖心亭看雪教案设计
- 2026年汉东省委测试题及答案
- 2026年平安银行应聘测试题及答案
- 2026年产房院感测试题及答案
- 2026年方式方程测试题及答案
- 2026年幼小衔接检测试题及答案
- 2026年青少年反应测试题及答案
- 2026年非常准的测试题及答案
- 泌尿外科前列腺疾病的护理
- 浙江森隆机电有限公司年产2万台无油式空压机、6万台电机、1万台电焊机、1万台水泵、1万台切割机技改项目环评报告
- GB/T 196-2025普通螺纹基本尺寸
- 籼型杂交水稻文两优87的育种与高产栽培技术
- 解除医保服务协议申请书范文
- 浙江省温州市十校联合体2023-2024学年高一下学期5月期中联考数学试题
- GB/T 25052-2024连续热浸镀层钢板和钢带尺寸、外形、重量及允许偏差
- 2024年云南曲靖市住建局招聘考果及拟聘公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- EPC项目施工图设计质量控制措施
- AMS成就动机量表问卷计分解释
- 反渗透阻垢剂化学品安全技术说明书
- 2023年06月河北唐山市事业单位(滦南县)公开招聘570人笔试题库含答案解析
评论
0/150
提交评论