




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析法(PCA)在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。I. 主成分分析法(PCA)模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个变量的信息,再考虑选取即第二个线性组合,为了有效地反映原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求,称为第二主成分,依此类推可以构造出第三、四第个主成分。(二)主成分分析的数学模型对于一个样本资料,观测个变量,个样品的数据资料阵为:其中:主成分分析就是将个观测变量综合成为个新的变量(综合变量),即简写为: 要求模型满足以下条件:互不相关(,)的方差大于的方差大于的方差,依次类推 于是,称为第一主成分,为第二主成分,依此类推,有第个主成分。主成分又叫主分量。这里我们称为主成分系数。上述模型可用矩阵表示为:,其中 称为主成分系数矩阵。(三)主成分分析的几何解释假设有个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设个样品在二维空间中的分布大致为一个椭园,如下图所示:图1 主成分几何解释图将坐标系进行正交旋转一个角度,使其椭圆长轴方向取坐标,在椭圆短轴方向取坐标,旋转公式为写成矩阵形式为:其中为坐标旋转变换矩阵,它是正交矩阵,即有,即满足。经过旋转变换后,得到下图的新坐标:图2 主成分几何解释图新坐标有如下性质:(1)个点的坐标和的相关几乎为零。(2)二维平面上的个点的方差大部分都归结为轴上,而轴上的方差较小。和称为原始变量和的综合变量。由于个点在轴上的方差最大,因而将二维空间的点用在轴上的一维综合变量来代替,所损失的信息量最小,由此称轴为第一主成分,轴与轴正交,有较小的方差,称它为第二主成分。II. 主成分分析法(PCA)推导一、主成分的导出 根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的三个条件的要求,如何求出主成分系数,以便得到主成分模型。这就是导出主成分所要解决的问题。1、根据主成分数学模型的条件要求主成分之间互不相关,为此主成分之间的协差阵应该是一个对角阵。即,对于主成分,其协差阵应为,=2、设原始数据的协方差阵为,如果原始数据进行了标准化处理后则协方差阵等于相关矩阵,即有,3、再由主成分数学模型条件和正交矩阵的性质,若能够满足条件最好要求为正交矩阵,即满足于是,将原始数据的协方差代入主成分的协差阵公式得展开上式得展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:为了得到该齐次方程的解,要求其系数矩阵行列式为0,即显然,是相关系数矩阵的特征值,是相应的特征向量。根据第二列、第三列等可以得到类似的方程,于是是方程的个根,为特征方程的特征根,是其特征向量的分量。4、下面再证明主成分的方差是依次递减设相关系数矩阵的个特征根为,相应的特征向量为相对于的方差为同样有:,即主成分的方差依次递减。并且协方差为:综上所述,根据证明有,主成分分析中的主成分协方差应该是对角矩阵,其对角线上的元素恰好是原始数据相关矩阵的特征值,而主成分系数矩阵的元素则是原始数据相关矩阵特征值相应的特征向量。矩阵是一个正交矩阵。于是,变量经过变换后得到新的综合变量新的随机变量彼此不相关,且方差依次递减。二、主成分分析的计算步骤假设样本观测数据矩阵为:第一步:对原始数据进行标准化处理。 其中 第二步:计算样本相关系数矩阵。为方便,假定原始数据标准化后仍用表示,则经标准化处理后的数据的相关系数为: 第三步:用雅克比方法求相关系数矩阵的特征值()和相应的特征向量。第四步:选择重要的主成分,并写出主成分表达式。主成分分析可以得到个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取个主成分,而是根据各个主成分累计贡献率的大小选取前个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即贡献率=贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。第五步:计算主成分得分。根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。第六步:依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。III. 主成分分析法(PCA)案例为了系统的分析某IT类企业的经济效益,选择统计了8个不同的利润指标,15家企业关于这8个指标的统计数据如下所示,试对此进行主成分分析,并进行相关评价。 15家企业的利润指标的统计数据变量企业序号净产值利润率(%) 固定资产利润率(%) 总产值利润率(%)销售收入利润率(%)产品成本利润率(%)物耗利润率(%)人均利润率 (千元/人) 流动资金利润率(%)140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.61526.210.15.615.67.730.10.12625.9解:根据题目中的数据,利用matlab软件编程求解,对问题进行主成分分析。求解结果如下:1.标准化结果如下:v = 1.0023 2.3473 -0.3410 -0.5714 -0.3496 -0.6574 0.9030 0.4483 -0.2286 0.3072 0.4774 0.3896 0.2835 0.4309 1.9108 -0.6218 -1.1718 -1.2909 -1.0162 -0.9244 -0.8863 -0.9603 -0.8049 -1.1617 -0.4444 -0.7129 -0.6684 -1.0421 -0.6661 -0.7805 -1.1732 -0.7985 0.5148 0.1541 -0.3615 -0.3752 -0.3909 -0.6385 0.2470 1.1846 0.6187 0.2732 1.5414 1.5075 1.6460 1.2922 1.4298 1.0963 -0.4684 -0.5259 0.2114 0.2327 0.2422 0.1849 -0.5584 -0.4745 1.6418 0.4262 0.4160 0.1739 0.0083 -0.1653 0.2891 0.2323 1.0183 1.3952 2.2371 1.9586 2.5956 2.2670 0.9094 1.9995 -0.2446 -0.4919 0.1910 -0.0222 0.1459 0.0524 -0.6115 -0.1702 -1.2277 -0.2029 -0.9549 -0.9440 -0.8588 -0.8656 -0.5337 -1.1323 -2.0830 -1.7500 -1.6710 -1.6304 -1.3818 -1.3767 -1.2831 -1.4170 0.3549 0.5112 0.1091 -0.1399 -0.1431 -0.2221 0.6134 0.1636 0.8505 -0.3049 0.4979 0.0954 0.1872 0.0713 -0.1186 -0.3763 -0.1327 -0.1349 -0.6684 1.2918 -0.4321 1.3679 -1.2190 1.02762.相关系数矩阵:std = 1.0000 0.7630 0.7017 0.5868 0.5959 0.4896 0.5973 0.7300 0.7630 1.0000 0.5504 0.4667 0.5158 0.4196 0.7046 0.6717 0.7017 0.5504 1.0000 0.8407 0.9760 0.8161 0.6941 0.6825 0.5868 0.4667 0.8407 1.0000 0.8667 0.9823 0.4926 0.7938 0.5959 0.5158 0.9760 0.8667 1.0000 0.8667 0.6260 0.7153 0.4896 0.4196 0.8161 0.9823 0.8667 1.0000 0.4216 0.7505 0.5973 0.7046 0.6941 0.4926 0.6260 0.4216 1.0000 0.4656 0.7300 0.6717 0.6825 0.7938 0.7153 0.7505 0.4656 1.00003.特征向量(vec)及特征值(val):vec = 0.2182 0.1370 -0.2781 0.2283 0.6727 0.3115 0.3788 0.3334 -0.0745 -0.1102 -0.2276 -0.5733 -0.4046 0.1871 0.5562 0.3063 -0.7186 -0.0520 0.1186 -0.2240 0.3874 -0.3182 -0.1148 0.3900 0.0386 -0.6914 -0.3808 0.2788 -0.1547 0.0888 -0.3508 0.3780 0.6385 -0.0660 0.3451 -0.4158 0.1518 -0.2715 -0.2254 0.3853 -0.0123 0.6864 -0.3738 -0.0066 -0.2554 0.0696 -0.4337 0.3616 0.0675 0.1057 0.0716 0.5033 -0.2816 -0.6189 0.4147 0.3026 -0.1286 0.0413 0.6692 0.2552 -0.2055 0.5452 -0.0031 0.3596val = 0.0027 0 0 0 0 0 0 0 0 0.0060 0 0 0 0 0 0 0 0 0.1369 0 0 0 0 0 0 0 0 0.1456 0 0 0 0 0 0 0 0 0.2858 0 0 0 0 0 0 0 0 0.5896 0 0 0 0 0 0 0 0 1.0972 0 0 0 0 0 0 0 0 5.7361特征根从大到小排序:5.736141.097230.5896340.2857910.145620.1368830.005986810.002710844.根据累计贡献率,假设阈值为90%,选出主成分,计算如下:贡献率:newrate = 0.7170 0.1372 0.0737 0.0357 0.0182 0.0171 0.0007 0.0003主成分数:3主成分载荷: 0.7985 0.3968 0.2392 0.7336 0.5826 0.1436 0.9340 -0.1202 -0.2443 0.9052 -0.3674 0.0682 0.9228 -0.2361 -0.2085 0.8661 -0.4543 0.0535 0.7246 0.4344 -0.4752 0.8613 -0.0032 0.41865.计算得分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 神界之巅400字(14篇)
- 我们的学校生活-周记话题方向-记叙文文体11篇
- 英文写作基础:句式结构与段落发展教学
- 痔疾病护理查房
- 护理心理干预与心理治疗跨性别研究机遇重点基础知识点归纳
- 女生课堂主题班会课件
- 女性乳房健康知识课件
- 夸夸我的老师班会课件
- 太空遨游美术说课课件
- 本科生论文摘要模板
- 2025年湖北省高考地理试卷真题(含答案解析)
- 2025年重庆市中考历史真题(解析版)
- 2025年四川省成都市中考语文真题(原卷版)
- 江苏开放大学2025年春服务营销1单项选择题题库
- 驾驶证a1教育考试试题及答案
- 璀璨冒险人二部合唱简谱天使
- 2025年包头市钢兴实业(集团)有限公司招聘笔试冲刺题(带答案解析)
- 供暖管道焊接技术培训
- 滋补品店铺运营方案设计
- 安管员考试题库及答案
- 2025年高考语文备考之常见易错成语1700例
评论
0/150
提交评论