版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、专题二 降维算法1 主成分分析Principal Component Analysis,PCA 2 线性判别分析(Linear Discriminant Analysis, LDA),内容 n研讨背景n根本知识引见n经典方法引见n总结讨论研讨背景 问题的提出问题的提出 地理系统是多要素的复杂系统。在地理系统是多要素的复杂系统。在地理学研讨中,多变量问题是经常会地理学研讨中,多变量问题是经常会遇到的。变量太多,无疑会添加分析遇到的。变量太多,无疑会添加分析问题的难度与复杂性,而且在许多实问题的难度与复杂性,而且在许多实践问题中,多个变量之间是具有一定践问题中,多个变量之间是具有一定的相关关系的。
2、的相关关系的。 因此,人们会很自然地想到,能因此,人们会很自然地想到,能否在相关分析的根底上,用较少的新否在相关分析的根底上,用较少的新变量替代原来较多的旧变量,而且使变量替代原来较多的旧变量,而且使这些较少的新变量尽能够多地保管原这些较少的新变量尽能够多地保管原来变量所反映的信息?来变量所反映的信息?研讨背景n降维的动机n原始察看空间中的样本具有极大的信息冗余n样本的高维数引发分类器设计的“维数灾难n数据可视化、特征提取、分类与聚类等义务需求 特征选择特征约简特征提取根据某一规范选择性质最突出的特征实验数据分析,数据可视化通常为2维或3维等也需求维数约简经已有特征的某种变换获取约简特征普通框
3、架线性降维方法 n主成分分析(PCA) Jolliffe, 1986n降维目的:寻觅可以坚持采样数据方差的最正确投影子空间n求解方法:对样本的散度矩阵进展特征值分解, 所求子空间为经过样本均值, 以最大特征值所对应的特征向量为方向的子空间Principalcomponent线性降维方法 n主成分分析(PCA) Jolliffe, 1986nPCA对于椭球状分布的样本集有很好的效果, 学习所得的主方向就是椭球的主轴方向. nPCA 是一种非监视的算法, 能找到很好地代表一切样本的方向, 但这个方向对于分类未必是最有利的线性降维方法 n线性判别分析(LDA) Fukunaga, 1991n降维目的
4、:寻觅最能把两类样本分开的投影直线,使投影后两类样本的均值之差与投影样本的总类散度的比值最大n求解方法:经过推导把原问题转化为关于样本集总类内散度矩阵和总类间散度矩阵的广义特征值问题Best projection direction for classification 11n线性降维方法比较n主成分分析 (PCA) Jolliffe, 1986n线性判别分析 (LDA) Fukunaga, 1991PCALDA 线性降维方法的缺乏1-D Helix曲线流形-1-0.500.51-1-0.500.5105101520n原始数据无法表示为特征的简单线性组合n比如:PCA无法表达Helix曲线流形
5、一、主成分分析的根本原理n假定有n个地理样本,每个样本共有p个变量,构成一个np 阶的地理数据矩阵npnnppxxxxxxxxxX212222111211主成分分析的根本原理n 当p 较大时,在p 维空间中调查问题比较费事。为了抑制这一困难,就需求进展降维处置,即用较少的几个综合目的替代原来较多的变量目的,而且使这些较少的综合目的既能尽量多地反映原来较多变量目的所反映的信息,同时它们之间又是彼此独立的。 定义:记x1,x2,xP为原变量目的,z1,z2,zmmp为新变量目的pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111n系数lij确实定原
6、那么: n zi与zjij;i,j=1,2,m相互无关; z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的一切线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的一切线性组合中方差最大者。 那么新变量目的z1,z2,zm分别称为原变量目的x1,x2,xP的第一,第二,第m主成分。 从以上的分析可以看出,主成分分析的本质就是确定原来变量xjj=1,2 , p在诸主成分zii=1,2,m上的荷载 lij i=1,2,m; j=1,2 ,p。 从数学上容易知道,从数学上可以证明,它们分别是的相关矩阵的m个较大的特征值所对应的特征向
7、量。 二、计算步骤二、计算步骤 一计算相关系数矩阵 riji,j=1,2,p为原变量xi与xj的相关系数, rij=rji,其计算公式为:pppppprrrrrrrrrR212222111211nknkjkjikinkjkjikiijxxxxxxxxr11221)()()( 二计算特征值与特征向量: 解特征方程,常用雅可比法Jacobi求出特征值,并使其按大小顺序陈列 ; 0RI0,21p 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。i), 2 , 1(pieiie112pjijeijeie 计算主成分奉献率及累计奉献率计算主成分奉献率及累计奉献率 奉献率奉献
8、率: :),2, 1(1pipkki累计奉献率: ),2, 1(11pipkkikk普通取累计奉献率达8595%的特征值所对应的第一、第二、第mmp个主成分。 m,21 计算主成分载荷 各主成分的得分: ), 2 , 1,(),(pjiexzplijijiijnmnnmmzzzzzzzzzZ212222111211 主成分分析方法运用实例 下面,我们根据下表给出的数据,对某农业生态经济系统做主成分分析, 样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x
9、7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.683
10、14.4010.30322.932某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6
11、430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.91
12、4.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078 步骤如下:1将表3
13、.4.5中的数据作规范差规范化处置,然后将它们代入公式计算相关系数矩阵x1x2x3x4x5x6x7x8x9x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.
14、73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表表3.5.13.5.1相关系数矩阵相关系数矩阵 主成分特征值贡献率(%)累积贡献率(%)z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.149
15、7.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100特征值及主成分奉献率特征值及主成分奉献率 2由相关系数矩阵计算特征值,以及各个主成分的奉献率与累计奉献率见表。由表可知,第一,第二,第三主成分的累计奉献率已高达86.596%大于85%,故只需求求出第一、第二、第三主成分z1,z2,z3即可。 第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量那么综合反映了生态经济构造情况,因此可以以为第一主成分z1是生态经济构造的代表。 第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈
16、显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以以为第二主成分z2代表了人均资源量。 分析:分析: 显然,用三个主成分z1、z2、z3替代原来9个变量x1,x2,x9,描画农业生态经济系统,可以使问题更进一步简化、明了。第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以以为第三主成分在一定程度上代表了农业经济构造。 另外,表3.5.3中最后一列占方差的百分数,在一定程度反映了三个主成分z1、z2、z3包含原变量x1,x2,x9的信息量多少。 线性判别分析n线性判别分析(Linear Discriminant Analysis, LDA),有时也称Fisher线性判别(Fisher Linear Discriminant ,FLD), 这种算法是Ronald Fisher 于 1936年发明的,是方式识别的经典算法。在1996年由Belhumeur引入方式识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山西旅游职业学院单招职业适应性测试模拟试题及答案解析
- 2026年长治幼儿师范高等专科学校单招职业适应性测试参考题库及答案解析
- 2026年武汉交通职业学院单招职业适应性测试参考题库及答案解析
- 2026年昌吉职业技术学院单招职业适应性考试备考题库及答案解析
- 2026年柳州铁道职业技术学院单招职业适应性考试备考题库及答案解析
- 2026年黑龙江建筑职业技术学院单招职业适应性考试参考题库及答案解析
- 期中考试学生检讨书15篇
- 2026年河南护理职业学院单招职业适应性考试备考题库及答案解析
- 2026年江苏护理职业学院单招职业适应性考试参考题库及答案解析
- 2026年四川电子机械职业技术学院单招职业适应性考试模拟试题及答案解析
- 2026年人教版(2024)初中美术七年级上册期末综合测试卷及答案(四套)
- 农村民事纠纷调解课件
- 供应饭菜应急预案(3篇)
- 【物 理】《电与磁》单元核心素养检测 2025-2026学年人教版九年级物理全一册
- 2026年辽宁理工职业大学单招职业适应性测试题库及参考答案详解
- 生物样本库课件
- 2026苏州大学附属第二医院(核工业总医院)护理人员招聘100人(公共基础知识)测试题带答案解析
- 2026中国储备粮管理集团有限公司湖北分公司招聘33人笔试历年题库及答案解析(夺冠)
- 《马原》期末复习资料
- 食品生产企业GMP培训大纲
- 电动汽车电池包结构安全性分析-洞察及研究
评论
0/150
提交评论