




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
10.4算法总结10.1算法概述10.2算法原理10.3算法案例目录第十章主成分分析人工智能算法与实践—1
—
01算法概述PartTHREE—2
—
在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。10.1算法概述—3
—
研究某一问题涉及的众多变量之间有一定的相关性,那也就肯定存在起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。10.1算法概述—4
—
主成分与原始变量2431每一个主成分都是各原始变量的线性组合主成分的数目大大少于原始变量的数目主成分保留了原始变量绝大多数信息各主成分之间互不相关10.1算法概述—5
—
一般地说,利用主成分分析得到的主成分与原始变量之间有以下关系。
10.1算法概述—6
—
02算法原理PartTHREE—7
—
10.2算法原理—8
—
如图,对于一个坐标点(3,2)得到,其代表的意思是二维坐标里其横坐标为3,纵坐标为2。其实这隐含了一个假设,即其横纵坐标的基为(1,0)和(0,1)。对于一般的二维向量,这似乎是大家的默认情况,就像随便给出一个数字10,大家会认为这是10进制表示,除非特殊标明,不会把它当作其他进制来理解。10.2算法原理—9
—
10.2算法原理—10
—
10.2算法原理—11
—
同样对于一个具有n个特征的集合来说,很难说这n个特征都是完全有必要的,所以我们就想办法来精简一些特征。选取少于n个的基向量组,将数据投影在这个向量组上,减少空间的同时又能保证信息量。首先需要明确的一点是什么才算好的基向量?首先举一个将二维空间的数据投影到一维空间的情况。如上图所示,对于空间中的这些点,我们应该怎么投影才能够尽可能的保持数据的信息量呢?通过上图中可以看出,如果将数据投影到PC1上,那么所有的数据点较为分散,与之相反,如果投影到PC2上,则数据较为集中。考虑一个极端的情况,假如所有的点在投影之后全部集中在一个点上,这样好吗?当然不!10.2算法原理—12
—
如果所有的点都集中到一个点上,那就说明所有的点都没有差别,信息全部丢失了。所以我们希望当数据点投影到某个坐标轴之上以后,数据越分散越好,而衡量一组数据是否发散恰好有一个统计名词“方差”,也就是说投影过后的点值方差越大越好。同时,如果数据被投影到多个基向量上,那么我们希望这些基向量之间的耦合程度越小越好,也就说基向量之间应该是正交的,如下图所示。因为如果不考虑基向量之间的正交性,只考虑方差最大的话,那么所求得的值其实都是一样的。关于在不同的基向量上的投影的线性相关度也有一个度量标准--协方差。那么我们的目标明确了,使得相同特征之间方差越大越好,不同特征之间协方差越小越好。10.2算法原理—13
—
10.2算法原理—14
—
10.2算法原理—15
—
03
算法案例PartTHREE—16
—
数据降维本实验对鸢尾花数据集采用主成分分析方法,使数据降维。数据集中前4列数据分别代表它的4项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,最后一列为标签。共有150条数据。该试验的目的是为了找到样本数据的主成分特征,并将数都投影到主成分特征的方向上,投影后的数据可以很容易的对其进行分类。10.3算法案例—17
—
10.3算法案例—18
—
本实验数据为开放型数据集,直接下载到本地。1.数据读入2.数据标准化10.3算法案例—19
—
3.指定维度,训练降维模型并返回10.3算法案例—20
—
4.对降维后数据进行可视化运行结果如上图所示。实验将主成分的个数指定为2,即降维后数据的维度,将原本的样本数据向主成分特征的方向上进行投影,得到上图所示的分类效果。10.3算法案例—21
—
04算法总结PartTHREE—22
—
这里对PCA算法做一个总结。作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点,出现了很多PCA的变种,比如第六节的为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法IncrementalPCA,以及解决稀疏数据降维的PCA方法SparsePCA等。
10.4算法总结—23
—
PCA算法的主要优点有:1)仅仅需要以方差衡量信息量,不受数据集以外的因素影响。
2)各主成分之间正交,可消除原始数据成分间的相互影响的因素。
3)计算方法简单,主要运算是特征值分解,易于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位防盗安全管理制度
- 学校保安奖惩管理制度
- 工地材料调拨管理制度
- 啤酒销售售后管理制度
- 内部客户投诉管理制度
- 公司合同文档管理制度
- 劳动仲裁公司管理制度
- 天才计划会员管理制度
- 宣传展示物料管理制度
- 学校器材使用管理制度
- 理论联系实际谈一谈如何维护政治安全?参考答案1
- 2025年中国冷库用叉车数据监测研究报告
- 人工智能设计伦理知到智慧树章节测试课后答案2024年秋浙江大学
- 《陆上风电场工程概算定额》NBT 31010-2019
- 干部人事档案转递单表样
- 关于中国文化遗产北京故宫的资料
- 新中考考试平台-考生端V2.0使用手册
- SHD01-120塑料门窗单点任意角焊接机
- 美制统一螺纹表UNC,UNF
- 特困人员救助供养政策解读PPT课件
- (完整word版)400字作文稿纸A4打印模板
评论
0/150
提交评论