




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目 录目 录I一、问题分析11.1 问题重述1 问题分析1二、主成分分析方法基本原理22.1 主成分分析基本思想22.2 主成分分析的数学模型22.3 主成分分析的计算步骤3三、问题求解5四、结果分析74.1 相关系数矩阵74.2 协方差阵8五、总 结9六、课程设计心得体会9参考文献10一、问题分析 问题重述49位女性在空腹情况下三个不同时刻的血糖含量(用表示)和摄入等量食糖一小时后的三个时刻的血糖含量(用小表示)的观测值(单位:mg/100ml).问题:分别从样本协方差阵S和样本相关系数矩阵R出发做主成分分析,求主成分的贡献率和各个主成分. 在两种情况下,你认为应保留几个主成分?其意义如何解
2、释?就此而言,你认为基于S和R的分析那个结果更为合理? 问题分析我们根据主成分分析的基本思想,设法将原来众多的具有一定相关性的指标,重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来个指标作线性组合,作为新的综合指标。然后,在所有的线性组合中分别从样本协方差阵S和样本相关系数矩阵R出发做主成分分析,计算出各个主成分,进而代表原来个指标的信息。进一步,建立主成分分析的数学模型。最后利用sas统计软件来求解出各个主成分和各主成分的贡献率。二、主成分分析方法基本原理 主成分分析基本思想主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标
3、(比如个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取即选第二个线性组合。为了有效地反映原有信息,已有的信息就不需要再出现在中,用数学语言表达就是要求。称为第二主成分,依此类推可以构造出第三、第四、第个主成分。 主成分分析的数学模型设有个样品(多元观测值),每个样品观测项指标(变量):,得到原始数据资料阵:其中.用数据矩阵的个列向量(即个指标向
4、量)作线性组合,得综合指标向量:简写成:为了加以限制,对组合系数作如下要求:即:为单位向量:,且由下列原则决定:1) 与互不相关,即,其中是的协方差阵。2) 是的一切线性组合(系数满足上述要求)中方差最大的,即: ,其中是与不相关的一切线性组合中方差最大的,是与,都不相关的的一切线性组合中方差最大的。 满足上述要求的综合指标向量就是主成分,这个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值,每一个主成分的组合系数:就是相应特征值所对应的单位特征向量。方差的贡献率为 其中,越大,说明相应的主成
5、分反映综合信息的能力越强。2.3 主成分分析的计算步骤(1) 计算协方差矩阵计算样品数据的协方差矩阵:其中, (2) 求出的特征值及相应的特征向量求出协方差矩阵的特征值及相应的正交化单位特征向量:则的第个主成分为(3) 选择主成分 在已确定的全部个主成分中合理选择个来实现最终的评价分析。一般用方差贡献率解释主成分所反映的信息量的大小,的确定以累计贡献率达到足够大(一般在85%以上)为原则。(4) 计算主成分得分计算个样品在个主成分上的得分: (5) 标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变
6、换:其中, , ,标准化后的数据阵记为,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。标准化后变量的协方差矩阵(Covariance Matrix),即原变量的相关系数矩阵(Correlation Matrix)此时个样品在个主成分上的得分应为:三、问题求解1. 使用“分析家”做主成分分析的步骤1) 在“分析家”中打开数据集; 2) 选择菜单“Statistics(统计)”®“Multivariate(多元分析)”®“Principal Components(主成分分析)”,打开“Principal Components”对话框; 3) 在对话框中输入主成
7、分分析的变量,如图所示。图6-1 多元分析对话框 3) 单击“Method”按钮,在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征向量,单击“OK”按钮返回。 4) 单击“Output”按钮,在打开的对话框(图左)中包括“Descriptive Statistics”选项、“Bivariate Plots”选项以及各种多元分析的选项。选中“Principal Component Analysis”复选框,单击下面的“Principal Component Options”按钮,打开“Principal Component Opt
8、ions”对话框,选中“Eigenvectors”复选框,取消“Correlations(Structure)”复选框,如图右所示。四、结果分析4.1 相关系数矩阵变量的简单统计量相关系数关系矩阵相关系数关系矩阵的特征值特征向量主成分分析:,其中,4.2 协方差阵协方差矩阵特征值特征向量主成分分析:,其中,五、总 结本次课程设计,我们运用sas统计软件,来分析“女性空腹及摄入食糖后体内血糖含量主成分分析”,我们从样本协方差阵S和样本相关系数矩阵R出发来做主成分分析,进一步来求出主成分的贡献率和各个主成分的模型. 同时,在应用软件操作时,我们求解出了相应的协方差系数矩阵,特征值以及特征向量,从而
9、写出了主成分的模型和各个主成分的贡献率。与此同时,我们亦讨论了在从样本协方差阵S和样本相关系数矩阵R出发来做主成分分析的这两种情况下,我们应保留的主成分是什么。 六、课程设计心得体会通过本次课程设计,使我们对多元统计分析的主成分分析有了进一步了解。主成分分析是将多指标化为少数几个综和指标的一种统计分析方法。在实际问题中,研究多指标的问题是经常遇到的问题,多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反应的信息有所重叠,而且变量较多时,在高位空间上研究样本的分布规律比较复杂,势必增加分析问题的复杂性。从而,人们想用较少的综合变量来代替较多的变量;而这几个综合变量又能反映原来变量的信息,并且彼此之间互不相关,利用降维的思想,产生了主成分分析。同时,让我对sas统计软件有了一定的了解,对其一些基本思想有了一些理论根据,明白了其中些许的规则。 参考文献1 方开泰编著实用多元统计分析上海:华东师
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仪表工业智能化规程
- 中国邮政集团2025永州市秋招笔试模拟题及答案
- 2025年PDA数据线行业研究报告及未来行业发展趋势预测
- 2025年采矿采石专用设备行业研究报告及未来行业发展趋势预测
- 2025年PET塑料瓶行业研究报告及未来行业发展趋势预测
- 南平市烟草公司2025秋招品牌推广岗位面试模拟题及答案
- 中国邮政2025咸宁市秋招寄递物流运营类岗位高频笔试题库含答案
- 房地产销售利润计算细则
- 公平公正的员工福利待遇
- 延安宝塔区中烟工业2025秋招生产管理岗位面试模拟题及答案
- 人力资源知识竞赛题库及答案
- 地铁轨道安全培训报道课件
- 2025年征信题库及答案
- 传染病及其预防(第一课时)课件-2025-2026学年人教版生物八年级上册
- 2025年社工工作者考试真题及答案
- 同城理发店转租合同范本
- 医院反诈宣传课件
- 2025年日本n4试题及答案
- 2025年秋期人教版3年级上册数学核心素养教案(第2单元)(教学反思有内容+二次备课版)
- 2025乡村医生培训考试试题库及参考答案
- 智慧工业园区AI大模型数字化平台建设方案
评论
0/150
提交评论