统计分析软件应用SPSS-主成分分析实验报告_第1页
统计分析软件应用SPSS-主成分分析实验报告_第2页
统计分析软件应用SPSS-主成分分析实验报告_第3页
统计分析软件应用SPSS-主成分分析实验报告_第4页
统计分析软件应用SPSS-主成分分析实验报告_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本科学生综合性、设计性实验报告实验课程名称 统计分析软件应用 开课学期 2010 至 2011 学年 下 学期 上课时间 2011 年 4 月 25 日 辽宁师范大学教务处编印一、实验方案实验名称:主成分分析实验时间:2011.04.25小组合作:是 否小组成员:1、 实验目的:掌握主成分分析的思想和具体步骤。掌握SPSS实现主成分分析的具体操作,并对处理结果做出解释。2、 实验设备与材料:Windows XP;SPSS for Windows13.0等。3、 实验方法步骤及注意事项操作步骤:(1)打开SPSS软件,新建一数据文件,定义变量:Company(公司名称)、X1(赔付率)、X2(净

2、收入与总收入之比)、X3(投资收益率)、X4(再保险率)、X5(总资产报酬率)、X6(两年保费收入收益率)、X7(保费收入变化率)、X8(流动性比率),这些变量中除了Company为字符串型(String)变量外,其余变量均为数值型(Numeric)变量。 (2)选择菜单Analyze=Data Reduction=Factor进入Factor Analysis主对话框。选定左边列表中的变量X1、X2、X3、X4、X5、X6、X7、X8,单击按钮使之进入Variables列表框。(3)单击主对话框中的Descriptive按钮,打开Factor Analysis:Descriptives子对话

3、框,在Statistics栏中选择Univariate descriptives项要求输出各变量的均值与标准差,在Correlation Matrix栏内选择Coefficients项要求计算相关系数矩阵,单击Continue按钮返回Factor Analysis主对话框。(4)单击主对话框中的Extraction按钮,打开Factor Analysis:Extraction子对话框。在Method列表中选择默认因子抽取方法Principal Components,在Analyze栏中选择默认的Correlation Matrix项要求从相关系数矩阵出发求解主成分,在Extract栏中选择默认

4、项Eigenvalues over:1,Maximum iteration convagence:选择25,在Display中选择Scree plot单击Continue按钮返回Factor Analysis主对话框。(5)Rotation和 Scores,均选择默认选项,单击主对话框OK按钮,输出结果。注意事项:可以看出,主成分分析依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。另外,如果原始变量都本质上独立,那么降维就可能失败。这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。在得到分析的结果时,并不一定会都得到比较清楚的结果。这与问题的性质,

5、选取的原始变量以及数据的质量等都有关系。(1)由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;(2)对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; (3)主成分分析不要求数据来源于正态分布; (4)在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的 问题(最小特征根接近于零,说明存在多重共线性问题); (5)因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。4、 实验数据处理方法:选取了人保、平安、太平洋、

6、大众、华泰、永安、华安7个保险公司的数据,指标都是正指标,无需归一化,SPSS13.0将自动对原始数据进行标准差标准化处理,消除指标量纲及数量级的影响。5、 参考文献:1 卢纹岱.SPSS for Windows统计分析M.电子工程出版社,20062 郭显光. 如何用SPSS软件进行主成分分析J. 统计与信息论坛,1998, (2)3 何晓群. 现代统计分析方法与应用M. 中国人民大学出版社,19984 余建英、何旭宏. 数据统计分析与SPSS应用M. 人民邮电出版社,20036、指导老师对实验设计方案的意见: 指导老师签名: 年 月 日 二、实验报告1、实验目的、设备与材料、理论依据、实验方

7、法步骤见实验设计方案2、实验现象、数据及结果表1描述性统计量表 表2 主成分因子荷载矩阵表表3 相关系数矩阵表表4 公因子方差表 图1 碎石图 表5 总方差分解表3、对实验现象、数据及观察结果的分析与讨论:表1是描述统计量表,主要列出了统计量的均值、方差和数据个数。表2是主成分因子荷载矩阵表,系数表示该因子对变量的影响程度。这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为赔付率、净收入与总收入之比、投资收益率、再保险率、总资产报酬率、两年保费收入收益率、保费收入变化率、流动性比率,这八个原先变量的线性组合,系数(比例)为0.819、0.926、0.733、-0.0

8、42、0.864、0.562、-0.886、-0.017。如用x1、x2、x3、x4、x5、x6、x7、x8分别表示原先的十个变量,而用y1、y2、y3表示新的变量,那么原先8个变量与第一、第二和第三主成分y1、y2、y3的关系为:X1= 0.819y1- 0.159y2- 0.517y3X2= 0.926y1+0.271y2+0.250y3X3= 0.733y1- 0.278y2+0.582y3X4=-0.042y1+0.913y2+0.365y3X5= 0.864y1+0.249y2+0.331y3X6= 0.562y1+0.302y2- 0.502y3X7=-0.886y1+0.330y

9、2+0.260y3X8=-0.017y1+0.819y2- 0.456y3相关系数(绝对值)越大,主成分对该变量的代表性也越大。表3是相关系数矩阵表。 表4是公因子方差表。表5是总方差分解表,这里的Initial Eigenvalues就是这里的八个主轴长度,又称特征值(数据相关阵的特征值)。头三个成分特征值累积占了总方差的90.818%。后面的特征值的贡献越来越少。依据原则:特征值1,提取了3个公因子(主成分),每个原始变量都可以是8个因子的线性组合,提取3个因子,可以概括原始变量所包含信息的90.818%。这3个公因子(主成分)包含了原指标的绝大部分信息,可以代替原来8个变量对保险公司的投

10、资收益进行衡量。图1是碎石图,特征值的贡献还可以从碎石图看出。表6 因子与主成分a1a2a3b1b2b3X10.819-0.159-0.5170.4140-0.1150-0.4310X20.9260.2710.2500.46810.19600.2084X30.733-0.2180.5820.3705-0.15770.4852X4-0.0420.9130.365-0.02120.66030.3043X50.8640.2490.3310.43670.18010.2759X60.5620.302-0.5020.28410.2184-0.4185X7-0.8860.3300.260-0.44780.2

11、3870.2167X8-0.0170.819-0.456-0.00860.5923-0.3801特征值3.9141.9121.439贡献率48.929%23.898%17.991%累计贡献率48.929%72.827%90.818%主成分表达式:b1= 0.819*X1+0.926*X2+0.733*X3-0.042*X4+0.864*X5+0.562*X6-0.866*X7-0.017*X8b2=-0.159*X1+0.271*X2-0.218*X3+0.913*X4-0.249*X5-0.302*X6+0.330*X7+0.819*X8b3=-0.517*X1+0.250*X2+0.582

12、*X3+0.365*X4-0.331*X5-0.502*X6+0.260*X7-0.456*X8表7Y1Y2Y323.597045.8211-51.804613.012663.8449-52.662446.498062.1039-79.1359-35.165072.3593-42.7826179.1660173.5938-281.8318-45.481694.4003-15.3631-60.558271.9628-17.6074Y1= 0.4140*x1+0.4681*x2+0.3705*x3-0.0212*x4+0.4367*x5+0.2841*x6-0.4478*x7-0.0086*x8Y

13、2=-0.1150*x1+0.1960*x2- 0.1577*x3-0.6603*x4+0.1801*x5+0.2184*x6-0.2387*x7-0.5923*x8Y3=-0.4310*x1+0.2084*x2+0.4852*x3+0.3043*x4+0.2759*x5-0.4185*x6+0.2167*x7-0.3801*x8加权:输出结果,并从高到低进行排序:表81:人保2:平安3:太平洋4:大众5:华泰6:永安7:华安Z主成分综合得分NumZ主成分综合得分Num13.17591:人保78.4452华泰12.15012:平安23.3553太平洋23.3553 3:太平洋13.1759人保

14、-7.61054:大众12.1501平安78.44525:华泰-2.4579永安-2.45796:永安-7.6105大众-15.60067:华安-15.6006华安可以如上所述计算主成分得分,还可以通过综合评价函数计算综合得分:综合评价函数:Z=48.929%*Y1+23.898%*Y2+17.991%*Y34、结论:表8中,综合得分出现负值,这只表明该保险公司的综合水平处于平均水平之下。由主成分分析的实证结果,不仅大部分保险公司的排名存在差异,且综合得分值上存在较大差异,其定量值差异较大,这对于后来的综合定量定性分析,最终所提出的政策建议等都会产生较大影响。由表8可以看出:华安保险的综合水平

15、最低,华泰保险的综合水平最高。由于前三个主成份的贡献率高达90.818%,用综合得分值对各地区进行排序,能从总体上反映各公司之间的差别。5、实验总结:1)、本次实验成败之处及其原因分析:主成分分析是一种通过降维技术把原来众多具有一定相关性的变量化为少数几个主成分的统计方法。通常,只要变量之间存在一定的相关性,前几个主成分往往就具有较高的累计贡献率,从而这少数的几个主成分就反映原始变量的绝大部分信息,从而达到较好的降维目的。通过SPSS可以容易进行主成分分析,得到数据间的主成分,从而可以很好的分析数据。2)、本实验的关键环节及改进措施:做好本实验需要把握的关键环节:通过总方差分析表得到贡献率大的主成分的特征值,通过主因子荷载表,应用compute计算主成分表达式的,然后加权计算综合得分,最后进行排序。进行综合得分时,除SPSS软件外,其他软件都分别设有两种方法的过程命令,使用者可以根据需要采用其中一种来分析问题,一般不会混淆。而正是因为SPSS没有直接进行主成分分析的命令,才使得那些本身尚未清楚区分这两种方法的使用者更加迷惑,不慎便会出现混淆性错误。若重做本实验,为实现预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论