应用统计补充专题_第1页
应用统计补充专题_第2页
应用统计补充专题_第3页
应用统计补充专题_第4页
应用统计补充专题_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、补充专题1:主成分分析在实际问题中,人们通过做实验来收集到大量变量(指标)的数据,以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是常因变量之间存在的相关性增加了问题分析的复杂性。因此需要找到一个合理的方法,在减少分析变量的同时,尽量减少原变量包含信息的损失,对所收集的资料做全面的分析。主成分分析可以在众多的变量中,找出少数几个综合性变量,(这些综合变量就称为主成分Principal Components),来反映原来变量所反映的主要信息,且相互之间又是无关的,从而使问题简化。例如上衣尺寸主要包括领长、袖长、衣长、胸围、袖宽等

2、14 个变量,它们显然是相关的,因此可以找出反映上衣特征的两个不相关的综合变量,就是上衣的型和号,这两个综合变量反映了其主要信息,因此这样做出的衣服能适合大多数人。主成分分析的作用在于: 能降低所研究的数据空间的维数; 可以用于分析筛选回归变量,构造回归模型; 可以用于综合评价; 可以对变量进行分类。一、 主成分分析的思想方法1主成分分析的基本原理主成分分析就是考虑各变量间的相互关系,利用降维的思想把多个变量转换成较少的几个互不相关的综合变量。那么,怎样实现变量的降维呢?例如,儿童身高(X1)和体重(X2)两个变量之间的关系可以用散点图表示出来,如图1所示。显然,这两个变量之间存在线性关系。现

3、在以直线P1为横坐标,以其垂线P2为纵坐标,建立一个新的平面直角坐标系,则所有观测点均在坐标轴P1周围(即沿该方向观测值方差最大),而在坐标轴P2方向上的波动很小,可以忽略。这样,二维问题即可以降为一维问题,只取一个综合变量P1(主成分)即可。图1 变量降维示意图这种降维方法相当于在平面上做一个坐标变换,即按逆时针方向旋转一个角度,根据旋转变换公式,新旧坐标之间有如下关系 式中u11,u21,u12,u22是可以计算出来的,新变量P1和P2是原始变量的线性组合,而且二者相互垂直,即新变量P1和P2不相关。一般来说,主成分就是p个原始变量的一些特殊的线性组合;而从几何上看,这些线性组合正是由X1

4、,X2,Xp构成的坐标系经旋转而产生的新坐标系,新坐标系使之通过具有最大的子样方差的方向。2. 主成分分析的数学模型假设有p个变量(指标) X1,X2,Xp,寻找其主成分P 1,P2,,Pp,要求满足如下条件:(1) Pi是原变量X1,X2,Xp的线性组合. 即(P1,P2,,Pp)=(X1,X2,Xp)U, 简记为P=XU.(2)Pi和Pj不相关,即.(3)主成分的方差依次递减,即. 亦即主成分包含的信息量(从而使其重要性)依次递减. 称Pi为第i主成分(i=1,2,p).(4)总方差不变,即.每个主成分的系数平方和为1,即.3主成分的求法求主成分就是寻找X的满足上述要求的线性函数P=XU,

5、步骤为 第一步:确定分析变量,收集数据资料。对变量X1,X2,Xp进行n次观测,得到样本数据资料矩阵为第二步:对原始数据进行标准化。原始数据标准化为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将数据矩阵X标准化的方法。均值:,子样标准差:.标准化公式:则有标准化数据矩阵:第三步:对标准化数据矩阵计算子样相关阵。第四步:对R进行特征分解计算R的特征值i及相应的单位正交特征向量Ui, i=1,2,p,并按i的由大到小排列得到对角阵,及正交阵矩阵U=(U1,U2,Up),则Pi=XiU为第i主成分(i=1,2,p)。即事实上,由知 ,即,亦即. 说明主成分的子样方差D(Pi)=i,且依次递

6、减, 因此分别称P1为第一主成分,P2为第二主成分,, 依次类推。称矩阵U为主成分载荷阵,矩阵P为主成分得分阵。第五步:主成分个数的确定实际中,为简化问题,通常是提取q(qp)个主成分就够了。提取主成分个数的原则是这q个主成分能够反映出原来P个变量的绝大部分的方差。1) 第i个主成分的方差贡献率特征值i是样本观测值在其第i个主成分上的方差(分散程度),如果i的值很小,说明这个主成分在分析样本数据时所起的作用不大,可以忽略。那么,小到什么程度才可以忽略呢?为此引入方差贡献率第i个主成分的方差在全部方差中所占的比重,即(即),反映了第i个主成分综合原来p个变量信息的能力,称为第i个主成分的方差贡献

7、率,。2) 前q个主成分的累积方差贡献率前q个主成分共有多大的信息综合能力,用这q个主成分的方差和在全部方差中所占比重(即)来描述,称为前q个主成分的累积方差贡献率。3) 主成分个数的确定一般取累计贡献率80%的前q个主成分,或选用特征值1的前q个主成分。第六步:将子样观测数据代入前q个主成分的表达式,可分别计算出前q个主成分的得分。有了主成分的得分值,则可以在许多分析中使用这些主成分,进一步做综合评估、聚类分析以及回归分析。二、主成分分析的应用实例【例1】 某地区为了对14家工业企业进行经济效益的综合评估,选择了8项不同的利润指标,包括净产值利润率X1(%)、固定资产利润率X2(%)、总产值

8、利润率X3(%)、销售收入利润率X4(%)、产品成本利润率X5(%)、物耗利润率X6(%)、人均利润率X7(%)、流动资金利润率X8(%)。统计数据资料如下表1所示。试进行主成分分析。表1 14家工业企业利润指标的统计数据企业序号X1X2X3X4X5X6X7X8123456789101112131438.532.31.812.524.840.648.422.035.634.322.313.225.040.49.113.90.69.78.019.113.47.812.511.86.73.312.724.711.39.40.74.29.819.810.99.916.47.15.63.911.27.

9、29.58.30.74.28.919.09.910.216.77.13.74.311.06.112.29.80.84.611.929.710.912.622.88.06.04.412.98.316.413.31.16.516.239.613.917.629.38.97.45.520.28.71.3272.1260.0560.8740.7892.4491.7720.8473.0171.7260.1760.5783.5422.44211.617.11.03.913.735.817.810.626.627.57.33.69.120.0解:(1) 计算相关系数矩阵。表2 相关系数矩阵X1X2X3X4X

10、5X6X7X8X11.000X20.7631.000X30.7080.5531.000X40.6430.5140.9881.000X50.5960.5150.9780.9811.000X60.5440.4690.9740.9800.9921.000X70.6220.7360.6830.6970.6270.6301.000X80.7730.7120.7800.7330.7870.7240.6221.000(2) 计算相关系数矩阵的特征值和相应的单位正交化特征向量,见表3、表4。表8-3 相关系数矩阵的特征值及贡献率主成分特征值贡献率/%累计贡献率/%123456786.136621.042130

11、.435950.220370.151910.008830.002960.0012276.70813.0275.4492.7551.8990.1100.0370.01576.70889.73495.18497.93899.83799.94899.985100.000由表3可知,前2个主成分的累计贡献率已经达到89.734%,故只需提取前2个主成分即可。表4 对应于特征值的特征向量主成分U1U2123456780.3211320.2961640.3891200.3847240.3795510.3708670.3199550.3554610.4151050.597663-0.229744-0.278

12、693-0.316317-0.3715050.2781450.156836 (3) 计算主成分得分。前2个主成分函数为:P1=0.321132X1+0.296164X2+0.389120X3+0.384724X4+0.379551X5+0.370867X6+0.319955X7+0.355461X8P2=0.415105X1+0.597663X2-0.229744X3-0.278693X4-0.316317X5-0.371505X6+0.278145X7+0.156836X8第一主成分P1在8个指标的系数近似相等,它是综合反映了各工业企业的总经济效益,其贡献率高达76.71%。因此可以根据第一主成分P1的值对各工业企业进行综合评估。将标准化后的数据资料代入到主成分表达式(1)中,即可计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论