中国农大 数学建模民生杯一等奖论文.docx_第1页
中国农大 数学建模民生杯一等奖论文.docx_第2页
中国农大 数学建模民生杯一等奖论文.docx_第3页
中国农大 数学建模民生杯一等奖论文.docx_第4页
中国农大 数学建模民生杯一等奖论文.docx_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“民生杯”数学建模与计算技术应用大赛承 诺 书我们仔细阅读了“民生杯”数学建模与计算技术应用大赛的竞赛规则。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与本队以外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们愿意承担由此引起的一切后果。我们的参赛报名号为: 15参赛组别(本科、专科或研究生): 本科参赛队员 (签名) :队员1:訾海队员2:田凯强队员3:周金辉获奖证书邮寄地址:北京市海淀区清华东路17号中国农业大学 “民生杯”数学建模与计算技术应用大赛编 号 专 用 页参赛队伍的参赛号码:(请各个参赛队提前填写好):竞赛统一编号(由竞赛组委会送至评委团前编号):竞赛评阅编号(由竞赛评委团评阅前进行编号):“民生杯”数学建模与计算技术应用大赛目录摘要4一、问题分析5二、模型假设和建立52.1 模型假设及变量说明52.2 缺失数据的补充52.3 模型的建立92.3.1 第类模型:逐步回归法92.3.1.1 单指标逐步回归模型:102.3.1.2 多指标逐步回归模型:132.3.2 第类模型:聚类回归法172.3.2.1单指标聚类回归模型202.3.2.2多指标聚类回归模型202.3.3.1主成分分析法介绍212.3.3.1.2主成分分析数学模型212.3.3.1.3主成分分析的求解原理222.3.3.1.4 主成分分析运用的判定条件222.3.3.1.5确定主成分个数的方法232.3.3.1.6确定权重计算综合得分232.3.3.3.2主成分的确定242.3.3.3.3计算得分系数26三、模型的评价准则29四、模型的优缺点29五、参考文献30六、附录30洗衣粉去污功效研究摘要本文通过对86种产品的21个溶液属性数据和18中污渍的去污能力数据进行分析,建立了三大类反映溶液属性和去污能力之间关系的模型:一、利用逐步回归思想,选取单个及多个指标来代表所有指标,建立了单指标模型和多指标模型;二、利用聚类分析思想对庞大数据分类,再对各类数据利用逐步回归法,选择单个或者多个指标,建立单指标模型和多指标模型;三、利用主成分分析思想分别提取了21个溶液属性指标的4个主成分和18个去污功效指标的4个主成分,再运用多元统计分析的思想建立两类主成分之间的关系。其中,第二类模型是对第一类模型的改进和优化。对于前两类模型,本文使用MATLAB软件以及C+计算机编程进行求解。本文还提出了模型评价机制,利用该评价准则,从前两类模型的四个模型中选出了最优的模型:基于聚类分析思想的多指标逐步回归模型。回归的结果为: Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73 Y2=-0.0063X1+2.98X2+0.7466X8+58.76 Y3=-0.11X9-0.5X16+25.809本文还利用剩余的10组数据对模型进行了检验,发现模型效果良好。对于缺失的数据,本文以补充后数据的标准差尽可能小的办法进行补充,有些选取的是均值,有些选取的是平方项,有些选取的是交互项。关键字: 去污功效 洗衣粉 聚类分析 主成分分析 逐步回归一、问题分析通过对96组产品进行分析,文中提供了21个衡量水溶液属性的因子和评价洗衣粉的去污效果的18个指标。题目要求我们通过这些数据设法得到最合理描述溶液属性和去污效果之间关系的模型。于是,我们面临着两大难题: 如何从这么多的属性因子中挑选出最重要最相关的因子? 怎样选取最有价值的去污衡量指标?通过聚类思想、主成分提取思想以及计算机编程,这两个问题被很好的解决。在此基础上,我们的模型也建立了起来。二、模型假设和建立2.1 模型假设及变量说明在建立模型之前,我们将做出一些假设以使问题得到简化,并将我们文中使用的变量和符号进行说明。(1) 以前86组数据为研究样本,后10组数据为检验样本不影响原始数据的分布规律;(2) 相近的数据可以并为一类;(3) 缺失的数据可以通过某种方式补齐(4) 题目所给数据完全正确,不考虑实验误差和记录错误表格 1 变量说明表序号变量名含义1PP1PP21溶液属性因子2O1O18去污评价指标3118去污指标的权重4X1X18Matlab程序中对应PP1PP18的自变量5O综合的去污评价指标2.2 缺失数据的补充 经分析,PP02 和PP03 的缺失数据总是成对出现且缺失程度相同,不妨考虑用相同的方法进行研究。根据逐步回归的思想及matlab实现,O07、O05、O17 是对PP02 影响显的变量。建立PP02 关于O07、O05、O17 的多元线性回归方程 = + + + (1)利用PP02、O07、O05、O17 均完整的80 组数据求解系数,可得 = =11.1,-0.14,p2=-0.026,0.067对于PP02 缺失的6 组数据,利用(1) 式,即可完成预测(具体数据见附表)。经计算可知,对于预测前PP02 完整的80 组数据,其均值和标准差分别为1 1 m = -0.3456,s =1.4845对于预测后PP02 完整的86 组数据,其均值和标准差分别为2 2 m = -0.3983,s =1.4461所以,用上述方法对PP02 缺失的6 组数据的预测是比较合适的。同理,知17、O01、O18 是对PP03 影响显著的变量。建立PP03 关于O17、O01、O18 的多元线性回归方程 利用PP03、O17、O01、O18 均完整的80 组数据求解系数,可得 对于预测前PP03 完整的80 组数据,其均值和标准差分别为 = 4.621.99ms = =对于预测后PP03 完整的86 组数据,其均值和标准差分别为 = 4.59,1.9 =近似相等,已经很吻合了。以下对PP04 和PP05 进行分析研究:用matlab画出PP4PP5数据:观察图01 可知,PP04 和PP05 之间确实是存在较好的线性关系。利用此性质,可在PP04 与PP05 之间建立一个线性回归方程: 可得 =0.4,=0.59如何对PP05 的缺失数据做出合理预测呢?设PP05表示PP04 与PP06 的线性组合:PP04+PP06。做出其散点图:PP05 和PP05也存在较好的线性关系。利用此性质,可在PP05 和PP05 之间建立一个线性回归方程:Xpp5=d0+d1c0+d1Xpp61-d1c1可推导出 经计算可知, 对于预测后PP04 完整的86 组数据,其均值和标准差分别为 81.9,13.9对于预测前PP05完整的86组数据,其均值和标准差分别为 139.5,23.0所以,比较合适。2.3 模型的建立2.3.1 第类模型:逐步回归法在这里,我们认为描述溶液属性的18个因子中,仅有有限个因子对最终的去污效果有显著的作用。因此我们需要从18个因子中挑选出重要变量和非重要变量,而在后续的最小二乘法回归中,我们采用的自变量便是之前挑选出来的重要变量。虽然题中给出了21个自变量PP1PP21,但是不一定每一项都对洗衣粉去污功效Y有显著影响,考虑到各项之间或许有很强的相关性,我们挑出那些对整体Y有显著影响的来建立回归模型。变量选择的标准,应该是将所有对因变量影响显著的自变量都选入模型,而影响不显著的自变量都不选入模型,从便于应用的角度使模型中自变量的个数尽可能小。逐步回归就是一种从众多自变量中有效的选择重要变量的方法。其基本思路是,先确定一个包含若干自变量得出试剂盒,然后每次从集合外的变量中引入一个对因变量影响最大的,在对集合中的变量进行检验,从变得不显著的变量中移出一个影响最小的,以此进行,直到不能引入和移出为止。引入和移出都以给定的显著性水平为标准。下面是逐步回归法的原理流程图:开始添加一个新自变量到初始集合设定包含若干自变量的初始集合移出不显著的自变量重新回归,检验自变量的显著水平,存在不显著的变量?YN得到重要自变量集合结束在去污效果的衡量指标中,在实际生活中,有的人希望用一个值来衡量去污好坏,太多的指标让他们无所适从;有的人希望用几个指标来描述去污效果,这样显得客观。因此我们建立了两个子模型:单指标模型和多指标模型。2.3.1.1 单指标逐步回归模型:首先我们将O1到O18变量进行处理,新建变量O,代表综合的唯一的去污衡量指标。而O的数据,我们通过加权平均法得到。其中上式中的各权值通过下式得到:其中是第i个去污衡量指标的第j次抽样值。 用matlab工具箱中的逐步回归命令stepwise求解,可以得到Stepwise Table和Stepwise Plot,如下: 根据人机交互式画面,我们在画面上随意的引入与移出变量,计算机协助我们找到最终结果:当模型中仅含X1、X2、X8、X9(对应原来数据的PP1、PP2、PP8、PP9)时,其回归系数置信区间远离零点,说明X1、X2、X8、X9对因变量的综合性能有显著影响。有图为证: 图五前四幅图为正面论证,图五为反面论证,任意选取一个(除X1、X2、X8、X9以外)因变量X11,其结果仍调整为关于X1、X2、X8、X9,足见X1、X2、X8、X9对因变量影响是显著的。此时, Intercept=68.87 R-square=0.632 F=21.04 RMSE =6.145 Adj R-sq =0.602 p=3.81e-010易求得 = 67.75利用逐步回归,最终结果为:Y=0.00325X1-1.65X2-0.41X8+0.302X9+67.75 2.3.1.2 多指标逐步回归模型:观察到去污效果的18组数据中有几组数据很接近,我们有理由认为这些去污指标中存在相关关系,并非是相互独立的。因此通过检验互相关系数矩阵,我们选取相关性最小的几个去污指标作为模型的输出变量。我们用matlab软件求出18个输出变量的相关系数(即每一 列向量的相关性),如下:1.0000 0.2073 0.3364 0.7961 0.7555 0.7930 0.1923 0.2478 0.7253 0.6517 0.6250 0.6649 0.3530 0.3057 0.2211 0.1931 0.1593 0.1415 0.2073 1.0000 0.8763 0.3538 0.3548 0.2636 0.8005 0.7498 0.2951 0.4003 0.3517 0.3105 0.4999 0.5025 0.2932 0.2506 0.4252 0.3724 0.3364 0.8763 1.0000 0.5509 0.5539 0.3471 0.9095 0.8793 0.5262 0.5633 0.5368 0.5255 0.7164 0.7218 0.3510 0.3160 0.6604 0.5614 0.7961 0.3538 0.5509 1.0000 0.8314 0.6723 0.4418 0.5492 0.8772 0.7343 0.6977 0.7690 0.6596 0.6163 0.3011 0.3851 0.4717 0.4482 0.7555 0.3548 0.5539 0.8314 1.0000 0.7250 0.4773 0.4873 0.8351 0.8096 0.8202 0.8212 0.6655 0.6457 0.2701 0.2410 0.4716 0.3827 0.7930 0.2636 0.3471 0.6723 0.7250 1.0000 0.2851 0.2080 0.6085 0.5449 0.5136 0.5297 0.2828 0.2441 0.2501 -0.1193 0.1099 -0.0425 0.1923 0.8005 0.9095 0.4418 0.4773 0.2851 1.0000 0.8616 0.4692 0.4864 0.4601 0.4645 0.7904 0.7942 0.4663 0.2955 0.7363 0.6223 0.2478 0.7498 0.8793 0.5492 0.4873 0.2080 0.8616 1.0000 0.5637 0.5270 0.4983 0.5167 0.7887 0.8078 0.4159 0.4736 0.7577 0.7224 0.7253 0.2951 0.5262 0.8772 0.8351 0.6085 0.4692 0.5637 1.0000 0.8089 0.7830 0.8305 0.7300 0.6931 0.2753 0.3789 0.5772 0.5297 0.6517 0.4003 0.5633 0.7343 0.8096 0.5449 0.4864 0.5270 0.8089 1.0000 0.9510 0.9547 0.6530 0.5982 0.1003 0.2924 0.3999 0.4637 0.6250 0.3517 0.5368 0.6977 0.8202 0.5136 0.4601 0.4983 0.7830 0.9510 1.0000 0.9562 0.6500 0.6075 0.0440 0.2712 0.3740 0.4423 0.6649 0.3105 0.5255 0.7690 0.8212 0.5297 0.4645 0.5167 0.8305 0.9547 0.9562 1.0000 0.6995 0.6446 0.1146 0.2975 0.4404 0.4814 0.3530 0.4999 0.7164 0.6596 0.6655 0.2828 0.7904 0.7887 0.7300 0.6530 0.6500 0.6995 1.0000 0.9769 0.4870 0.5297 0.8444 0.8059 0.3057 0.5025 0.7218 0.6163 0.6457 0.2441 0.7942 0.8078 0.6931 0.5982 0.6075 0.6446 0.9769 1.0000 0.4903 0.5105 0.8769 0.8139 0.2211 0.2932 0.3510 0.3011 0.2701 0.2501 0.4663 0.4159 0.2753 0.1003 0.0440 0.1146 0.4870 0.4903 1.0000 0.4034 0.5311 0.4375 0.1931 0.2506 0.3160 0.3851 0.2410 -0.1193 0.2955 0.4736 0.3789 0.2924 0.2712 0.2975 0.5297 0.5105 0.4034 1.0000 0.4107 0.6901 0.1593 0.4252 0.6604 0.4717 0.4716 0.1099 0.7363 0.7577 0.5772 0.3999 0.3740 0.4404 0.8444 0.8769 0.5311 0.4107 1.0000 0.7897 0.1415 0.3724 0.5614 0.4482 0.3827 -0.0425 0.6223 0.7224 0.5297 0.4637 0.4423 0.4814 0.8059 0.8139 0.4375 0.6901 0.7897 1.0000我们用计算机自动查找出 小的非常特殊的两个量:0.0440、0.0425(图中红色数据),其坐标为(15,12)、(18,7),由此,我们可以充分选出能分别代表三组输出变量的 列向量:r7代表第一组,r12代表第二组,r15代表第三组。(由下文第二类模型的结果知,我们在18组因变量中 选出最主要的三组)选Y1=r7,重新带入上文的单指标逐步回归模型,用matlab求解:同样根据人机交互式画面,我们在画面上随意的引入与移出变量,计算机协助我们找到最终结果:当模型中仅含X2、X3、X9、X17时,其回归系数置信区间远离零点,说明X2、X3、X9、X17对因变量的综合性能有显著影响。此时, Intercept=29.8165 R-square=0.682 F=26.2533 RMSE =4.04 Adj R-sq =0.6558 p=1.155e-011易求得 = 29.73利用逐步回归,最终结果为: Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73选Y2=r12,重新带入,用matlab求解:我们在画面上随意的引入与移出变量,计算机协助我们找到最终结果:当模型中仅含X1、X2、X8时,其回归系数置信区间远离零点,X1、X2、X8对因变量的综合性能有显著影响。此时,Intercept=57.3137 R-square=0.429975 F=12.5718RMSE =14.7321 Adj R-sq =0.39577 p=3.03815e-006易求得 =58.76利用逐步回归,最终结果为: Y2=-0.0063X1+2.98X2+0.7466X8+58.76选Y3=r15,重新带入,用matlab求解:计算机找到最终结果: 当模型中仅含X9、X16时,其回归系数置信区间远离零点,X9、X16对因变量的综合性能有显著影响。此时, Intercept=25.7258 R-square=0.24317 F=8.19316 RMSE =3.01556 Adj R-sq =0.21349 p=8.21219e-004易求得 =25.809利用逐步回归,最终结果为: Y3=-0.11X9-0.5X16+25.809故多指标逐步回归模型的结果为:Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73Y2=-0.0063X1+2.98X2+0.7466X8+58.76Y3=-0.11X9-0.5X16+25.8092.3.2 第类模型:聚类回归法由于题目中的变量太多,如果直接由这么多的变量进行建模的话,非常耗费时间和精力,而且没有这么做的必要。所以,为了精简模型,我们对这些变量进行聚类操作,将作用相似的变量合并为一个变量,然后进行进一步的操作。聚类的算法大致如下,每一个变量可以看成是一个类,类与类之间的相似程度的测量使用类间距离,设Gp与Gq分别表示两个类,它们分别含有np和nq个样本。类Gp与Gq之间的距离记为Dpq,类平均距离。确定了样本间及类间的距离之后,便可以对样本进行分类。应用最广泛的一种分类方法就是系统聚类法,其计算流程如下:将n个样本分为n类,每类一个样本,然后计算任意两个样本之间的距离,构成一个对称距离矩阵(1) 选择中的非对角线上的最小元素,设这个最小元素是。此时,与距离最近,将合并成一个新类。在中消去和所对应的行与列,并加入由新类与剩下的其他未聚合的类间的距离所组成的新的矩阵,它是一个n-1阶方阵;(2) 从出发重复(2)的做法得,再由出发重复上述步骤,直到n个样品聚为1个大类为止。(3) 在合并过程中记下合并样品的编号及两类合并时的水平(即距离)并绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。为了对这些变量进行分类,我们设计的程序进行求解。程序采用Visual Basic 6进行编写,在Windows 7的环境下编译通过。在程序中,为了处理Excel表格中的数据,我们把Excel的格式转换为CSV(逗号分隔文件)格式,然后导入到程序中进行求解。程序的设计算法如下:1、 加载原数据文件,利用二维表存储各项指标以及数据;2、 对每一列数据进行计算,求得数据的平均值;3、 将n个样本分为n类,构造一个n*n的矩阵,矩阵中的元素dij代表指标j和指标i的距离;4、 这个矩阵为对称矩阵,求得矩阵上三角形中的最小距离的值以及对应的i和j的值;5、 将指标i和指标j合并到i,用指标i和指标j的中值取代指标i的值;6、 输出合并操作的对应参数;7、 此时剩下n-1阶矩阵,重新构造一个(n-1)*(n-1)阶的矩阵,计算其中的两两指标之间的距离;8、 重复上述操作,每执行完一次操作之后便将矩阵的阶数减一,直到最后矩阵的阶数为2,结束算法。程序的流程图如下所示:加载数据计算每项指标重心构造max*max阶矩阵计算两两样本间距离获得最小距离合并最小距离指标max=max-1max 2 ?分析结果是否程序在执行完之后,产生了一个日志文件,根据这个日志文件,我们将输入变量PP1至PP21划分为6组,划分情况如下:组别成员1PP12PP2、PP33PP44PP55PP6、PP7、PP8、PP10、PP11、PP12、PP13、PP14、PP15、PP16、PP17、PP18、PP19、PP20、PP216PP9根据我们选择去污指标的是否唯一,我们建立两个子模型:单指标聚类回归模型和多指标聚类回归模型。2.3.2.1单指标聚类回归模型我们首先对题目的给出的18个去污指标进行加权处理,得到唯一的综合指标:其中上式中的各权值通过下式得到:其中是第i个去污衡量指标的第j次抽样值。然后通过对21个溶液属性因子进行聚类,我们最终采用PP1、PP2、PP4、PP5 、PP6、PP9,这六组。进行多元线性回归得到回归方程如下:2.3.2.2多指标聚类回归模型由于观察到18个去污指标中,有些指标相似度比较高,因此我们仍采用聚类思想。同样的道理,我们又将输出变量O1至O18划分为3组,划分情况如下:组别成员1O1、O2、O3、O4、O5、O6、O7、O82O9、O10、O11、O123O13、O14、O15、O16、O17、O18将最终去污指标归结为三个:O1、O9、O13。然后我们利用聚类后的溶液属性因子分别针对三个去污指标做回归分析,利用stata11软件最终得到回归方程如下:2.3.3 第III类模型:结合主成分分析法的多元统计模型2.3.3.1主成分分析法介绍2.3.3.1.1 主成分分析法思想在许多社会和经济问题的研究中,为了获取充分的信息对问题进行可靠的判断,往往都会设置许多个统计指标,并尽可能详细地搜集数据资料。但是,在做一项评价时,这些指标甚至会多到十几个或几十个,从而增加了问题分析的复杂性。另外,这些指标所反映的信息经常是有重叠的。因此,人们希望选取的指标个数较少而得到的信息较多。由于在多数情况下,指标之间存在着一定的相关关系。当指标之间存在相关关系时,就可以利用少数综合型指标来反映原有的多个指标所反映的信息。但是,这些综合型指标需要满足两个条件:一是要求这几个综合指标能够充分反映原来的变量所反映的信息;二是要求这几个综合指标之间互不相关。于是,主成分分析方法诞生了。主成分分析法就是把一些相关性较强的指标进行压缩,得到几个互不相关但却能反映原有指标绝大部分信息的主成分,并且按其贡献率为权数构造一个综合评价函数,从而对各个体进行综合评价。综合指标都叫做原来变量的主成分。主成分分析的主要目的在于简化数据(降维)和揭示变量间的关系。与传统的综合评价方法相比,其优点在于:(1)它所确定的权数是基于数据分析而得到的指标间的内在结构关系,具有良好的客观性。(2)它能有效地剔除不相关指标的影响,从而使单项指标的选择余地更大。(3)它得到的综合指标(即主成分)之间相互独立,不仅使指标维数大大降低,还减少了信息交叉和冗余,对于分析极为有利。(4)它的实现方法可以借助于统计软件SPSS、SAS等,而不需要过多专业知识,可操作性强。2.3.3.1.2主成分分析数学模型设Z1、Z2Zm为实际问题所涉及的q个随机变量,含有p个独立的公共因子X1、X2XP (mp),每个变量Z1,含有特殊因子Ui (i=1m),特殊因子间互不相关,且与公共因子不相关,每个Z1,可以由p个公共因子和自身对应的特殊因子Ui (i=1m)线性组合,如下:Z1=l11X1+l12X2+l1pXp+c1U1Z2=l21X1+l22X2+l2pXp+c2U2Zm=lm1X1+lm2X2+lmpXp+cmU1即:Z1Z2Zm=(lij)mpX1X2Xm+c1U1c2U2cmU1简记为:Z=LX+CU2.3.3.1.3主成分分析的求解原理将式Z=LX+CU乘以转置矩阵方程Z=XL+UC,再取数学期望可得:EZZ=E(LXXL+LXUC+CUXL+CUUC)又由于EZZ=R,为Z的相关矩阵,得到:R=LL+l2,令R*=R-l2,称R*为约相关矩阵,有R=LL:R*=1-l12 r12 r1m r21 1-l12 r2m rm1 rm2 1-lm2当进行主成分分析求解时,用相关矩阵R取代约相关矩阵R*,即令有变量的公因子方差为l,此时:R*=R=1 r12 r1m r21 1 r2m rm1 rm2 1因为任意一个实对称矩阵可用它的标准正交特征向量组成的矩阵Q进行变换。R是一个实对称矩阵,因此可以分解为R=QQ,,其中Q是它的标准正交特征向量组成的矩阵,是对应的特征根。进一步推导可得:R=QQ=(Q)( Q),同时结合R=LL,可得因子载荷矩阵的解:A= Q。这样求解因子载荷矩阵,可通过资料矩阵的相关阵R计算特征值和特征向量进行。2.3.3.1.4 主成分分析运用的判定条件不是所有的多变量数据都适合采用主成分分析的方法。只有变量之间彼此相关且绝对值较大并显著时,才可进行主成分分析。若大部分变量之间的相关性很小,表明他们之间存在公共因子的可能性很小,不能使用主成分分析法。所以,在运用该方法前,可用如下方法进行判定:巴特利特球体检验。该检验的目的在于确定所要求的数据是否取自多元正态分布的总体。其虚无假设是“相关矩阵是一个单位矩阵”。若差异检验的F值显著,表示该相关矩阵不是单位矩阵,所取数据来自正态分布总体,可以做进一步分析。2.3.3.1.5确定主成分个数的方法主成分分析简单可以概括为在尽可能保存原有资料信息的前提下,用较少的维度,或是较少的新变量去表示原来的数据结构,从而便于发现规律和本质。进行主成分分析保留主成分的方法如下:(1)一般取累计方差贡献率达85%95%的主成分。(2)选用所有特征根大于等于1的主成分。(3)累积特征值乘积大于l的主成分。一旦确定主成分,就要利用主成分得分系数矩阵计算主成分的得分。2.3.3.1.6确定权重计算综合得分在主成分分析中,权重是根据方差贡献率来定的,即:wi=iipi换句话说,权重就是用每个主成分的方差百分比在最终选取的主成分方差累计贡献率的累计数中所占的比重。如果研究的样本包含n个样本,则可根据以上确定的主成分和权重给各个样本进行综合打分。若yj(i)为样本i在第j个主成分上的得分,则该样本的综合得分值用下式计算为:F(t)=w1y1(i)+w2y2(i)+wmym(i)2.3.3.2数据标准化原始数据的量纲不同,所以不能直接进行比较。为此,必须对选取的数值进行标准化处理。比较常见的标准化方法有小数缩放、最小最大、标准差方法。这些方法会使本来分散的数据人为的集中在某个很小的范围之内。本文利用最小-最大规范化方法对数据进行标准化处理,设minL和maxL分别为属性L的最小和最大值,则利用公式:L=L-minLmaxL-minL对原样本进行标准化处理,使得所有数据无量纲化,并且大小均在(0,1)之间。2.3.3.3用SPSS进行主成分分析本文主要应用EXCEL和SPSS两个软件,利用其强大的统计功能和数据分析能力,主要使用主成分分析的方法洗衣产品的21种溶液属性进行分析,提取出主成分。实验模型情况如下:实验数据属性数据21种溶液属性实验类别溶液的属性关系分析指标数21模型参数群体规模86最大跌代数20综合评价权重wi=iipi利用主成分分析法分析的有关操作结果和解释如下文。2.3.3.3.1 KMO检验和Bartlett检验利用SPSS的命令AnalyzeData ReductionFactor,即可对数据进行KMO检验和Bartlett检验,以判断该数据能否进行主成分分析,以及主成分分析的效果。有关分析结果如下表:KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.764Bartletts Test of SphericityApprox. Chi-Square864.186df91Sig.000本文中的Bartlett检验的F值小于0.001,表明所选用的数据来自正态分布总体,不存在人为特殊考虑的因素。KMO分析观测变量之间简单相关系数和偏相关系数的相对大小,得出KMO=0764,适合进行因子分析,效果很好。2.3.3.3.2主成分的确定用SPSS处理有关数据,可以得到数据的总方差解释表和初始因子载荷阵,具体值如下表:Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %16.08443.45843.4586.08443.45843.45821.93913.84957.3071.93913.84957.30731.43710.26667.5731.43710.26667.57341.2899.20676.7791.2899.20676.7795.7375.26382.0416.6644.74186.7827.5063.61390.3958.3862.75993.1539.2581.84294.99510.2041.45496.44911.1911.36397.81212.1451.03898.85113.095.68099.53014.066.470100.000Extraction Method: Principal Component Analysis.上表是总方差解释表,表中的Initial Eigenvalues(初始特征根)栏的的数值是按顺序排列的主成分得分的方差(Total),它们在数值上等于相关系数矩阵的各个特征根。因此,可以直接根据特征根计算每一个主成分(特征根)的方差百分比(ofVariance),即特征根和变量数的比值的百分数。由于全部特征根的总和等于变量的数目,即m=ipi=14, 因此第一个特征根(主成分)的方差百分比为im=6.08414=43.458%,第二个特征根的方差百分比为57.307%以此类推。根据各主成分的方差百分比,可以计算出方差累计值(Cumulative)。根据主成分提取原则,即取累计贡献率7595和特征根il两条原则,提取主成分1、主成分2、主成分3和主成分4。据此,可以求出主成分方差贡献率矩阵。主成分方差贡献率矩阵主成分方差贡献率特征根方差贡献率方差贡献率累计主成分16.08443.45843.458主成分21.93913.84957.307主成分31.43710.26667.573主成分41.2899.20676.779Component MatrixaComponent1234PP6.378.296.524-.341PP7.407.464.223-.228PP8.474.551.336-.011PP10.586-.519.232.413PP11.718.221-.436.279PP12.782.089-.309.041PP13.369-.561.473.418PP14.723.322-.146.405PP15.771.258.061.373PP16.712-.506.072-.349PP17.755-.226-.426-.271PP18.795-.226-.310-.357PP19.716-.297.296-.251PP20.778.272.204-.084上表是成分载荷矩阵,载荷值是各个变量与有关主成分的相关系数。以第一列为例,第一列的0.378是PPT6与第一个主成分的相关系数。从主成分载荷矩阵可以看出,PPT6在第二主成分上的载荷较大,也即与第二主成分的相关系数较高;而PPT7在第一主成分和第二主成分上的载荷较大,也即与第一和第二主成分相关程度高。2.3.3.3.3计算得分系数上表(初始因子载荷矩阵)中的每列除以相应的特征根的开方后,就得到各主成分得分系数矩阵,具体结果见下表。Component Score Coefficient MatrixComponent1234PP6.062.153.365-.265PP7.067.239.155-.177PP8.078.284.233-.009PP10.096-.267.162.321PP11.118.114-.303.216PP12.128.046-.215.032PP13.061-.290.329.325PP14.119.166-.101.314PP15.127.133.043.289PP16.117-.261.050-.270PP17.124-.117-.297-.210PP18.131-.116-.216-.277PP19.118-.153.206-.195PP20.128.140.142-.065设各指标标准化后的值用Xi(i的系数和上表指标的顺序相同)表示,每个主成分的得分用yi(i的系数和主成分的系数相同)表示。根据主成分得分系数矩阵及变量的观测值可以计算每个主成分的得分:第一主成分y1=0.062x1+0.067x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11+0.131x12+0.118x13+0.128x14第二主成分y2=0.153x1+0.239x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.116x12-0.153x13+0.140x14第三主成分y3=0.365x1-0.117x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.206x12+0.206x13+0.142x14第四主成分y4=-0.265x1+0.067x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.277x12-0.195x13-0.065x14同理,可以提取18种污渍的去污功效指标.对这18种去污指标,通过主成分分析法提取出了4个主成分,各主成分的得分结果如下:第一主成分y1=0.052x1+0.063x2+0.080x3+0.080x4+0.076x5+0.050x6+0.078x7+1.233x8+0.094x9+0.093x10+0.045x11+0.052x12+0.083x13+0.075x14第二主成分y2=0.184x1-0.112x2-0.111x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.069x11-0.088x12-0.092x13-0.118x14第三主成分y3=0.088x1-0.330x2-0.286x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.057x10+0.451x11+0.471x12+0.098x13+0.212x14第四主成分y4=0.242x1+0.320x2+0.143x3+0.121x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.51

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论