高教社杯全国大学生数学建模竞赛A题.doc_第1页
高教社杯全国大学生数学建模竞赛A题.doc_第2页
高教社杯全国大学生数学建模竞赛A题.doc_第3页
高教社杯全国大学生数学建模竞赛A题.doc_第4页
高教社杯全国大学生数学建模竞赛A题.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从a/b/c/d中选择一项填写): a 我们的参赛报名号为(如果赛区设置报名号的话): 20122125 所属学校(请填写完整的全名): 参赛队员 (打印并签名):1. 2. 3. 指导教师或指导教师组负责人(打印并签名): 教练组 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):葡萄酒的评价摘 要本文要研究的是酿酒葡萄和葡萄酒理化指标与葡萄酒质量之间的关系。对于问题一:首先从外观分析、香气分析、口感分析、平衡/整体评价以及各类指标总得分五个方面进行方差分析得到有显著性差异,然后进行t检验验证出第二组品酒员的结果更可信。 对于问题二:首先分析附件2中一级指标的数据,运用主成份分析法得出综合评价值,然后用聚类分析法得到葡萄样本的冰柱图,再综合第二组的评分进行酿酒葡萄的分级(升级排序),等级1样本:27,11,26,25,10等级1样本:18,12,25,28,27,24等级2样本:19,14,16,13,4,20等级2样本:3,26,10,15,5,7等级3样本:22,24,7,5,18,8,15等级3样本:9,23,20,2,14,6等级4样本:21,6,23,17,12等级4样本:13,19,21,4,11等级5样本: 1,2,9,3等级5样本:17,16,1,8,22 酿酒红葡萄 酿酒白葡萄 对于问题三:首先运用主成分分析法得到各主成分的贡献率,取贡献率最高的主成分列出关系式进行分析,进而筛选出重要理化指标,然后再进行典型相关分析,运用matlab进行编程,求得反应酿酒葡萄与葡萄酒的理化指标之间联系的典型相关系数,再进行典型相关系数的显著性检验,得到两者有显著性关系。对于问题四:将芳香物质作为新的指标做主成分分析,得到样本综合得分排序,然后用matlab做数据拟合,分析得出酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响是显著的,但由于感官指标等因数的影响而不能评价葡萄酒的质量。关键词:方差分析 t检验 主成分分析法 谱系聚类 典型相关分析 数据拟合 spss matlab 一、问题重述1.1 问题背景确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。1.2 需要解决的问题附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析本文要研究的酿酒葡萄和葡萄酒理化指标与葡萄酒质量之间的关系。针对问题一:首先,对数据出现的问题进行处理,由于葡萄酒品尝评分指标有十个小项分类为四个大项,分别对每个样品评价的四个大项求和。再从外观分析、香气分析、口感分析、平衡/整体评价以及各类指标总得分五个方面进行方差分析。针对问题二:根据问题一的分析第二组评酒员的评价结果更可信,所以要以第二组评酒员在对葡萄酒打的总分来确定葡萄酒的质量。根据附件2表格,采用一级指标数据进行主成分分析和聚类析,得到葡萄样本的排序。需要先运用主成份分析法对相对指标作出测评,再将原始指标转变为主成分过程中,同时形成了反映主成分和指标包含信息量的权数,以计算综合评价值,之后再用聚类分析法对其进行层次划分,以更具体地分析葡萄样本包含成分。最后结合主成分得分排名,聚类分析图和葡萄酒质量打分进行综合分级。由于新国标将葡萄酒分为优、优良、合格、不合格和劣质品5个等级1,所以我们把酿酒葡萄叶分为五个等级1、2、3、4、5,且等级逐渐增大为更优。针对问题三: 采用典型相关分析的方法来研究两组变量之间相关关系。首先运用第二问的主成分分析法得到各样本主成分的贡献率,取贡献率最高的一个主成分列出关系式进行分析讨论,进而删除一些不重要理化指标,然后再进行典型相关分析,运用matlab进行编程,求得酿酒葡萄与葡萄酒的理化指标之间的联系的典型相关系数。针对问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,需要把芳香物质的总和作为新的指标变量加入到问题2中的指标数据中,然后再做主成分分析,得到样本综合得分排序,最后根据得分用matlab做数据拟合。三、数据分析3.1缺失数据的填补第一组红葡萄酒评分中品酒员4号对酒样品20关于外观分析色调的评分空缺了数据,我们先求出了已知9个人关于外观色调评分的平均值约6.2,且众数为6,所以6来填补该空缺表较合理。3.2超额数据的修改1)在第一组白葡萄酒品尝评分中评酒员7对于酒样品3的打分数据77明显高于持久性的满分8分,且该项其他9位评酒员打分的众数为7,所以修改此数据为7。2)在第一组白葡萄酒品尝评分中评酒员9对于酒样品8的打分数据16明显高于持久性的满分8分,再联系上下样品的打分数据发现此评酒员7对于持久性打分多为5分,且求得其他9位评酒员对改样品打分的平均分为5.67,所以修改此数据为5。3)在附录2中白葡萄的理化指标百粒质量中样品1葡萄的第三个测试数据2226.1(原附录位置dd34),联系第一、二测试数据225.8和224.6,第三个数据改为226.1。3.3从指标研究附件1数据表1各指标各组葡萄酒品尝评分均值表第一组红酒样品均值第二组红酒样品均值第一组白酒样品均值第二组白酒样品均值外观分析澄清度3.42 3.49 3.27 3.41 外观分析色调7.10 6.32 6.70 6.77 香气分析纯正度4.34 4.15 4.52 4.51 香气分析浓度5.93 5.67 6.36 6.29 香气分析质量12.33 11.77 12.65 12.59 口感分析纯正度4.05 3.97 4.02 4.50 口感分析浓度5.74 5.52 5.91 6.15 口感分析持久性5.93 5.82 6.00 6.33 口感分析质量15.44 15.04 15.56 16.73 平衡/整体评价8.80 8.76 8.96 9.25 图1图2从1、2图可以粗略看出来两组品酒员的评价结果均值方面没有显著性差异。四、 模型假设假设一:题目所给数据真实可信。假设二:葡萄酒的质量可用每个评酒员在对葡萄酒打的总分来确定。假设三: 两组品酒人的打分相互独立,互不干扰,且公正打分。假设四:所有评酒员对葡萄酒的打分近似于正态分布。五、符号说明符号符号说明第i位品酒员的打分第i个指标(i=1,2,31) 第i个主成分表达式(i=1,2,30)为综合得分(j=1,2,6)指标变量(i=1,2,30)选出的指标变量(i=1,2,30)类别谱系聚类中的距离六、模型的建立与求解6.1 问题一模型的建立及求解本问研究的是通过方差分析附件1中两组评酒员的评价结果有无显著性差异。不能单凭从所得到的指标打的总得分进行分析,而要从四大项各自得分之和和总得分分别进行方差分析。举例分析:红葡萄酒外观方差分析表2 第一组红葡萄酒酒样品1外观分析数据表首先把各品酒员对外观打分求和,然后求品酒员打分方差和各样品方差之和方差公式:,matlab代码见附录1第一组红外观分析酒样品1酒样品2酒样品3酒样品4酒样品5酒样品6品酒员113.694.41100.490.81品酒员20.494.41000.491.21品酒员35.290.81101.691.21品酒员40.491.21012.893.61品酒员528.0915.21495.291.21品酒员60.090.01415.290.81品酒员71.690.81140.490.01品酒员80.090.81100.490.81品酒员90.490.81110.490.01品酒员1013.694.41100.491.21总和64.132.9141618.110.9(由于空间有限,其他数据请见附表问题一)把一二组外观分析方差总和进行大小比较,选取小的一组记录个数,结果如下表从总结果可以看出第一组对于外观分析打分比第二组更稳定第一组外观分析方差总和第二组外观分析方差总和比较结果第一组外观分析方差总和第二组外观分析方差总和比较结果酒样品164.130.11酒样品1512.5121酒样品232.910.91酒样品1658.5241酒样品31419.62酒样品1710.117.62酒样品41624.92酒样品1822.153.62酒样品518.129.62酒样品1914.938.52酒样品610.924.12酒样品2042.156.42酒样品717.670.52酒样品2118.511.61酒样品830.129.61酒样品228.922.42酒样品920.5262酒样品2342.420.41酒样品1035.612.41酒样品2418.916.91酒样品1174.4381酒样品2520.420.11酒样品1220.940.12酒样品2612.426.92酒样品1339.68.51酒样品2734.920.91酒样品1430.932.12总结果13个2 14个1按上面举例分析的方法,我们共做出了10组比较结果,如下表(表3)红葡萄酒白葡萄酒外观分析13个2 14个124个2 4个1香气分析19个2 8个119个2 9个1口感分析21个2 6个123个2 5个1平衡/整体评价19个2 8个128个2 0个1总得分20个2 7个1 23个2 5个1我们可以清晰地得出两组评酒员的评价结果有显著性差异,且第二组评价结果更可信。6.2问题二6.2.1 模型的建立根据附件2表格,我们采用一级指标数据进行以下的数据分析。把测试多次的项目求平均,得到了葡萄样本的理化指标数据。再利用这些数据用matlab和spss进行主成分分析和聚类析,得到了葡萄样本的排序。主要运用主成份分析法对相对指标作出测评,在将原始指标转变为主成分过程中,同时形成了反映主成分和指标包含信息量的权数,以计算综合评价值,之后在用聚类分析法对其进行层次划分,以更具体的分析葡萄样本包含成分。具体程序见附录。6.2.1.1 主成分分析法主成分分析是采取一种数学降维的方法,观测n个对象,记第i个观测对象p个指标的观测值分别为:xi1,xi2,xip,则所有n个对象p个指标的观测值可以表示为矩阵形式:其中,n为观察对象,p为指标或变量。对原始数据用zscore法进行无量纲化处理后,再求指标的相关系数矩阵相关矩阵r的特征值与特征向量,确定主成份并计算出每个样本在各主成分上的得分和每个样本综合得分,进而可对各样本进行综合评价。6.2.1.2 聚类分析法设有n个样品,每个样品测得p项指标(变量),原始资料矩阵为: 其中(i=1,n;j=1,p)为第i个样品的第j个指标的观测数据,第i个样品为矩阵x的第i行所描述,所以任何两个样品与的相似性,可以 通过矩阵x中的第k行与第l行的相似程度来刻画;任何两个变量与之间的相似性,可以通过第k列与第l列的相似程度来刻画。对原始数据采用zscore法来消除量纲。用于聚类分析的最短距离法:定义类与之间的距离为两类最近样品的距离,即,设类与合并成一个新类记为g,则任一类与的距离是6.2.2 模型求解我们得出了红葡萄样本主成分的特征向量矩阵,根据主成分得分矩阵前八个累计贡献率已达到83.04%,超过了80%,如果按80以上的信息量选取新因子,则可以选取前八个新因子。同理对白葡萄数据分析,根据主成分得分矩阵前十个累计贡献率已达到83.52%,超过了80%,如果按80以上的信息量选取新因子,则可以选取前十个新因子。由于数据过多,这里只显示部分数据,具体数据见附录.表格见附录十。红葡萄样本前八个主成分为:根据表格数据选取新因子。红葡萄样本第一新因子包含的信息量最大为23.22%,它的主要指标变量为x11(总酚)、x4(花色苷)、x10 (dpph自由基1/ic50) 、x12 (单宁)、x13(葡萄总黄酮)、x2(蛋白质)、x9(褐变度)、x25(果梗比),其权重系数分别为0.3271、0.3209、0.2865、0.2863、0.2723、0.2325、0.2262、0.2209,第二新因子包含的信息量最大为16.47%、,它的主要指标变量为x22(干物质含量)、x16(总糖)、x17(还原糖)、x18(可溶性固形物)、x1(氨基酸总量)、x30(果皮颜色b)、x20(可滴定酸)、x6(苹果酸),其权重系数分别为0.3851、0.3532、0.3462、0.3419、0.2445、0.2197、0.2061、0.1444,第三新因子包含的信息量最大为12.46%,它的主要指标变量为x27(果皮质量)、x20(可滴定酸)、x24(百粒质量)、x18(可溶性固形物)、x12(单宁)、x26(出汁率)、x23(果穗质量)、x8 (多酚氧化酶活力),其权重系数分别为0.3169、0.3083、0.2443、0.1632、0.145、0.1401、0.1139、0.1107,第四新因子包含的信息量最大为9.47%,它的主要指标变量为x19(ph值)、x1(氨基酸总量)、x5 (酒石酸) 、x13 (葡萄总黄酮) 、x2(蛋白质) 、x16 (总糖) 、x11 (总酚) 、x10 (dpph自由基1/ic50),其权重系数分别为0.4129、0.2701、0.2288、0.1686、0.1615、0.1548、0.133、0.1275,第五新因子包含的信息量最大为6.66%,它的主要指标变量为x23(果穗质量)、x21(固酸比)、x7 (柠檬酸) 、x27 (果皮质量) 、x5(酒石酸) 、x24 (百粒质量) 、x8 (多酚氧化酶活力) 、x2 (百粒质量),其权重系数分别为0.4231、0.3779、0.2518、0.2298、0.2206、0.1901、0.1663、0.1364,第六新因子包含的信息量最大为5.81%,它的主要指标变量为x30(果皮颜色b)、x26(出汁率)、x6 (苹果酸) 、x13 (葡萄总黄酮) 、x29(果皮颜色a) 、x12 (单宁) 、x20 (可滴定酸) 、x4 (花色苷),其权重系数分别为0.3443、0.3016、0.2777、0.2252、0.223、0.1867、0.1668、0.1487,第七新因子包含的信息量最大为4.73%,它的主要指标变量为x21(固酸比)、x19(ph值)、x26(出汁率)、x6 (苹果酸)、x4(花色苷)、x9(褐变度)、x16(总糖)、x17(还原糖),其权重系数分别为0.266、0.2401、0.1209、0.0955、0.0783、0.0678、0.0609、0.0423,第八新因子包含的信息量最大为4.23%,它的主要指标变量为x5(酒石酸)、x7(柠檬酸)、x20(可滴定酸)、x2(蛋白质)、x12(单宁)、x1(氨基酸总量)、x26(出汁率)、x22(干物质含量),其权重系数分别为0.4582、0.3799、0.1228、0.1121、0.0507、0.0082、-0.0129、-0.0303,反映了这八个变量与红葡萄样本水平密切相关。同理得到白葡萄样本的10个新因子的主要指标变量。这些指标变量反映了各自对该新因子作用的大小,它们是葡萄样本指标中最重要的影响因素。根据前8个主成分得分,用其贡献率加权,即得27个红葡萄样本各自的总得分f1f1=0.2322*la(:,1)+0.1647*la(:,2)+0.1264*la(:,3)+0.0947*la(:,4)+0.0666*la(:,5)+0.0581*la(:,6)+0.0473*la(:,7)+0.0423*la(:,8)根据前10个主成分得分,用其贡献率加权,即得28个白葡萄样本各自的总得分f2f2=0.1943*lb(:,1)+0.1642*lb(:,2)+0.1210*lb(:,3)+0.0694*lb(:,4)+0.0630*lb(:,5)+0.0552*lb(:,)+0.0508*lb(:,7)+0.0427*lb(:,8)+0.0413*lb(:,9)+0.0334*lb(:,10);根据总得分排序,结果见表4。表4总得分排序表红葡萄样本31.5513白葡萄样本171.393354样本11.181094样本161.235886样本91.126681样本11.035089样本21.0755样本80.929793样本210.647043样本220.731157样本60.544765样本130.574993样本230.494524样本190.487359样本170.42797样本210.348078样本120.388424样本40.234658样本220.265704样本110.177118样本240.093398样本90.076172样本70.092636样本230.025703样本50.073326样本20-0.03244样本180.026817样本2-0.08079样本8-0.00208样本14-0.14573样本15-0.03602样本6-0.21571样本19-0.08477样本3-0.32187样本14-0.11399样本26-0.34733样本16-0.15243样本10-0.37405样本13-0.50912样本15-0.377样本4-0.52856样本18-0.42423样本20-0.59971样本12-0.44468样本27-0.83409样本25-0.44983样本11-1.07639样本28-0.46877样本26-1.1371样本5-0.50124样本25-1.32523样本7-0.54531样本10-1.58967样本27-1.22773样本24-1.29266再根据上表的综合得分,通过聚类分析(matlab代码见附录2),最终可以得到的聚类图:图3红葡萄样本图4 白葡萄样本综合葡萄酒质量对这些酿酒葡萄进行分级,根据问题一的分析第二组评酒员的评价结果更可信,所以以第二组评酒员在对葡萄酒打的总分来确定葡萄酒的质量。第二组红葡萄酒总分排名第二组白葡萄酒总分排名酒样品978.2酒样品581.5酒样品2377.1酒样品980.4酒样品2075.8酒样品1780.3酒样品374.6酒样品1079.8酒样品1774.5酒样品2879.6酒样品274酒样品2579.5酒样品1472.6酒样品2279.4酒样品1972.6酒样品2179.2酒样品2172.2酒样品1578.4酒样品572.1酒样品177.9酒样品2672酒样品2377.4酒样品2271.6酒样品1477.1酒样品2471.5酒样品2777酒样品2771.5酒样品476.9酒样品471.2酒样品1876.7酒样品1669.9酒样品2076.6酒样品1068.8酒样品1976.4酒样品1368.8酒样品2476.1酒样品1268.3酒样品275.8酒样品2568.2酒样品375.6酒样品168.1酒样品675.5酒样品666.3酒样品2674.3酒样品866酒样品774.2酒样品1565.7酒样品1373.9酒样品1865.4酒样品1272.4酒样品765.3酒样品872.3酒样品1161.6酒样品1171.4酒样品1667.3表5最终得到以下酿酒葡萄等级的划分(等级越高则越优,即等级5最高):等级1样本:27,11,26,25,10等级2样本:19,14,16,13,4,20等级3样本:22,24,7,5,18,8,15等级4样本:21,6,23,17,12等级5样本: 1,2,9,3等级1样本:18,12,25,28,27,24等级2样本:3,26,10,15,5,7等级3样本:9,23,20,2,14,6等级4样本:13,19,21,4,11等级5样本:17,16,1,8,22 27个红葡萄样本等级划分表 28个白葡萄样本等级划分表6.3问题三6.3.1模型的建立我们采用典型相关分析模型分析酿酒葡萄与葡萄酒的理化指标之间的联系。典型相关分析的基本思想和主成分分析非常相似。首先在每组变量中找出变量的一个线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取相关系数仅次于第一对线性组合并且与第一对线性组合不相关的第二对线性组合,如此继续下去,直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。一般情况,设是两个相互关联的随机向量,分别在两组变量中选取若干有代表性的综合变量、,使得每一个综合变量是原变量的线性组合,即为了确保典型变量的唯一性,我们只考虑方差为1的的线性函数与,求使得它们相关系数达到最大的这一组。若存在常向量的条件下,使得相关系数达到最大,第一对典型相关变量,它们之间的相关系数就叫典型相关系数。求出第一对典型相关变量之后,可以类似的求出各对之间互不相关的第二对典型相关变量、第三对典型相关变量、。这些典型相关变量就反映了间的线性相关情况。这里值得注意的是,我们可以通过检验各对典型相关变量相关系数的显著性,来反映每一对综合变量的代表性,如果某一对的相关程度不显著,那么这对变量就不具有代表性,不具有代表性的变量就可以忽略。这样就可以通过对少数典型相关变量的研究,代替原来两组变量之间的相关关系的研究,从而容易抓住问题的本质。6.3.2 典型相关变量及典型相关系数的求解步骤 首先我们将红葡萄与红葡萄酒归一类,白葡萄与白葡萄酒归于一类,以便讨论。1) 先讨论酿酒红葡萄与红葡萄酒的理化指标之间的联系。首先将27种红葡萄样品的一级指标放在一起构成了2730的矩阵然后运用第二问的主成分分析法得到各样本主成分的贡献率,由答案可以知道第一个主成分的贡献率最高,即y1=0.99835x1+0.00064x2-0.00015x3+0.00436x4+0.00075x5-0.00018x6+0.00004x7-0.00076x8-0.03401x9+0.00001x10+0.00109x11+0.00083x12+0.00040x13+0.00018x14+0.01192x15+0.00855x16+0.00959x17+0.00677x18+0.00004x19+0.00018x20+0.00022x21+0.00095x22-0.03963x23-0.01375x24+0.00019x25+0.00003x26-0.00001x27-0.00025x28-0.00003x29+0.00007x30其中(x1,x2,x3)是(x1,x2,x3)由式子可以看出只有x1,x2,x4,x9,x15,x16,x17,x18,x23,x24的改变决定着y1的值的大小,所以可以取这几项所对应的理化指标进行分析讨论,即氨基酸总量,蛋白质,花色苷,褐变度,黄酮醇,总糖,还原糖,可溶性固形物,果穗质量,百粒质量所对应的理化指标。最后构成了2710的矩阵x。同理红葡萄酒的理化指标也进行这样的转换,由原先的279变成最后的278的矩阵y,然后进行典型相关分析,运用matlab里典型相关分析的命令canoncorr ,起调用格式为:a,b,r,u,v,stats=canoncorr(x,y) 其中x表示第一组向量的观测数据,y表示第二组的向量观测数据,输出a,b是典型相关变量的系数矩阵;r表示典型相关系数;u,v表示典型相关变量的得分;输出stats包括wilks,chisq及f统计量以及相应的概率。输出的a,b见附表,r如下:0.98180.95770.83390.78020.64930.53010.21420.08352) 先讨论酿酒白葡萄与白葡萄酒的理化指标之间的联系。首先将28种白葡萄样品的一级指标放在一起构成了2830的矩阵然后运用第二问的主成分分析法得到各样本主成分的贡献率,由答案可以知道第一个主成分的贡献率最高,下面同一小问解答一样,最后酿酒白葡萄构成了279的矩阵x,而葡萄酒构成了276的矩阵y。再用matlab求解得:r如下0.83390.77000.67940.62030.58030.1962 6.3.3典型相关系数的显著性检验 在进行典型相关分析时,对于两随机向量,我们总共可以提取出对r典型变量,问题是进行典型相关分析的目的就是要减少分析变量,简化两组变量间关系分析,提取r对变量是否必要?我们如何确定保留多少对典型变量? 若第k个总体典型相关系数,则相应的典型变量,之间无相关关系,这样的典型变量可以不予考虑。由于第k个以后的典型相关系数逐渐减小,如果第k个典型相关系数不显著,则显然后面的典型相关系数均不显著。这样,可以建立如下的原假设: 用于检验的似然比统计量为:可以证明,统计量近似服从l分布,其中当k=1至r上述的卡方统计量以及对应的p值,如果p值小于给定的显著性水平,则拒绝原假设,认为第k个典型相关系数显著,如果p值大于给定的显著性水平,则无法原假设,认为第k个开始往后所有的典型相关系数均不显著。1)将简化后的酿酒红葡萄的矩阵x和红葡萄酒的矩阵y合成为 对a进行标准化的无量纲变换,得到矩阵:,其中由于原始数据的协方差矩阵与相关系数矩阵得到的最大特征值对应的特征向量不是正向量,所以我们采用r矩阵进行主成分分析。由r矩阵的定义实对称矩阵r的特征值与对应的特征向量及贡献率见下表:(特征向量由于纸张宽度有限不予打出,见附录)特征值贡献率累计贡献率6.56270.36460.36463.44530.19140.5561.94740.10820.66421.41780.07880.7431.04070.05780.80080.90530.05030.85110.71380.03970.89080.65060.03610.92690.42070.02340.95030.31510.01750.96780.21950.01220.980.11370.00630.98630.0820.00460.99090.0710.00390.99480.04940.00270.99750.02330.00130.99880.01380.00080.99960.0080.00041由于第一到第九主成分的累计贡献率达到了95.03%,故选择前9个主成分进行研究。2) 为了分析影响葡萄酒与酿酒葡萄的联系,我们先计算x,y的协方差矩阵,其次令 求a,b的特征值以及对应的正交单位特征向量得到x,y的3对典型相关变量和典型相关系数。最后对典型相关系数进行检验(=0.05) 检验结果见下表:k10.008524.64851254.4980020.50293.14446460.011330.92870.92182240.3936因为p3=0.39360.05,所以只需要对前两对典型变量显著相关。2)将简化后的酿酒白葡萄的矩阵x和白葡萄酒的矩阵y合成,后其步骤如 (1),下面只给出与(1)不同的的数据,如表格数据等。特征值贡献率累计贡献率4.85260.32350.32353.28080.21870.54221.50780.10050.64271.12680.07510.71780.91820.06120.7790.78280.05220.83120.69570.04640.87760.53050.03540.9130.39220.02610.93910.36620.02440.96350.25410.01690.98040.14010.00930.98990.08690.00580.99570.05470.00360.99930.01070.00071k10.007425.36141655.6984020.60373.2658480.065430.903670.90012300.4216因为p10.05,所以只需要对第一对典型变量显著相关。6.4问题46.4.1建立方法 利用主成分分析和数据拟合,具体程序见附录。6.4.2方法求解我们把芳香物质的总和作为新的指标变量加入到附件2中,然后做新表格的主成分分析,利用matlab和spss软件得到新的结果:见附录十一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论