2012年全国大学生数学建模竞赛A题葡萄酒评价分析.doc_第1页
2012年全国大学生数学建模竞赛A题葡萄酒评价分析.doc_第2页
2012年全国大学生数学建模竞赛A题葡萄酒评价分析.doc_第3页
2012年全国大学生数学建模竞赛A题葡萄酒评价分析.doc_第4页
2012年全国大学生数学建模竞赛A题葡萄酒评价分析.doc_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对葡萄酒的评价分析摘要本文主要应用数理统计中的t检验法,回归分析法等方法对葡萄酒的评价的相关问题进行了分析,建立相应的模型。针对问题一,首先,对样本进行K-S检验得出数据取自的总体服从正态分布,进而运用成对数据t检验法进行检验,得出两组评酒员对每种葡萄酒的总评分有显著差异;在此基础上,采用两种方法分别判断哪组评酒员的可信度更高。方法一是计算出每组评酒员对每种葡萄酒的总评分的置信区间,评分处于置信区间内的人次百分比较高的一组可信度较高;方法二是比较两组评酒员对每种葡萄酒的总评分的方差的大小,总体方差分布较小的一组,可信度较高。两种方法均得出了同一结论,即第二组评酒员的结果更可信。针对问题二,基于问题一得到的结论,建立了酿酒葡萄品质的综合评价模型。首先,对数据指标进行归一化处理,并计算出酿酒葡萄与各指标因素间的相关系数。然后,分别用层次分析法和因子分析法确定了各指标因素的权重。最后,利用确定的权重,建立了酿酒葡萄品质的综合评价模型,对葡萄进行分级。如,优质的红葡萄样品是8、23、3、1。针对问题三,从两个层次建立相关性系数模型。首先,运用Excel软件分析葡萄酒各理化指标与酿酒葡萄成分的相关性;然后,进一步分析酿酒葡萄的综合评价指标与葡萄酒的理化指标之间的联系。得出结论:酿酒葡萄的花色苷成分与葡萄酒的花色苷呈显著正相关。针对问题四,分别建立回归分析模型和综合评价模型,其中综合评价模型建立方法同问题二,回归分析模型则先将葡萄和葡萄酒的各理化指标进行因子分析法降维后得数量较少的因子变量,对简化后的新指标进行回归分析,此处尝试用SPSS软件的回归分析中5种回归拟合方法,继而选取拟合度最佳的模型,得回归系数,建立多元线性回归方程分析各理化指标对葡萄酒质量的影响;将新指标得分带入方程,可求得线性拟合后的葡萄酒质量评分。进一步引入芳香物质作为评判指标,同样建立线性回归模型求得葡萄酒质量评分,将有无引入芳香物质作为指标的质量评价结果分别与可信度较高的评酒员对葡萄酒的评价结果进行回归模型检验比较和差值平方和比较,得到结论用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是完全可行的,但加入芳香物质作为评价指标更能准确合理地评价葡萄酒的质量。 关键词:葡萄酒评价;层次分析法;综合评价模型;因子分析法;SPSS;回归模型一问题重述葡萄酒质量一般由每个评酒员对葡萄酒进行品尝后的得分来评判。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。由附件1某一年份一些葡萄酒的评价结果,附件2和附件3该年份这些葡萄酒的和酿酒葡萄的成分数据,现要求建立数学模型分析以下问题: 1. 附件1中两组评酒员的评价结果有无显著性差异,并判断可信度。2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。二 问题分析1. 欲尽量减小分析工作量和评分员主观因素的影响,应先进行数据预处理。2. 欲判定两组评酒员的评价结果的差异是否显著,可用统计学的t检验方法,从而需要对样本数据进行正态性检验;比较可信度,需利用置信区间或方差。3. 欲对酿酒葡萄分级,可建立综合评价模型,其中需要进行权重分配。可运用相关性系数基础上的层次分析法(AHP)结合matlab软件,也可运用因子分析法结合SPSS软件。4. 欲分析酿酒葡萄与葡萄酒的理化指标之间的联系,可以直接对各指标进行相关性分析,也可以在此基础上进行优化,将葡萄的综合评价得分与葡萄酒的理化指标进行相关性分析。三 模型的基本假设与说明 1. 假设第一级理化指标影响比第二级理化指标更为显著,那么可以只考虑第一级理化指标的影响;2假设给两组评酒员提供的同种葡萄酒样品是从同一瓶葡萄酒中同时取出的;3用K-S检验出一组样本呈正态分布后,因另一组样本与之品质相同,故可假设这组样品也呈正态分布;4. 假设所有的关联程度均是线性关系的体现。四 符号说明 、两组评酒员对每种红葡萄酒的平均评分的样本 、两组评酒员对每种红葡萄酒的平均评分的样本平均值、第一组评酒员对每种白葡萄酒的平均评分的样本、两组评酒员对每种白葡萄酒的平均评分的样本平均值样本X的数据个数样本Y的数据个数置信度判断矩阵的最大特征值判断矩阵的最大特征值的特征向量权重系数向量指标数值向量综合评价指标 五 模型的建立与求解5.1 问题1的模型建立与求解5.1.1第一小问模型的建立欲判断两组评酒员的评价结果的差异是否显著,应建立两组评酒员的非参数检验模型,横向比较,验证样本服从正态分布后,对两组评酒员的评分进行t检验。首先,对数据进行预处理、选择样本,并运用SPSS软件检验其正态分布性; 然后,用matlab计算两个样本X、Y的平均值。当两个平均值相差不大时,统计量应该服从自由度为m+n-2的t分布;接着,使用函数h,sig,ci=ttest2(X,Y,tail) 进行此种检验,先默认tail=0进行双边检验,若h=0, 则根据X-Y的理论值所在的1-区间来判定tail为1或-1,继续进行单边检验;最后,若检验得出接受备选假设,那么,两样本的差异显著。 第一小问模型的求解 步骤: 对数据进行预处理,剔除异常数据,如第一组第7名评酒员对第三种白葡萄酒口感分析的评分异常(见表5.1),将其总分剔除。表5.1 第一组评酒员对白葡萄酒的样品三的持久力的评分第一组评酒员序 号12345678910对白葡萄酒样品3的持久性评分75756777567再对数据进行正态性检验,利用SPSS中的K-S检验功能,例如取第二小组的红葡萄评分为例。输入SPSS软件后,进行分析,得到如下输出:得到P值为0.801,P0.05,即数据具有正态性。同理,数据处理后,得到两组评分均按正态分布。以红葡萄酒为例,运用Excel软件,计算出每组评酒员对每种红葡萄酒的总评分的平均值,并统计数据构成2组样本X1、Y1,即两组评酒员对每种葡萄酒的平均评分,运用matlab编程(见附录一),得出两组样本的平均值,即=73.0556,=70.5148。发现两个样本X1、Y1的平均值相差不大,故,统计量应该服从自由度为52的t分布。(m=27,n=27,则,m+n-2=52) 使用函数h,sig,ci=ttest2(X1,Y1)(见附录一),得出结果h=0,sig=0.1200,ci= -0.6842 5.7657 。其中,“h=0”说明不能在显著水平=0.05时拒绝原假设=(即可以考虑接受原假设);“sig=0.1200”说明只有12.00%的可能统计量T0,表明不能接受原假设=;“ci= -0.6842 5.7657”说明X1-Y1的理论值所在的1-区间是-0.6842 5.7657,可信度为95%。这个区间不对称,偏向大于0的方向。以上三条中有2条指示不能接受原假设:=,应该考虑接受备选假设。 使用函数h,sig,ci=ttest2(X1,Y1,tail)进行单边检验(见附录一)得出结果h=0,sig=0.0600,ci= -0.8448 Inf。其中,“h=0”说明不能在显著水平a=0.02时拒绝原假设(即可以考虑接受原假设);“sig=0.0600”说明只有6.00%的可能统计量T0,表明应该接受备选假设=;“ci=-0.8448 Inf ”说明=的理论值所在的1-区间是-0.8448 +,可信度为98%。这个区间不对称,偏向大于0的方向。以上三条中有2条指示不能接受原假设:=,应该考虑接受备选假设=。 同理,可得出白葡萄酒的两样本X2、Y2的平均值、,并判断出 。 结论:两组评酒员的评价结果有显著性差异。5.1.2第二小问模型的建立 欲判断哪组评价结果的可信度更高,应建立两组评酒员的可信度检验模型。分开考虑两组,纵向分析,有两种方法。方法一:首先,计算每组评酒员对每种葡萄酒的总评分的置信区间。运用matlab软件,针对每组评酒员对每种红葡萄酒的总评分的标准差S1、S2和平均数、,使用公式 然后,运用Excel得出评分处于置信区间内的人次,比较两组所占的人次百分比,较高的一组可信度较高。方法二: 运用matlab编程绘出每组10名评酒员对每种葡萄酒的评分方差的分布图。由图判断出方差总体较小的一组结果,此组即为可信度较高的一组。 第二小问模型的求解方法一:首先,运用matlab软件,针对每组评酒员对每种红葡萄酒的总评分的标准差S1、S2和平均数、,使用公式 计算每组评酒员对每种葡萄酒的总评分的置信区间;然后,运用Excel得出评分处于置信区间内的人次,其中所占的人次百分比较高的一组可信度较高。由计算结果发现,第一组有276人次评的总分在相应的置信区间内,占50.18%,第二组有302人次评的总分在相应的置信区间内,占54.91%。易有结论:第二组的结果更可信。结论: 第二组的结果更可信。方法二: 运用matlab编程(见附录二)计算并绘出每组10名评酒员对每种葡萄酒的评分方差的分布图。见图5.1,由图可直观清晰地判断出方差总体较小的一组结果,此组即为可信度较高的结果。第二组第一组图5.1 评酒员对每种红葡萄酒的总评分的方差分布图 图中,红线代表第一组,蓝线代表第二组,易看出,第二组评价结果的内部方差相对较小,即第二组10名评价员的评分差异较小,于是有结论:第二组的结果更可信。 5.2 问题2的模型建立与求解 5.2.1模型的建立 要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,需要进行权重分配来建立综合评价模型。首先,对数据指标进行归一化处理,并对酿酒葡萄与各指标因素间的关系,建立相关性系数模型;然后,运用相关系数基础上的层次分析法(AHP)结合matlab软件来排出各指标的影响力顺序和对应的的权重,并对其一致性进行检验。或运用因子分析法结合SPSS软件用较少的相互独立的因子变量来代替原来指标的大部分信息,再对降维后的指标变量进行归一化处理、相关性分析,确定变量的权重,设权重系数向量为W;接着,对权重系数向量W进行一致性检验;最后,构建综合评价指标Z,Z=K*W, K表示每种葡萄酒的质量和酿酒葡萄的指标数值向量,即有。再按每种酿酒葡萄的具体综合评价指标数值进行排序,从而对葡萄分级。以下求解过程以红葡萄酒为例。 5.2.2模型的求解方法一:(相关系数基础上的层次分析法)Step1:各指标的权重分配1) 排出各个指标的影响力顺序。首先,分析附件2中的酿酒葡萄的理化指标表,忽略二级指标,筛选出一级指标,将其标准化(无量纲化),运用Excel软件中的数据分析功能得出各指标(包括红葡萄酒总分)之间的相关性系数列表;然后,以红葡萄酒质量作为首要指标,再由相关性系数列表,找出与红葡萄酒质量相关系数最大的指标排列其后,以此类推(此过程的每一步均不考虑已排好序的指标),排出各个指标的影响力顺序。见表5.4。2) 构造判断矩阵。主要是通过比较同一层次上的各因素对上一层相关因素的影响作用。即将同一层的各因素仅进行两两对比,比较时可采用相对尺度标准度量,如,19标度,见表5.2。这样可尽可能地避免不同性质的因素之间相互比较的困难。同时要尽量依据实际问题具体情况,减少由于决策人主观因素对结果的影响。 表5.2 19标度因素 比因素量化值同等重要1稍微重要3较强重要5强烈重要7极端重要9两相邻判断的中间值2,4,6,8对已排好顺序的指标,构造的判断矩阵A,如下:A=1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6 6 7 7 7 8 8 8 8 9 9 9 ; 1 1 2 2 2 3 3 . 9 9; 1/2 1/2 1 2 2 3 .8 9; . . . . . . . . 1/9 . 1/3 1/2 1/2 1/2 1 2; 1/9 . 1/3 1/3 1/2 1/2 1/2 1;3) 求解各指标的权重系数向量。可以用matlab编程(见附录三)求出该矩阵的最大特征值为9.02336,此特征值对应的特征向量为u,再对u进行归一化处理,得出各指标的权重系数向量为W=0.1569 0.1335 0.1130 0.0955 0.0806 0.0679 0.0572 0.0481 0.0404 0.0340 0.0285 0.0239 0.0201 0.0168 0.0141 0.0118 0.0099 0.0083 0.0069 0.0058 0.0049 0.0041 0.0034 0.0029 0.0025 0.0021 0.0018 0.0015 0.0014 0.0012 0.00114) 对各指标的权重系数向量进行一致性检验。通常情况下,由实际得到的判断矩阵不一定都是一致的,实际中也不必要求一致性绝对成立,但要求大体上是一致的,即不一致的程度应在容许的范围内。主要考察以下指标。a. 一致性指标:b. 随机一致性指标:RI,通常由实际经验给定的,如表5.3。n123456789101112131415RI000.580.901.121.241.321.411.451.491.511.541.561.581.59 表5.3 随机一致性指标 c.一致性比率指标:CR=CI/RI,当CR0.10时,认为判断矩阵的一致性是可以接受的 ,对应的特征向量可以作为排序的权重向量。 此题中,n取9,经计算得,CR为0.002,满足要求,即此权重系数向量是一致的。5) 各指标与其权重系数对应的表格5.4如下:表5.4 全部指标的权重系数排列表指标红葡萄酒质量蛋白质氨基酸总量VC含量葡萄总黄酮总酚权重系数0.15690.13350.11300.09550.08060.0679DPPH自由基PH值固酸比出汁率褐变度花色苷0.05720.04810.04040.3400.02850.0239单宁白藜芦醇a*L*b*果穗质量0.02010.01680.01410.01180.00990.0083百粒质量果皮质量可滴定酸可溶性总糖干物质0.00690.00580.00490.00410.00340.0029还原糖黄酮醇果梗多酚苹果酸柠檬酸0.00250.00210.00180.00150.00140.0012酒石酸0.0011Step2: 对酿酒葡萄进行综合评价分级构造综合评价指标Z。Z=K*W,其中,K表示每种葡萄酒的质量和酿酒葡萄的指标数值向量。从而有,代入具体指标值,得出各种酿酒葡萄的综合评价指标值,并用Excel软件进行降序排列。相应的每种酿酒葡萄的综合评价指标值表5.3见附录三。再按以下规则进行分级:葡萄级别优质较好普通劣质Z值范围3.53.52.5,不含3.52.51.5,不含2.51.5 从而分级如下:红葡萄:优质-样本9 较好-样本3,2,21,1,8 普通-样本23,14,5,16,17,19,24,10,22,20,13,26 劣质-样本27,4,15,12,6,11,7,18,25白葡萄:优质-样本3,28,5,27, 较好-样本20,9,25,15,24,10, 普通-样本6,4,22,7,21,2,23,19,17,18,26,14,1,8,11,12 劣质-样本13,16 方法二:(使用SPSS软件进行因子分析)Step1: 减维后指标的权重分配1) 同样,先以红葡萄酒为例,忽略二级指标,筛选出一级指标,结合红葡萄酒的质量,使用SPSS软件对其自动进行标准化,并对标准化后的数据矩阵进行因子分析,使之降维,将多变量化为少变量,最后得到8个综合变量结果y1、y2、y3、y4、y5,y6,y7,y8。 2) 经SPSS分析计算后的结果见表5.5。表中,第2列到第4列分别是因子变量的方差贡献(特征值)、方差贡献率、累积方差贡献率。第5列到第7列分别是旋转后的因子变量的方差贡献(特征值)、方差贡献率(权重系数)、累积方差贡献率(累积权重系数)。将第3列因子变量的方差贡献率作为各指标的权重系数。 表5.5 因子分析后因子提取结果(红葡萄)3) 同理,对于白葡萄酒,使用spss软件最终得出的结果见表5.6。表5.6 因子分析后因子提取结果(白葡萄)Step2: 对酿酒葡萄进行综合评价分级设红、白葡萄酒的权重系数矩阵分别为V1,V2。构造综合评价指标Z。对红葡萄酒,Z=K1*V1,其中,K1表示标准化后的指标矩阵。同理,对白葡萄酒,Z=K2*V2,其中,K2表示标准化后的数据矩阵。于是,得出各种酿酒红葡萄的综合评价指标值,并用Excel软件进行降序排列。相应的表格5.7见附录四。再对红、白葡萄按以下相同规则进行分级:葡萄级别优质较好普通劣质Z值范围0.40.40,不含0.40-0.5,不含0-1.5 从而分级如下:红葡萄:优质-样品8,23,3,1 较好-样品2,17,9,11,14,5,24,12 普通-样品22,20,6,26,21,19,18,16,13,15,27,4,7 劣质-样品25,10白葡萄:优质-样品5,27,20,28,25,3 较好-样品23,7,26,14,12,10,9 普通-样品6,24,22,21,15,23,2,19,4,16 劣质-样品18,8,1,17,11.135.2.3 结论的进一步分析综合以上两种方法所得出的结果,我们可以发现:葡萄的总糖、还原糖、蛋白质、氨基酸含量越高,等级越优。5.3 问题3的模型建立与求解5.3.1模型的建立要求分析酿酒葡萄和葡萄酒的理化指标之间的关系,可以分别研究红、白葡萄酒,多方面、多层次地建立相关性系数模型。根据相关性分析法理论基础可知:对有多个变量的关系,可设其中任意两个随机变量与,对其进行了n次随机试验,得到的观测值分别为 : 分别为各自的平均值,为随机变量和对于以上样本的相关性系数,称之为样本相关系数。在实际中,常常用样本相关系数作为相关系数的估计值。根据以上理论知识可建立以下相关性系数模型: 对有多个变量间的关系,其中随机变量和可表示其中任意两个随机变量。对这个问题,首先,研究葡萄酒各理化指标与酿酒葡萄成分的相关性;然后,结合问题2中的结论,进一步研究酿酒葡萄的综合评价指标与葡萄酒的理化指标之间的相关性。5.3.2模型的求解Step1:分析葡萄酒各理化指标与酿酒葡萄理化指标的相关性以红葡萄为例: 1) 使用Excel,对葡萄酒各理化指标与酿酒葡萄理化指标间的关系进行很好的相关性分析,所得结果见表5.8(详细见附录五)。表5.8 酿酒葡萄的理化指标与葡萄酒理化指标间的相关系数列表(红葡萄)酒葡萄花色苷单宁.色泽a*色泽b*氨基酸0.1060.496.-0.1000.356蛋白质0.2960.471.-0.0330.047.苹果酸0.6930.298.-0.559-0.310果皮颜色a*-0.369-0.298.-0.542-0.064果皮颜色b*-0.129-0.121.-0.6260.0252) 通过纵向比较,可以得出葡萄酒各理化指标与酿酒葡萄理化指标的联系:(1) 红葡萄酒花色苷与酿酒葡萄各理化指标的相关性分析从分析结果的第一列中,我们可以看出酿酒葡萄的花色苷成分与葡萄酒的花色苷呈显著正相关,且相关系数绝对值最大,联系最为密切;葡萄的苹果酸、褐变度、自由基、总酚、单宁也与葡萄酒的花色苷呈正相关。(2) 红葡萄酒单宁与酿酒葡萄各理化指标的相关性分析 由上表第二列可知,酿酒葡萄的花色苷、总酚、单宁、葡萄总黄酮、黄酮醇均与葡萄酒的单宁呈显著正相关,其中总酚和单宁与之联系最密切;葡萄的色泽L*与葡萄酒的单宁呈负相关。(3) 红葡萄酒总酚与酿酒葡萄各理化指标的相关性分析由上表第三列可知,葡萄的花色苷、自由基、总酚、单宁、葡萄总黄酮与葡萄酒的总酚呈显著正相关,其中葡萄总酚的相关系数绝对值最大,联系最为密切;色泽L*与之呈负相关。(4) 红葡萄酒的酒总黄酮与酿酒葡萄各理化指标的相关性分析由上表第四列可知,葡萄的花色苷、自由基、总酚、单宁、葡萄总黄酮与葡萄酒的总酚呈显著正相关,其中葡萄总黄酮的相关系数绝对值最大,联系最为密切;色泽L*与之呈负相关。(5) 红葡萄酒的白藜芦醇与酿酒葡萄各理化指标的相关性分析 由上表第四列可知,葡萄总黄酮与葡萄酒的白藜芦醇呈正相关,但值得注意的是,葡萄的白藜芦醇含量与葡萄酒的白藜芦醇含量并无显著关系。(6) 红葡萄酒的DPPH半抑制体积与酿酒葡萄各理化指标的相关性分析由上表第四列可知,葡萄的花色苷、自由基、总酚、单宁、葡萄总黄酮与葡萄酒的DPPH半抑制体积呈显著正相关,其中葡萄总酚的相关系数绝对值最大,联系最为密切;(7) 红葡萄酒的色泽与酿酒葡萄各理化指标的相关性分析葡萄的花色苷、自由基、总酚、单宁、葡萄总黄酮与葡萄酒的色泽L*呈显著负相关,其中花色苷的相关系数绝对值最大,联系最为密切;葡萄果皮颜色L*、a*、b*呈正相关,其中色泽a*的相关系数绝对值较大,联系较为密切;葡萄的苹果酸、果皮颜色b*与葡萄酒色泽a*呈显著负相关;葡萄的还原糖与葡萄酒的色泽b*呈显著正相关;Step2:分析酿酒葡萄的综合评价指标与葡萄酒的理化指标之间的相关性 1) 综合以上7条具体分析,我们还可以做适当总结归纳:葡萄的花色苷、自由基、总酚、单宁、葡萄总黄酮之间的相关性很强,所以可以将之归为一类,从而将葡萄的理化指标降维,将多变量化为少变量,从而优化了模型三,对应的葡萄酒各理化指标与酿酒葡萄质量的相关系数,见表5.9。 表5.9 酿酒葡萄质量与葡萄酒理化指标间 的相关系数列表(红葡萄)葡萄酒理化指标花色苷单宁总酚酒总黄酮白藜芦醇DPPH半抑制体积色泽L*a*b*酿酒葡萄质量0.6340.7040.6980.6330.1710.579-0.586-0.4960.140由表5.9可知,葡萄酒的花色苷、单宁、总酚、酒总黄酮、DPPH半抑制体积与酿酒红葡萄的综合评价指标呈明显正相关,其中单宁的相关系数绝对值最大,联系最为密切;白藜芦醇、色泽b*与之呈正相关,但联系不大;色泽L*、a*与酿酒葡萄的综合评价指标呈明显负相关。同理,白葡萄酒的各理化指标与酿酒葡萄的综合评价指标的相关系数关系,见表5.10。表5.10 酿酒葡萄质量与葡萄酒理化指标间 的相关系数列表(白葡萄)葡萄酒理化指标单宁总酚酒总黄酮白藜芦醇DPPH半抑制体积色泽L*a*b*酿酒葡萄质量0.2710.2860.322-0.0230.038-0.482-0.1900.466由表5.10可知,葡萄酒的单宁、总酚、酒总黄酮、色泽b*与酿酒白葡萄的综合评价指标呈正相关,其中单宁的相关系数绝对值最大,联系最为密切;DPPH体积抑制比也与之呈正相关,但联系不大;白藜芦醇、色泽L*、a*与酿酒葡萄的综合评价指标呈负相关,其中色泽L*与之联系最密切。5.4 问题4的模型建立与求解5.4.1第一小问模型的建立 欲分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,可对酿酒葡萄、葡萄酒的理化指标与葡萄酒质量做回归分析,建立回归模型。也可用SPSS或Matlab对酿酒葡萄、葡萄酒的理化指标与葡萄酒质量进行相关性分析。多元线性回归模型如下: Y表示因变量,Xi(i=1,p)表示自变量,表示随机误差项。对于n组观测值,其方程组形式为 即模型假设:零均值假设: i=1,2,n同方差: 无自相关: 误差与自变量不相关: i=1,2,n, k=0,1,p自变量之间无多重共线性 此题,采用两种方法来分析。方法一:回归分析法 首先,进行数据预处理。运用SPSS软件结合因子分析法简化指标,得到相应的自变量和因变量,对其做回归分析,建立回归模型; 然后,运用SPSS软件对其进行数据拟合分析。设定其多元线性回归模型为: 运用SPSS软件对此进行拟合调试与分析,由于测试数据存在不全面及缺漏现象,这将会影响到整体的拟合优度,所以在建立回归模型时,分别采用强迫引入法、逐步回归法、强迫剔除法、向后逐步法、向前逐步法进行多元线性回归尝试,通过分析其拟合优度、回归方程显著性、回归系数显著性,选择最佳模型;接着,比较分析,确定最佳模型。将降维后的各因子得分作为葡萄样本的分析数据,做上述5种方法的尝试,比较得出效果最好的模型。最后,检验模型。分别进行回归方程的拟合优度R2的检验、回归方程的显著性F与回归系数显著性sig的检验、残差检验。方法二:综合评价法(和问题2的方法二类似) 确定降维后各因素的权重,再建立综合评价模型。 首先,运用matlab对数据指标进行归一化处理;然后,运用因子分析法结合SPSS软件来用较少的相互独立的因子变量来代替原来指标的大部分信息;接着,运用层次分析法(AHP)结合matlab软件来排出各新指标的影响力顺序和对应的的权重,设权重系数向量为W;接着,对权重系数向量进行一致性检验;最后,构建综合评价指标,,表示新指标数值向量,即有第一小问模型的求解方法一:回归分析法数据预处理分析酿酒葡萄和葡萄理化指标对葡萄酒质量的影响,因附件2中的各理化指标过多,所以用SPSS软件用因子分析法将酿酒葡萄的理化指标(一级指标)简化得8个因子、,葡萄酒的理化指标(一级指标)简化得2个因子、,因此得到10个自变量,与应变量葡萄酒质量。运用SPSS软件对其进行数据拟合分析设定其多元线性回归模型为:建立回归模型时,分别采用强迫引入法、逐步回归法、强迫剔除法、向后逐步法、向前逐步法进行多元线性回归尝试,通过分析其拟合优度、回归方程显著性、回归系数显著性,选择最佳模型。 比较分析,确定最佳模型将降维后的各因子得分作为27种葡萄样本的分析数据,做了上述5种方法的尝试后,得出的结果见表5.11。图5.11 五种方法的结果表从图中,发现采用强迫引入法效果最好。从而,具体模型为:结论:由模型可知,公共因子、与葡萄酒质量呈正相关,、与葡萄酒质量呈负相关,又由SPSS软件因子分析法所得引自相关表可知,、与酿酒葡萄的自由基、单宁、总酚、葡萄总黄酮,与葡萄酒的单宁、总酚、酒总黄酮、DPPH体积抑制比相关,因此,这些物质成分有助于提高葡萄酒的质量;而公共因子、与酿酒葡萄的白藜芦醇、固酸比、果穗质量、色泽a*、b*相关,因此这些成分将导致葡萄酒质量下降。模型检验(1) 回归方程的拟合优度R2的检验:(如表5.12)图5.12 回归方程的拟合优度R2的检验结果表发现:由于回归方程的拟合优度R2越接近1,拟合效果越好,此题中的拟合优度为78.3%,在5种线性回归方法中优度值最大,效果较好。(2) 回归方程的显著性F与回归系数显著性sig的检验:(如表5.13)表5.13 显著性F与sig的检验结果表 发现:由于回归方程显著性F越大越好,回归系数显著性sig0.05就越显著,此题中F=5.821比较大,且sig=0.01,可见显著性较高。(3) 残差检验:(如图5.2)图5.2 残差检验的结果图发现:当残差图均匀分布时,效果最好,而此题中残差图分布得较均匀,可见拟合得相当好。方法二:综合评价法Step1:降维后的指标的权重分配 先以红葡萄酒为例,运用matlab将数据归一化,再使用SPSS软件结合因子分析法将酿酒葡萄的理化指标(一级指标)简化得8个因子、,葡萄酒的理化指标(一级指标)简化得2个因子、,因此得到10个自变量,与应变量葡萄酒质量。并由SPSS直接得出这十个变量的相关性系数矩阵。由相关性系数矩阵,排出这10个自变量对因变量的影响力顺序,即,从最重要到最不重要的顺序为: y1、x6、x1、x4、y2、x7 x8、x2、x3构造判断矩阵。对已排好顺序的指标,构造的判断矩阵A,如下:A=1 2 3 4 5 5 6 7 8 9 ; 1/2 1 2 3 4 5 5 5 7 8; 1/3 1/2 1 2 3 4 5 5 6 7; 1/4 1/3 1/2 1 2 3 4 5 5 6; 1/5 1/4 1/3 1/2 1 2 3 4 5 5; 1/5 1/5 1/4 1/3 1/2 1 2 3 4 5; 1/6 1/5 1/5 1/4 1/3 1/2 1 2 3 4; 1/7 1/6 1/5 1/5 1/4 1/3 1/2 1 2 3; 1/8 1/7 1/6 1/5 1/5 1/4 1/3 1/2 1 2; 1/9 1/8 1/7 1/6 1/5 1/5 1/4 1/3 1/2 1 求解各指标的权重系数向量。可以用matlab编程(类似于附录三中程序),求出该矩阵的最大特征值为9.4880,此特征值对应的特征向量为u,再对u进行归一化处理,得出各指标的权重系数向量为W=0.2866 0.2085 0.1530 0.1098 0.0784 0.0569 0.0404 0.0289 0.0212 0.0162对各指标的权重系数向量进行一致性检验。此题中,n取9,经计算可得,CR为0.061,满足要求,即此权重系数向量是一致的。从而有模型: Z=0.1530x1+0.0289x2+0.0404x8+0.2866y1+0.0784y25.4.2 第二小问模型的建立欲论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,可以建立拟合比较模型。首先,由上述第一小问的方法一,可得到葡萄酒质量关于各理化指标的线性回归模型为 然后,将、带入具体因子得分,算出回归分析法质量得分,再将此得分与第二组评酒员所评质量得分进行比较,运用matlab软件做两种得分归一化后的比较图。第二小问模型的求解将、带入具体因子得分,可以算出回归分析法质量得分为68.1、77.2、76.595.0。 将此得分与第二组评酒员所评质量得分进行比较,运用matlab软件做两种得分归一化后的比较图,发现基本拟合。见图5.3。 图5.3 两种得分归一化后的比较图结论:因此可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量;但是结合附件一评酒员评分标准,评价指标中外观分析与葡萄酒色泽、葡萄果皮颜色有关,口感分析与葡萄酒、葡萄的内部成分有关,但是香气分析并没有明确的理化指标与之对应,由此考虑将附件三中葡萄与葡萄酒的芳香物质作为指标进行葡萄酒质量的评价。第二小问模型的深化(引入芳香物质)数据预处理首先,红葡萄酒中的1-丙醇仅在2个葡萄样本中检测到,正十一烷仅在3个葡萄样本中检测到,数据量过小,不具代表性,因此可将其剔除;然后,因葡萄和葡萄酒的芳香物质的具体指标过多,同样考虑运用SPSS软件因子分析法将芳香物质指标降维,化多变量为少变量,因理化指标、芳香物质指标的公共因子数总和后指标依旧过多,所以进一步简化,用主成分分析法提取每种指标累计贡献率达70%的公共因子,得到葡萄的理化指标6公共因子,葡萄酒理化指标2个公共因子、葡萄芳香物质5个公共因子、,葡萄酒芳香物质7个公共因子、,一共20个自变量,同样将葡萄酒的质量作为因变量,建立回归模型,利用SPSS软件进行多元线性回归分析。 运用SPSS软件对其进行数据拟合分析设定其多元线性回归模型为: 运用SPSS软件对此进行拟合调试与分析,由于测试数据存在不全面及缺漏现象,这将会影响到整体的拟合优度,所以在建立回归模型时,分别采用强迫引入法、逐步回归法、强迫剔除法、向后逐步法、向前逐步法进行多元线性回归尝试,通过分析其拟合优度、回归方程显著性、回归系数显著性,选择最佳模型。 比较分析,确定最佳模型 将降维后的各因子得分作为27种葡萄样本的分析数据,做了上述5种方法的尝试后,发现采用强迫引入法效果最好。见表5.14。表5.14 5种方法的结果表从而得具体模型为W=70.515+0.875x1-0.644x2+0.669x6+2.717y1+1.787y2+1.339u1-1.081u2+1.142u5+0.825v1-1.437v2+-0.474v7结论:由模型可知,公共因子u1、u5与葡萄酒质量呈正相关,u2、v2、v4与葡萄酒质量呈负相关,又由SPSS软件因子分析法所得引自相关表可知,u1u5与芳香物质中的2-戊酮、2-辛酮、乙醛、1-辛醇相关,因此,这些物质成分有助于提高葡萄酒的质量;而公共因子u2、v2、v4与芳香物质中的1-庚醇、反式-2-壬烯酸、丁酸、辛酸甲酯、乙醇、2-甲基-1-丙醇相关,因此这些成分将导致葡萄酒质量下降。 模型检验(1) 回归方程的拟合优度R2的检验:(见表5.15)表5.15 回归方程的拟合优度R2的检验结果发现:由于回归方程的拟合优度R2越接近1,拟合效果越好,此题中的拟合优度为96.5%,在5种线性回归方法中优度值最大,效果较好;(2)回归方程的显著性F与回归系数显著性sig的检验:(见表5.16) 表5.16 显著性F与sig的检验结果发现:由于回归方程显著性F越大越好,回归系数显著性sigY1的程序x1=69.2 73 71.5 74.2 70.1 78.6 74.9 78 78.6 59.9 72.2 68.6 74.6 77.2 79.3 62.7 80.3 80.4 72.3 53.9 73.3 85.6 58.7 73.8 81.5 77.1 73;y1=68.8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论