




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
葡萄酒质量评价模型摘要虽然葡萄酒并非源自于中国,但是葡萄酒却在今天的中国流行起来了。其中高品质的葡萄酒成为了许多名门望族的身份象征,葡萄酒的品评也日益受到重视。本文利用MATLAB软件对初始数据进行处理,并用SAS软件对经MATLAB软件处理的附录一中的数据进行方差分析,确定两组评价存在显著性差异,并确定第一组评价的可信度较高。 同时,本文通过SAS软件的聚类分析根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。并用SAS软件的相关分析找出了酿酒葡萄与葡萄酒的理化指标之间的联系。最后,本文利用SAS进行主成份分析和回归分析,确定了酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响的模型。该模型的现实意义是帮助品酒爱好者可以直接通过酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量进行初步的判定和估计。关键字:葡萄酒 方差分析 聚类分析 相关分析 主成份分析 回归分析一、问题重述:确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。需要解决的问题如下:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析:问题一中需要检验附件1中两组评酒员的评价结果有无显著性差异,并判断哪一组结果更可信。本文认为可以取每个样品的“均衡评价”结果的均值作为每个样品的质量度量,然后利用SAS软件分红白葡萄酒对两组葡萄酒的质量评价结果进行方差分析确定是否存在显著性差异。本文认为不同样品的葡萄酒有不同的理化指标,因此不同样品的葡萄酒的质量应该有一定的差异。所以可以通过利用SAS软件对数据进行统计分析,判断数据的分散程度,分散度较大的反映了质量的差异性,从而可信度较高。问题二中需要根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。本文认为可以选择第一问中求出的可信度高的第一组的“均衡评价”结果作为第二问中葡萄酒的质量,结合酿酒葡萄的指标,然后利用SAS软件对这些数据指标进行聚类分析,从而对酿酒葡萄进行分级。问题三中需要分析酿酒葡萄与葡萄酒的理化指标之间的联系。本文认为要确定酿酒葡萄与葡萄酒的理化指标之间的联系,首先必须利用SAS软件先确定这两组指标是否存在相关关系,并筛选出相关性较高的指标,从而确定两组指标之间存在的联系。问题四中需要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量。三、模型的假设:1.评酒员对葡萄酒样品的评分是客观的,不含任何个人的主观意见。2. 假设二级指标对葡萄酒影响都反映在一级指标中。3. 假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,而且成正比。4. 不考虑葡萄酒酿造工艺对葡萄酒质量的影响。5.所有已知数据均是真实可靠。6.评酒员对葡萄酒样品的评分是客观的,不含任何个人的主观意见。四、符号的约定:1h:第一组的红葡萄酒的均衡评分均值2h:第二组的红葡萄酒的均衡评分均值1b:第一组的白葡萄酒的均衡评分均值2b:第二组的白葡萄酒的均衡评分均值表1.7花色苷(mg/L)单宁(mmol/L)总酚(mmol/L)酒总黄酮(mmol/L)白藜芦醇(mg/L)y1y2y3y4y5DPPH半抑制体积(IV50) 1/IV50(uL)L*(D65)a*(D65)b*(D65)y6y7y8y9表1.8氨基酸总量蛋白质mg/100gVC含量(mg/L)花色苷mg/100g鲜重x1x2x3x4褐变度DPPH自由基1/IC50(g/L)总酚(mmol/kg)单宁(mmol/kg)x9x10x11x12酒石酸(g/L)苹果酸(g/L)柠檬酸(g/L)多酚氧化酶活力x5x6x7x8葡萄总黄酮(mmol/kg)白藜芦醇(mg/kg)黄酮醇(mg/kg)总糖g/Lx13x14x15x16还原糖g/L可溶性固形物g/lPH值可滴定酸(g/l)x17x18x19x20果梗比(%)出汁率(%)a果皮质量(g)Lx25x26x27x28固酸比干物质含量g/100g果穗质量/g百粒质量/gx21x22x23x24abHCx29x30x31x32五、模型建立与求解:1第一个问题的解答:第一问是要比较两组葡萄酒质量评价是否存在显著性差异,并选出可信度较高的一组。首先,本模型通过SAS软件分别对两组葡萄酒的各个品种的10个平衡(整体)评价求均值,并将均值作为对应品种的质量指标,如表1.1,表1.2。其次,分别对表1.1与表1.2的数据利用SAS软件对其做方差分析,进行样本均数差别的显著性检验,并分别假定原假设为一二组对红葡萄酒的质量评价没有显著性差异和一二组对白葡萄酒的质量评价没有显著性差异。由于葡萄酒主要分为两类:红葡萄酒和白葡萄酒,即中国的所谓“干红”和“干白”。所以本模型决定对红葡萄酒和白葡萄酒进行分开检验。表1.1 两组红葡萄酒的均衡评价均值1h1h1h1h1h1h1h1h1h7.79.69.48.48.68.68.98.49.71h1h1h1h1h1h1h1h1h8.88.47.98.98.77.69.19.27.91h1h1h1h1h1h1h1h1h9.29.29.29109.18.38.992h2h2h2h2h2h2h2h2h8.49.18.98.88.98.68.48.49.42h2h2h2h2h2h2h2h2h8.48.18.78.69.38.28.898.82h2h2h2h2h2h2h2h2h8.79.398.98.98.88.68.88.8其中,对表1.1数据一二两组红葡萄酒平衡评价均值的方差检验结果如表1.3所示,对表1.2数据一二两组白葡萄酒平衡评价均值的方差检验结果如表1.4所示。表1.2 两组白葡萄酒的均衡评价均值1b1b1b1b1b1b1b1b1b9.79.19.69.48.98.69.48.88.71b1b1b1b1b1b1b1b1b9.28.78.28.58.88.79.39.48.91b1b1b1b1b1b1b1b1b1b8.699.28.39.28.98.89.48.39.42b2b2b2b2b2b2b2b2b9.49.29.39.39.69.28.69.19.42b2b2b2b2b2b2b2b2b9.59.38.68.89.49.38.79.79.22b2b2b2b2b2b2b2b2b2b9.19.19.59.29.69.29.69.29.39.5从表1.3中可知SS组间均方0.02240741比SS组内均方0.22947293小得多,且F值为0.10小于1,P值为0.7559。若给定显著性水平为0.05,显然,P值大于显著性水平,所以接受原假设即一二两组对红葡萄酒的质量评价不存在显著性差异。从表1.4中可知SS组间均方1.11446429比SS组内均方0.1243301大得多,且F值为8.96大于1,P值为0.0041。若给定显著性水平为0.05,显然,P值小于显著性水平,所以拒绝原假设即一二两组对白葡萄酒的质量评价存在显著性差异。表1.3 一、二两组红葡萄酒平衡评价均值的方差检验结果自由度离差平方和均方F 值P值SS组间(处理因素)10.022407410.022407410.100.7559SS组内(抽样误差)5211.932592590.22947293总和5311.95000000表1.4 一、二两组白葡萄酒平衡评价均值的方差检验结果自由度离差平方和均方F 值P值SS组间(处理因素)11.114464291.114464298.960.0041SS组内(抽样误差)526.719928570.1243301总和537.82839286 最后,利用SAS调用means对表1.1和表1.2做一些简单的统计分析,选出可信度较高的一组评价。表1.1数据统计分析的结果如表1.5所示,表1.2数据统计分析的结果如表1.6所示。表1.5 一二两组红葡萄酒的均衡评价均值的统计分析组别样本数平均值标准差1h278.803703700.597096492h278.762962960.32003383表1.6 一二两组白葡萄酒的均衡评价均值的统计分析组别样本数平均值标准差1b288.964285710.405713172b289.246428570.28993249因为葡萄酒的质量可从3个主要方面进行判别,即理化指标、卫生指标和感官指标。其中的理化指标是对葡萄酒最基本的特征予以规定,即它应达到的最起码的成分含量,例如酒精、糖度、酸度、二氧化硫等;卫生指标是衡量葡萄酒受微生物或重金属污染的程度;感官指标是判断葡萄酒质量好坏的一个重要方法,是对葡萄酒质量的综合评价。所以本模型认为不同样品的葡萄酒的质量应该存在较大差异,样本点的分布应该较为分散。从表1.5可知第二组红葡萄酒的均衡评价均值的标准差0.32003383小于第一组的红葡萄酒的均衡评价均值的标准差0.59709649,因此第二组的红葡萄酒的均衡评价均值更平稳,样本数据比较集中。而表1.6中同样可得第二组白葡萄酒的均衡评价均值的标准差0.28993249小于第一组的白葡萄酒的均衡评价均值的标准差0.40571317,也反映出第二组的白葡萄酒的均衡评价均值更平稳,样本数据比较集中。所以本模型认为第一组的评价数据较为分散,可信度比较高。2.第二个问题的解答:第二问是要根据酿酒葡萄的理化指标和葡萄酒的质量对27个酿酒葡萄样品进行分类,并进行等级排序。由第一问的解答得知第一组的红葡萄酒和白葡萄酒的评价数据更可信,所以本文选定第一组的葡萄酒评价均值作为葡萄酒的质量的数值。首先,通过SAS软件分别导入两组酿酒葡萄的理化指标和葡萄酒的质量合并的数据,然后进行聚类分析,用类平均法聚类的结过程如表2.1和表2.2,其中表2.1是对酿酒红葡萄的分类过程,表2.2是对酿酒白葡萄的分类过程。观察表2.1其SPRSQ项,看到由26-5时该值两两之间变化不大,而从5到4增加了约0.013,变化较大,则分类有明显差异,由此可见,酿酒红葡萄分成四类的结果比较有意义,第一类为3 21,第二类为1 8,第三类为2 4 6 7 9 11 12 15 18 19 20 22 23 ,第四类为5 10 13 14 16 17 24 25 26 27。观察表2.2其SPRSQ项,看到由26-5时该值两两之间变化不大,而从5到4增加了约0.05,变化较大,则分类有明显差异,由此可见,酿酒白葡萄分成四类的结果比较有意义,这四类为第一类为3,第二类为1 8 13 16 17 18 19 22,第三类为2 4 6 7 9 10 11 12 14 20 21 23 26 ,第四类为5 15 25 24 27。表2.1然后,进一步画出聚类谱系图,其中图2.1是对酿酒红葡萄的聚类谱系图,图2.2是酿酒白葡萄的聚类谱系图。接着,根据每类葡萄的质量均值分别对两组酿酒红白葡萄的四类进行分级。在酿酒红葡萄中,第一类的均值为9.3,第二类均值为8.05,第三类均值为8.8,第四类均值为8.86,所以第一类酿酒葡萄为第一等级,第四类酿酒葡萄为第二等级,第三类酿酒葡萄为第三等级,第二类酿酒葡萄为第四等级。表2.2在酿酒白葡萄中,第一类的均值为9.6,第二类均值为8.94,第三类均值为8.99,第四类均值为8.95,所以第一类酿酒葡萄为第一等级,第三类酿酒葡萄为第二等级,第四类酿酒葡萄为第三等级,第二类酿酒葡萄为第四等级。最后,结论是将酿酒红葡萄分成四类四个等级,将酿酒白葡萄分成四类四个等级。图2.1图2.23.第三个问题的解答:第三个问题主要解决的问题是分析酿酒葡萄与葡萄酒的理化指标之间的联系。本模型将红葡萄酒与白葡萄酒进行分开讨论,然后通过SAS软件对酿酒葡萄与葡萄酒的理化指标进行初步的数据处理,将氨基酸总量作为氨基酸的度量,并将其他详细的氨基酸分类指标舍去。同样用白藜芦醇的含量指标作为白藜芦醇的度量,并将其他详细的白藜芦醇的分类指标去掉。而对于那些含有多次测验结果的指标,我们将取其均值为指标的度量,对于色泽则按三原色分类,然后进行相关性分析。因为一般认为0.7r1为高度相关,0.4r0.7为中度相关,0.2r0.4为低度相关,0r0.2为极低相关或零相关。所以本模型利用0.7作为分界点对酿酒葡萄与葡萄酒的理化指标中相关性高的指标进行筛选,并将相关系数低于0.7的系数全部设为0。筛选结果如表3.1和表3.2。表3.1 白酿酒葡萄与白葡萄酒的理化指标分析筛选结果bptx11x22x26y2000y3000y40.7438200y5000y6000y70-0.720650y8000y900-0.75744从表3.1中,我们可以看出y4与x11有高度正相关,y7与x22高度负相关,y9与x26也是高度负相关。因为y4为酒总黄酮含量,x11为总酚含量,所以酒总黄酮与总酚含量为高度正相关即白酿酒葡萄的总酚含量决定白葡萄酒的酒总黄酮含量。因为y7代表白葡萄酒的色泽L*(D65),而x22代表白酿酒葡萄的干物质含量,所以白葡萄酒的色泽L*(D65) 与白酿酒葡萄的干物质含量高度负相关。因为y9为白葡萄酒的色泽b*(D65),x26为白酿酒葡萄的出汁率,所以白葡萄酒的色泽b*(D65)与白酿酒葡萄的出汁率也是高度负相关。表3.2红酿酒葡萄与红葡萄酒的理化指标分析析筛选结果hptx4x9x10x11x12x13y10.922630.766990000y20.7195900.753240.817230.718050y30.7735400.814460.875160.743220.81545y40.7085500.763770.883080.701080.82283y6000.778490.874730.70030.81351y7-0.834150-0.70703-0.7539900 从表3.2可知y1与x4、x9高度正相关,y2与x4、x10、x11、x12高度正相关,y3与x4、x10、x11、x12、x13高度正相关,y4与x4、x10、x11、x12、x13高度正相关,y6与x10、x11、x12、x13高度正相关,y7与x4、x10、x11高度负相关。根据符号约定,红葡萄酒的花色苷含量与红酿酒葡萄的花色苷含量和红酿酒葡萄的褐变度为高度正相关;红葡萄酒的单宁含量与红酿酒葡萄的花色苷含量、DPPH自由基含量、总酚含量、单宁含量高度正相关;红葡萄酒的酒总黄酮含量与红酿酒葡萄的花色苷含量、DPPH自由基含量、总酚含量、单宁含量、葡萄总黄酮含量高度正相关;红葡萄酒的DPPH半抑制体积(IV50)与红酿酒葡萄的DPPH自由基含量、总酚含量、单宁含量、葡萄总黄酮含量高度正相关;红葡萄酒的色泽L*(D65) 与红酿酒葡萄的花色苷含量、DPPH自由基含量、总酚含量高度负相关。4.第四个问题的解答:第四个问题是分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。由于酿酒葡萄和葡萄酒的理化指标很多,所以本文认为可以通过SAS软件主成份分析进行降维,建立酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响的模型。从而论证可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。本文对白葡萄酒和红葡萄酒分开讨论,模型的建立步骤如下:第一步:计算协方差矩阵以确定利用协方差矩阵还是利用相关系数矩阵进行主成分分析。本文利用SAS软件计算协方差矩阵以查看各变量之间的方差是否相差过大,结果发现变量之间的方差相差过大,因此本文决定利用相关系数矩阵进行主成分分析。第二步:建立变量之间的相关系数阵R(如附录一所示)。第三步:求R的特征值和特征向量。R的特征值如图4.1和图4.2所示,特征向量如附录二所示。第四步:写出主成分并进行分析。从图4.1可以看出,前9个特征值累计贡献率已达85.18%。说明前9个主成分基本包含了全部指标,且前9个主成分的每个主成分方差贡献率都在3%以上。我们取前9个特征值,并计算出相应的特征向量。从图4.2可以看出,前12个特征值累计贡献率已达87.17%。说明前12个主成图4.1 红葡萄酒特征值分基本包含了全部指标,且前12个主成分的每个主成分方差贡献率都在2.5%以上。我们取前12个特征值,并计算出相应的特征向量。红酿酒葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响的主成份的表达式为式所示,白酿酒葡萄和白葡萄酒的理化指标对白葡萄酒质量的影响的主成份的表达式为式所示。其中H_(939)与B_(1238)的矩阵可查看附录二。prin1prin9=H939y1y9x1x30.prin1prin12=B1238y2y9x1x30.从红酿酒葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响的主成份的表达式和与H_(939)中可以得出一系列主成份关于各项指标的表达式。由于主成份的个数仍然比较大,所以本模型只对回归分析后留下的主成份进行解释。在第一主成分式中,第y2,y3,y6项指标上有较大的载荷,可将它看成是反映单宁、总酚、DPPH半抑制体积含量的综合指标。在第二主成分式中,第x16,x17,x18,x22项指标上有较大的载荷,可将它看成是反映总糖,还原糖,可溶性固形物含量的综合指标。在第四主成分式中,第x6,x8,x9,x19项指标上有较大的载荷,其中x19项指标的影响尤其大,可将它看成是反映苹果酸,柠檬酸,多酚氧化酶活力,褐变度,PH值的综合指标。从白酿酒葡萄和白葡萄酒的理化指标对白葡萄酒质量的影响的主成份的表达式和与B1238中可以得出一系列主成份关于各项指标的表达式。由于主成份的个数仍然比较大,所以本模型只对回归分析后留下的主成份进行解释。图4.2白葡萄酒特征值在第二主成分式中,第x11,x13项指标上有较大的载荷,可将它看成是反映总酚、葡萄总黄酮含量的综合指标。在第三主成分式中,第x21, ,x29,x30项指标上有较大的载荷,可将它看成是反映固酸比、Lab含量的综合指标。在第五主成分式中,第x9项指标上有很大的负载荷,可将它看成是褐变度的唯一指标。在第九主成分式中,第x24项指标上有较大的载荷,可将它看成是百粒质量的唯一指标。在第十主成分式中,第x4,x7项指标上有较大的载荷,其中x4项指标的影响尤其大,可将它看成是花色苷、柠檬酸的综合指标。在第十一主成分式中,第x7项指标上有较大的载荷,可将它看成是柠檬酸的唯一指标。在第十二主成分式中,第x12项指标上有较大的负载荷可将它看成是单宁的唯一指标。第五步:利用主成分得分进行回归分析。本文对主成份与葡萄酒平衡质量指标进行逐步回归,分别得出红酿酒葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响的模型即式,和白酿酒葡萄和白葡萄酒的理化指标对白葡萄酒质量的影响的模型即式。ZTh = 8.96428571429- 0.0400145427526prin2 - 0.0794145113131prin3 + 0.0626391538487prin5 + 0.156182005454prin9 - 0.16027180192prin10 + 0.0962072907493prin11 + 0.0811167465171prin12 .ZTb= 8.80370370371 + 0.0715541209745prin1 - 0.0707977172775prin2 + 0.195877733475prin4.六、模型的检验与评价问题一中主要运用了统计学知识进行数据处理,葡萄酒的评价结果由品酒员给出,由于不同的品酒员的经验等主观与客观因素的影响,不同的评酒员对同一样品酒的评价也会有明显不同,所以两组品酒员的评判结果有显著性差异。实际情况和本问题的求解结果相符合。问题二给出了酿酒葡萄的30个理化指标,为了有效的对数据进行处理,我们筛选出了9个主要理化指标,通过查找资料,我们发现所求的主要理化指标与实际中影响葡萄品质的主要理化指标基本相符,这说明我们的模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物制品质量控制标准操作程序
- 公开课小学数学教案设计
- 补血活性化合物筛选-洞察及研究
- 2025-2030中国数字疗法产品临床试验设计规范与监管路径报告
- 2025-2030中国心理咨询服务行业标准化建设与市场培育报告
- 2025-2030中国城市青年居住需求变迁与公寓产品升级报告
- 2025-2030中国口腔医疗服务下沉市场开发与民营机构竞争格局预测
- 2025-2030中国公寓行业ESG评价体系与可持续发展路径
- 2025-2030中国公寓智能化设备选型标准与投入产出分析
- 2025-2030中国元宇宙虚拟现实技术应用场景拓展研究报告
- 绿化施肥基本知识培训课件
- 选调生培训课件
- 安全驾驶教育培训课件
- 西师大版数学六年级上册 第一单元测试卷(A)(含解析)
- 2025北京京剧院招聘10人备考题库及答案解析
- 防护用品使用课件
- 日间手术课件
- 人形机器人-价值5万亿美元的全球市场 Humanoids A $5 Trillion Global Market
- 好好说话暖人心课件
- 部队新闻培训课件
- 2025年初级注册安全工程师考试练习题及答案解析
评论
0/150
提交评论