葡萄酒论文-葡萄酒的分析及等级划分.doc_第1页
葡萄酒论文-葡萄酒的分析及等级划分.doc_第2页
葡萄酒论文-葡萄酒的分析及等级划分.doc_第3页
葡萄酒论文-葡萄酒的分析及等级划分.doc_第4页
葡萄酒论文-葡萄酒的分析及等级划分.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

葡萄酒的分析及等级划分摘 要 由于经济全球化越来越广泛,西方文化的逐渐渗入中国的东方文化,葡萄酒越来越被大众接受,其营养价值和保健价值也逐渐受到人们重视,葡萄酒认证和质量评价逐渐得到关注,因此我们想要对其进行研究。我们寻找到两组各10个评酒员对红白葡萄酒的评分数据以及葡萄酒和酿酒葡萄的理化指标来对葡萄酒进行分析及等级划分。首先先验证各组评分数据是否满足正态分布,再对红白葡萄酒的两组数据分别采用配对T检验检验两组数据是否有显著性差异,再根据方差判断哪组数据较为可靠。由于同一等级物品,其特性相近,因此用可靠的那组评分数据综合酿酒葡萄的理化指标采用聚类分析,对酿酒葡萄进行等级划分,各分为四个等级,用每个等级的中所有葡萄酒平均得分作为该等级的酿酒葡萄分数。查阅资料,分析可知酿酒葡萄的理化指标影响了葡萄酒的理化指标,因此考虑建立模型,描述一个葡萄酒的理化指标与酿酒葡萄的多个指标之间的关系,通过这种联系分析酿酒葡萄指标对葡萄酒理化指标的影响。最后用葡萄酒的得分作为葡萄酒的质量标准,综合剔除指标后的酿酒葡萄和葡萄酒的理化指标进行回归分析,并观察回归性是否显著。以此判断葡萄酒质量是否可以运用这两种指标来评价。【关键词】正态检验;配对T检验;聚类分析;逐步回归分析1引言葡萄酒中含有丰富的营养物质,至今多达 600 种以上的物质被测定出来。葡萄具有的营养和医疗作用很早就被认识, 葡萄酒因其特殊的营养价值和较好的保健效果,越来越受到广大消费者的欢迎。在此形势下,葡萄酒认证和质量评价得到关注。葡萄酒的质量,即葡萄酒优秀的程度, 它是产品的一种特性,且决定购买者的可接受性。因此,葡萄酒能够满足人类需求的各种特性的总和即构成了它的质量。葡萄酒认证保证了市场中酒的质量,同时保护了消费者的利益。葡萄酒的认证包括理化性质分析、感官评价、 物理化学指标、卫生指标等手段。质量评价是认证中的重要阶段,它有益于提高葡萄酒的酿造工艺,同时为市场定位提供决策信息。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒的质量。 葡萄酒的每一项理化指标是其质量的单一体现,而感官指标则是葡萄酒质量的综合概括,换句话说,一个理化指标、卫生指标都合格的葡萄酒未必是高质量的葡萄酒。在今后的一个时期,我们需要做的是从葡萄酒的特点出发,围绕葡萄和葡萄酒理化指标、感官指标等众多因素对葡萄酒质量的联系进行研究,尽可能确定较为合理的葡萄酒质量评价标准,既保证市场中酒的质量,保护消费者利益,又能为市场定位提供决策信息,达到经济效益的目的,从而实现双赢。2模型假设2.1假设品酒员给出的评价能够真实客观地反应葡萄酒的情况2.2葡萄酒的质量只与酿酒葡萄有关,忽略人为干扰、酿造过程中的环境差别,如温度、湿度等因素2.3每个评酒员对不同葡萄酒样品的评分是不受主观因素影响的,即各评分结果相互独立2.4假设数据来源真实有效,数据的误差皆在可接受范围之内3符号说明 表示第j个品酒员对第i个葡萄酒样品的评分d 度量酿酒葡萄与得分的距离作为第组样品的得分4分析两组评酒员的评价结果有无显著性差异,哪一组结果更可信 4.1数据预处理对附件一的数据进行观察,可以看出葡萄酒样品的评价项目满分为100分,分别由10个品酒员进行评分,评分标准主要有外观分析(15分)、香气分析(30分)、口感分析(44分)以及平衡/整体评价(11分),各占一部分比例,红白葡萄酒的两组数据表,发现有几个数据属于异常值和残缺值,应先做出处理4.1.1残缺值的处理第一组红葡萄酒4号品酒员对20号葡萄酒样品的色调评价分数为空值,因为可以粗略认为不同品酒师对同一葡萄酒样品评分相差不大,所以采用均值替换法来处理数据4.1.2异常数据的处理第一组白葡萄酒7号品酒员对3号葡萄酒样品的持久性评分为77,超过其上限8分,9号品酒员对8号葡萄酒样品的持久性评价为16,超过上限8,显然不合理,因此属于异常数据,采用均值替换法处理该数据。4.2对原始数据的处理每个品酒员对同一葡萄酒样品的外观分析、香气分析、口感分析、平衡/整体评价都有一个评分,把这些评分相加作为该品酒员对该葡萄酒样品的得分,再把这10个品酒员对该葡萄酒样品的评分取平均值,作为该葡萄酒样品的最终得分。4.3各葡萄酒样品样品评分数据的概率分布的确定由于要对数据分别进行显著差异性检验,因而必须先检验数据是否服从正态分布,才能确定要采用参数检验还是非参数检验来进行显著差异性的检验。首先,先对每一个葡萄酒样本中的10个品酒员的分数进行平均,取该平均值为葡萄酒样本的分数,即:然后,利用SPSS软件分别画出这四组数据的频率分布直方图和Q-Q图进行正态分布检验。频率分布直方图下图所示:从频率直方图可以看出数据基本符合正态分布Q-Q图:一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看Q-Q图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用Q-Q图还可获得样本偏度和峰度的粗略信息。由图可知数据基本与图中的45度对角线吻合,且右边的图形偏差不会过大,因此符合正态分布。单样本K-S检验:可以将一个变量的实际频数分布与正态分布、均匀分布、泊松分布、指数分布进行比较。其零假设为样本来自的总体与指定的理论分布无显著差异。SPSS在统计中将计算K-S的Z统计量,并依据K-S分布表(小样本)或正态分布表(大样本)给出对应的相伴概率值。如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设,认为样本来自的总体与指定的分布有显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设,认为样本来自的总体与指定的分布无显著差异。K-S检验表One-Sample Kolmogorov-Smirnov Test第一组红葡萄酒样品第二组红葡萄酒样品第一组白葡萄酒样品第二组白葡萄酒样品N27272828Normal ParametersaMean73.077870.514873.967976.5321Std. Deviation7.360933.977994.827323.17094Most Extreme DifferencesAbsolute.156.124.092.122Positive.089.078.080.076Negative-.156-.124-.092-.122Kolmogorov-Smirnov Z.812.644.486.648Asymp. Sig. (2-tailed).525.801.972.796表中最后一行数据均大于0.05,因此四组数据符合正态分布。综上,采用参数检验来验证差异性显著性检验。作为第i组样品j的得分。本题中数据成对,即对同一葡萄酒样品测出一对数据,我们知道一对与另一对数据之间的差异是由于各种因素引起的,并且由于各个样品间存在差异,不能把两组各样品的得分当作来自同分布的观测值,并且对于每对数据而言,它们是同一样品不同品酒员测得的结果,因此不是两个独立的随机变量的观察值。但是(=1,2,,27)可以作为来自一个样本的样本值,反映了同一样品两组间的评分差异,故采用配对t检验。但是使用配对t检验的前提条件是服从正态分布,所以要先对进行Kolmogorov-Smirnov检验。然后利用方差分析来判断哪组更稳定。组间方差越大表明越不可信。运用SPSS软件进行分析,结果如下表所示:One-Sample Kolmogorov-Smirnov Test红葡萄酒两组差值白葡萄酒两组差值N2728Normal ParametersaMean2.5630-2.5643Std. Deviation5.374245.07026Most Extreme DifferencesAbsolute.217.095Positive.158.095Negative-.217-.074Kolmogorov-Smirnov Z1.127.505Asymp. Sig. (2-tailed).157.961表中最后一行数据均大于0.05,因此符合正态分布4.4分别对红葡萄酒和白葡萄酒的两组测试数据进行配对t检验运用SPSS软件运行,结果如下表所示:表一(两组红葡萄酒均值方差表)Paired Samples StatisticsMeanNStd. DeviationStd. Error MeanPair 1第一组红葡萄酒样品73.078277.36091.4166第二组红葡萄酒样品70.515273.9780.7656表二(红葡萄酒配对T检验)Paired Samples TestPaired DifferencestdfSig. (2-tailed)MeanStd. DeviationStd. Error Mean95% Confidence Interval of the DifferenceLowerUpperPair 1第一组红葡萄酒样品 - 第二组红葡萄酒样品2.56305.37421.0343.43704.68892.47826.020表三(两组白葡萄酒均值方差表)Paired Samples StatisticsMeanNStd. DeviationStd. Error MeanPair 1第一组白葡萄酒样品73.968284.8273.9123第二组白葡萄酒样品76.532283.1709.5993表四(白葡萄酒配对T检验)Paired Samples TestPaired DifferencestdfSig. (2-tailed)MeanStd. DeviationStd. Error Mean95% Confidence Interval of the DifferenceLowerUpperPair 1第一组白葡萄酒样品 - 第二组白葡萄酒样品-2.56435.0703.9582-4.5303-.5982-2.67627.013由表二、四中可以看出最后一列即P均小于0.05,因此可以认为两组数据有显著性差异,从表一、三种可以看出两组数据的均值和方差,可以认为方差较小的评分标准较为可靠,因此第二组红葡萄酒以及第二组白葡萄酒得分数据较为可靠。5根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级5.1数据预处理5.1.1异常值的处理观察附件二,由于蓝色为一级指标,红色为二级指标,项目下有几列数据,表示该项目测试几次,由于是对同一样品进行测量,因此测出的数据应该相差不大,但是酿酒葡萄理化指标中的白葡萄百粒质量的三次测试值分别为225.8,224.6,2226.1,第三次测试结果明显比前两次大很多,必定为异常值,因此采用均值替代法处理,取前两次的平均值为该次的结果。5.1.2对处理后的数据进行再处理有表中数据可知,有的数据进行多次测量,为了方便进行计算,只取一级理化指标计算算,对于进行多次测量的指标取平均值作为该样本的最终指标。公式为:5.1.3数据的标准化观察附件二,由于数据各指标的量化单位不同,数据波动范围不同,为了消除这些不利影响,应对理化指标数据进行标准化处理。假设有个样本,个指标,则每个变量可表示为,均值标准方差则标准化后 利用SPSS软件可以直接对数据进行标准化。5.2聚类分析聚类分析就是分析如何对样品或者变量进行量化分类的问题,聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,聚类分析的目标就是在相似的基础上收集数据来分类。由于聚类分析是将数据分类到不同的类或者簇的一个过程,因此同一个簇中的对象具有较大的相似性,而不同簇之间具有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。其主要有系统聚类法和K-均值聚类法。本题采用系统聚类法进行研究。5.2.1系统聚类法的基本原理首先将一定数量的样本或指标各自看成一类,然后根据样本或指标的亲疏程度,将亲疏程度最高的两类合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本或指标合并为一类。系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。5.2.2衡量亲疏程度的距离令表示第个样品的第个指标, 表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:明考斯基距离()本题采用欧式距离进行计算。即取, 即为欧氏距离5.2.3、对酿酒葡萄的理化指标以及评分表的数据进行聚类分析由四已经得到第二组品酒员的评分数据较为可靠,因此采用第二组品酒员的数据。由于酿酒葡萄与品酒员的评分即葡萄酒质量具有一定的关系,因此采用聚类分析,利用酿酒葡萄的30个理化指标对其分成若干类。运行SPSS软件进行聚类分析,结果如下所示:表一(红葡萄酒聚类)Case8 Clusters7 Clusters6 Clusters5 Clusters4 Clusters3 Clusters1:葡萄样品1 1111112:葡萄样品2 2221113:葡萄样品3 3332214:葡萄样品4 4443215:葡萄样品5 4443216:葡萄样品6 4443217:葡萄样品7 4443218:葡萄样品8 5511119:葡萄样品9 22211110:葡萄样品10 66543211:葡萄样品11 77654312:葡萄样品12 44432113:葡萄样品13 44432114:葡萄样品14 55111115:葡萄样品15 44432116:葡萄样品16 44432117:葡萄样品17 44432118:葡萄样品18 44432119:葡萄样品19 44432120:葡萄样品20 84432121:葡萄样品21 33322122:葡萄样品22 44432123:葡萄样品23 22211124:葡萄样品24 44432125:葡萄样品25 84432126:葡萄样品26 84432127:葡萄样品27 444321DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+葡萄样品1212葡萄样品1818葡萄样品66葡萄样品77葡萄样品44葡萄样品2727葡萄样品2222葡萄样品1717葡萄样品2424葡萄样品55葡萄样品1515葡萄样品1313葡萄样品1919葡萄样品1616葡萄样品2020葡萄样品2626葡萄样品2525葡萄样品33葡萄样品2121葡萄样品22葡萄样品99葡萄样品2323葡萄样品88葡萄样品1414葡萄样品11葡萄样品1010葡萄样品1111由表中数据粗略认为分成4类较好,设这四类酿酒葡萄等级分别为A、B、C、D,其中第一类:1、2、8、9、14、23,第二类:3、4、5、6、7、12、13、15、16、17、18、19、20、21、22、24、25、26、27,第三类:10,第四类:11;取各类中样品数据平均值作为该类得分,则有第一类A:72.7,第二类B:70.4第三类C:68.8,第四类D:61.6。等级葡萄酒样品号得分A1、2、8、9、14、2372.7B3、4、5、6、7、12、13、15、16、17、18、19、20、21、22、24、25、26、2770.4C1068.8D1161.6表二(白葡萄酒聚类)Cluster MembershipCase8 Clusters7 Clusters6 Clusters5 Clusters4 Clusters3 Clusters1:葡萄样品1 1111112:葡萄样品2 2222223:葡萄样品3 3333324:葡萄样品4 4444225:葡萄样品5 4444226:葡萄样品6 5111117:葡萄样品7 5111118:葡萄样品8 2222229:葡萄样品9 44442210:葡萄样品1044442211:葡萄样品1122222212:葡萄样品1244442213:葡萄样品1311111114:葡萄样品1444442215:葡萄样品1551111116:葡萄样品1665222217:葡萄样品1776542218:葡萄样品1851111119:葡萄样品1922222220:葡萄样品2044442221:葡萄样品2144442222:葡萄样品2276542223:葡萄样品2344442224:葡萄样品2444442225:葡萄样品2522222226:葡萄样品2644442227:葡萄样品2787654328:葡萄样品28444422*HIERARCHICALCLUSTERANALYSIS*DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+葡萄样品55葡萄样品2020葡萄样品2323葡萄样品2626葡萄样品99葡萄样品2828葡萄样品44葡萄样品1414葡萄样品2121葡萄样品1010葡萄样品2424葡萄样品1212葡萄样品1717葡萄样品2222葡萄样品88葡萄样品1111葡萄样品22葡萄样品2525葡萄样品1919葡萄样品1616葡萄样品33葡萄样品11葡萄样品1313葡萄样品66葡萄样品1818葡萄样品77葡萄样品1515葡萄样品2727同理,把白葡萄酒样品分为4类,等级分别为A、B、C、D,其中第一类:1、6、7、13、15、18,第二类:2、4、5、8、9、10、11、12、14、16、17、19、20、21、22、23、24、25、26、28,第三类:3,第四类:27。取各类中样品数据平均值作为该类得分,则有第一类:76.1,第二类:75.6,第三类:77,第四类:76.8。等级分类如下表所示:等级白葡萄酒样品得分A377B2776.8C1、6、7、13、15、1876.1D2、4、5、8、9、10、11、12、14、16、17、19、20、21、22、23、24、25、26、2875.66分析酿酒葡萄与葡萄酒的理化指标之间的联系。6.1数据预处理6.1.1异常值的检测结合5.1处理后的酿酒葡萄理化指标数据,对葡萄酒理化指标进行观测,未发现异常值。6.1.2对处理后的数据进行再处理由表中数据可知,有的数据进行了多次测量,为了方便进行计算,只取一级理化指标来计算,对于进行多次测量的指标取平均值作为该样本的最终结果。公式为:6.1.3数据标准化处理同5.1.3一样,对数据进行标准化处理6.1.4指标筛选由于葡萄酒酿酒葡萄涉及的指标过多,而样本量较小,将过多的酿酒葡萄指标纳入考虑范围后可能会产生较大误差,因此考虑先对指标进行筛选。考虑进行因子分析,在进行降维处理时,SPSS软件提示相关系数矩阵为非正定矩阵,无法给出KMO值,提示如下所示:Correlation Matrix(a)a. This matrix is not positive definite.而解决方案分别为增加样本或者剔除某些强相关的变量,但是本题因样本已给定,显然无法继续增加样本,因此考虑进行各指标间的相关系数,看是否有强相关的变量存在可以剔除,直至剔除到可以显示KMO检验为止。考虑相关系数大于0.7的指标,相关系数大于0.7的如下所示:红葡萄酒酿酒葡萄指标部分相关系数DPPH自由基总酚可溶性固物质白藜芦醇干物质含量b果皮质量蛋白质0.748花色苷0.728总酚0.857单宁0.755葡萄总黄酮0.8360.895总糖0.8650.850干物质含量0.817a0.7380.865还原糖0.778百粒质量0.7观察附件二,可以发现,可溶性固物质=固酸比指标*可滴定酸指标,再观察上表中相关系数大于0.7的指标,把同时与多个相关的指标剔除,直至KMO检验成功为止。剔除了指标a*(+红;-绿)、干物质含量、可溶性固形物、总酚、DPPH自由基1/IC50,得出KMO检验如下表所示:KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.315Bartletts Test of SphericityApprox. Chi-Square521.060df300Sig.000KMO小于0.5,因此不必继续进行因子分析。白葡萄酒酿酒指标同理可得。相关系数表如下:白葡萄酒酿酒葡萄指标部分相关系数葡萄总黄酮总糖可滴定酸干物质含量百粒质量ab总酚0.943可溶性固形物0.846固酸比-0.958还原糖0.803果穗质量0.712果皮质量0.734L-0.7430.858剔除指标L、百粒质量、干物质含量、可滴定酸、可溶性固形物、总酚,得到KMO检验如下表所示:KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.125Bartletts Test of SphericityApprox. Chi-Square432.617df276Sig.000KMO值小于0.5,此时不必进行因子分析。最后用剔除后的酿酒葡萄指标与葡萄酒指标进行分析。6.2逐步回归分析在自变量很多时,其中有的因素可能对因变量的影响不大,而且自变量之间可能不是相互独立,可能有种种关系。在这种情况下,可采用逐步回归分析,进行自变量的筛选,这样建立的多元回归模型预测效果会更好。逐步回归分析,首先要建立因变量Y与自变量X之间的总回归方程,再对总的方程以及每一个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某一个自变量对Y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优回归方程”。查阅资料,分析可知酿酒葡萄的理化指标影响了葡萄酒的理化指标,它们之间并不是因果关系,因此考虑建立模型,描述一个葡萄酒的理化指标与酿酒葡萄的多个指标之间的关系,通过这种联系分析酿酒葡萄指标对葡萄酒理化指标的影响。自变量X为酿酒葡萄理化指标,因变量Y为葡萄酒理化指标。结果如下:葡萄酒理化指标花色苷与酿酒葡萄理化指标逐步回归分析表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)6.834E-11.076.0001.000花色苷mg/100g鲜重.923.077.92311.961.0002(Const

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论