建模论文-基于聚类分析的葡萄酒质量评价.doc_第1页
建模论文-基于聚类分析的葡萄酒质量评价.doc_第2页
建模论文-基于聚类分析的葡萄酒质量评价.doc_第3页
建模论文-基于聚类分析的葡萄酒质量评价.doc_第4页
建模论文-基于聚类分析的葡萄酒质量评价.doc_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于聚类分析的葡萄酒质量的评价 作者:崔逸群 陆瑶摘 要本文基于假设检验、聚类分析以及主成分分析、回归分析等多种判别方法,分别研究了红、白葡萄酒的理化指标以及对应的酿酒葡萄的理化指标与葡萄酒的关系。具体地,本文解决了以下几个个问题:问题一研究了两组评酒员的评分的差异程度和可信度。在利用SPSS软件中k-s判别法测得数据满足正态分布前提下,运用配对样本T检验方法对两组评酒员的评价结果进行了显著性检验,结果表明两组的评价结果差异是显著的。另外,通过对两组评酒员评价结果进行方差比较,方差较小者较为可信,结果表明红、白葡萄酒均为第二组的评分较为可信。问题二,研究了基于酿酒葡萄的理化指标以及葡萄酒的质量对酿酒葡萄的分类问题。利用聚类分析方法,使用SPSS软件对酿酒葡萄的理化指标采用组间平均连锁距离聚类法和平方欧式距离度量方法进行系统聚类分析。根据分类的结果以及问题一得到的品酒员对葡萄酒的质量评分高低最终将酿酒葡萄分为五级。其具体结果见表六和表七。问题三,基于酿酒葡萄与葡萄酒的理化指标数据,首先运用主成分分析法对葡萄和葡萄酒的理化指标进行降维,选取酿酒葡萄和葡萄酒理化指标中少数较为重要的几个指标。再根据题意,分别以葡萄酒和葡萄的主成分作为因变量和自变量建立指标之间的函数关系来表征指标之间的联系。从而求出葡萄酒理化指标的每一个主成分对酿酒葡萄所有主成分之间的回归关系。建立多个回归关系式来分析指标之间的联系。本问可得出六个多元线性方程式,由由方程式可知,对于葡萄酒其主成分的理化指标与酿酒葡萄的一些理化指标具有明显的线性相关关系。 关键词:spss 显著性检验 方差 聚类分析 主成分分析 多元线性回归1. 问题重述葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。建立数学模型求解下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2. 问题分析酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。问题一:要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。本问题首先要求检验品酒员评价结果有无显著性差异,在检验数据满足正态分布前提下对两组数据进行配对样本T检验1,得到显著性差异结果。对于一组品酒员评价结果是否可信,可通过对其评价结果进行方差比较,方差结果较大组,则可认为组内成员间分歧较大,结果不可信,否则则认为结果可信。问题二:要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,酿酒葡萄的理化指标可根据附表得到,使用SPSS对理化指标进行聚类分析,找到具有相似成分的酿酒葡糖样品,因为根据常识一般具有相似优秀成分的葡萄可以酿出优秀的葡萄酒。之后便可根据问题一中得到的评酒员得出的评价成绩,结合聚类分析的结果,得到酿酒葡萄的级别。问题三:由于酿酒葡萄和葡萄酒的理化指标都很多,葡萄酒和葡萄的两组指标数量大,难以直接进行统计分析中的回归和相关等方法建立联系。因此,可首先考虑对指标的降维。在对降维方法的选择上,可采用主成分分析。主成分分析即将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。本题利用主成分分析法,选取酿酒葡萄和葡萄酒理化指标中少数较为重要的几个指标。再根据题意,建立指标之间的函数关系来表征指标之间的联系。由于本问中的指标变量之间的关系是多变量对多变量,则在建立联系时,可以葡萄酒理化指标为因变量,在以求得主成分的结果的基础之上,求葡萄酒理化指标的每一个主成分对葡萄所有主成分之间的回归关系。建立多个回归关系式来分析指标之间的联系。3. 符号说明聚类Y线性回归方程因变量4. 模型假设(1) 假设数据来源真实有效(2) 假设品酒员打分是公平可信的;(3) 假设酿酒工艺条件相同,无其他人为因素影响(4) 假设酿酒工艺和贮存条件等对葡萄酒质量及理化指标无影响;5. 建模与求解5.1. 问题一5.1.1数据预处理在对附表一进行数据处理中,发现数据存在缺失和明显错误现象,针对这种现象,因为数据波动较小,故可以采用求平均值的方法来替代错误及缺失数据。现列表如下:表一:数据错误修正前第一组白葡萄酒品尝评分酒样品3总分:100干白品种品酒员1品酒员2品酒员3品酒员4品酒员5品酒员6品酒员7品酒员8品酒员9品酒员108持久性75756777567表二:数据错误修正后:第一组白葡萄酒品尝评分酒样品3总分:100干白品种品酒员1品酒员2品酒员3品酒员4品酒员5品酒员6品酒员7品酒员8品酒员9品酒员108持久性7575676567表三:数据缺失修正前:第一组红葡萄酒品尝评分品酒员1号品酒员2号品酒员3号品酒员4号品酒员5号品酒员6号品酒员7号品酒员8号品酒员9号品酒员10号酒样品20分数分数分数分数分数分数分数分数分数分数外观分析 15澄清度 54435344424色调 10664?668668表四:数据缺失修正后:第一组红葡萄酒品尝评分品酒员1号品酒员2号品酒员3号品酒员4号品酒员5号品酒员6号品酒员7号品酒员8号品酒员9号品酒员10号酒样品20分数分数分数分数分数分数分数分数分数分数外观分析 15澄清度 54435344424色调 1066466686685.1.2显著性差异模型建立与求解: 模型建立前提两组数据需要来自正态总体1.用spss对各组评分员评分结果进行正太分布检验,检验结果见附录五,由于各组双侧渐进显著性取值都大于0.05,即可认为数据分布是服从正态分布的。配对样本T检验基本步骤2提出原假设两配对样本T检验的原假设为:两总体均值无显著差异,表述为:。,分别为第一个和第二个总体的均值。选择统计量。两配对样本T检验采用T统计量。计算检验统计量观测值和概率P-值给定显著水平,并作出决策。给定显著水平,与检验统计量的概率P-值作比较。如果概率P-值小于显著水平,则应拒绝原假设,认为差值样本的总体均值与0有显著不同,两总体的均值有显著差异;反之,如果概率P-值大于显著水平,则不应拒绝原假设,认为差值样本的总体均值与0无显著不同,两总体的均值不存在显著差异。对数据进行配对样本T检验用spss对两组评分员结果进行配对样本T检验结果如下:图一:白葡萄酒评分结果T检验 图二:红葡萄酒评分结果T检验由图可知,两图结果Sig(双侧)小于显著性水平0.05,拒绝原假设,认为两组评酒员评价结果有显著性差异。5.1.3可信度评价模型建立与求解对于可信度的评价分析,可以利用方差大小来进行评估,方差结果较大组,则可认为组内成员间分歧较大,结果不可信,否则则认为结果可信。首先求出各组成员对同一酒样品评分的方差,然后再用Excel做出两组评分员评分结果的方差比较图如下:图三:两组红葡萄酒评分方差图图四:两组白葡萄酒评分方差图结果分析:由两幅图可以看出对于红葡萄酒和白葡萄酒,第二组评分员给出的评分结果波动较小,可以认为第二组评分员给出的结果更可靠。5.2. 问题二的建模与求解5.2.1数据预处理本问题由于酿酒葡萄理化指标较多,对于各类指标,均只取用第一类指标而忽略第二类指标,对于测量多次的数据采用求取均值的办法,以均值来代替指标。5.2.2模型建立:聚类分析聚类是将某个对象集划分为若干组的过程,使得同一个组内的数据对象具有较高的相似度,而不同组中的对象是不相似的。3本问题我们采用系统聚类分析处理。 系统聚类分析根据题意,我们对酿酒葡萄的理化指标和葡萄酒的质量进行系统聚类分析来对酿酒葡萄进行分级。系统聚类分析法a. 基本思想: 首先将个模式视作各自成为一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新类,计算在新产生的类别分划下各类之间的距离,再将距离最近的两类合并,直至所有模式聚成两类为止。 b. 算法步骤1 初始分类。令,每个模式自成一类,即。 2 计算各类间的距离,生成一个对称的距离矩阵,为类的个数。 找出前一步求得的矩阵中的最小元素,设它是和间的距离,将和两类合并成一类,于是产生新的聚类,令。 检查类的个数。如果类数大于2,令,转至;否则,停止。 如果某一循环中具有最小类间距离不止一个类对,则对应这些最小距离的类可以同时合并。上述算法步骤给出了从类至类的完整聚类过程。 基于酿酒葡萄的理化指标和葡萄酒质量的进行系统聚类分析根据上述的四个方法步骤,我们先运用Excel对题目所给的两种葡萄的理化指标的数据进行分析和整理,再运用SPSS软件对酿酒葡萄的理化指标进行系统聚类分析,得出其结果如下图所示:图五:红葡萄酒酿酒葡萄理化指标聚类分析图六:白葡萄酒酿酒葡萄理化指标聚类分析考虑到我们国家将葡萄酒品质分为五种类别4,如下表:表五:葡萄酒感官分级评价描述等 级描 述优级品具有该产品应有的色泽,自然、悦目、澄清(透明)、有光泽;具有纯正、浓郁、优雅和谐的果香(酒香),诸香协调,口感细腻、舒顺、酒体丰满、完整、回味绵长、具该产品应有的怡人的风格。优良品具有该产品的色泽;澄清透明,无明显悬浮物,具有纯正和谐的果香(酒香),口感纯正,较舒顺,完整,优雅,回味较长,具良好的风格。合格品与该产品应有的色泽略有不同,缺少自然感,允许有少量沉淀,具有该产品应有的气味,无异味,口感尚平衡,欠协调、完整,无明显缺陷。不合格品与该产品应有的色泽明显不符,严重失光或浑浊,有明显异香、异味,酒体寡淡、不协调,或有其他明显的缺陷(除色泽外,只要有其中一条,则判为不合格品)。劣质品不具备应有的特征。于是我们可以结合葡萄酒质量对两类酿酒葡萄进行分类,首先根据聚类结果得到不同类别的酿酒葡萄,然后根据对应葡萄酒品尝得分均值划分等级如下表:表六:红葡萄酒酿酒葡萄等级划分等 级对应酿酒葡萄样品对应葡萄酒品尝得分均值一2 3 9 2375.98二5 17 2472.7三10 20 25 2671.2四1 4 8 13 14 16 19 21 22 2770.45五6 7 11 12 15 1865.43表六:红葡萄酒酿酒葡萄等级划分等 级对应酿酒葡萄样品对应葡萄酒品尝得分均值一3 5 9 20 2878.74二4 14 17 21 22 2778.32三2 10 12 23 34 25 2676.47四1 6 7 13 15 1876.23五8 11 16 1971.855.3. 问题三的建模与求解5.3.1两组指标的主成分分析酿酒葡萄的理化指标与葡萄酒质量的理化指标数目过多,且部分指标对各自的品质影响小,且数目过多难以建立指标之间的联系。因此,首先可对各指标进行降维,减小指标个数。本问中采取主成分分析的方法对指标进行降维。主成分分析可将原来众多的具有一定相关性的变量重新组合成一组新的相互无关的综合变量来代替原来的变量。其一般步骤5:(1)由相关系数矩阵得到特征值及各主成分的方差贡献率等,根据累计贡献率确定主成分保留个数(2)利用施密特正交方法,对每一个求其对应基本方程组的解,对数据进行转换得到主成分(3)将观测值代入主成分表达式中计算各个主成分的值(4)由因子载荷解释主成分。用一级指标代替二级指标,通过spss软件,以特征值贡献率之和大于85%筛选主成分进行分析。具体计算方法由下图5给出:图七:主成分分析法计算利用spss计算得到(计算结果见附录六):(1)红葡萄酒主成分为2个(2)红葡萄酒酿酒葡萄主成分为8个(3)白葡萄酒主成分为3个(4)白葡萄酒酿酒葡萄主成分为10个5.3.2模型建立主成分间的回归分析多元回归分析是研究多个变量之间关系的回归分析方法,确定变量之间数量的可能形式,并用数学模型表示如下:Y=a+Bi*Xi其中a为常数项,Bi为回归系数,i=1,2,3由于红葡萄酒的理化指标主成分为两个,红葡萄酒酿酒葡萄的理化指标有八个,使用spss对着两组数据进行多元线性回归分析如下,于是便可以得到两组八元一次方程组。图八:红葡萄酒线性回归结果方程一图九:红葡萄酒线性回归结果方程二由以上两图可以得到红葡萄酒与其酿酒葡萄的线性回归方程如下:Y1=-1.541+0.276*X1-0.019*X2-0.021*X3+0.026*X4+0.429*X5+0.498*X6-1.412*X7+1.675*X8Y2=-0.368+0.019*X1-0.001*X2+0*X3+0.003*X4+0.009*X5+0.009X6-0.07*X7+0.05*X8其中Y1为总酚,Y2为DPPH半抑制体积;X1为白藜芦醇,X2为总糖,X3为还原糖,X4为可溶性固形物X5为干物质含量,X6为果梗比,X7为a*(+红;-绿),X8为b*(+黄;-蓝)同理针对白葡萄酒可得到如下回归结果:图十:白葡萄酒线性回归结果方程一图十一:白葡萄酒线性回归结果方程二图十二:白葡萄酒线性回归结果方程三由以上三图可以得到白葡萄酒与其酿酒葡萄的线性回归方程如下:y1=1.197+0*x1+0.002*x2-0.112*x3+0.134*x4-0.09*x5+0.14*x6+0.166*x7+0.01*x8-0.004*x9-0.028*x10y2=-0.553+0*x1+0.001*x2-0.093*x3+0.038*x4+0.043*x5+0.031*x6+0.078*x7-0.005*x8-0.001*x9+0.021*x10y3=-5.319+0*x1+0.008*x2+0.135*x3+0.002*x4+0.171*x5-0.088*x6+0.108*x7+0.042*x8=0,。009*x9-0.067*x10y1为单宁,y2为总酚,y3为酒总黄酮;x1为氨基酸总量,x2为蛋白质,x3为苹果酸,x4为柠檬酸,x5为总酚,x6为单宁,x7为葡萄总黄酮,x8为黄酮醇,x9为还原糖,x10为干物质含量。 5.3.3相关性分析 由以上方程可知,对于葡萄酒其主成分的理化指标与酿酒葡萄的理化指标具有线性相关关系,即酿酒葡萄与葡萄酒理化指标之间具有紧密的联系。5.4. 问题四的建模与求解未完成6. 模型的综合评价模型的优点(1) 模型对缺失、错误数据进行了处理,排除了偶然误差对模型结果的影响。(2) 对混乱数据进行了排序使数据处理过程更简明。(3) 对多个数据进行了聚类分析,使分类更加合理化。(4) 对多成分进行主成分分析,得到清晰明了的结果。模型的缺点(1) 对酿酒葡萄、葡萄酒指标处理时仅考虑一级指标,以及后面采用主成分分析丢失大量数据,使结果可信度降低。(2) 在回归分析中, 虽然采用了多元线性回归方程进行分析,但是忽略了自变量之间的交互作用对因产生影响,从而使回归结果不够准确。(3) 没有对回归方程进行显著性检验。7. 参考文献1 t检验,百度百科,/link?url=1vPdpWnOdlola7gB4nkscf6mTygVH2j7vNEzwPX9RifpyFzTGn-HGl_lNT_H4UKt,2014.7.182 SPSS中T检验的应用,百度文库, /view/98727de0524de518964b7daf.html,2014.7.183 杜强 贾艳丽,SPSS从入门到精通,2011年4 中华人民共和国国家标准葡萄酒,GB 150372006,中国标准出版社出版发行5 余祖德,陈俊芳. 基于最大熵的两极逼近理想点的配送路线选择,.第1期:48-51,2007.6 主成分分析,百度百科,/view/45376.htm?fr=aladdin8. 附录附录1:第一组红葡萄酒品酒员酒样品品酒员1品酒员2品酒员3品酒员4品酒员5品酒员6品酒员7品酒员8品酒员9品酒员10品酒员结果均值品酒员结果方差15166495477617261746262.792.90 27181867491808379857380.339.79 38085897669897383847680.445.82 45264656658827663837768.6108.04 57474726284636884817173.362.01 67269716182696964818472.259.73 76370766459847259848471.5103.61 86476656576726985757672.344.01 97778768285907692807981.532.94 106782836875737568767574.230.40 117360726363717066907370.170.77 125442405553604761586953.979.66 136984795973777776757774.644.93 14707770708059767676767336.00 156950505851505660677658.785.57 167280807169718074787474.918.10 177079916897826980817679.388.01 186365495552576258706859.947.21 197684846668878078828178.647.38 207884767482797676868179.215.51 217390967169607973867477.1116.10 227383726893727577798077.250.62 238385868095938191847885.632.49 24708590689084707578707874.89 256078816270676462816769.264.62 267380716178717276797773.831.29 27707763648076736785757349.78 附录二:第二组红葡萄酒品酒员酒样品品酒员1品酒员2品酒员3品酒员4品酒员5品酒员6品酒员7品酒员8品酒员9品酒员10品酒员结果均值品酒员结果方差16871805253767173706768.173.692757676716874837373717414.638269807863757277747674.627.6447579737260777373607071.237.1656668777576737272746872.112.2966567756158667067676766.319.0176865686547705774726765.356.418717078516269735968596658.698183857669808377757378.223.16106773826263666672657268.832.56116461676250666451676461.634.24126768755863736772697168.322.61137464686570677076696568.813.76147171786467767480737272.620.84156260735459717170686965.737.21167165787064736675686969.918.09177273757475777976766874.58.25186765805562646274606565.445.24197265826164817680747172.649.64208075806670847983717075.835.16218072757262776370737872.231.96227779756268697371697371.621.84237977808367798071817477.122.29246669727373687276767071.59.65256868846260666973666668.239.3626686783647374777863737237.4277164727169718273736971.518.45附录三:第一组白葡萄酒品酒员酒样品品酒员1品酒员2品酒员3品酒员4品酒员5品酒员6品酒员7品酒员8品酒员9品酒员10品酒员结果方差第一组白葡萄酒品尝评分1858088617693838095798382278478654799185687381180.9674.238567897578756579907962.3678.247577806577838878858640.2479.4584477760796274747974113.871661458365785680676584146.4468.478481836674808068778235.2577.5875468154815973778583165.2471.497969816070557381768583.4972.91075428660877583739171191.4174.31179468560747186628872159.4172.31264427552676277566870104.2163.31382428349666576626569153.6965.91478488467796478688173102.8721574488771816179677482118.4472.41669498665709187628477160.2741781549070787187749291129.7678.81886448371727185647481140.8973.1197566836873648063737741.7672.2208068827183818462878057.9677.82184498559768683708884155.4476.42265489058727776708074124.871237166806980827871877539.2975.92482567973675968788685100.0173.3258680826974677778778130.4977.1267566827593918176908465.6181.327584079

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论