建模论文-葡萄酒的评价.doc_第1页
建模论文-葡萄酒的评价.doc_第2页
建模论文-葡萄酒的评价.doc_第3页
建模论文-葡萄酒的评价.doc_第4页
建模论文-葡萄酒的评价.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

葡萄酒的评价摘要葡萄酒的质量评价是研究葡萄酒的一个重要领域,目前一般是通过聘请一些有资历的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其进行打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本文分析了如何对酿酒葡萄进行分类,寻找了酿酒葡萄与葡萄酒的理化指标之间的联系,以及解决了酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响等问题,建立了相应的数学模型,并且充分运用了Excel和SPSS等数学工具。对于问题一,我们首先使用Excel对附件一中的数据进行了加权平均,求得两组品酒员对红白葡萄酒的评分;再通过方差分析法比较两组品酒员对红白葡萄酒评分的波动性大小。在判断显著性差异的时候,我们使用了成对样本的t检验,通过比较p值和0.05,得到红葡萄酒和白葡萄酒都存在显著性差异;通过对方差大小的观察,可以得到第二组评分结果更加可信。对于问题二,我们先运用主成分分析法找出红白酿酒葡萄的主成分,再运用SPSS软件通过聚类分析法对酿酒葡萄进行分类。对于问题三,首先我们运用主成分分析法对葡萄酒的理化指标进行了降维,再利用SPSS对酿酒葡萄和葡萄的理化指标进行了相关性分析,发现酿酒葡萄和葡萄的理化指标之间的相关性不强。对于问题四,我们把酿酒葡萄和葡萄酒的理化指标作为自变量,对第二组评酒员的评分作为因变量,建立多元回归线性模型,最终发现葡萄酒的质量仅用酿酒葡萄和葡萄酒的理化指标来评价是不客观的,还与葡萄品种和环境等很多因素有关。关键字:SPSS软件 聚类分析 主成分分析 多元线性回归模型 t检验 一、问题的提出 确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题的分析对于问题一,考虑到数据的繁多,我们可以首先对附件一中的数据进行加权平均,得到两组评酒员对红白葡萄酒的评分结果;再通过方差分析法比较两组评酒员对红白葡萄酒评分的波动性大小。在判断显著性差异的时候,我们使用了t检验,若p值小于0.05,则存在显著性差异,若p值大于0.05,则不存在显著性差异。最后通过对方差大小的观察,就可以得到哪一组评酒员的评分结果更加可信。对于问题二,我们可以先运用主成分分析法对酿酒葡萄的理化指标进行降维,再根据累计贡献率的大小决定主成分的个数,最后运用聚类分析法通过SPSS软件对酿酒葡萄进行分类。对于问题三,我们可以再次运用主成分分析法对葡萄的理化指标进行降维,再利用相关分析的有关知识对葡萄酒的理化指标和酿酒葡萄的理化指标进行分析。对于问题四,我们可以把酿酒葡萄和葡萄酒的理化指标作为自变量,把附件一中最可信的一组评酒员的评分作为因变量,建立多元线性回归模型。通过负相关系数检验拟合的优劣性,再通过F检验得到因变量与自变量整体的线性关系的显著性,最终写出相应的回归方程。三、基本假设1、假设两组品酒员是随机分配的;2、假设两组品酒员之间的分数是相对独立的;3、假设评酒员对每种葡萄酒的评价结果是大致符合正态分布的;4、假设制作葡萄酒的工艺和酿酒环境都是统一且稳定的;5、假设不考虑多种葡萄可制成一种酒,只考虑一种葡萄制成一种酒;6、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中,数据处理前将其置为零;7、假设酿酒葡萄中存在的而葡萄酒中不存在的理化指标也会影响葡萄酒的质量;8、假设文中引用到的数据和其他文章内容都真实可信。四、符号说明第个评酒员对第项指标的评分x加权平均后的最终得分第i个指标的特征值第i个指标的正交单位化特征向量yi(i=1,2,,8)红葡萄的代表性理化指标yi(i=9,10,17)白葡萄的代表性理化指标zi(i=1,2,3,4)红葡萄的代表性理化指标zi(i=5,6,7,8,9)白葡萄的代表性理化指标负相关系数Y葡萄酒的质量五、模型的建立与求解5.1 问题一模型的建立5.1.1 数据的预处理先利用Excel对附件一中的数据进行加权平均,令,最终得到的结果如下所示:表一:两组评酒员对红白葡萄酒的评分结果5.1.2 模型的建立与求解首先建立如下假设:两组评分无显著差异 vs :两组评分有显著差异再利用SPSS导入表一的数据,对两组评酒员的评分运用分析里面的配对样本T检验,得出如下的结果:表二:两组数据的成对样本统计量均值N标准差均值的标准误对 1一红数据73.0630277.328931.41045二红数据70.5148273.97799.76556对 2一白数据74.2607285.20123.98294二白数据76.5321283.17094.59925表三:两组数据的成对样本t检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的 95% 置信区间下限上限对 1一红数据 - 二红数据2.54814815.36049441.0316276.42760724.66868912.47026.020对 2一白数据 - 二白数据-2.27142865.50386111.0401320-4.4056031-.1372540-2.18427.0385.1.3 结论因为两组评酒员对红葡萄酒和白葡萄酒的检验的p值均小于0.05,所以要拒绝原假设,即认为两组评酒员对红白葡萄酒的评价结果有显著性差异;又因为第二组评酒员的评分方差较小,所以认为第二组品酒员的评价结果更可信。5.2 问题二模型的建立5.2.1 主成分分析由于本问题所给的附件二中酿酒葡萄的理化指标非常的多,所以我们先利用主成分分析法提取一些具有代表性的理化指标。主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。主成分分析实际上是一种降维方法。设是的协方差矩阵,的特征值及相应的正交单位化特征向量分别为,则X的第i个主成分为, i=1,2,p, (1)其中,为p个变量用累计贡献率来决定提取主成分的个数。首先对原始数据进行预处理,我们选择30项蓝色的一级理化指标,并且整理出红白酿酒葡萄各理化指标的含量,对于多次测量的数据我们采用求平均值作为参考数据。再利用SPSS对所得的数据进行主成分分析,在主成分分析的评价体系之下,根据累计贡献率的大小决定主成分的个数。5.2.2 主成分分析的结果表四:酿酒红葡萄的主成分分析表:表五:酿酒白葡萄的主成分分析表:根据表四和表五,我们提取了红葡萄的八个主成分,分别找出其系数对应的最大值作为参考,分别是:总酚、可溶性固形物、白藜芦醇、PH值、果穗质量、色泽b*、黄酮醇、色泽L* ;我们提取了白葡萄的九个主成分,分别找出系数对应的最大值作为参考指标,分别是:还原糖、总酚、固酸比、苹果酸、褐变度、柠檬酸、VC含量、果梗比、PH值。 5.2.3 聚类分析的结果聚类分析方法是基于数值分类法的思想建立起来的,又称为系统聚类法。这里只基于酿酒葡萄样本进行聚类,称为Q型聚类,其步骤为:步骤一:数据标准化根据5.2.2求得的红葡萄和白葡萄的理化指标的主成分进行聚类分析,由于酿酒葡萄的各理化指标都使用了不同的量纲及数据的大小差距很大,所以先要对理化指标进行标准化,处理方式为 ,i=1,2,n, =1,2,p (2)其中, =1,2,p (3), =1,2,p (4)步骤二:样本的距离定义在对酿酒葡萄的聚类分析中,定义两类理化指标样本的距离(本文用欧氏距离),然后再建立距离矩阵,分别对红葡萄和白葡萄进行聚类分析,再利用SPSS进行Q型聚类分析,用组间联接的方法进行酿酒葡萄的分类。图一:红葡萄样品的聚类分析:图二:白葡萄样品的聚类分析:根据图一和图二,我们把红葡萄和白葡萄分成如下的四类:(1)红葡萄分成四类:一类:葡萄样品5、24、17;二类:葡萄样品26;三类:葡萄样品2、22、7、6、12、18、4、16、13、21、1、19、15、11、9、8、14、25、27、20、23、10;四类:葡萄样品3。(2)白葡萄分成四类:一类:葡萄样品12、16、17、6、20、5、18、13、8、10、25、1、11、2、18、22、15、24、7、4、26、3、9、19;二类:葡萄样品14;三类:葡萄样品23、27;四类:葡萄样品21。5.3 问题三模型的建立 5.3.1 酿酒葡萄与葡萄酒的理化指标之间相关性模型的建立同样,我们根据5.2的做法,从附件二中给出的红葡萄酒和白葡萄酒理化指标中运用SPSS软件进行主成分分析,找出能够代表红葡萄酒和白葡萄酒理化指标的变量。表六:红葡萄酒的主成分分析表:成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %15.99639.97439.9745.99639.97439.97423.18021.20361.1773.18021.20361.17731.76511.76872.9451.76511.76872.94541.4279.51682.4601.4279.51682.4605.8825.87888.3396.8305.53293.8717.5033.35497.2248.1911.27698.5009.096.63899.13910.064.42799.56611.030.20099.76512.026.17799.94213.008.05299.99414.001.006100.000151.316E-108.771E-10100.000表七:白葡萄酒的主成分分析表:成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.74626.75726.7573.74626.75726.75723.22223.01449.7713.22223.01449.77132.22715.90965.6802.22715.90965.68041.1838.44774.1271.1838.44774.12751.0227.29781.4241.0227.29781.4246.8335.95387.3777.7175.12292.4998.5153.67896.1779.2681.91798.09410.1811.29199.38411.074.53199.91612.012.084100.000135.039E-63.599E-5100.000141.251E-88.936E-8100.000根据表六和表七,我们提取了红葡萄酒的四个主成分,找出系数对应的最大值作为参考指标,分别是:总酚、C(D65)、H(D65)、反式白藜芦醇;我们提取了白葡萄酒的五个主成分,找出系数对应的最大值作为参考指标,分别是:C(D65)、总酚、顺式白藜芦醇苷、H(D65)、反式白藜芦醇苷。5.3.2 葡萄酒和酿酒葡萄代表性理化指标的归类表八、葡萄酒和酿酒葡萄代表性理化指标的标记红葡萄酒红葡萄白葡萄酒白葡萄总酚z1总酚y1C(D65)z5还原糖y9C(D65)z2可溶性固形物y2总酚z6总酚y10H(D65)z3白藜芦醇y3顺式白藜芦醇苷z7固酸比y11反式白藜芦醇z4PH值y4H(D65)z8苹果酸y12果穗质量y5反式白藜芦醇苷z9褐变度y13色泽b*y6柠檬酸y14黄酮醇y7VC含量y15色泽L*y8果梗比y16PH值y175.3.3酿酒葡萄与葡萄酒的理化指标之间的相关性检验图三:红葡萄酒与红葡萄的理化指标的相关性检验图四:白葡萄酒与白葡萄的理化指标的相关性检验*. 在 .01 水平(双侧)上显著相关。*. 在 0.05 水平(双侧)上显著相关。结论:红葡萄酒的总酚与红葡萄的总酚存在较强的正相关性;红葡萄酒的C(D65)与红葡萄的色泽b*存在负相关;红葡萄酒的H(D65)与红葡萄的可溶性固形物和色泽b*存在负相关;红葡萄酒的反式白藜芦醇与红葡萄的果穗质量存在正相关作用。白葡萄酒的C(D65)与白葡萄酒的还原糖存在正相关性;白葡萄酒的总酚与白葡萄的总酚存在正相关,与白葡萄的果梗比存在负相关;白葡萄酒的顺式白藜芦醇苷和 H(D65)与白葡萄的理化指标不存在显著性的相关性;白葡萄酒的反式白藜芦醇苷与白葡萄的褐变度和VC含量存在正相关性。综上:酿酒葡萄和葡萄酒的理化指标的相关性不是很强,所以不能根据酿酒葡萄的理化指标来衡量葡萄酒的理化指标。5.4 问题四模型的建立5.4.1建立多元线性回归模通过对酿酒葡萄和葡萄酒的的理化指标进行主成分分析,我们得到了一些具有代表性的变量,根据所得的变量,我们建立如下的多元线性回归模型:, (5)其中,是未知参数,是误差项,且,为自变量。最后我们利用负相关系数准则(准则),越大,说明该回归方程描述因变量总变化量的比例越大,从而拟合的效果就越好。我们把5.2和5.3中通过主成分分析法得到的葡萄酒和葡萄的理化指标的主成分代表变量放在一起,作为自变量,把附件一中的第二组评酒员对葡萄酒的评分作为因变量Y,利用SPSS工具建立多元线性回归模型。5.4.2 红葡萄酒、红葡萄的理化指标与红葡萄的质量的多元线性回归模型表九:红葡萄酒、红葡萄的理化指标与红葡萄的质量SPSS运行结果:模型汇总模型RR 方调整 R 方标准 估计的误差1.900a.810.6472.3627826模型平方和df均方FSig.1回归333.2761227.7734.975.003a残差78.158145.583总计411.43426模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)37.08325.7331.441.172y1.200.201.334.995.337y2-.066.036-.320-1.827.089y3-.310.236-.427-1.314.210y47.0843.076.4362.303.037y5.006.005.2291.064.306y6.0061.448.002.004.996y7.013.015.135.896.385y8.588.763.171.770.454z1.462.546.293.846.412z2.060.056.1991.079.299z3-.716.489-.255-1.463.165z4-2.7422.202-.213-1.245.233结果:负相关系数=0.810,说明拟合的效果很好,而且因变量Y红与整体变量的线性关系很显著。通过表九的数据建立了如下的多元线性回归方程:Y=37.083+0.2y1-0.066y2-0.31y3+7.084y4+0.006y5+0.006y6+0.013y7+0.588y8+0.462z1+0.06z2-0.716z3-2.742z4.但是Y只与y4存在显著性的线性关系,所以红葡萄酒、红葡萄的理化指标与红葡萄的质量之间的关系并不显著,即不能用红葡萄和红葡萄酒的理化指标来评价红葡萄酒的质量。5.4.3 白葡萄酒、白葡萄的理化指标与白葡萄的质量的多元线性回归模型表十:白葡萄酒、白葡萄的理化指标与白葡萄的质量SPSS运行结果:模型RR 方调整 R 方标准 估计的误差1.797a.636.2442.7576138模型平方和df均方FSig.1回归172.6231412.3301.621.196a残差98.858137.604总计271.48127模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)38.95114.3252.719.018y9.092.050.5031.848.087y10-.265.298-.243-.887.391y11-.167.061-.604-2.741.017y12.542.320.3861.696.114y13.004.003.3261.411.182y14.201.397.099.507.621y155.7023.198.4441.783.098y16-.756.953-.218-.794.441y177.7833.547.4772.194.047z5-.135.682-.051-.197.847z6-1.1661.694-.193-.688.503z7-2.3172.315-.193-1.001.335z8.002.172.003.013.990z9-19.03414.503-.406-1.312.212结果:负相关系数=0.636,说明拟合的效果不是很好,而且因变量与整体检验的p值大于0.05,所以因变量Y白与整体变量的线性关系不显著。通过表十的数据建立了如下的多元线性回归方程:Y=38.951+0.092y9-0.265y10-0.167y11+0.542y12+0.004y13+0.201y14+5.702y15-0.756y16+7.783y17-0.135z5-1.166z6-2.317z7+0.002z8-19.034z9.但是Y只与y11存在显著性的线性关系,所以白葡萄酒、白葡萄的理化指标与白葡萄的质量之间的关系不显著,不能用白葡萄和白葡萄酒的理化指标来评价白葡萄酒的质量。综上:仅仅用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是不合理的。六、模型的优缺点及改进6.1 模型的优点问题一中我们通过题目中的可靠性联想到了评价结果的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论