对葡萄酒的评价的分析.docx_第1页
对葡萄酒的评价的分析.docx_第2页
对葡萄酒的评价的分析.docx_第3页
对葡萄酒的评价的分析.docx_第4页
对葡萄酒的评价的分析.docx_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对葡萄酒的评价的分析林彩密 葛欣雨 蒋耀萱问题一的解答本文提供了大量与葡萄酒有关的数据,要求参赛者通过数据的处理确定葡萄酒的质量。主要设及4个问题:1、 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2、 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3、 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4、分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。 问题一要求我们分析两组评酒员评价结果有无显著性差异。在进行差异性检验之前必须先对数据服从的分布进行检验,从而选定合适的检验方法进行检验。 问题二要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。由题意可知除了葡萄酒的质量对葡萄的分级有比较大的影响外,酿酒葡萄的理化指标在一定程度上也会影响葡萄的质量。问题意在让我们建立一个综合葡萄酒质量与酿酒葡萄理化指标综合影响和葡萄分级的模型。 问题三要求分析酿酒葡萄与葡萄酒理化指标之间的联系。由于酿酒葡萄理化指标众多,在分析两者的联系之前需要对葡萄的理化指标进行筛选。 问题四要求分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。难点在于对附件三葡萄酒和葡萄芳香物数据的使用。 这是关于大型数据处理与分析的结果,前面三个问题是第四个问题的基础,最终目的是分析葡萄和葡萄酒理化指标对葡萄酒质量的影响。问题二的解答 我们选择的论文是葡萄酒的评价(附件一),这篇论文主要过程如下:问题一:问题 一显著性差异的检验正态分布检验:SPSS评价可靠性判断离散程度分析模型改进可靠性评价指标(不符合正态分布)(结果无显著性差)(大致是正态分布)标准化数据再进行显著性检验:SPSS ,f检验频数分布图进行分布初步分析非参数检验:秩和检验(检验结果知,二者评价结果具有显著性差异)问题 二数据标准化处理逐步回归:线性回归拟合聚类分析:SPSS进行聚类,进行分级检验问题 三数据预处理酿酒葡萄理化性质:利用Matlab生成相关矩阵逐步回归:利用Eviews模型改进问题 四分析影响Eviews拟合方程 在问题四中,先用用逐步回归法分析葡萄酒理化指标对葡萄酒质量的影响,然后建立了芳香物质对葡萄酒质量影响的函数关系。问题三、四的解答 文中主要用到了逐步回归的拟合方法,公式0,1,2,3n是待估参数,是表示误差的随机变量。逐步回归的基本思想是:对全部因子按其对y影响程度大小(偏回归平方的大小),从大到小地依次逐个地引入回归方程,并随时对回归方程当时所含的全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,知道回归方程中所含的所有变量对y的作用都显著是,才考虑引入新的变量。再在剩下的未选因子中,选出对y作用最大者,检验其显著性,显著着,引入方程,不显著,则不引入。直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。逐步回归分析时在考虑的全部自变量中按其对y的贡献程度大小,由大到小地逐个引入回归方程,而对那些对y作用不显著的变量可能是中不被引入回归方程。另外,已被引入回归方程的变量在引入新变量进行F检验后失去重要性时,需要从回归方程中剔除出去。求回归方程的方法步骤如下: 设有含量为n的样本,对每个观察单位观察了m个自变量Xj(j=1,2,m)和一个应变量Y(可记为Xm+1),得原始数据如表1。 表1 原始数据格式观察单位编 号变 量X1X2XmY=Xm+112X11X21X12X22X1mX2mX1,m+1X2,m+1nXn1Xn2XnmXn,m+1(一) 数据的标准化转换 其中: 是原变量的平均数、标准差。标准化变量中:标准化变量的回归方程:解下列方程组可求标准化变量的回归系数:其中: ( i = 1, 2, ,p ; j =1, 2, , p )将原方程组的系数改换为相关系数的形式,再将(n-1)消去,得下面的形式。标准化变量回归系数与原变量的回归系数 间的关系可以表示为下面的形式:(见下面推导过程)因为所以(二)初始相关矩阵将正规方程组等号两边的简相关系数构成矩阵,称增广矩阵,在其下方添上一行构成对称矩阵,称初始阵R(0),其实初始阵就是第十章所研究的简相关系数矩阵R。引入或剔除变量后都要按一定规则对R(k)逐步变换来进行。(k为变换次数)。R(0)= 1.偏回归(贡献)的计算及相关阵的转换无论是引入或剔除一个因子都要计算该因子的偏回归平方和(贡献),计算式如下。 k=1,2,3, R(k)= 其中: k 为第k次转换,i 为第 i 行,j 为第j 列。rij 为R(k)中第 i 行,第j 列的元素,t为引入或剔除因子序号。当引入因子时应取Vi中最大者,当剔除因子时应取Vi 中最小者。每引入一个因子或者剔除一个因子,矩阵R(k)都要进行变换。每一次变换结果,矩阵的最右一列的最后一个值就是标准化变量的Q*,而U*=1- Q*, 被引入变量xi 的回归系数 bi 就是该列的第 i 个元素的值。先规定一个F*值,作为引入或剔除自变量时进行F检验的界值。对于给定的显著性水准a来说,每一步作检验时的Fa(1,n-m-1)值是不同的,f但由于样本含量n比引入自变量的个数m大得多(一般在10倍以上),所以各步的m虽然不同,但Fa(1,n-m-1)值都近似相等。故为方便起见,可取一个定数F*作为F检验的标准。2. 计算每个变量的均数Xj、离均差平方和(lii、ljj),每两个变量的离均差积和lij,以及相关系数rij, 并以求得的rij为元素列出原始相关矩阵R(0)(阵中rij(0)=rij): 以后每引入或剔除一个变量都计为一步运算。设R(0)经L步所得的R(L)为 对于每一步,R(L)均同样按式(2)变换成R(L+1)。设引入或剔除的变量为Xg(g为该变量的下标),按式(2)作变换Lg,则R(L)成R(L+1)时,两矩阵中的各元素rij,有如下关系式: (三)选自变量。 1. 引入未选量。按式(3)计算各未选量的偏回归平方和Vj(L+1), 找出其中最大者,记作Va(L+1),就它所对应的自变量Xa按式(4)作F检验: 式中m为已引入变量的个数。当F1F*时引入变量Xa,并对R(L)按式(2)作变换La,得R(L+1);当F1F*时挑选变量工作就此结束。 2. 剔除已选量。引入新变量后,对原先引入的已选量分别计算其偏回归平方和Vj(L): 3. 找出Vj(L)中最小者,记作Vb(L)。就Vb(L)所对应的自变量Xb按式(6)作F检验。 当F2F*时,剔除Xb,并对R(L)按式(2)作变换Lb得R(L+1);下一步对其余已选量再按式(5)、(6)求Vj并作F检验,直到已选量中没有可剔除时为止;当F2F*时,已选量都不能被剔除,于是再考虑从未选量中能否引入新变量。如此反复进行到第L步,若已选量都不能被剔除,未选量都不能引入时,逐步运算结束。 4. 求回归方程。由相关矩阵R(L)求得的回归方程 称为标准回归方程,式中bj是标准偏回归系数,按式(7)求得。 bj=rj.m+1(L)。(7)实用中多元线性回归方程常用变量Xj的原单位,因此须再按式(8)求化成原单位后Xj的偏回归系数bj。式中lm+1,m+1lYY,即Y的离均差平方和,ljj为Xj的离均差平方和。回归方程的常数项按式(9)计算, b0-bjXj, (9)式中j为已选量的下标。于是得多元回归方程为 =b0+b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论