葡萄酒评价模型的设计和求解.doc_第1页
葡萄酒评价模型的设计和求解.doc_第2页
葡萄酒评价模型的设计和求解.doc_第3页
葡萄酒评价模型的设计和求解.doc_第4页
葡萄酒评价模型的设计和求解.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

葡萄酒评价模型的设计与求解黄亚坤, 韩磊,王梦瑶 (安徽师范大学数学计算机科学学院,安徽,芜湖,241000)关键词:T检验;改进K均匀聚类分析;模拟退火;广义回归神经网络照片尺寸为20mm*30mm;最好不用红色背景摘 要:针对葡萄酒质量评价的多样性与复杂性等问题,围绕评酒员评价的差异性、酿酒葡萄的分级、理化指标对葡萄酒质量的影响分别建立模型,并对结果进行了详细的分析。首先采用置信区间法降低同一酒样的变异系数,按照其方差贡献率进行综合评分,在此基础上,通过组内评价指标变异度的检验,进行二次方差检验两组评分结果的可信度;对于葡萄酒的分类,利用数据挖掘提取方法,得出主成分,为了改进K均值聚类算法的局限性,提高聚类的有效性;最后考虑多维变量之间的关系,提出了基于广义神经网络模型,研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响程度。并通过实际数据进行仿真,结果显示了提出的模型具有一定的合理性与有效性。中图分类号:O235 文献标识码:A 文章编号: (2013) 04The design and solution of wine evaluation modelHuang Yakun, Han Lei, Wang Yang. (School ofMathematics& Computer Science, Anhui Normal University, Wuhu241000,China )Key words:T inspect; Improved K uniform clustering analysis; Simulated annealing; Generalized regression neural networkAbstract:In this paper , we aim at the issue of quality assessment , and center on the Significant difference of the tasting members evaluation results and reliability、classification of wine grape、the contact between the physical and chemical indicators of the wine grape and wine、the effect and evaluation of the physical and chemical indicators of the wine grape and wine to the quality of the port wine , build models respectively and do a detailed analysis of the result. Firstly we using the confidence interval method to reduce the coefficient of variation of the same wine sample, in accordance with its variance contribution rate of the composite score, on this basis, we do the second variance test two sets of ratings results credible by group evaluation variability inspection; To the classification of wine, our data mining extraction method obtained the principal components, in order to improve the limitations of the K-means clustering algorithm, to improve the effectiveness of the clustering simulated annealing; Finally, we consider the relationship between the multi-dimensional variables, we propose training relevant sample data based on generalized neural network model to study the impact of the physical and chemical indicators of the quality of the wine in the wine grape and wine; simulation and actual data, the results show that the proposed model has a rationality and effectiveness.1 问题背景目前,葡萄酒质量的鉴别主要靠感官分析与理化指标分析的方法进行评价1,如确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求与得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒与酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒与葡萄的质量。 在此基础上,本文针对网上搜索的相关葡萄酒与酿酒葡萄的成分数据。从数学建模角度,讨论以下问题:一、分析两组不同评酒员的评价结果有无显著性差异;二、根据酿酒葡萄的理化指标与葡萄酒的质量对酿酒葡萄进行分级;三、研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响。2 模型假设与符号说明针对特定的背景,为了更好的进行问题说明,给出以下假设与相关符号说明(1)两组评酒员在对酒样进行评价的过程中不存在明显偏好,评价总体较客观; (2)葡萄酒的质量客观上与酿酒葡萄的好坏 直接有直接关系,主观上与评酒员的评分有直接关系; (3)从制酒过程中,假设葡萄酒的理化指标对酿酒葡萄的理化指标具有一定的依赖关系。 相关符号说明:样本的变异度向量 :样本的变异度向量: 检验变量:等级划分模型的因素集:样本的协方差矩阵,:第一对典型变量3 问题分析葡萄酒已成为人们生活中常见的饮品,如何确定葡萄酒质量逐渐成为人们讨论的热点。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒与酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒与葡萄的质量。本文旨在对相关真实数据的分析基础上,分析感官分析在评酒师之间的差异性与可信性;同时从多元统计分析的角度分析葡萄酒的质量与酿酒葡萄自身等的理化性质之间的关系;在此之上,从感官分析与理化指标分析角度,给出一个合理的评判葡萄酒的质量体系。 针对问题一,采用置信区间法降低同一酒样的变异系数,然后对酒样多种指标评分进行主成分分析,按照其方差贡献率进行综合评分;针对两组评酒员的评分结果是否可信问题,采用组内评价指标变异度的检验,进行二次方差检验两组评分结果的可信度。问题二,我们进行对二级指标进行主成分分析,同时利用数据挖掘方法进行数据特征提取,将该数据与其他相应理化指标进行合并后做主成分分析得出 8 个主成分。K均值聚类算法其自身存在的多种局限性,采用模拟退火思想K均匀聚类方法做出了改进,具有并行性与渐近收敛性,提高聚类的有效性。 问题三采用一般的非线性回归无法处理多维变量之间的关系,提出基于广义神经网络模型对数据的70%样本数据进行训练,研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响程度;并通过30% 样本数据进行测试,论证了用葡萄与葡萄酒的理化指标来评价葡萄酒质量的影响程度的合理性。4 模型的建立与求解4.1 模型一4.1.1 模型的准备两组评酒员在实践中,由于多种因素的共同作用,成员间存在异质性2。由文献3可知,对数据的标准化法提高了同一酒样的变异系数,真实反映样品间的差异。本文对搜集的数据采用置信区间法处理。置信区间法处理方法为:通过计算所有品酒员对用一酒样的平均值为,标准差为,则存在品酒员对酒样评价的置信区间为 。其中,是酒样的平均值,是酒样 的标准差。 对原始数据的处理过程为:若品酒员对酒样的评价在其置信区间范围内就可以使用;反之将对数据做以下逐步调整至,使对同一酒样的评价值都处于范围内,即: (1)4.1.2 模型的建立通过上述分析,针对分析两组评酒员的评价结果的差异比较,分别对不同葡萄酒进行差异检验,给出如下模型:(1)两组评价结果的差异性分析 通过两组评酒员对酒样的综合评分矩阵分别对不同葡萄酒的评价进行差异检验。我们采用配对实验的检验4进行分析。设两个总体为,现抽取两个样本:对假设进行检验。1) 针对的情形令假设成立时,构造检验统计量为:其中 2)针对的情形在此,不妨设,同理令假设成立时,构造检验统计量为: (2)其中若值小于其边界临界值,则接受零假设,认为两组实验之间无显著性差异。若值大于其边界临界值,则拒绝零假设,认为两组实验之间有显著性差异。Sy(2)可信性分析 根据上述处理得到的数据,我们采用综合均值与标准差来对每组评判进行可信度的分析。 设两个总体为,。现分别从两个总体中抽取一个样本:若分析两组数据的可信度,由于同一酒样十位评酒员的评分具有离散性的,因此需从每组内的变异向量入手。设:,分别为样本一的均值向量与方差向量,分别为样本二的均值向量与方差向量。则按照变异度的定义,两个样本的变异度向量分别可以表示为:若,说明样本一内部变异程度相对越稳定,样本一判断的可信度相对较高;若,说明样本二内部变异程度相对越稳定,样本二判断的可信度相对较高。4.1.3 模型求解与结果分析(1)根据上述建立的方差假设检验模型,结合数据处理后所得到的综合评分矩阵 通过十个品酒员对每一酒样的分数评估,算出评价均值向量与评价标准差向量。 令:建立假设、确定检验水准:将数值带入检验统计量:其中,由于我们分白酒、红酒两种情况做差异性分析,所以根据可以利用四个综合得分矩阵进行两组配对比较实验,带入数据计算出两个统计量指标的值。通过对处理后的数据进行求解得出:,查界值表可知,实验通过未通过零假设检验,则得出结论:不同种类酿酒葡萄的评价结果均显示出两组评分间的显著性差异。(2)可信性分析求解 基于上述的方法,对上述中的均值向量与评分标准差向量求解得出差异性指标向量,下面以两组对红酒的评价为例做出相关分析解释。 图1. 两组葡萄酒的检验结果均值 图2. 两组葡萄酒的特征值针对上述数据求解得出红色葡萄酒第一组的变异性指标为:,第二组为;对于白色葡萄酒第一组的变异性指标为: ,。 4.2 模型二4.2.1 模型的准备为了进行聚类,需不断计算样本之间的距离,该距离由多个分量计算的,同时为了平抑属性间的差异,我们采用下面的公式讲连续属性的值统一转换为一个属于区间0,1的值,给出转换公式: (3)其中,与分别是属性的全部取值的最小值与最大值,是某个样本的属性的取值,就是转换后的属性值。则某个样本在属性的差异可以通过公式(3)进行计算。 (4)2i =1可得出差异的最大值为1(两个取值分别为属性值中的最小值与最大值),差异的最小值为 0(两个取值相等)。4.2.2 模型的建立我们考虑采用建立基本 K 均值聚类方法进行酿酒葡萄的分类模型。(1) K 均值聚类模型 a)若令模型中生成的质心向量为,提取出的 9 个指标的样本向量为,其中是数据集中属性的数量,是样本中第个指标的属性值,。我们对样本与质心采用欧几里德距离的计算公式为: (5) 通过生成最初的个质心,开始进行迭代指派处理。b )在进行k均值聚类分析时,给出样本i与j的距离: (6)其中,是第i个样本的第q个属性值,是簇j的质心的第q个属性值。c )设指派样本后,第j个簇中的样本数量为,那么重新计算这个簇的质心所得到的向量为:其中,向量的第个分量为:其中是簇j中的样本i的第q个属性的值。d )我们在第t次迭代结束后,第j个簇在更新前与更新后的质心间的距离为: (7)其中,是第t次迭代时第j个簇的质心向量,是起一次迭代时第j个簇的质心向量。有次,我们可以产生k个结果分类。(2)基于模拟退火思路改进的 K 均值聚类模型 建立的模型如下:1)求解空间:表示从中抽出酿酒葡萄样品所有的可能集合;2)目标函数:选择当前聚类划分的总类间离散度作为目标函数,如下式所示: (8)其中,为样本向量,为聚类划分;为第个聚类的中心;为样品到对应类中心距离;聚类准则函数即为各类样本到对应聚类中心距离的综合;3)生成函数:设当前解为,下一个解的生成可以有两种方法;4)目标函数差:;5) 接受准则:若,则接受新解,否则根据Metropolis准则,以概率接受新解。 为常数,为当前温度。 基于模拟退火思想5的改进 K 均值聚类算法采用了Metropolis准则,为全局最优化算法。其中间解以一定的接受概率跳出局部极小,避免落入局部极小点的可能,然后在退火温度控制下找最优解。(3)等级划分模型 建立酿酒葡萄的分类模型后,我们需考虑如何对聚类分析后的葡萄类进行有效的等级划分。我们参考葡萄的等级分类后,建立了如下所示的级别对应表: 表1、酿酒葡萄级别对应表为了对已分好的 4 类酒样进行等级划分。设,表示已划好的 4个分类;首先将因素集分成若干个组,使得,称为一级因素,称之为二级因素。设评判集为,对二级因素的个因素进行单因素评判,即建立模糊映射:其中。得到评判矩阵另设的权重为 则可建立的综合评价为:。4.2.3 模型的求解与结果分析(1) K 均值聚类模型求解在开始聚类之前,如何合理的确定凝聚点的个数将直接决定最终分类的个数。我们用SPSS Clementine软件采用TwoStep算法进行初步的聚类个数的判断,利用该软件,通过多次的实验结果显示不同指标对酿酒葡萄聚类的个数如表 2 所示表2. 聚类数与依据指标间的关系通过上述分析算法进行初步聚类个数判断后,抑制由于聚类时参考的指标不同对聚类的结果有一定的影响,但都在 4 类左右,我们判断对葡萄酒的类别聚类为 4 类相对较符合。根据初步分类,可得出K均值聚类分析无法进行更细致的聚类,提出了模拟退火思路改进的K均值聚类模型(2)基于模拟退火思路改进的K均值聚类模型求解 我们通过VC+ 6.0进行改进的K均值聚类模型进行求解,经过改进的K均值聚类模型聚类结果显示出该聚类结果更加的细致,类别间区别更明显。结果显示出:无论从哪种指标进行聚类,红、白葡萄样品的分类相差不大,我们根据题目要求,针对酿酒葡萄的理化指标与葡萄酒的质量综合指标聚类的结果作为我们分级的最终指标,四种类别之间样品数相对较均匀。(3)等级划分模型求解 对上述已做好分类的样品进行葡萄的级别划分,如果根据其葡萄酒质量进行简单的级别归属,可能会出现偏差。我们采用模糊评判矩阵,对四类样品中酒样进行评分判定,最后求解得到的结果为:三类为优质,四类为良好,二类为一般,一类为普通,根据得到的分级结果进行原始数据的检验,其结果也是比较合理。4.3 模型三4.3.1 模型的建立通过对学习数据的相关处理,我们构建了如图所示的 4 层广义回归神经网络6模型。对应网络输入网络 ,影响结果为。 图3. 广义回归网络模型图(1)输入层的数目代表的酿酒葡萄的理化性质或葡萄酒的理化性质指标样本输入向量的维数直接讲输入变量传递至模式层。(2)模式层神经元数目等于学习样本的数目,各神经网络对应不同的样本,模式层神经元传递的函数定义为:神经元的输出为输入变量与其对应的样本之间 Eeuclid 距离平方的指数平方。即的指数形式。式中,为网络输入变量;为第个神经元对应的学习样本。(3)求与层中采用的计算公式为: (9)对所有模式层的神经元进行加权求与,模式层中第个神经元与求层与中第个分子求与神经元之间的连接权值为第个输出样本中的第个元素,传递函数为: (10)(4)输出层中的神经元数目等于学习样本中输出向量的维数k,各神经元将求与层的输出相除,神经元j的输出对应估计结果的第j 个元素,即 (11)该问题通过建立广义回归神经网络模型对多指标因素的非线性关系进行样本训练,从而探究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响关系。4.3.3 模型的求解与分析我们利用附表数据将红、白酿酒葡萄理化性质共 20 组样品数据以及葡萄酒的理性质共 20 组样品数据的统计数据作为网络的训练样本,借此来观测这些指标与葡萄酒质量的影响关系;将剩下的 7 组样品数据作为论证网络结果是否有效的测试样本。应用MATAB7.1 编程,创建一个广义回归神经网络,输入向量组数为 20,每组向量的元素个数为 8,中间层径向基神经元为 20,输出层有 3 个神经元对网络进行训练与测试。我们将光滑因子分别设置为 0.01,0. 02,0.03,0.04,0.05,通过多次的尝试,我们得到的最佳光滑因此为 0.02 时,网络的误差最小,逼近效果相对最好,如图所示,网络此时的逼近误差基本均在 0 附近,网络训练基本符合要求。通过对剩下 7 组样品数据进行上述网络测试,得到的预测误差曲线如图所示,网络的输出误差分别在 0.12 与 0.25 之间。该结果显示在样本较少的情况下这种误差是可以接受的神经网络模型在预测方面有很好的优势,其预测精度较高,对参数的要求较低,只需一个光滑因子,因此利用该神经网络的训练,我们判断出酿酒葡萄与葡萄酒的理化指标对葡萄酒质量占有绝大部分的影响。5 模型的评价模型一采用置信区间法降低同一酒样的变异系数,使不同品酒员对同一酒样的评价趋于一致,降低品酒员间差异,对处理得到平均得分向量,进行 T 检验分析能够简单有效的进行;但模型一采取的方法可能无法兼顾到在两组矩阵之间差异检验时内部变量的关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论