数据挖掘之红酒鉴别_第1页
数据挖掘之红酒鉴别_第2页
数据挖掘之红酒鉴别_第3页
数据挖掘之红酒鉴别_第4页
数据挖掘之红酒鉴别_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于数据挖掘的葡萄酒质量识别 我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来判断其质量的好坏,这就必须要求品尝者是训练有素的品酒专家。但感官品尝结果容易受各种因素的影响。随着科学技术的发展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被各国所采用。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简单的分析与判断。1. 数据挖掘理论方法论述1.1主成分回归 在数据处理中,经常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,研究多变量问题是经常遇到的

2、,再加上变量指标之间有一定的相关性,这势必增加了问题的复杂性,主成分分析就是设法将原来指标重新组合成一组新的互相无关的较少的综合指标来代替原来的指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这种将多个变量化为少数互相无关的综合指标的统计方法称为主成分分析。 主成分分析就是设法将原来众多具有一定相关性的变量重新组合成一组新的相互无关的综合指标来代替,通常数学上的处理就是将原来个变量作线性组合,作为新的综合指标,但是这种线性组合,需要加以限制。假设第一个综合指标记为,自然希望尽可能多的反映原来指标的信息,这里最经典的方法是用的方差来表达,即越大,表示包含的信息越。因

3、此所有线性组合中所选取的应该是方差最大的,故将称为第一主成分,如果不足以代表原来个指标的信息,在满足的条件下,再考虑选取作为第二个主成分,同理可以构造第三,四,.,第个主成分。要求:(1)(2)求得的主成分为协房阵的特征向量为系数的线性组合。得到主成分,提取所需要的前几个主要成分后,回归的过程与线性回归是一致的。只是自变量变成了选取的主成分,因变量不变。1.2 分类回归树1.2.1分类回归树的构建 分类回归树的构建是通过学习给定的训练样本,寻找最佳的分支规则。分类回归树的分支规则是根据不纯度作为评估度量来实现的,以寻找最佳的分支规则。最常用的不纯度函数为基尼指数,其定义为其中是指中第类的频率,

4、也就是说当基尼指数越小时,意味着该节点所包含的样本集越集中,该节点越纯。 树的构建大致可以这样表述为:所有的样本都属于树的根节点,寻找第一个节点的分支规则时,从第一个自变量开始,记录样本数据该变量的每个取值作为分支阈值时不纯度的下降值,直到所有变量的每个取值作为分支阈值的不纯度下降值记录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分支变量和分支阈值。如此往复生成一颗最大的树。由此过程可见,分类回归树属于贪心算法。在构建树的过程中,满足以下条件之一,则不再对叶节点进行分支操作:(1) 叶节点中的样本数小于给定的值,一般默认;(2) 分支后的叶节点中的样本属于同一类;(3) 无属性向

5、量用于分支选择。经过此过程,最终得到一颗最大的树1.2.2分类回归树的修剪 为了解决所建立的最大树过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有帮助的部分树,使得模型更简单、更容易理解。 常用的剪枝有两种:一种是先剪枝法,一种是后剪枝法。它们都采用统计度量,剪去最不可靠的分支,提高分类回归树独立于测试数据的测试能力。最小成本复杂度的后剪枝法较为常用,其统计度量为 其中表示复杂度参数,用于表示每个终止点复杂度的代价,当为0时,对应的最大树。为的估计错分率,为该树的估计错分类与对复杂度惩罚值之和的成本复合值。当一定时,越大,其可取性也就越小。1.2.3分类回归树的评估

6、 经过树的修剪,得到了一系列的子树,那么如果选择最优大小的树作为最终构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本评估和交互检验评估。文中采用的是交互检验评估。 折交互检验是将样本集平均分为个子集,每次用其中的个子集进行建模,剩下的子集用来预测,循环次,计算平均的错分率。对所生成的一系列子树分别进行折交互检验,得到个平均错分率,那么最小平均错分率对应的子树就是最优的构建树,即2.数据处理与基本分析2.1数据说明与预处理 葡萄酒数据来源于/ml/datasets/Wine+Quality,包含红酒和白酒两种。红酒1599个

7、样本记录,11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。白酒则有4898个样本记录,也是11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。为简化问题,我主要讨论了红酒的质量识别,白酒的质量识别可以对照参考。本文数据分析所使用的工具主要有SPSS和R语言。首先将葡萄酒质量等级分为低等、中等以及高等三类 (质量为3和4的视为低等,5和6的视为中等,7和8的视为高等,见表1-1),对应样本量分别为63、1319、217。 表1-1葡萄酒质量等级分类quality频率百分比有效百分比累积百分比等级有效3低45568142.642

8、.646.5中663839.939.986.4719912.412.498.9高8181.11.1100.0合计1599100.0100.0具体的11个自变量如表1-2所示。 表1-2 红酒质量自变量的简单描述 自变量N极小值极大值均值标准差Fixed acidity15994.615.98.3201.7411Volatile acidity15990.1201.5800.527820.179060Citric acid15990.001.000.27100.19480Residual sugar15990.9015.502.53881.40993chlorides15990.0120.611

9、0.087470.047065Free sulfur dioxide159917215.8710.460Total sulfur dioxide1599628946.4732.895density15990.99011.00370.9967470.0018873pH15992.744.013.31110.15439sulphates15990.332.000.65810.16951alcohol15998.414.910.4231.0657有效的 N (列表状态)1599其中体现红酒的酸、甜、咸、苦的成分归纳如下:酸:Fixed acidity(酒石酸)、Volatile acidity(醋酸

10、) 、 Citric acid(柠檬酸) 甜:Residual sugar(糖分) 、alcohol(酒精)咸:chlorides(氯化钠)苦:Free sulfur dioxide(游离二氧化硫)、Total sulfur dioxide(总二氧化硫)、sulphates(硫酸钾) 表1-2显示的变量只是红酒主要的基本成分,并没有微量成分,由葡萄酒的品尝原理我们知道,葡萄酒中的微量成分是香气和滋味成分中最主要的部分,这些成分数目极大而浓度极小。这可能对我们的分析会造成不利的影响,即体现红酒质量的自变量缺失了,某些甚至可能是重要的变量。2.2 数据基本分析2.2.1相关性分析 首先对自变量之间

11、进行相关性分析,图1-3给出了部分相关性相对较大的变量两点之间的散点图。透过散点图我们可以观察到酸度与密度,酸度与PH值之间的相关性程度较高。其他各个变量之间的相关系数详见表1-4. 表1-3 变量间相关性散点图 从表1-4可以看出,除了酒石酸与密度,酒石酸与柠檬酸、酒石酸与PH、游离二氧化硫与总二氧化硫的相关系数在0.68左右,其他变量之间的相关程度并不高。其中,酒石酸与PH、醋酸与酒石酸、酒精与密度之间存在负相关性。综上也说明了,在葡萄酒的成分里,酒石酸和许多化学成分存在相关性。 表1-4 红酒质量各自变量之间的相关系数表相关性FixedacidyVolatileacidityCitric

12、acidResidualsugarchlorides FreeSulfurdioxideTotalSulfurdioxidedensitypHsulphatesalcoholFixedacidity1-0.256*0.672*0.115*0.094*-0.154*-0.113*0.668*-0.683*0.183*-0.062*Volatileacidity-0.256*1-0.552*0.0020.061*-0.0110.076*0.0220.235*-0.261*-0.202*Citricacid0.672*-0.552*10.144*0.204*-0.061*0.0360.365*-0.

13、542*0.313*0.110*Residualsugar0.115*0.0020.144*10.056*0.187*0.203*0.355*-0.086*0.0060.042chlorides0.094*0.061*0.204*0.056*10.0060.0470.201*-0.265*0.371*-0.221*FreeSulfurdioxide-0.154*-0.011-0.061*0.187*0.00610.668*-0.0220.070*0.052*-0.069*TotalSulfurdioxide-0.113*0.076*0.0360.203*0.0470.668*10.071*-0

14、.066*0.043-0.206*density0.668*0.0220.365*0.355*0.201*-0.0220.071*1-0.342*0.149*-0.496*pH-0.683*0.235*-0.542*-0.086*-0.265*0.070*-0.066*-0.342*1-0.197*0.206*sulphates0.183*-0.261*0.313*0.0060.371*0.052*0.0430.149*-0.197*10.094*alcohol-0.062*-0.202*0.110*0.042-0.221*-0.069*-0.206*-0.496*0.206*0.094*1*

15、. 在0 .01 水平(双侧)上显著相关。*. 在 0.05 水平(双侧)上显著相关。 由前面我们知道,变量很多且部分变量之间存在相关性,那么可以考虑用主成分分析。到第五个主成分时累积方差已经达到了79.53%,所以选择五个主成分进行回归分析。 表1-5 主成分概况解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.09928.17428.1743.09928.17428.17421.92617.50845.6821.92617.50845.68231.55114.09659.7781.55114.09659.77841.21311.02970.8071.

16、21311.02970.8075.9598.72179.5286.6605.99685.5257.5845.30790.8328.4233.84594.6779.3453.13397.81010.1811.64899.45911.060.541100.000提取方法:主成份分析。成份矩阵a成份1234Fixed acidity.861-.153-.154-.253Volatile acidity-.420.382-.560.087Citric acid.816-.211.297-.087Residual sugar.257.378.126-.411chlorides.374.205-.115.

17、734Free sulfur dioxide-.064.713.534-.048Total sulfur dioxide.042.790.401-.038density.696.324-.422-.192pH-.772.009.072-.004sulphates.428-.052.348.607alcohol-.199-.536.587-.135提取方法 :主成份。a. 已提取了 4 个成份。表1-6表示三种主成分分类图,点表示不同的类别,可以看出主成分可以分类,但是并不能分的很开。由表1-4我们也可以看出,只有少数的变量之间存在相关性,且相关程度并不高。由于主成分分析只有在多数变量之间存在较

18、高的相关度的情况下显示出其算法的优势,因此本文的数据并不适合用主成分分析。 表1-6 主成分分类图 因为因变量可以看成类别,也可以看成连续的、有大小之分的变量。可分别利用分类回归树进行分类和回归。建立分类回归树后需要对树进行修剪,降低模型的复杂度,使得模型不至于出现过度拟合。 回归和分类的结果表明,分类的预测精确度比回归的要高。回归的结果是使得总预测精确度最高来确定其分叉点,这就可能导致回归的结果都是靠近某个整数,使得最终处理得到的结果预测精确度下降。所以,我们仅考虑利用分类树建模。图1-7是回归树的初始结果。 图1-7 分类回归树节点的收益汇总节点N百分比均值130821.0%10.901524516.7%10.747432922.4%10.190358539.9%10.142 增长方法:CHAID因变量列表: alcohol风险估计标准 误差1.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论