版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着我国经济发展水平和居民消费水平的不断提高,葡萄酒逐渐登上了平民百姓的餐桌,传统的葡萄酒质量检测主要由品评师鉴别,存在检测成本高、周期长、容易受主观因素影响等缺点,一套客观、有效的葡萄酒评价标准对于葡萄酒的快速、批量质量检测显得尤为重要。而葡萄酒的品质到底由哪些因素决定呢?用理化指标来对葡萄酒进行品质评定是否可靠?基于此,本文提出了基于一般统计分析和数据挖掘的方法来对葡萄酒的品质等级进行预测。线性回归中,红葡萄酒和白葡萄酒的成分及其对质量的影响不尽相同,在预测品质等级方面,knn分类和决策树模型的预测效果较好,模型的预测正确率均达到60%以上。关键词:数据挖掘;线性回归;葡萄酒质量预测
AbtrastWiththecontinuousdevelopmentofChina'seconomicandthelevelofresidents'consumption,winehasgraduallyenteredthetableofordinarypeople.Traditionalwinequalitytestingismainlyidentifiedbyappraisers,whichhasthedisadvantagesofhightestingcosts,longcycles,andeasytobeaffectedbysubjectivefactors.Asetofobjectiveandeffectivewineevaluationstandardsisparticularlyimportantfortherapidandbatchqualityinspectionofwines.Andwhatfactorsdeterminethequalityofwine?Isitreliabletousephysicalandchemicalindicatorstoevaluatethequalityofwine?Basedonthis,thispaperproposesamethodbasedongeneralstatisticalanalysisanddataminingtopredictthequalitygradeofwine.Inlinearregression,thecompositionofredandwhitewinesandtheireffectsonqualityaredifferent.Intermsofpredictingqualitylevels,knnclassificationanddecisiontreemodelshavebetterpredictionresults,andthemodel'spredictionaccuracyrateismorethan60%.Keywords:Datamining;Linearregression;Winequalityprediction
1.引言1.1研究背景葡萄酒有着数千年的历史。西方的许多国家都拥有世界上最顶级的葡萄酒酿造工艺,特别是法国的葡萄酒闻名世界。我们国家也有适宜种植葡萄的地方,但由于没有先进的葡萄酒生产技术和生产经验,我国的葡萄酒质量总体来看远远落后于欧洲国家[3]。但近些年来,随着国民经济的快速增长,我国居民生活水平的不断提高,我国的葡萄酒的市场销量有了快速提升。近些年来我国相继出台了推动葡萄酒产业发展的政策,为我国葡萄酒产业的持续发展提供了有利保障,在一定程度上推动了葡萄酒产业的向前发展。我国葡萄酒也已经从初级阶段逐步迈进发展阶段[1],我国也将从全球第五大葡萄酒市场成长为仅次于美国的全球第二大葡萄酒市场[2]。对于一个如此庞大的葡萄酒市场,我们怎样让大批量生产的葡萄酒的质量得到保证,这成为了我国葡萄酒行业健康发展的关键。而且生活水平的提高导致人们对葡萄酒品质的要求越来越高,所以人们现在也越来越关注葡萄酒的质量。1.2国内外研究现状在国际市场中,许多西方的国家拥有顶尖的葡萄酒生产加工工艺,国外的葡萄酒酿造与研究技术远远领先于国内。法国和意大利一直是葡萄酒主要产销区,到现在还保留着传统的酿造工艺,其总量占全世界百分之五十以上[4]。最近几年,国外越来越多的统计学家已经意识到葡萄酒中各种化学物质的含量会影响到葡萄酒的品质,从而影响到口感、触感等多方面的体验,因此,一些国外的科学家已经开始结合一些现代的科学技术手段例如:色相气谱仪、高压液相色谱仪和质谱仪等,来对葡萄酒中的香味和化学成成分进行检测。1984年,美国科学家首先将PLS应用于葡萄酒化学成分及其含量与葡萄酒感官品评的质量之间的相关性研究,并进行葡萄酒质量等级预测的相关操作,但当时的仪器测定水平有限[5]。1999年,Ebeler等人也开启了葡萄酒味道的相关化学测定,他提出葡萄酒的质量等级评估是由理化指标测定和感官测定共同决定的,他们认为葡萄酒的物理及化学性质与感官分析有一定的关系,但没有形成完整的评估体系。2006年,D.Smith提出对葡萄酒中化学成分的测定主要是测定密度、ph值等,而感官评价则需要依赖品酒师。2009年,Cortez等人首次将支持向量机方法运用到超过千个葡萄酒样本的品质分类鉴定当中[5]。国内的关于葡萄酒品质鉴定的研究相比于国外的技术仍有一定差距。在早期的相关研究中,大多数的分析都集中在研究感官品尝的方面,没有使用数据挖掘的相关方法[3]。在2009年,国内开始运用数据挖掘的方法研究葡萄酒理化指标与质量之间的相关关系,李运首先利用相关分析、主成分分析以及聚类分析的方法对葡萄酒样本进行分析,发现了一些影响葡萄酒品质的重要的化学成分。2010年,高缓缓使用支持向量机对葡萄酒进行分类[5]。2012年刘延玲提出一种改进的神经网络分类器,使得分类器能够在较短的收敛时间内根据葡萄酒的理化性质指标和感官评价结果,将葡萄酒的质量进行预测分类[5]。总的来说,现阶段国内国外都已经开始研究葡萄酒品质的预测研究和理化性质对葡萄酒品质的影响,但是应用数据挖掘技术的相关研究还比较少。近些年随着大数据的广泛应用,数据挖掘手段将与更先进的科学检测手段结合,更好更精确的预测葡萄酒品质,甚至建立起完整的准确的葡萄酒品质评价体系。1.3本文研究内容虽然现在葡萄酒市场的发展已经比较成熟,但是质量评定一直是一个耗时耗力的过程,而且缺乏科学客观的评价标准。在现行的葡萄酒评价体系中,确定葡萄酒质量有很多方法,其中最传统的是品酒师对葡萄酒的色、香、味等感官印象进行评定,但是在人工品尝的过程中容易受环境等条件影响,从而产生不同的感官特征,加之每位品酒师的职业水平以及他们的个人喜好都不大相同,而且成本较高,这样就使得这种方法很难满足现在如此大的市场需求[4]。所以研究葡萄酒中的成分对质量有什么样的影响就显得尤其重要。本文利用统计分析的基本方法和数据挖掘中的分类手段,基于葡萄酒的理化指标,找到葡萄酒中各种成分对质量的影响,从而为葡萄酒的质量测定提供一种科学客观的方法,为完善葡萄酒质量等级制度提供可参考性方案。
2.描述统计2.1数据介绍本文数据来自/ml/datasets/Wine+Quality。数据把葡萄酒分为了两种:红葡萄酒和白葡萄酒,每种葡萄酒都有12个特征,特征介绍见表2-1:表2-1特征介绍英文名称中文名称Fixedacidity非挥发性酸Volatileacidity挥发性酸Citricacid柠檬酸Residualsugar残糖Chlorides氯化物Freesulfurdioxide游离二氧化硫Totalsulfurdioxide总二氧化硫Density浓度Ph酸碱度Sulphates硫酸盐Alcohol酒精Quality质量等级Fixedacidity(非挥发性酸):葡萄酒中非挥发性酸一般为有机酸,其含量相对较多,这些物质无色无味。酒石酸是其中含量最多的一类酸,这种物质的酸性较弱,因此即使含量较多也不会带来过于明显的酸感。数据表明,酒石酸对葡萄酒的口味和品质的影响较为显著。Volatileacidity(挥发性酸):即有挥发性的酸。葡萄酒中的挥发性酸主要为醋酸,这种物质在一系列微生物活动后会自然产生。同时葡萄酒暴露于空气中,也会氧化产生醋酸。由于它具有挥发性,因此当葡萄酒变质导致其含量较多的时候,可以明显闻到一股刺鼻的酸味。因而相对容易辨别,也容易当做判断葡萄酒品质的重要指标。Citricacid(柠檬酸):葡萄酒中酸的一种,在葡萄酒中的含量相对较少。Residualsugar(残糖):残糖是酒精发酵结束后葡萄酒中剩余的天然葡萄糖,糖粉含量可以通过品尝进行感知。根据糖分含量,葡萄酒可以分为干型,半干型,半甜型和甜型四类。尽管发酵完成后,糖分基本都转化成了酒精,但或多或少带有一定量的糖分。残糖可以柔滑葡萄酒的口感,同时也是平衡酸度的关键。Chlorides(氯化物):葡萄酒中的氯化物主要以氯化钠的的形式存在,它的来源有两个:一是沿海葡萄酒工厂酿造的葡萄酒本身的氯化钠的含量就比一般的葡萄酒工厂要高。二是一些酒厂也会添加一些为了在酿造的过程中使葡萄酒更为澄清,也会添加一些氯化钠,数据表明,这种氯化物的含量越低越好。Freesulfurdioxide(游离二氧化硫):葡萄酒中的游离二氧化硫的主要部分是质子状态的酸或酸式盐,从抗菌的角度看,游离的气态二氧化硫最活跃,也正是这部分二氧化硫导致了不愉快的硫磺气味。Totalsulfurdioxide(总二氧化硫):二氧化硫是一种非常常见的食品防腐剂,被广泛应用于葡萄酒的酿造过程中,可以起到防腐、抗氧化、抗菌等作用。二氧化硫能有效抑制微生物活动,从而延缓抗氧化反应,但不会影响经人工选育的有效酵母的活动。在氧气浸入酒液中与其他易氧化物质接触之前,二氧化硫会先与氧气作用,一定程度上阻挡过量氧气的侵袭。Density(浓度):葡萄酒约80%是水,7-12%是酒精,酒精密度是0.79g/ml,但葡萄酒含有矿物质、维生素等,综合计算密度与水差不多,约比水的密度小千分之几,为方便计算,通常把葡萄酒的密度计为1g/ml。Ph(酸碱度):酸度是根据ph值来判定,通常ph值越低的葡萄酒,其色素稳定性越高。酸度较高的红葡萄酒,其颜色越深,变化速度也会比较慢。同样,白葡萄酒的颜色也会受到酸度的影响,低酸环境下,酒液容易出现轻微的棕色色调。Sulphates(硫酸盐):硫酸盐在葡萄酒里主要的作用是防止葡萄酒腐败,也就是充当防腐剂的作用,因此应当是与品质成负相关。Alcohol(酒精):主要来自葡萄汁中糖的酒精发酵,其形成受原料含糖量及酵母菌种类及发酵条件等影响。Quality(质量等级):葡萄酒的质量等级是由品酒师评定的,分为3-8级,共六个等级,等级越高代表质量越高。2.2数据描述分别查看红葡萄酒和白葡萄酒的数据特征,绘制图表如图2-1:(1)非挥发性酸含量分布图(2)挥发性酸含量分布图(3)柠檬酸含量分布图(4)残糖含量分布图(5)氯化物含量分布图(6)游离二氧化硫含量分布图(7)总二氧化硫含量分布图(8)密度含量分布图(9)酸碱度含量分布图(10)硫酸盐含量分布图(11)酒精含量分布图(12)质量含量分布图图2-1红葡萄酒和白葡萄酒的特征分布通过对图2-1的观察分析,对比红葡萄酒与白葡萄酒的特征分布图,除去挥发性酸、残糖、硫酸盐之外,白葡萄酒中各项特征的分布普遍要比红葡萄酒更分散,这说明白葡萄酒评判标准更趋于多元化、复杂化。12个特征的分布情况在红葡萄酒和白葡萄酒之间均存在差异,比如游离二氧化硫在红葡萄酒中集中分布在5-20之间,而在白葡萄酒中则集中分布在20-50,总二氧化硫也存在显著差异,在红葡萄酒中主要分布在10-50,而在白葡萄酒中主要分布于100-200。表2-2红葡萄酒的基本统计特征countmeanstdminmaxfixedacidity15998.31961.74114.600015.9000colatileacidity15990.52780.17910.12001.5800citricacid15990.27100.19500.00001.0000residualsugar15992.53881.41000.900015.5000chlorides15990.87470.04710.12000.6110freesulfurdioxide159915.875010.46021.000072.0000totalsulfurdioxide159946.467832.89536.0000289.0000density15990.99670.00190.99071.0037ph15993.31110.15442.74004.0100sulphates15990.65810.17000.33002.0000alcohol159910.42301.06578.400014.9000quality15995.63600.80763.00008.0000表2-3白葡萄酒的基本统计特征countmeanstdminmaxFixedacidity48986.58480.84393.80014.2000Colatileacidity48980.27820.10080.08001.1000Citricacid48980.33420.12100.00001.6600Residualsugar48986.39145.07210.600065.8000Chlorides48980.04580/02180.00900.3460Freesulfurdioxide489835.308117.00712.0000289.0000Totalsulfurdioxide4898138.360742.49819.0000440.0000density48980.99400.00300.98711.0390ph48983.18830.15102.72003.8200sulphates48980.48980.11410.22001.0800alcohol489810.51431.23068.000014.2000quality48985.87800.88563.0000.0000从表2-2和表2-3来看,每个理化指标在红葡萄酒和白葡萄酒中的均值、最大值、最小值均不同,分布的离散度也大不相同,说明对于红葡萄酒和白葡萄酒我们应该分开研究,各自建立模型。图2-2红葡萄酒的相关系数热力图图2-3白葡萄酒的相关系数热力图从图2-2和图2-3可以看出游离二氧化硫和固定二氧化硫的相关程度比较高,在两种葡萄酒中相关性达到60%以上,密度和游离二氧化硫在两种葡萄酒中相关性均达到了80%以上,密度和总二氧化硫相关性达到50%以上,而其他各变量的相关性均在50%以下。2.3数据预处理查看数据无缺失值,故不需要填补缺失值。因为本数据集没有给出特定的测试集,所以分别把红葡萄酒和白葡萄酒数据进行切割,分为训练集和测试集,其中训练集的数据数量按照模型数量的70%来确定,训练集用来训练模型,测试集用来预测,用测试集的预测效果来评判模型。
3.PCA主成分分析3.1主成分分析模型介绍主成分分析(Principal
Component
Analysis)在数据预处理和数据降维领域被广泛使用。它将n维特征映射到k维上以达到降维的目的,也就是从原有n维特征的基础上重建了一组全新的k维正交特征。通过将大量的变量转换为较少的变量(包含集合中大部分信息)来降低数据集的维度,以这种方法来实现对数据特征的降维处理就叫做主成分分析方法。主成分分析是通过下面的步骤来寻找全新的k维正交特征:首先从原始的空间中依次序的找一组相互正交的坐标轴;然后坐标轴维度正交的平面中使得方差最大的,作为第二个坐标轴,其次选择与先前第1、2个轴正交的平面中方差最大的,作为第三个坐标轴,以此类推,可以获得n个这样全新的相互正交的坐标轴。这样,前面k个已经包含了全部数据的大部分方差,而余下的坐标轴所含的方差几乎为0。所以为了简化运算,可以只选择前面k个含有大部分方差的坐标轴,而舍弃包含方差几乎为0的坐标轴。设有n个指标,x1,x1,…xn,n个X假设第一个新特征维度是F1,那么F1也就是包含方差最大的一个维度,也就是第一主成分,在满足cov(F1,F2)=0的条件下,再选取F2作为第二个主成分,同理构造第三、四,……,第nF要求:(1)a1i(2)Fi与Fj(i≠由此求得X的主成分为协方差阵的特征向量为系数的线性组成。3.2主成分分析算法优点PCA算法的主要优点有:1)因为主成分分析在对原来的n维特征进行变换后,形成了彼此相互正交的新的k维特征,所以原来的n维特征之间相关程度越高,主成分分析的效果越好,可以消除评价指标之间的相关性。2)在综合评价函数中,由于各主成分是按方差大小依次排列顺序的,我们可以选择舍弃一部分包含方差较小的特征维度,而只选择包含方差较大来代表所有的变量,这样就可以减少我们的工作量。新产生的各个主成分的权重代表了各自的贡献率,也是该主成分包含原始数据的信息量占全部信息量的比重,用这种方法所确定的权数客观合理。当然,PCA算法也有一些缺点:1)新产生的各个特征维度的含义失去了原始特征维度的可解释性,没有了实际意义,不如原始样本特征的解释性强。2)主成分分析中被舍弃掉的特征维度也可能含有对样本差异得重要信息,可能对后期数据处理产生不利影响。3.3结果分析以主成分的贡献率95%为标准,对主成分进行抽取,通过Python软件,在训练集上进行降维建模,在测试集上进行预测得到如下结果:红葡萄酒在降维前,在预测集上的准确率达到48.125%,降维后只留下了两个维度,其方差解释度分别为0.9477和0.0474,解释的方差大小分别1179.8815和58.9646,降维后在预测集上预测准确达到52.8125%,说明在进行pca降维后的预测效果有所提高。白葡萄酒在降维前,在预测集上的准确率达到45.51%,降维后只留下了两个维度,其方差解释度分别为0.9099和0.0794,解释的方差大小分别1906.7085和166.3473,降维后在预测集上预测准确达到42.86%,说明白葡萄酒在进行pca降维处理后,预测效果反而下降,故对于白葡萄酒来说,降维方法不可行。用表格的方式将降维结果展示如表3-1.表3-1降维前预测准确率降维后预测准确率两个新维度的方差结实度两个新维度解释的大小方差新维度1新维度2新维度1新维度2红葡萄酒48.125%52.8125%0.94770.04741179.881558.9646白葡萄酒45.51%42.86%0.90990.07941906.7085166.3473分别画出红葡萄酒和白葡萄酒降维后前贡献最大的两个特征值的散点图如图3-1和3-2。图3-1红葡萄酒图3-2白葡萄酒4.线性回归分析4.1线性回归模型介绍在统计学中,线性回归模型是用一条曲线来拟合一个或多个自变量x和因变量y之间关系的模型。如果只有一个自变量就称为简单回归。若曲线是一条直线则是一元线性回归,若是超平面则是多元线性回归,否则是非线性回归。由于线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定,因此线性回归在回归分析中被广泛使用。4.2多元线性回归线性回归一般都可以通过最小二乘法求出其方程,可以计算出对于y=ax+b的直线,一般地,影响y的因素往往不止一个,可以设为x1y=在本例中,自变量x一共有11个,分别为Fixedacidity,Volatileacidity,Citricacid,Residualsugar,Chlorides,Freesulfurdioxide,Totalsulfurdioxide,Density,Ph,Sulphates,Alcohol。本文中采用最小二乘法来寻找最优模型。最小二乘法是回归分析中一种常用的优化方法,它的原理是通过最小化预测值与真实值的误差平方和来找出与数据匹配的最优函数。也就是要找到一组(β0,β1,…,4.3结果展示Quality为因变量,Fixedacidity,Volatileacidity,Citricacid,Residualsugar,chlorides,Freesulfurdioxide,Totalsulfurdioxide,Density,Ph,Sulphates,Alcohol为自变量,对红葡萄酒和白葡萄酒分别进行多元线性回归得表4-1和表4-2。表4-1红葡萄酒OLS回归结果VariableCoefficientStd.Errort-StatisticProbC150.192818.8041.0360.300fixedacidity0.06550.0210.9630.336colatileacidity-1.86320.114-8.9480.000citricacid0.02210.096-1.2400.215residualsugar0.08150.0081.0890.276chlorides-0.24730.547-4.4700.000freesulfurdioxide0.00370.0012.0090.045totalsulfurdioxide-0.00030.000-4.4800.000density-150.287219.075-0.8270.409ph0.68630.105-2.1590.031sulphates0.63150.1008.0140.000alcohol0.19350.02410.4290.000R-squared0.361AdjustedR-squared0.356F-statistic81.35表4-2白葡萄酒OLS回归结果VariableCoefficientStd.Errort-StatisticProbC150.192818.8047.9870.000fixedacidity0.06550.0213.1390.002colatileacidity-1.86320.114-16.3730.000citricacid0.02210.0960.2310.818residualsugar0.08150.00810.8250.000chlorides-0.24730.547-0.4520.651freesulfurdioxide0.00370.0014.4220.000totalsulfurdioxide-0.00030.000-0.7560.450density-150.287219.075-7.8790.000ph0.68630.1056.5130.000sulphates0.63150.1006.2910.000alcohol0.19350.0247.9880.000R-squared0.282AdjustedR-squared0.280F-statistic174.3取对数后,红葡萄酒回归结果如表4-3表4-3VariableCoefficientStd.Errort-StatisticProbC0.6087150.1875923.2448940.0012Lnfixedacidity0.0632880.0419201.5097470.1313Lncolatileacidity-0.0859500.011307-7.6013970.0000Lncitricacid-0.0069870.004419-1.5811820.1141Lnresidualsugar0.0174650.0116761.4958060.1349Lnchlorides-0.0390640.011003-3.5502160.0004Lnfreesulfurdioxide0.0207110.0075312.7502430.0060Lntotalsulfurdioxide-0.0278510.007689-3.6222400.0003Lndensity-5.7842014.319237-1.3391720.1807Lnph-0.1713410.122189-1.4022610.1611Lnsulphates0.1326740.0159548.3159850.0000Lnalcohol0.4646750.0539468.6136210.0000R-squared0.344103AdjustedR-squared0.339144F-statistic69.39405对变量取对数之后,再进行回归分析,发现可决系数以及比变量的显著性相较于不取对数,结果并没有提高,所以取对数再进行回归分析的意义不大。4.4结果分析在红葡萄酒中,可决系数的值为0.365,说明此红葡萄酒模型中自变量的线性组合可以解释36.5%的因变量,也即36.5%的质量等级可以有以上几个自变量的组合解释,观察参数估计值和p值,其中volatile_acidity、chlorides、total_sulfur_dioxide、pH、sulphates、alcohol的p值小于0.05,说明以上六个自变量分别对quality的影响显著,volatile_acidity,citric_acid,chlorides,total_sulfur_dioxide,Density,pH与葡萄酒的品质成负相关。在白葡萄酒中,可决系数的值为0.288,说明此红葡萄酒模型中自变量的线性组合可以解释28.8%的因变量,也即28.8%的质量等级可以有以上几个自变量的组合解释,观察参数估计值和p值,其中fixed_acidity、volatile_acidity、residual_sugar、free_sulfur_dioxide、density、pH、sulphates、alcohol的p值均小于0.05,说明在其他变量不变的条件下,以上九个自变量分别对quality的影响显著。volatile_acidity,chlorides,total_sulfur_dioxide,density这四种化学成分与葡萄酒的品质成负相关。分析红葡萄酒和白葡萄酒的回归结果,不难发现这些化学指标在预测白葡萄酒品质的过程中表现更好,白葡萄酒11个自变量中有9个都是显著的,而红葡萄酒中,11个自变量仅有6个显著,这就是说在回归数据上更倾向于认为白葡萄酒的评判标准更复杂,而红葡萄酒的评判标准相对简单,也就是说从数据上来看评判白葡萄酒时需要考虑的因素更多。但这些变量对于葡萄酒质量的影响基本上是一致的,比如,非挥发性酸在红葡萄酒和白葡萄酒中都是显著的,酒石酸对葡萄酒口味以及品质的影响的确显著,得到了数据的支持。只有ph值和柠檬酸在红葡萄酒和白葡萄酒中有所差异,所得到的数据中反映出来的是,ph值低的和柠檬酸含量低的红葡萄酒更受品酒师的青睐,而对于白葡萄酒来说则是ph高的和柠檬酸含量高的更受青睐。
5.决策树5.1算法介绍决策树分类算法在机器学习领域中应用得非常广泛,但是其原理却很简单。决策树算法包括训练和测试两个阶段。在训练阶段,会按照一定的标准将训练样本划分为几个子集,每个子集继续按照相同的规则划分。将此过程递归执行,直到每个子集含有的样本属于同一类时停止。在训练过程中,每个分割节点需要保存好分类的属性编号。在测试阶段,将测试样本从根节点开始进行判别,以查看该样本属于哪个子节点,然后递归下去,直到该样本被分到叶节点中为止,这时,该样本就属于当前叶节点的类别。决策树是树形结构,它主要具有三种不同的节点:1)决策节点:它表示的是一个中间过程,主要是用于比较一个数据集中各个属性的取值来判断下一步的决策趋势。2)状态节点:代表备选方案的期望值,通过比较各个状态节点,以选出最佳结果。3)结果节点:它表示该类最终属于哪一个类别,还可以清楚地看到该模型共有多少个类别。最终,数据实例根据各个属性取值获取其决策节点。5.2算法优缺点决策树算法的优点:1)数据预处理比较简单,不需要提前归一化或者填补缺失值。2)对于异常点的容错能力好,健壮性高。3)可以处理多维度输出的分类问题。4)相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释。决策树算法的缺点:1)决策树算法非常容易出现过拟合的情况,导致在预测集上表现效果不佳。例如在本文的白葡萄酒决策树模型中,就出现了模型过拟合的情况,训练集和测试集上的得分差距较大。可以通过设置节点最少样本数量和限制决策树的深度来改进。2)决策树对样本的改动很敏感,样本微小的变动都可能会导致决策树结构发生巨大变化。5.3结果分析对于红葡萄酒数据,首先使用70%的数据作为训练数据,30%的数据作为测试数据进行分析。红葡萄酒在训练集上得分为1,也就是说所有的数据的品质等级都划分正确,但是在测试集上的预测准确度仅为55.4%,这样的结果表明训练后的决策树在训练集上的分类准确的与测试集上表现差异较大,模型可能发生过拟合,于是我们重新划分训练集与测试集,结果如下表:表5-1训练数据比例训练集上得分测试集上得分70%训练数据10.55475%训练数据10.607580%训练数据10.621875虽然随着划分比例不同,测试精度有所提高,但是结果显示仍然可能发生过拟合,于是我们添加参数进行剪枝。决策树剪枝时,寻找效果最佳的参数,如图5-1,求得最佳的决策树深度参数为10,图5-1对决策树进行剪枝操作,深度调为10,得到在80%训练数据和20%测试数据条件下,模型训练结果如表5-2,表5-2训练集上得分0.6122测试集上得分0.6094对于白葡萄酒我们采取如上同样的操作,由于白葡萄酒的数据过于庞大,不便使用剪枝操作,结果如表5-3。表5-3训练集上得分1测试集上得分0.6306最后我们分别绘制出红葡萄酒和白葡萄酒的决策树图像,由于图像比较庞大,故不放在正文展示。
6.KNN分类6.1算法介绍邻近算法,或者说K最近邻分类算法是数据挖掘分类计数中最简单的方法之一。所谓K最近邻就是指K个最近的邻居,就是说每个样本都可以用它最接近的K个邻居来表示。Cover和Hart在1968年提出了最近邻算法。KNN是一种分类算法,它输入基于实例的学习,属于懒惰学习,即KNN没有显式的学习过程,即没有训练阶段,数据集实现已经具有分类和特征值,接收到新样本后直接进行处理,与eagerlearning相对应。该算法可以大致分为以下两种:计算测试数据与每个训练数据之间的距离,然后根据距离进行排序,选取距离最小的K个点,再确定前K个点的类别的出现频率,最后返回前K个点中出现频率最高的类别,将其作为测试数据的预测分类。关于距离的选取,距离的定义有很多种,最常见的是欧氏距离,距离公式为:
E(x,y)由于KNN算法的思想很简单,这也就决定了该算法实现起来比较简单,KNN算法的实现无需对参数进行估计,也无需进行训练。6.2结果展示红葡萄酒有1500行数据,白葡萄酒一共有4898行数据,分别按照70%和30%的比例将数据集分为trainingset和testset,因为KNN模型对数据的缩放很敏感,我们根据trainingset数据进行归一化,并将同样的转换用于测试集上,这样能够确保每个特征对KNN模型的影响力一样大。(1)红葡萄酒:首先假定k=3,建立一个knn分类器,得到其训练集的准确率为76.32%,十折交叉验证的的准确率为58.36%,再使用交叉验证(crossvalidation)选择最好的k。将此模型用于测试集上,测试集的正确率:59.58%图6-1最后得到混淆矩阵如图6-2:图6-2红葡萄酒混淆矩阵输出最后的评估报告如表6-1:表6-1红葡萄酒评估报告precisionrecallf1-scoresupport30.000.000.00740.000.000.001450.630.780.7018860.550.650.5920070.690.170.276680.000.000.005accuracy0.60480macroavg0.420.400.26480weightedavg0.620.620.56480(2)白葡萄酒分别取不同的K值,将其分别应用于训练集和预测集,不同的K值对应的正确率如图6-3,可知K=1时预测效果最好。图6-3混淆矩阵如图6-4图6-4白葡萄酒混淆矩阵输出最后的评估报告如表6-2:表6-2白葡萄酒precisionrecallf1-scoresupport8740.410.310.354950.660.660.6642860.640.660.6565070.570.550.5628580.389.490.4351accuracy0.621470macroavg0.420.400.401470weightedavg0.620.620.6214706.3结果分析从上面给出的结果来看,等级为3、4、5、6、7、8的红葡萄酒的预测精准度分别为0、0、0.63、0.55、0.69、0;总的来说在测试集上的预测准确度达到60%,由于在小类别上的预测表现不佳,宏平均的预测准确度26%,微平均的预测准确度达到56%,所以knn分类模型在大类别上预测表现比较好,而预测小类别的精准度几乎为0。等级为3、4、5、6、7、8的白葡萄酒的预测精准度分别为0.25、0.41、0.66、0.64、0.57、0.38;总的来说在测试集上的预测精准度达到62%,由于在小类别上的表现并没有在大类别上的表现那么好,宏平均下来预测准确度只有40%,微平均的预测准确度达到62%,对于白葡萄酒来说,在大类别上的预测表现较好,在小类别上的预测准确虽然没有大类别上那么高,但也相对满意。
7.分析与总结本文通过上述数据挖掘及统计分析的方法,我们可以得出以下的结论:1)PCA模型中,由于本文数据维度本来就不太高,虽然红葡萄酒的预测精准度在降维后有所提高,但提高的幅度不大,且降维后的精确度仍不足55%,而白葡萄酒在降维后,预测精确度反而降低。综上,不推荐采用PCA降维方法进行预测。2)从多元线性回归模型中,可知葡萄酒的理化指标与质量等级之间存在一定的相关性,这些指标可以用来实现对葡萄酒质量等级的预测;其中在线性回归中酒精(alcohol)对预测的贡献程度最高。硫酸盐具有反向贡献度。大部分的理化指标在红葡萄酒的白葡萄酒中的影响方向一致,只有ph值和柠檬酸对于两种葡萄酒的影响方向不一致。3)决策树模型中,对于红葡萄酒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工绩效计划培训课件
- 2025年水处理阻垢缓蚀剂HEDP项目合作计划书
- 气道护理的科研进展
- 护理专业就业现状分析
- 肾脏疾病护理指南
- 护理规培:基础理论精讲
- EMR术后早期活动的好处
- 护理专业领导力培养
- 护理翻转课堂:跨文化交流与沟通
- 跌倒风险识别与评估
- 新疆交通投资责任有限公司 笔试内容
- 检修安全培训内容课件
- 公路养护培训课件
- 2025年6月浙江省高考化学试卷真题(含答案及解析)
- 天车安全培训教学课件
- 2025年丹栀逍遥丸行业研究报告及未来行业发展趋势预测
- 医院清洁消毒培训
- 安全事故三要素培训总结课件
- 储能项目并网消防专篇
- 智能投资顾问课件
- 2025-2030中国农村电子商务人才培养与需求预测报告
评论
0/150
提交评论