孪生支持向量机的多分类方法研究分析 应用心理学专业_第1页
孪生支持向量机的多分类方法研究分析 应用心理学专业_第2页
孪生支持向量机的多分类方法研究分析 应用心理学专业_第3页
孪生支持向量机的多分类方法研究分析 应用心理学专业_第4页
孪生支持向量机的多分类方法研究分析 应用心理学专业_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录摘要 实验验证的代码均由Matlab语言实现,使用MATLABR2015b进行编译运行。运行该程序的计算机配置为Inteli5(2.40GHz)处理器,4GB内存,运行的操作系统为Windows101709。数据集本次实验使用的数据集分为两部分,一部分选取自UCI数据库[22],另一部分选取自MNIST手写体数据集[23]。以下分别介绍了选取的两部分数据集。4.1.1 UCI数据库实验验证中所采用的UCI的数据集有Iris、Glass、Vehicle和Segment,这些数据集都可以从UCI数据库(/ml/datasets.html)下载。UCI数据库是用于机器学习相关算法验证分析的数据库、领域理论和数据生成器的集合。下面详细介绍了每一个数据集,并在表4.1中给出了这些数据集的简要描述。表4.1UCI数据集的描述数据集样本总数特征数类别数Iris15043Glass214106Vehicle846184Segment2310197Iris数据集是模式识别文献中最知名的数据集之一。该数据集有150个样本,由3类样本构成,每类样本各50个,分别代表一种鸢尾属植物。三种类别为IrisSetosa(山鸢尾)、IrisVersicolour(杂色鸢尾)和IrisVirginica(青龙鸢尾)。Iris是一个非常经典的数据集,每个样本包含4个特征,分别是花萼的长度、花萼的宽度、花瓣的长度和花瓣的宽度。在该数据集的三个类别中,有一个类别对于其余两个是线性可分的,而这两个彼此之间是线性不可分的。GlassIdentification数据集(以下简称Glass数据集)来自美国法医科学服务中心,对于玻璃种类的分类研究启发自犯罪学调查:在一些犯罪现场,如果能够正确地调查现场残留的玻璃,这些玻璃可以作为证据之一。该数据集由214个样本,由6个类别组成,类别组成见表4.2。Glass数据集的样本有10个特征数据,分别是编号、折射率和相应氧化物中纳、镁、铝、硅、钾、钙、钡、铁的重量比。表4.2Glass数据集构成建筑物玻璃车辆玻璃容器玻璃餐具玻璃头灯玻璃浮法非浮法浮法非浮法707617013929VehicleSilhouettes数据集(以下简称Vehicle数据集)最初收集的目的是找到一种从2D图像中识别3D对象的方法。2D图像通过摄像头从固定仰角向下看模型车辆来获取,并通过阈值处理使其产生二值车辆轮廓。该数据集的特征通过分层图像处理系统从轮廓中提取出来。Vehicle数据集包含846个样本,分为4个类别,分别对应实验用到的4种车型:双层巴士(BUS)、Cheverolet面包车(VAN)、Saab9000(SAAB)和OpelManta400(OPEL),其样本个数分别为218、199、217和212。Vehicle数据集的每个样本包含18个特征,包含各种比率、峰值、方差等。ImageSegmentation数据集(以下简称Segment数据集)是从一个包含7种户外数据的数据集里随机选取的,7种类别分别为:砖面(brickface)、天空(sky)、叶子(foliage)、水泥(cement)、窗户(window)、路(path)和草(grass),每类选取330个样本,共2310个样本。Segment数据集的每个样本有19个特征,关于样本的质心位置、密度、强度、相邻像素对比度和颜色属性等。4.1.2 MNIST数据集MNIST数据集是机器学习领域里常被用于训练和测试的大型手写数字数据库。该数据库包含60000个训练样本和10000个测试样本,是NIST(NationalInstituteofStandardsandTechnology)的一个子集。NIST的原始黑白图像经过处理后,计算质心位置,放置该图像并使其质心与28×28像素区域的中心重合,得到MNIST的图像。因此,该数据集的图像共有10种标签,并且每张图像的大小均为28×28像素。图4.1展示了MNIST数据集中的部分样本。图4.1MNIST数据集的部分样本MNIST数据集通过重新混合NIST的特殊数据集1(SD-1)和特殊数据集3(SD-3)得到。NIST中指定的训练集为SD-3,是从人口普查局员工中收集的,其中指定的测试集为SD-1,是从高中生中收集的。前者的样本相较后者,更加清晰且容易识别。混合得到的MNIST数据集的训练集包含30000张SD-1中的图像和30000张SD-2中的图像,类似地测试集包含5000张SD-1中的图像和5000张SD-3中的图像。MNIST保证重新混合后得到的训练集和测试集的书写者不重合,使得实验得到的结果独立于整个数据库中训练集和测试集的选择,更加合理。4.2 UCI数据集实验结果4.2.1 惩罚参数影响分析首先分析惩罚参数和对本文提出的DT2SVM-KC算法的影响。这里选择Vehicle数据集作为示例,其中80%的数据用于训练,剩余的数据用于测试。和的选取范围为,图4.2中的两个柱状图分别展示了在线性核(图4.2(a))和高斯核(图4.2(b))下,算法准确率随参数和的变化。高斯核参数的选取参考文献[25]。从图4.2中可以看出,使用线性核时,该算法的准确率随着参数和的变化波动较大;而使用高斯核时,算法准确率随着参数和的变化相对稳定,波动幅度较小。总体看来,随着参数的增长,算法准确率降低。比较图4.2(a)和图4.2(b)还可以看出使用高斯核函数时泛化准确率明显高于使用线性核的泛化准确率。即使使用高斯核函数的准确率随参数的变化幅度不大,和还是在一定程度上影响到最终的泛化准确率。因此,在这些数据集上,选择合适的惩罚参数,对于DT2SVM-KC算法是很重要的。在本节的下述实验中,均采用十折交叉验证技术从中选择合适的参数。Linear(b)RBF图4.2Vehicle数据集上算法准确率随惩罚参数的变化情况4.2.2 决策树分析在本文提出的DT2SVM-KC算法中,因为通过决策树方法将多类别分类问题转化为两分类问题,所以一个很重要的步骤就是生成一棵合适的二叉决策树。同样,先在Vehicle数据集上给出示例。图4.3展示了DTTSVM算法和本文提出的DT2SVM-KC算法在Vehicle数据集上生成的二叉决策树比较,左边的决策树是DT2SVM-KC算法构造的,右边的决策树是DTTSVM算法构造的。从图4.3可以看出,本文提出的DT2SVM-KC算法构造的决策树层数更少,更加平衡。之后展示的实验结果同样证明了DT2SVM-KC算法构造的这棵决策树有着更好的泛化能力。图4.4给出了DT2SVM-KC算法在实验用到的其它UCI数据集上生成的决策树。可以看出,这些决策树都趋于平衡二叉树。DT2SVM-KC(b)DTTSVM图4.3Vehicle数据集上构造的决策树Iris(b)Glass(c)Segment图4.4DT2SVM-KC算法在三个UCI数据集上构造的决策树4.2.3 实验结果为了验证本文提出的DT2SVM-KC方法的有效性,本节对比了两种多分类TWSVM方法在上述数据集上的效率和准确性。另外,还对比了一种基于决策树的SVM多分类方法——DTSVM(DecisionTreeSupportVectorMachine)[24]。对每组数据集实验中选择20%的数据作为测试样本,剩余的数据用于训练得到分类模型。对于惩罚参数和,在每个训练数据集上通过十折交叉验证的方法在之间选取,选定后也将该参数用于测试并得到分类准确率。重复上述操作10次,每次选取不同的训练数据集和测试数据集。该实验分别在线性核函数和高斯核函数下进行,高斯核参数的选取参考[25]。在表4.3和表4.4中分别给出在使用线性核函数和高斯核函数时,4种多分类方法10次运行结果的平均分类准确率,其中最高的平均准确率用粗体表示。从表4.3中可以看出,与Multi-TWSVM和DTTSVM相比,本文提出的分类算法在实验中用到的大部分数据集上有较高的测试准确率。图4.3显示,在数据集Vehicle上,DTTSVM与DT2SVM-KC构造了不同的决策树,而DT2SVM-KC的算法准确率比DTTSVM的高出了大约3%;另一方面,由于同样使用核聚类方法来构造二分决策树,DTSVM与DT2SVM-KC有着同样的决策树。由于这两种方法在非叶子结点上使用不同的两分类器,导致它们的平均准确率有所差异。因此,我们可以推测本文提出的DT2SVM-KC算法相比DTTSVM算法构造了更优的决策树;同时,TWSVM维持了传统SVM的分类准确率,而且在一些数据集上还有所提升。通过表4.4可以发现使用高斯核进行测试时,DT2SVM-KC在实验中的4个数据集上都有着较好的表现,分类准确率在4种多分类方法中最高。总的看来,比较表4.3和表4.4,这些多分类方法在使用高斯核函数时比使用线性核函数时有着更高的分类准确率。表4.4的实验结果也进一步证实了DT2SVM-KC在解决多分类问题时的有效性。表4.5展示了DT2SVM-KC与其它三种多分类方法的运行时间,包括训练时间和测试时间。因为DT2SVM-KC算法在构造决策树时比DTTSVM算法做了更多的运算,所以其训练过程比DTTSVM算法耗时稍多。但是相较于Multi-TWSVM和DTSVM,DT2SVM-KC算法仍然保持了DTTSVM算法以及TWSVM算法的速度优表4.3使用线性核函数时的平均测试准确率(%)数据集Multi-TWSVMDTTSVMDTSVMDT2SVM-KCIris94.00±4.1096.00±2.6394.67±3.5898.00±2.81Glass40.43±7.8252.51±5.7962.72±5.0157.44±2.36Vehicle71.05±2.3773.86±6.7576.15±3.3476.55±2.07Segment80.91±3.0580.95±0.8862.08±20.583.07±6.72表4.4使用高斯核函数时的平均测试准确率(%)数据集Multi-TWSVMDTTSVMDTSVMDT2SVM-KCIris96.67±2.2296.00±2.6394.67±1.7297.33±2.63Glass64.59±4.8071.13±4.7069.30±7.8275.42±5.48Vehicle74.92±2.5983.07±4.0472.44±4.5084.03±2.88Segment95.45±1.4996.15±1.4294.11±1.2496.58±1.02表4.5训练和测试时间(sec.)数据集Multi-TWSVMDTTSVMDTSVMDT2SVM-KC训练时间测试时间训练时间测试时间训练时间测试时间训练时间测试时间Iris0.6070.0240.3260.0120.6320.150.4130.008Glass1.360.0071.070.0302.460.3431.340.014Vehicle17.380.0225.440.07853.491.1312.520.046Segment433.840.18871.470.215519.294.54163.960.185势,有着较快的运行速度。从表4.5整体看来,DT2SVM-KC算法相较其它算法有着更快的测试过程。树结构使得DT2SVM-KC算法不需要如Multi-TWSVM算法一般判断所有类别,减少了运算时间;而比实验中其它基于树结构的算法测试时间快,除了TWSVM本身较低的计算复杂度,也可以推断DT2SVM-KC算法构造了更优的决策树。上述实验结果表明了本文提出的DT2SVM-KC算法保持了基于TWSVM的多分类算法的低计算复杂度的优势,并且在本节的实验中,DT2SVM-KC算法有着比其它多分类方法更好的表现。4.3 MNIST数据集实验结果为了进一步验证本文提出的DT2SVM-KC方法在较大数据集上的有效性,本节对比了其与Multi-TWSVM和DTTSVM在MNIST数据集上的分类准确性和时间效率。受实验环境限制,我们在MNIST的训练集中随机选择10000个样本进行训练,并使用全部测试集的10000个样本进行测试。由于在MNIST数据集上进行实验时,惩罚参数和几乎不影响分类结果,所以该节实验中我们令和都为1。图4.5展示了DT2SVM-KC算法和DTTSVM算法在MNIST数据上训练得到的二叉决策树,左边为DT2SVM-KC算法的结果,右边为DTTSVM算法的结果。从该图可以看出,相比DTTSVM构造的决策树,DT2SVM-KC构造的决策树高度更低,也相对均衡。在MNIST数据集上,我们使用非线性核函数进行实验。表4.6给出了DT2SVM-KC和其它多分类TWSVM算法的分类结果。从表4.6可以看出,使用高斯核函数时,DT2SVM-KC方法仍然保持了分类准确率方面的优势,比DTTSVM方法的准确率高了2.7%,比Multi-TWSVM方法的高了约1%。因为非线性核函数将数据点映射到高维空间中进行运算,训练时间和测试时间都较长。在该种情况下,DT2SVM-KC和DTTSVM发挥了其计算复杂度较低的优势,比Multi-TWSVM快了约8倍,并且DT2SVM-KC比DTTSVM稍快。因此,我们可以推测,在计算规模较大时,如果DT2SVM-KC生成了比DTTSVM更合适的二叉决策树,那么可以在一定程度上弥补核聚类时计算较多的不足。本节实验结果验证了所提方法在规模较大数据集上的可行性和有效性。和其它多分类TWSVM算法相比,无论是在分类精度上还是在运行效率上都有所提升。DT2SVM-KC(b)DTTSVM图4.5两种算法在MNIST数据集上构造的决策树表4.6在MNIST数据集上的测试结果分类方法准确率(%)训练时间(sec.)测试时间(sec.)Multi-TWSVM94.0967638.012110.0DTTSVM92.228079.43290.3DT2SVM-KC94.947092.61752.54.4 本章小结本章首先介绍了实验中用到的四个UCI数据集和MNIST手写数字数据集。接着,通过对惩罚参数的分析,了解到该参数对基于TWSVM多分类算法的性能影响,以及在部分数据集上选择适当的惩罚参数是必要的。本章还分析了DT2SVM-KC算法生成的决策树,并与DTTSVM算法构造的决策树进行比较,前者的决策树更加趋于平衡。实验表明,DT2SVM-KC算法生成的决策树在实验中可以得到更优的分类模型和测试结果,该算法也基本维持了TWSVM算法和决策树方法的速度优势。在各种数据集上表明,非线性的方法比线性的方法具有更好的性能。

第五章总结与展望5.1 本文总结分类技术是信息社会的一项重要技术,它使得一些杂乱的的数据能够被判断和归类,发掘其内在价值。计算机代替人工进行数据分析和分类可以发现一些不明显的规律,并且能以相对快的速度处理更多数据。SVM是一种常用的两分类器,TWSVM是它的一种优秀的改进版本,而由于现实分类问题大多是多类的,所以将TWSVM扩展至解决多类分类问题是十分必要的。本文以TWSVM算法为研究对象,简要介绍了TWSVM算法的研究现状并阐述了几种基于TWSVM扩展的多类分类算法,在此基础上提出了一种基于TWSVM的多类分类算法,然后通过实验验证了其有效性和可行性。本文的主要贡献如下:(1)通过决策树技术拓展TWSVM算法来解决多类分类问题。本文利用核聚类算法构造二分决策树,每个叶子结点代表一个类别,在非叶子结点上通过核聚类算法将类别分为两组并运用TWSVM得到两组类的划分。该扩展将解决一个多类分类问题转换为解决多个多层的两分类问题,并且随着决策树层数的增加减少结点上的样本数和类别数。(2)分析了惩罚参数对本文所提算法性能的影响。对于部分数据集,如本文实验中用到的UCI数据集,在一定范围内变化惩罚参数时,线性情况的结果将有较大波动,对非线性情况的结果影响较小,但是也会导致分类性能的变化。而对于另一部分数据集,如本文实验中用到的MNIST数据集,惩罚参数对其分类结果几乎无影响。因此在具体实验中需要根据不同数据集来选择合适的惩罚参数。本文在UCI数据的实验中采用十折交叉验证方法来选定惩罚参数。(3)本文对所提出的多分类TWSVM方法进行了实验验证,选取了四个UCI机器学习库的数据集和一个手写数字识别库MNIST。在这些数据集上实施本文所提出的算法与一些其它基于TWSVM的多分类方法,并对得到的实验结果进行分析,可知DT2SVM-KC算法在分类精度和分类时间上都有一定优势,这验证了本文提出的多分类TWSVM算法的有效性。5.2 后续工作展望虽然本文提出的DT2SVM-KC算法在实验中表现较好,在分类准确率和效率上都有优势,其仍然存在下述的不足之处和后续需要研究的方向:(1)考虑到实验环境的软硬件性能,本文实验中用到的数据集规模都不算很大。后续将进一步在大规模的数据集上进行实验,或结合一些大规模算法使其更加适用于大规模数据集。本文中使用的实验样本的类型不够广泛,今后将在更多领域测试本文提出的多分类算法的有效性和实用性。(2)由于基于核聚类决策树的多分类TWSVM技术采用核聚类方法构造决策树,核聚类的计算性能影响了整个训练过程。当聚类中心选取不当时,会造成迭代次数较多,训练时间增加。如何选取合适的聚类中心需要后续的相关研究。(3)本文的算法和实验中使用的都是原始的TWSVM,而目前TWSVM已经拓展出了一些优秀的改进版本,它们具有更低的计算复杂度或更高的分类准确率。后续可以尝试用这些改进版本替换原始TWSVM来优化本文提出的方法。(4)本文提出的基于核聚类决策树的多分类TWSVM方法目前仅适用于单标签的多分类技术,今后的进一步工作将尝试扩展该方法至解决多标签分类问题。

攻读学士学位期间主要的研究成果软件著作权窦清昀,张莉.基于核聚类的多分类孪生支持向量机仿真平台软件V1.0.软件著作权登记号:2018SR004246.科研项目王喆,窦清昀,张朦,李甜甜,张小菲.表情识别算法研究,2016年苏州大学校级大学生创新创业训练计划项目.项目编号:2016xj033.

参考文献[1] CortesC,VapnikV.Support-VectorNetworks[J].MachineLearning,1995,20(3):273-297.[2] MangasarianOL,WildEW.Multisurfaceproximalsupportvectormachineclassificationviageneralizedeigenvalues[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2006,28(1):69-74.[3] Jayadeva,KhemchandaniR,ChandraS,etal.TwinSupportVectorMachinesforPatternClassification[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2007,29(5):905-910.[4] TomarD,AgarwalS.TwinSupportVectorMachine:Areviewfrom2007to2014[J].EgyptianInformaticsJournal,2015,16(1):55-69.[5] KumarMA,GopalM.Leastsquarestwinsupportvectormachinesforpatternclassification[J].ExpertSystemsWithApplications,2009,36(4):7535-7543.[6] PengX.Aν-twinsupportvectormachine(ν-TSVM)classifieranditsgeometricalgorithms[J].InformationSciences,2010,180(20):3863-3875.[7] ShaoY,ZhangC,WangX,etal.ImprovementsonTwinSupportVectorMachines[J].IEEETransactionsonNeuralNetworks,2011,22(6):962-968.[8] XuY,YangZ,PanX,etal.ANovelTwinSupport-VectorMachineWithPinballLoss[J].IEEETransactionsonNeuralNetworks,2017,28(2):359-370.[9] ZhenW,JinC,MingQ.Non-parallelplanessupportvectormachineformulti-classclassification[A].//InternationalConferenceonLogisticsSystemsandIntelligentManagement[C],Harbin:IEEE,2010:581-585.[10] XuY,GuoR,WangL,etal.ATwinMulti-ClassClassificationSupportVectorMachine[J].CognitiveComputation,2013,5(4):580-588.[11] YangZ,ShaoY,ZhangX,etal.Multiplebirthsupportvectormachineformulti-classclassification[J].NeuralComputingandApplications,2013,22(1):153-161.[12] ShaoYH,ChenWJ,HuangWB,etal.TheBestSeparatingDecisionTreeTwinSupportVectorMachineforMulti-ClassClassification[J].ProcediaComputerScience,2013,17:1032-1038.[13] 胡根生,吴问天,罗菊花等.结合HJ卫星影像和最小二乘孪生支持向量机的小麦蚜虫遥感监测[J].浙江大学学报(农业与生命科学版),2017,43(2):211-219.[14] YangC,WuZ.StudytoMulti-TwinSupportVectorMachinesandItsApplicationsinSpeakerRecognition[A].//InternationalConferenceonComputationalIntelligenceandSoftwareEngineering[C],Wuhan:IEEE,2009:1-4.[15] ZhangX,GaoX.Twinsupportvectormachinesandsubspacelearningmethodsformicrocalcificationclustersdetection[J].EngineeringApplicationsofArtificialIntelligence,2012,25(5):1062-1072.[16] 路婷婷.基于LSTSVM的高光谱图像分类方法研究[D].哈尔滨工程大学,2016.[17] 朱志宾,丁世飞.基于TWSVM的图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论