2025年机器学习大作业

上传人：玲*** IP属地：江西上传时间：2026-05-07 格式：DOCX 页数：24 大小：599.91KB 积分：12 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器学习大作业支持向量机就就是基于记录学习理论得构造风险最小化原则得,她将最大分界面分类器思想和基于核得措施结合在一起,体现出了很好得泛化能力。由于SVM措施不仅考虑了对渐进性能得规定,并且在既有有限信息得条件下得到最优成果,并且可以根据有限得样本信息在模型得复杂性和学习能力之间寻求最佳折中,从而获得最佳得推广能力。SVM重要就就是应用于分类,简单而言,就就就是假如有一堆已经分好类得东西(可就就是分类得根据就就是未知得),当有新得未知数据进来时,SＶM可以预测这个新得数据要分到哪一堆去。第一章理论知识最优间隔分类器ＳＶM得重要思想就就是针对两类分类问题,在高维空间寻找一种最优分类超平面作为分类平面,来保证最小得分类错误率。我们得目的就就是寻找一种超平面,使得离超平面比较近得点有更大得间距,也就就就是说,我们不考虑所有得点都必须远离超平面,我们关怀得只就就是想规定得得超平面可以使得所有点中离她近来得点具有最大间距。形象得说,我们将上面得图看作就就是一张纸,我们要找一条折线,按照这条折线折叠后,离折线近来得点得间距比其她折线都要大。形式化表达为:上面描述得这种状况就就是建立在样例线性可分得假设上,当样例线性不可分时,可以引入松弛变量,她容许在一定程度上违反间隔约束。我们可以尝试使用核函数来将特征映射到高维,这样很也许就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分得状况下,也可以尽量地找出分隔超平面。看下面两张图:可以看到一种离群点(也许就就是噪声)可以导致超平面得移动,间隔缩小,可见此前得模型对噪声非常敏感。再有甚者,假如离群点在此外一种类中,那么这时候就就就是线性不可分了。这时候我们应当容许某些点游离并在在模型中违反限制条件(函数间隔不小于1)。我们设计得到新得模型如下(也称软间隔):引入非负参数后(称为松弛变量),就容许某些样本点得函数间隔不不小于1,即在最大间隔区间里面,或者函数间隔就就是负数,即样本点在对方得区域中。而放松限制条件后,我们需要重新调整目的函数,以对离群点进行惩罚,目的函数背面加上得就表达离群点越多,目的函数值越大,而我们规定得就就是尽量小得目的函数值。这里得C就就是离群点得权重,Ｃ越大表明离群点对目的函数影响越大,也就就就是越不但愿看到离群点。我们看到,目的函数控制了离群点得数目和程度,使大部分样本点仍然遵守限制条件。图1、1分类状况线性支持向量机SVM只要就就是针对两类分类问题,分类重要包括线性可分和非线性可分两类。在样例线性可分得状况下,此时,存在一种超平面,使得训练样本可以完全被分开,这和超平面得形式为:从KKT条件得知只有函数间隔就就是1(离超平面近来得点)得线性约束式前面得系数,也就就就是说这些约束式,对于其她得不在线上得点(),极值不会在她们所在得范围内获得,因此前面得系数、注意每一种约束式实际就就就是一种训练样本。图1、２最优分类面实线就就是最大间隔超平面,假设×号得就就是正例,圆圈得就就是负例。在虚线上得点就就就是函数间隔就就是１得点,那么她们前面得系数,其她点都就就是。这三个点称作支持向量。构造拉格朗日函数如下:下面我们按照对偶问题得求解环节来进行求解,首先求解得最小值,对于固定得,得最小值只与w和b有关。最终得到此时得拉格朗日函数只包含了变量。然而我们求出了才能得到w和b。接着就就是极大化得过程前面提到过对偶问题和原问题满足得几种条件,首先由于目的函数和线性约束都就就是凸函数,并且这里不存在等式约束h。存在ｗ使得对于所有得ｉ,。因此,一定存在使得就就是原问题得解,就就是对偶问题得解。非线性支持向量机图１、3通过非线性变换将输入空间变换到一种高维空间对非线性问题,可以通过非线性变换转化为某个高维空间中得线性问题,在变换空间求最优分类面。对于线性不可分得状况,可以把样本X映射到一种高维特征空间H,并在此空间中运用原空间得函数来实现内积运算,这样将非线性问题转换成另一空间得线性问题来获得一种样本得归属。根据泛化函数得有关理论,只要一种核函数满足Mｅrｃeｒ条件,她就对应某一空间中得内积,因此只要在最优分类面上采用合适得内积函数就可以实现这种线性不可分得分类问题。模型修改后,拉格朗日公式也要修改如下:这里得和都就就是拉格朗日乘子,回忆我们在拉格朗日对偶中提到得求法,先写出拉格朗日公式(如上),然后将其看作就就是变量w和b得函数,分别对其求偏导,得到w和b得体现式。然后裔入公式中,求带入后公式得极大值。整个推导过程类似此前得模型,这里只写出最终成果如下:此时,我们发现没有了参数,与之前模型唯一不一样在于又多了得限制条件。核函数核函数就就是将函数映射到高维空间来增长线性学习得计算能力,通过选择恰当得核函数来替代内积,可以隐式地将训练数据非线性地映射到高维空间,而不增长可调参数得个数,前提就就是核函数可以计算对应着得输入特征向量得内积。将核函数形式化定义,假如原始特征内积就就是,映射后为,那么定义核函数(Keｒnel)为选择不一样得核函数意味着采用不一样得原则对相似性和相似程度进行估计。因此,核函数得选择对非线性支持向量机得构建就就是至关重要得,核函数得选择就就是一种难题。下面这张图阐明在低维线性不可分时,映射到高维后就可分了,使用高斯核函数。图1、４输入空间到特征空间得映射第二章试验仿真成果及分析通过对SVM得学习,理解到不一样得试验参数对试验成果导致不一样得影响,支持向量机建模过程中,其核函数得类型、核函数参数sigma和惩罚系数c得选用决定模型得识别性能,建模过程中多采用基于启发式得交叉验证法。在本试验中使用了线性核函数和径向基函数核函数来进行试验,在两种基函数得基础下,又分析讨论了不一样训练样本数量对ROC曲线得影响,及训练样本个数得不一样对分类误差得影响;最终对惩罚系数C和径向基核函数中得参数sigｍa对试验成果得影响有一种简单得分析讨论、2、１基于线性核函数得试验仿真成果在这部分试验中,选择得核函数就就是线性核函数,在此基础上,首先选择不一样数量得训练样本,得到对应得最优分类器,再对固定数量得测试样本进行分类,此时得惩罚系数c保持默认不变,此时给出分类成果和对应得ＲＯC曲线,以及相对应得分类误差,然后对所得得试验成果进行分析讨论;另一部分就就是保持训练样本和测试样本数量不变,线性核函数不变,此时变化惩罚系数c,得到分类成果、ROC曲线以及分类误差、[1]训练样本数量对试验成果得影响本次试验中使用得数据集分为训练样本集和测试样本集,其中训练样本集总数为3０８9个,测试样本集总数为4０００个,而这个样本集中每个样本包具有4个特征,我们选用后两个特征进行分类,测试样本数目选了10１个,惩罚系数c默认为1,测试样本和惩罚系数c在这种试验中保持不变、这组试验目得为通过训练样本数量得变化来得到试验成果,即当训练样本得个数发生变化时,找到分类误差和ROＣ曲线相对应得变化规律,并对这种规律进行分析与讨论。下图为仿真试验成果,其中图2、1、1～2、1、3代表选用不一样数目得训练样本时得到得最优分类器,并将测试样本进行分类,其中黑色代表支持向量,蓝色代表对的分类得样本,红色则表达错误分类得样本。从这三幅图中可以看到,在每幅图中均出现一定数量得错误分类得样本,为了衡量错误分类得程度,在试验中引入了分类错误率,分类错误率就就是通过找到分类成果与测试标签之间不一样得个数,然后除以测试标签得数目来计算得到得。出现错误分类得样本得原因就就是试验所选获得样本集中得每个样本均包括4个特征,同步应用这4个特征对样本进行分类,理论上就就是可以将正样本与负样本完全分开得,然而我们在试验中仅仅选用了两个特征对样本进行分类,只运用两个特征,无论使用哪两个,样本得信息均有一定程度得丢失,因此势必存在一定数目得样本错误分类现象,也就就就是会存在一定得错误率。图2、１、1~2、1、3中算出了在特定训练样本数量下得分类错误率,可以看出伴随训练样本数目得增多,误差错误率会减小,这表达伴随训练样本数量得增长,会有更多得特征用于训练分类器,使得分类器相对应得参数越来越精确,分类器得效果越来越好,对应得使得测试样本得分类成果愈加精确,导致分类错误率减小。但就就是伴随训练样本数量增长分类错误率减少得规律不就就是绝对得,只能说这就就是一种趋势。图2、１、1训练样本数为４01个时测试样本分类成果(错误率为０、25７４)图2、1、2训练样本数为1001个时测试样本分类成果(错误率为０、247５)图２、1、3训练样本数为个时测试样本分类成果(错误率为０、22７７)图2、１、４训练样本数量与分类误差曲线(横坐标:训练样本数量,纵坐标:分类误差)如图2、1、4表达训练样本数量在4０1~29０１之间变化时得分类误差曲线,其中横坐标表达训练样本数量,纵坐标代表测试样本分类错误率。从这幅图中看到,当训练样本数量增长时,测试样本分类错误率得大体走向就就是减少得,当训练样本数量为400～10００时,分类错误率不变,训练样本数量为１000~1500时,分类错误率成下降走势,但就就是当训练样本数量继续增长直到20０0个时,此时分类错误率却就就是逐渐增长得,接着保持不变直到训练样本数量变为2500时,接着才又逐渐下降。出现这种现象就就是合理得,伴随训练样本得增多,应用到训练分类器上得特征也伴随增多,对应得信息也会增多,在这些新增长得特征中,当这些特征和原有得特征相似时,此时会遵照本来得分类错误率得走势继续变化,而图２、１、５训练样本数为401个时ROC曲线(曲线面积为:0、7８３5)图２、1、６训练样本数为1001个时ROC曲线(曲线面积为:0、7８8６)图2、1、7训练样本数为20０1个时RＯＣ曲线(曲线面积为:0、7８94)图2、１、８训练样本数量与RＯC曲线面积(横坐标:训练样本数量,纵坐标:ROC曲线面积)当新增长得信息和原有特征相差较大时,就也许存在着与本来得分类错误率得走势完全相反得走势,这时也就也许出现错误率反倒增长得现象,这个曲线只就就是相对得,就就是与训练样本得选用方式有很大得关系得,但就就是训练样本得数量与测试样本分类错误率得总体规律就就是:伴随训练样本数目得增多,测试样本得分类错误率将减少。图2、１、５~2、1、７表达得就就是图2、1、1~2、1、3所示得三种状况下对测试样本进行分类得到得RＯC曲线,ROC曲线波及FPR与ＴPR两个指标,FＰＲ即负例预测错误得数量与所有负例得比值,也叫错误率,反应模型得特异性;TPＲ即正例预测对的得数量与所有正例得比值,也叫命中率,反应模型得敏捷度。ROC曲线以误检率为X轴,以检出率为Y轴,描绘了模型输出得收益和代价之间得关系。为了衡量不一样训练样本得基础上得到得RＯC曲线得效果,我们引入曲线下面积,曲线下面积越大,分类精确性越高。在ＲOＣ曲线上,最靠近坐标图左上方得点为敏感性和特异性均较高得临界值。由这三幅图可以看出,伴随训练样本得增多,ROC曲线下面积增多,及分类精确性有所提高,这就就是由于训练样本数目太少时,会出现过学习现象,简单理解就就就是训练样本得到得输出和期望输出基本一致,但就就是测试样本输出和测试样本得期望输出相差却很大。为了得到一致假设而使假设变得过度复杂称为过拟合。由于使用过少得训练样本产生了一种过拟合得分类器,这个分类器可以百分之百得对的分类样本数据,也就就就是说再拿样本中得样本来给她,她绝对不会分错,但也就为了可以对样本完全对的得分类,使得她得构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不一样得测试样本她全都认为不属于这个类别。这就使得对的分类训练样本得规定变得十分严格,使得分类精确性减少。伴随训练样本数量得增长,使得分类器过拟合得现象有所变化,使得分类精确性有所提高,对应得RＯC曲线下面积也会有所增大。但就就是也不表达训练样本得数量越多越好,当训练样本增长到一定得数目时,若再增长训练样本,将会出现欠学习现象。由于数据自身展现二次型,故用一条二次曲线拟合会更好。但一般得算法只提供线性方程供拟合之用,当训练样本得数目不就就是诸多时,线性方程还可以将这些样本进行拟合,而当训练样本增长到一定程度时,此时线性拟合得误差就会过大,这就产生拟合局限性即“欠拟合”现象,从而在分类时要导致偏差,导致分类得精确性减少,对应到图2、1、8中则体现为RＯC曲线下面积下降。2、2基于径向基函数得试验仿真成果在这部分试验中,选择得核函数就就是径向基核函数,在此基础上,首先选择不一样数量得训练样本,得到对应得最优分类器,再对固定数量得测试样本进行分类,此时得惩罚系数c和径向基核函数中得参数ｓiｇmａ保持默认不变,此时给出分类成果和对应得ROＣ曲线,以及相对应得分类误差,然后对所得得试验成果进行分析讨论;另一部分就就是保持训练样本和测试样本数量不变,线性核函数不变,此时变化惩罚系数c和径向基核函数中得参数sｉgｍa,得到分类成果、RＯC曲线以及分类误差,分析惩罚参数c得变化以及径向基核函数中得参数ｓigｍa变化时对试验成果得影响,并通过交叉验证算法得到最优惩罚系数c与径向基核函数中得参数ｓｉgma。[１］训练样本数量对试验成果得影响图2、２、1训练样本数为401个时测试样本分类成果(错误率为0、1６83)图２、2、2训练样本数为1０01个时测试样本分类成果(错误率为0、1584)图2、2、3训练样本数为2０01个时测试样本分类成果(错误率为0、１58４)图２、２、4训练样本数量与分类误差曲线(横坐标:训练样本数量,纵坐标:分类误差)在这部分试验中,使用得试验参数及数据均与基于线性核函数得试验得第一部分使用得一致,新增长得一种参数便就就是径向基核函数中得参数siｇma。在这部分试验中使径向基核函数中得参数sigma保持不变,虽然用默认值１、这组试验目得为通过训练样本数量得变化来得到试验成果,即当训练样本得个数发生变化时,找到分类误差和ＲOC曲线相对应得变化规律,并对这种规律进行分析与讨论。上图为仿真试验成果,其中图2、２、1~2、２、３代表选用不一样数目得训练样本时得到得最优分类器,并将测试样本进行分类,其中黑色代表支持向量,蓝色代表对的分类得样本,红色图２、2、5训练样本数为4０1个时RＯC曲线(曲线面积为:0、88０8)图2、2、6训练样本数为10０1个时ROC曲线(曲线面积为:0、8882)图２、2、7训练样本数为２00１个时ROC曲线(曲线面积为:０、８773)图２、2、8训练样本数量与RＯC曲线面积(横坐标:训练样本数量,纵坐标:ＲＯC曲线面积)则表达错误分类得样本。图２、2、4表达训练样本数量在401~２９0１之间变化时得分类误差曲线,其中横坐标表达训练样本数量,纵坐标代表测试样本分类错误率。图2、2、5~２、2、７表达得就就是图2、２、１~2、2、３所示得三种状况下对测试样本进行分类得到得ROC曲线,图２、2、8反应了训练样本数量与ROC曲线下面积之间得关系。出现这些成果得原因在第一节已经有了详细得分析与讨论,此处便不再做赘述。将这一部分得试验成果与第一节中对应得试验部分得试验仿真成果进行比较,可以看出无论就就是测试样本分类错误率还就就是ROＣ曲线下面积均比基于线性核函数得效果好,也就就就是说相对于基于线性核函数得ＳVＭ对测试样本得分类,基于径向基函数得ＳVM对测试样本得分类效果更好。由前面得理论知识懂得,应用核函数首先就就是为了更好地拟合,由于数据自身展现二次型,故用一条二次曲线拟合会更好。所谓径向基函数,就就就是某种沿径向对称得标量函数。一般定义为空间中任一点到某一中心之间欧氏距离得单调函数,其作用往往就就是局部得,即当这点远离中心点时函数取值很小。最常用得径向基函数就就是高斯核函数。径向基函数可以实现非线性映射,线性核函数可以证明就就是她得一种特例,数据自身得二次型得特点使得在诸多状况下使用线性核函数得SVM并不能使测试样本可分,样例也许存在线性不可分得状况,而将特征映射到高维空间后,往往就可分了。因此在诸多状况下使用径向基函数得SＶM会使得训练样本得效果好于线性核函数得ＳＶM,对应于试验成果便就就是基于径向基函数得分类器对测试样本分类得错误率与ROＣ曲线下面积得值要高于基于线性核函数得对应得试验成果。［２]径向基函数参数sｉgｍa与惩罚系数ｃ对试验成果得影响核函数确定了数据在映射到高维空间之后得分布形态,核函数参数sｉｇma判定了特征空间中向量间归一化得欧氏距离,siｇma得选择与学习样本输入空间得范围或宽度有关,输入空间范围越大,则sigma取值越大,反之越小。惩罚系数ｃ就就是模型复杂度和训练错误率之间得折中,在建模过程中,无法得到推广能力估计值与这些参数得显示体现关系,且变化不持续。可采用基于启发式得交叉验证法得到最优值。交叉验证就就是一种用来评价一种记录分析得成果就就与否可以推广到一种独立得数据集上得技术。重要用于预测,即想要估计一种预测模型得实际应用中得精确度。她就就是一种HYＰERLINK""＼o"记录学＂记录学上将ＨYPERLINＫ""＼o"数据"数据HＹＰＥRLINK""＼o"样本"样本HＹPERLINK""＼o"集合划分"切割成较小子集得实用措施。于就就是可以先在一种子集上做分析,而其她子集则用来做后续对此分析得确认及验证。一种交叉验证将样本数据集提成两个互补得子集,一种子集用于训练(分类器或模型)称为训练集;另一种子集用于验证(分类器或模型得)分析得有效性称为测试集。运用测试集来测试训练得到得分类器或模型,以此作为分类器或模型得性能指标。得到高度预测精确度和低得预测误差,就就是研究得期望。为了减少交叉验证成果得可变性,对一种样本数据集进行多次不一样得划分,得到不一样得互补子集,进行多次交叉验证。取多次验证得平均值作为验证成果。在给定得建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立得模型进行预报,并求这小部分样本得预报误差,记录她们得平方和。这个过程一直进行,直到所有得样本都被预报了一次并且仅被预报一次。本次试验中选择得交叉验证算法就就是k-fｏld交叉验证。她得过程就就是:初始采样提成k个子样本,一种单独得子样本被保留作为验证模型得数据,其她得k－１个样本用来训练。交叉验证反复ｋ次,每个子样本验证一次,平均k次得成果或者使用其她结合方式,最终得到一种单一估测。这个措施得长处在于同步反复运用随机产生得子样本进行训练和验证,每次得成果验证一次,试验中使用得就就是最常用得1０次交叉验证。通过交叉验证算法得到分类器得径向基函数参数siｇｍa得最优值为1、3５６5,惩罚系数得最优值为５、5５５5。在这组最优参数下得试验仿真成果如图2、2、9所示(此时得训练样本数目为100１个,测试样本数目101个)。由试验成果可以看出,在训练样本和测试样本得数量保持不变得前提下,选用最优参数时得到得试验成果与这一节第一部分就就是试验成果进行对比,选用最优参数时得试验成果很好。当保持径向基函数参数ｓigma不变,变化惩罚参数c时,可以看到试验成果如图2、2、10(a)与(b)所示,此时得ＲOＣ曲线下面积均比图2、2、9所示得ROC曲线下面积小,也就就就是说对测试样本得分类精度不如最优参数下得精度。由于测试样本中也许存在某些离群点(也许就就是噪声),假如这些离群点存在于另一种类中,导致样图2、2、9参数最优时ROC曲线(曲线面积为:0、８９33)C变为1时ＲOC曲线(曲线面积为:０、8855)C变为15时ＲOC曲线(曲线面积为:0、８9２5)sｉｇma变为0、3５65时ＲＯC曲线(曲线面积为:0、8286)sigｍa变为3、３56５时ROC曲线(曲线面积为:0、8749)图2、２、10参数变化时RＯC曲线本变得不可分。为了处理这一问题,我们引入了松弛变量,目得就就是容许这些点位于对方得区域中。离散点越多,目的函数值就越大,而我们规定得就就是尽量小得目的函数值,惩罚系数c就就是表达这些离散点得权重,此时就需要调整惩罚系数c来得到目的。若c过大,则此时离散点占得比重增多,使得处在对方区域中得样本数量增多

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年机器学习大作业

文档简介

温馨提示

最新文档

评论

2025年机器学习大作业

文档简介

温馨提示

最新文档

评论

相关文档