一种新的优化机制:Rain.docx_第1页
一种新的优化机制:Rain.docx_第2页
一种新的优化机制:Rain.docx_第3页
一种新的优化机制:Rain.docx_第4页
一种新的优化机制:Rain.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卜计算机科学COMPUTERSCIENCEvwwvjjgoc.ocrnDC®3!O.1iagj<x2D11G0CB2一种新的优化机制Tfemm刘华玲皮常鹏刘梦瑶汤新上海对外经贸大学统计与信息学院上海2D160OLHSLi3&GcL摘要在机器学习领域传统模型的损失函数为凸函数故具有全局最优解通过传统的梯度下降算法可以求得最优解.但在深度学习领域由于模型函数的隐式表达及同层神经元的可交换性其损失函数为非凸函数传统的梯度下降算法无法求得最优解吏是较为先进的SGDM45SC电由月MAQ等优化算法也无法逃脱局部最优解的局限性靠收敛速度上虽然己经有很大的提升但仍不能满足现实需求.现

2、有的-系列优化算法都是针对己有优化算法的缺陷或局限性进行改进优化效果有些许提升如对于不同数据集的表现不一致文中提出一种新的优化机制该机制结合深度神经网络中的机制并融入到优化算法上得以实现.该机制并不是原有优化算法的改进版而是独立于所有优化算法的第三方机制但可以和所有优化算法搭配使用从而提高其对于数据集的适应性.该机制旨在对模型在训练集上的表现进行优化测试集上的泛化问题并不作为该机制的关注点.文中利用和FM两个模型搭配5种优化算法,分别在Req和Mcgnw两个数据集上进行实验垢果表明顼口入g机制的模型在训练集上的损失函数值明显减小5.收敛速度加快,但其在测试集上的表现与原模型相差无几卸泛化性较差

3、.关键词探度学习就化算法gjafc机制专v机制攻敛速度中图法分类号-TP991bfevCFtimKMxjnMeeHnKn联ainTheIzsErfErctisncfltetEscftBsrditeeMiattfdcfTnsdiTe«>fchEsafJiF<sddticrxTHecjdtinszttSzyiaanbecfcfcTBcHtroLvthB'tEacitijTF4aAeuer-the_fdcfcbDfeEnnr<±crtDlt3BicOtt;nuU.二!iJILl盲ludu住日土.-dicrro匚i)tltziSErrefeGr4tek&a

4、mp;eErrtiDnroonu&c_lErrtizn.Hracftizrrfgecfacfe833rtyftbrrs<3aTctf»nd_tteqdti7sdstian«uan_tt?erroeadGvaToedQdtBrinyitTnsajdnaBSCjDMcfemRMjrcaTTdteacqcettTeslJGtiors.heBkBEnGdti/iTproued4h/SIcErrciLmadt=tteactLnssck.AsBrfescfargcitwr»£t»nritbmsaorrprouGdhRmdonrtjhecfef

5、e±scr-fcTftOTBcf=WhBproJc>_ecyJftrKEtiznsncrtheodtirrnGfiznBTyouedixfcttepoarnTaxecFcWfeQ-tzcHaadtsMHocrfetertTFfcatifepjcpKBesanei/vfoadTeue;THbrredTaTerjsndtLanTprousdx>asfcjncf:ttecHQhdl.Kz.artt»xflycert<madnaTBriinoparcfartzcfHqdt>7wizr)3<trns4oL±JtjGanbeLSBdiacrrti

6、Etia-iwAtieflcjdtBrfcEiiarBtrnstDBTTOweftsacdtcS"ttocttasdts.Utsmodha-fenewrsrtDcidtwrfeEfttepEHoTraTOExfthBrTcnMonrthEfteisdtllTBrofeianFTtJcfcmcothErteFtf<<-七ndLlt。fcDLS<JRtismacha-fem."TkfcartizfeusGSCbz>OceBrandFM-twz>mooAdtTf>uecjJt>TiEiz>)Gr>imTGrtoacr<&

7、#177;idb&$2awT»-ts<Dn-theFtqceandMoujaneThereskJtsncw-ttrtherrooHIvxAtvthetidtaspar&rnaTOBcrTtttedtsdbfeTcdtttesaTieaEfecrrfmocHbrf«=A=:rr»?=fcF*w-r-ifepaor:KcwjtcfeOtncvtrnadra-fe-n4HrrttkafanOrxopnoBcBsd通信作者我常蹈冬芬1750189盐口erm机器学习<Mad-re对能通过自动改进的计算机算法的研究13:1姻俗来讲毗计算机从数据中进

8、行自动学习制到某种知识(或规律-在最早期几器学习被称为模式识别直到2。世纪5。年末,'机器学习二词才被提出来.随着机器学习技术的应用越来e)nj80201004060epochuzalo-al-022£2OSGD今A<hmOAdnm*Rjun个RMSprop9RMSpropRain。AdagradOAdagrad*R>inOSGD*RainOSGDMOSGDMg20S04060epoch100-SqaB_FM_'Trs»Lx3HFi图5FM模型在Rv©上的训练集损失曲线及损失值减小量曲线F.5TraHrRsdtfcEEOLieanciF

9、MrrocHIonRarefi«%-rtroL*«a70£a504a302al2-EM。AdamOAdam,Ruin。RMSprop9RMSprop4Ruin。Ad&grad0AdarAdRainOSGD0SGD*IUinOSGDMSGDMRAMactivate(Rain)1003QK's'y。Adam0AdamRain-9-RMSprop9RMSprop,RainOAdagrnd0A(Uftnid*RAinOSGD0SGD»RninOSGDM。SGDMMm100图6峰>6巨模型在日林口上的训练集损失曲线及损失值减小由曲线F

10、.6Ir-w-gsdttHscrj-eaTdfcHsx-erecLdfcnoLrecf3!rrooHIonFtqce表3gRS数据集上优化模型的性能对比F2fe3GtrrpjHHcy-icfcyJtwrKdmocHperfo-mEroBcnc±±asdt.on位必优化器FMxmciL:XOVLt:KJDVJCAzfem+Ftwn91.1C8420.260687.605735.3728SD.5BD48.8615RM9cp>+F-i2D.lienQD.SGB99B.K691.QB19QD.QBQ5SD/2777.3SB1SD.7775R.0D1577.906585.SG6

11、6"Z2.1CBOSGD+R»iB.ZZ347.517.5182.CEB8se.1589R.81SGDM+FH6isax布.919157.370320.9339-K3D.CCOOSD.SE27平均布.'Z329明.05442.3332.8D.571895.63J786.5068值得注意的是在两个数据集上原模型的训练损失曲线和损失值减小量曲线都是光滑的如加入8机制模型的两种曲线都是震荡的出不过在Mcgo数据集上震荡较小.在斤宥祚数据集上震荡较大-对于这种现象Jk文未做更深入的研究-表4列出了优化模型在测试集上的RM壬以看出加入行机制的模型和原模型的测试集效果相差不大&

12、#39;说明加入M机制并不能很好地解决泛化性的问题-如何解决21机制的泛化性问题是后续研究的重点-表4优化模型测试集的RMSETzfcARMcFthBcydAviaBdmo(±fl1c£bj9el=.MoufeLongcptinccZctem,.一,整0.2222fVW0.1814L-4JL|_V-*Uek>0.2841nvr0.2411Acfem+FH0.2135O.1S750.2944O.2M9RMS=¥c|:0.22460.1844O.2B370.2492RMSR>+Fi0.2219O.19D80.28350.280.23350.1006O.29

13、B2o.aesZk±t?xi+Rjr'i0.22320.18280.28430.2455SGD0.26770.21140.32700.25779GD+F->0.23060.19160.29720.2605SGDMO.3JB20.20540.332402538SCX2>M+Fi0.26260.23270.29380.2527结束语加入做人机制的模型靠训练集上损失函数的收敛速度大大加快并旦收敛值更小但是该结果是通过增加子模型的数虽来获得的因此其参数数量成比例的增长优化的时间复杂度也成比例的增长.如何平衡时空复杂度和损失函数值下降速度成为了非常重要的问题木文未对该问题做

14、进一步探讨-但从实验结果上看怀实验在机制的基础上初始化了5个子模型帝25个qxxK就达到了原模型10O1、中h的效果贞然看似这种牺牲时空复杂度换取的损失函数值下降速度的措施是并不值得的如是加入机制的模型在最低损失函数值上远低于原模型从损失值减小量曲线中可以看出损失值的进一步降低并不是靠训练时间就可以获得的封此机制在最低损失值上的表现是不可比拟的-从多个模型、数据集、优化算法上的实验可以看出机制具有强大的可移植性_通过实验可以发现-些问题这也为未来研究指明了方向-G>11何平衡时空复杂度和损失函数值下降速度的问题-机制的优化效果显著如泛化能力不强加何提升其泛化能力成为了亟需解决的问题.数据

15、集上功口入机制后刀同的模型、优化器组合都出现损失值下降振幅过大的问题初步猜想是由于Eg数据集异常值过多的原因俱体原因需要进一步研究.若确实是由于数据异常值过多但在原模型中却未出现该现象是否可将加入寻机制的模型作为判断数据集优良的一个标准可做进一步思考-。为入M机制的模型在两个数据集上都出现了损失曲线震荡现象但原模型的损失仙线却是光滑的该现象的具体原因需要进一步探讨.前M机制采用的是固定时间间隔召集分派的方法在召集的过程中直接略过了很大的参数群考虑是否可以采用逐步靠近的方法从而尽可能降低直接略过较优参数组合的可能性-前机制完全依赖模型中Ocjncuii机制的随机性世J了提高8机制的泛化性是否可以

16、弥补这一缺陷也值得思考.参考文献E3MITCHELl-rOMM.MedHrterw;CmZIMcOxa-Oi*TSO7.员S»_XRD4HUANGAJADCEONC.MatoitheTecv<aticbona_rsdlndtwzt+sa-citreeseacKLil3D16,.t££Xzd87z®Q®0._B3HUANGY4JUDYJHUANGK氏m.CXofe/v6ate口JGAAI"Timoi2019iS>ca9.&CSUYP.ndfcOTtaTdcta3feariWK/nMEd-wneWsE-aZED.&am

17、p;DAUPH1MYPASCANURZ3ULCEHREC<mje<c|dt>TKtkjnLjJAzLaoesSNsltsJS-fcTTEtiaFcGass»ribems2D1427.&LEQVJMC3ZM7IJODZTACHcjdfrriiyirreitocfefc-ch>femnrfc3SarxiKrElCtrfeoTaso»MarHreLeaTTrg.2D11.已JRUDERS.Anou»xcwcscfocfemEr-tLCflvrKEticr-irabrnUzQaDIG.felYOU90FFSNMSAHARTJAwAEDULL

18、AHA.Arfewcnt»rwmdttxadi-iW«dldlajIOTFEMBSCtrfroxeonEfcrrecfcrfrrxyi-.andStiyoeB2D17.FLETCHERR.rrtHocfccrKlirijiQlUjLrrrfcF"theFtseack-iSncrlvSDV33376OlJNOUzOALJ.Utxrjpr<4UBd3netA*onmriassfc-rftadcFCtrrpMti>n-H9BD35C1517Z3S782-SBlJGOYALPDOLLARPO=KHK2KR土4.ftr-errw-irfdnlntTrg;iTDn

19、dtin1Hxr-CIQAJt5.CE6772DT7.一s-sEz3I_C6HCH1_OVIHUTTERF.ScFStadrifcracfetsasrtvUttivamredtatsEO/I-tomrfDjbHtCtrfeenaecyiZrtgLfclf,rt3B.2316.DUCHIJJdZZANELINGERY.AMs-tacfe-trrttG<Mad-reLsarwFtseatiSDII1443TE-EMANTJ-UhTTONG.LtkIuo6.33172,arcr»Trgcfitsmos-trrEAi-cfeloHCOURSERAMarircsLfiar.2312.ZH

20、LERDM.IdterrEtizrEiJtS-tCtrferoecnA*giIltL_pur2312.G61G®XNN.Orttnenxxna-tLrnlrninacfe-tLctesaa-tLfearw目gTtTYsQlNaHhfetwJSGOJ2<3)=1432151.B"71h'STEROV'iK.trt±ftktjcfefcjrmh/tetbenMFRaarrr»;2D134<Xd>125561.B81SLrra<EVERIARTEMSJJDAHLGOvttvsirpoQlaoscfv-dKfcEikyan

21、dmcmaLmch2>feainrg(c3KStorstBsndCty-ftoxKscnMacHroLxjErrnr.2D13.felRAS3ANURMXOLOVT£EN(3DY.c«kx>vbtcrrfcrrfCtrfecmeonMatf-wTeLaaTTrg;.2D13.K1NGMADZtfen4rr或cjU后dtod匚-JDJsrz=Mn2.eeBD2D14.21RH3CT:SJJ<ALES4<UMARS.OvttoocrxroDcfefanaTJbecndEiFxaoHedrjcftheS-torijTdlCtrfeoToecnLaarnrg

22、F»®HEy-tUon6.2D19.fellLJJOl_>»DNGY4JHJYetlsafetrrtftrxfeaA£icAnarfchoLTTdcffeaTTrrteRxjaaHciTcFtteliGtonrfizrCtj-feonoecnLear>->3EFresBiz>nB.aD19.&33ZHANGMR4JJQASUJH1NTONGtsdi.LochedcfJtvnGJjbacRlCLJRxMJHecFxcfltTBNacrLBJl_JZXNGHJHEPL.OmhevawT®cFttTeacM»

23、«efeErrwtstesrcibcnd(C3FRaoaacS-cFtteHarrtizrElfelRUMQ_HARTDEHBSTTONGEA/VM_UAMSRJ.Ltw-rrteBETtijnBbecK<y<yr>orosLLlIbLre-1966.felHW4TONGES=®v7XSEAVANJ<F1ZHEVSKYAchtedtosCllCtnxvtoOTae2D123。212223.&7JFEMDLJESFrfcrtofcnrrerW-esEO/TFFFXt»rx3tk>-dCtrisrenaBO-i.felSHANY4

24、4OENSTRJAOCocra»-g;=VVdd&=femoo®v>Jttcx±irrerAoifedcrTrtiTEtoia-fedti-tsIC-!22hidADMSK3KEDJrtBvxCt>feo&.2D16.1291XIAOH4HEX<1函1=二LfiwHrxttevMe%4ticrTfeaL>eidadtKinBv»ndtGMoi>sE0/26*X*torB7JtA-tCtrfeenaeonZMKziKslijinae.23T7.OLJLJILtGlirief'kiBri«-i1

25、964-4=h.Dx<GfeaaorUs-rriresaatdbiiteredts»i3dLcfeo<cv_oidtadtfc>ncHarnHrg-andK&tel_fru«JL4ilLM|_ptirrvyiG、/FlCltr低Rig43cmin1906q曳cL.l-fcrasaacKit&edtsdximscHhefaarvjzfaqoIgaTnrg;andssTTadfcraacQTMan.&i6fearv-<=itad-EdiDcrtBinEdkv-iIjZljbLrrrfcf越广模式识别己经逐渐被机器学习这一概念所替代

26、.深度学习是机器学习发展过程中的一个分支由于具有强大的非线性拟合能力其开始慢慢演化为一个新的研究领域.深度学习在发展中也经过了儿次比较大的发展浪潮815年,使用深度学习方法在围棋比赛中击败了欧洲围棋冠军财J1I此深度学习的影响更加广泛_比较机器学习和深度学习方法哪种更好是没有意义的,因为两种方法看待问题的角度是不同的.机器学习很少进行特征变换或只能依靠上游处理来进行特征的变换3业就是说它的模型训练和特征变换是独立的并旦特征变换往往需要手动解决对先验知识依赖程度很大.深度学习通过其网络结构来执行端到端曰PR勺学习网络自动学习特征变换并旦这种特征变换往往是深度的ME线性的其面临的问题变为如何设计一

27、个好的网络结构.从手动特征变换到设计网络结构是机器学习到深度学习看待问题角度的变化.深度学习基于其非线性拟合特性具有非常强的表达能力但是将深度学习应用到机器学习领域仍然面临着一些难题怎些问题主要分为两大类耽化问题和泛化问题四-本文主要讨论优化问题-常用的损失函数为QGI损失函数、平方损失函数和交叉嫡损失函数.在机器学习中平方损失函数和交叉炳损失函数是凸函数CEI损失函数由于不可微固此也常常由平方损失函数和交叉燔损失函数所替代-常用LJ和L2正则项是仿射函数也是凸函数.为了充分利用凸优化中一些成熟高效的优化方法很多机器学习方法都倾向于选择合适的模型和损失函数#以构造一个凸函数作为优化目标即_在机

28、器学习中最简单和常用的算法是梯度下降方法借助凸函数的特性以优化问题能得到很好的解决一深度学习的优化问题是非常复杂的.首先由于模型函数的隐式表达及同层神经元的可交换性其损失函数为非凸函数找到全局最优解很困难.其次应于参数规模、训练数据数量巨大无法使用计算代价很高的二阶优化方法而-阶优化方法训练效率又很低.最后深度学习存在梯度消失和梯度爆炸的问题导致基于梯度的优化方法经常失效在低维参数空间中非凸优化问题的主要难点是如何选择初始化参数和逃离局部最优解在高维参数空间中非凸优化的难点在玄夕I何酒离鞍点通过在梯携方向须入机性可以有致地逃离鞍出面-针对深度学习优化I可成盐要的经验性改善方法有使用更有效的优化

29、方法吏用好的参数初始化方法和通过数据预处理方法、修改网络结构来得到更好的优BdLTcf2'-传统的梯度下降E算法*每个参数的学习率都设为-样的初始值并且参数更新时对应的学习率并不更新这种方法不能考虑到参数的特殊性因而造成损失函数收敛速度慢.心算法是一种自适应学习率的方法拄参数更新时它给予每个参数不同的学习率该给予方式是基于其偏导数累积值决定的.由于参数偏导数累积值随着时间累枳到很高时该参数学习率接近于。成而该参数不能进行学习更新.深度学习网络损失函数也不能收敛该问题被称为学习率的早衰减问题-为了解决心E算法中学习率的早衰减问题被提出来将算法中偏导数累积方式变成了指数衰减移动平均方式有效

30、解决了学习率的早衰减问题-同样是针对心Xd算法中学习率的早衰减问题A:比4由不仅采用了指数衰减移动平均而且考虑参数的平方值以完全摆脱学习率可根据历史参数更新数据和当前计算的梯度来更新参数是在梯度下降算法上引入了一阶动量因子对某个参数与当前的梯度方向和最近一段时间内的梯度方向是否一致起到参数更新幅度增大、减小的作用.使参数更新更加稳定-A町迥算法将RKG§十和动量因子结合起来卷合考虑到了学习率调整和梯度估计修正两种优化方式快速训练的特性使其成为了许多深度学习框架的默认优化方法文献巨寸心m算法进行了强烈抨击指责其存在可能不收敛和可能收敛到次优解两个问题才对其缺陷进行修正眺出了AMSXd算

31、法一上述自适应算法都是比较主流的优化算法它们有两个相同的特点在训练开始时收敛很快泛化性不够好.而传统的梯度下降算法和SGDM虽然收敛速度比较慢但其泛化性很好.为了解决这个问题和AMSdrc/50被提出宅们分别是Azfan和的变体-这两个变体在Azfan和AMSOad算法的学习率上使用动态边界歹T以看成训练升始时的自适应方法随着时间平稳地转换为SGDM这样能保证正的方法有二AzfemS七七七AMS2化地形等-本文主要介绍优化方法-深度学习中对于不同的数据与模型最适合的优化方法是不同的曰-常用的优化方法又可以分为两类h阶优化方法和二阶优化方法二阶优化方法考虑了损失函数的二阶导数信息训练效率更高如牛

32、顿法、共钮梯度法算法囹山3EFGS算法03等以随机梯度下降有更快的收敛速度曰-由于深度学习中参数数量、训练数据数量巨大耽法使用计算代价很高的二阶优化方法经常会使用计算代价较低的一阶优化方法.常用的一阶优化方法都是在梯度下降方法上进行改进JT以分为3类n潮整学习率吏得优化更稳定了2)梯度估计修正尤化训练速度合学习率调整和梯度估计修正保证优化的稳定性和快速性.调整学习率的方法主要有二学习率衰减、学习率预热13口、周期性学习率调整口以及一些自适应调整学习率的方法田只MAkj'出问-梯度修正的方法主要包括响、cz加速梯度13力、梯度截断13企等-组合学习率调整和梯度修训练开始时速度较快训练结束

33、时泛化能力较好-LegGSr/E在不改变优化器的基础上。用两套权重进行参数更新攻验表明我算法具有很好的优化效果-%敞湘使用学习率预热13口的方法来解决Aztar,容易收敛到局部最优解的问题司时前期采用SGDM算法进行训练-上述所有的优化算法都有一个共同的特点针对先前的优化算法的缺陷或局限性进行改进.本文提出了一种新的优化机制心打破算法改进的传统顼&过建立第三方机制.配合原有的优化算法进行优化训练.该机制避开了深度神经网络中一阶优化和二阶优化方法直接改进的优化思路选择一种优化器随机初始化若干组模型参数组合子模型利用深度神经网络中gxzit机制的随机性间隔一段时间进行召集分派搜索-本文利用

34、和FM两个模型罪配5种优化算法分别在日8。和Mc&qw两个数据集上进行实验盘果表明功口入机制的模型在训练集上的损失函数值明显减小且收敛速度加快但其在测试集上的表现与原模型相差无几出II泛化性较差-本文的主要创新和贡献有以下几点-G为往的优化算法的改进都是针对先前某个优化算法的缺陷或局限性进行改进-本文提出的口!机制是一个独立于所有优化算法的第三方机制它可以与所有优化算法搭配使用眺高了对数据集的适用性-。规过实验问以发现该机制的优化效果明显提升北对于两个模型5个优化算法都有很强的迁移性-M过对主流优化算法研究思路的梳理虢出建立第三方机制的想法为广大研充者提供了研究新思路-2深度学习常用优

35、化算法自适应调整学习率就是针对每个参数设置不同的学习率使每个参数都以合适的学习率收敛到稳定值.随机梯度下降方法中每次迭代的梯度估计方向和整个训练集上的最优梯度方向并不一致具有一定的随机性可通过梯度的修正来提高优化速度-实践中常用的优化算法有梯度下降E0OGDM节对这些算法进行详细的讨论_2.1梯度下降深度学习的优化问题是使目标函数式G*到最小其中N是样本数目d表示样本序号猊每个样本关于参数0的损失值淀总体样本损失值.算目漏嬲碱隅嘛践臆嫩翻臆髀降法、批最梯度下降法.2.1.1标准梯度下降法标准梯度下降是每次参数更新都要计算所有样本的损失值如式=所示-因为每次都向最优的方向更新参数所以收敛速度快.

36、但因为每次更新需要计算整个数据集的损失,对于一段时间内梯度的加权平均值对某个参数当前的梯度方向和最近一段时间内的梯度方向不一致时其真实的参数更新幅度会变小相反当两者梯度方向一致时其其实的参数更新幅度会变大起到加速作用.一般而击在迭代初期两者梯度方向一致动量起到了加速作用加快了收敛速度.但在迭代后期因为随机性等因素两者梯度方向不一致参数会在收敛值附近震荡此时动量可以起到减速的作用增加秘定性-ru=i7Trit-iqVLq_i,=ot+mmo=O其中表示动量因子顼a常设为o.q-2.3/VtClrrl在梯度下降算法中每个参数每次迭代时都拥有相同的学习率但实际情况为每个参数维度上的收敛情况都不相同,

37、因此需要根据不同参数的收敛情况分别设置.学习率-如式示不心XI算法中Jill果某个参数的偏导数累积比较大其学习率相对较小相反如果其偏导数累积较小其学习率相对较大.但整体是随着迭代次数的增加学习率逐渐缩小-心XI算法的缺点是若经过一定次数的迭代依然没有找到最优由于这时的学习率已经非常小很难再继续找到最优点-1j=>1一、乏c信C>j=°其中V.LOt-.表示第L-1次迭代的损失值对参数S的梯度包与义表示第t次迭代时参数们的值二n表示初始学习率$是为了保持数值稳定性而设置的非常小的大数据集义是不可接受的”计算起来非常慢-常数广般取值为。强蛆一化_Ol=Ol_i其中F表示学习率

38、土表示迭代次数序号,V.L示次于0的梯度一2.1.2随机梯度下降法与标准梯度下降法不同的是随机梯度下降法每次只输入一个样本值计算损失值与梯度世行参数更新项11式有示.虽然其计算效率得到了很大的提升但因为每次参数更新不一定沿者最优的方向进行所以其收敛速度会比较慢.0t=0L_|-n灭。引。<3>2.1.3批量梯度下降法批量梯度下降法综合了标准梯度F降法和随机梯度下降法的优点每次只利用一小批样本即对多个样本进行梯度下降计算力I式。有示一这样一方面可以降低参数更新时的方差收敛更稳定坊一方面可以充分利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算-01=011-。V,L<U,

39、_n<4->2.2S3DM是在梯度卜.降法的基础上引入了动量5如式示-每个参数的实际更新差值取决最近2.4针对心XI算法中学习率在不断下降以至于出现过早衰减难以继续找到最优点的I'可题研究者们提出了RMG算法也是一种自适应学习率方法项II式O胡i示-gj-i=)V】=aV._1J+6a一1QFlJ=0u-14-10-1j6=o九+£vbt其中皿是衰减率h般取值为0.9-从式AN可以看出算法和算法的区别在于将V,的计算由累积方式变成了指数衰减移动平均.在迭代的过程中每个参数的学习率并不是呈衰减趋势既可以变小也可以变大-2.5 AimAzfan算法综合了算法和动量。余

40、了像RM3AP-样储存过去梯度平方的指数衰减平均值外也储存了像动量一样的过去梯度的指数衰减平均值如式Oi示-国T】=V(1.L<Ot_1>VU=aVl-1】+Ga2)-1Q<>,+一8«-ii但泛化能力却大大减弱.针对这两个问题似乎损失函数值1-aiAti_rrv1-PVbw=OJTlOj=O速度更低的损失函数值对于训练集上的泛化问题未作更多的考虑-常用的优化算法建过随机初始不考虑预训练-个模型参数组合来迭代搜索最优的参数配置组合使得损失函数值达到最小.但同时存在一些问题在参数空间内极易遇到局部最小值点或鞍点从而导致损失函数值下降速度变慢和陷入局部最优解.为了

41、加快损失函数值下降速度并逃离局部最优解怀文提出了一种新的机制机制_F机2>fcjEBrtLrEE.其中Qflip分别为两个指数移动平均的衰减率航常取值为3EkcjRjuL机制在机器学习中常常会因为参数过多训练样本数据过少而出现过拟合现象.而在深度学习中参数规模数以万计如此大的参数规模很容易造成过拟合现象若只是简申地减小参数规模模型训练的效果会差强人意.解决过拟合问题的方法;一般采用模型集成但同时该方法会非常耗时.因此建I对深度学习中的过拟合问题J-frfcnf2O12fr提出了机制该机制同时也是集成模型的一个典型范例龙很好地解决了集成模型费时的问题-该机制通过引入超参数P进行运作该参数代

42、表着CVcgk率41其在模型训练阶段和测试阶段有着不同的具体含义.如图1所示在模型训练时超参数P表示该层的每个神经元以P概率和下一层神经元进行连接没有被选中进行连接的神经元失活而在模型测试时超参数P表示该层的每个神经元的权重乘P传输到下一层神经元中.值得注意的是每一轮训练每一神经元是以概率P被随机选择的上一轮训练失活的神经元本轮训练仍可以被激活.本文提出的机制HE是借助于gaocti机制的随机性才得以实现-具体的实现方法见第4节-模型训练时3殳型测试时图1机制训练测试时超参数所代表的不同含义F.lDBfeorreBTrpcf=tthvpe»p0snidter-I*cLrwthe4Ig

43、in机制梯度下降SGDM具有良好的泛化能力但其损失函数值下降速度比较慢愤使用的自适应优化算法RM幸哼Afen然收敛速度得到了大幅提升.制的取名是因为它像雨珠一样可以自动流淌到地面的深洼处,通过阳光蒸发又可以重新回到水循环系统中并移动到下一个地点进行降落-gjoct机制的作用是赋予它随机性,若没有gxidt机制韦干了模型参数在经过第一次召集后将无法进行各自不同的更新-机制的主要思想见图2寸莫型表示未开始训练的模型我型13表示训练过程中的子模型我i型表示训练结束的模型.在不改变原始优化方法的基础上随机初始化若干个模型参数组合(T模型让它们分别按照自己的优化方法进行参数搜索在间隔一定的迭代次数时召集

44、所有子模型到损失函数值最低的子模型参数组合处卷合gaodz机制的随机性让它们向不同方向再次搜索循环往复直到达到固定的迭代次数停止.算法步骤如算法1和算法2所示.图2机制训练流程F.2算法MaotfTrn输入立bMoofeirLrrtErsTn=M«n.xnK£*sGtiers*i3ttBrtdi-tiTes输出力nacHIpasndbsts1toN<±>VHaisMoomMaotikA.otHo5c»2i=1lomct>6.-fcr-5=1-tDN<±>7.Lces=Mao«<X/>8.6t*

45、QjtvTKorXxsqIO.g=i%r»=Oa"<dj11.g=atT»-l<i-CES127f&i=11oNct>TS.apctt-i14.F-iSAaoHkIvlacrnS.ancHaTG.ancHa-算法2raH输入补*>Mat±flMaofcft百h*>Ma(±flMcxiJSKcptmto-Qdliitteb-b输出>t-is_k)McxtiiMaomtisJDMaayMocHUtKqdt«TiB-Q±ST»aBrRMooHk-MacHL1. OdtArfco

46、iQdtirSaa5实证5.1数据集在两个公开的数据集和Mcxo上进行实验_gae数据集拥有不同文本下的90333个用户行为日志再了用户R应用卜每个日志还包括8个场景变量如天气城市0ZX时辰采用编码转化每个日志为特征向量h共包含5382个特征一标签为1表示用户在该场景下使用了该应用数据集包含1ROS、用户在23734部电影上个观看评分记录-同样采用编码转化每个观看行为为特征向量广共包含90445个特征标签值为1表示用户对该电影进行了评分-由于这两个数据集都只包含正样本所以需要添加负样本以增强训练效果设定负样本数量是正样本数量的两倍.在数据集上戈们为用户随机选取该场景下没有使用的两个应用乍为负样

47、本3寸于McAfeLow数据集值机选取用户未评分的电影作为负样本-负样本的标签CfeoelRj-1-数据集的具体参数见表_表1数据集参数1=191Ctetasctx»emEtos2EB6CD53B29574C82MouidLxrePTTFiffiRSO445T7CM523TJ35.2评估准则随机将数据集分为训练集验证集C%:X测试集Gc%AM中训练集用丁训练模型措佥证集用来调整超参数并执行早停机制保存最优模型液测试集上比较不同模型的执行效果.对于模型的评价准则我们选用均方根误差更低的RM壬有更好的效果-为了综合评价加入模型和原模型在训练集上的相对收敛效果这里提出了3个指标:2S9CJ

48、GSOCW/ICOCO弟体见式。_25Min1GDALC=1GDALC=XTMiriTOCMui其中Uir衣4。】W94in分别表示加入FH机制模型和原模型在训练集上前25个qK的训练过程中损失值达到的最小值?iin1GCMinICCMin为加入机制模型和原模型在训练集上前105、牛寸达到的最小值_若在心。大于零项U说明在前25个qEn中加入机制模型将优于原模型刀、于零则相反值越大巽型的优势越明显点大值为ICC%当达到1OC%时项说明加入机制模型己经收敛到全局最优解-1CDVI:与解释相同-EGCAGC:大于零项说明加入机制模型前25个中皿到达的最好效果己经优于原模型需要1OO个牛廿所达到的最

49、好效果疝越大一模型的优势越明显很大值为1CCM策明加入g机制模型已经收敛到全局最优解-5.3lifctdio选用FM和两个模型J苔配SODSGDM=月优化方法刎成1O个模型-再在该1。个模型的基础上分别加入机制匕较模型效果一GN-FOL2模型大部分特征的权重缺乏有效的数据进行训练无法收敛且训练复杂度极大增加.为了弥补上述缺陷201(5Fcfe提出fFM127】模型-与FOL2Y2的主要区别是利用两个向量内积取代了单一的权重系数-细节上是FM为每个特征学习了一个相应特征隐向量在进行特征交叉时用两个特征隐向星的内积作为交叉特征的权重.通过引入特征隐向量的方式使训练的复杂度显著降低,同时也更好地解决了数据稀疏性问题-0X3Ocsht;-2016年微软提出的国手至以心模型是深度学习框架在推荐系统上的次完整应用它完整地解决了从特征工程林疏向量稠密化遂层神经网络进行优化目标拟合等一系列深度学习在推荐系统中的应用问题-5.4参数设置FM模型和皮牛6尊模型均采用gjocti机制,gxit率分别为0.3与0.5且模型的mrteDtf维度为2激活函数采用R1_j函数模型模型!11dcpcct机制分别放石:重-taadtfcri121层和隐藏层幻0)6巳模型设定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论