【《依托于摄像头的计算机视觉技术在道路目标检测领域的应用研究国内外文献综述》3600字】_第1页
【《依托于摄像头的计算机视觉技术在道路目标检测领域的应用研究国内外文献综述》3600字】_第2页
【《依托于摄像头的计算机视觉技术在道路目标检测领域的应用研究国内外文献综述》3600字】_第3页
【《依托于摄像头的计算机视觉技术在道路目标检测领域的应用研究国内外文献综述》3600字】_第4页
【《依托于摄像头的计算机视觉技术在道路目标检测领域的应用研究国内外文献综述》3600字】_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE3依托于摄像头的计算机视觉技术在道路目标检测领域的应用研究国内外文献综述1.1无人驾驶研究现状无人驾驶的概念已经有了将近80年的历史,1939年,最早的对于无人驾驶汽车的畅想在当年的世博会被提出[3]。1986年,来自美国的NavLab实验室设计并制造了世界上第一台具有实际价值的无人驾驶车辆。进入21世纪以来,各大商业公司都将目光投向了无人驾驶。特斯拉汽车公司(TeslaMotors)在其量产的电动汽车上配置了无人驾驶模块,其摄像头和传感器预测碰撞的准确率高达76%,而碰撞预防率达到了90%以上。谷歌(Google)公司旗下的Waymo无人驾驶子公司则是目前累计测试里程数最多的公司,截至2019年,完成了2000万英里的累积测试里程。中国国内对于无人驾驶汽车的研究最早可以追溯到2011年,由国防科技大学设计并制造的HQ3无人车完成了具有实际意义的路测。随后,国内的一些高等院校和研究组织也陆续开始了关于无人驾驶技术的研究,如西安交通大学等。到了2013年,百度启动了阿波罗计划,开始加入无人驾驶技术的研究中来。在过去的几年间,小马智行,图森未来等新兴的中国公司也相继加入相关的研发中来。2021年,华为的无人驾驶技术也表现出了长足的进步。1.2深度学习研究现状1943年,MccullochWS[4]等人设计并发表了基于人脑神经突触的计算结构,他们使用阈值逻辑单元去模拟人脑的处理过程。其设计是,类比于人脑神经突触对于刺激的反应,阈值逻辑单元接受输入,当输入高于某一阈值时,单元会给出计算结果,作为对输入的反应。1960年,Kelley[5]等人构思了反向传播(backpropagation)算法,这一算法的核心是计算网络的损失函数对于网络中的权值的梯度并从网络的末尾向开头传递,随后改变网络权重向最小化损失值的方向前进。通过重复这一简单步骤,网络将会逐渐实现可以对于给定的输入给出想要的结果的功能。反向传播算法是神经网络功能实现的数学逻辑基石。1965年,Alexey和Valentin[6]发明了最早的深度学习算法,他们创建了一个多层模型,这一模型包含了激活函数且激活函数的数学形式是多项式。模型在每一层进行统计分析,然后将每一层中经过统计选择的最佳权值传递到下一层。通过这种方式,该模型就将多层的函数整合成立一个“大函数”,并对“大函数”的系数进行调整,使得函数的映射规律可以满足实际任务的需要,这是深度网络的雏形。1979年,FukushimaK[7]创造了一个名为“Neocognitron“的人工神经网络,这个神经网络通过强化策略反复循环训练,得到最佳性能,同时,这个网络也支持手动调整权重。这一网络的提出进一步开拓了神经网络的设计思路。1998年,LeCunY[8]等人在发表的论文中总结了让计算机正确分辨手工书写的数字的各种方法,并将这些方法进行了比较,最终得出卷积神经网络的表现超过了其他方法的结论。他们设计的让计算机正确分辨手工书写的数字的模型叫做LeNet,这一模型的成功激励了人们继续在神经网络上投入热情。千禧年后,深度学习呈现出一种欣欣向荣的态势。大量的与深度学习有关的比赛展开,越来越多的从业人员也积极参加这类比赛并产出了大量的优秀的论文。2014年,图形计算领域的巨头英伟达(Nvidia)公司推出了用于合理分配并行运算资源的CUDA硬件架构和深度学习加速库cuDNN,在软硬件两端都为神经网络的计算节省了大量的时间,为深度学习领域的进步添上了一把火。深度学习有着不同的分支,这些分支涵盖了很多方面,无论是哪一个方面,都是以让计算机像人类一样感知世界为目的的,而本文关注的是让计算机像人类一样用眼睛去看世界的部分,即图像分类和目标检测部分,因此对于其他部分本文不再赘述,而是着重于图像分类和目标检测部分。1.3图像分类及目标检测研究现状1)图像分类研究现状图像分类的任务是依据图像信息,让计算机正确地辨认图像内容,通俗来说就是“看狗是狗,看猫是猫”,关注点仅在于正确分类上,其任务示例如图1-2所示。图STYLEREF1\s12图像分类任务示例2012年,KrizhevskyA等人[9]设计并发表了具有5层结构的AlexNet网络模型,在这个网络中,他们引入了ReLU激活函数,借助了Dropout技巧,减小了模型过拟合风险,同时梯度下降更快。在2012年的ImageNet挑战赛的图像分类领域,即ILSVRC2012上,该模型以16.4%的TOP-5误差率一举。这一成果证明了深度学习网络模型在图像分类这一领域存在着待挖掘的潜力,引发了广大的研究者对于将深度学习应用于图像分类的兴趣。2014年,SimonyanK等人[10]设计并发表了VGG模型,该模型通过反复利用3×3的卷积核和池化层来搭建网络结构。与此同时,网络采用了多粒度表达的思想,这使得VGGNet检测模型拥有不俗的泛化能力,但是由于网络采样的卷积核大小较小,网络很难搭建地更深,这制约了网络模型的检测能力。在ILSVRC2014上,VGGNet取得了榜眼的好成绩。同样是2014年,SzegedyC等人[11]发明了GoogLeNet,这是一个拥有22层深度的网络,这一数值打破了当时网络深度的记录。该网络最引人注意的独创性在于采用了Inception模块,该模块含有含有4个支路,使用了几种不同大小的小卷积核,其结构如图1-3所示。GoogLeNet凭借其优秀的性能,在ILSVRC2014中以6.7%的TOP-5误差率独占鳌头。图STYLEREF1\s13Inception模块示意图2015年,何凯明等人[12]设计并发表了ResNet网络,该模型是ILSVRC2015的魁首。当网络模型的深度来到一定程度时,出现了网络模型的性能反而与网络深度呈现负相关的问题。而ResNet创造了残差连接,解决了这个问题。残差模型如图1-4所示,其核心就是建立了一个前面层到后面层的直接连接,这一做法有益于反向传播,从而减少网络退化出现的几率。该研究的成果对于后来越来越深的网络结构具有重要的意义,它使得更深层次的网络的应用变得更加容易。图STYLEREF1\s14残差模块示意图2)目标检测研究现状在图像分类的基础上,目标检测的要求更进了一步,体现在:一是目标检测不仅要将物体的类别正确识别,还需要将物体在图片上的位置大概划分出来;二是在目标检测任务中,一幅图片上的目标数量是不确定的,往往有不止一个目标,其任务示例如图1-5所示。图STYLEREF1\s15目标检测示例2012年后,由于卷积神经网络的大力发展,研究人员开始探索将卷积神经网络应用于目标检测任务的实现中来。2014年,R.Girshick等人[13]设计并发表了R-CNN网络模型。这一模型时一项创新,与传统的目标检测算法不同的是,在提取特征时不需要人为地进行一系列设计,而是将这一繁杂的操作交给了神经网络。R-CNN的检测能力也被实验证明相对于传统算法有了一个较大的提升。2015年,R.Girshick[14]又借鉴了何凯明等人[15]提出的SPP-Net中的设计思路提出了FastR-CNN模型。该模型相对于R-CNN又有了进步,无论是在检测的速度还是精度方面都有了拔高。同年,S.Ren等人[16]又创造了FasterR-CNN模型,这个模型借助于区域待选的思想,使得R-CNN系列的性能又进一步提升。R-CNN系列在在其实现过程中存在待选框生成的阶段,即是一个两阶段的算法模型。而在2016年,RedmonJ等人[17]设计并发表了YOLO网络模型,这是一个经典的单阶段的算法模型,即不存在待选框生成阶段的目标检测模型。该类型的模型的检测速度往往优于两阶段的目标检测模型,但是精度相对于两阶段目标检测模型要有所不如。同年,LiuW等人[18]设计并发表了SSD模型,作为一个单阶段的目标检测模型,其不仅能在检测速度上和YOLO一致,检测精度也能接近R-CNN系列,这是单阶段的模型的一个进步。2017年,LinTY等人[19]设计并发表了FPN网络模型,关于该模型的大量实验结果论证了多粒度对于模型精度的正向作用。同年,受此启发,RedmonJ等人[20]又设计并发表了YOLOv2模型,相对于最开始的YOLO,使用了更深的提取网络,并引入了先验框设计理念,大幅度提高了YOLO系列的精度。到了2018年,RedmonJ等人[21]设计并发表了YOLOv3模型,该模型使用了3个不同粒度的特征图的分支进行预测,并使用深度较大的DarkNet-53网络来完成解码器的工作。实验结果表明,YOLOv3是一个及其优秀的模型,该模型无论检测的速度还是精度都到达了一个崭新的水平。参考文献ADDINEN.REFLIST中国政府网[R/OL].[2020-07-14].魏宇豪.车道线检测与车载相机自动标定方法研究[D].西安:西安交通大学,2020.WassonH.Theothersmallscreen:MovingimagesatNewYork'sWorldFair,1939[J].CanadianJournalofFilmStudies,2012,21(1):81-103.MccullochWS,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity[J].BulletinofMathematicalBiophysics,1990,52(1-2):99-115.KelleyHJ.GradientTheoryofOptimalFlightPaths[J].ARSJournal,1960,30(10):947-954.IvakhnenkoAG,LapaVG.CyberneticPredictingDevices[M].NewYork:CCMInformationCorporation,1965.FukushimaK.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition[J].BiologicalCybernetics,1980,36(4):193-202.LecunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25(2):2012.何育欣,郑伯川,谭代伦等.基于VGGNet改进网络结构的多粒度大熊猫面部检测[J].重庆大学学报,2020,43(11):63-71.苏赋,吕沁,罗仁泽.基于深度学习的图像分类研究综述[J].电信科学,2019,35(11):58-74.HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:770-778.GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:580-587.GirshickR.Fastr-cnn[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.2015:1440-1448.HeK,ZhangX,RenS,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2015,37(9):1904-1916.RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2016,39(6):1137-1149.RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:Unified,real-timeobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:779-788.LiuW,AnguelovD,ErhanD,etal.Ssd:Singleshotmultiboxdetector[C]//Europeanconferenceoncomputervision.Springer,Cham,2016:21-37.LinTY,DollarP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:2117-2125.RedmonJ,FarhadiA.YOLO9000:better,faster,stronger[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:7263-7271张富凯,杨峰,李策.基于改进YOLOv3的快速车辆检测方法[J].计算机工程与应用,2019,55(02):12-20.HubelDH,WieselTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat'svisualcortex[J].TheJournalofphysiology,1962,160(1):106-154.IoffeS,SzegedyC.Batchnormalization:Acceleratingdeepnetworktrainingbyreducinginternalcovariateshift[C]//Internationalconferenceonmachinelearning.PMLR,2015:448-456.ZhangZ,HeT,ZhangH,e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论