版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
STYLEREF标题1目录--PAGEI-燕山大学本科生毕业设计(论文)-PAGEII-基于深度学习的车道线识别模型设计摘要当谈论到出行方面的话题时,人们最先想到的就是安全。近年来,随着我国汽车保有量逐年增加,虽然交通事故数量稳中有降,但是平均每年发生的交通事故数量仍然是一个很大的数字,造成的许多的人员伤亡和直接经济损失。人们对于更有效地提高驾驶安全性能的需求越来越高。随着深度学习和计算机视觉技术的兴起,自动驾驶为提升交通安全与效率提供了新的解决方案。作为自动驾驶技术的基础与核心技术之一,车道线识别技术具有重要的研究价值和意义。本文以智能车辆的自动驾驶技术为背景,采用深度学习的方法检测识别车道线,并依此进行驾驶状态判断,旨在减少由车辆非自主偏离发生的车祸。本文主要研究内容如下:研究了目前表现优异的车道线识别模型,其中包括基于传统图像处理边缘检测算法识别车道线的模型,以及基于卷积网络的深度学习方法识别车道线的模型。基于TusimpleDataset数据集和ResNet18-UFAST模型,搭建了车道线识别网络预测模型,通过大量仿真实验与结果分析比较,选定出了适合网络的最优参数。在实验平台上,可以实现95.87%的准确率以及平均248.11FPS的帧率,几乎达到SOTA级别的性能。针对网络预测出的车道线,首先进行逆透视变换得到对应的鸟瞰图,提取鸟瞰图上中心两侧的车道的坐标,通过最小二乘法拟合车道线曲线方程,完成车道线追踪,从而得到车辆行驶轨迹。关键词:深度学习;卷积神经网络;车道识别;逆透视变换目录989094531摘要 I1180865867目录 III379800081第1章绪论 112323448421.1课题背景及研究的目的和意义 114303540451.2国内外研究现状 29841174681.2.1无人驾驶技术研究现状 211160399141.2.2车道识别技术现状 38840589621.3车道识别的发展趋势 54549256001.4车道识别技术面临的挑战 52871563481.5论文主要工作及结构 61403868139第2章传统图像处理模型:基于霍夫变换的检测技术 717373611902.1预处理 812635705382.1.1ROI区域裁剪 89096056132.1.2灰度转换 912792827302.2Canny边缘检测 94005832872.3HoughTransform提取直线 125325037902.4本章小结 12710978676第3章基于深度学习的车道线检测模型 1315154441093.1卷积神经网络 1313640180173.1.1卷积神经网络的主要特征 1317877751433.1.2卷积神经网络的层级结构 1512104897513.1.3局部感受野和权值共享机制 1712061572723.1.4卷积神经网络的求解(模型训练) 1720823653153.2数据集 185119307283.3性能度量 191142718723.4UFAST模型 2010749898293.4.1基本原理 2120591471493.4.2车道结构损失 231357500023.4.3特征聚合 241096576083.4.4训练设置 249007580323.4.5训练结果 26782547780第4章总结与展望 301290523475结论 311280558114参考文献 32--PAGE9--PAGE8-第1章绪论课题背景及研究的目的和意义因为社会经济以及汽车工业的长足发展,汽车逐渐成为现代生活中的必需品,据中国汽车工业协会发布的数据显示,中国汽车销量连续12年蝉联全球第一位REF_Ref1032047695\r\h[1]。据公安部公开的数据显示,2020年全国机动车保有量达3.72亿,同比增长9.4%其中汽车2.81亿辆,同比增长7.5%;机动车驾驶人达4.56亿人,其中汽车驾驶人4.18亿人。2020年新注册登记汽车2424万辆REF_Ref1081451688\r\h[2]。但是不能只看见机动车数量的快速增长带来的便捷和高效,我们更应该关注环境污染问题以及逐年增加的道路交通压力。仅2019年中国涉及人员伤亡的交通事故发生数量为24.8万起,造成62763人死亡,256101人不同程度受伤,造成13.46亿元的直接财产损失REF_Ref816601287\r\h[3]。虽然因为疫情交通管制的原因,2020年车祸数量有所下降,2020年中国道路交通事故万车死亡人数为1.66人,同比下降7.8%,但频频发生的车祸每年都会给人们带来沉重的灾难与巨大的财产损失。道路交通安全问题亟待解决,提高车辆行驶过程中的安全性、降低交通事故的发生,一直是学术界研究的热点。在对过往所有有记录的交通事故的统计分析中,相关研究得出结论:交通事故发生的原因主要可以归结为三大方面:人为因素、恶劣天气因素、硬件问题因素。其中导因素为人为失误。至少有80%的交通事故的诱因都是由于驾驶员危险的的驾驶行为(例如:使用手机、疲劳驾驶、醉酒驾驶、分心聊天等)导致的反应不及时REF_Ref6190931\r\h[4]。据分析,在危险情况发生之前,驾驶员最佳的反应时间只有0.5秒钟。只有在这0.5秒的时间内做出正确的决策,才能有效规避交通事故的发生。在这个过程中,驾驶员若是出现了上述的危险驾驶行为,会导致反应力变慢,使反应时间相对延长,更容易发生车祸。根据奔驰公司的相关研究REF_Ref1509847292\r\h[5],在意外事故发生前0.5秒驾驶员得到提醒,大约有60%的事故会得到避免,当驾驶员在意外发生前1秒收到警告信息时,避免事故发生的概率会上升到90%。因此,具有提前预警的辅助驾驶系统会大大提高车辆车内人员在遭遇突发状况时的生存几率。为了应对汽车交通事故的发生,解决方案主要分为两大方向:被动安全型和主动安全型。被动安全型技术通常是指传统的安全技术(例如安全带、安全气囊等)。这些技术旨在当意外发生时,保护车内人员的人身安全,减少事故造成的损失。而主动安全型技术是指通过主动监测驾驶员的状态、道路信息、天气信息等发现潜在危险,提前通报驾驶员或采取进击制动措施避免交通事故的发生。具有代表性的技术是智能交通系统REF_Ref84069098\r\h[6](ITS,IntelligentTransportationSystem),以信息技术、通讯技术、传感器技术、控制技术以及计算机技术为基础,企图将人-车-路的行车系统中最具有不可控性的“人”,即驾驶员解放出来,以此提高系统的稳定性与安全性。各个国家对于智能交通系统建设都提供了巨大的政策、资金扶持,但是ITS距离完全实现还有很长的一段路要走。但是涉及到的相关技术的研究已经取得较大的进展,并且进行了很大程度上的商业化。例如智能汽车领域的先进辅助驾驶系统REF_Ref240596557\r\h[7](ADAS,AdvancedDriverAssistanceSystem),主要包括交通标志检测、车道线检测、行人检测、车辆检测、交通信号灯检测等,可实现动巡航、自动停车、自动防碰撞等功能。智能辅助驾驶技术乃至自动驾驶技术可以辅助驾驶员进行安全的行车,甚至代替驾驶员实现无人驾驶,可以很大程度上杜绝由疲劳驾驶、酒后驾驶、操作失误等原因造成的重大交通事故的发生。作为自动驾驶技术的基础与核心技术之一,车道线识别技术具有重要的研究价值和意义。车道线识别技术相当于辅助驾驶技术乃至自动驾驶技术的眼睛,是一切系统成为可能的基础,车道识别的准确率和识别速度都直接影响着辅助驾驶系统、自动驾驶技术的稳定性。显然,研究车道线识别技术是十分有必要的。国内外研究现状无人驾驶技术研究现状随着经济水平的快速提升和科学技术的飞速发展,人们对于行驶安全,便捷出行的需求越来越高。因此,世界各国都对于自动驾驶与先进驾驶辅助系统相关技术研究提供了极大的资金以及政策性扶持。学术界和工业界的科研人员经过了三十多年的努力,到目前为止已经有了一些比较成熟的产品和技术。美作为最先大力投资相关产业的国家,美国的研究,技术的范围广,产品类型多。从1986年起,卡内基梅隆大学就开展了相关技术研发工作。其最具代表性的智能车项目是Navlab,目前这个项目已经更新到了Navlab.11。这个项目对于现代智能车所有的涉及的关键技术都进行了深入的研究,获得极大的成果(例如视觉检测、自动控制、路径规划等)。在军事领域,Demo系列智能车也是必须一提的成果,这个项目是美国国防部于九十年代提出,目前已经研发到了DemoIII。该项目智能车辆配备有激光雷达、毫米波雷达、红外传感器、超声波传感器以及CCD等多种传感器,通过融合上述传感器信息,能够实现目标识别、避障、路径规划等功能。在行驶速度方面可以以较低时速进行巡航。慕尼黑联邦大学与奔驰公司共同研发搭载多重双目视觉系统的VaMoRs和VaMP智能车,实现了车道线识别、障碍物检测、避障以及超车等功能,无人驾驶模式下最高时速达到了96公里每小时。在优化系统后的实验中,智能车将无人驾驶模式下的最高时速提高到了175公里每小时,并且实现了95%的实验过程在无人驾驶模式下完成。国内的智能车技术的研发开始得略晚,吉林大学研自1992年开始,研发了JUTIV-I、JUTIV-II等一系列智能车,实现了车道线别院检测以及车距预警等功能。由清华大学研发的搭载基于计算机视觉的车道线识别技术系统的THMR系列智能车在结构化道路的实验有着良好的表现。国防科技大学提出CITAVT系列无人驾驶汽车实现了高速公路上的无人驾驶,并且最高时速可以达到75.6公里每小时。车道识别技术现状随着智能交通的发展,环境感知作为自主驾驶的一项重要任务,已成为研究热点。车道检测是辅助驾驶技术的基石,尽管无数的研究人员在过去的几十年里做了许多努力。但是,在无数的环境信息中有太多的变量(例如光照条件、天气条件等),想要在这些变量条件下,研究出很好鲁棒性的分类器算法是一件极富挑战性的事情。作为自动驾驶技术的重要组成部分之一,车道线识别技术在早期阶段,受限于当时的计算机算力,车道线检测算法只能求诸于系统体量、计算量都很小的传统图像处理方法。传统的图像处理方法提取车道线信息主要有两个技术路线:基于特征的方法、基于模型的方法。通过摄像头采集的路面图片信息的处理,得到车道线的位置、方向信息以及车道线曲率等参数。经典的传统方法主要为基于边缘检测、颜色空间变换、车道线消失点、几何矩识别等使用各种滤波器、卷积方法、哈夫变换方法、边缘检测方法等的结合应用以提高车道线识别的准确度和鲁棒性。随着深度学习兴起,车道线识别技术有了新的解决方案。JimanKim等人采用迁移学习,重新定义了区域分割问题,建立了端至端的网络模型,实现了单独识别左右两车道,具有针对恶劣天气的算法鲁棒性。J.Kim等人采用提取车道线候选区域的方法,利用RANSAC算法剔除奇异值,进行直线车道拟合,但是受限于算法,此网络的识别精度受到图像边缘提取算法的限制。B.Huval,T.Wang等人采用滑动窗口检测思路,借助于CNN回归预测出车道线的两端点,确定车道线位置。G.L.Oliveira等人通过扩展类与滤波器构成的映射关系,实现了基于语义分割的端至端网络模型。新方法将车道检测作为一个多类分割问题来处理,每个车道形成一个单独的类。Q.Zou等人将递归神经网络(RNN)与CNN相结合,用于车道预测和检测。M.Ghafoorian等人引入了嵌入损失的概念,利用生成性对抗网络(generativeadricativenetworks,GANs)更好地保留了车道的结构,缓解了语义切分输出的复杂后处理问题。J.Philion等人采用一个序列预测网络被用来避免基于启发式的聚类后处理。W.VanGansbeke等人提出了另一种网络结构,它包含两个元素:一个深度网络,除了一个可微加权最小二乘拟合模块外,它还生成加权像素坐标。YuenanHou等人引入了自我注意蒸馏(SAD)损失,以避免模型按顺序传播数据并减少推理时间,但SAD模型采用的全连通层计算量大,不能适应任何车道数。其他车道检测方法选择首先对所有车道进行二进制分割,然后进行聚类阶段,以分离每个单独的车道实例。D.Neven等人将车道检测作为一个实例分割问题,以便能够以端到端的方式检测每个车道,以适应道路上车道数的变化。F.Pizzati等人将实例分割和分类相结合作为一种端到端的深度学习实时方法,避免了对两步检测网络的依赖。尽管最近的车道检测方法在应用于流行的数据集时显示出很高的精度,但是这些方法的一些缺点是当遇到遮挡时它们不健壮,并且它们需要场景中固定数量的车道;因此,它们不能为道路上存在的随机车道数工作。认识到这个问题的是Y.Ko等人,他们使用了一种关键点估计方法,允许对任意数量的车道进行车道检测,而不考虑方向。最近,一些方法将车道检测建模为基于锚的目标检测问题。增强车道估计的方法之一是使用上下文线索来提高车道检测的计算效率和准确性,由R.K.Satzoda等人提出。X.Pan等人介绍了一种具有学习空间核的空间CNN。与传统的CNN方法相比,该方法通过计算特征图中的逐片卷积来提供空间信息,使得信息能够在每一层的像素之间传输,从而提高了性能。Y.Huang等人提出了一种时空深度学习方法,以缓解在道路上遇到恶劣天气或其他复杂问题时可能出现的错误,从而危及场景中车道检测的准确性。同时,在T.Gupta等人的论文中,车道标记被临时跟踪。此外,L.Tabelini等人还提出了一种基于锚点的单级深车道检测模型,该模型使用锚点进行特征池。N.Garnett等人开发了3DLaneNet,这是一种使用单个图像预测车道三维布局的网络。M.Bai等人使用了激光雷达和摄像机传感器的组合,以便直接在三维空间中获得准确的车道检测。近年来,各种基于深度学习的车道线检测模型如雨后春笋般纷纷涌现,各自都有自己的创新点与检测优势,而且检测准确率、鲁棒性与检测速度也都在稳步提升,车道线识别技术越来越成熟可靠。车道识别的发展趋势目前车道检测识别的发展趋势主要体现在三个方面:车道线检测的应用场景具有明确的时序信息特征,为了利用这些是时序信息,通常采用Encoder-RNN-Decoder的网络架构。利用RNN模块,对Encoder提取的Feature进行进一步的加工,提取连续帧带来的历史信息。参考人类的视觉暂留现象,将需要识别的车道线,识别为一条空间上连续的线。在全局分割的思路外,出现一些以目标检测或目标分类的思路处理连续车道线检测问题。除了车道线检测本身,通过增加一些额外的相关任务,引导网络更好的学习,来获得更好的车道识别效果。车道识别技术面临的挑战车道识别技术所面临的挑战主要可以分为三个方面:计算量问题,车道检测算法作为自主驾驶的一个基本组成部分,其执行量很大。极低的车道检测计算成本有助于实现实时检测与系统小型化移植。此外,目前的自动驾驶解决方案通常配备多个摄像机输入,通常要求每个摄像机输入的计算成本较低。无视觉线索,具有严重遮挡和极端光照条件的具有挑战性的场景对应于车道检测的另一个关键问题。在这种情况下,车道检测迫切需要对车道进行更高层次的语义分析。深度分割方法自然比传统的图像处理方法具有更强的语义表示能力,成为主流。此外,SCNN通过提出相邻像素之间的消息传递机制来解决这个问题,这显著提高了深度分割方法的性能。由于密集的像素级通信,这种消息传递需要更多的计算开销。车道被表示为分段的二元特征,而不是直线或曲线。虽然深度分割方法在车道检测领域占据主导地位,但这种表示方式使得这些方法很难明确地利用车道的刚性和平滑度等先验信息。论文主要工作及结构本文论述一共分为四个章节,每个章节的内容安排如下:第一章是绪论,从无人驾驶若干技术的研究背景,国内外研究现状,以及技术难点三个方面来介绍车道线识别技术的背景与研究意义。第二章是研究基Canny边缘检测与霍夫变换的车道识别方法。第三章是介绍深度学习基本模型、性能度量、UFAST网络原理与实验训练过程可视化展示与结果分析。第四章是对本文的工作做出总结以及对未来无人驾驶技术发展的展望
传统图像处理模型:基于霍夫变换的检测技术对于一张待检测的道路图像,大量的信息杂糅在一起,并且在待检测图像中,并非所有的图像信息都是有用的。不同于人类视觉,机器并不能从这些张量包含的各通、各坐标道亮度信息中“直观地,显而易见地”发现车道线,并标注出存在车道线信息的坐标位置。因此图像预处理步骤对于车道线特征提取十分有必要,这包括对图像进行感兴趣区域进行裁剪、特征提取、分割与匹配等。图像预处理主要功能是筛除图片中的噪声等不相关信息,这样目标信息的可检测性就大大增强了,特征提取的可靠性也会因此提高。车道线最大的特点是它们是一条条细长的线,基于这个特点,使用直线检测的方法来检测车道线就是我们的首选。本文选取了Canny边缘检测与霍夫变换(HoughTransform)结合的方式构建车道线检测模型,其系统框图如图2-1所示。图2-SEQ图\*ARABIC\s11系统框图预处理ROI区域裁剪由于摄像头一般安装在前挡风玻璃内,所以捕捉到的图像包含与车道无关的信息,如天空、车辆、路边的树木等。剪裁只包含车道信息的ROI(reignoftheinterest)区域可以极大提升处理效率和准确率。ROI裁剪区域的算法实现如图2-2所示:图2-SEQ图\*ARABIC\s12裁剪ROI区域实现函数其基本思想是对感兴趣区域的顶点按顺时针顺序定义一个边界序列,在按原始图像的形状所初始化定义出的图像中,复制指定区域(ROI)的图像信息。ROI区域裁剪操作前后的对比图片如图2-3、2-4所示。图2-SEQ图\*ARABIC\s13原始图片图2-SEQ图\*ARABIC\s14裁剪的ROI区域灰度转换进行灰度转换操作有助于减小图片数巨量,将三个通道的彩色图详述据降维为一个通道的黑白图像数据,大幅减少计算量、提升模型运行速度,而且更加容易进行边缘检测。Canny边缘检测在大多数图片中,物体边缘的主要特征就是颜色的突变,在频率中表示为包含高频短信息的像素点,若是将图像中的低频的像素点统统过滤,仅保留高频的像素点,就是高频滤波。在滤波算法中,变化率通常由微分计算得出。在数字图像中,采用差分,或是梯度运算替代连续域的微分运算求取变化率。对于传统图像处理,不同的检测算法对应特定的梯度算子进行梯度运算。本文选用的是Canny边缘检测方法。JohnF.Canny在1986年提出Canny算法,作为一种多级检测算法,自提出后逐渐为图像边缘检测领域的主流方案。Canny算法检测的标准为:错误率最低,要求最小的漏检与误检几率。最佳定位,检测出的边缘点应该精确定位于边缘中心。边缘信息部重复,每个边缘信息只标记一次。Canny算法的主要思想为:平滑滤波,利用高斯平滑滤波器进行滤波处理,可以有效消除椒盐噪声、较小范围的高亮区域,去除个像素频段相差较大产生的误差。检测梯度信息,计算每个像素点的变化率,即梯度信息。边缘即可定义为既定区域中,梯度差最大的点的集合。设定阈值,再步骤(2)中计算出了每个像素点的边缘强度。给出两个阈值T1、T2,且T1<T2。①当边缘强度值大于T在Canny边缘检测算法中,T2基于Canny边缘算法得到的车道线边缘检测结果如图2-5所示。由于第一步进行了ROI区域裁剪,我们感兴趣的区域外的亮度背设定为0,即纯黑色,造成ROI边界成为梯度变化剧烈的区域之一,Canny边缘检测出的区域也会包含我们感兴趣区域的部分边界。采用新的(向内缩减1个像素点)ROI边界序列,重新裁剪区域,效果如图2-6所示。车道线检测结果示意图如图2-7所示。图2-SEQ图\*ARABIC\s15Canny边缘检测结果图2-SEQ图\*ARABIC\s16修正ROI区域后的边缘检测结果图2-SEQ图\*ARABIC\s17车道线检测标注图HoughTransform提取直线PaulHough于1962年首次提出了霍夫变换(HoughTransform)算法,刚被提出时霍夫变换只能用与提取直线信息。在1972年,PeterHart和RichardDud将霍夫变换进行了改进与推广,使算法可以检测指定的形状。霍夫变换的原理是通过坐标空间的变换,将平面直角坐标系映射到参数坐标空间中,指教坐标系的车道信息转换为参数空间的点的集合。该峰值点的坐标就是目标形状的参数信息。本章小结传统的图像处理方法可以很好地检测出车道线,但是需要大量的人工调整参数工作,包括:ROI区域设置,对于不同的摄像机图像有不同的分辨率,不同的摄像机固定位置有不同的裁剪区域。Canny边缘检测的阈值大小、算子大小,对于图像拍摄背景亮度与路面条件的变化有很大的区别。对于不同的路况,车道线的曲率等参数都有所不同,导致哈夫变换的极径、极角等参数也要有相应地变化。从原理来说,这是一种基于实例分割的车道线,只能检测实际存在的车道线,对于语义上的车道线、虚线检测不出。
基于深度学习的车道线检测模型卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,即CNN)是深度学习领域向图像识别领域进军的破冰之作,是一种包含复杂卷积运算且具有深度结构的前馈神经网络。卷积神经网络可以显著减少网络层数增多时训练模型占用的内存量和网络本身所需的内存量,其通过局部感受野、权值共享机制和池化层三个重要的数据处理提取方式,在进行数据集训练的同时,有效的减少了训练网络过程中的参数个数,缓解了以往深度学习模型过拟合的问题。卷积神经网络的主要特征(1)与传统技术相比具有的优点:更强的容错机制、自主学习能力和并行工作处能力,可以处理环境语义冗杂,背景信息难以判断,输入输出关系模糊情况下的问题,允许参照数据集中的数据信息有部分缺损、变形,且训练模型速度较快,对不同模型的适应性能好,分辨率高。卷积神经网络通过对数据结构进行重新搭建和减少权值的方法,将提取特征的过程融合进多层感知器,进而简化识别前复杂的图像特征抽取过程。(2)泛化能力要明显优于其它方法:如今,卷积神经网络已经被广泛应用于模式分类、物体检测和场景语义分割等许多方面。借助于CNN网络构筑的模式分类器,灰度图像可直接方便地进行训练。(3)卷积神经网络是一个前馈式的神经网络,它能通过不同步长的逐层卷积计算,将RGB图像中所需主要特征的拓扑结构提取出来,并采取反向传播算法在优化其层级结构的同时,求解网络中的卷积核权值等未求解参数。(4)卷积神经网络是被设计用来处理二维数据的的多层神经网络,且具有一定鲁棒性。CNN网络是首先实现采用多级网络层次结构的深度学习算法。CNN网络通过对输入数据集上的同类性感知,实现其网络中待训练和待确定参数的减少,从而优化网络在前向传播后的反向传播算法的准确性和快速性。在CNN网络中,图像中卷积核每次以一定步长进行卷积运算的小块区域(也称作“局部感知域”)被当做层级结构中的底层的输入信息,得到的特征数据在前向传播过程中遍历网络的各个层,每一层中均由多个卷积核搭建连接而成,利于获得输入数据集的某些显著特点和特质。局部感知域由于可以在卷积过程中提取到一些例如阴影的边沿和范围等图片的特有属性,因此一定范围内对位移、拉伸和翻转具有鲁棒性和相对不变性。(5)卷积神经网络网络由于具有密切的层次联系和环境语义特征,因此其高频率的被用作对图片特征的提取和解读,同时可以自觉地从图像内提炼出复杂多样的特质信息。(6)卷积神经网络融入了局部感知域、权值共享机制、时序降采样手段来丰富输入样本自身存在的局部性等问题,进而达到优化网络结构的目的。(7)卷积神经网络是一种高强度的监督学习下的模型,体现了机器学习的特点和极强的鲁棒性,能够充分检测输入样本的区域特点,提炼整体训练特征并进行分类,其权值共享机制是让网络结构与人脑的真实神经系统接近的关键,在语义分割、特征标记等多方面均有应用实例。(8)卷积神经网络能够检测位移、伸缩变换等在内的形式扭曲不变性的平面或立体图像。卷积网络对数据特征点的提取权值参数是通过对样本集不断训练取得的,因此其规避了手工标记图片特征的繁琐,而是从数据集中进行学习;此外,对比于全连接网络,CNN网络在同一样本特征下采用神经元的权值共享机制,有效削减了网络参数,这也是卷积神经网络的一大重要优势。权值共享这类独特的机制非常贴合于真实的生物神经网络,让CNN网络在图片阴影检测、环境语义分割等领域有着显著优势;同时,对于同一特征来说,相同的卷积核权值简化了网络的复杂性,且多维输入数据(语音、图像等)能够直接作用于网络的特点有效解决了特征检测和分类过程中繁琐的样本整理工作。(9)与传统不同,卷积神经网络的的训练模型作为一种无法用公式化语言描述的“黑箱”,可以简单地将RGB图像输入模型中,在输出端即可得到模型给出的训练结果。这种方法的特点体现在避免了繁琐的计算,直接将需要检测的特征提取处理,具体的运算过程无需了解,通过持续的改善权值参数把网络结构完整化,在输出层得到想要的特征检测结果,算法的主要工作就是设计网络层级结构和不断优化权值参数。这样的计算方法和其他早期方法相比计算量更小,而性能却有较大提升。(10)卷积神经网络的隐含层权值参数个数和这其中的神经元个数并没有联系,而只和滤波器的大小以及卷积核的种类多少相关联。隐含层的神经元个数和原图像,也就是输入的大小、滤波器的大小以及卷积核在图片中每次进行卷积运算所移动的间距大小有关系。卷积神经网络的层级结构卷积神经网络是一类多层次的采用监督学习机制的神经网络,主要包含输入层、隐含层、输出层三部分。其中,实现CNN网络抽取输入样本特征的关键层级是内嵌于隐含层中的卷积计算层和池化层。CNN模型会在数据输入后,开始不断的迭代训练,并采用梯度下降法和最小化损失函数实现对层级中权值参数的反向传播调节,进而提高网络精度。CNN网络的初始层级通常是由池化采样层(通常选择最大池化)和卷积计算层交替组成,而深层次的网络则是全连接层对应的传统多层感知器的隐含层和逻辑回归分类器。输入第一个全连接层的数据一般是经卷积层和子采样层进行卷积采样后所抽取的样本粗略特征图片。具体各个layer的功能介绍如下:(1)数据输入层(Inputlayer)该层要做的处理主要是对原始图像数据进行预处理,其中包括:
•去均值:把输入图片样本的XY各个维度都回归为0,如下图所示,主要宗旨就是把输入数据集图片的中心拉回到坐标轴原点上。
•归一化:将输入数据集图片的幅度归一化到同样的范围,如下所示,即降低各个维度参数取值域的差异而带来的干扰,如:对于有两个维度特征的A和B,A范围是0到100,而B范围是0到100000,若不考虑归一化而直接输入这两个数据特征在训练模型时会出现错误,因此就需要将其进行归一化预处理,即A和B的数据都归一0到1的范围。
•PCA/白化:用PCA降维;白化是对数据各个特征轴上的幅度归一化去均值与归一化效果如图3-1所示,去相关与白化效果如图3-2所示。卷积计算层(CONVlayer)在卷积层,有两个关键操作:
•局部关联。每个神经元看做一个滤波器(或称为卷积核)
•窗口(receptivefield)滑动,卷积核在指定大小区域进行卷积计算(3)ReLU激励层(ReLUlayer)CNN网络采用的激励函数一般为ReLU函数(TheRectifiedLinearUnit/修正线性单元),它收敛快,求梯度简单,不会在层次过深和输入值过大时出现饱和,但较脆弱,但是输出不是zero-centered。且数据幅度会随网络层数的增加不断扩张图3-SEQ图\*ARABIC\s11幅度归一化去均值与归一化效果效果图图3-SEQ图\*ARABIC\s12去相关与白化效果图(4)池化层(Poolinglayer)池化层通常处于多个连续的卷积计算层之中,主要功能是简化数据和减少需要求解的权值量,去除冗余信息,把最重要的特征抽取出来防止产生过拟合。池化采样层中的数据压缩策略一般分为一下两种方式:最大池化(MaxPooling):选择每个小窗口中得到卷积值的最大值作为需要的特征像素点(省略掉不重要的特征像素点)。平均池化(AveragePooling):选择每个小窗口中得到卷积值的平均值作为需要的特征像素点。(5)全连接层(FClayer)每层之间的所有神经元之间以一定的权值相通,一般在CNN网络的末端放置全连接层。也就是跟传统意义上的神经网络神经元的连接方式是类似的,如图3-3所示。图3-SEQ图\*ARABIC\s13神经元全连接方式示意图局部感受野和权值共享机制CNN网络处理训练网络的根本思想就是局部感受野、池化层和权值共享机制,据此达到减少网络参数并使得网络各层级和结构有一定的抗干扰性和鲁棒性。局部感受野:因为输入样本的相互关联在空间上是局部的,故层次中的卷积核没有必要对所有图像做感受(否则只会增加无用运算量和内存占用量),只需要对图像的部分区域特征进行卷积提取即可,得到特征信息后,综合各个神经元所提取的特征并在更深层将其融合,就可以得到全体样本数据集的对于语义信息,进而达到降低神经元数目、减小过拟合的目的。权值共享机制:各层级之间的神经元对输入样本的特征提取侧重是不同的,如果每层级的神经元均采用不同权值的话,计算量无疑是庞大的。因此,引入参数共享机制就可以有效削减需要网络迭代求解的参数并改善模型,使用多种滤波器去卷积图像就会得到多种映射。权值共享其实就是对图像使用具有相同权值矩阵的卷积核进行卷及操作,也就是卷积网络能更好的适应图像在小范围内的平移性,即拥有良好的评议不变性。卷积神经网络的求解(模型训练)卷积神经网络实质上是一种输入到输出的“黑箱”映射,它可以在不给出显示公式的条件下建立输入与输出之间的映射关系,只需要输入一定量的样本数据对卷积神经网络加以训练学习,CNN网络就可以承担起反映输入输出间关系的重任。卷积网络执行的是监督训练,因此其数据集需要是由输入,理想输出的组合。所有这些向量对,其来源都是生物神经系统的真实“运行”模型和结构,均可以从我们身边真实存在、正在运行中的系统归纳提炼而来。(1)参数的初始化在开始训练前,理论上需要所有的权重都用一些不同的小随机数进行初始化(实际过程中可以参考同类型网络的权值参数作为初始值,以减小网络的训练时间)。使权值的初始值较小主要是用来保证CNN网络可以正常运行,不会因初始参数值过大进入饱和状态,进而引起过拟合或者训练模型无法检测特征;同时,初始权值不宜设置成相同数值,用以确保CNN网络可以对指定特征具有一定的初始识别能力。事实上,若采用相同的卷积核权值去初始化网络模型,那么所使用的神经网络将没有任何学习能力。网络的训练过程第一阶段:前向传播阶段从数据集中取一个批样本batch,输入网络计算相应的实际输出;在此阶段读入的数据集信息从输入层经过去均值、归一化等变换,经过隐含层的特征提取,传出到输出层,这也是CNN网络在首次训练时正常执行的流程。第二阶段:后向传播阶段将所计算的实际训练预测输出与相应的理想输出计算差值,并按照极小化误差的方法调整权值矩阵。直到达到误差函数的全局最小点(globalminimun)作为终止点,误差函数收敛,网络几乎不会再更新权重。数据集对于深度学习网络的训练,需要采集大量的道路图片组成数据集,并且对其进行标定(即标识出车道线存在的位置)用于训练。虽然有相关的软件例如LabelMe可以在可视化界面上进行框选车道线位置,并自动将车道线信息按规定的格式保存下来,标注如图3-4所示。但是人工标注需要大量的时间精力,在实验中平均每张图片的标注需要耗时8分钟,然而想要良好的网络训练效果,数据集的规模至少要有数千张的规模。消耗的时间过于庞大,所以本文最终选取的是已有标注的开源数据集。图3-SEQ图\*ARABIC\s14车道标注示意图对于基于CNN的车道线检测主流方法,有不同的开源已标注的数据集,主要可以分为2大类:对于全图每一个像素点进行分类即判断每一个像素①是否属于路面标志②属于哪一类路面标志。这种模型推理目标最为确定,网络需要猜测的成分少。根据获取的分割图,后续处理完成车道信息提取。适合这种网络模型的典型开源数据集有Apollo中的LaneSegment数据集。基于图像分割对画面上每一个像素是否属于车道分界线进行预测,还可以细分为前景、背景二分类以及判断车道实例的多分类。这种模型需要网络具有一定的联想猜测能力,能将不连续的车道线识别为连续的车道线。适合这种网络模型的典型开源数据集有图森公司开源的Tusimple数据集以及由香港中文大学多媒体实验室开源的CULane数据集。本文中就是采用Tusimple数据集作为实验数据集。Tusimple数据集为一系列良好天气条件下不同时间不同亮度条件,不同车道数量的路面图片。Tusimple数据集分为训练集和测试集两个部分,训练集含有3626个视频剪辑,测试集含有2944个视频剪辑。每个视频剪辑文件夹含有以20帧的帧率拍摄的行车记录仪拍摄1秒的图片,共20张。对于每个视频剪辑,都对第20帧进行了注释,以json格式储存。每张图片的大小为1280×720.性能度量性能度量就是评价网络学习到的表示是否符合期望的评价指标,对于车道识别这种分类问题,性能度量主要有;错误率(Error)和精度(Accuracy)Error=Acc=混淆矩阵表3-SEQ表\*ARABIC\s11混淆矩阵实际预测正例TPFN负例FPTN其中,TP(truepositive),真正例,表示预测为真,实际为真;FN(falsenegative),假负例,表示预测为负,实际为负;FP(falsepositive),假正例,表示预测为正,实际为负;TN(truenegative),真负例,表示预测为负实际为负。准确率、精确率、召回率准确率Acc=精确度Precision=召回率Recall=F1score平衡分数:精确度、召回率的调和平均数F1=UFAST模型UFAST模型提出了一种新的车道检测方法,以极快的速度为目标,解决了无视觉线索的问题。同时,基于提出的公式,提出了一个结构损失显式利用先验信息的车道。具体来说,此模型的公式是使用全局特征来选择图像中预定义行的车道位置,而不是基于局部感受野来分割车道的每个像素,这大大降低了计算成本。车道位置选择的图示如图3-5所示。图3-SEQ图\*ARABIC\s15位置选择示意图对于无视觉线索的问题,此模型也可以达到很好的效果,因为公式是基于全局特征进行行选择的过程。因此,模型具有整个图像的感受野。与基于有限感受野的分割方法相比,可以学习和利用来自不同位置的视觉线索和信息。新公式可以同时解决速度和无视觉线索的问题。此外,基于该公式,车道被表示为不同行上的选定位置,而不是分割图。快速和无视觉线索问题对于车道检测非常重要。因此,想要取得良好的性能,必须找出这个问题的解决方案。为了更好地说明,表1显示了下文中使用的一些符号。表3-SEQ表\*ARABIC\s12变量表变量数据类型定义H标量图像高度W标量图像宽度h标量横向的anchors数目,step=10像素w标量网格单元数C标量车道数X张量图像全图特征f函数车道位置选择分类器P张量预测T张量目标P张量每个位置的概率L矩阵车道线位置基本原理为了解决上述问题,模型提出了一种基于全局图像特征的基于行的车道选择方法。换言之,模型是使用全局特征在每个预定义行上选择正确的车道位置。在我们的公式中,车道表示为预定义行的一系列水平位置,即行锚。为了表示位置,第一步是将图片网格化。在每一行锚点上,位置被划分为许多单元格。这样,车道的检测可以描述为在预定义的行锚点上选择某些单元,如图3(a)所示。假设最大车道数为C,行锚定数为h,网格单元数为ω。假设X是全局图像特征,fij Pi,j,:=f 其中,Pi,j,:是(ω+1)维向量,表示选择( Lcls=其中LCE是交叉熵损失。我们使用一个额外的维度来表示没有车道,因此我们的公式由(ω+1)维而不是从公式1可以看出,我们的方法基于全局特征预测每行锚点上所有位置的概率分布。结果,可以基于概率分布来选择正确的位置。此模型和传统分割之间的差异如图3所示。可以看出,模型比常用的分段要简单得多。假设图像大小为H×W。通常,预定义的行锚定数和网格大小远远小于图像的大小,即h≪H,ω≪W。这样,原来的分割公式需要进行(C+1)维的H×W分类,而我们的公式只需要解决(ω+1)维的C×H分类问题。这样,由于公式的计算量是C×h×(ω+1),而分割的计算量是H×W×图3-SEQ图\*ARABIC\s16模型对比图车道结构损失在分类损失的基础上,进一步提出了两个损失函数,用于建立车道点的位置关系。这样,可以鼓励学习结构信息。第一种是基于车道是连续的这一事实,即相邻行锚中的车道点应该彼此靠近。在我们的公式中,车道的位置由分类向量表示。因此,通过约束分类向量在相邻行上的分布来实现连续性超快速结构感知深车道检测这样,相似性损失函数可以是: Lsim=其中,Pi,j,:是对j行锚的预测,⋅1代表 另一个结构损失函数关注车道的形状。一般来说,大多数车道线的形状都是直线。即使是曲线车道,由于透视效果的影响,大部分车道在图像中依旧是直线形状。在这项工作中,我们使用二阶差分方程来约束车道的形状,对于直行的情况是零。为了考虑形状,需要计算每排锚点上车道的位置。直观的想法是通过找到最大响应峰,从分类预测中获得位置。对于任何车道指数i和行锚指数j,位置轨迹j可表示为: LOCi,j其中,k表示位置索引的整数。需要注意的是,我们不在网格单元中计数,位置索引k的范围仅为[1,ω]而不是[1,ω+1]。但是,argmax函数是不可微的,不能用于进一步的约束。此外,在分类公式中,类没有明显的顺序,很难在不同的行锚之间建立关系。为了解决这个问题,我们建议使用预测的期望值作为位置的近似值。我们使用softmax函数来获得不同位置的概率: Probi,j,:=softmax(其中,Probi,j,:是一个ω维向量,并且表示每个位置的概率。出于与等式4相同的原因,不包括北京网个单元,计算范围仅为[1,ω] LOCi,j 其中,Probi,j根据等式6,二阶差分约束可以写成: Lshp=其中,Loci,,j Lstr=其中λ为损耗系数。特征聚合在上一节,损失设计主要关注车道的内部关系。在这一节中,我们提出了一种辅助特征聚合方法,该方法对全局上下文和局部特征执行。提出了一种利用多尺度特征进行局部特征建模的辅助分割方法。我们使用交叉熵作为辅助分割损失。这样,我们方法的总体损失可以写为: Ltotal=其中Lseg是分割损失,α和β是损失系数。整体架构如图3-7需要注意的是,我们的方法只在训练阶段使用辅助分词任务,而在测试阶段将其删除。这样,即使增加了额外的分割任务,也不会影响算法的运行速度。它与没有辅助分段任务的网络相同。图3-SEQ图\*ARABIC\s17整体架构图训练设置实验平台为谷歌实验室CoLab搭载TeslaV10016GBGPU。,在类Jupyternotebook的操作页面进行操作,对于TiSimple数据集,主要的评估指标是准确性。通过以下公式计算精度:accuracy=clipC其中Cclip是正确预测的车道点数,S对于这Tusimple数据集,模型使用由数据集定义的-行锚定。具体而言,图像高度为720的Tusimple数据集的行锚定在160到710之间,步长为10网格单元的数量在Tusimple数据集上设置为100在优化过程中,图像的大小调整为288×800。我们使用Adam优化器来训练我们的模型,用4e-4初始化余弦衰减学习率策略。式8和式9中的损耗系数λ、α和β均设为1。批量大小设置为64,总训练次数epoch设置为150。我们之所以选择如此大量的epoch,是因为我们的结构保持数据扩充需要很长时间的学习。具体参数如表3-3所示。表3-SEQ表\*ARABIC\s13训练参数表参数数值说明数据集(Dataset)Tusimple图森公司开源数据集训练次数(Epoch)150持续训练直到误差收敛批量大小(batch_size)64依据显存大小选择优化器(Optimizer)AdamAdam更快学习率(learning-rate)0.002调节权重更新步长权重衰减(weight_decay)0.0001防止过拟合动量(momentum)0.9改进优化器学习率调整策略(scheduler)cos学习率衰减策略warmup策略linear减免提前过拟合、保持深层稳定性warmup_iters100延迟学习率上升至预设值backbone1818层的残差网络griding_num100横向网格分割数use_auxTrue使用辅助误差函数sim_loss_w1.0误差权重shp_loss_w1.0误差权重num_lanes4默认4条车道线网格单元数量的影响如3.1节采用网格划分和选择的方法建立车道结构信息与基于分类的公式之间的关系。在这种情况下,我们进一步尝试我们的方法与不同数量的网格单元来证明对我们的方法的影响。我们将图像分成25、50、100和200列。结果如图6所示。随着网格单元数的增加,top1、top2和top3的分类精度逐渐下降。这是因为更多的网格单元需要更细粒度和更硬的分类。然而,评价精度并不是严格单调的。虽然网格单元数目越少,分类精度越高,但由于网格单元太大,无法表示精确的定位,定位误差也越大。在这项工作中,我们选择100作为Tusimple数据集上的网格单元数。图3-SEQ图\*ARABIC\s18网格数量对于评估准确度的影响训练可视化训练过程中的数据可视化如图3-9~3-17所示。所有曲线分成了三段的原因是我所用的CoLab平台对于每天的GPU使用时间都有所限制,导致epoch数量达不到预设的数目就被迫终止。我的解决措施是每个epoch训练结束后就将整个网络的参数完全保存下来,而后第二天resume重新开始,进行后续的训练。辅助分支的误差aux-loss如图3-9所示,分类误差cls-loss如图3-10所示,relation-dis如图3-11所示,relation-loss如图3-12所示,如图所示,在5.2kstep时刻左右,对应着epoch=5.2k57学习率如图3-13所示,根据warmup_iters设置,学习率开始时小于预设值0.002,直到step达到warmup_iters=100时,学习率上升至预设值,接着按照学习率调整策略(scheduler)选择的cos模式逐步降低更新每层权重的步长,即学习率。最终学习率降低到5e-18,此时网络权重几乎不再更新。iou如图3-14所示,随着训练次数epoch的增加,iou的数值越来越大,意味着锚框的选择越来越准确,最终停留在0.81左右。top1准确率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年低年级拼读测试题及答案
- 2026年古代希腊的测试题及答案
- 2026年汽车非模测试题及答案
- 2026年爱情性格缺陷测试题及答案
- fc协议书的建链过程
- 2026年CIA推特测试题及答案
- 2026年园艺疗法心理测试题及答案
- (完整版)龙门架安拆施工方案
- 广东江门市2026年第二学期义务教育质量监测八年级生物学试题附答案
- 2026年特种设备安全操作专项试卷及答案解析
- 串联谐振课件
- 2025年高考物理广东卷真题(含答案)
- 2025百年工运知识竞赛考试题库300题(含答案)
- 硬件服务应急预案
- 电气设备安全管理制度
- 物业客户档案流程
- 2024-2025学年四川省内江市市中区天立学校九年级下学期一模考试数学试题
- 《CRTAS-2024-06 互联网租赁自行车停放区设置指南》
- 银行双控账户合同范本
- 中职直播电商人才培养模式探讨
- DB32∕T 3839-2020 水闸泵站标志标牌规范
评论
0/150
提交评论