(管理科学与工程专业论文)基于双目立体视觉的储备粮数量智能识别算法研究.pdf_第1页
(管理科学与工程专业论文)基于双目立体视觉的储备粮数量智能识别算法研究.pdf_第2页
(管理科学与工程专业论文)基于双目立体视觉的储备粮数量智能识别算法研究.pdf_第3页
(管理科学与工程专业论文)基于双目立体视觉的储备粮数量智能识别算法研究.pdf_第4页
(管理科学与工程专业论文)基于双目立体视觉的储备粮数量智能识别算法研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(管理科学与工程专业论文)基于双目立体视觉的储备粮数量智能识别算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要本文以国家储备粮库粮食数量智能识别方法为研究背景,将双目立体视觉技术引入到课题研究中,通过三维重构粮堆场景信息,获取粮堆特定测量点的三维坐标值,进而完成粮堆体积的测算,实现粮食数量的智能识别。本文的研究重点是双目立体视觉的核心技术之一立体图像对的立体匹配问题。针对本课题的实际需求,本文首先提出了一种基于边界链码向量的边缘特征立体匹配算法。该算法首先利用边界链码跟踪描述边缘获得边缘序列信息,进而将边缘的边界链码序列构造成链码向量,通过判断向量的相似度即向量夹角的大小来断定两边缘是否为同一边缘。该立体匹配算法具有以下三个特点。首先,算法选择目标边缘作为匹配基元,具有比单个边缘点更稳定、信息量更多的图像特征;其次,算法通过将边界链码序列转换成向量,解决了链码匹配的歧义性问题,且向量间的计算量较小,计算过程简单快速;最后,为使得立体匹配过程中边缘更加清晰、连续,本文提出了一种改进的l a p l a c e 算子,该算子通过对模板设置更加合理的权值系数,能够检测到更丰富的边缘信息,有利于边缘检测的清晰、连续。目前视差信息的获取大多依赖于立体匹配技术,然而现有立体匹配技术的不完善性制约了三维重建的精度。针对此问题,本文提出了一种基于标尺识别的视差信息获取算法,该算法首先识别出场景中特定标尺,然后建立立体图像对中所有像素与标尺间的关系模型,根据关系模型获取视差信息。算法无需设计匹配代价函数用于像素匹配,并且解决了大块无纹理区域无法进行立体匹配的问题。实验结果表明了本文所提出的算法的有效性和合理性,能很好的满足本课题的应用需求。关键词:双目立体视觉;摄像机标定;立体匹配;边界链码向量;标尺识别;三维坐标a b s t r a c tt h i sp a p e rh a di t sr e s e a r c hb a c k g r o u n do fq u a n t i t yi n t e l l i g e n c er e c o g n i t i o nm e t h o d so fn a t i o n a lr e s e r v e sg r a i n ,a n di n t r o d u c e dt h eb i n o c u l a rs t e r e ov i s i o nt e c h n o l o g yi n t ot h et o p i cr e s e a r c h t h r o u g ht h r e e d i m e n s i o n a lr e s t r u c t u r i n gg r a i ns t a c ks c e n ei n f o r m a t i o n ,w ec o u l do b t a i nt h et h r e e d i m e n s i o n a lc o o r d i n a t e so ft h es p e c i f i cm e a s u r e m e n tp o i n t so ft h eg r a i ns t a c k ,a n dt h e nc o m p l e t et h eg r a i ns t a c ks i z ec a l c u l a t i o na n da c h i e v et h eg r a i nq u a n t i t yi n t e l l i g e n c er e c o g n i t i o n t h ek e yr e s e a r c hp o i n to ft h i sp a p e rw a st h es t e r e om a t c h i n gp r o b l e mo fs t e r e oi m a g ep a i r s ,w h i c hw a st h ec o r et e c h n o l o g yo ft h eb i n o c u l a rs t e r e ov i s i o n f o rt h ea p p l i c a t i o nd e m a n d so ft h et o p i c ,t h i sp a p e rp r o p o s e da ne d g ef e a t u r es t e r e om a t c h i n gm e t h o db a s e do nc h a i nc o d ev e c t o r t h ea l g o r i t h mf i r s t l ym a d eu s eo fc h a i nc o d et od e s c r i b et h ee d g et oo b t a i nt h es e q u e n c ei n f o r m a t i o no fe d g e ,a n dt h e nc o n s t r u c t e dt h ec h a i nc o d es e q u e n c ei n f o r m a t i o nt ot h ec h a i nc o d ev e c t o r b yj u d g i n gt h es i m i l a r i t yo ft h ev e c t o rn a m e l yt h ea n g l es i z ec o n c l u d e dw h e t h e rt w oe d g e sw e r et h es a m ee d g e s t h es t e r e om a t c h i n ga l g o r i t h mh a dt h ef o l l o w i n gt h r e ef e a t u r e s f i r s t ,t h ea l g o r i t h ms e l e c t e dt h eo b j e c te d g e sa st h em a t c h i n ge l e m e n t t h ee d g ew a sm o r es t a b l et h a nas i n g l ee d g ep o i n ta n dh a dm o r ei m a g ec h a r a c t e r i s t i c si n f o r m a t i o n s e c o n d ,t h ea l g o r i t h mt h r o u g ht r a n s f o r mt h ec h a i nc o d es e q u e n c ei n t ot h ev e c t o rt os o l v et h ea m b i g u i t yo fc h a i nc o d em a t c h i n g , a n dt h ec o m p u t a t i o no fv e c t o rw a ss m a l la n dc o m p u t a t i o n a lp r o c e s ss i m p l ef a s t f i n a l l y , t om a k et h ee d g eo fs t e r e om a t c h i n gp r o c e s sw a sm o r ec l e a ra n dc o n s i s t e n t ,t h i sp a p e rp r o p o s e da ni m p r o v e dl a p l a c eo p e r a t o r ,w h i c hc o u l dd e t e c tr i c h e re d g ei n f o r m a t i o na n dt h ee d g ew a sc l e a ra n dc o n t i n u o u sb ys e t t i n gam o r er e a s o n a b l ew e i g h t e dv a l u e a tp r e s e n tt h ep a r a l l a xi n f o r m a t i o n sg a i nm o s t l yr e l i e do ns t e r e om a t c h i n gt e c h n i q u e ,h o w e v e rt h ei m p e r f e c t i o no fe x i s t i n gs t e r e om a t c h i n ga l g o r i t h mh a dr e s t r i c t e dt h et h r e ed i m e n s i o n a lr e c o n s t r u c t i o np r e c i s i o n f o rt h i sp r o b l e m ,t h i sp a p e rp r o p o s e dap a r a l l a xi n f o r m a t i o na c q u i s i t i o na l g o r i t h mb a s e do ns t a f fg a u g er e c o g n i t i o n ,w h i c hf i r s t l yi d e n t i f i e dt h es p e c i f i cs t a f fg a u g ei nt h es c e n e ,a n dt h e ns t r u c t u r e dar e l a t i o n s h i pm o d e lb e t w e e ns t a f fg a u g ea n do t h e rp i x e l si ns t e r e oi m a g ep a i r s ,s ow ec o u l do b t a i np a r a l l a xi n f o r m a t i o nb yt h er e l a t i o n a lm o d e l t h ea l g o r i t h md i dn o td e s i g nc o s tf u n c t i o nf o rp i x e lm a t c h i n g ,a n ds o l v e dt h el a r g en o n t e x t u r er e g i o n sc o u l dn o tb es t e r e om a t c h i n gp r o b l e m e x p e r i m e n t a lr e s u l t ss h o w e dt h er a t i o n a l i t ya n dv a l i d i t yo ft h ea l g o r i t h m sw h i c hw e r ep r o p o s e di nt h i sp a p e r , a n dt h ea l g o r i t h mc o u l db ev e r yg o o dt os a t i s f yt h ea p p l i c a t i o nd e m a n do ft h et o p i c k e y w o r d s :b i n o c u l a rs t e r e ov i s i o n ;c a m e r ac a l i b r a t i o n ;s t e r e om a t c h i n g ;c h a i nc o d ev e c t o r ;s t a f fg a u g er e c o g n i t i o n ;t h r e e d i m e n s i o n a lc o o r d i n a t ei i i重庆交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:嘲4 杂日期:二。吵年,2 月,7 日重庆交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权重庆交通大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所将本人学位论文收录到中国学位论文全文数据库,并进行信息服务( 包括但不限于汇编、复制、发行、信息网络传播等) ,同时本人保留在其他媒体发表论文的权利。学位论文作者签名喇先k1日期:如j 9 年,z 月- 7 日,指导教师签名:印么1 1 鼍日期:哆年,五月夕日本人同意将本学位论文提交至中国学术期刊( 光盘版) 电子杂志社c n k i 系列数据库中全文发靠,并按中国优秀博硕士学位论文全文数据库出版章程规定享受相关权益。碑施、日期:d 歹年,2 月,夕日求掣签,者斗觜文:论路位时葶期1第一章绪论第一章绪论视觉是人类获取外界信息的强有力而又最有效的手段,人类感知外界信息,8 0 以上是通过视觉得到的f l 】。现实世界中的物体都是三维的,入眼所获得的景物图像却都是二维的,但是人类的视觉系统能够根据自己所具有的先验知识很容易从二维图像中感知三维世界,从而获得三维世界的信息。让计算机具有类似人眼的视觉功能,是人类多年以来的梦想。然而,迄今为止,人类对自身视觉系统的工作原理还没有完全了解,对视觉感知的生理过程还缺乏真实可信的模型描述,更多的情况是在合理猜测的基础上模仿人类的视觉感知过程。近年来,随着信号处理科学的发展,用摄像机获取景物模拟图像并转换成数字信号,用计算机实现对视觉信息的处理,从而逐渐形成了一门新兴的学科,即计算机视觉,它包括视觉信息的获取、传输、处理、存储与理解。计算机视觉的研究目标就是使计算机具有通过多幅二维图像认知周围环境信息的能力,这种能力不仅使计算机能感知环境中物体的几何信息,如其形状、位置、姿态等,而且能对它们进行描述、存储、识别、理解。因此,计算机视觉技术可进行非接触、自动、在线的检测,在机器人视觉、车辆自主驾驶、多自由度机械装置控制领域均有应用价值。双目立体视觉是计算机视觉的一个重要研究领域,它是场景信息三维重建的常用方法之一,广泛应用于物体识别、机器人导航、三维测距、工业检测等诸多领域。其基本思想是对同一场景信息在不同视点拍摄两幅以上的图像,通过摄像机标定、立体匹配和三维重构等一系列处理步骤,以实现对场景信息的三维重构。其中立体匹配步骤是双目立体视觉的核心技术,由于自然场景的不规则性以及摄像机获取图像时采样点的有限性,迄今为止,还没有一种通用有效的立体匹配算法,现有的立体匹配算法大多是满足特定的工程应用需要。立体匹配算法的研究水平在一定程度上代表着双目立体视觉的发展水平,立体匹配的精度也直接决定了三维重构的成败。因此,本文结合国家储备粮数量智能识别的工程实际应用需求,将双目立体视觉技术引入储备粮数量识别领域,并将粮食图像的立体匹配算法作为研究的重点内容。1 1 课题来源及研究意义粮食储备制度是我国的基本国策,承担着储备重要的战略物资粮食,并调节市场供给的重任,是保障国家稳定的重要物质基础。从我国近2 0 年储备粮监2第一章绪论管实践来看,管理者对粮食的实物监管和稽核这两大核心问题始终未能很好的解决,目前对储备粮数量的监管及稽核仍然采用入工监管的方式计量方式普遍采用称重计量,然而储备粮库地域上的分散性以及全过程业务监管实时性的特点【2 , 3 1 ,客观上不仅需要大量的入力、物力和财力支持,而且还导致无法对储备粮实物进行及时有效的监管与稽核,以至于虚库、虚报贴息、以次充好等违规现象屡见不鲜,给国家的经济带来了严重的损失,同时还严重削弱了国家对粮食价格的宏观调控能力,给国家带来了潜在的不安全因素,因此有必要对储备粮监管与稽核方式和管理制度进行有效的改革和创新研究。剖析目前粮食实物监管与稽核不到位的具体原因,可以大致归纳为以下几条:监管力量严重不足,管理手段落后( 基本采用人工方式监管) ,储备粮库地域上的分散性以及全过程监管的业务需要( 储备粮是大宗实物,动辄上力吨,不可能随时用称重计量的方法盘库,因此人工监管要求监管人员必须全过程实物监管和每笔进出库数量的稽核) 更是加剧了监管的难度。因此在现行体制下,唯一的办法就是管理手段的创新,采用技术手段来代替人工全过程监管和稽核,用智能的方法进行远程监管和稽核,可在任何时候、任何地方自动动态采集任何粮库的粮食进出库数量,以作为监管与稽核的重要参考依据,用管理方式的创新解决监管与稽核不到位的问题,同时也大幅降低粮食实物监管和稽核的成本。如果能够动态三维智能感知粮堆的体积信息而无需人: 计量称重,那么实现粮食数量智能识别是可行的。从技术实现的角度来说,目前三维感知和测距技术有很多种,每种方法各有其使用的范围和产生的背景,且各有优缺剧4 5 】。一般来说,常用的三维感知和测距技术主要可以归纳为主动和被动两大类 6 1 。前者的基本原理是视觉系统首先向场景发射能量,然后接受设备接受场景的反射能量,根据接收到的能量形成能量场,从而获取场景的三维信息;被动方法指无需发射能量,仅仅依靠对象自身以及周围环境条件而进行测定。该类方法的典型就是双目立体视觉法,其原理就是利用同一对象在相隔一定距离、一定角度的成像平面上的成像位置不同即视差,然后通过视差来获取对象的深度信息。主动测距法主动测距法的基本思想是利用特定的、人为控制的辐射源( 光源、声源等)对场景目标进行辐射,根据物体表面的反射特性及光学、声学特性来获取目标的三维信息。其优点是具有较高的测距精度,抗干扰能力和实时性,缺点是该类方法需要特定的设备,因此成本高,局限于某些特定需要的工程应用领域。代表方法有:雷达测距法、激光投影法、飞行时间法等【7 j 。被动测距法被动测距技术是目前研究最多、应用最广的一种三维感知测距技术,它不需第一章绪论3要人为的设置辐射源,只利用场景在自然光照下在成像设备上所投影形成的二维图像对来重建场景的三维信息,具有适应强,实现手段灵活,造价低的优点,但是由于该方法的研究涉及视觉心理学、数学、物理学以及计算机科学等内容,因此研究有较多的难点,也正因为如此,它是计算机视觉研究最为活跃的领域之一。典型方法有双目立体视觉法等。双目立体视觉是被动三维感知测距方法中最重要的三维感知技术,该方法模拟人类视觉系统,通过双目立体视觉系统左右两台摄像机实现在不同视点对场景拍摄两幅二维图像,根据二维图像三维重构出场景信息。它可以在多种条件下灵活的重建场景目标的三维立体信息。通过对粮食实物监管与稽核实际需求的调查分析,以及结合笔者之前在图像识别领域中的研列8 引,本文提出了采用双目立体视觉技术来实现粮库粮食数量的智能识别。具体思路是:在粮库现场构建一个双目立体视觉系统,由两台摄像机拍摄到的粮库场景二维图像,通过摄像机标定、图像预处理、立体匹配等步骤三维重构粮库场景的关键测量点三维坐标值,通过测量点三维坐标值计算粮堆体积,从而智能得到粮库内的粮食总数量。以技术手段取代过去人工监管方式,杜绝虚库、虚报贴息等违规现象的发生,满足管理部门对储备粮自动监管与稽核的管理需求。同时,基于双目立体视觉技术的对象体数量动态智能识别方法因其使用方便,成本低,在涉及体积或重量计量、监管等其他领域也有很广阔的应用自i 景,因此本文的研究具有重要的理论和现实意义。同时,本文的研究得到了重庆市财政局重点科技资助项目和重庆市软科学重点资助项目的支持。将双目立体视觉技术应用于本课题的研究中,还有若干问题需要解决,这些问题也是本文的重点研究内容。首先,目前基于双目立体视觉的对象体数量动态智能识别的有关研究还很少,缺乏完整的对象体数量动态识别框架体系,相关的识别效率、识别精度、体积参数的自动计算等问题有待进一步的研究和完善。其次,双目立体视觉作为一门新兴的学科和研究领域,其建立的理论基础人类的视觉原理还没有完全研究透彻,因此双目立体视觉本身的基础理论体系还不够完善,尤其是其核心问题立体匹配,目前对立体匹配的研究仅限于需找其匹配的最优解,如何寻找精确的立体匹配算法尚未得到答案。综上所述,将双目立体视觉技术引入到粮食数量的智能领域的研究,具有重大的理论意义和社会意义。1 2 计算机视觉概述计算机视觉就是利用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替人脑完成信息的处理和理解。计算机视觉的最终研究目标就是使计算机4第一章绪论能像人类那样通过视觉系统来观察和理解世界。计算机视觉既是工程领域也是科学领域中的一个富有挑战性的重要研究领域。计算机视觉是- f l 综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中,其中包括计算机科学与工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等。不少学科的研究目标与计算机视觉相近这些学科包括图像处理、模式识别或图像识别、景物分析、图像理解等。,由于历史发展或领域本身的特点,这些喾科互有差别,但又有某种程度的相互重叠。为了能够更好的理解计算机视觉以及计算机视觉与其他学科的区别,我们把这些与计算机视觉有关的学科从研究目标和方法角度加以归纳。图像处理图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例如,可通过直方图均衡化处理使输出的图像有较高的对比度;或通过边缘检测突出图像的边缘特征。在计算机视觉研究中经常利用图像处理技术进行预处理和特征抽取等前期工作。模式识别( 图像识别)模式识别技术根据从图像抽取的统计特性或结构信息,把图像分成预定的类别。例如,文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图像中的某些部分,例如分割区域的识别和分类。图像理解给定一幅图像,图像理解不仅描述图像本身,而且描述和解释图像所代表的景物,以便对图像代表的内容做出判断和决定。图像理解除了需要复杂的图像处理以外,还需要具有关于景物成像的物理规律的知识以及与景物内容有关的知识。在建立计算机视觉系统时需要用到上述学科中的有关技术,但计算机视觉研究的内容要比这些学科更为广泛。计算机视觉的研究与人类视觉的研究密切相关。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标需要建立人类视觉的计算理论。上世纪八十年代初,马尔( m a r t ) 从神经生理学、心理物理学和临床神经病理学角度对人类视觉进行了系统的理论研究,并以此为根据提出了视觉计算三层表象理论,该理论是迄今为止最为系统的视觉理论,对神经学的发展和人工智能的研究产生了深远的影响【1 0 】。1 3 双目立体视觉从两个或多个观察点去观察同一场景,获得在不同视角下的一组图像,然后第一章绪论5通过不同图像中对应像素间的视差( d i s p a r i t y ) ,推测出场景中目标物体的空间几何形状和位置,这种方法称为立体视觉( s t e r e ov i s i o n ) ,它是计算机视觉中的一个重要分支,其中应用较广的是双目立体视觉。所谓双目立体视觉( b i n o c u l a rs t e r e ov i s i o n ) ,指的是通过处于两个不同的视点且相对位置固定的c c d 摄像机,获取同一场景的二维图像信息,然后通过摄像机标定、立体匹配、三维坐标计算等步骤重建场景的三维立体信息的方法。双目立体视觉理论建立在对人类视觉系统研究的基础上,通过双目立体图像的处理,获取场景的三维信息,其结果表现为深度图( 视差图) ,再经过进一步插值处理就可得到三维空间中的景物,实现二维图像到三维场景空问的重构。双目立体视觉系统中,获取深度信息的方法比其他方式较为方便直接,它是被动方式的,因而较主动方式适用面宽,这是它的突出特点。1 3 1 双目立体视觉系统结构。一个典型的双目立体视觉系统结构如图1 1 所示。在双目立体视觉系统的硬件结构中,目前常用的是采用两个c c d 摄像机作为视觉传感器,通过专用的图像采集卡与计算机相连,把c c d 摄像机采集到的模拟信号经过采样、滤波、量化,最终将纯数字图像提供给计算机使用。双目立体视觉系统软件结构包括计算机操作系统及其应用软件、视觉处理算法软件等,其中视觉处理算法根据实际工程应用的不同,主要包括图像预处理( 滤波、直方图均衡化等) 、特征检测、图像匹配与识别、相似度判断等。图1 1 双目立体视党系统结构示意图f i g u r e1 1 s t r u c t u r ed i a g r a mo fb i n o c u l a rs t e r e ov i s i o ns y s t e m6第一章绪论图1 2 双目立体视觉系统原理示意图f i g u r e1 2 s c h e m a t i cd i a g r a mo f b i n o c u l a rs t e r e ov i s i o ns y s t e m一般来说,双目立体视觉系统由左右两部c c d 摄像机组成,原理如图1 2 所示。世界坐标系中一点p ( x ,y ,z ) 在左右摄像机的成像面上的像素点分别为p ,( “,) 和p ,( ”,) 。这两个像点是空间同一对象点p ( x ,y ,z ) 的像,称之为“共轭点。知道了这两个共轭像点,分别作他们与各自相机的光心d ,和d ,的连线,即投影线p ,q 和p ,d r ,他们的交点即为空间对象点p ( x ,y ,z ) ,这就是双目立体视觉的基本原理。恢复场景的三维信息是双目立体视觉最基本的目标,为实现这一目标,一个完整的双目立体视觉系统大体可分为图像采集、摄像机标定、特征提取、立体匹配和三维重构五个步骤【1 1 1 。图像采集数字图像的采集是双目立体视觉的物质基础。双目立体视觉的图像采集是由不同位置的两台或者一台( c c d ) 摄像机经过移动或旋转拍摄同一场景,获取立体图像对。立体图像的获取不仅要满足应用要求,而且还要考虑视点差异、光照条件、摄像机性能和场景特点等方面的影响。摄像机标定摄像机标定也叫做摄像机校准,是为了确定摄像机具体的内部参数( 如焦距、镜头失真系数) 和外部参数( 如摄像机旋转矩阵和平移矢量) ,以便确定成像模型。第一章绪论7常用的摄像机标定方法主要有两步法、张正友标定法、f u s i e l l o 方法以及杜歆二步旋转法等。在图1 2 所示的双目立体视觉模型中,摄像机标定是对三维场景中对象点在左右摄像机成像平面上的坐标位置a t ( “,) 、a r ( “,1 ,) 与世界坐标系a ( x ,y ,z ) 之间的映射关系的确定,是实现双目立体视觉三维模型重构中基本且关键的步。特征提取特征提取是为了得到匹配赖以进行的图像特征。迄今为止,还没有一种普遍使用的理论可用于图像特征的提取,从而导致了立体视觉研究中匹配特征的多样性。特征可以是像素或者是像素的集合,目前,常用的匹配特征主要有点状特征、线状特征和区域特征等。一般来说,区域特征包含较多的图像信息,并且特征本身数目较少,匹配效率高,但是区域特征的提取和描述过程存在较大困难,定位精度也较差。而对于点状特征和线状特征来说,对其进行表达和描述相对简单,定位精度高,但由于其本身数目较多,所包含的图像信息少,在匹配时需要采用较严格的约束条件和匹配策略,以尽可能地减少匹配歧义和提高匹配效率。总的来说,好的匹配特征应该具有可区分性、不变性、唯一性以及有效解决匹配歧义的能力。立体匹配立体匹配就是在两幅图像的匹配基元之间建立一一对应关系的过程,它是双目立体视觉中最重要也是最困难的一步。与普通的图像配准不同,立体像对之间的差异是由摄像机观察点的不同引起的,当空间三维场景经过透视投影变换为二维图像时,同一景物在不同视点的摄像机成像平面上的成像会发生不同程度的扭曲和变形,而且场景中的诸多因素( 如光照背景、几何形状、环境特征、畸变、遮挡等) 最终以像素的灰度值反映( 灰度图像) ,因此对图像无歧义的匹配是相当困难的,现有的立体匹配过程大多都是一个最优解寻找的过程。三维重构经过匹配之后,我们得到了空间的离散点,点与点之间的情形是未知的,更不能构成平面或曲面,为了使物体真实地显示出来,我们给每个点赋予其深度信息,从而得到场景的三维重构模型。影响三维重构精度的因素主要有摄像机标定误差、c d d 成像设备的数字量化效应、特征提取和匹配定位精度等。1 3 2 国内外研究现状立体视觉的开创性工作是从上世纪6 0 年代中期开始的,美国的m i t 的r o b e r t s完成的三维景物分析工作,把二维图像分析推广到三维,这标志着立体视觉技术8第一章绪论的诞生,并在随后的2 0 多年中迅速发展成为一门新兴学科。特别是m a r r 创立的视觉计算理论对立体视觉的发展产生了巨大的影响,现已经形成从图像获取到最终的景物可视表面重建的完整体系。立体视觉的研究方法从早期的以统计理论为基础的相关匹配,发展到具有很强生理学背景的特征匹配,从直接依赖于输入信号的底层处理发展到依赖特征、结构、关系和知识的高层次处理,性能不断提高,其理论也正处在不断发展与完善之中。双目立体视觉模拟人类双眼处理景物的方式,在许多领域都极具应用价值,如机器人导航与航测,三维测量学及虚拟现实等。国外在基于双目立体视觉的计算机三维重建方面,主要是对特征检测、立体匹配、摄像机标定和三维重建几个部分进行研究。立体匹配部分主要是研究特征的提取和匹配算法的完善,以便更加精确地建立匹配点的对应关系;三维重建部分主要是研究如何从已得到的匹配点中计算出摄像机的投影矩阵( 如果是外部标定的话,就是求出摄像机的外部参数) 以及如何计算出匹配点的三维坐标。苏黎世工业大学计算机视觉实验室研制了一种可穿戴手指跟踪系统,利用双目立体视觉测出手指距摄像头距离,并配合另一摄像头将手指从背景中分割出来,实时跟踪【1 2 】。多伦多大学研制了一种自动凋焦介入现实穿戴式头盔,利用双目视觉测出附近目标的深度信息,根据这个深度信息自动调整头盔现实图像距离,使显示图像与真实头像具有相同的深度,增强显示图像真实感【1 3 】。麻省理工学院计算机系提出了一种新的用于智能交通工具的传感器融合方式,由雷达系统提供目标深度的大致范围,利用双目立体视觉提供粗略的目标深度信息,结合改进的图像分割算法,能够在高速环境下对视频图像中的目标位置进行分割,而传统的目标分割算法难以在高速实时环境中得到令人满意的结果【1 4 】。目前国内在计算机双目立体视觉方面,无论是在摄像机标定技术还是在立体图像对的匹配算法上都进行了大量的研究,提出了许多比较完善的理论。浙江大学机械系完全利用透视成像原理,采用双目立体视觉实现了对多自由度机械装置的动态、精确位姿检测,仅需从两幅图像中抽取必要的特征点的三维坐标,信息量少,处理速度快,尤其适于动态情况。与手眼系统相比,被测物体的运动对摄像机没有影响,且不需要知道被测物的运动先验知识和限制条件,有利于提高检测精度【l5 1 。东南大学电子工程系基于双目立体视觉,提出了一种灰度相关多峰值视差绝对值极小化立体匹配新方法,可对三维不规则物理的三维空间坐标进行非接触精密测量l i6 。第一章绪论91 3 3 双目立体视觉研究存在的问题及发展趋势虽然双目立体视觉技术近年来得到了较快的发展,各国研究人员已经取得了一定的研究成果。但是就双目立体视觉技术的发展现状而言,要构造出类似于人眼的通用双目立体视觉系统,还有很长的路要走。这不仅仅涉及到技术上的原因,而且更多的在于人类对自身视觉机制还不十分了解,人类视觉系统具有惊人的分析和理解能力,但人类是如何获取和分析理解视觉知识的,至今还没有完全研究清楚。摄像机采集图像是三维场景在成像平面上的二维投影,而计算机视觉的问题本质上都是逆问题,是通过二维图像向三维场景逆转换的问题,因此输入视觉系统中三维重构场景所能利用的信息全部来自采集到的二维图像。输入图像的灰度受物体的几何特征、材料表面性质、颜色、环境光照及摄像机参数等许多因素的影响,由灰度反推以上各种参数是一个逆过程,往往都是非线性的,问题的解不具有唯一性,而且对噪声或离散量化引起的误差极其敏感,所以计算视觉本身存在一定的病态性,如何得到问题的鲁棒解或最优解成为三维重建过程的难点所在0 7 1o立体匹配作为双目立体视觉的核心,很多学者关注其理论与实践的研究,目前也已经提出了很多立体匹配算法,然而现有的算法均是针对具体的工程应用需求,迄今为止并没有一种通用的立体匹配算法,根本原因就在于现有的立体匹配理论和技术上都存在很多问题,例如,如何选取合理的匹配特征,以克服匹配准确性与恢复视差全面性的矛盾;如何选择有效的匹配准则和算法结构,以解决存在严重灰度失真、几何畸变、噪声干扰及遮挡物的匹配问题;如何建立更加有效的图像表达形式和立体视觉模型,以便更充分地反应景物的本质属性,为匹配提供更多的约束信息,降低立体匹配的难度。虽然现有的立体视觉系统还存在着这么多的问题,要构造出类似于人类视觉的通用立体视觉系统也不是近期内可以达到的,但是经过长期的研究,立体视觉已经有了很大的发展,其理论正处于不断发展与完善之中。双目立体视觉系统发展方向可归纳为如下:如何建立更有效的双目立体视觉模型,能更充分地反应立体视觉不确定性的本质属性,为匹配提供更多的约束信息,降低立体匹配的难度。探索新的实用于全面立体视觉的计算理论和匹配策略,选择有效的匹配准则和算法结构,以解决存在灰度失真、几何畸变( 透视、旋转、缩放等) 、噪声干扰、特殊结构( 重复相似结构等) 及遮掩景物的匹配问题。算法向并行化发展,提高速度,减少运算量,增强系统的实用性。1 0第一章绪论强调场景与任务的结束,针对不同的应用目的,建立有目的和面向任务的双目立体视觉系统。1 4 立体匹配技术研究现状立体匹配问题本质就是对予参考图像上的一个物体投影点如何在配准图像申寻找对应像素点的过程。立体匹配是双目立体视觉中极其关键也是最困难的一步,也是本文将要研究的重点内容,在后续章节中,本文将对立体匹配技术进行深入、细致的研究。在2 0 世纪7 0 年代,伴随着m a r r 视觉理论的提出,计算机视觉领域的学者们开始了立体匹配技术的研究,立体匹配技术在2 0 世纪8 0 年代在计算机视觉领域中成为研究的焦点之一,到了9 0 年代,立体匹配在各个方面逐渐成熟起来。由于立体匹配本身就是一个病态问题,尽管目前已经提出了多种立体匹配算法,其中不乏一些已经达到了极高的匹配精度,但是这些算法要么是针对特定应用提出的,要么是以增加计算量来获得匹配精度的提高,总的来说,迄今为止还不存在一种有效通用的立体匹配算法。1 4 1 立体匹配算法分类对于任何一种立体匹配方法的设计,其有效性主要依赖于三个因素,即选择合适的匹配基元、寻找相应的匹配准则和设计能够准确匹配选定基元的稳健算法。但由于立体匹配过程中涉及到诸多因素,其本身就是一个病态问题,因此至今没有形成一种通用的匹配方法,现有的立体匹配算法大都是针对特定的应用场合而提出来的。一般来说,目前现有的立体匹配方法大致可以归纳为三大类:区域匹配方法、特征匹配方法以及相位匹配方法【1 8 2 4 】。区域匹配区域匹配以参考图的待匹配像素点为中心创建一个窗口,用邻域像素的灰度值分布特征来表示该中心像素点,然后在配准图中搜索某一个像素点,同样以其为中心创建同样大小的一个窗口,并用其邻域像素的灰度值分布来表示它,当搜索区域中的某一像素使两个窗口的相似性准则最大化时,则认为这两个像素点是匹配的。区域匹配可以获得较稠密的视差图,从而最大程度地恢复场景的细节信息。然而区域匹配方法存在着它自身的缺陷。首先,邻域窗口的大小很难确定。如果窗口过小,则由于考虑的匹配基元比较小,容易造成误匹配;但如果窗口过大,第一章绪论则会对图像产生类似于平滑的效果,失去很多的特征细节。其次,对于无纹理区域常常由于相关函数变化的锐度不够以及难于保留深度不连续性,不能取得精确的匹配结果。再次,区域匹配方法是对窗口中所有像素点进行匹配,因此计算量过大,效率低,无法满足实时性的要求。特征匹配特征匹配首先要对待匹配图像进行预处理,即特征提取的过程,再利用提取到的特征完成两幅图像特征之间的匹配,通过特征的匹配关系建立图像之间的匹配映射关系。与区域匹配不同,特征匹配是有选择的匹配能表示景物自身特性的特征单元,通过更多的强调空间景物的结构信息来解决匹配歧义性的问题。常见的用于立体匹配的图像特征有角点、轮廓点、直线段、曲线段等。匹配特征的选取应该遵循一定的原则:其一,应使选取的特征对应景物的一定结构特性,并且这种景物特征能够在两幅图像中产生相似的结果;其二,所选取的特征不能太稀疏,否则会给后续三维内插重建操作产生困难;另外,对所处理的图像来说,所选取的特征的分布还应该能够尽可能的避免误匹配的产生。在许多方面,特征匹配在处理立体视觉问题时有很强的鲁棒性。首先,特征匹配基元包含了令人满意的统计特性以及算法编程上的灵活性;其次,特征匹配不直接依赖于图像灰度,具有较强的抗干扰性,因为特征点数量少,而且具有很强的特征性,所以匹配的结果比较可靠,而且速度快,效率高。当然特征匹配也存在着一些不足,其一,图像特征的稀疏性决定特征匹配只能得到稀疏视差图;其二,特征匹配结果的性能紧密依赖于特征提取的精度。相位匹配继区域匹配和特征匹配之后,k u g l i n 和h i n e s 等提出了另一种立体匹配算法,即相位匹配【2 5 1 。基于傅里叶平移定理的相位匹配算法的本质是对带通滤波后的空一频域定位性的基元信号相位信息进行处理而得到像对间的视差。与上述两类方法相比,作为匹配基元的相位信息本身反映了信号的结构信息,能有效抑制图像的高频噪声和畸变,且适于并行处理,可获得亚像素级精度的致密视差。相位匹配方法只要存在两个问题,其一,因带通输出信号的幅度太低而带来相位奇点问题;其二,由于相位匹配方法的收敛范围与带通滤波器的波长有关,需要考虑相位卷绕问题【2 酬。目前对立体匹配算法的评价还没有一个统一的标准,一般来说,可以从以下几个方面来比较各种算法的优劣性:精度:定量的表示了正确匹配的程度可靠性:表示排除总体分类误差的程度通用性:适用于不同场景的能力1 2第一章绪论复杂性:设备及计算量等的代价实时性:算法能否满足某些领域的实际应用1 4 。2 立体匹配的研究热点自计算机视觉学科诞生起,立体匹配一直是计算机视觉进一步发展的瓶颈阿题,因而也一直是学者们重点关注的对象和研究热点a 当前,立体匹配技术的研究主要集中在以下几个方面。特征提取图像特征的提取是立体匹配的前提,然而现有的条件只能获取三维景物在成像设备上投影所形成的二维图像,丢失了深度信息。此外,在成像过程中不可避免的存在遮挡问题。这些因素的存在制约了特征的提取,如何选择良好的特征,既能够体现景物的自身结构特点,又能够很好的解决遮挡问题,成为目前立体匹配的研究重点。匹配的病态问题现有的立体匹配算法均是在二维图像上重构三维信息,因此三维重构的过程是一个在丢失了深度维度信息的情况下进行的一个成像逆转换,这个逆转换过程又受到诸多因素如噪声、畸变等干扰,使得立体匹配只能是一个寻找最优解的过程,这就是立体匹配病态问题,它只能够得到匹配的最优解,然而某些时候最优解并一定存在。如何解决立体匹配的病态解问题是摆在我们面前的一道难题。匹配速度立体匹配问题的本质就是对应点的搜索问题,因此对于匹配速度的提升主要表现在搜索范围的缩小,搜索算法的改进和硬件设备性能的提高上。极线约束把搜索范围从二维降低到一维。针对不同的特定应用,新的算法在不断的提出。在硬件方面主要是采用专门的硬件实现,如v l s l 专用芯片、d s p 芯片等。匹配准确度匹配准确度的提升也可以大概从两个方面展开研究,硬件方面主要是采用三目或多目摄像机来解决遮挡问题;软件方面只要集中在新算法的引进,如神经网络、遗传算法等;以及对原有经典算法的不断完善。1 5 本文的主要研究内容本文的主要研究工作是结合储备粮食数量智能识别课题的实际需求,提出了一种基于双目立体视觉技术的粮食数量智能识别方法,并给出了方法的具体思路第一章绪论1 3和框架结构,并对双目立体视觉中立体匹配问题特别是粮食图像的匹配问题进行了系统的讨论和研究,针对目前立体匹配技术存在的问题和缺陷,提出了以下两种解决办法:在分析和总结了现有的立体匹配经典算法和思路的基础上,本文提出了一种基于链码向量的边缘特征立体匹配算法,该算法根据袋装粮图像的特点,选择粮袋边缘作为匹配基元,将数学向量相似性设计为匹配代价函数,既提高了匹配的准确度,又能较大提升匹配的速度,同时为了最大程度的保证匹配的精确度,该算法将传统的l a p l a c e 算子进行了针对性的适当改进,提高了边缘检测的精度。立体匹配最终目标是为了实现三位重构,即实现视差信息的获取,然而现有的立体匹配技术还不是十分完善,究其原因在于立体匹配本身就是一个病态问题。针对此种情况,本文创新性的提出了一种视差获取的新思路,即一种基于标尺识别的视差获取算法,该算法通过对场景中标尺的识别,进而建立其他场景点与标尺的关系模型,从而实现了无需通过立体匹配技术而直接精确定位对应像素点的目的,解决了目前视差信息的获取完全依赖于立体匹配技术的缺陷。1 6 论文的组织结构本文各章的内容组织结构安排如下:第一章主要论述了课题研究的背景和意义,对计算机视觉、双目立体视觉、特别是立体匹配技术的研究内容、现状进行了详细的介绍,重点介绍了本文研究的核心立体匹配技术的研究现状,同时对论文的结构进行了安排。第二章主要论述了双目立体视觉的基本理论。首先重点讨论了几种常用的坐标系及其各个坐标系之间的转换关系,然后对摄像机成像模型特别是针孔模型进行了细致的论述。接着对本文的研究核心内容立体匹配技术的基本理论进行了详细的阐述。首先,用数学语言对立体匹配过程建立数学模型并加以描述,接着详细的分析和解释了立体匹配过程中所遵循的约束条件,这些约束条件能够更好的保证立体匹配的精度,然后对视差理论进行了简单的介绍,最后介绍了相似性度量的基本理论,并介绍了几种常用的立体匹配代价函数。第三章主要论述了图像预处理的相关内容。双目立体视觉实现场景信息的三维重构的前提是图像的采集,本章简单的介绍了连续图像、数字图像的表示。双目立体图像对在其拍摄以及传输的过程中会不可避免的会产生噪声、畸变等,因此为了保证后续步骤的进行,有必要进行图像预处理操作。本文图像预处理操作主要包括滤波和灰度均衡校正。1 4第一章绪论第四章是本文的核心内容粮食图像的立体匹配算法直接决定了本课题的研究成败,因此本章首先提出了一种基于边界链码向量的边缘特征立体匹配算法,该算法选择的匹配基元为粮袋边缘。对于图像粮袋缘边的检测,本文通过对现有的l a p l a c e 边缘检测算子进行适当的改进,使其能够检测到更多的边缘信息且检测到的边

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论