(光学工程专业论文)机器视觉应用技术研究.pdf_第1页
(光学工程专业论文)机器视觉应用技术研究.pdf_第2页
(光学工程专业论文)机器视觉应用技术研究.pdf_第3页
(光学工程专业论文)机器视觉应用技术研究.pdf_第4页
(光学工程专业论文)机器视觉应用技术研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(光学工程专业论文)机器视觉应用技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 当前机器视觉技术越来越多地应用到智能交通领域,本文针对基 于机器视觉技术的驾驶防瞌睡装置,详细论述了机器视觉的基本理 论、当前的发展状况和应用情况,阐述了现今国内外防驾驶疲劳的各 种技术,提出了两套实行方案,并分别进行了计算机模拟研究,最终 选择了基于红外光源、差分图像、k a l m a n 滤波的方案进行原型系统 开发。本文完成了该系统的总体设计,开发了迥题圈堡的获取硬件, 研究了瞳孔检测与跟踪的算法,并应用此系统进行了实验。 最后,本文对基于此系统得到的实验结果进行了讨论,总结了本 1 次论文的创新点,并对以后的工作提出了改进意见和前景展望。 关键词:机器视觉,驾驶疲劳,、红眼效应;差分图像f k a l m a n 滤波 a b s t r a c t m a c h i n ev i s i o nh a sf o u n da ni n c r e a s i n g a p p l i c a t i o ni nt h ef i e l do f t r a f f i cm a n a g e m e n t 。i nt h i sp a p e ra d r o w s yd r i v e rd e t e c t i o ns y s t e mb a s e d o nm a c h i n ev i s i o ni s i n t r o d u c e d t h eb a s i c p r i n c i p l e ,c u r r e n t d e v e l o p m e n t a n d a p p l i c a t i o n o fm a c h i n ev i s i o na r ed e s c r i b e d a f t e r g i v i n gt h ed r o w s yd r i v e rd e t e c t i o nt e c h n o l o g i e si no u rn a t i o na n do t h e r c o u n t r i e s ,t w oe x p e l i m e n t a ts c h e m e sa r es i m u l a t e da n da n a l y z e d t h e n t h es c h e m eb a s e do nr e d e y ee f f e c t ,d i f f e r e n c ei m a g e a n dk a l m a nf i l t e r i sa d o p t e d t h i s p a p e rp a ya t t e n t i o nt oi n t r o d u c et h ed e s i g n i n go fs y s t e m , t h eh a r d w a r e d e v e l o p m e n t f o r c a p t u r i n gi m a g e ,a n da l g o r i t h m s o f d e t e c t i o n & t r a c k i n go f p u p i l f i n a l l y ;e x p e r i m e n t r e s u l t sb a s e do nt h i s s y s t e m a r e g i v e n a n d d i s c u s s e d 。f a c e dt h ed r a w b a c k so ft h ec u r r e n ts y s t e m ,t h i sp a p e rp u t f o r w a r ds o m en e wi d e a sa n d f o r e g r o u n d o ft h es y s t e m k e yw o r d :m a c h i n e 。v i s i o n ,d r i v e rf a t i g u e ,r e de y ee f f e c t ,d i f f e r e n c e i m a g e ,k a l m a n f i l t e r 致谢 本论文的研究工作是在徐向东教授的悉心指导下完成的,在论文 完成之际,首先衷心感谢徐向东教授在我研究生阶段在学习、业务、 思想、生活等诸多方面所给予的悉心关怀。徐老师渊博的学识、严谨 的治学态度、谦和的为人、忘我的科研精神深深地感染了我,使我在 学术品质与治学态度上受益匪浅。 衷心感谢陆祖康教授、吴碧珍高工、严惠民教授、曹向群教授、 陈建杭老师在课题工作中对我的各种帮助和支持,在他们的谆谆教导 和亲切关怀下,使我顺利的完成了课题工作。同时感谓 曾超等同学的 帮助和支持。感谢所有给我帮助的朋友们。 最后特别感谢作者的父母多年来艰辛地把作者抚养成人,对作者 无私的支持和鼓励。 李锋 2 0 0 3 年2 月求是园 浙江人学2 0 0 3 届坝| 学位论义光i b 信息r 程系李锋 第一章概述 人们从外界环境获取的信息中,8 0 来自f 视觉。人们的眼睛从自己周围的环 境获取大量信息,并传入大脑后,由大脑根据知识或经验,对信息进行加工、推 理等处理工作,最后识别、理解周围环境,包括环境内的对象物。机器视觉就是 用计算机模拟人眼的视觉功能,从图像或图像序列中提取信息,对客观世界的三 维景物和物体进行形态和运动识别。 机器视觉主要研究用计算机来模拟人的视觉功能,从客观事物的图像中提取 信息,进行处理并加以理解,最终用于实际检测、测量和控制。一个典型的工业 机器视觉应用系统包括光源、光学系统、图像捕捉系统、图像数字化模块、数字 图像处理模块、智能判断决策模块和机械控制执行模块,如图1 1 所示。首先采 用摄像机或其它图像拍摄装置,将目标转换成图像信号,然后转变成数字化信号 传送给专用的图像处理系统,根据像素分布、亮度和颜色等信息,进行各种运算 来抽取目标的特征,根据预设的容许度和其他条件输出判断结果。 机器视觉不会有人眼的疲劳,有着比人眼更高的精度和速度,借助红外线, 紫外线,x 射线,超声波等高新探测技术,机器视觉在探测不可视物体和高危险 场景时,更具有其突出的优点。机器视觉技术现已得到广泛的应用“目“1 。 1 机器视觉在工业检测中的应用 目前,机器视觉已成功地应用于工业检测领域,大幅度地提高了产品的质量 干l l 可靠性,保证了生产的速度。例如产品包装印刷质量的检测、饮料行业的容器 浙江人学2 0 0 3 届顺j :学位论文光l b 信息工程系李锋 质量检测、饮料填充检测、饮料品封口检测、木材厂木料检测、半导体集成块封 装质量检测、卷钢质量检测和水果分级检测等。在制药生产线上,使用机器视觉 技术可以对药品包装进行检测,以确定是否装入正确的药粒。 在木材加工中,要根据木料纹理检测木料中缺陷或测量木料的体积等。图 1 2 ( a ) 所示的是使用3 台激光扫描仪和3 台线阵c c d 摄像机完成对木料的3 6 0 ”全 检。图1 2 ( b ) 检查芯片的位置和方向,然后将计算结果送到安装程序,以保证 自动生产线上芯片的正确安装。图1 2 ( c ) 所示的是在芯片安装到印刷电路板上 之丽,检测芯片的管脚是否符合要求。 图1 2 机器视觉在工业检测中的应用 2 机器视觉在医学中应用 在医学领域,机器视觉用于辅助医生进行医学影像的分析,主要利用数字图 像处理技术、信息融合技术对x 射线透视图、核磁共振图像、c t 图像进行分析 或对其它医学影像数据的统计和分析。图5 是将多种医学图像融合在一起进行综 合分析。不同医学影像设备得到的是不同特性的生物组织的图像。例如,x 射线 反映的是骨骼组织,核磁共振影像反映的是有机组织图像,而医生往往需要考虑 骨骼与有机组织的关系,因而需要利用数字图像处理技术将两种图像适当地叠加 起来,以便于医学分析。 图1 3 医学影像融合分析 图1 4 是用数字图像处理的办法进行细胞个数统计的示意图。使用计算机 浙江大学2 0 0 3 届硕士学位论文 光电信息工程系李锋 利用数字图像的边缘提取与图像分割技术,自动完成细胞个数的统计,节省了人 力提高了效率。 图1 4 细胞个数统计 3 机器视觉在机器人导航及视觉伺服系统的应用 赋予机器人视觉是机器人研究的重点之一,其目的是要通过图像定位、图像 理解、向机器人运动控制系统反馈目标或自身的状态与位置信息。如图1 5 所示, 图中的摄像机被固定在云台下,一个机械手在一定范围内抓取和移动工件,摄像 机利用动态图像识别与跟踪算法,跟踪被移动工件,始终保持其处于视野的正中 位置。 图1 5 视觉伺服系统 4 机器视觉在图像监控、安防、交通管理中的应用 在闭路电视监控系统中,机器视觉技术被用于增强图像质量,捕捉突发事件, 监控复杂场景,鉴别身份,跟踪可疑目标等,能大幅度提高监控效率,减少危险 事件发生的概率。在交通管理系统中,机器视觉技术被用于车辆识别、调度,向 交通管理与指挥系统提供相关信息。 5 机器视觉在卫星遥感中的应用 卫星遥感图像信息量大,数据存在多种干扰和误差,处理和分析的工作量、 浙江人学2 0 0 3 届硕士学位论文光电信息工程系李锋 难度都很大。机器视觉技术被用于分析各种遥感图像,进行环境监测、地理测量, 根据地形、地貌的图像和图形特征,对地面目标进行自动识别、理解和分类等。 机器视觉技术的诞生和应用,极大地解放了人类劳动力,提高了生产自动化 水平,改善了人类生活现状,其应用前景极为广阔。目前在国外,机器视觉技术 已广泛应用于生产、生活中,而我国正处于起步阶段,急需广大科技工作者的共 同努力,来迅速提高我国机器视觉技术的发展水平,为我国的现代化建设做出自 己的贡献。 1 2 课题研究的目的和意义 机器视觉是一门新兴的发展迅速的学科,八十年代以来,机器视觉的研究已 经历了从实险室走向实际应用的发展阶段。从简单的二值图象处理到高分辨率多 灰度的图象处理,从一般的二维信息处理到三维视觉机理以及模型和算法的研究 都取得了很大的进展。而计算机工业水平的飞速提高以及人工智能、并行处理和 神经元网络等学科的发展,更促进了机器视觉系统的实用化和涉足许多复杂视觉 过程的研究。目前,机器视觉系统正在广泛地应用于视觉检测、机器人的视觉引 导和自动化装配领域中。本论文主要研究机器视觉在视觉检测中的应用一驾驶防 瞌睡装嚣。 掘文献“”介绍,全世界每年因交通事故而导致的死亡人数达6 0 万,直接经 济损失约1 2 5 亿美元,这些事故多与驾驶员疲劳驾驶有关。早期对驾驶疲劳的客 观测评主要从医学角度出发,借助医用脑电图仪、心电图仪、肌电图仪测试驾驶 员的脑电波形、心电波形、肌电波形,从而确定其疲劳程度。尽管这种方法比较 准确,但测试条件苛刻,过程复杂,不易推广应用。 在过去的1 0 年里,对驾驶疲劳测评技术的研究逐渐引起许多国家的普遍重 视,但是,目前为止,机动车驾驶员驾驶疲劳测评技术还未达到成熟的地步,实 用的系统尚未推出。本论文调查了国内外当前防驾驶疲劳技术研究进展,制定了 驾驶防瞌睡装置的系统方案,利用计算机开发了系统原型,并进行了实验分析。 浙江大学2 0 0 3 届颂士学位论文光电信息工程系李锋 1 3 论文的主要内容 本论文围绕机器视觉技术在视觉检测中的应用一驾驶防瞌睡装置进行阐述, 针对利用红外光源、c m o s 图像传感器构成的系统进行具体的分析,并给出了详尽 的实验结果和应用情况。 本论文主要内容如下: 第一章概述:主要介绍了机器视觉当前的一些应用领域,并对本次论文的 目的和意义进行了阐述。 第二章机器视觉理论:主要介绍了人类视觉的组成,机器视觉发展历史和 基本理论,比较了机器视觉和人类视觉的差异,最后介绍了模式识别的有关理论。 第三章驾驶防瞌睡装置:主要介绍了机器视觉在视觉检测中的应用一驾驶 防瞌睡装置,阐述了研究此类装置的必要性,国内外的研究状况,及对所设计的 两套方案进行比较。 第四章图像的获取:着重介绍了图像采集系统的主要硬件设备,包括光源, c m o s 图像传感器,u s b 接口等的基本知识和具体实现。 第五章瞳孔图像检测及跟踪i 这是论文最主要的部分,主要介绍了本次论 文瞳孔图像检测及跟踪所用到的相关技术,红眼效应、差分图像、图像分割算法、 k a l m a n 滤波器和p e r c l o s 澳d 评驾驶疲劳的机理。 第六章实验结果分析及展望:讨论了本论文所取得的一些试验结果,总结 了本次论文的创新点,并针对尚需进一步开展的研究给出相应的建议。 浙江大学2 0 0 3 届硕士学位论文光电信息工程系李锋 第二章机器视觉理论 机器视觉既是工程领域、也是科学领域中的一个富有挑战性的重要研究领 域。机器视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参与研 究,其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经 生理学和认知科学等。 视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断和军事等领域 中各种智能自主系统中不可分割的一部分。由于它的重要性,一些先进国家, 例如美国把对机器视觉的研究列为对经济和科学有广泛影响的科学和工程中的 重大基本问题,即所谓的重大挑战( g r a n dc h a l l e n g e ) 。“机器视觉的挑战是要 为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图像信 号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统 应该把所有这些处理都紧密地集成在一起。”作为一门学科,机器视觉开始于6 0 年代初,但机器视觉基本研究中的许多重要进展是在8 0 年代取得的。现在机器 视觉已成为一门不同于人工智能、图像处理、模式识别等相关领域的成熟学科。 机器视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对机器视觉的研 究非常有益。为此我们将先介绍人类视觉。 2 1 人类视觉m m 2 1 ,1 人类视觉系统 人的眼睛可以分辨出只有几十个光予的微弱光线;可以判断出垂直线不到l 度的倾斜,可以引导人们穿过拥挤的路口;还可以认出图画中物体的名称等。总 之眼睛具有许多功能,中国人甚至还有“眼见为实”的谚语。当然,这里所说的 眼睛事实上是指眼一脑系统。眼一脑系统在完成上述这些视觉功能时涉及不同的 视觉信息处理过程。人的视觉处理过程的特点,是一个从低到高的分层结构。例 如,从一幅图画中认出图中的物体就需要不同层次的信息处理。首先要分辨出表 示物体的线条,这涉及低层的视觉信息处理;根据以往的知识和经验,经过符号 解释识别物体的类别就涉及高层的处理。对人类视觉的研究就是试图分辨这些层 浙江大! 学2 0 0 3 届硕:匕学位论文光电信息工程系李锋 次,弄清各个层次所起的作用。为此要进行各种实验研究。在这里我们所感兴趣 的是对人类视觉进行的心理物理学( p s y c h 。p h y s i c a l ) 和神经生理学 ( n e u r o p h y s i o l o g y ) 实验;以及这些实验结果对机器视觉研究的影响。为了便 于区分这两种实验的研究领域,我们来分析一下眼睛和大脑细胞对输入刺激的响 应情况。如图2 1 所示,生物视觉系统的研究可分成二个层次。第一层是关于 图2 1 生物视觉系统的研究层次 单个神经细胞的特性。它研究当受到某种输入信号的刺激时单个细胞的反应模 式。这是神经生理学主要的研究内容。一般来说,神经生理学主要研究单个或一 小簇神经细胞的行为。这时通常要实验量测神经细胞对输入信号所作的编码输 出。其中可能包括输出编码信号的空间位置、作用频率、响应幅度等。当然,这 些神经细胞是相互联系,共同配合产生输出的,特别在高层的视觉处理中更是这 样的。但要研究神经网络中的这些细胞是如何相互影响和作用是非常困难的。神 经网络对视觉信息处理的作用是生物视觉系统研究中的第二个层次。对这个层次 的研究仅仅是建立在发现输入信息与感知输出之间对应关系的基础上,这就是经 典的黑箱实验方法。这第二个研究层次就是心理物理学的研究范围5 ”。 我们可以把人类视觉系统看成一个有生命的光学变换器和信息处理系统。眼 睛就是光学变换器,并能进行部分处理工作。事实上在进化阶段上越是低级的生 物,它们的眼睛越担负更多的处理功能。为便于说明可把视觉系统分成三部分( 见 图2 2 ) 。这三部分都相当复杂,但相比而言,第一部分,光学系统,由于有关 的神经活动最少,因此最为简单:第二部分是视网膜。它把光信号转变成电信号, 并进行某些细胞一级的处理。第一、第二两部分都在眼睛里。最后一层是视觉通 路,它实质上是代表从视网膜到大脑皮层的视觉通路上所完成的复杂处理的统 称。 浙江大学2 0 0 3 届硕士学位论文光电信息工程系李锋 奥 。寞、 2 i 2 眼球的光学系统 图2 2 视觉系统的组成 人眼的外形接近球形,是一个直径为2 4 毫米的球状体,又称为眼球。眼球 壁由巩膜、脉络膜和视网膜组成( 图2 3 ) 。巩膜在眼球壁最外面,它主要起着 巩固、保护眼球的作用”1 。巩膜前面有六分之一是透明的,这部分称为角膜。 角膜厚度约为1 毫米,直径为l i 毫米,它好象是眼睛的玻璃窗户。光线由角膜 射入跟内。 图2 3 人眼模式图 脉络膜紧贴巩膜,起输送养料、滋养眼睛的作用。脉络膜最前面的环状部分 为虹膜。眼的颜色由虹膜中的色素决定。虹膜中央有一个小圆孔,叫做瞳孔。瞳 孔能控制进入眼内的光量,它可随光线的强弱而扩大或缩小,起照相机光圈的作 用。 虹膜后面为水晶体,它是透明的胶状体,并富有弹性。它将光线聚焦到视网 浙江大学2 0 0 3 届硕士学位论文光电信息工程系李锋 膜上。角膜与虹膜之间的空间为前房,位于虹膜和水晶体之间的空间为后房。这 两个房都充满水样液。水晶体后面的空间充满着叫玻璃体的液体。 眼球的第三层是视网膜,约占眼球内表面的2 3 。它含有感光细胞( 杆体细 胞和锥体细胞) 。从眼睛的构造可知,它的光路是由以下几部分组成:角膜、水 样液、虹膜、瞳孔、水晶体和玻璃体等。光线通过角膜进行眼球,然后经过水样 液到达虹膜。虹膜上的瞳孔随着光线的强度变化它的孔径大小( 从2 毫米到8 毫 米) 。强光时缩小、弱光时扩大。光线通过瞳孔后经过水晶体和玻璃体最后到达 视网膜。水晶体和玻璃体各有不同的折射率,以确定在视网膜上得到清晰的成像。 眼睛的感光系统就是视网膜,它如同照相机的底片。 2 2 机器视觉 2 2 1 什么是机器视觉 人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方 面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功 能越来越强,使用方法越来越复杂“”。这就使人在进行交谈和通讯时的灵活 性与目前在使用计算机时所要求的严格和死板的方式之间产生了尖锐的矛盾。人 可通过视觉、听觉和语言与外界交换信息,并且可用不同的方式表示相同的含义, 而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样,计算机才 能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计 算机、死记硬背计算机使用规则的情况,而是反过来让计算机来适应人的习惯和 要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、昕觉和 说话等能力,这时计算机必须具有逻辑推理和决策的能力,具有上述能力的计算 机就是智能计算机。 智能计算机不仅使计算机更便于人们使用,同时如果用这样的计算机来控制 各种自动化装置,特别是智能机器人,就可以使这些自动化系统和智能机器人具 有适应环境和自主作出决策的能力,这就可以在各种场合取代人的繁重工作,或 代替人到各种危险和恶劣环境中完成任务。 9 浙江大学2 0 3 届硕士学位论文光电信息工程系李锋 机器视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来 代替大脑完成处理和解释。机器视觉的最终研究目标就是使计算机能象人那样通 过视觉观察和理解世界,具有自主适应环境的能力。这是要经过长期努力才能达 到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系 统,这个系统能依据视觉敏感和反馈以某种程度的智能完成一定的任务。例如, 机器视觉的一个重要应用领域就是自主车辆的视觉导航,目前还没有条件实现象 人那样识别和理解任何环境、完成自主导航的系统。因此,目前人们努力的研究 目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助 驾驶系统。这里要指出的一点是在机器视觉系统中计算机起代替人脑的作用,但 并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。机器视觉可以而 且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视觉系统是迄 今为止,人们所知道的功能最强大和完善的视觉系统。在以下的章节中我们会看 到,对人类视觉处理机制的研究将给机器视觉的研究提供启发和指导。因此,用 计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一 个非常重要和令人感兴趣的研究领域。这方面的研究被称为计算视觉 ( c o m p u t a t i o n a lv i s i o n ) 。计算视觉可被认为是机器视觉中的一个研究领域。 有不少学科的研究目标与机器视觉相近或与此有关。这些学科包括图像处 理、模式识别或图像识别、景物分析、图像理解等。由于历史发展或领域本身的 特点这些学科互有差别,但又有某种程度的相互重叠。 ( 1 ) 图像处理 图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例 如,可通过处理使输出图像有较高的信噪比,或通过增强处理突出图像 的细节,以便于操作员的检验。在机器视觉研究中经常利用图像处理技 术进行预处理和特征抽取。 ( 2 ) 模式识别( 图像识别) 模式识别技术根据从图像抽取的统计特性或结构信息,把图像分成 预定的类别。例如,文字识别或指纹识别。在机器视觉中模式识别技术 经常用于对图像中的某些部分( 例如分割区域) 的识别和分类。 ( 3 ) 图像理解( 景物分析) 0 浙江火学2 0 0 3 届硕士学位论文光电信息工程系李锋 给定一幅图像,图像理解程序不仅描述图像本身,而且描述和解释图 像所代表的景物,以便对图像代表的内容做出决定。在人工智能视觉研究 的初期经常使用景物分析这个术语,以强调二维图像与三维景物之间的区 别。图像理解除了需要复杂的图像处理以外,还需要具有关于景物成像的 物理规律的知识以及与景物内容有关的知识。 在建立机器视觉系统时需要用到上述学科中的有关技术,但机器视觉 研究的内容要比这些学科更为广泛。机器视觉的研究与人类视觉的研究密 切相关。为实现建立与人的视觉系统相类似的通用机器,视觉系统的目标, 需要建立人类视觉的计算理论。 2 2 2 视觉的计算理论“1 视觉是一个根据图像发现周围景物中有什么物体和物体在什么地方的过程, 也就是从图像得到对观察者有用的符号描述的过程。因此,视觉是一个有明确输 入和输出的信息处理问题。 对机器视觉系统来说,输入是表示三维景物投影的灰度阵列。可以有若干个 输入阵列,这些阵列可提供不同方面或不同视角,不同时刻或在不同波长得到的 信息。希望的输出是对图像所代表景物的符号描述。这些描述的确切本质取决于 观察的目标和期望。通常这些描述是关于物体的类别和物体间的关系,但也可能 包括如表面空间结构,表面物理特性( 形状、纹理、颜色、材料、阴影) 以及光 源位置这样的信息。 从输入图像到得出景物描述之间存在着巨大的间隙,需要经过一系列的信息 处理和理解过程。对这个过程本质的认识是揭开视觉之谜的关键,但目前我们对 这些还远未了解清楚。以下我们对此过程作初步的分析。通过视觉识别物体就是 把图像的元素与已知的景物中的物体的描述或模型之间建立对应关系。图像中的 元素是点状的象素,象素的值就是这个象素处的灰度值,这是点状的数据。而与 此相对,物体是通过它的形状、大小、几何结构、颜色等特征来描述的。这些特 征代表物体的整体性质。要在输入的点状数据与物体的整体性质之间建立对应关 系就必须要经过一个把点状数据聚集( g r o u p i n g ) 起来的过程。这样的聚集过程 不只是在视觉中有,而且在听觉及其它感觉中也存在。 浙江大学2 0 0 3 届硕士学位论文光电信息工程系李锋 与如何形成整体性质相联系的问题是恒常性问题。大家都知道,图像中各点 的狄度是景物中多种因素综合作用的结果。这些因素包括光照条件、物体表面的 反射特性、观察者相对二f 物体的距离和方位、物体表面形状等。这些因素的任何 变化都会改变图像的灰 一 度,也就会改变我们看 到的图像。但是我们通 过视觉所感觉到的物体 的形状、大小和颜色都 是与观察者的状况以及 照明条件无关的。具体 而言,当照明条件和观 察者相对物体的距离方 位发生变化时,虽然在 视网膜上产生的图像要 随之而变化,但人看到 巡燮i叫,、 差三兰构竺之岁将来楚理竺至多 重构外部世界的物理参数 一参数的深度或方向 一表面的颜色或反射率 一物体的边界 所见物体描述的识别 知识导引f 的推理 l 心理学i i 神经科学i 图2 4 计算机视觉中的两种方法 的总是某种形状和大小的物体。例如,当你从不同角度和距离观察一张桌子时, 桌子在你的眼睛视网膜上的成像会随之而改变,但你看到的始终是一定大小和形 状的桌子。外部世界投影在视网膜上产生了图像,这是一个敏感的过程。这个过 程得到的图像是以点的方式组织在一起的,是经常变化的。但人在大脑中感觉到 的是物体可变的外表后面的恒定特征。因此,大脑不但把点状的传感信息聚集成 整体,而且经过一个因素分解过程( f a c t o r i n g ) 把这些影响传感器信息的条件, 即照明条件、观察者的距离和方位等因素分离出去,得到纯粹的关于物体的信息。 这些信息是不随上述条件而变的,因此被称为恒常性( c o n s t a n c i e s ) 。总之,大 脑不是直接根据外部世乔在视网膜上的投影成像,而是根据经过聚集过程和因素 分解过程处理以后的信息来识别物体的。 与分析上述两种处理过程有关的一个非常重要的问题,是把点状的图像信息 变换成整体描述的聚集过程与对各种影响成像结果的因素进行分解过程之间的 关系。在没有完成因素分解过程以前我们能着手进行聚集过程吗? 以m a r r 为首 的一些科学家认为在得到关于物体的纯净的信息( c l e a ni n f o r m a t i o n ) ,例如深 浙江大学2 0 0 3 届硕上学位论文光电信息工程系李锋 度、表面、方向、反射率等以前,做任何聚集的处理都是无用的。他们把这样的 纯净信息称为本征图像( i n t r i n s i ci m a g e ) ,因此他们采用基于重构 ( r e c o n s t r u c t i o n ) 的视觉信息处理方法,也就是通过重构这些本征图像来识别 物体。而另一派科学家则认为某些预先进行的聚集过程不仅可以为因素分解过程 提供必要的基础,而且还可形成某种反应物体空间结构的图像关系,根据这些图 像关系可以产生对图像内容的假设。因此,他们采用了基于推理和识别的视觉信 息处理方法。前一种观点是以m a r r 关于人类视觉的计算理论为代表:后一种观 点是以g e s t a l t ( g e s t a l t ) 学派,及其后续者,如l o w e 、p e n t l a n d 等关于感知 组织( p e r c e p t i o no r g a n i z a t i o n ) 的理论为代表。这两派理论各自反映了视觉 过程中的基本矛盾,但都未能对视觉过程作出满意的解释。这两种理论的争论推 动了对视觉的研究( 见图2 4 ) 。 ( 1 ) m a r r ( 马尔) 的视觉计算理论“1 m a r r 的视觉计算理论立足于计算机科学,系统地概括了心理物理学、神经 生理学、临床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视 觉理论。l a r r 理论的出现对神经科学的发展和人工智能的研究产生了深远的影 响。 m a r r 认为视觉是一个信息处理过程。这个过程根据外部世界的图像产生对 观察者有用的描述。这些描述依次由许多不同但固定的、每个都记录了外界的某 方面特征的表象( r e p r e s e n t a t i o n ) 所构成或组合而成。种新的表象之所以提 高了一步是因为新的表象表达了某种信息,而这种信息将便于对信息作进一步解 释。按这种逻辑来思考可得到这样的结论:即在对数据作进一步解释以前我们需 要关于被观察物体的某些信息,这就是所谓的本征图像。然而,数据进入我们的 眼睛是要以光线为媒介的。灰度图像中至少包含关于照明情况、观察者相对于物 体位置的信息。因此,按m a r r 的方法首先要解决的问题是如何把这些因素分解 丌。他认为低层视觉( 即视觉处理的第一阶段) 的目的就是要分清哪些变化是由 哪些因素引起的。大体上来说这个过程要经过两个步骤来完成:第一步是获得表 示图像中变化和结构的表象。这包括检测灰度的变化、表示和分析局部的几何结 构、以及检测照明的效应等处理。第一步得到的结果被称为初始简图( p r i m a l s k e t c h ) 的表象;第二步对初始简图进行一系列运算得到能反映可见表面几何特 征的表象,这种表象被称为二维半( 2 5d ) 简图或本征图像。这些运算中包括 浙江大学2 0 0 3 届硕士学位论文光电信患工程系李锋 = i 立体裰觉运葵提取深度信感,校据灰魔影调、纹理等信息恢复表露方两,由运 动视觉运算获取裘面形状和空间关系信息等。这贱运算的结果都集成到本征图像 这个中间表象层次。因为这个中间表象融经从原始的图像中去除了许多的多义 性,是纯粹地表示了物体表露的特征,其中包括光照、发射率、方向、鼹毫等。 根据本征图像表示的这些信息可以可靠地把图像分成有明确含义的区域( 这称为 分割) ,胰瑟可褥到滋线条、区域、形羧等更为薅层数攒述。这个层次兹处理豫 为中层视觉处理( i n t e r m e d i a t ep r o c e s s i n g ) 。m a r r 视觉理论中的下一个表象 鼷次是三维模壅,它适_ ; l 予物体瓣谖蹋。这个瑟次豹处鬻涉及镌俸,著羹簧依靠 和应用与领域有关的先骏知识来构成对景物的描述,因此被称为高层视觉处理。 m a r t 的视徽计算理论虽然怒首次提出的关予视觉的系统理论,并舀对机器 视觉的磺究起了匿大的撼动作用,但还遴来解决人类视觉的理论阅题,在实践中 也已遇到了严重困难。 ( 2 ) 基予挺理的投觉理论 由于只根据豳像数据本身不能对相威的物体空间结构提供充分的约柬,也就 楚穗这怒个豹寒不充分( u n d e r c o n s t r a i n e d ) 鹣闽题。疆此,为了理解圈像的 内容必须要有附加的约束条件。g e s t a l t 心理学家发现的感知组织现象悬种非 鬻有力豹关于象素整箨住熬瓣热终寒。麸嚣秀裰爨推理掇拱了基硝。g e s t a l t 是 德文g e s t a l t 的译音。英文中常译成f o r m ( 形式) 或s h a p e ( 形状) 。g e s t a l t 心理学家所研究盼出发点是“形”,它是糖获由知觉活动缀织成的经验中的整体。 换言之,格式塔心理学家认为任何“形”都是知觉进行了积极组织或构造的结果 或功能,而不是客体本身就有的。在视觉研究中g e s t a l t 理论认为把点状数据聚 簇成整传特,疰的聚集过程是掰鸯其它有懑义的处理过程的蒸础。人的视觉系统具 有在对景物中的物体无所知的情况下从景物的图像中得到相对的聚集 ( g r o u p i n g ) 释续棱懿疑秀。这耪麓力披称必惑鲡缀织。按g e s t a l t 瑷论感j 藁缀 织的基本原理被称为p r a g m a n t ,意即“简约合崴”。它来源于g e s t a l t 心理学家 发现有黧“形”埝入静静感受是板为愉悦瓣。这就是郧黧在特定条释下筏觉藕激 被组织得最好、最规则( 对称、统、和谐) 、具有壤大限度的简单明了性的“形”。 对这种形他们发明了一个独特的字眼,郎p r a g n a n t ,有入把这个词译成“完形”。 人嚣视觉系统具有很强麴检测多种图案翻随机的、但又裔显著特色的图像元素排 列的能力。例如,人可从随机分布的图像元素中驻即检测出对称性、集群、共线 1 4 浙江大学2 0 0 3 届硕士学位论文光电信息工程系牟锋 性、平行性、连通性和重复纹理等。感知组织把点状的传感数据变换成客观的表 象。在这些表象中用于描述的词藻不是以点状形式定义的图像中的灰度,而是如 形状、形态、运动和空间分布这样的描述。由感知组织完成的这样的变换可被看 作与对实函数作f o u r i e r 变换相似。在作f o u r i e r 分析时,一个函数是以f o u r i e r 域中的f o u r i e r 分量来表示的。利用f o u r i e r 分析,我们可以用一组f o u r i e r 系 数来描述一个函数。这样做的优点是用一组有限的系数就可提供一个良好的整体 描述,这样使复杂性大为降低。虽然,很可能这个函数没有一个点的值是被正确 地表示出来。这里就象是在感知中那样,局部与整体虽然是相互联系的,但本质 上是不同的。总之,感知组织对传感器数据进行了整体的分析,得到一组宏观的 表象。这样的宏观表象就是我们在进行认知活动时使用的基本构件,用它们可构 成我们对外部世界的描述。 g e s t a l t 理论反映了人类视觉本质的某些方面,但它对感知组织的基本原理 只是一种公理性的描述,而不是一种机理性的描述。因此自从在本世纪二十年代 提出以来未能对视觉研究产生根本性的指导作用。但是研究者对感知组织原理的 研究一直没有停止。特别是在8 0 年代以后,w i t k i n 和t e n e n b a u m ,l o w e ,p e n t l a n d 等人在感知组织的原理,以及在视觉处理中的应用等方面取得了新的重要研究成 果。 ( 3 ) 现有视觉理论的革新 如前所述机器视觉研究的发展开始于6 0 年代初,在基本研究方面取得显著 进展是在7 0 年代末和8 0 年代。这主要归功于w a r r 的视觉计算理论的推动。这 个理论立足于计算机科学,系统地概括了心理物理学、神经生理学、临床病理神 经学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。w a r r 理论 的出现无论对人工智能研究和神经科学的发展都产生了深远的影响。m a r r 理论 的出现使得8 0 年代的机器视觉的研究与以前相比有显著不同。主要表现在研究 内容和方向集中在与人类视觉系统中的感知独立模块相对应的课题上,也就是根 据影调、运动、立体、轮廓、纹理等线索恢复物体表面的形状。这些研究极大地 深化了机器视觉的研究。但是m a r r 的视觉计算理论还不能被认为是一个完善的 理论。它没能反映人类视觉的某些重要的本质,这就是人类视觉中的选择性和整 体性。 人类视觉最显著的特点之一是有选择性。这是指观察者的注意力总是有目的 浙江大学2 0 0 3 届顶士学位论文光电信息工程系李锋 地指向他最感兴趣的事物。一般生物最注意的是环境中时常变化的事物,忽略固 定不变的事物。因为这样就可以迅速辨别出什么是对自己有益的,什么是对自己 有害的。从而作出攫取或躲避反应。另一个重要的特点,如g e s t a l t 心理学家发 现的那样,是人类具有对图像数据进行组织归纳的能力,也就是在多个层次上发 现图像数据的规则性( r e g u l a r i t y ) 、一致性( c o h e r e n c e ) 、连续性( c o n t i n u i t y ) 等整体特性的能力。实验证明,人类视觉系统具有在低层处理中获取图像拓扑特 性的能力。 m a r r 的理论完全不考虑视觉中的选择性和整体性,把初级视觉研究的目标 确定为按照各种物理模型和附加约束条件,根据图像中各点灰度或其它测量结 果,恢复景物中表面的有关特性,如表面方向、深度、反射率等。但由于图像中 各点的狄度是光照,表面材料的反射特性、表面方向、观察方位等多种因素共同 作用的结果。并且在成像过程中失去了各点的距离信息,所以,根据图像中的测 量值( 如灰度) 恢复相应表面的三维特性( 如,深度、方向) ,从本质上来说是 一个约束不充分( u n d e r c o n s t r a i n e d ) 的问题。也就是说,图像的测量值本身不 能提供充分的信息来恢复相应表面的三维信息。因此,为能根据m a r r 理论恢复 表面的三维信息必须增加附加的约束条件。例如,把物体仅限于刚体的范围,假 设表面是连续的,各向同性的;或更为特殊的约束,如表面是由平面构成,点光 源照明,材料的反射率为常数等。这些约束条件只能在某些人造环境下( 例如在 所谓的“积木世界”) 得到满足,而在自然界或实际情况下通常是不满足的。而 且即使具备了这些条件,目前采用的大多数求解方法类似于求解经典的边值问 题。总的来说性能比较脆弱,容易出错。m a r r 理论的这些困难在8 0 年代末已经 暴露得较为明显。 由上述分析可知,现有的两种视觉信息的处理理论各自遇到了严重的困难, 还都不能自成系统地、可靠地处理视觉问题。因此,有的研究者提出了各种设想 对上述理论提出了修改,并试图把这两种方法以取长补短的方式结合起来。 一种改进的设想是基于模型的视觉理论。这种理论认为信息的概念是与从一 组候选的对象中作出选择相联系。如果不知道一组可供选择的刺激或响应,人们 就对刺激或响应无从说起。此外,人们还必须知道定义这组候选物和对这组候选 物的成员进行区别的特性或特征。而且随着要解决的任务不同,这些特征和特性 1 6 浙江大学2 0 0 3 届硕士学位论文光电信息工程系李锋 也不同的。例如,在视觉敏感中,刺激引起在视网膜的一组可能的状态中选择一 种状态,并得到一幅图像。在感知中,选择是根据不变量( c o n s t a n c i e s ) 和参 数( p a r a m e t e r s ) 作出的。如果一个婴儿能听到声音,但他的感知不变量只包括 “安静”和“噪声”的话,那么任何音乐对他来浣者将包括一样多的信息,而这 些音乐对一个i j i l 练有素的音乐家来说就会包含丰富得多的信息。 此外这种视觉理论利用特征检测器的概念作为把点状的图像数据与宏观信 息相联系的桥梁。因此,基于模型的视觉理论体现了g e s t a l t 理论中的选择和整 体性。 另一种改进的设想是连接主义模型( c o n n e c t i o n i s tm o d e lo fv i s i o n ) 。动 物的大脑进行计算的方式不同于当前传统的串行计算机。动物神经单元的计算相 对是比较慢的。但它们之间具有复杂的并行连接,形成高度的并行计算结构。当 前神经科学中的许多研究都是关于探索这些连接,以及试图发现这些连接是如何 传递信息的。视觉的连接主义理论的基本前提认为单个神经元并不传递大量的符 号信息,而是通过与许多相似的神经元以适当方式相连接来完成计算。从点状的 图像数据变换成一个整体的描述需要大量的计算,如前所述,这对目前的串行计 算机来说是难以承受的。而上述并行计算结构则提供了一种可能的途径。连接主 义模型的视觉理论认为h o u g h 变换起重要作用。h o u g h 变换利用样板或模型( 即 圆周、直线、和其它几何形状) 和参数( 变量) 来完成点状传感器数据到整体描 述的聚集。此外,h o u g h 交换从本质上来说是适合于由并行结构来实现。 ( 4 ) 感觉的解析计算模型 目前数字计算机已能代替人完成复杂的科学计算,其速度远超过人脑。并 且现在已研制出能在比较窄的领域里表现出成年人推理能力的程序。但目前由计 算机控制的智能机器在感觉能力方面表现出来的水平大致只能与蚱蜢相当。人们 在这些领域里所作的努力是差不多的,但结果却有这么大的差别,其原因是什 么? 此外,人类感觉的反应是极其迅速,并且非常可靠的。这可能意昧着,感觉 系统的工作更象是从某种相关的记忆里作回想,而不是进行了某种计算。这里所 说的是指由模型化为“图灵机”( t u r i n gm a c h i n e ) 或其等同物的计算。因此, 这就很自然地产生一个问题,感觉过程能否模型化为图灵机,并用数字计算机来 实现呢? 也就是说,感觉过程的模型能否建立在符号计算的基础上。对人脑和神 经生理的许多研究成果表明解析计算( a n a l y t i c a lc o m p u t a t i o n ) 能更好地反映 浙江大学2 0 0 3 届坝l 学位论文光电信息工程系李锋 感觉过程的某些重要特征。h o p f i e l d 的神经网络模型就是一种解析计算模型。 这种模型认为人脑中进行的信息处理不是离散的符号处理,而是一种连续的 反应过程。这就是说,神经网络中的神经元之间的信息交流在除了最后一层以外 的所有层次上都是连续的。来自环境的输入信息引起网络的进化过程,这个过程 是由某种最小值原则导引的。系统的稳定状态就是系统的局部最小值。这样的连 续过程服从解析计算模型的微分方程。目前这方面的研究已引起广泛的兴趣,并 已取得不少有意义的成果“” 2 2 3 人类视觉与机器视觉的比较“1 目前人们所建立的各种视觉系统极大多数是只适用于某一特定环境或应用 场合的专用系统,而要建立一个可与人类的视觉系统相比拟的通用视觉系统是非 常困难的。主要原因有以下几点: 1 图像对景物的约束不充分。首先是图像本身不能提供足够的信息来恢复 景物,其次是当把三维景物投影成二维图像时丧失了深度信息。因此,需要附加 的约束4 能解决从图像恢复景物时的多义性。 2 多种因素在图像中相互混淆。物体的外表受材料的性质、空气条件、光 源角度、背景光照、摄象机角度和特性等因素的影响。所有这些因素都归结到一 个单一的测量,即象素的灰度。要确定各种因素对象素灰度的作用大小是很困难 的。 3 理解自然景物要求大量知识。例如,要用到阴影、纹理、立体视觉、物 体大小的知识;关于物体的专门知识或通用知识,可能还有关于物体间关系的知 识等。由于所需的知识量极大,难以简单地用人工进行输入,可能要求通过自动 知识获取方法来建立。 4 人类虽然自己就是视觉的专家,但它又不同于人的问题求解过程,难以 说出自己是如何看见事物,从而给机器视觉的研究提供直接的指导。 视觉机理的复杂深奥使有些学者不禁感叹道:如果不是因为有人的视觉系统 作为通用视觉系统的实例存在的话,他都怀疑不能找到建立通用视觉系统的途 径。从另方面来看,正如r o s s e n 所说的:“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论