




已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)彩色污损机票图像高精度多区域字符串定位.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着航空事业的发展,票据部门成了一个巨大的档案馆,迫切需要一个通过计算 机管理的自动化文档存储检索系统,通过网络对机纂进行查询等处理。该机票自 动处理系统对扫描图像作自动区域定位,连续o c r 和数据库自动录入,以及提供 网络检索技术,最后生成图像文档和索引 本文所描述的系统是机票自动处理系统的预处理部分。在该子系统中我们提出了 一个检测和定位彩色机票图像中污损字符串技术对该子系统的大致描述如下: 对彩色机票图像进行图像处理,得到字符图像,再对字符图像应用自动目标识别 ( a u t o m a t i ct a r g e tr e c o g n i t i o n ,a t r ) 技术进行多区域字符串定位。 机票图像一般具有以下特点:不规则机票表格中的字符串是由计算机打印生成, 对比度低且容易偏离表格,无法用常用的方法处理。因此,本文针对机票复杂背 景首先提出了一个进行字符分离的高准确率新算法。该方法采用一个基于主成分 分析f p r i n c i p a lc o m p o n e n t sa n c i l y s i s ,p c aj 和学习向量量亿f l e a r n i n g v e c t orq u a n t i z a t i o n ,l v q ) 混合神经网络作为高效的字符提取器,实际应用证 明该字符提取算法准确率高,为准确的字符定位和o c r 提供良好的输入。同时, 我们推广了传统的灰度阈值分割二值化方法,在彩色空间采用决策树和局部阈值 方法进行彩色图像二值化的研究与试验然后,基干几何先验知识和字符提取结 果,我们应用扩展最大平均相关高度( e x t e n d e dm a x i m u ma v er a g e c o r r e l a t i o nh e i g h t ,e m a c h ) 相关滤波器,检测进而准确定位期望字符区域。 试验结果表明该方法准确率高,可以为o c r 提供良好的输入。 文档图像分析是模式识别领域比较成熟的方面,但文档图像分析领域仍然没有一 个通用的解决方法,因此该方面的研究仍处于初级阶段。飞机票系统就是在该领 域探索的一个典型的例子一我们将几种模式识别技术应用到文档图像分析领 域,从而取得比较好的效果。因此,与已经出版的相关中英文文献比较,我们的 尝试具有原创性和新颖性。 关键字:l v q ,p c a ,神经网络,图像处理i a t a 机票,相关滤波器,模式识别 多区域表格 a b s t r a c t a bs t r a c t w i t h a c c e l e r a t i n gd e v e l o p m e n t o f f l i g h t b u s i n e s s ,a i r l i n e c o m p a n i e s n e e da n a u t o m a t i c p r o c e ss i n gs y s t e m t os a v ea n dr e t r i e v ea i r l i n et i c k e t c o u p o n s t h e r e q u i r e m e n ti n c l u d e sa u t o m a t i cs c a n n i n g ,l a y o u ta n a l y s i s ,o c ra n dv e r i f i c a t i o n i nt h ist h e s i s ,w ef i r s tr e v i e wr e l a t e dm a t e r i a l so f “h i g hs p e e df l i g h tc o u p o ni m a g e p r o c e s s i n gs y s t e m a n di t sm o d u l e “h i g ha c c u r a c yl o c a t i o ni n m u l t i f i e l d st a b u l a r i m a g e ”g e n e r a l l y ,w ep r o c e s sc o l o r c o u p o ni m a g e s ,r e t r i e v ee x p e c t e d c h a r a c t e r s t r i n g s ,a n dl o c a t et h e mb ya p p l y i n ga u t o m a t i ct a r g e tr e c o g n i t i o n ( a t r ) t e c h n i q u e a i r l i n e c o u p o n s h a v e f o l l o w i n gf e a t u r e s :( i ) c o u p o n s a r ec a r b o n c o p i e s ,l o w i n c o n t r a s t ,n o i s ya n ds m u d g y ;( i i ) f o rc o m p u t e r p r i n t e dc h a r a c t e r s ,t h ee n t i r es t r i n g c o u l db es h i f t e do u to ft h et a b l ea n ds k e w e dd u et o i m p r o p e rp a p e rf e e d i n g i n p r i n t i n gp h a s e ;( i i i ) p i t c h e sb e t w e e nc h a r a c t e r sv a r yf r o mo n ec o u p o nt oa n o t h e r ,b u t t h e y a r et h es a m ei no n e c o u p o n i nt h i st h e s i s ,a n e wa l g o r i t h mi s p r e s e n t e d t o e x t r a c tc h a r a c t e rs t r i n g s a c c u r a t e l y f r o mc o m p l e xc o l o ra i r l i n e c o u p o ni m a g e s a h y b r i d n e u r a ln e t w o r kc o m b i n e dw i t h l e a r n i n g v e c t o r q u a n t i z a t i o n ( l v q ) a n d p r i n c i p a lc o m p o n e n t sa n a l ys i s ( p c a ) i s a p p l i e d a st h ee f f e c t i v ec h a r a c t e r s t r i n g e x t r a c t o rt os e p a r a t ec o u p o ns t r i n g sa n db a c k g r o u n d w ea l s oe x t e n dac o n v e n t i o n a l b i n a r i z a t i o nm e t h o dt oc o l o rs p a c ea n dd e v is ean o v e lw i n d o w e dc o l o rb i n a r i z a t i o n m e t h o dt os o l v en e wp r o b l e m si nc o l o ri m a g e s a f t e rc o l o rb i n a r i z a t i o n ,at e c h n i q u e t od e t e c ta n dl o c a t es m u d g yc h a r a c t e rs t r i n g si n c o m p l e xt a b u l a rc o u p o ni m a g e si s p r e s e n t e d i n o u rr e s e a r c h ,e x t e n d e dm a x i m u m a v e r a g e c o r r e l a t i o n h e i g h t ( e m a c h ) c o r r e l a t i o nf i l t e ri sa p p l i e da sa na d a p t i v es h i f tl o c a t o rt od e t e c ta n dl o c a t e e x p e c t e dc h a r a c t e rs t r i n g sb a s e do ng e o m e t r i ci n f o r m a t i o na n ds t r i n gr e t r i e v a lr e s u l t t h er e s u l t sd e m o n s t r a t et h a to u r a l g o r i t h m i sa h i g h a c c u r a t e a p p r o a c h ,w h i c h p r o v i d e se x c e l l e n ti n p u to fo c r d o c u m e n ti m a g ea n a l y s i si so n eo ft h em a j o ra p p l i c a t i o n so fp a t t e r nr e c o g n i t i o n , b u ti ti ss t i l lf a rf r o mf o r m i n gag e n e r a lt h e o r y t h e r e f o r e ,m a n ys p e c i f i c p u r p o s e a p p r o a c h e sf o rt a b u l a ri m a g e sw e r eb u i l t ,a n do u rs y s t e mi so n eo ft h e s ea p p l i c a t i o n s a b s t r a c t t ot h eb e s to fo u fk n o w l e d g e ,o l i fr e s e a r c hi s o r i g i n a la n dn o v e lb ya p p l y i n gk n o w n c o n c e p t si np a t t e r nr e c o g n i t i o nt oan e w d o m a i nt op e r f o r mr e g i s t r a t i o nt a s k k e y w o r d s :l v q ,p c a ,n e u r a l n e t w o r k ,i m a g ep r o c e s s i n g ,c o u p o n c o r r e l a t i o nf i l t e r ,p a t t e r nr e c o g n i t i o n ,m u l t i f i e l d st a b l e i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签伯期:p 尸年 垆f 箩 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本 学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密掣 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名: 第一章绪论 第一章绪论 我硕士阶段的主要科研项目是“飞机票自动扫描处理识别系统”。在这个复杂的 系统里面,我主要负责“污损彩色机票图像高精度多区域字符串定位”子系统研 究工作。该子系统可以认为是o c r 的预处理部分。对该系统的大致描述如下:对 彩色机票图像进行图像处理,得到字符图像,再对字符图像进行模式识别,定位 多区域字符串。 1 1 论文概述 本文是我在硕士阶段参与学术项目的一个总结,因此内容主要包括如下几部分 第一章:绪论。本章对项目需求和设计做了背景介绍,然后概要描述文档图像分 析识别领域研究状况,特别是表格分析研究方面的历史与现状。 第二章:开发软硬件环境。该章让读者对该项目的开发设施有一个综合的了解。 第三章:模式识别和图像处理的前沿研究。在这部分里面,我把在该项目中采用 过的方法做了介绍。这里总共分为1 1 个小节,按我研发系统的流程安排顺序,分 别对在系统中使用的数字图像处理算法及其模式识别方法做了基本描述。每一个 小节中的算法或者概念都在系统中起着支撑作用。 第四章:算法及其结果。在这章里面,我将综合应用第三章所描述的方法和概念 将其组织和推广成几个有用的新算法。这一部内容基于我在杂志期干u 和国际会议 上发表的论文。 第五章:小结。这一部分对机票系统的未来和图像分析系统的发展做了一定的探 讨。 可以认为,文档图像分析是模式识别领域比较成熟的方面,例如o c r 的广泛应用。 但是,科研人员对于文档图像的分析仍然没有一个通用的解决方法,因此该方面 的研究仍处于初级阶段。虽然模式识别的实用化提出几十年,研究仍未了期。飞 华南理工大学硕士学位论文 机票系统就是这样一个典型的例子,投入高,准入门坎高。同时容易出初步效果 但是结果的改进慢。这其实模式识别系统的一个研究难题。希望以后的科研人员 可以借鉴我们走过的路子,真正解决文档图像分析这一难点。 1 2 项目背景 随着航空事业的发展,飞机票的处理问题日益突出。对管理细致的公司来说,乘 客的机票要保存7 年,这样票据部门就成了一个巨大的档案馆,文档工作人员成了 力工。费时费力而且效率低下。迫切需要计算机管理的一个自动化文档存储检索 系统,在世界范围内通过网络对机票进行查询等处理。目前市场没有合适的系统, 我们自主开发的系统已经逐步应用于大型民航公司。它应用扫描图像处理灰度图 和二值图分别适应票据还原和o c r ,o c r 区域自动识别和设定,连续o c r 干h _ j 错报警, 数据库自动录入,网络结构检索,m ss q ls e r v e r 及磁盘库与光盘库技术,实现飞 机票采用高速扫描仪生成图像文档和索引,一张机票的图像文件小于5 0 k b ,索引 以时间( 年月日) 和航班号分类,然后内部依次取顺序号;飞机票的机票号自动 连续o c r ,机票号和对应的索引号及机票图像成为票据数据的一个完整记录,便 于用索引号和机票号检索;一台机器日处理票据1 0 0 0 0 张;检索在公司内部网上进 行,并可赋不同权限。( 图1 一1 ) 口口 么= 3z = = = 检索工作站系统服务嚣 口 z = = = 图1 1 乜机票系统框架 f i g1 1 f r a m e w o r ko ff l i g h tc o u p o np r o c e s s i n gs y s t e m 第一章绪论 1 3 字符串定位子系统功能要求 机票字符根据印制的时间先后可以分为两类:1 ) 空白机票和2 ) 具体的内容信息。 空白机票包括表格线祀背景,具体内容信息是购票的时候才复印上去的,而且根 据具体航程的不同,某些字段会被置空。通过观察,我们认为机票图像的版面分 析有如下的难点j :( a ) 机票的内容信息是复印上去的,因此会被污损,有较多的噪 音以及较低的对比度;( b ) 由于复印时不正确进纸等原因,计算机打印字符和对 应的表格域之间存在偏移,甚至可能完全偏离表格。这是由于打印阶段造成的, 无法在扫描以及预处理中恢复,而且无法采用一般的表格版面分析的方法处理; ( c ) 由于空间信息不足以分割版面,因此即使表格线完全去掉,对字符的定位仍然 存在问题。由于字符的偏移,应用表格线去除算法则容易导致字符破损丢失( 图 1 2 ,其中b s p 是b i l l i n gs e t t l e m e n tp l a n 的缩写) 。 在灰度图像中,字符定位的准确性受表格线段的影响而构成较高难度,复杂背景 是妨碍机票文字切分的又一主要因素。部分背景由于和字符颜色相近,因此在灰 度图进行二值化的过程中造成了很多的困难,进而影响字符的准确识别。 图1 2 一张典型的b s p 机票 f i g1 2 at y p i c a lb s pc o u p o ni m a g e 通过研究与尝试,我们可以在彩色空间对机票进行图像处理。本文的工作是对机 票处理系统中彩色文字提取定位问题的前沿研究。该系统的输入部分采用高速彩 色影像扫描仪输入,经过纠偏处理之后得到彩色图像,输出是可以进行去噪和二 值化的字符图像。 1 4 表格文档分析领域文献综述 早期的文档版面分析研究简单的假设字符串的位置相对于表格线是固定的,然而 这个假设在大多数情况下并不适用4 ”。最近,研究人员开始对表格分类和分析开 华南理工大学硕士学位论文 展探索 4 1 , 4 3 , 4 4 ,这些工作可以分为模型驱动4 5 1 和数据驱动 4 6 1 。表格分析的关键 是从已知 4 7 1 或者未知1 4 8 1 的表格中抽取和定位期望的填充字符。 没有表格的指示信息,表格数据是毫无意义的。因此,数据的抽取和定位成了研 究的关键。我们可以通过两种基本方法完成定位任务:1 ) 首先去除表格,然后校 准数据区域( 即把字符串和对应的表格元素一一映射) 4 1 4 6 , 4 9 ,或者2 ) 直接耿出 数据域并进行图像恢复 1 1 。由于表格线的干扰,很多研究人员选择了第一种方法。 在以前的研究中1 19 , 2 0 ,我们将传统的灰度空间扩充到彩色空间,通过应用主成分 分析 1 4 和学习向量量化【1 7 1 在复杂背景中环境中去除表格线。由于很难开发一个用 于表格校准的通用系统,我们建立了一个专门用于处理含有计算机打印字符的表 格分析程序。 只有少数的表格处理系统是针对机票图像的,其中m a oe ta 1 s 的工作对于机票 图像研究有着重大的意义。然而,他们只是演示了大概王1 0 张票据,准确率大概为 8 0 ,而且没有进一步讨论图像质量对识别效果的影响。进一步,我们认为他们 还存在3 个主要缺点:1 ) 他们是将期望字符串的一个邻域全部输入光学字符识别 ( o c r ) 部分,然后采用一个类专家系统对识别结果进行字符串匹配。我们认为 这样耗时且容易导致错误;2 ) 他们在o c r 之前没有去除表格线,因此对于o c r 的要求时很高,而且人机交互将无法避免。我们尝试通过自动目标识别( a u t o m a t i c t a r g e tr e c o g n i t i o n ,a t r ) 方法进行目标定位,提供更好的定位结果以提高o c r 准确率;3 ) 他们利用了大量只存在于机票图像的冗余信息,所以他们的方法不容 易推广到其他包含机器打印字符的文档图像上。 进一步,我们对类似的文献1 4 1 4 4 ,4 6 ,4 7 ,5 0 1 做了比较。文献4 1 ,4 4 ,4 6 1 专注于去除线段。 因此,尽管在文献 4 1 1 的改进版本 5 叫中演示了该方法在机票图像方面的效果,他们 并没有把表格校准作为一个重要组成部分。我们认为,这是因为他们处理的填充 字符是手写的,而且字符之间的间隔非常明显。因此,期望字符很容易就可以通 过简单的方法( 例如连通域方法) 分组。然而,在机票中相邻字符并没有显著的 间隔,因此他们的方法并没有为表格校准提供有效的解决方案。c e s a r i n i 等人 4 7 】 通过指示区域和信息区域的关系,创建了一个属性关系图进行分析。然而尽管机 票图像上有相当多的指示区域,他们太小以致不能被容易的识别。进而,由于指 示区域和信息区域分属两类印刷类别,他们的几何关系经常的变动以致无法有效 的建立属性关系图。 第一章绪论 和我们研究相关的算法还包括工程图纸3 8 1 和地图3 9 1 的分析。然而,r h 于他们对于 字符和表格线相交的情况都无法得出高精度的结果,他们都无法应用在我们的系 统里面。多数对于颜色分割的研究1 都用于背景和字符可以显著区分的情形,所 以我们也无法直接应用这些研究结果。 我们的研究中,我们可以通过几何信息不精确的定位期望字符的邻域,然后我们 通过两个相关滤波器n 3 5 3 6 1 避免了校准误差。我们在预处理阶段从灰度空间扩展 到了彩色空间,然后我们应用频域目标定位方法和时域的几何信息,侦测和定位 目标对象。 华南理丁大学硕士学位论文 2 1 前端扫描硬件 第二章项e l 软硬件设备 k o d a k1 2 0 0 ( 图2 1 ) 是世界第一款可组合式彩色扫描仪,5 0 0 0 页的日处理量, 可以以相同的速度扫描黑白,灰度及彩色影像。最高扫描速率可达1 3 4 张影像分 钟。此外,专利技术的三色增强c c d 、电子彩色滤除、3 d 重张探测技术及高速全 新的信息接口。 图2 1 系统采用的扫描设备 f i g2 1 s c a nd e v i c e 其高速、即插即用使i e e e 13 4 9 ( 火线) 接口提高了速度。平板插件,轻松组合柯 达独有的可组合式平板附件可将各项工作整合。 扫描参数:双殛三色增强c c d ( i 2 6 0 ) ,灰度输出比特深度为2 5 6 级( 8 比特) , 彩色采集比特深度为4 0 比特( 红、绿、蓝,黑各个通道为1 0 比特。彩色输出比特 深度为2 4 比特,光分辨率3 0 0 d p i ,输出分辨率:黑臼,灰度和彩色7 5 1 0 0 1 5 0 2 0 0 3 0 0 4 0 0 6 0 0d p i ) 最大文件尺寸:标准存储器:2 9 7 m m 4 3 2 m m ( 1 1 7 i n 1 7 i n ) ,扩展存储器:2 9 7 m m 6 6 0 m m ( 1 1 7 i n 2 6 i n ) 供纸器:连续装载型自动文件供纸器达1 0 0 张容量 连接:i e e 1 3 9 4 ( 火线) 接口6 针接头 输出:j p e g ( 用于彩色和灰度影像) ,t i f f ( 用于双色影像) 第二章项目软硬件设备 生产速度:( 横向型,a 4 ,双色,灰度,彩色) 3 0 0 d p i 分辨率,3 3 p p m 6 7 i p m ( 影像,分 钟) ,2 0 0d p i 分辨率,5 0 p p m 1 0 0 i p m ,l s o d p i s j - 辨率,6 7 p p m l3 4 i p m 驱动:t w a i n 2 2 软件开发环境 2 2 1 研究环境 m a t l a b6 5 w i n d o w s2 0 0 0p r o f e s s i o n a l 2 2 2 。开发环境 v i s u a lc + + 6 0 w i n d o w s2 0 0 0p r o f e s s i o n a l v i s t l a ls o u r c e s a f e v i s u a ls t u d i o f i e t o r a c l e s q ls e r v e r 7 华南理t 大学硕士学位论文 第三章模式识别和图像处理的前沿研究 3 1 数字图像处理的基本概念 近年来,由于计算机技术的迅猛发展,计算机的速度越来越快,图像处理系统的 价格日益下降,从而使图像处理得以广泛应用于众多的科学与工程领域,如遥感、 工业检测、气象、侦测、通信、智能机器等。这些技术正在明显地改变人们的生 产手段和生活方式。传统的生产、管理、教育等,正向信息化、多样化转变。 人们用各种技术方式和手段对图像进行加工咀获得重要信息。它包括利用计算机 进行和完成的一系列工作,例如图像采集、获取、编码,图像的合成和产生,图 像的绘制和输出,图像变换、增强、恢复和重建,特征的提取和测量,序列图像 的校正,图像数据序的建立、索引、查询和抽取,图像的分类、表示和识别,3 d 景物的重建和图像匹配。图像和场景的解释和理解,以及推理、判断、决策和行 为规划等等。 凶此,数字图像处理可以被定义为:对一个物体的数字表示施加一系列的操作, 以得到所期望的结果,或者达到某种别的预定的目标。如不特别指明,数字图像 指的是一个被采样后的二维函数,采用等距离矩形网格采样,对幅度进行等间隔 量化。至此,一幅数字图像是一个采样数值的二维矩阵 2 1 。 数字图像处理本来是指将一幅图像变为另一幅经过修改( 改进) 的图像,因此是 一个由图像到图像的过程。数字图像分析则是指将一幅图像转化为一种非图像的 表示,。例如,若幅数字图像中包含几个物体,图像分析程序可通过对其进行 分析后定位这些物体 2 1 。 一些常见的数字图像处理应用包括: 图像增强:图像增强是用改进供人观测的图像的主观感受,而不一定追究图像降 质的原因。直方图修正,图像轮廓等常用手段。 第三章模式识别和图像处理的前沿研究 图像恢复:图像恢复则主要找出图像降质的起因,并尽可能消除它,使图像恢复 本来面目,常用的恢复有纠正几何失真、从已知图像信号和噪声的统计特性滤波 等方法来改善信噪比。 图像变换:图像处理的方法可以分为两大类:空域法和频域法。其频域法也称为 变换域法,在频域法中预处理就是图像变换,这种变换一般是线性变换,线性运 算定严格可逆的,并且满足一定的正交条件,因此,也将其称为酉变换。常用的 图像变换有傅立叶变换、d c t 变换,小波变换等。 图像编码:二雏形式呈现的数字图像,其信息量很大,图像中又有很大冗余信息 根据香农失真理论。不论在传输或存储时,都可对数字图像进行一定方式编码, 删除冗余信息,实现不失真压缩,或在容许失真限度内的进行有失真压缩,以换 取更大的压缩率供人观看的图像,如电视信号,这时人是通信系统中的一环,人 的视觉特性,如掩盖效应,对灰度分辨率和分辨的有限性等,也可以用来为压缩 服务。 图像配准:图像配准可以近似地看成匹配的过程。简单地说就是根据图像的某些 区域或者特征,在另一幅图像中找到对应的区域或者特征。图像配准在图像识别、 图像拼接、三维图像的重建等方面有着重要的应用。 图像分析和特征提取:图像分析( 或称为图像理解) 可看作是一个描述过程,主 要研究用自动或半自动装置和系统,从图像中提取有用的数据,生成图像的描述 或者表示,这是当前图像处理与识别领域中一个最为活跃的分支。图像分析的内 容分为特征提取、符号描述、目标检测、景物匹配和识别等几个部分。图像特征 是指图像场中可用作标志的属性,其中有些是视觉直接感受到的自然特征,如区 域的亮度、彩色、纹理或轮廓等等。图像特征提取就是从图像中提取出某些可能 涉及到高层语义信息的图像特征,以方便后续的分析。 目标和运动检测:目标检测是运动分析领域的一项重要研究内容。在监控系统、 控制系统、仿真系统中,目标检测都扮演着重要的角色。目标检测按照有无人的 参与可以分成两类:第一是自动目标识别,在实现的过程中不需要加入额外的干 预;第二是交互目标检测,这种检测方式在实现过程中需要加入一些交互信息, 从而实现更为精确的目标提取。 华南理工大学硕士学位论文 图像分割:人能方便地从图像中找出感兴趣的物体或区域,而要计算机做到这一 点却需要给它测度,使之按照灰度、颜色或几何性质等把一些物体或区域加以分 离。用适当的数学语言( 如图论、句法、形态学等) 来表示其统计或者区域之间 的关系,得简练的表达方式,这叫做描述。 图像识别:视觉识别是人和动物的眼脑系统固有的功能,它是在长期的进化中形 成的。要使用计算机能代替人类完成各种复杂工作和识别景物,就必须赋予它有 近于人的视觉功能和识别能力。由于对人的视觉机理至今研究得仍然不够,完美 的视觉模型尚未建立,因而,目前用图像处理和识别技术能识别的景物是相对简 单的。模板匹配、统计谚 别等是一些常用的识别方法。 3 2 图像的感知及其获取 由于计算机只能处理数字图像,而自然界提供的图像却是模拟形式的,所以数字 图像处理的一个先决条件就是将图像转化为数字形式。图像数字化就是将连续图 像离散化,其工作包括两个方面:取样和量化 3 1 。 所谓取样,就走把一幅连续图像在空间, 二分割成网格,每个网格用一亮度值来表 示。山于结果是一个样点值阵列,故又叫点阵取样。取样使连续图像在空间上离 散化,但取样点上图像的亮度值还是某个幅度区间内的连续分布。根据取样定义 每个网格上只能用一个确定的亮度值表示,把取样点对应的亮度连续变化区间转 换为单个特定数码的过程,称之为量化,即样点亮度的离散化。 原则上,在满足取样定理的情况下,重建图像就不会产生失真。在数字图像处理 的发展初期,图像数字化的设备十分昂贵和复杂,只有很少数的研究中心能够负 担得起。随着技术的进步,现在这些设备已比较便宜而被广泛应用了。例如本项 目采用的i 2 6 0 系列彩色扫描仪。 3 2 1 视觉基础 光线照在物体上其透射或反射光的就是“图”,形成的印象或认识就是“像”。 前者是客观存在,后者是人的感觉,图像就是二者的结合。如图3 1 所示是人眼构 造的截面示意图 4 1 。 第三章模式识别和图像处理的前沿研究 图3 1 人眼构造截面示意图 f i g3 - 1 s t r u c t u r eo fh u m a n 。se y e 视觉系统从外界获取图像,就是在眼睛视网膜上获得周同世界的光学成像,然后 由视觉接收器( 杆状体和锥状体在视网膜作为视觉接收器) 将光图像信息转化为 视网膜的神经活动电信息,最后通过视神经纤维,把这些图像信号传送入大脑, 由大脑获得图像感知。视网膜上有杆状体和锥状体两类视觉接收器。 3 2 2 图像获取 图像获取就是图像的数字化过程,即将图像采集到计算机中的过程,主要涉及成 象及模数转换技术。随着计算机与微电子成像设备 y :( f ) , 则此系统是线性的当且仅当它具有如下性质: 工1 ( f ) + x 2 ( t ) _ y l ( t ) + y z ( r ) ( 7 ) 即先前两个信号的和作为输入产生的输出等于先前两个输出的和。任何不满足此 约束的系统都是非线性的。线性系统分析在许多领域都有广泛的应用。然而其复 杂程度远远超过线性系统分析,而就我们的应用而言并不要求这种附加的复杂性。 因此,我们将把讨论仅局限于线性系统分析上。 线性系统的定义说明,两个输入信号之和所产生的输出等于这两信号单独作用于 该系统所产生的输出之和。据此我们可以得到,若输入信号乘以一个有理数,则 输出信号将增加同样的倍数。 移不变性:一个某些系统具有的有用性质叫作移不变性,其定义如下。假设,对 某线性系统,让我们将输入信号沿时间轴平移t ,若x ( f r ) _ ) p r ) ,即输出信号 除平移同样长度外其他不变,则系统具有移不变性。对于移不变系统,平移输入 信号仅使输出信号移动同样长度。重要的是输出信号的性质不变。空间移不变性 华南理工大学硕士学位论文 是时间平移不变性的二维推广:若输入图像相对于其原点有一平移,则输出图像 除了相同的平移。 采用线性系统理论对一个过程进行分析,其前提是此过程可用( 或至少近似地可 用) 线性系统做模型。若被研究的系统不满足线性要求,那么它就是非线性的, 则采用线性系统理论将得到不精确的,甚至会是错误的结果。若系统仅有些轻微 非线性,则它可被假设为线性系统进行分析,但分析结果仅在假设范围内有效。 轻微非线性的系统常采用线性系统理论来研究,这是因为线性系统理沦易于处理 和求解。然而,在对非线性系统进行如此处理时必须小心,因为当线性假设不能 得到满足时,线性系统理论也就失效了。在分析时,除了数学方法外,还要注意 前提假设的有效性。 3 4 2 二维卷积及其应用 线性移不变系统的一个很有用的性质就是卷积。卷积不单在图像处理方面有着应 用,而且可以把时域的卷积处理变成频域的数学分析。一维卷积的讨论可以参见 参考文献【7 ,不详细描述。 二元连续函数的卷积与一维情况相类似。注意,在将讨论推广到二维时,我们将 用x f ny 表示两个独立的变量。二维卷积表达式是8 】: h ( x ,y ) = ,4 9 = i i f ( u ,v ) g ( x 一“,y v ) d u d v ( 8 ) 离散二维卷积,即数字图像的卷积与连续函数情形类似,所不同的仅是其白变量 取整数值,双重积分改为双重求和。数字线性滤波在以下三个主要的图像处理领 域中很有用: 去卷积,即去除不需要的,但已对图像施加了的线性系统的影响。一个实例即利 用卷积恢复由于透镜系统或运动所造成的模糊,这两种影响都可被认为是由线性 系统带来的: 去除噪声,即去掉线性叠加在图像上的噪声信号。例如:a ) 估计未受噪声污染前 的信号;b ) 检测噪声背景下是否存在已知特征;c ) 去除相干( 周期) 噪声; 特征增强以削弱景物中的其它为代价来增强指定特征( 如边、点) 的对比度。 第三章模式识别和图像处理的前沿研究 3 5 图像预处理一图像分割及二值化 3 5 1 图像分割概念 图像分割是一种重要的图像技术,在理论研究和实际应用中都得到了人们的广泛 重视。图像分割的方法和种类有很多,有些分割运算可直接应用于任何图像,而 另一些分割运算只能适用特殊类别的图像。有些算法需要先对图像进行视分割, 因为它们需要从图像中提取出来的信息。例如,可以用对图像的灰度级设门限的 方法分割。值得指出的是,没有唯一的标准的分割方法。许多种类的图像或景物 都可作为待分割的图像数据,不同类型的图像已经有相对应的分割方法。分割结 果的好坏需要根据具要求衡量。图像分割是从图像处理到图像分析的关键步骤, 可以说,图像分割结果的好坏直接影响图像的理解 9 。 自然景物一般由多个目标组成,这些目标反映在图像中就是众多的区域,每个区 域可以理解成具有某种意义的最小单元。图像分割的任务是把图像分成互不交叠 的有意义的区域,以便进一步的处理、分析、应用。分开的区域一般是图像中我 们感兴趣的目标。分割的精确程度影响甚至决定其他部分分析的精确程度。图像 分割是图像分析和理解的第步,在如下的科学研究和工程技术领域有着广泛的 应用: i ) 工业图像处理:矿藏分析、探伤分析、无接触式检测、自动化检测和识别、产 品的精度和纯度分析等; 2 ) 军事图像处理:军事目标检测和定位、地形配准、无人驾驶飞机、军事导航系 统、地形侦察等; 3 ) 生物医学图像处理:计算机断层图像、x 光透视、核磁共振,细胞自动计数、 生物图片分析等; 4 ) 图像传输:数字电视、高清晰度电视( h d t v ) 、多媒体信息处理、多媒体编 码,会议电视等: 5 ) 文本图像分析处理和文字识别、版面分析理解等。 6 ) 身份鉴定:指纹识别、虹膜识别等: 7 ) 机器人视觉:水下机器人、自动化产线、无人驾驶汽车。 在数字计算时代来临以前,图像分割主要是模拟图像处理,自然,图像分割的过 模拟的手段完成的。但是随计算机性能价格比的不断提高以及有关数字处理方法 的分割技术,无论在科学研究还是工业生产中得到了越来越多的应用。数字图像 华南理工夫学硕士学位论文 处理仪方便、实用。处理的数据量大、数据处理相关性高,这就对图像分割的算 法提出了很大的考验。在视频传输等领域,算法的速度也是一个重要考虑因素。 3 5 2 图像分割定义 人们对图像分割提出了不问的解释。在不同的阶段,研究者们根据研究的水平和 实际的要求提出了很多图像分割的定义,目前广为按受的是通过集合定义的图像 分割。令集合代表整个图像区域,对r 的图像分割可以看作是将r 分成n 个满足以 下条件的非空子集 2 1 : u r i = r i = l v i = l 2 n ,p ( 足) = t r u e v f ,j ,i j ,r i f q r ,= o ( 9 ) 、t 。j ,i j ,p ( r i u r n ) = f a l s e v i = l ,2 n ,足为连通区域 p ( r i ) = t r u e 指出在分割结果中,每个区域的像素有着相同的特性。 p ( r i u r 9 = f a l s e 示在分割彳i 同的域具有不同的特性,它们没有公共的特性。 u r i = r 表示分割的所有子区域的集合是原来的图像,这一点非常重要,因为这 i = 1 点是保证图像中每个像素都被处理的充分条件。 实际的图像处理和分析都有某种特定的应用,所以,条件中的各种关系出是需要 和实际要求结合而设定的。迄今为之,还没有通用的办法,可以把人类的要求完 全转换成图像分割中的各种条件关系,所有的条件表达也是近似的。 3 5 3 图像分割的方法 分割问题的困难在于图像数据的模糊和噪声的干扰。前面已经提到,到目前为止, 还没有一种通用分割方法,可以按照人们的意愿准确地分割任何一种图像。实际 图像中景物情况各异,需要根据实际情况选择适合的方法。分割结果的好坏或正 确与否,目前还没有一个统的判断准则,分割的好坏必须从分割的效果和实际的 应用场景来判断。不过在人类研究图像中积累了很多经典的图像分割方法。事实 上,现代一些分割算法恰恰是从经典的方法衍生出来的。 第三章模式识别和图像处理的前沿研究 早期的图像研究中,图像分割的方法主要可以分成两大类:一类是边界方法,这 种方法的假设是图像分割结果的某个子区域在原来图像中一定会有边缘存在;一 类是区域方法,这种方法的假设是图像分割的某个子区域一定会有相同的性质, 而不同区域的象素则没有共同的性质。这两种方法都有缺点和优点。有的学者也 试图把两者结合起来进行图像分割。随着计算机处理能力的提高,很多方法不断 涌现,如基于彩色分量分割。所采用的数学工具和分析手段也是不断地扩展,从 时域信号到频域信号处理,近来小波变换也应用在图像分割中。 图像分割生要包括4 种技术:并行边界分割技术、串行边界分割技术、并行区域分 割技术和串行区域分割技术。 并行区域分割技术是指采用并行的方法对目标区域进行检测实现图像分割的方 法。从某神角度讲图像分割的目的之一就是目标提取:将感兴趣的区域提取出来。 从这一点说,区域分割是最直接的方法,利用这种分割方法可以直接得到感兴趣 的目标区域。并行区域分割主要有两种方法:闽值分割和聚类。本节主要介绍阈 值分割。 并行区域是把图像分成前景和背景,所以闽值分割相当子对图像进行二值化,实 质是对每一个像素点确定一个闽值。根据阈值决定当前像素是前景还是背景点。 出于这个原因,直接的阈值分割一般不能适用于复杂景物的正确分割,如自然场 景,因为复杂景物的图像,有的区域很难判断究竟是前景还是背景。不过阈值分 割在处理前景与背景有较强对比的图像时特别有用,此时需要的计算复杂度小。 当物体的灰度级比较集中时,简单设置灰度级闽值提取物体是一个有效方法。 3 5 4 阈值分割 阈值分割的研究已经有几十年的历史,到现在为止,已经提出了很多算法。阈值 分割的基本想法是确定一个阈值,然后把每个像素点的像素值和闽值相比较,根 据比较的结果把该像素划分成两类一一前景或者背景。一般闽值分割可以分成以 下3 步h o 。 1 ) 确定阈值 2 ) 将阈值和像素值比较 3 ) 把像素归类 华南理工大学硕士学位论文 上面的3 个步骤,关键的是第一步,如果能确定一个合适的闽值,就可以对图像进 行f 确、方便的分割。 闽值方法分全局阈值和局部闽值两种,如果分割过程中对图像上每个像素所使用 的闽值都相等,则为全局方法:如果每个象素的阈值都不一样,则为局部阈值。 3 5 4 1 阈值 定义全局阈值:t = 丁( ,) ,局部阈值:t = t ( f ,x ,y ) 可以认为局部阈值是全局的一般情况,全局闽值则是最简单的图像分割方法。在 选用阈值时,根据不同的目标,对图像分割往往存在一个最佳的阀值,最佳全局 阂值确定的常用方法有以下几种: 实验法:如果分割之前知道图像的一些特征,那么闽值确定比较简申,只要试验 是否满足已知特征即可。不过这种方法常要知道图像的大些特征,而有的时候这 些特征是事前不可知的; 直方图法:如果前景物体内部狄度值分布比较均匀,背景灰度值的分布电走比较 均匀的,这个图像的次度直方图将有明显双峰,可选择峰之间的谷点作为门限值。 该方法简单,但是当两个峰值相距很远时不适用,因为前景和背景很可能有一部 分狄度值是共有的。采用一个阈值的方法比较容易受到噪声的影响。这些影响会 在直方图中出现虚值而导致闽值选取的误差。一般而言,这些闽值的选取和应用 要根据实际情况,具体判定; 最小误差方法。这种方法是假设背景与前景的坎度分布都是正态分布。不过这种 方法遇到的挑战之一就是自然图像的前景和背景的灰度分布是否为正态分布。 3 5 4 2 自适应阈值选取 当照明不均匀,有突发噪声,或者背景灰度变化比较大时,整幅图像分割将没有 合适的单一门限,因为单一的阈值不能兼顾图像各个像素的实际情况这时,可 对图像按照坐标分块,对每一块分别选一阈值进行分割,这种与坐标相关的阈值 第三章模式识别和图像处理的前沿研究 称为动态阈值方法,也称为自适应阈值方法。这类算法的时间复杂度和空间复杂 度比较大,但是抗噪声能力比较强,对采用全局阈值不容易分割的图像有较好的 效果o “】。 自适应阈值选取比较简单的方法则是对每个像素确定以它为中心的一邻域窗口, 计算窗口内像素
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阿里地区2025-2026学年八年级上学期语文期末测试试卷
- 安徽省2024年普通高中学业水平合格性考试地理题库及答案
- 软考初级信息处理技术员2025上半年上午试题及答案
- 山东省济南市天桥区2026届九年级下学业水平考试冲刺训练(三模)数学试题(无答案)
- 文广新局2025年上年工作总结
- 社区脱贫业务知识培训课件
- 山东省菏泽市菏泽经济技术开发区2024-2025学年七年级下学期6月月考生物试题(含答案)
- 北师大版四年级上册数学第五单元 方向与位置 检测题(无答案)
- 结清合同范本怎么写
- 工地包电合同范本
- 预制水磨石施工方案
- 学校安全管理制度大全
- 《思想道德与法治》(23版):第四章 明确价值要求 践行价值准则
- 道路建设三级安全教育培训
- 2025年公租房入住合同范例
- 病历的书写规范讲课幻灯课件
- 征兵业务培训
- 心功能不全病人的护理查房
- NCCN成人癌痛指南
- Unit 6 Useful numbers Part C Project(说课稿)-2024-2025学年人教PEP版(2024)英语三年级上册
- 地理与生活密切相关
评论
0/150
提交评论