




已阅读5页,还剩60页未读, 继续免费阅读
(计算机软件与理论专业论文)信函图像特征提取和分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d i s s e r t a t i o nf o rm a s t e rd e g r e e ,2 0 11s c h o o lc o d e :1 0 2 6 9 n o :5 1 0 8 1 2 0 1 0 2 7 e a s tc h i n an o r m a l u n i v e r s i t y f e a t u r ee x t r a c t i o na n da n a l y s i sf o r e n v e l o p ei m a g e d e p a r t m e n t :c o m p u t e rs c i e n c ea n dt e c h n o l o g y m a j o r : r e s e a r c ha r e a :p a t t e r nr e c o g n i t i o na n di m a g ep r o c e s s i n g s u p e r v i s o r : ! q y 坠曼l 丛 s t u d e n tn a m e : 圣星坠g h 坠i 邕i 坠 o c t 2 0 1 0 9舢肌l 棚7舢4 舢8伽哪y 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文信函图像特征提取和分析,是在华东师范大学 攻读硬彰博士( 请勾选) 学位期间,在导师的指导下进行的研究工作及取得的研究成果。 v 除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。 对本文的研究做出重要贡献的个人和集体,均己在文中作了明确说明并表示谢意。 作者签名:e l 期:必7 0 年1 1 月猢 华东师范大学学位论文著作权使用声明 信函图像特征提取和分析系本人在华东师范大学攻读学位期间在导师指导下完 成的碌彰博士( 请勾选) 学位论文,本论文的研究成果归华东师范大学所有。本人同意 华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关机构如国家图 书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论文进入华东师范 大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士学位论文 共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其 它方式合理复制学位论文。 本学位论文属于( 请勾选) () 1 经华东师范大学相关部门审查核定的“内部 或“涉密 学位论文奎, 于年月日解密,解密后适用上述授权。 ( 2 不保密,适用上述授权。 导师签名丑丑幺。f 煎)导师签名生f 生幺。f ! )本人签名必塑! 如f d 年i1 月弓d 日 “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位 论文( 需附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效) ,未经上 述部门审定的学位论文均为公开学位论文。此卢明栏不填写的,默认为公开学位论文,均适用 上述授权) 。 生增萱硕士学位论文答辩委员会成员名单 姓名职称单位备注 张桂戌教授华东师范大学信息学院主席 江振然副教授华东师范大学信息学院 孙仕亮副教授华东师范大学信息学院 i i i 华东师范大学硕上学位论文摘要 摘要 随着计算机技术的快速发展,图像处理技术在人们生活中得到了广泛的应 用。经过特定算法处理后的图像,给人们带来更精彩的视觉效果,让交通、生活 更加便利,提高了工作效率。近年来,信函图像的处理在信函图像匹配和检索上 很大作用。因此,为了更快速和更准确的分拣信函,如何有效地处理信函图像或 表示信函图像,已成为图像处理研究领域的一个热门课题。 针对信函图像,本文提取了信函图像的多种特征,并对特征值序列进行分析。 首先,采用经典的s o b e l 边缘检测算法,对整幅信函图像做边缘检测和二值化处 理。在二值边缘图像上,通过白色点密度特征,确定2 0 0 * 5 0 0 像素窗口区域的位 置,对该窗口区域内二值图像,利用h o u g h 变换算法、连通域算法等提取图像特 征,对该窗口区域的原图像上,采用灰度直方图、o t s u 算法和共生矩阵算法提 取信函图像特征。最后,根据实验的统计数据结果,划分各个特征值范围,对特 征值进行简单编码。在有限的准确率下,不同的信函图像有不同的特征编码。 实验结果表明,本文提出的提取信函图像的阈值特征、连通域个数特征、统 计特征等,较其他特征能够很好表示图像。 关键词:特征提取,灰度直方图,o t s u 算法,共生矩阵法 i v a b s t r a c t a st h ed e v e l o p m e n to fc o m p u t e rs c i e n c e ,i m a g ep r o c e s s i n gt e c h n o l o g yp l a y sa 1 1 i m p o r t a n tr o l ei n0 1 1 1 r e g u l a rl i f e t h ei m a g e ,p r o c e s s e du s i n ga na l g o r i t h m ,b r i n g su s m o r eb e a u t i f u lv i s u a le f f e c t ,m a k e st r a n s p o r t a t i o nl i f em o r ec o n v e n i e n t ,a n di m p r o v e s w o r ke f f i c i e n c y a tp r e s e n t ,t h ep r o c e s s i n go fe n v e l o p ei m a g ei sv e r yc r i t i c a l i nt h e f i e l do fc l a s s i n gt h ee n v e l o p ei m a g ea u t o m a t i c a l l y s o ,i no r d e rt oc l a s se n v e l o p e i m a g e sm o r eq u i c k l ya n da c c u r a t e l y , t h ew a y o fp r o c e s s i n ga n dp r e s e n t i n ge n v e l o p e i m a g eh a sb e e na h o tt o p i ci nt h ei m a g ep r o c e s s i n gr e s e a r c h i nt h ea r t i c l e s o m ef e a t u r e so ft h ee n v e l o p ei m a g eh a v eb e e ne x t r a c t e db yu s i n g d i f f e r e n ta l g o r i t h m s a f t e rt h e f e a t u r e se x t r a c t i o n , w ee n c o d ea n da n a l y s i s t h e e i g e n v a l u e f i r s t l y , t h ew h o l ee n v e l o p ei m a g ei sp r o c e s s e db yu s i n gt h ec l a s s i c a le d g e d e t e c t i o na l g o r i t h m - - s o b e l ,a n db i n a r i e dw i t hac o n s tt h r e s h o l d t h ew i n d o wp a r t w i l lb el o c a t e db a s e do nt h ew h i t ep i x e l sd e n s i t yf e a t u r e s e c o n d l y , i nt h ew i n d o w a r e ao fb i n a r yi m a g e ,s o m ef e a t u r e sa r ee x t r a c t e db yu s i n gd i f f e r e n ta l g o r i t h m s ,s u c h a sh o u g ht r a n s f o r l r la n dc c a i nt h ew i n d o wp a r to fo r i g i n a li m a g e ,s o m eo t h e r f e a t u r e sa r ee x t r a c t e db yu s i n gh i s t o g r a ma n dg l c m a tl a s t ,t h r o u g ha n a l y z i n gt h e e x p e r i m e n t a lr e s u l t s ,e n c o d et h ef e a t u r e s a tt h el i m i t e dp r e c i s i o n ,d i f f e r e n te n v e l o p e i m a g eo w n sd i f f e r e n tc o d i n g t h ee x p e r i m e n t a lr e s u l t si n d i c a t e st h a tt h eb i n a r yt h r e s h o l df e a t u r e ,t h en u m b e r o fc o n n e c t e dc o m p o n e n t s ,s t a t i s t i cc h a r a c t e r i s t i ca n ds oo na r em o r ee f f e c t i v et h a n o t h e rc h a r a c t e r i s t i ci np r e s e n t i n ge n v e l o p ei m a g e k e yw o r d :f e a t u r ee x t r a c t i o n ,g r a yh i s t o g r a m ,o t s ua l g o r i t h m ,g l c m v 华东师范大学硕上学位论文目录 目录 第一章绪论1 1 1 研究目的与意义1 1 2 国内外研究现状2 1 2 1 国外研究现状。2 1 2 2 国内研究现状2 1 3 研究内容及研究目标。3 1 4 本文组织结构一4 第二章图像特征和特征提取5 2 1 图像特征5 2 1 1 灰度直方图特征5 2 1 2 纹理特征。5 2 1 3 形状特征一6 2 2 信函图像特征6 2 3 特征提取7 第三章图像特征提取方法8 3 1 长宽比特征8 3 2 密度特征l0 3 2 1 窗口尺寸lo 3 2 2 白色点密度特征1 1 3 3 连通区域特征1 4 3 4h o u g h 变换法。l7 3 4 1h o u g h 变换原理1 7 3 4 2h o u g h 变换实现步骡1 9 3 4 3 线段长度和方向特征1 9 3 5 灰度直方图特征2 0 3 6o t s u 阈值特征2 3 3 7 本章小结2 5 第四章共生矩阵法提取纹理特征。2 6 4 1 纹理特征2 6 4 2 灰度共生矩阵法2 6 4 3 提取纹理特征2 7 4 4 纹理特征编码2 8 第五章信函图像特征提取和分析。3 1 5 1 特征提取及编码的流程图3 1 5 2 实验环境3 l 5 3 实验样本库3 2 5 4 实验结果3 3 5 5 特征分析3 4 5 5 1 特征编码3 4 5 5 2 特征解码3 4 v i 华东师范大学硕士学位论文 目录 5 5 3 准确率分析3 4 5 6 本章小结3 8 第六章总结与展望3 9 6 1 本文总结3 9 6 2 研究展望3 9 参考文献4 1 致谢4 3 攻读硕士学位期间发表的学术论文4 5 v i i 华东师范大学硕七学位论文第一章绪论 第一章绪论 本章介绍了对信函图像的研究目标和研究意义,然后概述了信函图像的统计 特征在国内外的发展现状,最后给出了本文的主要工作和组织结构。 i 1 研究目的与意义 在计算机已经被广泛应用的今天,纸张仍然是人们日常工作和生活中非常重 要的信息载体,如用于通信的信件。现在有许多公司或个人用信函邮寄信件或物 件。在传递这些邮件或快递的信函中,要查看收件人的地址才能把信函邮寄到收 件人手中。现在大多信函还是人工区分信函收件人地址的,但每天的信函能上达 几百万封信函,如果人工找出收件人,则会花费相当大的人力和物力。 现在,信函图像可以分为两大类,第一类是有很少特定规格的信函图像,这 种信函图像的样式大多不同,用长宽比,区域灰度直方图等特征就容易计算出唯 一性特征序列,这些特征再加上其他一些特征就能够匹配到对应的信函图像,即 使其他特征不能准确的计算出来也没有关系。第二类是有特定规格的信函图像, 如窗口信函,贴条信函等。这种信函图像因为样式是一样的,只是收件人地址和 姓名不同,所以不容易提取大区别度的特征和计算出唯一性特征序列。针对第二 类情况,因为不同服务业公司给客户的信函样式是不相同的,但同一家公司的信 函格式是统一的。提取特征时可以用多种特征组合,比如长宽比,区域纹理,区 域直方图特征,区域内连通元的个数及面积等特征,这些特征组合可以计算出一 幅信函图像的特征序列。 信函图像特征的提取,就是采用不同算法计算信函图像的多个特征,并将这 些多种图像特征的组合来求得信函图像的特征序列。其目的是,给每一幅信函图 像计算出一个唯一的特征序列,这样就给在信函图像数据库中检索匹配一幅信函 图像提供了便利。特征分析讨论的是,统计分析提取的信函图像特征中哪些特征 是有效的,哪些是无效的,怎么组合多个特征,使得生成的特征序列既能够提高 特征序列的匹配准确率,又能使得特征序列简短。对上万幅信函图像中的任一幅 信函图像计算出唯一的精确的特征序列是该技术的难点。 1 华东师范大学硕士学位论文第一章绪论 现在许多营业窗口的邮件处理已采用机械自动分拣,假如使用非标准信封, 信函分解设备无法识别,较高的差错率势必影响传递质量与时效,加之非标信封 用纸不合格,机械分拣时极易造成破损导致内件遗失。如果信函图像特征提取技 术能够对任意一幅信函图像,计算出一个唯一的特征序列,那么就给信函图像的 匹配提供了精确的数据基础,提高了邮件给信件处理业务的自动化水平,减少分 拣、匹配信函的消耗。图像特征提取和分析技术必将也会为信函图像的处理及其 他相关领域带来更大的意义。 1 2 国内外研究现状 1 2 1 国外研究现状 国外信函分拣机都是提取信函图像内的有效信息来分拣信函的,如德国的西 门子d e m a t i c 、日本的n e c 、t o s h i b a 等n 1 。在国外发达国家里,日本是各种 分拣设备拥有量最多的国家。当标准尺寸的信函进行子带分拣时,扫描器记录下 信函表面的所有信息,然后送至光学字符识别系统( o c r ) 进行子带识读,最后 信函将按照分拣方案被分到对应的格口。在这个过程中,只是提取有效的内容信 息,很少用到信函图像自己的图像特征。对信函图像的特征的提取和特征值编码 的研究还是比较少。 1 2 2 国内研究现状 在计算机辅助设计与图形学学报上,赵雪松心1 的邮政信封图像的分割 通过对二值图像的连续性分析,可以得到图像各个组成成分的形状,利用边界框 的连续性分析方法对信函图像进行分割,它对于表示对象物的位置、大小等特征 是非常有效的。邮电部第三研究所王渊峰提出口1 了一种将特征锐化与知识推理有 机地结合起来进行信函图像处理的方式,并在具体实践过程中建立起处理模型与 相关的算法,其结果证明了它的有效性与可行性。王嵘h 1 等采用了一种基于笔划 提取合并的手写体汉字切分识别方法。首先提取出字符的横、竖、撇、捺等笔划, 再根据一定的准则将笔划合并成字根,最终应用与地址解释相结合的动态规划算 法得到最终的切分结果,获得投递区域。 2 华东师范大学硕士学位论文第一章绪论 1 3 研究内容及研究目标 对于信函图像特征的提取,通常的做法就是先确定信函图像有哪些特征,然 后再根据各种算法对确定的特征做特征提取,最后对这些已经提取到的特征值进 行分类和编码处理。在对信函图像特征值分类和编码后,可以用特征值编码对信 函图像来标记该信函图像,为信函图像检索做了基础。随着信函图像特征的增加, 特征编码会不断变长,信函图像匹配的正确率得到提高。根据上面提出的研究思 路,确定如下的研究内容和研究目标。 首先确定信函图像有哪些特征,然后确定用算法提取图像特征,最后把这些 特征值进行分类编码,得到图像编码。随着特征的增加,图像特征编码会不断变 长。为了实现快速且准确的提取信函图像特征并编码的目标,目前确定的信函图 像特征主要有灰度直方图特征,形状参数特征,纹理特征,空间关系特征,并分 析这些特征在图像中的可行性。根据确定的研究目标有如下的研究内容: 1 根据研究目标,本文用不同的方法提取信函图像特征,例如:长宽比特征, 灰度直方图特征等。比如o s t u 阈值特征法,就是先统计信函图像的灰度直方图, 然后计算方差最大时的阈值。连通域方法提取信函图像区域内的连通域的个数及 面积作为信函图像的一个重要特征。对信函图像的选定区域进行h o u g h 变换,然 后提取最长线段的长度和方向角度特征。灰度共生矩阵法提取信函图像的纹理特 征。 2 根据步骤1 中提取的多种特征进行编码处理,得到与每一幅信函图像对应 的一个信函图像编码。在信函图像检索、匹配时,只需要从信函图像库中计算每 一幅图像的编码,然后与已知图像的编码相匹配。如果两个编码匹配完全正确, 则说明从信函图像库中找到了与已知图像匹配的信函图像,否则就匹配失败。对 信函图像库中的1 万多幅图像做实验,提取图像的特征,对特征值分类编码。之 后,再利用己知图像的编码,从图像库中找出与已知图像编码相匹配的信函图像, 来验证特征提取和编码方法的有效性。 华东师范人学硕上学位论文 第一章绪论 1 4 本文组织结构 本文对基于内容的信函图像特征提取的各种算法进行了系统介绍和研究,主 要对基于底层物理特征,如颜色、纹理、形状的相关特征提取算法进行了探讨。 本文综合了灰度直方图,o s t u 算法求阈值,连通域算法,h o u g h 变换、灰度共生 矩阵法等特征提取方法,并对各算法提取的特征值进行分类编码,最后总结出本 文方法的优缺点。: 本文各章安排如下: 第一章:绪论,主要是对国际,国内标准信函的种类和尺度以及信函图像的 采集做简要介绍。 第二章:图像特征和特征提取,综述了常用的图像特征及提取方法,比如图 像的长宽比,面积,区域灰度直方图,o t s u 算法的阈值,h o u g h 变换的线段长度 和方向角度等特征。 第三章:图像特征提取方法,讲述了信函图像形状特征,信函图像的局部区 域的灰度直方图特征。 第四章:共生矩阵法提取纹理特征,主要讲述了灰度共生矩阵法,然后提取 矩阵的四个方向的六个统计特征,均值、标准偏差、能量、惯量、熵和相关性。 第五章:信函图像特征提取和分析,根据信函图像的特征,对信函图像库中 的所有图像做实验,并对这些特征做了分析得到特征编码。 第六章:总结与展望。 4 华东师范人学硕士学位论文 第二章图像特征和特征提取 2 1 图像特征 第二章图像特征和特征提取 至今为止,图像特征晦1 没有一个精确的定义。特征的精确定义往往由问题或 者应用类型决定。特征是一个数字图像中我们感兴趣的区域,它是计算机图像分 析算法的起点。一个算法是否成功往往取决于它使用和定义的特征,特征提取最 重要的一个特性是可重复性,同一个场景的不同图像所提取的特征应该是相同 的。常用的图像特征有灰度直方图特征、纹理特征、形状特征等。 2 1 1 灰度直方图特征 灰度直方图( h i s t o g r a m ) 叩1 是灰度级的函数,它表示图像中具有每种灰度 级的像素的个数,反映图像中每种灰度出现的频率。灰度直方图有以下性质口1 : 1 表征了图像的一维信息。只反应图像中像素不同灰度值出现的次数( 或 频数) 而未反应像素所在的位置。 2 与图像之间的关系是多对一的映射关系。一幅图像唯一确定与之对应的 直方图,但不同图像可能有相同的直方图。 4 直方图的可相加性。例如一幅图像由若干个不相交的区域构成,则整幅 图像的直方图是这若干区域直方图之和。 在本文中,要处理的信函图像是灰度图像,所以用到了灰度直方图特征。通 过信函图像的直方图的状态评判信函图像的一些性质,低对比度区域的直方图窄 而集中于灰度级的中部,高对比度区域的直方图成分覆盖的灰度级很宽而且像素 的分布比较均匀。在高对比度区域提取灰度直方图特征,不同信函图像的高对比 度区域不同,得到不同的灰度级宽度和分布。 2 1 2 纹理特征 纹理特征陋1 是一种全局特征,它描述了图像或图像区域所对应前景物体的表 面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属 5 华东师范大学硕上学位论文第二章图像特征和特征提取 ,j j 。 性,所以仅仅利用纹理特征是无法获得高层次图像内容的。纹理特征需要在包含 多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大 的优越性,不会由于局部的偏差而无法匹配成功。作为一种统计特征,纹理特征 常具有旋转不变性,并且对于噪声有较强的抵抗能力。 本文采用统计方法中的灰度共生矩阵来计算纹理特征,该纹理特征分析方法 是g o t l i e b 和k r e y s z i g 等人在研究共生矩阵中各种统计特征基础上,得出灰 度共生矩阵的六个关键特征:均值、标准偏差、能量、惯量、熵和相关性。在检 索具有粗细、疏密等方面较大差别的纹理图像时,如信函图像中收件人地址区域, 利用纹理特征是一种有效的方法。但当纹理之间的粗细、疏密等易于分辨的信息 之间的相差不大的时,如信函图像中没有任何信息区域或广告区域,通常的纹理 特征很难准确地反映出纹理之间的差别。 2 1 3 形状特征 基于形状特征旧3 的图像匹配方法,可以有效地利用图像中感兴趣的目标来进 行匹配。通常情况下,形状特征有两种表示方法,一种是轮廓特征,另一种是区 域特征。图像的轮廓特征主要是针对物体的外边界,而图像的区域特征则关系到 整个形状区域。几种典型的形状特征描述方法有几何参数法,边界特征法等。 在本文中,在边缘信息丰富的区域内,采用h o u g h 变换检测直线方法,检测 区域内直线段长度和直线方向,作为区域内直线特征。对整幅信函图像,采用形 状定量测度( 如面积、周长等) 的形状参数法,提取信函图像的面积特征和周长 特征。对信函图像的二值图像,采用连通域方法提取整幅信函图像内的连通域个 数和面积特征。 2 2 信函图像特征 信函的图像采集需要对整个信封进行,在信函分拣机上信函以3 2 m s 的速 度告诉运行,为了采集整个信封图像采用了1 0 2 4 点的线阵列c c d ,最大扫描高 度为1 2 8 m m ,即扫描精度达到每毫米8 个像素点( 大约相当于2 0 0 d p i ) ,图像采 集的点频为3 2 m h z ,采集获得8 b i t s p i x e l 的灰度图像。一幅完整的信函图像如 图2 1 所示: 6 华东师范入学硕j 二学位论文第二章图像特征和特征提取 图2 1 完整信函图像 在信函图像的特征提取过程中,由于信函图像是在高速运转的传送带上拍摄的, 采集到灰度图像。所以本文对信函图像的特征提取主要包括一下特征:几何参数 特征( 长宽比,面积) ,o t s u 算法阈值特征,连通域个数,连通域面积,灰度直 方图的最小值,最大值,平均值,最大值与最小值的差值,灰度共生矩阵法等特 征在第三章,第四章详细讲述。 2 3 特征提取 特征提取是计算机视觉和图像处理中的一个重要概念,指的是使用程序提取 图像信息,决定每个图像的点是否属于一个图像特征,特征提取的结果是把图像 上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区 域。在本文中,首先分析信函图像有哪些图像特征,然后采用各种方法,在整幅 信函图像或图像区域内,提取信函图像的各个特征,如长宽比特征,直方图特征, 纹理特征等,最后分析这些特征在信函图像检测匹配过程中的效果。 7 华东师范大学硕+ 学位论文第三章图像特征提取方法 3 1 长宽比特征 第三章图像特征提取方法 2 0 0 4 年6 月1 日开始执行新的国家信封标准,市民使用的信封( g b t 1 4 1 6 - 9 3 标准生产的) 仍然可以沿用到2 0 0 5 年6 月,但是信封生产厂家6 月1 日后必须 停止使用现在的信封标准。以下为g b t 1 4 1 6 2 0 0 3 中国国家标准信封尺寸的资 料。 新标准调整了信封品种、规格,修改了信封用纸的技术要求,规定了邮政编 码框格颜色,航空樗色的色标,扩大了美术图案区域,增加了寄信单位的信息及 “贴邮票处”、“航空”标志的英文对照词,完善了试验方法,补充了国际信封 内的指导性文字内容。新标准对信封用纸的耐磨度、平滑度、强度、亮度等作了 严格的规定和要求,其中尺寸的标准如表3 1 呻1 所示。 表3 1 信封尺寸标准 国内信封标准 代号 长( 咖) 宽( 姗) 备注 b 6 号 1 7 61 2 5 与现行3 号信封一致 d l 号 2 2 01 1 0 与现行5 号信封一致 z l 号 2 3 01 2 0 与现行6 号信封一致 c 5 号 2 2 91 6 2 与现行7 号信封一致 c 4 号 3 2 42 2 9 与现行9 号信封一致 长宽比特征可以对信函图像做大致分类,例如有两幅信函图像的长宽比有很 大的差别,则可以根据这两幅信函图像的长宽比特征编码,很容易地区别这两幅 信函图像。而要处理的信函图像中,因为信函图像的采集是在高速运行的传输带 上拍摄的,再加上传送带的影响,所以很难准确的计算出信函图像长宽比。在传 送带上采集到得信函图像如图3 1 所示: 8 图3 1 原始图像 采样阈值等于2 0 处理原始图像,像素点灰度值小于阈值的为o ,大于阂值 的为2 5 5 。这样皮带部分数值为0 ,其他部分为2 5 5 。对原始图像经过去除传送 带处理后,得到一幅完整信函图像,如图3 2 所示。 图3 2 一幅完整的信函图像 根据国内信封标准,可以计算出一幅完整的信函图像的长宽比( w h ) ,长宽 比变换范围和编码,如下: 华东师范人学硕十学位论文 第三章图像特征提取方法 表3 2 各种信函图像长宽比和编码 代号长木宽长宽比编码 长宽比范同 变化 b 6 号1 7 6 1 2 51 4 0 8 0 0 011 3 9 8 0 0 0 1 4 1 0 7 9 00 0 1 0 0 0 0 d l 号 2 2 0 1 1 02 0 0 0 0 0 05 1 9 5 8 3 3 3 2 1 0 0 0 0 0 0 0 4 1 6 6 7 z l 号2 3 0 1 2 01 9 1 6 6 6 741 6 6 5 7 5 7 1 9 5 8 3 3 30 2 5 0 9 1 0 c 5 号2 2 9 1 6 21 4 1 3 5 8 021 4 1 0 7 9 0 1 4 1 4 21 40 0 0 2 7 9 0 c 4 号 3 2 4 * 2 2 9 1 4 1 4 8 4 731 4 1 4 2 1 4 1 6 6 5 7 5 7 0 0 0 0 6 3 4 其他其他其他x 2 1 0 0 0 0 0其他 表格3 2 显示了b 6 号,d l 号,z l 号,c 5 号和c 4 号信封图像对应的长宽比, 允许的长宽比范围,长宽比变化大小。长宽比是信封图像的长度和宽度的比值。 对这5 个长宽比排序,得到一个序列( 1 4 0 8 0 0 0 ,1 4 1 3 5 8 0 ,1 4 1 4 8 4 7 ,1 9 1 6 6 6 7 , 2 0 0 0 0 0 0 ) 。用长宽比序列数值的中间点作为长宽比分界点,新得到的从小到大 的序列和编码为x ,! :圣旦璺q q q ,w h l ,! :垒! q z 旦q ,w h 3 ,! :垒! 垒至! 垒,w h 5 ,! :鱼鱼墨z 墨z , w h 7 ,1 9 5 8 3 3 3 ,w h 9 ,2 1 0 0 0 0 0 ,x ,其中下划线的数值是信函图像长宽比值的 编码边界。长宽比变化是长宽比的上或下界限和该长宽比的差值,其大小表示该 长宽比的变化范围窄宽,很容易和其他型号的信函图像混淆,根据以上表格,可 以对不同尺度的信函图像做编码处理。如有幅图像的长度和宽度分别是2 2 0 r a m 和11 0 m m ,那么可以对这幅信函图像做编码处理,根据以上长度和宽度的比值来 查询编码,得出编码5 。 3 2 密度特征 3 2 1 窗口尺寸 对信函图像上的信息分布位置和信息内容分析,信函图像间的区别主要是收 件人的姓名、地址信息。这些文字信息都是在信函图像上有丰富的边缘信息。统 计图像库中信函图像中的文字大小,得到每个字的长木宽大约是1 5 0 1 5 0 像素。 为了把收件人姓名信息框定在窗口范围内,并把广告等其他干扰信息排除在外, 名字假设有3 个字,字间隔5 0 像素,所以窗口的尺度取为2 0 0 * 5 0 0 像素大小。 1 0 华东师范大学硕二l 学位论文第三章图像特征提取方法 3 2 2 白色点密度特征 在本文内,密度特征是指在图像边缘检测后,局部区域内白色点的个数,其 中局部区域是2 0 0 * 5 0 0 像素窗口内。信函图像之间有区别的地方,是收件人地址、 收件人姓名和邮戳信息,他们有最丰富的边缘信息,所以提取该局部区域内边缘 检测后的白色点的个数做作为一个特征。在计算窗口内白色点个数密度最大的过 程中,同时也把窗口的位置也就求得了,所以在此过程中,得到窗口内密度特征 ( d e n ) 和位置特征( w p ) 。先对信函图像做二值化操作,然后在整幅二值图像内, 计算窗口内白色像素点最大密度时的白色点个数和窗口位置坐标。为了提高特征 提取的速度,对信函图像做简单的四方向的s o b e l 算子n 边缘检测,边缘检测后 的图像如图3 3 所示。 图3 3 做四方向s o b e l 边缘检测后的信函图像 对信函图像做四方向的s o b e l 边缘检测处理后,用2 0 0 * 5 0 0 的窗口在图像的 左下角开始,从下到上,从左到右的顺序计算窗口内白色点的个数。本文在计算 窗口内白色点个数的过程中,对重复计算进行了优化。 = n o w + 2 0 0 ,i = n o w + 5 0 0 尸f = ( z ,)( 1 ) j = n o w ,i = n o w 公式( 1 ) 计算2 0 0 * 5 0 0 窗口内白色点个数刖。当窗口非重叠地从下到上,从 左到右移动时,这样有大量的重复计算。当n o e l 时,计算宽度5 0 0 乘以高度 1 1 华东师范人学硕十学位论文第三章图像特征提取方法 2 0 0 窗口内白色像素点的个数值,把像素值为2 5 5 的像素点叠加起来得出胱, 当n o w = 2 时,又要计算2 0 0 个像素点的像素值得到p a r , 。其实在计算出第一个p n , 后,其他的窗口内白色点的个数重复计算了4 4 9 个列和4 4 9 * 2 0 0 个像素点。所以 只计算当前窗口的最左列中白色像素点的个数忍,和右边下一个窗口最右列中白 色像素点的个数用吖。用公式( 2 ) 计算下一个窗口内白色像素点总数。祧表示 当前窗口白色像素点个数,忍,表示当前窗口左列像素点个数,船+ ,表示下一个 窗口右列白色像素点个数,祧+ ,表示下一个窗口内白色像素点的个数。 吼l = 尸+ 础+ l 一心 ( 2 ) 窗口内白色像素点的个数最多的时候,就是边缘最丰富的地方。但对白色像 素点的个数超过窗口的一半或者小于百分之一的情况时,检测到的很可能是广告 等干扰信息,这种情况予以排除。对上信函图像做实验,密度最高的窗口中心位 置如图3 4 所示,用窗口的中心位置表示整个窗口在信函图像中的位置信息。 图3 4 密度特征中窗口位置 从图3 4 可以看出,绿色方框就是,当2 0 0 * 5 0 0 像素尺度窗口内白色点个数 最多时,窗口在信函图像中的位置。从边缘检测和二值化后的信函图像上分析, 绿色方框内就是白色点个数最多的位置。本文程序在框定密度最大的窗口位置的 同时,计算出了该信函图像中窗口内包含2 7 8 2 个白色像素点。在c p u 频率 1 2 4 g h z 和内存1 5 g 的硬件平台下,对整幅二值图像处理,计算窗口内白色像 素点过程的时间消耗是1 7 0 0m s 。 1 2 华东师范大学顾1 :学位论文 第三章图像特征提取方法 当密度特征( 窗口位置信息) 求出后,后面的特征计算是在窗口位置特征的 基础上计算的,所以窗口位置特征显然比较重要。在计算其他特征的过程中,为 了避免不准确的窗口位置信息带来更大的错误,使窗口尺寸扩大n i l 够包含3 行文字,窗口尺寸的高度是密度特征窗口的3 倍,即6 0 0 * 5 0 0 像素的窗口。在 6 0 0 * 5 0 0 像素尺度的窗口内提取其他特征,如计算6 0 0 * 5 0 0 窗口内的灰度直方图 特征,o t s u 二值化的阈值特征等。 根据窗口内密度特征来计算窗口位置特征,该窗口位置特征是相对与整幅信 函图像中心点的坐标。虽然大多信函图像中的收件人信息和邮编信息都是集中在 信函图像的左半部分的中央位置,但考虑到全面情况,对x ,y 坐标处理在左半 部分是均匀分类。再根据一幅完整的信函图像的尺寸是2 8 0 0 * 2 0 0 0 像素,所以 把信函图像坐标x ,y 均匀地分类为七个不同范围,其中坐标x ,y 的分类方法如 表3 3 所示。 表3 3 窗口位置特征编码,弋 一y范围。宰。,100) 2 - 44 - 66 - 88 - 1 01 0 - 1 21 2 - 1 41 4 2 0 y 范围( 宰l o o ) 、 2 - 41 12 13 14 15 16 1x l 4 - 61 22 23 24 25 26 2x 2 6 - 81 32 33 34 35 36 3x 3 8 - 1 01 42 43 44 45 46 4x 4 1 0 - 1 21 52 53 54 55 56 5x 5 1 2 - 1 41 62 6 3 6 4 65 66 6x 6 1 4 一1 61 72 73 74 7 5 7 6 7x 7 1 6 1 8l x2 x3 x4 x5 x6 xx x 根据图3 4 所示,当窗口内白色像素点的个数最多时,就确定了窗口的左下 角坐标,计算出个数和窗口位簧,把这两个信息作为不同信函图像的两个特征。 由于先对信函图像做边缘检测和二值化处理,然后计算窗口内白色点的个 数,但如果二值化的阈值不同,计算得到的白色点的个数是不同的。根据窗口的 尺度是2 0 0 * 5 0 0 像素,窗口内个数很少或很多的情况被限制条件排除掉,所以对 华东师范人学硕士学位论文第三章图像特征提取方法 窗口内白色点个数的分类,高密度和低密度的范围要比中间密度的范围宽广。所 以对窗口内白色点的个数的分类粗略些,对个数特征值的分类参见表3 4 。 表3 4 白色点个数特征值的分类 个数* 1 0 0l o 一1 51 5 2 02 0 - 2 52 5 - 3 03 0 - 3 53 5 4 0 4 0 - 4 54 5 5 0 5 0 9 0 编码:12345678x 例如,图3 1 所示信函图像的2 0 0 * 5 0 0 的密度窗口位置是8 5 5 5 1 0 ,白色像 素点的个数是2 7 8 2 。根据表3 3 和3 4 ,计算出这幅图像的密度特征的编码是 4 2 4 ,编码中4 2 表示窗口相对中心的坐标位置,4 表示白色点特征编码。 3 3 连通区域特征 连通区域定义n 刳,设d 为平面区域,如果刃内任一闭曲线所围成的部分都属 于历则成口为平面连通区域,否则称为复连通区域。连通区域的提取是各种图 像处理工作中重要的一个处理过程。在本文中,连通区域是四连通区域,采用了 栈数据结构和标号处理搜索法,在用密度特征提取的窗口左下角坐标和2 0 0 * 5 0 0 像素尺度窗口内,提取二值图像计算连通区域特征。连通区域特征包括窗口内连 通区域的个数和连通区域的面积。设原始二值信函图像为f ,连通区域特征提取 及标号处理后为g 。f ( i ,j ) = 1 表示当前点为二值信函图像中白色像素点即为 目标点,f ( i ,j ) = o 表示当前点为背景点。 尺度和窗口尺寸大小相等的矩阵m 2 0 0 5 0 0 ,用来表示二值图像窗口内的 当前点是否被扫描过,避免出现栈死循环现象。当m i ,j = 0 时,表示当前点没 有被搜索过,当m i ,j = l 时,表示当前点已经搜索过。矩阵m 的主要作用就是 标记哪些像素点扫描过,哪些像素点没有扫描过,防止一个像素点被重复扫描, 出现死循环现象。 用链表数组c c a 2 0 0 记录图像中的连通区域,数组的元素个数是2 0 0 ,认为 信函图像中的2 0 0 * 5 0 0 窗口内连通区域的个数小于等于2 0 0 。数组中每个元素是 一个链表,这个链表就代表了一个连通区域,链表表头头存储了这个连通区域的 像素点个数即连通区域的面积,链表中的每个结点包含了该连通区域中的当前像 素点的位置信息,其中链表数组和链表的数据结构如图3 5 所示。链表数组和链 表结点如下: 1 4 华东师范大学硕士学位论文第三章图像特征提取方法 t y p e d e fs t r u c tc c a n o t e p o i n t n o t e :白色像素点的坐标 c c a n o t e * n e x t :指向下一个结点 ) : t y p e d e fs t r u c tc c a p o i n t e r c c a n o t e * c c a p ;数组元素指针 i n ts u m ;连通区域的面积即白色像素点的个数 ) c c a 2 0 0 : 毓十 j 耋- 懑区 域辫 i 鳓 第一十 诲涌h 域 瓣 p i 橥一十 违 簦肫 域甜 b 2 旃一个 泣篡l f 城辑l l n 3 钾 一固 一母 一倡 一固 图3 5 连通区域数组和连通区域链表 连通区域的具体计算分为以下步骤来进行: 1 初始化矩阵m n ,1 1 1 为0 矩阵,初始化连通区域数组,并且每个数组元 素是一个链表的头指针。 2 在二值信函图像的窗口区域内,从左到右、从下到上进行扫描,同时矩 华东师范人学硕上学位论文 第三章图像特征提取方法 阵m 按同样的顺序,根据图像当前点的像
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 在线背单词课件
- 2025年航空复合材料行业当前发展现状及增长策略研究报告
- 2025年电子竞技行业当前发展现状及增长策略研究报告
- 土豆田间管理培训知识
- 基于GIS的2025年生态修复工程生态系统服务功能评估报告
- 2025年太阳能行业当前市场规模及未来五到十年发展趋势报告
- 2025年合同能源管理(EMC)行业当前市场规模及未来五到十年发展趋势报告
- 2025年智慧旅游行业当前市场规模及未来五到十年发展趋势报告
- 初中科学实验教学进度安排表
- 矿山智能监测传感器选型指南
- DBJ∕T 13-262-2017 福建省里氏硬度法现场检测建筑钢结构钢材抗拉强度技术规程
- DL-T 5876-2024 水工沥青混凝土应用酸性骨料技术规范
- 价值观使命培训
- 公路工程施工安全技术资料编制指南
- 十期牛黄清心丸
- 2024-2025学年四川成都田家炳中学高一新生入学分班质量检测数学试题【含答案】
- 外科学-心脏疾病课件
- 教育家精神引领下职业院校师德师风建设研究
- 2024年“泰山杯”山东省网络安全职业技能竞赛理论试题库(含答案)
- 工地受伤赔偿协议书
- NB-T10859-2021水电工程金属结构设备状态在线监测系统技术条件
评论
0/150
提交评论