(计算机应用技术专业论文)基于决策树和adaboost的孟加拉文数字识别研究.pdf_第1页
(计算机应用技术专业论文)基于决策树和adaboost的孟加拉文数字识别研究.pdf_第2页
(计算机应用技术专业论文)基于决策树和adaboost的孟加拉文数字识别研究.pdf_第3页
(计算机应用技术专业论文)基于决策树和adaboost的孟加拉文数字识别研究.pdf_第4页
(计算机应用技术专业论文)基于决策树和adaboost的孟加拉文数字识别研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)基于决策树和adaboost的孟加拉文数字识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕士学位论文摘要 摘要 本文以中国邮政集团公司出口孟加拉国邮政的信函自动分拣机项目为背景, 为达到高可靠性的孟加拉邮政编码数字的识别性能,研究了一种基于决策树和 a d a b o o s t 的孟加拉手写体数字识别方法。系统由图像预处理、特征提取、特征 离散化、基于a d a b o o s t 和概率估计决策树的两级分类器四个模块组成。实验结 果表明,该方法对盂加拉手写体数字有识别可靠性高、鲁棒性强的特点,满足了 系统的要求。 本文的主要工作如下: l 、基于孟加拉手写体字符的实际情况,实现了包括图像平滑、二值化、笔 划宽度归一化以及字符大小归一化等预处理工作; 2 、根据孟加拉手写体数字的特殊结构,采用了一种开环一闭环结构特征, 使提取的结构特征既能充分代表每类样本信息又能很好地将不同类别加以区分, 有效地降低了特征的维数,提高了分类器的效率; 3 、提取了方向特征作为上述结构特征的补充,该特征有很好的抗噪性能, 对结构特征起到良好的互补作用; 4 、采用基于拉普拉斯平滑的概率估计决策树作为基分类器,在给出预测类 别的同时提供相应的可靠性度量; 5 、将a d a b o o s t 算法应用于孟加拉数字识别,将决策树基分类器提升为一个 强分类器,显著地提高了基分类器的识别性能: 6 、设计分别基于两种互补特征的两级组合分类器,用相应的阈值控制每级 分类器的预测结果的可靠性,第一级拒识的字符继续进入第二级分类器进行识 别,在保持高可靠性的前提下提高了识别率。 关键字:决策树,a d a b o o s t ,手写体数字识别,孟加拉文数字,两级分类器 华东师范大学硕士学位论文 a b s t r a c t a b s t r a c t b a s e do nt h ep r o j e c to fb a n g l ap o s ta u t o m a t i ci e t t e rs o r t i n gm a c h i n em a n u f a c t u r e d b yc h i n ap o s t a lc o r p o r a t i o n , i nt h i sd i s s e r t a t i o n , w ei m p l e m e n t s ab a n g l a h a n d w r i t t e nn u m e r a l r e c o g n i t i o ns y s t e mu s i n gd e c i s i o nt r e ea n da d a b o o s ta l g o r i t h m ss y s t e mi sa i m e da to b t a i n i n gt h eh i g hr e l i a b i l i 锣r e c o g n i t i o np e r f o r m a n c ef o r b a n g l ap o s t a ln u m e r a l s t h es y s t e mc o n s i s t s o fj l i l a g ep r e p m c e s s i n g , f e a t u r e e x t r a c t i o n , f e a t u r ed i s c r e t i z a t i o n , t w o s t a g ec l a s s i f i e rb a s e do i la d a b o o s ta n dd e c i s i o n t r e e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o di so fh i g hm l i a b i l i t ya n ds t r o n g r o b u s t n e s si nr e c o g n i z i n gb a n g l ah a n d w r i t t e nn u m e r a l sa n dm e g t st h ep r a c t i c a l r e q u i r e m e n t s 皿em a i nc o n t e n ta n ds t r u c t u r eo f t h i sd i s s e r t a t i o na f ea sf o l l o w s : 1 h n a g ep r e p r o c e s s i n go nb a n g l ah a n d w r i t t e nn u m e r a li m a g e si si m p l e m e n t e d , i n c l u d i n gi m a g es m o o t h i n g ,b i n a r i z a t i o n , s t r o k ew i d t hn o r m a l i z a t i o n , c h a r a c t e rs i z e n o r m a l i z a t i o n , e t c 2 a c c o r d i n gt ot h es p e c i a ls t r u c t a r co fb a n g l ah a n d w r i t t e nn u m e r a l s ,o p e n - l o o p a n dc l o s e d l o o pf e a t u r e sa r ee m p l o y e d t h e s ef e a t u r e s 黜a b l et od e s c r i b ee a c h b a n o an u m e r a lc a t e g o r ya n dd i s t i n g u i s ho n ef r o mo t h e r s ,w h i c hr e d u c 2t h e d i m e n s i o n se f f e c t i v e l ya n dg r e a t l yi m p r o v et h ee f f i c i e n c yo f t h ec l a s s i f i e r 3 s t a t i s t i c a lf e a t u r e s ,i e d i r e c t i o n a lf e a t u r e sa l ee x t r a c t e da sac o m p l e m e n t a r y o ft h ea b o v es t r u e t o r a lf e a t u r e s 砸sk i n do ff e a t u r ei so fg o o dr o b u s t n e s so nn o i s y i m a g e s 4 p r o b a b i l i t ye s t i m a t i o nd e c i s i o nt r e e1 i v i t l ll a p l a c ep r o b a b i l i t ys m o o t h i n gi s a d o p t e da st h eb a s ec l a s s i f i e ro ft h es y s t e m i tf o r e c a s t st h en u m e r i cc a t e g o r i e s ,a n d p r o v i d e st h ei n f o r m a t i o no f m l i a b i f i t y a tt h es a m et i m e 5 a d a b o o s ta l g o r i t h mi sa p p l i e dt ob a n g l an u m e r a lr e c o g n i t i o n i tu p g r a d e s t h ed e c i s i o nt r e ec l a s s i f i e r st oas t r o n gc o m b i n a t i o nc l a s s i f i e r , a n di m p r o v e st h e r e c o g n i t i o np e r f o r m a n c es i g n i f i c a n t l y 6 at w o s t a g ec o m b i n a t i o nc l a s s i f i e ri s d e s i g n e db a s e do nt h ea b o v et w o c o m p l e m e n t a r yf e a t u r e s a n dt h er e l i a b i l i t yo f r e c o g n i t i o nr e s u l t si sc o n t r o l l e db yt w o 华东师范大学硕士学位论文 a b s t r c t p r e d e f i n e dt h r e s h o l d s t h ec h a r a c t e r sr e j e c t e db yt h ef i r s t s t a g ec l a s s i f i e r a r e r e c o g n t z e db yt h es e c o n d - s t a g ec o n t i n u a l l y t h e r e f o r e ,t h es y s t e ma c h i e v e sh i l g h r e l i a b i l i t ya n dr e c o g n i t i o nr a t e k e yw o r d :d e c i s i o nt r e e ,a d a b o o s t ,h a n d w r i t t e nn u m e r a lr e c o g n i t i o n , b a n g l an u m e r a l s ,t w o s t a g ec l a s s i f i e r 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意 作者签名:7 良壶变日期:耐7 i i 专d 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名:侦递交导师签名:v 队饬 日期:迦 j l 立立 日期:砩m 岁9 o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o r t h em a s t e r sd e g r e ea te a s tc h i n an o r m a lu n i v e r s i t y ,1w a r r a n tt h a tt h i s t h e s i si so r i g i n a la n da n yo ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v e b e e n f i g u r e do u tb ym e a n yo ft h er e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r k , p a t e n t ,s t a t u t o r yr i g h t ,o rp r o p r i e t yr i g h t o fo t h e r sh a v e b e e n e x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h er e f e r e n c e ss e c t i o na tt h e e n do ft h i st h e s i s s i g n a t u r e向蝴d a t e :j : c o p y r i g h tn o t i c e ih e r e i na g r e et h a tt h el i b r a r yo fe c n 【is h a l lm a k ei t sc o p i e sf r e e l y a v a i l a b l ef o ri n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h e t h e s i si sa l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ,i np a r t i c u l a r ,s t o r i n g t h ec o n t e n to ft h i st h e s i si n t or e l e v a n td a t a b a s e s ,a sw e l la sc o m p i l i n g a n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s ,c o n s i s t e n tw i t h f a i ru s e a sp r e s c r i b e di nt h ec o p y r i g h tl a wo ft h ep e o p l e sr e p u b l i c o fc h i n a s i g n a t u r e : 华东师范大学硕士学位论文 第一章绪论 第1 章绪论 1 1 论文的研究背景 随着科学技术的发展和信息时代的到来,信息交流的手段越来越多,且越来 越先进。然而,最古老信息交流手段之一的信函不仅不降反而逐年上升。如美国 每年的信函量达到一千七百多亿件,我国的信函量也逐年递增,目前已达到一百 亿件,经济发达地区如上海的年入均信函量己达到六十一封。为了及时处理信件, 快速传递信息,信函自动分拣系统的研制成为一种必需。 从上世纪六十年代开始,各工业发达国家相继开展了信函分拣系统的研究和 制造。我国从1 9 7 8 年开始了对信函设备的研制,由于当时邮政编码刚刚开始推 行,邮政编码的正确书写率很低,并且信封的标准化程度很差,这批设备仅在 些邮局作了功能性试验,没能推广使用。从9 0 年代初我国开始引进信函分拣设 备,刚开始引进的是全自动o c r 信函分拣机、独立的o b r 分拣机、红框理信机、 以及人工条码打印台等配套设备。由于这些设备功能单一,运行效率较低,我国 国家邮政局上海研究院( 原邮电部第三研究所) 于上世纪七十年代开始进行了信 函分拣系统的研究,先后研制了全自动o c r 信函分拣机,具有5 个自动供信、人 工按键分拣的半自动信函分拣机,以及配套使用的红框理信机等一批设备在 1 9 9 2 年国家邮政局上海研究院和当时的a l c a t e 公司合作研制功能比较齐全、符 合我国国情的将o c r 功能和v i d e o 功能合在一起的o v c s 信函分拣机,在这个系 统中加入了独创的邮政编码补码技术,就是把o c r 不能处理的信上邮政编码重新 组合,根据人机功能学的研究将重新组合的邮政编码分成4 个一组送给视屏台人 工处理这样就大大提高了系统的处理效率,系统处理率从原来的7 0 左右一下 子提高到9 5 左右,受到了各用户局的欢迎。同时国家邮政局确定了以o v c s 功 能为主的信函分拣机技术标准和信函分拣机引进规范。各制造厂商以此为标准进 行生产,并同时对以前没有o v c s 功能的设备进行了改造。现在,各种高效的信 函分拣系统已广泛应用于各地的信函处理中,f i , ,大大地节省了人力和物力,提高 了劳动生产率。 经过近三十年的努力,国家邮政局上海研究院技术水平已经达到了国际先进 华东师范大学硕士学位论文第一章绪论 水平。在2 0 0 5 年,国家邮政局上海研究院又在孟加拉国邮政信函自动分拣机项 目国际招标中中标,实现了中国邮政大型设备进入国际市场零的突破,标志着中 国邮政拥有自我知识产权的高新技术大型设备从此打开了世界市场之门。竞标过 程中国家邮政局上海研究院以切合孟加拉国邮政实际的技术方案和信函自动分 拣机的高性价比优势击败了德国西门子及美国d o w b e l l - - h o w e l l 公司等竞争对 手。 信函自动分拣是邮政自动化的一个重要环节,是o c r 技术在实际应用领域的 一个成功范例。信函自动分拣系统的功能模块图如图1 1 所示。 注:c 令表示信函流的流向,表示信息流的流向 图l - i 、信函自动分拣机的功能模块图 如图l - l 所示,信函分拣机的作业流程是:在供信模块处以吸风分离的方式 使信函以相同的间距依次送入机器;经过图像采集模块,应用光电转换原理把信 封图案编程图像,然后将图像信息送到图像预处理模块;信封图像在预处理模块 经过二值化、倾斜矫正等预处理之后,将图像分割成不同的目的区域,以文本行 的形式列出,并分成不同的块,找出正确的地址块和邮政编码块,从地址块图像 中提取字符称为单字分割;经识别模块处理后,得到邮政编码,并将拒识字符的 图像送到视屏台,由人工键入正确结果;通过邮政编码,并结合地名字典就可以 得到比较可靠的分拣信息送到控制模块:最后,将信函送入指定的集堆器或格口, 从而完成了信函的分拣。 目前我国应用的各类信函自动分拣机都是根据信封左上角的6 个红框分割 出邮政编码数字的图像,然后进行o c r 识别,并按照其识别结果控制信函的分拣, 因此对图像的处理和识别都是针对信封左上角进行的。而对于孟加拉信函,信 封的大小小于我国的标准信封,另外它只有四个邮编,其邮编的位置处于信封的 2 华东师范大学硕士学位论文 第一章绪论 右下方。而且由于孟加拉数字的独特结构,有必要重新研制一种专门针对孟加拉 国邮政信函分拣机的邮政编码定位分割及识别技术。 如上所述,一个信函自动分拣系统的图像信息流程主要包括以下环节:信封 图像采集、图像预处理、版面分析、定位邮政编码块、邮政编码提取、数字识别、 后处理、组合邮编结果、分拣到指定格口。其中软件部分主要包括信封图像的预 处理、版面分析与邮政编码定位、邮政编码分割和识别。其中字符识别技术直接 决定了整个分拣系统的最终性能,也是信函分拣系统的一个重要的衡量标准。 1 2 字符识别概述 字符识别是模式识别的一个传统研究领域。从5 0 年代开始,许多的研究者 就在这一研究领域开展了广泛的探索,为模式识别的发展带来了的很多积极的影 响。字符识别一般可分为两类:联机手写字符识别和光学字符识别( o c r ) 或称 离线字符识别0 1 。在联机手写字符识别中,计算机能够通过与计算机相连的手写 输入设备获得输入字符笔划的顺序、方向以及字符的形状,相对o c r 来说它更 容易识别一些。但联机字符识别有一个重大的不足就是要求输入者必须在指定的 设备上书写,而在现实生活中人们的大部分书写情况都是不满足这一要求的,比 如填写各种表格资料,开具支票等等。若要计算机去认识这些已经成为文字的东 西就需要o c r 技术。 o c r 是2 0 世纪2 0 年代逐步发展起来的一门自动化技术,是图像处理领域 的一个重要分支。它涉及模式识别、图像处理、数字信号处理、自然语言理解、 人工智能、模糊数学、信息论、计算机、中文信息处理等多门学科,是一门综合 性技术,在中文信息处理、办公自动化、机器翻译、人工智能等高科技领域,都 有着重要的实用价值和理论意义。它的目的就是把图像作一个转换,使图像内的 图形、表格继续保存,图像内的文字和表格中的资料一律变成计算机文字。从而 达到减少图像资料的储存量、循环利用已识别出的文字以及节省因键盘输入而浪 费人力与时间的目的。比起联机字符识别,o c r 不要求书写者在特定输入设备 上书写,任何介质都可以作为书写的工具,而且时间上也不要求同时性,比如可 以整理多次完成的报表进行一次性识别。因此o c r 技术的应用更为广泛。o c r 所采用的输入设备可以是任何一种图像采集设备,如c c d 、扫描仪、数字相机 等。通过实用这类采集设备,o c r 系统将书写者已写好的文字作为图像输入到 计算机中,而后由识别系统去加以识别。由于o c r 输入的只是简单的一幅图像, 它就不能像联机输入那样比较容易地从物理上获得字符笔划的顺序信息,因而 o c r 是一个更具挑战性的问题o 】【”。 脱机手写字符识别是整个o c r 领域中最困难的部分。字符识别处理的信息 华东师范大学硕士学位论文 第一章绪论 可分为两大类:一类文字信息,处理各国家、各民族的文字( 如汉字、英文等) 手写或印刷的文本信息,目前在印刷体和联机手写识别方面,技术已趋向成熟, 并推出了很多应用系统,但对于手写体字符,离人的识别能力还有一定的距离; 另一类是数据信息,主要是各种数字及少量特殊符号组成的各种编号和统计数 据,如,邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心 技术是手写体数字的识别。若能通过手写体数字识别技术实现信息的自动录入, 无疑会给这些应用的处理速度有质的提高,从而大大地节约人力物力。因此手写 体数字识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的 社会效益和经济效益。 在各种应用中,由于相关软硬件技术性能的不断提升,新的方法理论不断涌 现,原有的方法也在不断地被重新组合或改进利用以求更好的性能。 对于所有的o c r 系统,其一般步骤均为以下几个阶段嘲: ( 1 )图像采集:取得待识别的原材料,即各个字符集的图像。主要工具 是光学仪器( 照相机、摄像机、扫描仪等) ; ( 2 )图像预处理:由于各种外在原因使得扫描到的图像可能非常不理想, 如字符倾斜,亮度不一,噪声点多等,本步骤就是对采集到的初始图像在识别 前进行一些处理工作。主要包括:对图像进行几何矫正,去噪,复原,滤波, 平滑,二值化,单字分割,细化,粗细大小归一化等,必要时修补缺口。 ( 3 )特征提取:对预处理后的单字图像( 可以是细化后的也可以是没有 经过细化的图像) 提取识别时必要的特征,不仅仅局限于平面上的点阵位置信 息,在频率空间、投影空间,甚至在语义空间上都有各自的特征。这些特征在 识别时发挥出风格各异的特点和优势,由此便衍生出多种不同的识别技术。 7 ( 4 )识别:通过某种识别技术,利用上一步所提取的特征对待识别的字 符进行识别处理。 ( 5 )识别后处理:每一种识别方法都会有或大或小的误差,因此对字符 进行识别后,结果未必一定就正确,若能利用上下文关系对识别结果进行修正, 将会大大提高识别精度从而改善系统性能。这就是识别后处理阶段所要做的主 要工作。 根据不同的准则,衍生出多种各不相同的识别算法。一般说来,这些识别方 法可以大致分为以下四类嘲: ( 1 )统计模式识别:发展较早,理论也较成熟。其要点是提取待识别模 式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。常见的 4 华东师范大学硕士学位论文 第一章绪论 统计模式识别方法有:模板匹配。该方法无需特征提取,字符图像直接作为特 征,与字典中的模板相比,相似度最高的模板类即为识别结果。对倾斜、笔划变 粗变细均无良好的适应能力。利用变换特征的方法。对字符图像一系列变换, 变换后特征维数大大降低,然后放入分类器进行识别。会有较大偏差,且运算量 大,难以实用。投影直方图法。利用图像在水平及垂直方向的投影作为特征。 该方法对倾斜旋转非常敏感,细分能力差。几何矩特征。该方法利用矩不变量 作为特征,但找到稳定可靠、对于各种干扰适应能力很强的几何矩特征很困难。 ( 垦) s p l i n e 曲线与傅立叶描绘子。两种方法均针对字符图像轮廓,前者对于旋转很 敏感,后者对于轮廓线不封闭的字符图像不适用,很难用于笔划断裂的字符识别。 笔划密度特征。笔划密度即在某一特定范围内,以固定扫描次数沿水平、垂直 或对角线方向扫描时的穿透次数。在字符内部笔划粘连时误差较大。外围特征。 即轮廓特征,较适合于作为粗分类的特征。基于微结构特征的方法等。统计模 式识别方法还有其他的诸如图描述法、包含配选法等等。 ( 2 ) 结构特征识别技术:这种技术首先要提取字符的结构。结构特征通 常包括圆、端点、交叉点、笔划、轮廓等,不同的识别策略、不同类别的字符都 会有不同的结构选择。与统计识别方法相对应,字符的结构识别技术更加便于区 分变化大以及字型相近的字符,但由于对结构特征的抽取、描述和比较会占用大 量的存储和计算资源,因此该算法在实现上相对复杂、识别速度慢。 ( 3 )统计识别和结构识别的结合。随着对两种方法认识的深入,这两种 方法正逐渐融合。网格化特征就是这种结合的产物。字符图像被均匀或非均匀地 划分程若干个称为“网格”的区域,在每个区域内寻找各种特征,如笔划点与背 景点的比例,交叉点、笔划端点的个数、细化后的笔划长度、网格部分的笔划密 度等等。目前这种方法正得到日益广泛的应用。 ( 4 ) 人工神经网络模式识别;人工神经网络( a n n ) 是一种模拟人脑神 经元细胞的网格结构,它是由大量简单的基本元件一神经元相互连接成的自适应 非线性动态系统。a n n 可以作为单纯的分类器( 不包含特征提取,选择) ,也可 以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题 中,常常将字符的图像点阵直接作为神经网络的输入。不同于传统的模式识别方 法,在这种情况下,神经网络所“提取”的特征并无明显的物理含义,而是储存 华东师范大学硕士学位论文第一章绪论 在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现 过程。它提供了一种“字符自动识别”的可能性。但它在学习效率和算法的收敛 性等方面还存在很多待解决的问题。 随着技术的推进和对识别精度要求的不断提高,新的识别算法思路也层出不 穷。但在一个高效的o c r 系统中采用一种识别方式是无法满足现实要求的,所 以采用集成分类器的字符识别方法应运而生。 手写体数字识别是o c r 中一个特别的问题,由于其应用的广泛性和挑战性, 多年来一直是字符识别领域的研究热点。手写体数字识别在特定的环境下应用特 别广泛,如邮政编码自动识别系统,税表和银行支票自动处理系统等。一般情况 下,当涉及到数字识别时,人们往往要求识别器有很高的识别可靠性,特别是有 关金额的数字识别时,如支票中填写的金额部分,更是如此。因此针对这类问题 的处理系统设计的关键环节之一就是设计出高可靠性和高识别率的手写体数字 识别方法。然而至今还没有哪个手写体数字识别器能达到完美的识别效果。 1 3 孟加拉数字识别方法概述 孟加拉语言是印度半岛的第二流行语言,是孟加拉国和印度部分地区的主要 语言,也是世界上最流行语言排行中的第五位的重要语言。随着孟加拉国经济各 方面的快速发展及不断扩大的对外交流,孟加拉语言的重要性正在不断提升。 多年来,不少研究学者都将孟加拉语言纳入了其研究的领域。孟加拉数字识 别更是其中一个研究热点。图l - 2 给出了孟加拉手写体数字的部分样本。从图中 可以看出,孟加拉手写体数字有其独有的结构,无分离的连通元,多环状结构。 至今为止,许多识别技术在孟加拉数字识别中得到应用。具体包括:最早的 孟加拉文数字识别方法当属d u t t ac t a l m 于1 9 9 3 年所提出,他设计了一个两级自 适应神经网络分类器来完成十类孟加拉数字的识别,提取的特征为基于细化图像 的数字字符交叉点曲率,该实验最终得出的识别准确率为9 0 ,样本数量较少, 分别为每类l o 幅样本;u p a l 嘲伽接着提出了一种使用基于蓄水池的统计特征, 同时采用树型分类器实现了对数字的分类,并取得了较好的效果;b h a t t a c h a r y ae t a 1 n 町于2 0 0 2 年实现了基于用等级树和m l p 分类器的一种孟加拉手写体数字识别 方法,该方法采用的特征为基于二维数字图像的骨架,诸如环、交叉点以及边界 点位置等信息;b h a t t a c h a r y ac ta 1 t 1 1 将小波理论引入孟加拉手写体数字识别,提 出了一种基于小波变换的像素特征的多重m l p 分类器来实现数字的识别;k r o y “2 3 设计了基于归一化图像像素信息的识别系统;b a s ue ta 1 c t 3 1 采用一个两级 n n 分类器实现对盂加拉数字的识别,第一级进行粗分类,第二级再基于第一级 的分类结果进行最终分类识别;另外k r o y “”还提取了字符的基于方向像素的统 6 华东师范大学硕士学位论文第一章绪论 计特征来实现对孟加拉手写体数字的识别;国内对孟加拉文识别方面所作的贡献 主要有w e n y 等“。实现的邮政自动化孟加拉数字识别系统和l u s 等“”提出的基 于部分标识的s o m 和m l p 分类器的孟加拉手写体数字识别系统。 图1 2 、盂加拉手写体数字样本示例 1 4 本文的工作 基于邮政编码数字识别的特殊应用背景,识别算法在信函自动分拣机上的应 用主要取决于其速度和效率。目前信函分拣机的处理能力为每秒钟1 2 封以上, 这使得一些理论上完美但速度过低的识别算法的应用受到了一定的限制“”。识别 系统一般采用并行或流水线的硬件结构,并可辅以各种加速器。随着微电子技术 和计算机技术发展的日新月异,高速识别系统也比较容易实现,这也给识别算法 带来了较大的发展空间。信函分拣机对数字识别的要求突出表现在以下几个方 面: 7 华东师范大学硕士学位论文第一章绪论 ( 1 ) 高识别率。邮政编码一般由4 到6 位数字组成。严格来说,只有识别出 一封信函上的所有数字才算完成对该信封的识别,这对数字的单字识别率 提出了很高的要求。如,孟加拉国信函采用4 位邮政编码数字,若单字识 别率为9 5 时,整封信的识别率仅为8 0 左右。 ( 2 ) 高置信度。邮政编码数字识别的另一个要求是高可信度,即分拣差错要尽 量少。因为分拣差错不仅降低邮政通信的质量,而且造成通信成本的上升。 与手工分拣相比,机器的分拣差错偏高。从识别算法角度看,高识别率和 低误识率是互为矛盾的,识别率越高,误识率也越高。一般说来,置信度 是检验识别方法的一个重要指标。 ( 3 ) 高适应性。由于高速的图像采集和实际的书写状况,使得识别的图像变化 很大,字符中的污染、断笔、连笔和变形等不良因素无不约束着识别算法。 由于数字识别问题的复杂性,单一特征或单独的分类器一般难以满足上述这 些要求。目前,人们越来越倾向于采用多信息源和多种识别方法的组合来提高 识别系统的性能。但针对特定要求的识别精度,相对单个分类器来说,组合分类 器更不易于控制。而且,如今越来越多的应用要求的不仅是给出一个识别结果, 还需要同时给出其置信度,这就限制了某些分类器的应用如神经网络等。研究高 性能、功能更加完备的手写体数字识别算法仍是一个独具挑战性的课题。 在数字识别领域,人们一度地将识别率作为评判系统性能的标准,提出了众 多的特征提取方法以及分类器构造方法以期达到提高识别率的目的。然而,很多 人忽视了另一个评判识别系统性能的要素一识别可靠性或称置信度,在一味地提 高识别率的同时没有顾及预测结果的可靠性,包括上面所述的已有的孟加拉数字 识别方法。然而,识别率的提高往往是以牺牲可靠性为代价,识别率越高,预测 结果的可靠性越差。因此,要想得到一个高可靠性的识别系统并非易事。一般来 说,单种特征单个分类器往往达不到很好的分类效果,要想提高系统识别的可靠 性,必须采用多级分类器或者多种特征进行识别。 本文首先对实地采集的孟加拉数字样本进行了深入的分析,根据孟加拉手写 体数字的特殊结构提取了开环闭环结构特征以及统计特征方向特征m 1 ,这些特 征能很好地体现孟加拉数字的基本特性且能突出每类数字的差异。 此外,在对传统的o c r 技术进行深入研究的基础上,本文基于抽取的孟加 拉数字特征,利用机器学习领域中热点的概率估计决策树和a d a b o o s t 构建了一 个高性能的两级分类器,在给出预测结果的同时能提供相应的预测可靠性估计。 整个系统的实现模块如图1 3 所示。 8 华东师范大学硕士学位论文 第一章绪论 图1 - 3 ,盂加拉手写体数字识别系统模块图 整个孟加拉手写体数字识别系统主要包括预处理、特征提取、特征离散化和 两级分类器四个模块。其中,预处理模块包括了对图像的平滑滤波、二值化、大 小归一化和宽度归一化的处理;特征提取模块对经过预处理后的图像进行结构特 征提取和统计特征提取:特征离散化模块主要是针对特征提取模块所提取的两种 特征进行离散化处理;两级分类器模块分别构建基于结构特征和统计结构特征的 分类器,且组合上述的两类分类器为两级分类器。 最后本文将上述的成果运用于盂加拉邮政识别系统。其中主要工作有: ( 1 ) 根据孟加拉手写体数字结构,同时提取了其统计特征和结构特征,以期提 高特征的鲁棒性。 ( 2 ) 引入了基于概率估计树p e t ( p r o b a b i l i t ye s t i m a t i o nt r e e s ) ,使得识 别精度更易于控制,贴近实际应用。 ( 3 ) 采用了经典的a d a b o o s t 算法提升单棵概率估计决策树的性能; ( 4 ) 利用结构特征和统计特征的互补性分别构建了相应的分类器组,得到两级 分类架构,使得系统在达到高识别率的同时预测结果有很高的可靠性 ( 5 ) 将本文所研究的成果封装成独立的孟加拉手写体数字识别模块,且运用在 孟加拉邮政识别系统中。 9 华东师范大学硕士学位论文 第二章盂加拉数字图像预处理及特征提取 第2 章孟加拉数字图像预处理及特征提取 2 1 数字图像预处理 字符识别时,首先将印刷( 书写) 在纸上的字符,经过相应的图像采集设备 产生模拟电信号,再通过模数转换为带灰度值的数字信号输入计算机。纸张厚度、 光洁度、油墨深浅、印刷或书写质量等都可能造成字形畸变,产生污点、断笔、 交连等干扰。另外环境光线是否充足也是制约图像质量的一个重要因素。输入设 备的鉴别率、线性度、量化过程也会产生噪声。所以,在单个字符识别之前,要 对带有噪声的图像进行预处理( p r e p r o c e s s i n g ) “”。 预处理一般包括二值化、行字切分、平滑、去噪、规格化和细化等。不同的 识别方法对预处理的项目和要求有所差别。本文采取的主要有图像平滑、二值化、 大小归一化、笔划宽度归一化、去噪和提取字符轮廓几个步骤。 2 0 1 1 数字图像平滑 数字图像在生成和传输过程中常受到各种噪声的干扰和影响,使得数字图像 质量下降。为了抑制噪声改善图像质量,必须对图像进行平滑处理,这可以在空 域或频域中进行。在平滑噪声时尽量不损害图像中的边沿信息和各种细节。 为滤除图像中的噪声,一般需要对图像进行平滑处理,数字图像的平滑技术 一般可以划分为两类: 一类是局部处理,即对噪声图像的整体或大的块进行校正以得到平滑的图 像。例如在变换域中使用w i n n e r 滤波、最小二乘法等。使用这些技术时需要知 道信号和噪声的统计模型。但对于大多数图像而言,人们不知道或不可能用简单 的随机过程精确地描述统计模型,而且,这些技术的计算量也相当大,对于一般 的实时系统很难直接加以应用。 另一类平滑技术是对噪声图像使用局部算子。当对某一像素进行平滑处理 时,仅对它的局部小领域的些像素加以运算。此方法的优点是计算效率高,而 且可以多个像素并行处理。因此可以实现实时或准实时处理。局部算子的平滑技 术又分为均值滤波法、中值滤波法、频域中的平滑技术等几大类。这些平滑处理 都是将一个n x n 的像素窗口,依次在二值化后的字符图像的每个像素点上移动, 华东师范大学硕士学位论文第二章盂加拉数字图像预处理及特征提取 利用逻辑表达式来消除孤立像素的一种技术。 其中,中值滤波是一种局部平均平滑技术。它对于脉冲干扰和椒盐噪声的抑 制效果较好,在抑制随机噪声的同时能使边沿减少模糊。而噪声在图像中往往以 孤立点的形式出现,且与之对应的像素又很少。图像往往是由像素数比较多。面 积比较大的小块组成,在这种背景下,采用中值滤波,可以达到图像增强的目的。 中值滤波是字符识别系统中图像预处理环节最常采用的算法之一。本系统采用的 平滑算法即为中值滤波法。 中值滤波是一种非线性的图像平滑算法,它对一个滑动窗口内的诸像素进行 灰度排序,用其中值代替窗口中心像素( x ,y ) 原来的灰度( 若窗口有偶数个像 素,则取两个中间值的平均) 具体方法如下: 在一维情况下,设一模板内的像素值序列为a 。,氐,排序后得出其 中值为m ,则该模板对应的中心处理像素值更改为m 。另外,当窗口内噪声点的 个数大于窗口宽度的一半时,中值滤波的效果不好。因此正确选择窗口尺寸的大 小时用好中值滤波的重要环节。本实验中通过从小窗口到大窗口的多次试验,最 终采用的是3 x 3 模板。具体效果如图2 - l 所示: ( a ) 原始图像( b ) 直接二值化效果 未经平滑的二值化效果 ( a ) 原始图像( b ) 平滑后图像( c ) 经平滑的二值化效果 3 x 3 窗口的中值滤波效果图 图2 1 、孟加拉数字中值滤波平滑效果图 华东师范大学硕士学位论文 第二章盂加拉数字图像预处理及特征提取 2 1 2 图像二值化 把数字的灰度图像处理成二值( 0 ,i ) 的过程,称为对数字图像的二值化。 二值图像具有存储空间小,处理速度快,可以方便地对图像进行布尔逻辑运算等 特点。在很多情况下,二值化是进行图像分析、特征提取与模式识别之前的必要 的图像预处理过程。二值化效果的好坏直接影响识别系统的性能。 二值化处理的关键是最佳阈值的选择和确定。该阈值将图像分割成两个区 域,每个区域有着相似的灰度值,即分别为目标和背景。目前有多种阈值选取方 法。依阙值的应用范围可以分为整体阈值法、局部阙值法和动态阈值法。整体阈 值法是指在二值化过程阈值法和动态阈值法等。整体阈值法是指在二值化过程中 只使用一个阈值;局部阕值法则是由像素的灰度值和像素周围局部灰度特性来确 定二值化的阈值;动态阈值法的阚值确定不仅取决于该像素的灰度值及其周围像 素的灰度值,而且与像素位置信息有关。一般来说,整体阈值法对质量较好的图 像较为有效。而局部阈值法则适应于较复杂的图像“9 1 蜘。每种二值化方法都有其 优缺点,可以根据扫描得到的图像的灰度差别以及具体的应用要求,来确定采用 哪种更加合适的阈值选取方法进行二值化。 在所有的二值化方法中,由o t s u a l l 于1 9 7 8 年提出的最大类问方差法,它以 其计算简单、稳定有效的优势,一直广为人们使用。该方法中,阈值t 把图像的 像素点分为c 。和c 两类( 分别代表目标与背景) 。d ;,盯;,盯;分别代表类内方差、 类问方差和总体方差。阈值t 的分割质量由下列三个准则函数衡量 五;- “7 ,r :荨,7 :雩 ( 2 1 ) o o ;o i 其中,盯参2 + q 听 盯;= 埘o ( 风一所) 2 + 国l o 一所) 2 = q ( 鳓一所) 2 ( 2 2 ) , ;= 盯;+ 盯;,0 ) o = 只,0 ) i = l - - 0 ) 0 ( 2 3 ) l = o 华东师范大学硕士学位论文第二章孟加拉数字图像预处理及特征提取 所= 篓妒,鸬= 骞僻,胁= j _ l 椭= 箐三争 c z t , 最优阈值t 通过求类间方差的最大值得到 t + - - a r g m a x 盯2 ( 2 5 ) t c g 在孟加拉手写体的数字识别系统中,二值化效果如图2 2 所示。 图2 - 2 、孟加拉手写体数字二值化效果图 2 1 3 字符笔画宽度归一化 手写字符的最大特点,就是其书写的不规范性。同一个字,在不同的人书写 时,会呈现出不同的字型。而且,采用不同的图像采集工具采集下来的图像也会 有很大的差异。这种差异不仅体现在字符形状大小上,很多情况下字符的笔划宽 度不一,这对提取某些特征是很不利的。本文提取的特征为基于字符结构的开环 一闭环特征,后续所进行的识别工作是基于开环或者闭环的类型、面积、周长等 具体特征,字符笔划宽度直接影响着这类特征的准确性。不同笔划宽度的经过大 小归一化处理的孟加拉手写体数字字符如图2 - 3 所示。 o o 图2 3 、不同笔划宽度的盂加拉手写体数孚不例 如图2 3 所示,若图像的笔划宽度相差很大其具体的特征会受到很大的影 响,比如一个封闭区域的面积或单位面积内的笔划像素密度等。因此,笔划宽度 归一化也是图像预处理中必要的一环。本系统采取的是首先对图像进行闭运算操 作,然后细化为单像素骨架点,最后统一膨胀为指定的像素宽度。以下说明每个 步骤的实现。 华东师范大学硕士学位论文 第二章盂加拉数字图像预处理及特征提取 2 1 3 1笔划预处理 由于二值化、源图像质量低等原因,很多数字字符笔划出现断裂、笔划内部 出现气泡等问题,在进行宽度归一化前对笔划进行预处理去除这些噪声是必要 的。 数学形态学( m a t h e m a t i c a lm o r p h o l o g y ) 噼1 是近年来兴起的图像处理技术 中的一种流行方法。它是由法国数学家g m a t h e r o n 和j s e r r a 于1 9 6 4 年提出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论