(计算机软件与理论专业论文)自由手写体数字识别多神经网络分类器集成系统.pdf_第1页
(计算机软件与理论专业论文)自由手写体数字识别多神经网络分类器集成系统.pdf_第2页
(计算机软件与理论专业论文)自由手写体数字识别多神经网络分类器集成系统.pdf_第3页
(计算机软件与理论专业论文)自由手写体数字识别多神经网络分类器集成系统.pdf_第4页
(计算机软件与理论专业论文)自由手写体数字识别多神经网络分类器集成系统.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机软件与理论专业论文)自由手写体数字识别多神经网络分类器集成系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西华大学硕士学位论文 自由手写体数字识别多神经网络分类器集成系统 计算机软件与理论专业 研究生张凯兵指导教师黄襄念 摘要 o c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) 技术作为一种重要的快速字符录入方 式,在一定程度上解决了信息处理的输入瓶颈问题。研究具有极高正确率和极 低误识率的脱机手写数字识别系统对满足当前日益增长的自动信息处理需求具 有重要意义。 本文介绍字符识别图像预处理技术,提出将线性规一化和非线性规一化相 结合的预处理方法。实现了字符样本自动采集系统,提出使用h o u 曲交换检测 样表图像倾斜角度和使用行程段信息表示字符图像的编码方法;提出了快速标 记行程段中心迭代算法实现字符图像分割的方法。介绍了b p 网络、s o f m 网 络和l v q 网络的网络模型和学习算法,分析了各自的不足和改进方法,提出每 次迭代时随机提交样本的学习方法。对不同的神经网络输出。提出了将其转换 为后验概率的方法,以便于不同分类器的集成。 本文使用结构模式识别和统计模式识别相结合的方法,提出了一个两级识 别结构。对结构分类器,提出基于连通域检测算法的结构特征提取算法;对高 维统计特征,使用神经网络分类器进行分类。为降低享孛经网络输入特征向量的 维数,使用基于k - l 变换的主成分分析方法。对多个神经分类器,使用多专家 投票的并行组合方案决定最终的识别结果,提高了系统的可靠性。使用 c ”b u i l d e r 6 0 作为开发工具,实现了一个手写数字表格识别实验系统,并给出 实验结果。 关键字:手写数字识别:神经网络:多分类器集成; 壁些盔堂塑主鲎垒笙塞 r e c o g n i t i o ns y s t e m o fu n c o n s t r a i n e dh a n d w r i t t e nn u m e r a l s b yc o m b i n i n g i nm u l t i p l en e u r a ln e t w o r kc l a s s i f i e r s s p e c i a l i t yc o m p u t e r s o f t w a r ea n d t h e o r y m a s t e rc a n d i d a h e 撕k a l b i n g s u p e r v i s o rh u a n gx i a n g n i a n a b s t r a c t a so n eo fm o s ti m p o r t a n tr a p i dc h a r 越e ri n p u tm a n n e r s ,o p t i c a lc h a r a c t e r r e c o g n i t i o nt e c h n o l o g yh a sr e s o l v e dp r o b l e m so fl i m i t so fi n f o r m a t i o ni n p u tt o c o m p u t e r a tac e r t a i ne x t e n t i ti s s i g n i f i c a n t t or e s e a r c ho f f - l i n eh a n d w r i t t e n n u m e r a l sr e c o g n i t i o ns y s t e mt o8 p 。h i f v c h i g ho d i l t 则o na n dl o we r r o rt og e a rt o m o r ea n dm o r en e e d si na u t o m a t i ci a f o t m a t i o a m a n a g e 。 i nt h ep a p e r , f i r s t l y , t h ep r e p r o c e s s i n gt e c h n o l o g yo fd i g i t a li m a g ef o rc h a r a c t e r r e c o g n i t i o n i s i n t r o d u c e d , a n d t h em e t h o do f c o m b i n i n gb y n o n l i n e a rs h a p e n o r m a l i z a t i o na n dl i n e a rs h a p en o r m a l i z a t i o ni sp r e s e n t e d s e c o n d l y , w ei m p l e m e n t a na u t o m a t i cs a m p l i n gm e t h o df o rh a n d w r i t t e nd 鞠糟c t c r ss y s t e m 。a n dp r e s e n ta m e t h o dt od e t e c ts k e wa n g l eo fi m 8 9 c 璐蛔t e e g ht r a n s f o r ma n dc o d ec h a r a c t e r i m a g eb a s e do ni n f o r m a t i o no fr u n k n g t h s a l s o , _ f a s ti t e r a t i o nm e t h o db a s e do n c e n t e ro fr u n - l e n g t h sf o rc h a r a c t e ri m a g es e g m e n t a t i o ni s p r o p o s e d t h e nt h r e e n e u r a ln e t w o r km o d e l sa n dt h e i rl e a r n i n ga l g o r i t h m so fb p , s o f ma n dl v qh a v e b e e n e x p a t i a t e o nt h i s p a l e r 1 1 妇i m p e r f e c t i o n sa n di m p r o v e m e n t s a r ea l s o a n a l y z e d ,a n d am e t h o dt o g e n e r a t e r a n d o ms e r k do r d e r so fs a m p l e st on e u r a l n e t w o r kc l a s s i f i e r sd u r i n gt r a m 撼u a g ei sp f 哪1 0 s e d f o rd i v e r s em e a s u r e m e n t so f a n n s o u t p u t s ,w ep r e s e n t am e t h o dt ot r a n s f o r mt h e i r o u t p u t st ot h ec l a s sp o s t e r i o r p r o b a b i l i t y t ob e n e f i tt h ec o m b i n a t i o no fd i f f e r e n tc l a s s i f i e r s c o m b i n a t i o nw i t h h 西华大学硕士学位论文 s t r u c t u r a lp a t t e r nr e c o g n i t i o na n ds t a t i s t i c a lp a t t e r nr e c o g n i t i o nm e t h o d si su s e di n t h i sp a p e r , a n dat w o - l e v e l h i e r a r c h yo fr e c o g n z e ri sp r o p o s e d f o rs t r u c t u r a lp a t t e r n c l a s s i f i e r ,as t r u c t u r a lf e a t u r e se x t r a c t i o na l g o r i t h mb a s e do nd e t e c t i o nt oc o n n e c t i o n c o m p o n e n ti sp r e s e n t e d a n ds e v e r a ln e u r a ln e t w o r kc l a s s i f i e r s a l ed e s i g n e dt o c l a s s i f y d i f f e r e n t p a t t e r n sw i t hh i 【g l i d i m e n s i o n a ls t a t i s t i c a lf e a t u r e s i no r d e rt o r e d u c ed i m e n s i o no fi n p u tv c a :t o t s ,t h ep r i n c i p a lc o m p o n e n ta n a l y s i sm e t h o db a s e d o nk - lt r a n s f o r mi su s e d f o rm u l t i p l ec l a s s i f i e r s ,w eu s ep a r a l l e lm a j o r i t yv o t i n g s c h e m et oc o m b i n ee n dd e c i s i o n , w h i c hc a na v j 忸w em u c hm o r er e l i a b i l i t yo f r e c o g n i t i o n c ”b u i l d e r 6 0 i su s e da sa d e v e l o p m e n t t o o lt o i m p l e m e n t a n e x p e r i m e n t a lh a n d w r i t t e nn u m e r a l sf o r mr e c o g o i t i o ns y s t e m ,a n di t sp e r f o r m a n c e r e s u l t sa r es h o w ni nt h ep a p c l k e y w o r d s :h a n d w r i t t e nn u m e r a l sr e c o g n i t i o a ;n e u f a ln e t w o r k ; c o m b i n i n gm u l t i p l ec l a s s i f i e r s ; 1 1 1 西华大学硬士学位论文 第1 章绪论 1 1 选题背景 1 1 1 计算机信息处理技术的发展对智能信怠处理的要求 随着计算机技术的不断发展,计算机信息处理技术在各个领域中发挥着越 来越重要的作用。由于计算机速度的不断提高,需要处理的信息数量不断增加, 使得计算机处理速度与信息输入问的瓶颈闯题变得越来越突出。目前,信息的 主要输入方式还是采用键盘输入,尤其在需要输入大量的文字或数据的情况 下,这种手工输入方式根本无法满足计算机信息处理的速度要求。而且键盘输 入方式要求计算机的使用者努须具备三个方面的基本能力口j :一是熟悉输入 法;二是熟悉键盘键位:三是良好的击键撂j 去。可见,要高效地使用键盘输入 法进行文字信息录入,并非一件容易的事情,这也在一定程度上限制了计算机 的应用。 o c r ( o p t i c a l c h a r 篮t c rr e c o g n i t i o n 简称光学字符识别) 技术作为一种重 要的快速字符录入方式,在很大程废上能解决这方面的问题。o c r 光学寺二符 识别技术就是通过扫描仪把印蓐4 体或手写体文稿扫描成图像,然后识别成相 应的计算机可直接处理的字符1 2 】。字符识别处理的信息可分为两大类p j :一类 是文字信息,处理对象主要是各国家、各民族文字( 如:汉字,英文等) 的手工 书写或印刷的文本信息:另一类是数据信息,主要是由阿拉伯数字及少量特殊 符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务擐表、银行 票据等等j 。 手写数字识别作为模式识别领域的一个重要分支,具有极其重要的研究价 值,主要表现在以下几个方面z 首先阿拉伯数字是唯一在世界各国范碾内通用的符号,对手写数字识别的 研究基本上与文化背景无关,这样藏为各国、各地区的研究工作者提供了一个 施展才智的大舞台。其次是数字类另| l 数少,只有1 0 个类别,有利于验证新的 西华大学硕士学位论文 理论模型和算法,比较和评价各种方法的优劣。手写数字识别的方法和理论很 容易推广到其它一些相关阚题。二是手写数字字符识别具有很商的商用价值, 在邮政编码自动识别系统、银行支票自动处理系统和大批量数据统计等方面具 有极其广泛的应用价值和推广价值【5 同。尽管人们从事手写数字识别的研究已 有相当长一段时间,并且市场上也出现了一些手写数字字符识别的商用产品, 但到目前为止,可以说还没有哪一个手写数字识别系统能达到完美的识剐性 能,因此它仍是一个有难度的开放性课题。表面上,数字类别只有十种,笔划 又简单,其识别困难似乎不大。但事实上。一些涮试结果表明数字识别的正 确率并不如印刷体汉字识别正确率赢,甚至不如联机手写体汉字识别率高。其 中主要原因是:第一,字形相差不大,要准确区分某些数字相当困难:第二, 同数字写法于差万别,并且具有明显的区域特性,不同国家和地区的人书写 风格差异很大,因此很难完全傲到蓑顾世界各种写法的极高识别率的通用性数 字识别系统。此外实际应用中对单个数字识别的正确率要比一般文字识别苛 刻得多。这是因为,数字没有上下文关系,单个字符的识别至关重要,而且数 字识别经常涉及的是财会、金融领域其严格性更是不言而喻。因此,用户要 求的不仅仅是极高的正确率,更重要的是极低的、千分之甚至万分之一以下 的误识率。此外,大批量数据处理对系统速度又有相当高的要求,许多理论上 很完美的识别算法,因算法复杂、计算量过大丽导致识别速度过低,在实际中 不能应用和推广。截此,研究高往铯的手写数字识剐算法仍然是一个极有高度 挑战性的课题。 1 1 2 人工神经网络技术盼发展度其在模式识斛中的广泛应用【7 】 “人工神经网络( a r t i f i c i a ln e u n dn e , t w o t k ) ”是在对人脑的组织结构和运 行机制认识理解基础上,横掇其结构和智能行为的一种工程系统。2 0 世纪4 ( 】 年代初,美国生理学家m cc u i l o c h 、p i m 从信息处理的角度,研究神经细胞行 为的数学模型表达,提出了一个二值神经元模塑。这是第一个人工神经网络数 学模型,该模型开创了对人工神经网络的研究进程。1 9 4 9 年心理学家h e b b 提 出了著名的h e b b 学习规则郾通过改变神经元之阏的结会强度实现神经网络 2 西华大学硕士学位论文 的学习,其基本思想至今在神经网络的研究中仍发挥着重要作用。5 0 年代末 期,r o s e n b l a t t 提出感知机模型( p c r c e p t r o n ) ,首先从工程角度出发,研究了 用于信息处理的神经网络模型。这是一种自学习和自组织的网络模型,它基本 符合神经生理学原理。虽然感知机比较简单,却已具有神经网络的一些基本性 质,如分布式存贮、并行处理、可学习性、连续计算等特点。其后,许多学者 对神经网络模型和学习算法的基础理论进行了研究,提出许多有意义的理论和 方法。具有代表性的有:1 9 8 2 年美国加州理工学院物理学家j j h o p f i c l d 提出了一种新的h o p f i c l d 神经网络:1 9 8 6 年r u m d h a r t 等入提出基于多层神经 网络模型的反向传播学习算法( b p 算法) ,解决了多层前向神经网络的学习问 题,进一步推动了神经鼹络技术在实际中的应用。到目前为止。已提出几十种 具备不同信息处理能力的神经网络模型,并成功应用于各个领域:如模式识别、 自动控制、信号处理、决策辅助、人工智能等。 由于神经网络是对生物神经元的模拟。决定了人工神经网络具有很强信息 存贮能力和计算能力。它与传统的冯诺依曼型计算机系统在计算与存储方面 有本质上的区别。冯诺依曼型计算机系统在运行过程中将计算与存贮分为两 个完全独立的部分,计算与存贮的独立限制了计算能力的进一步提高。而神经 网络模型从本质上解决了传统计算机存在的不是,它将信息存贮与信息处理有 机结合在一起,在信息传递的同孵也就完成了信息的存贮与计算。神经网络的 计算能力主要包括以下几个方面:( 1 ) 数学的近似映射;( 2 ) 概率密度函数估计: ( 3 ) 最近褶邻模式分类;( 4 ) 数据聚类:( 5 ) 最优纯闯题。正因为神经网络是一个t 臼 许多非线性单元互连的、具有高度信息存储与计算能力的系统,使得神经网络 不仅其有专家系统的判剐能力,而且具有容错能力即不会因为个别神经元出 错影响整个系统的分类性能。 神经网络模式识别方法舯, i o , i i , 1 2 l 是近几年在模式识别领域内新兴的一个 研究方向。由于神经网络高速的并行处理、分布存储信息等特性符合人类视觉 西华大学硕士学位论文 系统的基本工作原理,具有很强的自学性、自组织性、容错性、高度的非线性、 鲁棒性、联想记忆功能和推理意识功能等,能够实现计算理论层次的模式识别 理论所无法完成的信息处理,所以采用神经网络进行模式识别,突破了传统模 式识别技术的束缚,开辟了模式识别方法的新途径。同时,神经网络模式识别 也成为神经网络最成功和最有前途的应用领域之一。研究神经网络模式识别系 统,无论对于神经网络理论的发展还是对于模式识别技术的实际应用,都具有 重要的理论意义和实际意义。 1 2 国内外研究现状 o c r ( o p t i c a lc h a l a d e rr e c o g n i t i o n ) 技术l z a l f f 3 概念产生于1 9 2 9 年,是 由德国科学家t a u s h e e k 最翠提出的,但进入实质性研究开始于2 0 世纪5 0 年 代。国外早期主要集中于对刷体字符识别的研究。字符模式识别技术,已由晟 初的单一字体、单一字号的印刷体字符发展到多字体、多字号的印刷体文稿的 识别。目前,印刷体字符识别技术比较成熟,已出现许多商用化的印刷体识别 软件,因此目前o c r 技术的研究主要集中在手写字符识别的研究上。我国对 o c r 技术的研究较晚,直到2 0 世纪7 0 年代才开始对数字、英文字母及符号 的识别进行研究,2 0 世纪7 0 年代末开始进行汉字识别的研究。1 9 8 6 年,汉字 识别的研究进入一个实质性的阶段,取得了较大成果。到1 9 9 2 年,单个手写 体字符识别,尤其是手写体数字的识别率已经达到了9 5 ,实用的系统开始 进入市场。国外具有代表性的产品有美国e x p e r v i s i o n 的r t k ( r e c o g n i t i o n c o o l k i t s ) 、美国纽约州立大学b u f f a l o 分校的c e d a r 研究中心、加拿大c o n c o r d i a 大 学的c f n p a r m i 实验室、日本东芝的t e x t r e a d e r 以及法国的金融票据识别系 统。国内则以清华大学电子系、北京信息工程学院、中自汉王、北京邮电大学 信息系、沈阳自动化所以及清华大学计算机系为代表【2 , 3 1 。 在脱机字符识别中,印刷体字符和手写体字符识别方法的侧重点不同。印 4 西华大学硕士学位论文 刷体字符识别多依赖于绝对信息,而手写体字符识别因字型因人而异。多依赖 于字符整体信息进行识别。目前,对脱机字符,无论是大字符集的汉字还是小 字符集的数字等特殊符号,识别速度和精度还不能完全满足实用化要求,有待 进一步改进和提高。 字符识别系统一般分为预处理、特征提取与选择、分类器、分类器集成和 后处理闭。如图1 1 是字符识别的蒸本流程。 f i g u r e1 1 t h eb a s i cf l o wc h a r to f d 城携c l c r 他删t i o n 图1 1 字符识别的基本流程 其中预处理包括二值化、去嗓、倾斜矫正、字符尺寸规一化等步骤。去嗓 是预处理阶段中极其重要的一个步骧。其目的是消除机械扫描过程中造成的随 机黑点,以及在二值化过程中引入的断线、孤立点等噪声。在许多系统中,为 了克服同一字符由予书写形变的影响,弓l 入了单个字符倾斜矫正的步骤,实验 证明该方法在一定程度上缀有效克服字符形变,提高字符识别正确率。在字符 尺寸规一化方面,单一的线性规一化方法通常不能满足自由手写字符预处理的 要求,实际中经常将线性规一纯与非线性规一化结合在一起使用对于一个实 际的手写字符识别系统,特征提取与选择、分类器及多分类器集成是整个系统 核心组成部分。总体上,字符特征包括结构特征和统计特征两大类,相应地识 别方法分为结构识别方法和统计识别方法。后处理步骤在汉字识别中非常重 要,它是根据语法靓则和上下文语义相关性,在多义性识别结果中选择合理的 结果【3 l 。但是,由于手写数字字符的识别一般没有上下文相关可以参考,所以 一般没有后处理的步骤。 5 西华大学硕士学位论文 结构识别方法在o c r 发展初期得到了广泛研究1 1 3 驯,它将字符图像划分 为骨架、轮廓、笔划、拓扑点、结构突变点等若干个基元,采用模板匹配的方 法1 5 1 】,使用粗分类与细分类相结合,检查基元存在与否判断所属类别,该方 法的核心在于如何使用基元( 如直线、弧线等笔画特征、拓扑点、结构变化点 等) 对字符特征进行描述和如何度量未知模式与稹板问的相似性。结构识别通 常采用形式语言理论和逻辑规则构造分类器,一般树型分类器是常用的方法。 由于对逻辑规则的定义往往不可避免地存在片面性。从而影响到蕉体性能的提 高。该方法优点在于能直观地描述字符的几何结构但缺点是对字符盼形变和 噪声缺乏鲁棒性。 统计识别方法研究起步较晚,它依赖于大量样本特征的提取、变换和学习, 通过估计不同类别样本的特征空闽分布构成相应的分类器,然后使用训练的分 类器对未知模式进行分类。常用的特征有全局特征和局部特征1 1 4 , 1 5 , 16 ,1 7 a 8 】。全 局特征是对整个字符图像进行变换。如k - l 交换,f o u r i e r 变换、h a d a m a n d 变换、多阶矩变换等。局部特征则是将规一化的字符图像分成若干个特定大小 的网格,通过统计各个网格中的灰度或黑色像素的个数等信息构成特征向量, 常用的局部特征有笔划投影特征、粗外围特征、粗蹲搭特征、方向线紊特征、 笔划穿透特征以及点特征等。与结构特征相比,统计特征能有效克服字符形变 和噪声的影响,但对相似字符的识别必须依赖局部几何结构特征互补。大量研 究表明,构造一个高性能的字符识别系统,需要提取和选择能充分表现分类信 息的特征。才能使构造的分类器具有优良的分类性能。然而,能充分表现字符 分类特性的单个特征往往是不存在的,任何一个特征只能从某一个方面和一定 程度上刻画其本质,因而提取多个特征进行组合来实现互补是提高分类性能的 一个有效途径,这是模式识别发展的必然趋势。 目前对于分类器的构造,主要有两类:基于距离的分类器和神经网络分类 器a n n 3 1 。基于距离的分类器先从训练集中求出各类的聚类中心,然后计算 6 谣华大学硕士学位论文 待识别的末知模式与各类聚类中心的距离来确定所属类别。典型的距离度量方 法有欧氏距离、q 阶明氏距离、马氏距离。 人工神经网络分类器是模仿生物神经网络工作机理构造而成的。a n n 通 过i 网络节点间连接权值的调整,构造分类曲面方程完成分类识别。在字符识别 中,广泛使用的a n n 模型有m u ( 多层感知器,如b p 网络模型) ,它具有很 好的非线性分类能力。b p 网络模型是多层感知嚣中应用最为广泛,它通过b p 算法完成网络参数的调整,进行分类曲面的拟合,其输出可以是对各类后验概 率的估计。当训练集足够大且具有代表性时,m l p 网络具有很好的识别效果。 k o h o n e n 的s o f m ( 自组织特征影射) 网络模型是有一个输入层和一个竞争层 的、具有自学习、自组织的网络模型。它通过无教师的聚类学习算法,在竞争 层将输入模式的分类结果表示出来。训练后使褥输入层与竞争层间连接权值的 分布与输入模式的分布趋于一致。l v o 网络模型是一种混合型网络。它通过 有教师和无教师的学习训练分类器进行分类。该模型在第一层酋先使用类似 s o f m 的竞争学习规贝h 将输入向量映射成若干子类,在第二层将这些子类合并 成一个类。 多年研究结果表明,单纯依靠提高个别分类器的性能来改善整个识别系统 的性能是不可能。采用相同特征的不同分类器或不同特征的相同分类器在性能 上存在一定的互补【甜。多分类器的集成和多信息融合是当前研究的热点,因为 各子系统选用不同的分类器可以融合更多的分类信息,有利于分类性能的提高 d 9 , 2 0 , 2 1 , 2 2 , 2 3 , 2 4 1 。到目前为止,已经形成了并行和串行两大体系结构l ”。并行集 成方法主要有多专家表决方法、贝叶斯方法和神经网络集成方法。串行方法是 将前一级识别子系统的输出结果作为后级子系统输入的分类器集成方法,其中 前级的输出结果能指导和控制后级分类器运行流程。在现有识别系统框架下, 为进一步提高字符识别的性能和精度,可以从三个方面进行进一步的研究,其 一是特征与分类器的匹配优化;其二是多分类器的集成。其中混合模型是较好 7 西华大学硕士学位论文 的集成方案【3 l 。三是提高分类器对来知模式估计的准确度。 1 3 研究的目的、意义和课题来源 随着国家信息化进程的加速,手写数字识别系统的需求将越来越广泛。由 于手写数字识别应用场合的特殊性,要求实际的应用系统必须具有极高的识别 正确率和极其低的误识率,且处理速度也具有较高要求。这无疑增加了系统设 计难度。因此制约应用系统性能的关键仍然在于手写数字识别核心算法性能 上,研究手写体数字字符的识别的最终目标是研究零误识率和低拒识率的高性 能识别算法。此外,建立反映中孱人书写习惯的、具有国家标准性质的手写数 字样本库也是当务之急。 基于上述原因,为了逶应臼益增长的智能信息处理实际需要,探索性能更 加卓越的识别算法,减轻传统手工录入方式的劳动强度和工作成本,提高办公 效率,本文首先实现了一个手写字符的自动采集系统,然后使用k - l 变换的 主成分分析法进行特征交换并集成多个神经网络分类器实现了一个表格 o c r 数字字符识别实验系统。 1 4 主要研究内容 本文使用当前在模式识别颁域中应甩广泛的神经网络技术作为研究工具, 采用多个神经网络分类器组合方案,将统计模式识别与结构模式识别方法结合 在一起,设计了一个两级分类结构,实现了一个手写字符样本数据库的自动采 集和表格o c r 手写数字字符识别实验系统,所有算法使用功能强大的 c ”b u i l d e r 6 0 开发工具实现。研究内容主要包括: ( 1 ) 本文以手写字符识别日益广泛的应用前景作为研究背景,对字符模式识 别方法进行了分析,介绍了神经爵络模式识剐技术及其学习算法; ( 2 ) 介绍了o c r 字符图像预处理算法,提出了标记定位算法、倾斜矫正算 法、字符分割算法; ( 3 ) 本文使用多个神经网络分类器,提取多个特征,构造不同结构和类型的 多个分类器,使用多专家组合方案综合每个分类器的结果作为最终识别结果; 西华大学硕士学位论文 ( 4 ) 本文使用多特征组合方法,对离维特征使用k - l 变换进行主成分分析, 在不影响分类器性能的基础上有效减少分类器输入向量的维数,提高分类器性 能: ( 5 ) 本文提出了一个两级分类结构,使用两个严格结构分类器和两种神经网 络模型;b p 网络和l v q 网络模型作为成员分类器。使用两个严格结构分类器 对分类流程进行控制,在不降低识别率的基础上提高系统识别性能; ( 6 ) 本文根据研究结果,用c + * b u i l d e r 6 0 作为开发工具,实现所有的算法, 并开发了一个表格o c r 手写数字字符自动识别实验系统,该实验系统可以根 据特定应用场合进行系统维护,以适应特殊应用要求。 9 疆华大学硕士学位论文 第2 章字符图像预处理 一幅图像可以定义为一个二维函数f ( x ,y ) ,这里x 和y 是空间坐标,而 在任何一对空间坐标o ,y ) 上的幅值,为该点图像的强度或灰度值。当x 和y 和幅值,为有限的、离散的数值时,称该图像为数字图像。数值图像处理是指 使用计算机处理数字图像的技术。在字符识别中,数字图像的处理主要包括图 像二值化、滤波、倾斜矫正、细化、规一化等处理技术。 2 1 图像二值化处理 当人观察景物时,视觉系统已潜意识地对景物进行了分割,使得人看到的 并不是一个复杂的场景,而是物体的集台体。同样,在计算机视觉和模式识别 中,也必须设法区分图像中的背景与物体,并分割出需要处理的对象,然后才 能进一步分析和理解。图像分割就是将数字图像划分成互不相交区域的过程。 在实际应用中为满足速度的娶求,常常采用二值化阈值分割方法来缩减数据 量、简化处理和分析过程。最常用的阈值分割是将灰度一分为二,所有灰度值 大于或等于某阙值的像素被判别为物体,其它像素被判别为背景;或者相反。 因此,怎样选取二值化阑值将图像划分为物体和背景,便成为其中的关键问题。 通常采用直方图技术来确定阈值。一幅物体与背景对比明显的图像一般具有包 含双峰的灰度直方图,物体中的像素产生直方图中的一个波峰。而背景产生直 方图中的另一个波峰物体与背景的边界附近具有两个峰值之闻的灰度级,其 像素数目相对较少,从而产生两峰之闽的波谷选择两个波峰之间的波谷作为 阙值将得到合理的分割结果。一般情况下,图像都会含有噪声直方图因此而 不会形成光滑的曲线,使得波峰和波谷的位黑滩以确定。这个问题在一定程度 上可以通过对直方图进行曲线拟合平滑加以克服。但是,平滑需要花费时间, 无疑会影响图像处理效率。并且对于属同一类但噪声程度不同的图像,其结果 西华大学颈士学位论文 不稳定可靠【2 5 1 。在o c r 字符识别中,输入到计算机的图像通常为灰度图像, 对字符图像二值化不仅能去除噪声干扰,还可降低识别算法的复杂性,即对字 符图像的识别只需要处理黑白两种像素信息。由于字符图像灰度有较大的变化 范围,无法采用预先设定的阚值进行二值化。在研究中,本文使用自适应最佳 阈值二值化算法【2 6 】,该算法能根据图像的灰度分布情况确定最佳阈值,具有 很强的自适应性,它能在图像的灰度直方图没有明显的双峰而无法确定双峰问 波谷的情况下能找到最佳阙值。该算法描述如下: 设k 为迭代次数,n 为预先设定的迭代总次数,m i d g r a y k 1 为第k 次迭代 的灰度平均值。m i d g r a y l 为将m i d g r a y k 作为鞠值分割时图像前景的获度平 均值,m i d g r a y 2 为将m i d g r a y k 作为阚值分割时图像背景的灰度平均值,t 表示最终确定的分割阈值。 初始化k 一0 ,m i d g r a y k 一0 ,统计灰度妻方图,求最小灰度值m i n g r a y , 最大狄度值m a x g r a y ,计算m i d g f a y 【“1 】- ( m i n g r a y + m a x g r a y ) z 如果k r t 1 ,对原始图像按比例墨放大 ( 3 ) 如果r ,r 2 1 ,对原始强像按比例r :缩小; ( 4 ) 如果r ( rt l ,对原始图像按比例羁缩小; 2 6 非线性规一化 由于手写数字种类较少,结构相对简单,对于手写数字字符识别一般直接 1 6 西华大学硕士学位论文 采用线性规一化作为主要的预处理手段。它通过线性比例的变换将输入字符的 点阵转换为所要求的固定维数。由于没有考虑字符的形状特征,对无约束的手 写字符的变形无能为力,不能保持字符的基本形状特征。 一些学者最近针对汉字等大模式类字符识别问题提出了字符非线性规一 化方法四, 3 0 l ,共同点在于它们都是基于密度均衡来解决字符的变形,主要包括: 基于点密度均衡的菲线性规一化、基于笔画穿透数雕均衡的非线性规一化、基 于笔画间距均衡的非线性规一化、基予线密度均衡的非线性规一化、基于整体 密度均衡的非线性规一化。这些方法主要包括特征投影和特征密度均衡化两个 部分。特征投影是将规一化前匿像的形状信息反浚为某种特征。并将图像的这 种特征分别向水平和垂直方向上投影:特征密度均衡化类似于图像处理中的直 方图的均衡,通过坐标变换使得规一化后的图像点阵在空闯上尽可能分布均 匀。 本文采用文献【2 9 】中提出的基于字符点阵密度特征和笔划密度特征相结 合的非线性规一化方法该方法在一定程度上能克服手写数字字符形交对分类 器性能的影响。对提高识剐率能起到定的作用基予字符点阵密度特征和笔 划密度特征相结合的菲线性规一化算法籀述如下: 假设二值化图像为f ( i ,) ,i = l ,2 ,i ,j = l ,2 ,j 。s ( m ,n ) 表示 规一化图像,m = l ,2 ,m ,n = l ,2 ,m 定义h 0 ) 与v u ) 分别为水 平和垂直方向上特征投函数,其中i = l 。2 ,l ,扣l ,2 ,。j 其中非线 性规一化是通过特征密度均衡化来计算原始图像中( f ,) 在规一化图像中对应 位置伽川) 。计算式为。 定义l ;图像,( f ,d ( i - l ,2 ,i ,j = l ,2 ,j ) 的点阵密度特征投影 函数为: 1 7 徘 西华大学硕士学位论文 ( 2 - 1 2 ) 定义2 :图像f ( i ,) ( i - 1 ,2 ,i ,j = 1 ,2 ,j ) 的笔划密度特征投影 函数为: 日2 0 ) y + 2 ( j ) 考虑将点阵密度特征和笔划结构特征结合,由于两种特征的值域不一样, 组合时将其规化到【0 ,1 】区问,规一化公式为 其中k = 1 ,2 ;i = i ,2 ,l ,j - 1 ,2 。,j 组台公式为: j 日( f ) - h t a ) + 日2 ( j ) ( 2 - 1 5 ) i v ( j ) - k ( 1 ) + 吒( j ) 由于非线性规一化方法将点密度特征和笔划密度特征进行组含构成特征 投影函数,可以使手写数字字符的黑色像素在整个图像范围内得到均衡,并且 可以克服噪声对规一化的影响。对于线性援一化,在检测字符图像外接矩形时, 如存在大的噪声,则会影响外接矩形框位置的精度面导致字符的线性归一化失 效。而非线性规一化由于使用密度蕊数均衡整个字符图像像素分布,所以能有 效克服噪声对规一化的影响。在实际过程中,发现当原始图像与规一化图像尺 寸相当时,非线性归一化效果较好因此在使用非线性归一化前,首先进行线 1 8 罴黑 = 一 韶 西华大学硕士学位论文 性归一化,然后再使用非线性归一化,能有效克服因为放缩比例太大而导致字 符的变形。与图像的几何交换相似,归一化时使用反变换计算归一化图像在原 始图像中的位置。 2 7 基于k l ( k a r h u n e n l o 宅v e ) 变换的主成分分析方法 模式识别中,初始特征向量的维数一般很高,且包含大量互相关联特征, 这些特征对于模式分类贡献是不大的,而且高维的特征向量也会增加模式分类 器的计算量,降低分类器性能1 3 1 翊。因此有必要进行特征选择。特征选择有两 个方面的目标:一是舍弃对分类贡献不大的特征;二是降低特征的维数,得到 与初始特征在分类能力上相当的特征集合。 其中k - l 交换是一种常用的高维数据压缩方法。使用k - l 变换进行数据 压缩时,不受样本分布限制,它使得从高维特征变换到低维特征时,样本总体 的均方误差晟小,期能尽可能地保存样本的分类信息。下面给出k - l 变换求 解交换矩阵步骤; 第一步:计算所有样本特征向量的自相关矩阵r 异砉善“一芦一芦) 7 ( 2 - 1 6 ) 其中:n 是样本集中所有类别全部样本总数,为全部样本均值,即: p 。吉( 2 - 1 7 )h 倒 第二步:求自相关矩阵r 的特征值矩阵a 和特征向量矩阵o : 足垂o a( 2 1 8 ) 其中:a 为对角阵,对角线上的元素是特征值 m 的列向量中。是特 征值九对应的特征向爨。 1 9 西华大学硕士学位论文 第三步:将特征值从大到小排序,并将矩阵中的列向量按对应特征值的大小 排列。即有: 如厶毫九九 ( 2 1 9 ) 中( 巾l ,巾2 ,中”,由。,垂,) ( 2 2 0 ) 第四步:计算每个特征值对应的总体方差与累计方差的百分比选取前d 个特 征值对应的列向量作为变换矩阵毒- ( 垂,o :,雪,吼) ,使之满足如下条件: ( 2 2 1 ) 或者从特征值分布曲线中选取使曲线变得平缓豹那点开始,保留该点以前 的d 个特征值对应的特征向曩作为变换矩阵牡2 j 。 第五步:将原始特征向量x 作交换 y 毒茸 ( 2 2 2 ) 得到变换后的d 维向量y 。 2 8 小结 对字符识别的预处理技术进行了比较详细的阐述,包括: ( 1 ) 基于灰度直方图的最佳阈值分割算法。该方法首先要分析分割图像的灰 度直方图,采用多次迭代遥近最佳分割溺傻纳方法求出二值化的阚值。该算法 对没有明显双峰的灰度直方图具有很好的分割效果。 ( 2 ) 对于图像的噪声去除部分,阐述了中值滤波和基于模扳检测的平滑滤波 方法。在本文实现部分,采用平滑滤波方法。 ( 3 ) 讨论了进行字符细化和字符倾斜矫芷的重要性及本文使用的细化和矫 2 0 一 。孓盘,孓妇 西华大学硕士学位论文 正方法。细化和倾斜矫正预处理能克服字符形变和信息的冗余,有利于字符特 征的提取和选择,提高分类器的性能。 ( 4 ) 介绍了字符的两种规一化方法:线性规一化和非线性规一化方法。非线 性规一化方法能有效克服字符噪声和形变对规一化的影响。提出使用线性舰一 化与非线性规一化相结合的预处理方法。 ( 5 ) 给出了采用k - l 变换进行主成分分析的特征选取方法。 2 l 西华大学硕士学位论文 3 1 问题的提出 第3 章字符样本自动采集系统 在研究中,数字识别系统应选择较大范围的多种典型样本数据库作为训练 集,使得系统对各种人群和各种书写条件都有良好的适应能力。充足、有代表 性的样本集是一个高水平的手写体字符识别系统成功的关键之一【2 埘。目前, 国际上典型样本库有日本电工所样本数据库e t l ,美国国家标准技术局样本 数据库n i s t 和加拿大c o n c o r d i a 大学样本数据瘁c e n p a r m i | 3 i 。众多的识别 系统均以这些数据库作为训练和测试集。用以评价系统性能。研究中,除了对 识别系统使用典型样本数据库作为训练和测试集外,还需要自备样本数据库对 已设计的分类器进行学习和训练。以进一步检验识黝系统性能的优劣。为此, 设计了一个手写字符样本数据库的自动采集系统。实验证明,该系统可实现手 写字符样本的自动快速采集和高效存取。 3 2 系统设计 3 2 1 采集样张 设计一定版面形 式的字符采集样张提 供给不同的人群填写。 图3 1 是设计的手写字 符样张扫描灰度图像 的一部分。在样张中, 在上部水平方向和左 部垂直方向上分别设 f 蜘r e 3 1g r a yi m a g eo fh a n d w r i t t e nn u m e r i c a l c h a n 蝴f o r m 图3 1 手写体数字采集表灰度图像 计了黑色矩形标记定位块。每一对承平和垂直定位标记块可以定位到一个方格 西华大学硬士学位论文 中心,书写时字符要求在方格中,以便字符样本采集系统能分割到完整的字符 图像。 3 2 2 倾斜检测与矫正p 3 , 3 f l 字符采集样张在扫描输入过程中,由于走纸机构走纸不均匀,导致输入到计 算机中的样张图像不可避免产生一定的倾斜。为避免重新扫描产生倾斜的图像, 在字符定位分割前需进行倾斜角度检测和图像矫正,确保字符的正确分割。检 f i g u r e3 2 ar e p r e s e n t a t i o no f _ l i n e w i t hp a r a m e t e r so f p 一0 图3 2 a 直线( “8 ) 参数表示 f i g u r e3 2 bp 猢e t e me , p , , c eo fp 一0 图3 2 b 变换域( p t 日) 参数 测如图3 1 手写体数字采集样张图像倾斜角瘦有多种方法。其一是先识别出一 对在水平或垂直方向上距离最远的定位标记,计算其形心坐标( x l , y 1 ) 和 0 2 ,y 2 ) ,根据公式 t a a o 幽 ( 3 _ 1 ) l x z j l i 计算图像倾角0 ; 其二是根据手写体数字采集样张图像中存在大量袭格直线的特点,可以跟 踪表格线,找出较长表格线来确定图像倾角。然丽由于纸张质量、印刷质量以 及扫描分辨率因素的影响,定位标记和表格线不可避免出现或多或少的缺陷, 使以上两种方法缺乏鲁棒性,不能兼顾出现的所有情形。数字图像分割技术中, 西华大学硕士学位论文 h o u 【g l l 变换是检测直线的一种有效方法,具有良好抗干扰性和鲁棒性删,能 实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论