已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)字符识别结果可信度测定技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 字符识别结果的可信度测定技术是基于模式识别系统的研究,能够比较 准确地估计字符分类结果准确性的技术。课题研究的银行票据o c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) 系统是一种专用的o c r 系统,特点是涉及到的都是 支票、数据之类的一些票据,识别的字符集小,对字符识别结果的精度要求 很高。其中,误识率的要求相当严格,理论上要求误识率趋近于0 ,这就为字 符识别系统的后处理提出了较高的要求,要求有过硬的手段对字符识别结果 进行判别并具有一定的纠错能力,如采用字符识别结果的置信度方法来保证 可信度。因此,字符识别结果的置信度测定技术是票据o c r 系统的关键技术 之一。 本文的主要研究工作集中在字符识别结果的可信度测定技术,研究识别 结果的置信度和综合可信度来保证识别结果的可信程度。有了置信度这个定 量的数据,可以根据置信度的高低判别可信程度。依据置信度不仅可以进行 拒识,而且在分类器的组合中,可以利用分类器的置信度信息,进行分类器 的串联、并联组合。基于置信度信息,还可以进行样本的选择,选择后的样 本更适合做样本集进行训练学习,提高识别精度。 本文第一章简要介绍了字符识别的背景、难点,阐述了票据o c r 系统中 的关键技术,确定了本文的研究重点为汉字识别结果的可信度测定技术。第 二章介绍系统中的基础部分即:手写体汉字特征的提取和分类器的选择,并 且特征和分类器的选择是基于可信度测定技术的研究。本章重点研究模板匹 配分类器、神经网络和支持向量机,其中模板匹配分类器和神经网络可以很 好的结合置信度信息进行应用。第三章概述了广义置信度和置信的基本概念, 讨论了广义置信度的估计公式,并用实验论证了适用于我们这个系统的广义 置信度估计公式,并进一步通过映射函数得到了可信程度的绝对度量:置信 度。另外,本章还简要论述并验证了识别结果的综合可信度的有效性。第四 字符识别结果可信度测定技术 章讨论置信度在实际系统中的应用,论证基于置信度的分类器组合和样本选 择。本文在分类器组合上提出了一种新的基于广义置信度的二级分类策略, 新方法在一定的阈值范围内达到较高的识别正确率9 9 5 7 ,比单独选用距离 分类器的识别正确率9 8 4 6 要高。基于识别结果综合可信度的可靠性,本文 把综合可信度和样本选择问题结合起来讨论,这是本文的另一创新点。基于 综合可信度进行样本选择后,识别正确率达到了9 8 7 ,而基于广义置信度得 到最高正确率为9 8 6 3 。第五章总结本文所做的主要工作以及取得的成果, 指出本文的不足并对将来的研究工作进行展望。 2 关键词:手写汉字识别置信度综合可信度样本选择 a b s t r a c t a bs t r a c t ,n l ec r e d i b i l i t yi d e n t i f i c a t i o nt e c h n o l o g yo ft h ec h a r a c t e rr e c o g n i t i o nr e s u l t si s b a s e do nt h es t u d yo f p a t t e r nr e c o g n i t i o ns y s t e mt h a tc a l lm o r ea c c u r a t e l ye s t i m a t e t h ea c c u r a c yo ft h er e s u l t so ft h et e c h n i c a lc a t e g o r i e s b a n kn o t e so c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) s y s t e mi sad e d i c a t e do c rs y s t e m ,w h i c hd e a l i n gt h e c h e c k , d a t aa n dt h el i k es o m eo ft h eb i l l s ,a n dt h ec h a r a c t e rs e ti ss m a l l ,t h e r e c o g n i t i o nr e s u l t sn e e dg e th i g hp r e c i s i o n e r r o rr a t eh a sav e r ys t r i c tr e q u i r e m e n t , i nt h e o r ye r r o rr a t en e a r0 ,t h i sp r o p o s e dh i g hd e m a n df o rt h ep o s t - p r o c e s s i n go f i d e n t i f i c a t i o ns y s t e m ,w h i c hn e e d ss t r o n gm e a n st oe s t i m a t et h er e c o g n i t i o nr e s u l t s a n dw i t hac e r t a i nd e g r e eo fe r r o rc o r r e c t i o nc a p a c i t y , s u c ha st h eu s eo ft h e c o n f i d e n c el e v e lo ft h er e s u l t st oe n s u r et h ec r e d i b i l i t yo f 也er e s u l t s s ot h e c o n f i d e n c el e v e li so n eo ft h ek e yt e c h n o l o g i e so fo c rs y s t e m 乃em a i nr e s e a r c hw o r ki st h ec r e d i b i l i t yi d e n t i f i c a t i o nt e c h n o l o g yo ft h e r e c o g n i t i o nr e s u l t s ,t h i sp a p e rs t u d yt h ec o n f i d e n c el e v e la n dt h ec o m p r e h e n s i v e c r e d i b i l i t yo ft h er e s u l t st oe n s u r et h ec r e d i b i l i t y b a s e do n t h ec o n f i d e n c en o to n l y t or e f u s et oi d e n t i f y , b u ta l s ow ec a nu s et h ec l a s s i f i e r 。sc o n f i d e n c el e v e lt oc a r r y o u ts e r i e sc o m b i n a t i o n sa n dp a r a l l e lc o m b i n a t i o i l s b e s i d e s ,w ec a ns e l e c ts a m p l e s , t h es e l e c t e ds a m p l e sa r em o r es u i t a b l ef o rt r a i n i n gl e a r na n di m p r o v er e c o g n i t i o n a c c u r a c y t h ef i r s t c h a p t e ro u t l i n e st h eb a c k g r o u n d a n dd i f f i c u l t yo fc h a r a c t e r r e c o g n i t i o na n de x p l a i n st h ek e yt e c h n o l o g i e so ft h eo c rs y s t e m 1 1 1 es e c o n d c h a p t e ri n t r o d u c e st h eb a s i so f t h es y s t e m :t h ee x t r a c t e df e a t u r eo ft h eh a n d w r i t t e n c h i n e s ec h a r a c t e r sa n dt h ec h o i c eo ft h ec l a s s i f i e r n l i sc h a p t e rf o c u s e so nt h e t e m p l a t em a t c h i n gc l a s s i f i e r , n e u r a ln e t w o r ka n ds u p p o r t v e c t o rm a c h i n e s t e m p l a t em a t c h i n gc l a s s i f i e ra n dn e u r a ln e t w o r kc l a s s i f i e r sc a nb eav e r yg o o d c o m b i n a t i o no fc o n f i d e n c el e v e lf o ra p p l i c a t i o n t h et h i r dc h a p t e ro u t l i n e st h e b a s i cc o n c e p t so ft h eg e n e r a l i z e dc o n f i d e n c ea n dt h ec o n f i d e n c ea n dd i s c u s sw h i c h i st h eu s e f u le s t i m a t e df o r m u l aa n df u r t h e rt h r o u g ht h em a p p i n gf u n c t i o nw eh a s g o tt h ea b s o l u t em e a s u r ec r e d i b i l i t yo ft h ec r e d i b i l i t y :c o n f i d e n c e i na d d i t i o n t h i s c h a p t e ra l s ob d e f l yv e r i f i e st h ee f f e c t i v e n e s so ft h ec o m p r e h e n s i v ec r e d i b i l i t y t h e f o u r t h c h a p t e rd i s c u s s e st h ea p p l i c a t i o no fc o n f i d e n c ei nt h ea c t u a l s y s t e m , d e m o n s t r a t et h ec l a s s i f i e rc o m b i n a t i o na n d s a m p l e ss e l e c t i o nb a s e do nt h e c o n f i d e n c e i nt h i sp a p e r , an e wt w os t a g eo fr e c o g n i t i o ns c h e m eb a s e do i lg e n e r a l i z e d c o n f i d e n c ei sg i v e n t h en e wm e t h o dg e t sah i g h e rc o r r e c tr e c o g n i t i o nr a t eo f 9 9 5 7 m o r et h a n9 8 4 6 i nas e p a r a t ec l a s s i f i e rb a s e do nd i s t a n c e b a s e do nt h e e f f e c t i v e n e s so ft h e c o m p r e h e n s i v ec r e d i b i l i t y , t h i sa r t i c l ed i s c u s s e st h e c o m b i n a t i o no ft h ec o m p r e h e n s i v ec r e d i b i l i 够a n ds a m p l e ss e l e c t i o n ,t h i si sa n o t h e r p o i n to fi n n o v a t i o n c a r r y i n go u tas a m p l es e l e c t i o nb a s e do nt h ee o m p r e h e n s i v e c r e d i b i l i t y , w eg e tm ec o r r e c tr e c o g n i t i o nr a t eo f9 8 7 ,w h i l eg e t t i n g9 8 6 3 b a s e do ng e n e r a l i z e dc o n f i d e n c e c h a p t e rv o ft h i sa r t i c l es u m m e du pt h em a j o r w o r k , a sw e l l 嬲t h er e s u l t s ,p o i n t i n go u tt h es h o r t c o m i n g so ft h i sa r t i c l ea n d t l l e f u t u r ep r o s p e c t sf o rr e s e a r c h 2 k e y w o r d s :s c r i p tc h a r a c t e rr e c o g n i t i o n ;c o n f i d e n c el e v e l ;g e n e r a l i z e d c o n f i d e n c e ;s a m p l e ss e l e c t i o n 西南财经大学 学位论文原创性及知识产权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。因本学位论文引起的法律结果完全由本人承担。 本学位论文成果归西南财经大学所有。 特此声明 学僖申请人- :刁k j 丁矽嘣 渺产易月z 矿日 1 绪论 1 绪论 本章将概述字符识别的背景,分析手写汉字识别的难点,并简述汉字识别 发展情况。在介绍支票识别系统的同时,给出识别系统性能评价方法,最后 阐述本文重点研究的字符识别结果可信度测定技术,并给出全文的章节安排 情况。 1 。1 字符识别背景概述 本文的课题背景是银行支票自动识别系统研究,字符识别是票据自动处 理系统的关键技术之一。当今社会是高度信息化的时代【l 】,面对日益增长、呈 指数膨胀的“海量”信息,人们广泛采用计算机、网络、通讯等信息处理技 术来适应日新月异的信息化世界,信息化的必然趋势是信息处理的自动化。 通常采用图像采集设备,如c c d ,扫描仪,数字相机等,将书写者已写好的文 字作为图像输入到经过“训练”的计算机,由计算机自动识别。这种使计算 机“认字 的技术称为光学字符识别( o c r ,o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 。 脱机汉字识别是光学字符识别的一个重要分支,对于脱机手写体识别, 由于其所处理的对象是一幅二维图像,完全丢失了时间、笔画顺序等动态特 征,并且汉字的结构和种类比数字要复杂,因此其识别难度是目前o c r 字符 识别上最具有挑战性的。 早在本世纪六十年代,人们就开始了对印刷体汉字识别的研究工作。最 早对印刷体汉字识别进行研究的是i b m 公司的c a s e y 和n a g y 2 ,1 9 6 6 年他们 发表了第一篇关于汉字识别的文章,用模板匹配法识别i 0 0 0 个印刷汉字;1 9 7 7 年,日本东芝综合研究所研制出能识别2 0 0 0 个印刷体汉字的实验装置;1 9 8 3 年东芝研究中心又进行了对限制性手写体与印刷体汉字识别兼容的研究工作 【3 】。 字符识别结果可信度测定技术 七十年代末,我国开始了对汉字识别的研究。1 9 8 5 年,南通电子所研究 出能识别两种字体1 8 0 0 个单字的识别方法;1 9 8 6 年,清华大学计算机系和 沈阳自动化所先后研究出能识别3 7 5 5 个印刷体汉字的实验系统;1 9 8 6 年1 1 月,清华大学的朱夏宁等研究的能识别6 7 6 3 个印刷体汉字的汉字识别试验系 统通过了技术鉴定;1 9 9 2 年清华大学的许宁在博士学位论文中,提出了一种 基于人工神经网络方法的印刷体汉字识别方法【4 】。目前对于印刷体汉字识别的 研究工作己经趋于成熟,己有一些实用系统在市场销售,如清华文通、曙光 o c r 、汉王o c r 等。 近年来,随着银行业务流程的改革和数据大集中的逐渐成熟,现在国有 大型银行、保险、证券等机构希望借助o c r 技术,由原来的模拟手工、网络 化、数据集中处理向新的业务流程再造发展。金融票据自动处理系统是o c r 应用系统的一个分支,以其较高的学术价值和应用价值越来越受到国内外众 多著名研究机构以及学者的广泛重视【5 儿6 。 1 2 票据中手写汉字识别的特点和难点 本文的研究背景主要集中在银行票据手写体汉字也即金融汉字的识别, 虽然金融汉字只有2 1 类,但是金融汉字的笔画结构比较复杂并且票据中手写 体汉字一般是书写在框格中的【8 】,与其它手写体汉字字书写环境相比,除了容 易产生连笔,挤压,倾斜,变形等共性问题外,同时还会受到印章污染,大 量存在着数字与格线相粘连的情况,所以进行识别前的图像数据获取,图像 预处理都会对最后的识别结果产生较大的影响。在实际应用中,票据的量非 常大,所以在选择图像获取设备时应该选择高速专业的输入设备。票据中的 手写汉字的识别,有以下几个问题是关键所在: ( 1 ) 版面分析。定位票据中需要识别的手写汉字范围。 ( 2 ) 票据的预处理。针对票据特点进行二值化,平滑,去噪等一系列预 处理工作。 ( 3 ) 手写汉字串的提取和分割。去掉框格线,寻找最佳的分割路径,获 得干净的手写体汉字串。 ( 4 ) 提取特征,选用适合的分类器识别手写体数字。 2 1 绪论 ( 5 ) 识别结果可信度研究。 1 3 票据识别系统概述 票据o c r 系统属于专业型o c r 系统,是一种票据格式的表格自动录入系 统,适用于银行、税务等行业大量票据表格的自动扫描、识别及电子存储,也 可应用于证券、保险、海关等众多领域,为信息的记录、保存、分析、交流 提供可靠的途径。 票据识别系统由于在不同的阶段采取的处理方法不同,系统呈现出了多 样性。不同的识别系统在具体处理一幅待识别图像时,处理的步骤和采取的 方法不完全相同,但是一般完整的系统都要经过样本数据输入、票据图像预 处理、特征提取、分类识别和判别结果分析等阶段,如图1 1 。 图1 - 1 :系统流程图 输入时,文档通常为扫描后的灰度图像忉,在预处理中尽管有一些方法直 接从灰度图像中提取特征,但是也可以将其转化为二值图像。在实际系统中, 我们一般把图像转化为二值图像,方便下面各阶段的处理。文档的预处理是 将扫描的图像转化为以后处理适合的形式,预处理包括下列操作:去噪、平 字符识别结果可信度测定技术 滑、去线、二值化、字符分割、字符的归一化、倾斜以及笔划宽度校正等。 通过预处理尽量突出要研究的图像区域,然后对处理后的图像再进行分割等 处理。 分割是将整个图像划分为多个小的兴趣区域,一般将分割的结果进行字 符归一化( 线性归一化和非线性归一化) 后才进行字符识别。归一化的目的 是通过调节字符的大小、位置和形状以减少相同分类中字符的差异。分割过 程中关键是研究粘连字符的分割,并且识别的精确性也依赖于汉字有无粘连。 通常研究人员将手写汉字分为3 类:规则的、流利的和草书体的。根据2 0 0 6 年的国际模式识别大会上的一次重要发言可知,这三种汉字的准确识别率分 别可以达到9 8 1 ,8 2 1 ,和7 0 1 。在分割手写体汉字时如何确定汉字之间 的粘连部分仍然没有明确的标准,研究人员在如何识别草书体手写汉字方面 仍然面临着很大的困难,可喜的是有许多团队已经投入到这个具有挑战性的 问题当中了。 特征提取阶段也是字符识别中值得探究的问题。特征提取方法是最广泛 的,除了结构方面还有三个大的方面:基于部首的方法、基于笔画的方法和 整体方法r 7 1 。基于部首的方法是企图把字符分解成基本的组件,通过各个组件 和他们的位置来识别字符,而不是试图通过直接识别各个组件;基于笔画的 方法是试图把字符分解成各个部分作为笔画,然后通过笔画的数目、顺序和 位置来识别字符;一些方法试图整体识别字符,整体方法的优点在于它的整 体具有较好的表现性上,梯度特征和方向元素特征已经在实际应用中表现出 了能代表不同字符整体特征的能力。在本文的实验阶段,就选用了整体特征, 如全局k i r s c h 梯度特征和方向链码特征。 分类识别阶段是指分类器利用提取的特征,用决策函数对待识别字符的 类别做出判断,而得到决策函数的过程为训练或学习过程。一般分类器可分 为模板匹配分类器、统计决策分类器( 含几何分类器) 、句法结构分类器、模 糊判决分类器、神经网络分类器和逻辑推理( 或人工智能) 分类器六种。但 是在大多数情况下,单一分类器很难达到理想的分类结果,现阶段人们多把 研究重点放在多分类器系统的集成上,而一个分类器系统主要考虑如何设计 多个分类器互补,如何实现分类器的融合。 对于判别结果的可信度仍是人们极为关心的一个研究领域。判别结果的 4 1 绪论 可信度即分类器对于待识别图像判断结果的可靠程度,一般可信度通过置信 度的计算实现。有了可信度的保障,对系统可以更好的选择,并且在实际应 用中可以利用置信度设定拒识阈值,达到较高的识别正确率。另外,置信度 并不仅仅局限于作为拒识依据,还可以利用置信度进行样本的选择、分类器 组合的依据等。总之,置信度研究给系统的精确度提供了依据。 1 4 识别系统性能评价 识别系统的高低最终要用一定的参数来评价,通过参数的比较来判别汉 字识别的高低、系统的好坏。评价的指标除了借用一般文字识别的通常做法 外,还要根据汉字识别的特点进行修改和补充。对一个手写汉字识别系统, 可以用三方面的指标表征系统的性能【9 j : ( 1 ) 正确识别率a = 正确识别样本数全部样本木1 0 0 : ( 2 ) 误识率s = 误识样本数全部样本数木1 0 0 ; ( 3 ) 拒识率r = 拒识样本数全部样本数* 1 0 0 。 三者的关系是:a + s + r = 1 0 0 。另外,在汉字识别的应用中,人们往 往很关心的一个指标是“识别精度 ,即:在所有识别的字符中,除去拒识字 符,正确识别的比例有多大,因此可以定义:识别精度p = a ( a + s ) * 1 0 0 。 一个理想的系统应是r ,s 尽量小,而p ,a 尽可能大,而在一个实际系 统中,s ,r 是相互制约的,拒识率r 的提高总伴随着误识率s 的下降,同时 正确识别率a 和识别精度p 也就提高。因此,在评价手写汉字识别系统时, 我们必须弄清一个指标在怎样的样本集合下获得的。 1 5 置信度在系统性能评价中的应用 不论是在哪种系统之中,人们都会关心分类器给出的结果是否可信。在实 际应用中,为了避免损失,对于不可信的结果宁可手工处理也不能轻易采信, 为此需要设置拒识功能,即当分类器给出的结果的置信度低于设定的阈值时, 系统能够给出拒绝进行自动识别的结果。显然,能否准确地进行拒识,对于系 统精确度的提高起着很大的作用。 5 字符识别结果可信度测定技术 有了置信度,可以根据置信度的高低判别可信程度。置信度不仅是拒识 的依据,而且在分类器的组合中,可以利用分类器的置信度信息,进行分类 器的串联、并联组合、样本的选择,并且选择后的样本更适合做样本集进行 训练学习,提高识别精度。 目前,银行票据o c r 系统已经在几家银行安装,要求达到实用指标。因此 必须具有极低的误识率,同时为了提高自动化水平,也要求拒识率不能太高。 为了达到这样的目标,采用有效的可信度测定方法是至关重要的,本文就重点 研究字符识别结果的可信度测定技术。 1 6 论文主要内容及章节安排 本文结合银行票据o c r 系统的开发,对手写汉字识别结果可信度进行研 究。首先,本文基于置信度的计算方法,结合实验验证了有效的置信度公式, 并且基于置信度对分类器的组合和样本的选择进行了验证,其中本文提出利 用置信度进行二级识别的试验,不仅结合了两个分类器的优势,更是提高了 识别正确率,接下来,在阐述可信度的另一种计算方法即综合可信度时,本 文创新的把综合可信度和样本的选择结合起来考虑,也取得满意的结果。具 体内容即各章节安排如下: 第一章简要介绍了字符识别的背景、难点,阐述了票据o c r 系统中的关 键技术。 第二章介绍系统中的基础部分即:手写体汉字特征的提取和分类器的选 择。 第三章概述置信度的一些基本概念,并对基本理论进行实验验证。 第四章基于置信度进行识别技术研究,从拒识、分类器组合、样本选择 层面进行理论分析和验证。 第五章总结本文主要工作以及取得的成果,指出本文的不足并对将来的 研究工作进行展望。 6 2 特征与分类器选择 2 1 引言 2 特征与分类器选择 模式识别的关键技术之一是抽取待识别图像的关键特征,然后送入分类 器进行识别。特征提取阶段的目标是找到某种变换,将n 维或n * n 维的模式 类别空间转换到维数更小的特征空间,并同时保留识别所需要的大部分信息。 通过特征提取,特征空间的维数降低了,同时也降低了计算的复杂度,并且 对给定的训练样本进行特征提取可以获得更精确的分类函数的描述,构造更 可靠的分类规则。手写体字符的识别,常用的特征有结构特征和统计特征, 结构特征和统计特征各有优点:结构特征对细节变化比较敏感,能较好的分 辨出结构上细微的差别,但是它对噪声也比较敏感,对噪声干扰较大的图像, 识别率不高。统计特征对噪声不敏感,具有较好的稳定性,但对图像细节上 的细微差异也不敏感。本文主要论述了统计特征,用分类器来弥补图像细节 上的差异。 在本文中,重点研究模板匹配分类器、神经网络和支持向量机,其中模 板匹配分类器和神经网络可以很好的结合置信度信息进行应用。当然,一个 有效的改进手写汉字识别的方法是组合多类分类器,并且目前大家研究重点 也是放在了分类器的组合上。结合置信度信息,可以进行分类器的组合,达 到较高的识别正确率,把置信度信息融入到分类器的组合中进行验证是本文 的研究重点。 2 。2 实验数据库概述 本文实验数据来自h c l 2 0 0 0 1 4 】,这个字符集是北京邮电大学为了中国的 8 6 3 计划收集的,此数据集包括1 0 0 0 个不同的人所写的3 7 7 5 个常用的简体中 7 字符识别结果可信度测定技术 文,书写人的信息在数据库中都和为一体。 其中这个数据库收集了票据中常用的金融汉字库集,而本文的研究主要集 中在银行票据手写体汉字的识别,即2 1 类金融汉字的识别,因此实验数据是 从此数据库中抽取的,选出1 0 5 0 0 张样本作为训练集,6 3 0 0 张样本作为测试 集,其中训练集和测试集的每类汉字样本数分别为5 0 0 张和3 0 0 张。部分数 据图像如图2 1 。 2 3 特征选择 图2 - 1 :部分数据图像 有效的特征抽取信息可以提高正确识别率,本文采用全局方向特征和局 部方向特征,即全局k i r s c h 边缘方向特征和局部链码方向特征,并结合网格 特征进行分区统计特征。 2 3 1 k ir s c h 边缘方向特征 全局k i r s c h 边缘方向特征是基于边缘强度( 也即梯度) 的提取f 1 0 1 ,通过 计算边缘梯度,并进行分区密度统计得到一组特征向量。 8 2 特征与分类器选择 k i r s c h 定义了一个非线性边缘测量算子: g ( i ,j ) = m a x ,m a x ( i5 s , - 3 t , 1 ) 】 ( 2 1 ) 其中, 瓯= a k + 4 + l + 4 + 1 正= 4 + 3 + 4 + 4 + 4 + 5 + 4 + 6 + 4 + 7 上式中g ( i ,) 为像素( f ,) 的边缘强度( 或梯度) ,4 ( k = 0 ,l ,7 ) 为像素( f ,歹) 的八个相邻单元,它们的位置如图2 2 。 图2 2 :8 个相邻单兀位置不薏图 接下来就是通过公式( 2 - 2 h 2 5 ) ,提取像素( ,) 的水平边缘强度h ,垂直 边缘强度v ,右对角线边缘强度r 和左对角线边缘强度l : g ( i ,) = m a x ( 15 s o 一3 瓦i , i5 墨一3 正i ) ( 2 2 ) g ( i ,) 矿= m a x ( i5 是一3 互i , i5 瓯一3 瓦1 ) ( 2 - 3 ) g ( i ,) 只= m a x ( i5 s 一3 正i , i5 s , 一3 正1 ) ( 2 4 ) g ( i ,) l = m a x ( i5 s , 一3 互i , i5 s , 一3 乃1 ) ( 2 - 5 ) 一幅规范化的输入图像,通过上面边缘强度公式计算得到4 副边缘梯度 矩阵。对于每个矩阵,如果每个元素的梯度值g ( i ,) 大于所设定的阈值t ,则 所对应的映射值为1 ,否则为0 。阈值t 的计算如下: 丁= 2 g ( f ,) 2 ( 2 - 6 ) 其中,n 为矩阵维数,g ( i ,歹) 为( f ,歹) 位置上的梯度值。 通过上式完成二值映射,得到4 个方向矩阵并展开成列向量依次排列为 最终的特征向量,并且本文对4 个梯度矩阵进行网格划分统计。 9 字符识别结果可信度测定技术 2 3 2 局部链码方向特征 本节介绍根据图像轮廓的f r e e m a n 链码表示【1 1 】提取的链码方向特征,由 于统计区域是采用分成子区域的形式,所以称为局部链码方向特征。 f r e e m a n 链码:两个连续的相邻像素可以确定一个链码标识,本文采用了 f r e e m a n 一8 方向链码【1 1 1 来提取链码特征。8 方向链码如图2 - 3 。 2 4 3j11 一 一 5 - r 0 6 图2 - 3 :方向链码编码示意图 通过8 方向链码编码示意方向,可以获得字符的外轮廓链码表示,并且 把互逆方向的统计量叠加( 如0 和4 ,1 和5 等) ,于是得到4 方向的链码编 码,然后通过划分网格,在子网格内统计4 方向的链码个数,组成特征向量。 2 3 3 网格特征 网格技术是提取网格方向特征的关键技术之一【1 2 1 1 3 1 。网格是一组假想的 网线对汉字图像的区域划分,如水平和垂直方向分别用八条网线对汉字进行 划分,从而将该汉字图像分为8 8 = 6 4 个小区域,每一个区域称为一个网格。 由于图中网线是在垂直方向和水平方向均匀分布的,这样所得到的网格我们 称之为均匀网格。根据汉字图像的笔画分布用非均匀的网线划分汉字得到的 网格,就是非均匀网格,部分文献中称之为动态网格,我们又称之为弹性网格。 通常,非均匀网线是根据汉字图像在水平、垂直两个方向上的直方图投影来确 定的,对直方图的均匀等分实际上就是对汉字图像的非均匀等分。 本文中弹性网格的划分,是基于面积均分,也即对垂直方向的直方图投 影面积的均分来设定网线,这样就是对汉字图像的非均匀等分,得到了弹性 网格。 1 0 2 特征与分类器选择 2 。4 分类器选择 图像经过特征提取阶段,得到了统一的特征向量,然后就是送入分类器 进行识别。一般常用的分类器有基于距离的模板匹配分类器、人工神经网络 分类器、支持向量机等。因为置信度信息和距离信息密切相关,所以本文多 数是用基于距离的模板匹配分类器,这样利于研究置信度问题,并且在基于 置信度信息进行分类器组合研究中,考虑了神经网络和支持向量机。因此本 节将简单介绍下基于距离的分类器、神经网络和支持向量机。 2 4 1 距离分类器 距离分类器作为一种直观有效的分类方法,在实际应用中受到广泛重视 【1 4 1 - 1 7 1 。尤其高维多模式问题,使用聚类等分类方法存在计算量巨大、难以保 证算法收敛等问题,距离分类器更显示出它的优越性。在实际应用中,常把 各类模式矢量的统计平均值作为该类模式的基准模板,用待识别样本与各类 模式的基准模板作比较,其中距离最小者被认定为识别结果。根据需要可以 通过设定阈值的方法,利用各个类别所得距离的相对信息来获得拒识。 常有的距离测度有:欧氏距离、城市块距离、q 阶明氏距离、加权距离、 马氏距离等,其中基于欧氏距离的分类器因其设计简单,分类速度快,在字 符识别中得到了广泛的应用。 欧式距离不仅识别速度很快,而且欧式距离的计算中会涉及到置信度信 息需要的距离计算。因此,本文的实验多选用欧式距离进行模板匹配。 在n 维空间中,欧式距离的公式为: d = s q r t ( y ( z 。一置:) )( 2 7 ) 这里i = l ,2 n 。 五,表示第一个点的第i 维坐标,置,表示第二个点的第i 维坐标。 2 4 2 神经网络 神经网络由于其较强的曲线拟合和模式分类能力,在汉字识别中得到广 字符识别结果可信度测定技术 泛的应用。尤其神经网络可以起到将不同特征算法提取的信息融合起来,因 此文献中多利用神经网络来构造特征融合分类器,但是神经网络方法也有其 缺点,比如网络结构的确定尚无可靠的规则,算法的收敛速度较慢,且无法保 证收敛到全局最优点。b p 神经网络在字符识别方面应用的最为广泛【1 9 】,它一 般采用多层前馈神经网络结构,并通过反向传播( b a c k p r o p a g a t i o n ,b p ) 2 0 1 算法训练而成。 b p 算法b l j 的基本思想是学习过程由信号的正向传播与误差的反向传播 两个过程组成。正向传播时,输入样本从输入层传入,经各隐藏层逐层处理 后,传向输出层,若输出层的实际输出与期望的输出( 教师信号) 不符,则转 入误差的反向传播阶段。误差反传是将输出误差以某种形式通过隐藏层向输 入层反传,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号, 此误差信号即作为修正各单元权值的依据。 b p 网络的基本结构是,网络由不同层次的节点集合组成,每一层节点的 输出送到下一层节点。这些输出值由于连接权不同而被放大、衰减或抑制。 除了输入层外,每一节点的输入为前一节点输出值的加权和,每一节点的激 励输出值由节点输入、激励函数及阈值决定。网络基本结构如图2 - 4 t 2 1 1 。 图2 - 4 :b p 网络基本结构 u u 在学习阶段,网络输入为模式样本= x p ,) ,网络修正自己的各个连 接权值及各节点的阈值,使网络的输出不断接近期望值f p 。一般来说,系统 的输出值 口肚) 与期望输出值 么 是不相等的。对于每一个输入的模式样本, 1 2 平方误差露为: 乓= 去( 一d 肚) 2 k 而对于全部学习样本,系统的均方差为: e = 去莓军 ) 2 权值的改变应使误差沿梯度方向下降,则: = 一叩瓦c a e p 此处,a 代表权值变化量,n 为学习速率。 如下: d p wi j 2r 6 p j 0p t 其中:万= 、。t p k ( - - 一o 。p 彤k ) ) o 车, , , 2 特征与分类器选择 ( 2 8 ) ( 2 - 9 ) ( 2 - 1 0 ) 对于样本p 来说,权的变化量 ( 2 1 1 ) ( 2 1 2 ) 上式中第一行式子是针对输出层的,第二行式子是针对隐藏层的。 b p 网络的学习算法使用梯度搜索技术,以期望网络的实际输出与期望输 出的均方差最小。网络的学习是一种在误差反向转播的同时修正的过程,此 过程一直进行到网络输出的误差减少到可接受到的程度,或进行到预先设定 的学习次数为此。 2 4 3 支持向量机 相似字在特征空间中的距离变小,使得普通的距离分类器的推广能力变 弱,应用支持向量机较强的泛化能力可以对相似字进行细分类。支持向量机【1 8 】 是将输入空间映射到一个高维内积空间中,解一个线性约束的二次规划问题 得到全局最优解,有效避免了“维数灾难 ,保证了收敛速度,而且不存在 局部极小值问题。 设d 维训练样本薯r d ( f _ 1 ,2 ,刀) 由两类点组成,如果薯属于第一类, 则标记为l ,如果属于第二类,则标记为一l 。训练集为瓴,以) ,i = 1 ,2 ,r l , ) ) 帕”哆 字符识别结果可信度测定技术 这里 = 1 或一1 。学习的目标是要构造一个判别函数,将两类模式尽可能正 确地区分开来。 如果这n 个训练样本是线性可分的,则必然存在某个超平面 w 葺+ 6 = 0i = 1 ,2 ,”( 2 1 3 ) 将两类样本完全分开。构造并求解对变量w r d 以及b r 的最优化问题: 巴虿1 l l w1 1 2 ( 2 1 4 ) yf ( w x f + b ) 1 ,f - - 1 ,2 ,nj 这样,判别函数为: 厂( x ) = s g n ( w x + 6 ) ( 2 1 5 ) 为了求解式( 2 1 4 ) ,引入原问题的对偶问题: ma xf mi z p :口f 一口f 口jy ly ( x f 工j ) f = 1 ,;1,= 1 j “b j ec t ,t o :y ,( w 幸工+ b ) 1 ,i = 1 ,2 ,以 ( 2 1 6 ) s v 是那些促不为零的样本点,这些点离超平面最近。称这些样本点为支持向 量( s u p p o r tv e c t o r ,s v ) 。这样, 判别函数成为: f ( x ) = s g n ( f 呸此( 薯幸z ) + b )( 2 - 1 7 ) i e d v 如果这1 1 个训练样本是线性不可分的,可以将原问题通过核函数矽( ) 映射到高 维空间中,这样最优化问题就变为: m a x i m i z e :口,一去口,口,y j y ( 一) ( x ) t = l厶f = l ,= 1 s u b j e c t ,t o :口,y ,= o ,0 口,c ,i = 1 ,2 ,2 这里( ) ( x ,) = 尼( 誓x ,) 。判别函数也就为: 厂( x ) = s g n ( z 口,乃( 一x ) + 6 ) 实际应用中,广泛使用的是以下三种核函数: ( 1 ) 多项式核函数 k ( 一,x j ) = ( 葺x ,+ 1 ) d 1 4 ( 2 1 8 ) ( 2 - 1 9 ) ( 2 2 0 ) 2 特征与分类器选择 ( 2 ) r b f 核函数 k ( _ ,_ ) = e x p ( 一厂忙一_ i | 2 ) ( 3 ) s i g m o i d 核函数 k ( 薯,一) = t a n h ( w 。( t 。) + 6 ) 其中r b f 核函数使用最多,本文实验也采用r b f 核函数。 2 4 4 分类器组合概述 ( 2 2 1 ) ( 2 - 2 2 ) 研究结果表明,基于单个分类器原理不能从根本上提高系统性能,应依 靠多个分类器的识别结果的集成。集成的方法从体系结构上可分为串行、并 行与混合三种类型。所谓串行是将前一级识别子系统的结果作为后一级识别 的输入,各识别子系统之间是不独立的,它需要对分类器性能和相互关系有 充分的认识。所谓并行是指各个识别子系统都独立的接受原始图像并给出自 己的识别结果,然后在相互独立的识别结果基础上得到最终的答案,因此整 个系统的错误不是各成员分类器的简单累加,且各成员分类器可以用并行处 理器实现,从而具有实时性的性能。 常用的并行分类器集成方法1 2 9 j 大体可分3 层:( 1 ) 符号层组合( 投票 法) :( 2 ) 排序层组合( b o r d a 计数法和逻辑回归法) ;( 3 ) 度量层组合( 贝叶 斯加权平均) 。前2 种方法使用的分类器识别输出结果信息比较少,各分类器 在组合时担任的角色是相同的。如在数字识别中有3 个分类器c 1 、c 2 、c 3 , 已知它们的识别率分别为4 0 、9 0 、4 0 ,现c 1 、c 2 、c 3 对测试样本x 的识别结果为1 、7 、1 ,如果不把识别率考虑进去,简单地使用第l 、第2 种 方法,得出结果为l 。而从理论上来说,c 2 判断x 为7 的正确率达到9 0 , 高出c 1 、c 2 两者之和。由此可见简单地用各分类器投票,不考虑分类器之 间的性能差异将会降低高识别率分类器的作用,也就降低了组合分类器的总 体识别率。第3 种方法则充分使用了各分类器的识别输出信息( 后验概率、 距离) ,更有效地进行组合,多分类器的动态组合就属于第3 层。 动态组合的最大特点就是:输入的测试样本不同,各分类器的权值随之 改变。这就需要找出样本( x ) 与权值( w ) 之间的映射关系。以前的文章中 字符识别结果可信度测定技术 提到了许多映射方法,可以划分为两类:( 1 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年下半年呼伦贝尔市卫生计生系统事业单位招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林通化辉南县事业单位专项招聘32人(7号)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林省长春市市直事业单位招聘357人笔试易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林省长春九台区事业单位招聘20人(2号)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年厦门市第五医院见习生招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年北京昌平区事业单位招聘119名工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年北京市朝阳区事业单位招聘应届生48人笔试易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年北京市大兴区事业单位招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年内蒙古阿拉善盟事业单位招考考试(59人)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年内蒙古赤峰市本级政府投资非经营性项目代建中心招聘13人易考易错模拟试题(共500题)试卷后附参考答案
- 水电系统安装施工方案
- 荒山承包合同补充协议
- 2025高三思想政治高考一轮复习资料
- 从探索到深化:基于可信数据空间的公共数据运营报告2025
- 2025年医学检验副高职称答辩题库及答案
- 安徽省合肥市46中学2026届九年级物理第一学期期中调研模拟试题含解析
- 2025年中华人民共和国治安管理处罚法知识竞赛题库及答案(共50题)
- 电网工程设备材料信息参考价(2024年第四季度)
- 离婚协议书下载电子版完整离婚协议书下载
- 杂种优势利用课件
- 介绍冰心及作品
评论
0/150
提交评论