(信号与信息处理专业论文)基于人工神经网络的数字识别研究与实现.pdf_第1页
(信号与信息处理专业论文)基于人工神经网络的数字识别研究与实现.pdf_第2页
(信号与信息处理专业论文)基于人工神经网络的数字识别研究与实现.pdf_第3页
(信号与信息处理专业论文)基于人工神经网络的数字识别研究与实现.pdf_第4页
(信号与信息处理专业论文)基于人工神经网络的数字识别研究与实现.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于人工神经网络的数字识别研究与实现 硕士研究生:贾厚林导师:赵力教授 东南大学无线电工程系 本文研究了基于人工神经网络的数字识别,主要探讨图像处理技术和模式识别技术 在数字识别中的应用。一个典型的数字识别系统包括图像的获取、字符图像预处理、特 征提取、字符识别等部分,本文的研究工作涉及3 个部分:字符图像预处理、特征提取、 字符的识别。 首先介绍了数字识别的主要原理,详细讨论了一系列图像预处理技术,使其适合于 字符的识别,包括:图像灰度化、二值化、细化、基于h o u 曲变换检测直线倾斜角度 的图像倾斜校正,图像字符的分割、图像尺寸的归一化等。 其次,研究了如何提取数字字符的结构和笔画等特征以及用人工神经网络进行字符 识别等内容。最后,进一步探讨了基于b p 网络的含噪数字识别。 文中给出了b p 神经网络的原理、设计b p 网络的过程以及具体的实现和改进方案, 并附有大量的实验数据。 系统实现上采用m i c r o s o f v i s u a lc + + 6 0 编写,可以运行于任何一台装有 w i n d o w s 2 0 0 0 或者w i n d o w sx p 的机器上。程序操作简单,具有友好的g u i 界面。 实验结果表明:本程序能够批处理,字符总体识别率高。对于噪声数字有较强的适 应性。 关键词:人工神经网络b p 网络图像处理数字识别 a b s t r a c t a b s t r a c t r e s e a r c h e sa n dr e a l i z a t i o no fd i g i t a ln u m b e r r e c o g n i t i o nb a s e do na r t i f i c a ln e u r a l n e t w o r k c a n d i d a t e :j i ah o u - l i n ,s u p e r v i s o r :p r o f e s s o rz h a ol i d e p a r t m e n to f r a d i oe n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y t h i sp a p e rs t u d i e sd i g i t a ln u m b e rr e c o g n i t i o nb a s e do i la r t i f i c a n e u r a n e t w o r k i tw i l lm a i n l ya b o u tt h ea p p l i c a t i o no fi m a g ep r o c e s s i n gt e c h n o l o g i e s a n dp a t t e r nr e c o g n i t i o nt e c h n o l o g i e sw h i c ha p p l i e di nr e c o g n i t i o n at y p i c a l n u m b e rr e c o g n i t i o ns y s t e mw i l li n c l u d ei m a g ec o l l e c t i n gp a r t ,t h ep r e p r o c e s s i n g o ft h en u m b e ri m a g e ,f e a t u r ee x t r a c t i o n ,n u m b e rr e c o g n i t i o n ,e t c t h i sp a p e r i sm a i n l ya b o u tt h r e ep a r t st h a to f :t h ep r e p r o c e s s i n go ft h en u m b e ri m a g e , f e a t u r ee x t r a c t i o n ,n u m b e rr e c o g n i t i o n f i r s t l y ,w ed e s c r i b e sp r i n c i p l eo fd i g i t a ln u m b e r ( 0t o9 ) r e c o g n i t i o n , t h e n ,w ed os o m ep r e p r o c e s s i n gt ot h en u m b e ri m a g e i n c l u d i n gi m a g eg r a y , b i n a r i z a t i o n ,t h i n n i n g ,w ec o r r e c tt h e s k e wo ff h ei m a g eb yt h r e s h o l d i n gt h r o u g h h o u g ht r a n s f o r m ,i m a g es e g m e n t a t i o na n dn o r m a l i z e n e x t ,w es t u d i e sh o wt oe x t r a c tt h es t r u c t u r a lf e a t u r e so ft h en u m b e r si s d i s c u s s e da n dd i g i t a ln u m b e rr e c o g n i t i o nb a s e do na r t i f i c a ln e u r a ln e t w o r k a t l a s t ,n o i s e dd i g i t a ln u m b e rr e c o g n i t i o nb a s e do nb pn e ti sa l s od i s c u s s e d t h i sp a p e rp r i m a r i l yi n t r o d u c et h ep r i n c i p l eo fac l a s s i c a lb pn e t t h e d e s i g n i n gp r o c e s si sw e l ld e s c r i b e da l s o ,ig i v ea ni m p l i c a t i o np r o g r a mo f i t p l e n t yo ft a b l e sa n dg r a p h sa r ea l s o i n c l u d e di nt h i sa r t i c l e t h en u m b e rr e c o g n i t i o ns y s t e mi sd e v e l o p e du s i n gm i c r o s o f tv i s u a lc + + 6 0 a n di tc a r lr u na n yc o m p u t e ri n c l u d i n gw i n d o w s 2 0 0 0o rw i n d o w sx p t h es y s t e m c a nb eo p e r e a t e de a s i l yw i t hf r i e n d l yg r a p h i c a lu s e r i n t e r f a c ea n db a t c h p r o c e s s i n g t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h er a t eo ft h er e c o g n i t i o ns y s t e mi s h i g h ,a n dt h ep r o p o s e dm e t h o di sr o b u s tt on o i s e k e yw o r d s :a n n ,b a c kp r o p a g a t i o nn e t w o r k ,i m a g ep r o c e s s i n g ,d i g i t a ln u m b e r r e c o g n i t i o n i i 学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容 和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以 公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究 生院办理。 氆万 日期: 第一章绪论 第一章绪论 数字识别技术是图像处理技术和模式识别技术研究的重要课题,随着国家信息化进 程的加速,数字识别的应用需求将越来越广泛。目前,数字识别的关键与瓶颈仍然在于 识别的核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别算法,因此, 非常有必要加强这方面的研究工作。本章首先介绍课题研究的背景及意义,目前研究的 现状、研究的难点和今后的发展趋势,然后介绍一般图像数字识别系统的基本要求及构 成,最后给出本文所做的工作和研究内容。 1 1图像数字识别产生的背景及意义 数字识别作为模式识别领域的一个经典的问题,有着重要的理论价值与实践应用价 值。由于人工神经网络是模拟人脑神经系统处理信息的过程和学习功能而设计的一种信 息处理系统,它具有分布式存储和并行协同处理等特点,而且具有很强的自适应学习、 自组织映射及联想记忆等功能和高度的鲁棒性和容错性,因而,应用在字符识别领域, 能够减少识别的计算量和提高识别的准确度。 图像数字识别的核心就是计算机图像处理和模式识别技术。我国的计算机图像处理 和模式识别技术研究起步较晚,但近几年得以迅速发展,各种图像处理和模式识别软件 与系统相继出现。目前主要应用领域有:人脸识别系统,邮政信函分检系统,指纹自动 识别系统,税单自动读取系统,车辆字符识别系统,银行支票自动处理系统等。 一、数字识别系统的主要应用价值【1 1 1 2 11 3 1 : 一1 、数字识别在大规模数据统计中的应用 在大规模的数据统计( 如:行业年检、人口普查等) 中,需要输入大量的数据,以前 完全要手工输入,需要耗费大量的人力和物力。近年来在这类工作中采用数字识别技术 已成为一种趋势。 2 、数字识别在财务、税务、金融领域中的应用 财务、税务、金融是数字识别大有可为的又一领域。随着我国经济的迅速发展,每 天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们用计算机自动 处理,无疑可以节约大量的时间、金钱和劳力。与上面提到的统计报表处理相比,在这 东南大学硕士学位论文 个领域的应用难度更大,原因有三个方面:一是对识别的精度要求更高;二是处理的表 格往往不止一种,一个系统应能智能地同时处理若干种表格;三是由于处理贯穿于整个 日常工作之中,字符书写应尽量按一般习惯,这样对识别及预处理的核心算法要求也提 高了。 3 、车辆字符识别 数字字符识别与车辆字符识别有许多共同点,车辆字符识别将数字字符直接应用于 车辆字符识别,可达到资源共享。也可以配合公共车辆监控,迅速找回被偷的汽车或交 通肇事逃逸车辆。 4 、数字识别在邮件分拣中的应用 随着人们生活水平的提高,经济活动的发展,通信联系的需求使信函的互换量大幅 度增加,我国函件业务量也在不断增长,一些大城市的中心邮局每天处理量将高达几百 万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在邮件的自动分拣中, 数字识别往往与光学条码识别( o b r 一一o p t i c a lb a rr e a d i n g ) ,人工辅助识别等手段相结 合,完成邮政编码的阅读。 二、数字识别系统的重要理论价值3 l : 数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值: 1 、阿拉伯数字是唯一的被世界各国通用的符号,对数字识别的研究基本上与文化 背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一 领域大家可以探讨,比较各种研究方法。 2 、由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面 最明显的例子就是人工神经网络( a n n ) 相当一部分的i n n 模型和算法都以数字识 别作为具体的实验平台,验证理论的有效性,评价各种方法的优缺点。 3 、尽管人们对数字的识别已从事了很长时间的研究,并已取得了很多成果,但到 目前为止,机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问 题( o p e np r o b l e m ) 。 4 、数字的识别方法很容易推广到其它一些相关问题,一个直接的应用是对英文这 样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识别放在一块儿研究 的。 2 第一章绪论 1 2 图像数字识别的现状及发展 一、研究现状1 4 i 嘲 数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中,人们想出 了很多办法获取字符的关键特征。这些手段分两大类:全局分析和结构分析。对前者, 我们可以使用模板匹配、像素密度、矩、特征点、数学变换等技术。这类的特征常常和 统计分类方法一起使用。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本 特征,包括:圈、端点、节点、弧、突起、凹陷、笔画等等。与这些结构特征配合使用 的往往是句法的分类方法。 多年的研究实践表明,对于完全没有限制的数字,几乎可以肯定:没有一种简单的 方案能达到很高的识别率和识别精度。 数字的类别只有十种,笔划又简单,其识别问题似乎不是很困难。但事实上,一些 测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机体 汉字识别率高,而只仅仅优于脱机体汉字识别。这其中主要原因是: 第一,字形相差不大,使得准确区分某些数字相当困难; 第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别,全世界各个 国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做到兼顾世界各种写 法的极高识别率的通用性数字识别系统。 第三,在实际应用中,对数字识别单字识别正确率的要求要比文字要苛刻得多。这 是因为,数字没有上下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的 财会、金融领域其严格性更是不言而喻的。 因此,用户的要求不是单纯的高正确率,更重要的是极低的甚至万分之一以下的误 识率。此外,大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过 低的方法是行不通的。因此,研究高性能的数字识别算法是一个有相当的挑战性的任务。 二、发展趋势 随着国家信息化进程的加速,数字识别的应用需求将越来越广泛,因此应当加强这 方面的研究工作。最近数字识别的研究向着更为成熟、复杂、综合的方向发展。一方面, 研究工作者努力把新的知识运用到预处理,特征提取,分类当中,如:神经网络、数学 形态学等。作者认为,应用系统的性能的关键与瓶颈仍然在于数字识别核心算法性能上, 最终目标是研究零误识率和低拒识率的高速识别算法。 东南大学硕士学位论文 1 3 一般图像数字识别系统的基本要求及构成 本论文研究的图像数字识别系统是为了辨认识别图像中的数字而设计的,它通过对 图片的一系列处理,最后识别得出图片中显示的数字。本课题设计的系统既可以单独使 用,也可以把它作为一个识别系统的软件核心应用到车牌识别等系统中去。 一、一般图像数字识别系统的基本要求 l 、输入图片中可以含有多个数字; 2 、数字的识别准确率大于9 0 ; 3 、每张图片的处理时间( 识别时间) 不能大于1 秒; 4 、对图片噪声具有较强的适应性; 5 、系统要能长时间无故障运行; 6 、系统的操作要求简单。 二、一般图像数字识别系统的基本构成吲1 7 1 1 、图像数字识别系统总的流程结构如图1 1 1 所示。 图卜1 系统总流程图 2 、其中图像预处理的流程如图1 1 2 所示。 图l - 2 图像预处理流程图 4 第一章绪论 3 、神经网络数字识别的具体流程如图1 1 3 所示。 图1 - 3 神经网络数字识别流程图 1 4 论文的主要研究内容及安排 全文共分六个章节。第一章为绪论,对数字识别产生的背景及意义、发展状况作了 全面介绍;第二章为图像的预处理,对图像数据的读取、保存、图像的灰度化、二值化、 图像的调整、梯度锐化、离散噪声点的去除、字符的分割、归一化、紧缩重排等图像处 理方法作了详细的阐述;第三章为图像数字的特征提取,重点讨论了逐像素特征提取法, 骨架特征提取法,1 3 点特征提取法等6 种数字字符的特征提取方法。第四章为其他重 要的相关数字图像处理技术,主要从空间域的角度论述了与数字识别有重要关系的图像 的平滑技术、中值滤波技术、直方图均衡技术的思想及原理,介绍了在数字识别中的简 要应用;第五章为用神经网络进行字符识别,对用神经网络进行字符识别的设计及具体 实现进行了讨论;第六章为基于b p 网络的含噪数字识别的研究与实现,利用经典的b p 网络模型,配合强大的v c 开发环境,实现了基于b p 网络的含噪数字字符识别。 东南大学硕士学位论文 第二章图像的预处理 在图像数字识别系统中,通常会应用到许多图像处理的常规技术。这些图像处理技 术不一定是系统中核心的技术,但却是必不可少的辅助处理技术,是识别前的重要步骤, 一般说来,这些辅助处理技术往往在核心处理技术之前应用,我们习惯上把这些预先使 用的辅助图像处理技术统称为图像预处理。图像预处理的目的是为了改善系统性能,它 可以把提取出来的数字图像转换成识别系统所能接受的形式,可以消除图像中一些与字 符识别无关的因素。由于一般都是在经预处理后的图像数字上提取待识别字符的特征, 因此,图像预处理不理想,往往会给后面的字符识别环节带来无法纠正的错误。 在图像预处理的过程当中,我们采用了许多关键技术,最后把每个数字的特征提取 出来。这些技术包括图像数据读取、图像的灰度化、二值化、图像的调整、离散噪声点 的去除、字符的分割、紧缩重排、字符的细化、字符的平滑、图像的求梯度等图像处理 技术,下面就将与本课题开发相关的技术分别作一介绍。 2 1 图像数据的读取、保存 8 1 1 9 t o l 一、b m p 位图图像数据的读取、保存 是图像数字识别实现的首要环节之一。 要进行图像分析和处理首先就要得到图像的数据,这些数据包括图像的宽、高、每 个像素点的颜色值。因为每种文件都有它自己的存放格式,下面简单介绍b m p 文件的 存放格式。以输入图像b m p 位图为例。 b m p ( b i t m a p 的缩写) 3 c 件格式是微软公司为其w i n d o w s 环境设置的标准图像格式, 并且内含了一套图像处理的a p i 函数。b i v i p 文件格式越来越多地被各种应用软件所支 持。b i v i p 图像文件是位图文件,位图表示的是将一幅图像分割成栅格,栅格的每一点 称为像素,每一个像素具有自己的r g b 值,即一幅图像是由一系列像素点构成的点阵。 一个b m p 格式的文件通常有b m p 的扩展名,但有一些是以r l e 为扩展名的,r l e 的意 思是行程长度编码( r u nl e n g t he n c o d i n g ) 。这样的文件意味着其使用的数据压缩方法 是b t 4 p 格式文件支持的两种r l e 方法中的一种。b m p 文件可用每像素1 、4 、8 、1 6 或 2 4 位来编码颜色信息,这个位数称作图像的颜色深度,它决定了图像所含的最大颜色 6 第二章图像数字的预处理 数。一幅卜b p p ( 位每像素,b i tp e rp i x e l ) 的图像只能有两种颜色。而一幅2 4 - b p p 的 图像可以有超过1 6 兆种不同的颜色。在本文中我们只处理2 4 位格式。2 4 位b m p 图 像文件的结构特点为:每个文件只能非压缩地存放一幅彩色图像;文件头由5 4 个 字节的数据段组成,其中包含有该位图文件的类型、大小、图像尺寸及打印格式等; 从第5 5 个字节开始,是该文件的图像数据部分,数据的排列顺序以图像的左下角为起 点,从左到右、从下到上,每连续3 个字节便描述图像一个像素点的颜色信息,这三个 字节分别代表蓝、绿、红三基色在此像素中的亮度,若某三个连续字节为:0 0 h ,0 0 h , f f h ,则表示该像素的颜色为纯红色。以下我们详细讨论位图文件的具体结构。 一个典型b m p 文件的结构。以2 5 6 色也就是8 - b p p 为例,文件被分成四个主要的 部分:一个位图文件头,一个位图信息头,一个颜色表( 又称为色表) 和位图数据本身。 位图文件头 位i 至i 文件头包含关于这个文件的信息。如从哪里开始是位图数据的定位信息、文件 大小等等。 位图信息头 位图信息头包含了单个像素所用字节数以及描述颜色的格式,此外还包括位图的宽 度、高度、目标设备的位平面数、图像的压缩格式。 颜色表 颜色表( 文中简称色表) 一般是针对1 6 位以下的图像而设置的,对于1 6 位和1 6 位以上的图像,由于其位图像素数据中直接对对应像素的r g b ( a ) 颜色进行描述,因而 省却了调色板。而对于1 6 位以下的图像,由于其位图像素数据中记录的只是调色板索 引值,因而需要根据这个索引到调色板去取得相应的r g b ( a ) 颜色。颜色表的作用就是 创建调色板。对显示卡来说,如果它不能一次显示超过2 5 6 种颜色,读取和显示b m p 文 件的程序能够把这些r g b 值转换到显示卡的调色板来产生准确的颜色。 位图数据 b m p 文件的位图数据格式依赖于编码每个像素颜色所用的位数。对于一个2 5 6 色 的图像来说,每个像素占用文件中位图数据部分的一个字节。像素的值不是r g b 颜色 值,而是文件中色表的一个索引。所以在色表中如果第一个r g 8 值是2 5 5 0 0 ,那么 像素值为0 表示它是鲜红色,像素值按从左到右的顺序存储,通常从最后一行开始。 所以在一个2 5 6 色的文件中,位图数据中第一个字节就是图像左下角的像素的颜色索 7 东南大学硕上学位论文 引,第二个就是它右边的那个像素的颜色索引。如果位图数据中每行的字节数是奇数, 就要在每行都加一个附加的字节来调整位图数据边界为1 6 位的整数倍。 并不是所有的b m p 文件结构都像表中所列的那样,例如1 6 和2 4 一b p p ,文件就没 有色表,像素值直接表示r g b 值,另外文件私有部分的内部存储格式也是可以变化的。 例如,在1 6 和2 5 6 色b m p 文件中的位图数据采用r l e 算法来压缩,这种算法用颜色 加像素个数来取代一串颜色相同的序列,而且,w i n d o w s 还支持0 s 2 下的b m p 文件, 尽管它使用了不同的位图信息头和色表格式。为了减小运算的数据量,本程序使用2 5 6 色b m p 文件作为输入。 二、j p g 图像数据的读取、保存 近年来,一种后缀名为j p g 的位图凭借较高的压缩比和不俗的品质,并借助网络的 优势而迅速成为图像图形行业事实上的工业标准。本文没有采用j p g 位图,但在这里 也简要的介绍一下,以供读者参考。 j p g 是2 4 位的图像文件格式,也是一种高效率的压缩格式,文件格式是j p e g ( 联 合图像专家组) 标准的产物,该标准由i s o 与c c it t ( 国际电报电话咨询委员会) 共 同制定,是面向连续色调静止图像的一种压缩标准。其最初目的是使用6 4 k b p s 的通信 线路传输7 2 0 x 5 7 6 分辨率压缩后的图像。通过损失极少的分辨率,可以将图像所需存 储量减少至原大小的1 0 。由于其高效的压缩效率和标准化要求,目前己广泛用于彩 色传真、静止图像、电话会议、印刷及新闻图片的传送上。但那些被删除的资料无法在 解压时还原,所以枣j p g 文件并不适合放大观看,输出成印刷品时品质也会受到影响。 不过,普通用户不必担心,因为木j p g 的压缩算法十分先进,它对图形图像的损失影响 不是很大,一幅16m ( 2 4 位) 的木j p g * j p e g 图像看上去与照片没有多大差别,非 专业人士甚至无法分辨。同样一幅画面,用事j p g 格式储存的文件是其他类型图形文件 的1 1 0 1 2 0 。一般情况下,木j p g 文件只有几十k b ,而色彩数最高可达到2 4 位, 所以它被广泛运用在i n t e r n e t 上,以节约宝贵的网络传输资源。同样,为了在一张光 盘上储存更多的图形图像,c d 出版商也乐意采用 j p g 格式。目前,网上已经有了很多 j p g 图像的编解码的算法,限于篇幅,本文就不再赘述。如果要使用j p g 格式的图像, 那么请先用画图软件如a c d s e e 、p h o t o s h o p 将其转化为2 5 6 色b m p 位图格式。另外,较 常用到的图像格式还有g i f 、t i f f 、p n g 等等。由于本文的核心主要集中在图像的预处 理和b p 神经网络识别部分,就不在图像格式上耗费精力了。读者需要进一步了解图像 8 第二章图像数字的预处理 格式的可以详细查阅相关资料1 8 】【9 】【1 0 1 。 在图像预处理部分的图像数据读取部分,作者使用了微软提供的一个图像函数库 d i b a p i h 和d i b a p i c p p ,里面已经含有一些基本的图像处理函数,作者在此就不再列 举源代码,具体可以参考有关文酬8 】【9 】p o 。 2 22 5 6 色位图灰度化【1 】1 1 2 1 由于2 5 6 色的位图的调色板内容比较复杂,使得图像处理的许多算法都没有办法展 开,因此有必要对它进行灰度处理。灰度化处理是图像处理中很重要的一步,它的结果 是后续处理的基础。将一幅彩色图像转化为灰度图像的过程即为灰度化处理。由于彩色 图像的每个像素的r 、g 、b 值是不相同的,所以显示出红绿蓝等各种颜色。灰度化就 是使彩色的r ,g ,b 分量相等的过程,而r ,g ,b 分量相等时的颜色是黑白色,没有这些颜 色差异,有的只是亮度上的不同。在r g b 颜色模型中,r = g = b 的值叫做灰度值。灰度值 大的像素点比较亮( 像素值最大为2 5 5 ,为白色) ,反之比较暗( 像素值最小为0 ,是黑 色) 。 由于r ,g ,b 的取值范围是0 - 2 5 5 ,所以灰度的级别只有2 5 6 级,即灰度图像仅能 表现2 5 6 种颜色( 灰度) 。 图像灰度化有多种不同的算法,概括起来主要有如下3 种: 1 ) 最大值法:使r ,g ,b 的值等于3 个值中最大的一个,即 r = g = b = m a x ( r ,g ,b )( 2 1 ) 最大值法会形成亮度很高的灰度图像。 2 ) 平均值法:使r ,g ,b 的值求出平均值,即: r = g = b = ( r + g + b ) 3( 2 2 ) 平均值法会形成较柔和的灰度图像。 3 ) 加权平均值法:根据重要性或其他指标给r ,g ,b 赋予不同的权值,并使r ,g , b 的值加权平均,即 r = g = b = ( w 承+ w g g + w b ) 3 ( 2 3 ) 其中w h 、w b 分别为r ,g ,b 的权值。、吼、w 。取不同的值,加权平均值法就将 形成不同的灰度图像。由于人眼对绿色的敏感度最高,对红色的敏感度次之,对蓝色的 敏感度最低,因此使乳 巩 w 。将得到较合理的灰度图像。实验和理论推导证明,当 9 东南大学硕士学位论文 w r = 0 3 0 ,w c = 0 5 9 ,w b = 0 1 1 时,即 g g r a y = 0 3 0 r + 0 5 9 g + 0 1 1 b ( 2 4 ) r = g = b = v g r a y 时,能得到最合理的灰度图像。 我们读入如图2 1 所示的图片。 o 里234567 89 图2 - 1 初始读入的2 5 6 色位图 采用加权平均值法进行图像的灰度处理。 经过灰度处理后的2 5 6 色位图如图2 2 所示。 9 l23456789 2 3 灰度图像的二值化 图2 - 2 经过灰度处理的文件 在进行了灰度化处理之后,图像中的每个像素只有一个值,那就是像素的灰度值。 它的大小决定了像素的亮暗程度。为了更加便利的开展下面的图像处理操作,还需要对 已经得到的灰度图像做一个二值化处理。 图像二值化是绝大多数字符识别系统所必须的过程,二值化方法的好坏直接影响字 符识别系统的性能指标。图像的二值化就是把图像中的像素根据一定的标准分化成黑白 两种颜色,图像中的字符用黑色表示,其余用白色表示,由此将灰度图像转化为只包含 黑、白两个灰度的二值图像,以方便后续处理。由于图像二值化过程会损失图像的许多 有用信息,因此在进行二值化处理过程中,能否保留原图的主要特征非常关键。 1 0 第二章图像数字的预处理 算法如下: 定义原始图像上的点为f ( x ,y ) 。 设给定一个判定阈值为t ,变化后的图像z j ,) 定义为: 脚,= 器嬲馨 组s , 当采样点 ,力的灰度值厂0 ,j ,) 丁w i f ( x , y ) - - 1 ,表示字符部分;当采样点 ,力的 灰度值f ( x ,y ) r 时,f ( x ,y ) = 0 ,表示背景部分。 方法的关键是选取一个灰度级判定阙值r ,像素灰度大于r 的重新分配以最大灰 度,小于r 的分配以最小灰度,这样就可以重新组织一个新的二值图像,并成功地把字 符对象从背景中分离出来,分割阈值的准确性选择很重要,它直接影响分割的精度。 目前常用的方法主要有:全局阈值算法( 主要有o t s u 法即经典的最大类间方差方 法) 、局部阈值算法、自适应阈值算法等1 3 】【1 4 】【1 5 1 。 最大类间方差方法是二值化全局阈值算法的最为杰出的代表之一。它是由o t s u 于 1 9 7 9 年提出的一种基于判别式分析的方法。基本想法是以最佳门限将图像灰度直方图 分割成两部分,使两部分类间方差取最大值,即分离性最大。把图像中的像素按灰度级 用阈值r 划分成两类c o 和c l ,即c o = o ,1 ,t ,c 1 = t + 1 ,t + 2 ,l - 1 。若用仃;,o _ 2 , 和仃;分别表示类内、类间和总体方差,则通过使下列关于丁的等价判决准则函数达到 最大来确定最佳阈值7 1 。 2 2 2 a :雩,7 :雩,k :粤 ( 2 6 ) o w o r o w 三个准则函数中,叩最为简便,又因z 己知,与r 值无关,因此最优阈值 这里 ,= a r g 蛳m 圳a x o 2 n 仉2 = 锱 i - !f 所= 弘,4 0 = 弘, ( 2 7 ) ( 2 8 ) c o ( t ) = p j ( 2 9 ) t = o 东南大学硕士学位论文 o t s u 方法计算简单,稳定有效,是实际应用中经常采用的方法,详细可以参阅【”】。 由于识别对象和应用系统要求的不同,对二值化算法的要求也就不一样。在我们的 系统中,因为考虑到本文中所要进行处理的图像大多是从印刷出版物上扫描得来的底色 大多为白色,综合上面的o t s u 方法分析,结合实验分析,我将这个阈值设定为2 2 0 , 也可以根据各自图像的实际情况来设定自己不同的情况下的阈值。 二值化后图片的执行结果如图2 3 所示。 0i23456 789 2 4 图像的梯度锐化 图2 - 3 二值化后的图片 由于需要处理的图像大多是印刷出版物上扫描而来的,在很多的情况下字体模糊, 对识别造成了一定的困难,所以,有时我们要对图像进行锐化处理使模糊的图像变得清 晰起来,同时可以对噪声起到一定的去除作用。图像锐化的方法有很多,主要有微分法 和高通滤波法,我们在这里所采用的梯度锐化的方法就属于微分法的一种。在这里我们 采用r o b e r t s 梯度算子对图像进行锐化【垌。 定义如下: 设原始图像上的点为f ( x ,y ) 。 定义f ( x ,y ) 在 ,y ) 处的梯度矢量为: g f ( i ,) 】爿f ( i ,d f ( i + l ,j + o l + i f ( i + l ,_ ,) 一,0 ,j + 1 ) l ( 2 1 0 ) 设一个判定阈值为a ,变化后的图像g ( x ,力定义为: 如咖 嬲州 罢搬裟答 c z 通过公式可以看出梯度锐化可以增强图像的边缘部分,让模糊的边缘变得清楚,同 时选择合适的闽值还可以减弱和消除一些细小的噪声。具体情况时也可以根据实际需求 第二章图像数字的预处理 以及读入图片的质量来选择决定是否使用梯度锐化。事实证明,梯度锐化具备一定的去 噪声能力,但同时也会对字符的边缘有所损伤。所以,建议一般情况下图片中字符较为 细小的时候不要使用梯度锐化。 经过梯度锐化处理后的图片如图2 - 4 所示。 0l23456789 图2 4 梯度锐化后的图像 从处理的结果也可以看出图像的边缘变得清晰而且少了很多细小的杂点,但是梯度 锐化有其自身的缺陷。当处理的图像边缘很细的时候可能造成边缘信息的损失( 如图 2 5 所示) ,所以务必提醒读者注意,要根据实际情况酌情处理。 原始图像0123456789 梯度锐化以后0123456789 图2 - 5 对边缘较细的图像进行梯队锐化的结果 2 5 图像的去除离散的杂点、噪声处理【1 7 】f 1 8 1 【1 9 1 图像可能在扫描或者传输过程中夹带了噪声,去噪声是图像处理中常用的手法。通 常去噪声用滤波的方法,比如中值滤波、均值滤波。但是那样的算法不适合用在处理字 符这样目标狭长的图像中,因为在滤波的过程中很有可能会去掉字符本身的像素。系统 采用的是去除杂点的方法来进行去噪声处理的。 具体算法如下: 扫描整个图像,当发现一个黑色点的时候,就考察和该黑色点间接或者直接相连接 的黑色点的个数有多少,如果大于一定的值( 本文根据实验,设置判定噪声的长度阈值 为1 5 ) ,那就说明该点不是离散点,否则就是离散点,把它去掉。在考察相连的黑色点 的时候用的是递归的方法。 去杂点的功能由r e m o v e s c a t t e r n o i s e 、d e l e t e s c a t e r j u d g e 两个函数完成, 东南大学硕士学位论文 r e m o v e s c a t t e r n o i s e 函数主要代码如下: v o i dr e m o v e s e a t t e r n o i s e o t d i bh d i b ) ,指向d i b 的指针 l p s t ri p d i b = ( l p s t r ) :g l o b a l l o e k ( ( h g l o b a l ) h d i b ) ; ,指向d i b 像素指针 l f s t r i p d i b b i t s ; 找到d i b 图像像素数据区的起始位置 l p d i b b i t s2 :f i n d d i b b i t s ( 1 p d i b ) ; ,获得图像的长度 l o n gl w i d m = :d i b w i d i h ( ( c h a t * ) l p d m ) ; 获得图像的高度 l o n g1 h e i 曲产:d i b h e i g h t ( ( c h a r + ) i p d i b ) ; 设置判定噪声的长度阈值为1 5 即如果与考察点相连接的黑点的数目小于1 5 则认为考察点是噪声点 i n tl e n g t h = 1 5 ; 循环变量 ml i a n x u s h u = o ; l o n gi ; l o n gj ; l o n g1 ( : 图像每行的字节数 l o n g1 l i n e b y t e s ; ,计算图像每行的字节数 1 l i n e b y t e s = w i d t h b y t e s ( 1 w i d t h + 8 ) ; l p s t r l p s r c ; 开辟一块用来存放标志的内存数组 l p b y t el p l a b = n e wb y t e 1 h e i g h t + i w i d t h ; ,开辟一块用来保存离散判定结果的内存数组 b o o l4 l p t e m p = n e wb o o l 1 h e i g h t 1 w i d t h ; 1 4 第二章图像数字的预处理 ,初始化标志数组 f o r ( i = o ;i 用来存放离散点的坐标的数组 c p o i n tl a b 2 l 】; 为循环变量赋初始值 k = o : 扫描整个图像 逐行扫描 南r ( i - - o ;i l h e i g h t ;i + + ) 逐行扫描 f b r 0 = o ;j l w i d t h ;j 抖) ,先把标志位置f a l s e f o r ( k = o ;k m _ l i a n x u s h u ;k 十n l p h b h b 冈y + 1 w i d t h + l a b k x 】= f a l s e ; i 奎续数置0 m _ l i a n x u s h u = o : 进行离散性判断 l p t e m p i i w i d t h + j 】 d e l e t e s c a t e r j u d g e ( 1 p d i b b i t s ,( w o r d ) l l i n e b y t e s ,l p l a b ,i w i d t h ,l h e i g h t j ,i ,l a b ,l e n g t h ) ; 扫描整个图像,把离散点填充成白色 ,逐行扫描 f o r ( i = o ;i l h e i g h t ;i + + ) 1 5 东南大学硕士学位论文 f ,逐列扫描 f o r ( j = o ;j ,麓一asino-乏bcoso+b黝, j 8 旧护 哂咖o 。 ,朔 p 向 彳 部 吣 o i 6 ,o 4 rjvl 第二章图像数字的预处理 0l23456789 2 7 图像字符分割口3 1 图2 8 经过倾斜度调整后的图像 图像数字识别中一般会含有多个数字,识别的时候只能根据每个字符的特征来进行 判断,为了进行字符识别的需要,还要进行字符分割的工作。所谓字符分割,就是将图 像表示为物理上有意义的连通区域的集合。它的主要任务是把多行或多个字符图像中的 每个字符从整个图像中切割出来成为单个字符。 字符分割的问题常常不被重视,但是,字符的正确分割对于用神经网络进行字符识 别又是很关键的。许多情况下字符存在着字体的多样性,由于图像需要二值化,而二值 化闽值的高低直接影响了字符的清晰程度,当阈值过低时字符会粘连,相反,阈值过高 时字符会因过分细化而断裂。总之,各种因素使得字符分割的复杂性变大。 字符分割的算法很多,通常根据处理对象的不同选择相应的方法。为了实现更好的 分割,有关景物的总体知识和先验信息是很有用的,根据包含在图像中信息可以定制通 常,我们通过对二值图像字符的不同特征的分析进行分割。把图像中的字符独立的分割 出来。相应的判决准则和控制策略,佼其完成自动分割,比如对多行文体的处理,邮政 部门对邮政编码和地址的识别,金融部门对支配签名手写字迹的分割识别等等,都是针 对具体的不同研究对象而采用的不同的算法。 传统的字符分割算法可以归纳为以下三类:直接分割法,基于识别基础上的分割法 和自适应分割线聚类法。直接分割法简单,但它的局限是分割点的确定需要有较高的准 确性;基于识别结果的分割是把识别和分割结合起来,它根据分割和识别的耦合程度又 有不同的划分;自适应分割线聚类法是要建立一个分类器,用它来判断图像的每一列是 否是分割线,它是一种根据训练样本来自适应分割的神经网络,但是对于粘连的字符很 难训练。 由于本文所处理的对象是相对类型较少、变化较小的图像字符,所以采用简单的直 接分割法。 1 9 东南大学硕士学位论文 具体的算法如下: 第一步,先自下向上对图像进行逐行扫描直至遇到第一个黑色的像素点。记录下来。 然后再由上向下对图像进行逐行扫描直至找到第一个黑色像素,这样就找到图像大致的 高度范围。 第二步,在这个高度范围之内在自左向右逐列进行扫描,遇到第一个黑色像素时认 为是字符分割的起始位置,然后继续扫描,直至遇到有一列中没有黑色像素,则认为这 个字符分割结束,然后继续扫描,按照上述的方法一直扫描直至图像的最右端。这样就 得到了每个字符的比较精确宽度范围。 第三步,在已知的每个字符比较精确的宽度范围内,按照第一步的方法,分别进行 自上而下和自下而上的逐行扫描来获取每个字符精确的高度范围。 进行字符分割后并画上边框的图像如图2 - 9 所示。 囵圃团圈圆圈囵囝因圈 图2 - 9 经过字符分割后并画上边框的图像 2 8 图像的归一化处理【2 4 】【2 司f 2 6 】 设,( x ,y ) 为原图像,g ( x o ,y 。) 为归一化后的图像,设( x 。,y 。) 为g ( x o ,y o ) 中的任意 一点,对应于厂( x ,j ,) 中的点 ,b ) ,根据d ,6 ) 的具体情况来表示g ( ,y 。) 中各像素点的 仁荔 汜1 8 ) 第二章图像数字的预处理 公式中的w i d 是原图像的宽度,w i d 是归一化以后的宽度;d e p 是原图像的高度, d e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论