




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于非完全切分和投影归一化的英文字符识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着全球经济一体化和计算机网络的发展,需要处理的印刷英文材料也在不 断增长,传统的键盘输入已经远远不能满足需要,如何解决大批量文字资料的输 入成为模式识别领域一个急需解决的问题,另外在快速邮政分拣系统、车牌识别、 身份证识别等等计算机领域都需要解决印刷体字符的识别问题。 o c r 正是解决这些问题的技术。o c r 识别技术自从上个世纪三十年代诞生以 来,经过几十年的发展,尽管在发展过程中遇到了不少前所未有的障碍,o c r 技 术已经取得了很大的进步和成就,并且成为当今模式识别领域最活跃的内容之 一。它综合了数字图像处理、计算机图形学和人工智能等多方面的知识,并在计 算机及其相关领域中得到了广泛应用。 本文主要研究英文印刷体字符的识别问题。本文先是较为详细的介绍了o c r 识别技术的发展历程、研究现状,并在各章节中详细介绍了各模块的技术原理。 英文印刷体字符识别的难点和热点之一是粘连字符的切分问题,本文研究统计发 现:粘连字符的个数有限且比较固定,并且粘连字符中的主体是两个字符的粘连。 由此本文提出了非完全字符切分的思想,经实验证明,实验结果较好。 o c r 技术的核心是特征向量的提取,特征的提取和选择对识别系统至关重要, 它基本上决定了识别系统的性能和识别精确度,甚至还可能影响到整个系统的识 别的成功与否。本文提出了一种基于投影归一化的字符特征提取方法,实验结果 表明该特征对字符大小的变化具有较强的适应能力。虽然它也会造成一定的误识 率,但是它具有容易计算和字号大小适应性强的优点,因此可以作为字符识别的 一种比较有效的特征。 本文设计实现了一个英文字符识别系统,实验表明,该系统具有良好的识别 效果,同时也证明了本文提出的一些算法思想的合理性、正确性和科学性。 关键词:字符识别:版面理解;粘连字符:特征提取 北京工业大学工学碗士学位论文 a b s t r a c t w il ht h ed e v e i o p m e n to fn e t w o r ka n dt h eg l o b a l i z a t i o no fe c o n o m y ,t h e n e e do fp r o c e s s i n gp r i n t e de n g l i s hm a t e r i a l sh a si n c r e a s e dg r e a t l ya n d c a nn o tb ew e l lm e tb yt r a d i t i o n a lk e y b o a r di n p u t s oh o wt oi n p u tag r e a td e a lo fm a t e r i a li sa nu r g e n tp r o b l e mt ob e s e t t l e d t h ep r o b l e mi sa l s oi m p o r t a n ti no t h e ra p p l i c a t i o n s ,s u c ha sf a s t p o s t a ls o r t i n g 。n u m b e r p l a t e c h a r a c t e rr e c o g n i t i o n ,a n di dc a r d r e c o g n i t i o n o n eg o o dm e t h o dt os o l v et h ep r o b l e mi s t ou s ea no p t i c a l c h a r a c t e rr e c o g n itio n ( o c r ) s y s t e m s i n e ei t sb ir t hi nt h e 3 0 so fl a s tc e n t u r y o c rh a sm a d eag r e a t p r o g r e s sa n di m p r o v e m e n ta n db e c o m eo n eo ft h eh o t t e s tt o p i c si np a t t e r n r e c o g n i t i o nd o m a i na l t h o u g hi te n c o u n t e r e dal o t o fd i f f i c u l t i e si nt h e p a s td e c a d e so fy e a r s o c ri sas y n t h e s i so fd i g i t a li m a g ep r o c e s s i n g , c o m p u t e rg r a p h i c sa n da r t i f i c i a li n t e l l i g e n c ea n ds oo n ,a n di th a sg a i n e d aw i d e l ya p p l i c a t i o nu pt on o w t h i sp a p e rm a i n l ym a k e ss o m er e s e a r c ho np r i n t e de n g l i s hc h a r a c t e r s r e c o g n i t i o n i nt h ef i r s tp a r t ,t h ep a p e ri n t r o d u c e st h ep r e s e n ts t a t u s a b o u tt h ed e v e l o p m e n to fo c rt e c h n o l o g i e s ,a n dt h e ne x p l a i n st h eb a s i c c o m p o n e n t so fa no c rs y s t e mind e t a ii si nd i f f e r e n tc h a p t e r s s e g m e n ti n g t h et o u c h i n gc h a r a c t e r si so n eo fh o ts p o t si np r i n t e de n g l i s hc h a r a c t e r s r e c o g n i t i o n t h i sp a p e rg i v e sas t a r i s t i ci n d i c a t i o nt h a tt h en u m b e ro f t o u c h i n g c h a r a c t e r si s1 i m i t e da n dt h a tt h em a i nb o d yo ft o u c h i n g c h a r a c t e r si sc o m p o s e do ft w ot o u c h i n gc h a r a c t e r s s ot h i sp a p e rp r e s e n t s t h ec o n c e p to fi n c o m p l e t ec h a r a c t e r ss e g m e n t i n ga n du s e si tt oi m p r o v e t h ec h a r a c t e r sr e c o g n iti o nr a t e f e a t u r ee x t r a c t i o ni st h ec o r eo fo c rt e c h n o l o g i e s ,a n di t i sv e r y i m p o r t a n tt oar e c o g n i t i o ns y s t e ma n dc a ng r e a t l ya f f e c tt h ep e r f o r m a n c e o fa no c rs y s t e m t h i sp a p e rp r e s e n t so n eg o o dc h a r a c t e rf e a t u r ew h i c h i sb a s e do nt h ep r o j e c t i o nn o r m a l i z a t i o n t h ee x p e r i m e n t a ld a t ai n d i c a t e a b s t p a c t h a tt h ef e a t u r eisl i t t l es e n s i t i v et ot h ec h a r a c t e rs i z e a i t h o u g hi t i sn o tp e r f e c t ,h u ti tc a nb ee a s i l yc a l c u l a t e d ,s ow em a yt a k ei ta so n e q u i t ee f f e c t i r ef e a t u r ef o rc h a r a c t e rr e c o g n i t i o n t h isp a p e rd e v e l o p sa ne n g lis hc h a r a c t e rr e c o g n i t i o ns y s t e mw h i c hh a s r e a c h e dag o o dr e c o g n it i o na c c u r a c y t h ee x p e r i m e n t sa l s os h o wt h a tt h e a l g o r i t h m sa n di d e a sp r e s e n t e di nt h ep a p e ra r er e a s o n a b l ea n df e a s i b l e k e yw o r d s :o c r :d o c u m e n tu n d e r s t a n d i n gi t o u c h i n gc h a r a c t e r s : f e a t u r e e x t r a c t i o n i i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:函盗鉴;日期:过缎臼 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:圉巡导师签名:查至璧 日期:趁! 亡艮园 第1 章绪沦 第1 章绪论 1 1 课题背景 随着全球经济一体化和计算机网络的发展,需要处理的印刷英文材料也在不 断增长。将文字输入到计算机的方法一般有三种方法:键盘输入、语音输入和 o c r “。前两种方法输入速度慢而且劳动强度大,不适用于大批量文字资料的输 入。自从1 9 2 9 年t a u s h e c k 取得光学字符识别专利以来,经过近一个世纪的发展, o c r 已经成为当今模式识别领域中最活跃的研究内容之一。1 。它综合了数字图像 处理、计算机图形学和人工智能等多方面的知识,并在计算机及其相关领域中得 到了广泛应用。由于o c r 更容易被人们接受、掌握,近几年来,它同语音识别、 人脸识别、行为识别等一起日益成为人们研究的焦点。在模式识别发展的初期, 几乎每个研究人员都进行过o c r 的研究工作,原因之一是字符便于处理,并且字 符识别被认为是比较容易解决的问题。但是,与大多数人的期望相反,这一课题 遇到了很大的障碍。o c r 作为一种“人机”接口,一方面,它包含了模式识别中 尚未解决的一些问题,另一方面,广泛的市场需求推动了o c r 的发展。经过几十 年的发展,现在o c r 技术取得了很多进展,o c r 无论在国内和国外都有了相对成 熟的产品。传统的o c r 产品主要解决文字自动录入的问题,现代的o c r 产品实际 上已经成为了沟通现实世界和计算机世界的一座桥梁,o c r 在人机交互中实际充 当了人机界面的作用。字符识别产品( o c r ) 的广泛应用推动了模式识别等相关理 论的发展,促进了计算机应用的普及。到目前为止,字符识别系统的性能尚未能 满足用户的要求,但是用户与研究人员和制造商之间的距离正在缩小。 我国对字符识别的研究始于7 0 年代末、8 0 年代初,大致可以分为三大阶段: ( 1 ) 第一阶段从7 0 年代末期到8 0 年代末期,主要是算法和方案探索。 ( 2 ) 第二阶段是9 0 年代初期,中文o c r 由实验室走向市场,初步实用。 ( 3 ) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包 括汉英双语混排识别率的提高和算法稳健性的增强。 一般而言,o c r 技术有以下一些目的和应用: ( 1 ) 将纸张文档转变成电子文档。比如,报刊、杂志和各类表格、公式、符 号的自动录入。电子版读物逐步流行,但传统的报纸和杂志仍然占主导,通过文 北京工业大学工学硕士学位论文 本图像的处理可以迅速准确地将报纸和杂志上的内容转变成电子文档,进入互联 网世界。诸如银行支票、邮局汇款单、报税单等等各式各样的表格在日常生活中 的大量使用,通过切分和 : 别其中的字符实现自动录入,可以提高处理效率,加 快信息传输,减小存储空间。 ( 2 ) 用于以图像中的字符信息为基础的控制系统。比如信函自动分拣系统 中,通过识别信函上的邮政编码数字和相关收信人的地址信息,可以提高分拣效 率和速度,并能减轻人工负担。 ( 3 ) 基于字符信息的目标辨别。比如汽车牌照号码和集装箱号码的自动识 别,汽车牌照识别在电子警察、加油站、停车场以及自动收费站等等场所有十分 重要的应用价值。集装箱号码识别对海关检查有很大的帮助。 ( 4 ) 用于信息检索。现代社会进入了信息爆炸的时代,如何从众多繁杂的信 息中检索出自已所需要的信息变得十分重要。o c r 技术在信息检索中有广阔的应 用前景,比如,目前互联网上搜索引擎所搜索的内容范围主要是纯文本信息,但 是网上好多重要信息却包含在图片中,从这些图片中识别出其中的字符,可以为 网页的搜索提供更为丰富的信息,提高检索的准确性。 1 2 本课题研究现状 有学者统计过,最近4 0 年内,全球发表过的有关于o c r 的论文多达三万多 篇。”。因此,研究现状也非常复杂,本文只能宏观简单的介绍一下。 个o c r 系统,其核心是对切分出的字符图像的处理和识别。根据这一点, 总体上,字符识别目前主要有三种方法和思路,传统的统计决策方法“1 、结构识 别方法”“和人工神经网络方法”1 。前两种比较传统和成熟,自人工神经网络出 现以来,人们将神经网络应用于字符识别,形成了人工神经网络的方法,进一步 拓宽了字符识别技术。 个完整的o c r 系统,一般需要以下几个步骤:倾斜图像的调整、版面分析 和版面理解、字符切分、特征提取和识别以及必要的后处理。对于不同的步骤, 都有大量的学者进行研究。对倾斜图像进行调整的关键是找出图像的倾斜角,然 后只要简单的旋转就可以了,目前寻找倾斜角度的方法主要有两种,一种是h o u g h 变换检测直线的方法“2 ”3 ,这种方法比较有效,且算法直观简单,但是运行时间 第l 蕈鲔论 比较长,另一种是基于最小二乘法的倾斜角度监测方法1 ,这种方法将文字图 像闭包盒底线中点作为特征点,然后用最小二乘法拟合出基线方向,即倾斜角度; 对于版面的分析和理解“”1 ,目前主要有两种思路,一种是自顶向下的方法,另 一种是自底向上的方法:对于字符切分,一般新是通过对图像进行行扫描来切分 出单行图像,然后进行列扫描切分出单个字符图像,字符切分的难点是对粘连字 符的切分,这是目前o c r 领域的一个难点和热点问题,对于粘连字符切分,有很 多学者进行了研究”1 ;特征提取是o c r 研究领域最热门的研究方向,各种各样的 特征提取方法被提出”。2 ,但是各种方法大都存在其缺点:提取出特征向量以后, 采用欧氏或马氏距离即可进行识别。 目前国内外研制出一些o c r 识别软件,它们有:国内的汉王o c r 识别软件, 清华紫光o c r 识别软件,尚书o c r 识别软件等;国外,研制出的o c r 系统就更多 了,一些西方主流的o c r 系统有f i n e r e a d e ro c r 系统,该系统能识别全球大多 数语言, c u n e i f o r mo c r 系统,该系统能识别9 种语言。 1 3 本文研究内容 尽管目前国内外已经研发出很多种o c r 系统,但是各个系统在不同方面都存 在这样或那样的问题,版面分析和版面理解、粘连字符的处理和有效合理的特征 提取方法等方面到目前为止还都是o c r 研究领域的热点和难点。本文主要在预处 理、粘连字符的处理和特征提取方面进行了一些研究工作,提出了自己的观点和 算法。字符识别有手写体字符识别、印刷体字符识别两个方向,本文主要研究的 印刷体英文字符识别。 1 4 论文安排 论文总共分七章,安排如下: 第一章是绪论,主要介绍课题背景和本课题的研究现状,并总体上论述本文 的研究内容。 第二章是系统设计,先介绍o c r 系统一般的设计思路和方法,然后介绍本文 所采用的字符识别方法的开发流程和程序模块。 第三章是版面分析和版面理解,主要内容有图像的二值化、图像的反色处理、 北京工业大学工学硕上学位论文 图像倾斜校正和版面分析和版面理解。 第四章是字符分割,介绍了字符切分的步骤和难点,其难点就是粘连字符的 分割,本文对粘连字符的处理提出了自己的思想。 第五章是基于投影归一化的字符特征提取方法,本章是本论文的核心,也是 创新点所在。本章先介绍了传统的一些特征提取算法,然后详细介绍了基于投影 归一化的字符特征提取方法的原理和形成步骤,最后对本方法进行了性能和结果 分析。 第六章是篇章识别,现介绍了c m 聚类算法,然后介绍了马氏和欧式距离算法 思想,最后展示了本文字符识别界面并对识别结果作了统计分析。 第七章对本论文进行了总结,并对o c r 的发展前景做了展望。 1 5 本章小结 本章是绪论,主要先介绍了o c r 的国内外发展历程及研究背景,自从1 9 2 9 年t a u s h e c k 获得o c r 专利以来,由于其广泛的使用范围而获得了极大的发展。 接着对o c r 系统的研究思路和各模块的研究现状作了简单的介绍和分析。然后又 总体上讲述了本论文的研究内容,最后介绍了本论文的总体安排。 第2 章系统设计 2 1 字符识别原理 文字识别作为模式识别的一个分支,一般的识别方法是:先抽取待识别文字 的特征,然后将其与事先建立的各文字的标准特征、标准向量逐一匹配,在一定 的判决准则下,找到与待识别的文字最接近的那个标准字符,并作为识别结果输 出。实质上,文字识别的过程就是特征抽取和特征匹配的过程。因此,识别算法 的研究关键就是关于特征的选取、抽取及匹配算法的研究。当然,还有一些辅助 性的、过程性的算法也是必须的,它们是为了更好的完成识别算法的核心步骤。 比如,图像的二值化、图像的去噪、图像的倾斜纠正等等。 2 2 常用方法和思路 o c r 识别技术是模式识别领域的一个分支,因此模式识别中的许多算法和思 想都可以应用到字符识别中去。字符识别目前主要有三种方法和思路,传统的统 计决策方法、结构识别方法和人工神经网络方法。前两种比较传统和成熟,自人 工神经网络出现以来,人们将b p 等神经网络应用于字符识别,形成了人工神经 网络的方法,进一步拓宽了字符识别技术。下面对上面三种方法做一个简单的介 绍: ( 1 ) 传统的统计决策方法 这种识别方法一般选取同一类字符中共有的、相对稳定的并且分类性能好的 统计特征作为特征向量。常用的统计特征有字符二维平面的位置特征、字符在水 平或者垂直方向投影的直方图特征、矩特征和字符经过频域变换或其它形式变换 后的特征等。大量字符的统计特征经过提取、学习、分类形成关于字符原型知识, 构成识别字符的模板信息,这些模板信息存储在识别系统中。未知图像在识别时 首先提取相同的统计特征,然后与识别系统存储的字符原型知识匹配比较,根据 比较结果确定字符最终分类,达到识别的目的。衡量匹配程度的指标常采用各种 向量间的距离指标,例如欧式距离、马氏距离等。 ( 2 ) 结构特征识别方法 北京工业大学工学碗十学位论文 实际应用中,常遇到的困难主要是对相近字符的识别和像手写字符那样字型 变化很大的字符的识别,因此,发展出了基于结构的字符识别技术。这种技术首 先要提取字符的结构。根据识别策略的不同,结构的选择也有所不同。可以选择 字根、笔划,也可以选择比笔划更小的笔段。提取出的结构又称作字符的子模式、 部件、基元,所有基元按照某种序排列起来就成了字符的特征。基于结构的文字 识别实际上是将字符映射到了基元组成的结构空间进行识别。识别过程是在提取 基元的基础上,利用形式语言和自动机理论,采取词法分析、树匹配、图匹配和 知识推理的方法分析字符结构的过程。常用的结构特征有:笔划的走向、孤立的 点,以及是否含有闭合笔画等。由于汉字自身具有很强的结构性,利用汉字的结 构特点进行识别同样可以达到很好的效果。在对汉字笔画进行统计的基础上,有 文献提出了一种利用汉字横、竖、撇、捺的结构信息进行识别的方法一弹性网格 特征提取方法。这种方法首先将汉字按照前景色的投影划分成维度不同的矩形区 域,然后分别提取各个区域中的横、竖、撇、捺的结构信息,最后结合统计的结 果进行分类。 与统计识别方法相对应,字符的结构识别技术更加便于区分字型变化大的字 符和字型相近的字符。但是由于对结构特征的描述和比较要占用大量的存储和计 算资源,因此算法在实现上相对复杂、识别速度慢。 ( 3 ) 人工神经网络方法 迄今为止,人类识别文字的能力远远胜于计算机,无论是变形的字符、模糊 的字符,甚至是破损的字符,人类都能很好地识别。基于人工神经网络的字符识 别技术目的就是力图通过对人脑功能和结构的模拟来实现字符的高效识别。经过 近几年的迅速发展,人工神经网络在字符识别方面得到了广泛的应用。在系统中, 人工神经网络主要o c r 充当分类器的功能。网络的输入是字符的特征向量,输出 是字符的分类结果,即识别结果。由于识别策略的不同和对问题理解水平的限制, 输入的特征向量所包含的信息常常是冗余的,甚至是矛盾的。经过反复学习,神 经网络可以智能地将特征向量优化,去除冗余、矛盾的信息,强化类间的差异。 其次,由于神经网络采用分布式的网络结构,本身具备可以并行的条件,可以加 快大规模问题的求解速度。 由于人工神经网络是对生物的神经网络的一种极端的简化,以及人们对大脑 活动的认知还停留在仞级阶段,人工神经网络在学习效率和算法收敛性等方面还 存在很多亟待解决的问题。 鉴于此,本文主要采用传统的统计决策方法。 2 3 传统字符识别流程简介 字符识别的流程由字符识别的原理所决定,前面已经提到过字符识别作为模 式识别的一个分支,其核心步骤是特征的选取、抽取及匹配算法的研究。同时由 于字符识别又有图像处理的相关内容,因此图像的预处理也是必要的步骤之一。 另外字符识别还有其特点所决定的特定步骤,比如字符的切分特别是粘连字符的 处理。因此字符识别的流程正是由上面这些方面所决定。 传统字符识别的基本流程有: 图2 - 1 字符识别流程图 f i g 2 - lt h ef l o wc h a r to fo c r 围园圃圈困围困 北京工业大学工学砸上学位论文 下面对图2 - l 进行简单解释,各步骤的具体内容将在以下各章节中进行详细 说明。 ( 1 ) 初始文本图像是通过扫描仪、相机或屏幕硬拷贝得来的后缀为j p e g 、 f p g 或b m p 的图像文件。 ( 2 ) 预处理主要包括图像的角度矫正和去除噪声。该步骤的处理结果是得到 矫正图像。 ( 3 ) 版面分析和版面理解。矫正图像可能会包括图像区域,而图像区域是不 能被识别的。所以我们必须把可识别的文本区域定位、分割出来,以得到纯文本 图像。 ( 4 ) 字符分割又包括行分割和列分割。字符分割一般借助其图像投影来完成, 最终分割形成一个个的独立字符图像,这些独立的字符图像才是字符识别的真正 对象。 ( 5 ) 特征抽取是通过对字符图像的分析形成原始特征向量,这个原始特征向 量可以代表这个字符图像,但是有时这个特征向量可能会维数很高,这时就有必 要进行特征选择,以达到降维的目的。 g :n m xl y :g ( x ) y 就是个从x 选择出来的特征向量。降维的要求是,若用y 来恢复原始模 式时不能发生明显的畸变。 ( 6 ) 分类识别是字符识别的核心。对大量的样本通过聚类算法对特征向量进 行归类。从而达到对样本模式进行归类的目的,最后得到不同模式的类心。通过 分类器计算比较各个模式和各个类心之间的距离,选取最小者,从而达到识别的 目的。 经过分类识别以后,我们就得到了一个个的字符文本,但由于分类识别有错 误存在,这种错误可以通过后处理进行校对。通过后处理以后,我们最终得到了 识别文本。 以上这些步骤中重要的有版面分析、字符分割、特征抽取和分类识别。字符 识别方面的沦文大部分都围绕这些方面展开。版面分析和理解是后续处理的基 础,该模块处理的好坏将直接影响到后续处理的效果。特征抽取是分类识别前提, 第2 章系统设计 特征抽取是否充分、正确直接影响到分类识别的效果。分类识别算法是字符识别 的核心,也就是所谓的分类器设计。 上面是字符识别的传统的统计决策方法的一般步骤,除此以外,结构模式识 别方法和人工神经网络方法也是字符识别方法研究的重要分支。 2 4 本章小结 本章是系统设计,先介绍了o c r 系统的常用方法和思路,主要有三种思路, 即传统的统计决策方法、结构识别方法和人工神经网络方法,本文对三种方法的 原理和特点进行了介绍和分析。然后对本文采用的传统的统计决策方法的流程作 了介绍。 北京t 业大学工学硕士学位论文 3 1 预处理 第3 章版面分析与版面理解 预处理一步一般主要包括纠正图像的倾斜和去除噪声点。本文把对图像的二 值化和反色处理也归入预处理一步,是因为这两个操作也是比较靠前的步骤,这 两步完全是为了后续处理的方便和逻辑理解上的方便,没有其他作用。 3 1 1 图像的二值化 二值化是图像分割中的一个重要方法。它是为了将图像中有意义的特征或者 需要应用到的特征提取出来。这些特征可以是图像场的原始特征,如物体占有区 的象素灰度值,物体轮廓线和纹理特征等。 二值化的方法是利用图像中要提取的目标物与背景有灰度特性上的差异。如 设置一个灰度阂值,凡是灰度值低于这个阈值的象素值置0 ,而灰度值高于这个 闽值的象素值置1 。这样,就可以将图像中的背景和目标明显地区分开来。 设原始图像a = ( ) 。中( l 力点处像素的像素值是8 j i ,设,为闽值,则 有: :肛j 警订 ( 3 - 1 ) q u ,2 k 如果如,f k 一般取1 ,但也可以取其他值。 阈值也可以设为个灰度范围 v a l v e d o w n ,v a l v e t o p 。图像中象素灰度值在 灰度范围内的变为1 ,其他的均变为0 。即 棚也_ 竺? 竺:三a f f d ) 二v a l u 其e t 他o p ( 3 - z ,) 2 仳其他f 吃 3 1 2 图像的反色处理 图像的反色处理,有些文章和产品( 比如汉王o c r ) 叫做图像的反转,本文认 为容易引起误解,故叫做反色。反色处理的原理及方法如下: 第3 章版面分析与版面理解 设原始图像( 本文中是二值化以后的图像) a = ( ) 肌 ,中( l 力点处像素的 像素值是8 0 ,b 是色度最高数。则有: 8 ( u ) = 1 3 8 ( u ) ( 3 3 ) 3 1 3 图像倾斜校正 下面就进入预处理中最重要的一步,即图像倾斜的校正,图像倾斜的校正的 关键是找出图像的倾斜角。 倾斜角度得到之后,便可对倾斜的页面图像进行校正。通常,倾斜校正采用 简单的旋转交换,即: “c o s 。o 口蜘弘a , 本文采用了h o u g h 变换检测倾斜角。 h o u g h 变换: h o u g h 变换是数字图象技术中一种有效的发现直线的算法。它是先把直角坐 标系的目标点映射到极坐标系上进行累积,即它是先使直角坐标系平面上任意一 条直线上的所有点均累积到极坐标系的同一点集中去,然后通过寻找极坐标系中 点集的峰值,来发现长的直线特征。由于这种点集是通过累积统计得到的,因而能 够容忍直线的间断。 图3 - 1 ( a ) 是一条在直角坐标系中的直线,图3 - i ( b ) 是从图3 - 1 ( a ) 所示直线 上选取的五个点,图3 - 1 ( c ) 中的5 条曲线中的每一条曲线表示了图3 - 1 ( h ) 中过 相应点的所有直线经过坐标变换后在极坐标系中的曲线。由图3 一l ( b ) 和图3 - 1 ( c ) 可以看出,同一条直线上的不同点在极坐标系中均在同一点重合。 h o u g h 变换的基本策略是:由图像空间目标象素的坐标去计算参数空间中参 考点的可能轨迹,并在一个累加器中给计算出的参考点计数。如果参数空间是极 坐标( p ,0 ) ,则坐标变换公式为: x c o s0 + y s i n0 = p ( 3 - 5 ) 这里,x ,y 是象素的直角坐标。由此,h o u g h 变换算法设计为: 北京工业大学:= f = 学颂十学位论文 ( 1 ) 在p ,0 合适的最大值、最小值之间建立一个离散的参数空间; ( 2 ) 建立一个累加器a ( p ,e ) 矩阵,并置每个元素为o : 图3 - 1h o u g h 变换原理图 f i g 3 - lt h ep r i n c i p l ec h a r to fh o u l g ht r a n s f o r m ( 3 ) 选取图像每一个目标象素( x ,y ) ,并对每一个o 的取值0 ,计算 p + = x 。c o s o + y 。s i n 0 并对相应累3 n a x ( p , o ) = 4 ( p ,o 。) + 1 ( 即把矩阵a 的元 素a ( p7 ,o7 ) 的值增加1 ) 。 h o u g h 变换不足之处是计算量较大,对于一个大的扫描图像,若要获得足够精 度图像的旋转角度,以直接进行h o u g h 变换,将耗时很长,内存要求也很多。 3 2 去除噪声 3 2 1 噪声种类 图像中的噪声种类很多,对图像信息的影响十分复杂。有些噪声和图像信息 互相独立,不相关,有些是相关的,噪声本身之间也有些相关。因此要减少图像 中的噪声,必须针对具体情况采用不同的方法,否则,难以获得满意的效果。常 见的噪声有: ( 1 ) 加性噪声 加性噪声和图像信号强度是不相关的,如图像在传输过程中引进的“信通噪 声、电视摄像机扫描图像的噪声等。这类带有噪声的图像g 可看成为理想无噪声 图像f 和噪声n 之和,即 g = 厂+ n ( 3 - 6 ) ( 2 ) 乘性噪声 。i_。,。ln。kk 第3 荦版面分析与版向理解 i i ii i i i i 乘性噪声和图像信号是相关的,往往随图像信号的变化而变化,这类噪声与 图像的关系是: g = f + 向( 3 7 ) ( 3 ) 量化噪声 量化噪声是数字图像的主要噪声源,其大小显示出数字图像和原始图像的差 异,对这种噪声的减少最好办法就是采用按灰度级概率密度函数选择量化级的最 优量化措施。 ( 4 ) “椒盐”噪声 椒盐噪声经常出现在图像中,当摄像机中包含一些失效的像素时,所采集的 图像就会出现这类噪声,椒盐噪声因在图像中表现为黑自相间的斑点而得名。 3 2 2 去噪方法 去除噪声的方法有很多,比如固定阙值去噪法、动态阈值去嗓法、邻域平均 法以及中值滤波法等等。 由于一般文档都是白纸黑字且噪声问题并不是很严重,所以去除噪声就变得 相对简单了。主要通过阈值控制和文本范围控制就可以解决,即把像素值在一定 范围之外的像素点或者像素点位置在文本区域以外的像素点视为噪声点并去除。 3 3 版面分析和版面理解 版面分析与版面理解技术就是利用计算机自动地对e r j sj j 版面的图像数据迸 行处理和分析,标识出版面上的文字、图像、图形及表格区域的位置、属性和逻 辑关系,以便识别器正确的查找到文字区域进行识别,随着o c r 软件的普及,版 面分析作为o c r 系统中一个十分重要的环节,日益引起人们的重视。 版瑟分析和版面理解是两个意义不同的概念。 3 3 1 版面分析 版面分析主要是确定版面上文本区域和图像区域的位置,并框定出来,版面 分析的终极目的是通过连通域分析或段落边缘点得到个个矩形框。连续扩展面 北京工业人学工学硕十学位论文 积很大的是图像区域,可以将其标定出来甚至去除。”“。在除去图像区域后的剩 余元素中,在一定阙值范围内具有相似横坐标( 若文本是横排的) 的元素可以合并 成一行,行间距在一定闽值控制范围之内的行,可以合并成一个矩形框。即通过 采用双阈值方法可以完成版面分析的任务。 版面分析的方法目前常用的有两种:“自顶向下”和“自底向上”“” 自顶向下的分析方法自顶向下( t o p d o w n ) 的分析方法是根据版面设计的思 路,将版面划分为若干个区域,根据每个区域的信息确定该区域是文字域、插图 域、表格域等,并对文字域内的排版方式、文字域间的连接关系予以描述。 ( a ) 初始文档图像( b ) 元素抽取结果 ( c ) 文本行抽取结果( d ) 文本块抽取结果 图3 - 2 版面分析过程 f i g 3 - 2d o c u m e n ta n a l y s i sp r o c e s s 1 4 一 第3 章版面分析与版面理解 自底向上( b o t l o m u p ) 的分析方法是基于文字的排版过程,由局部到整体,先 提取局部区域的特征信息,再汇总得到相同特征合并的区域。8 “。这种方法在整 体特征不易判断的情况下,依据局部图像的特征进行分析,以确认各种数据块的 组合,有助于版面的理解。这是自底向上分析方法的优势,尤其在解决复杂版面的 切块中,比自顶向下的分析方法要好。 图3 2 表示了自底向上的版面分析方法的一般过程和最后结果。 图3 - 2 ( a ) 显示的是一幅由扫描仪扫描得到的文档图像。图3 2 ( b ) 显示的是 由小矩形框标定的字母或字母组合。图3 2 ( c ) 显示的是由矩形框标定的由字母 合并得来的文本行,当然前提是规定了列间距阈值,以避免把两个不同列的文本 行合并成一个文本行。图3 2 ( d ) 显示的是由文本行合并得到的文本块。 由图可以看出这种方法首先从一篇文档图像中抽取一个个字母或字母组合, 然后把这些字母或字母组合合并成一个个文本行,文本行然后被合并成文本 块,一个文本块一般来说对应个段落。 3 3 2 版面理解 版面理解是将框定的不同区域按一定规则组合和排列起来,以免段落之间的 逻辑关系发生紊乱,这一点在复杂版面的识别系统中显的尤其重要。7 3 。目前比 较有效的一种方法是通过对版面分析得到的文本版块结构所对应的树形数据结 构按照定的规则进行交换,使每个结点所包含的矩形块都是按照一定的逻辑排 列起来的,并且每个结点都是一篇独立的文章或者是一个独立的章节。 图3 3 ( a ) 显示了一篇文档图像被分割成好多文本块后的文本版块结构。图 中的h 是h e a d 的首字母,即表示该文本块是标题;b 是b l o c k 的首字母,即表示 该文本块是文章内容文本块。图3 3 ( b ) 描绘了和( a ) 相对应的几何树型结构。 根节点是n u l l 。图3 - 3 ( c ) 显示了( b ) 经过运用一系列规则之后,转换成的逻辑 属性结构。 下面详细说明从文本版块结构转化成几何树形结构的逻辑依据,以及从几何 树型结构转换成逻辑树型结构所采用的规则。 文本版块结构转化成几何树型结构: 把文本版块结构转化成几何树型结构主要把握两点,一点是哪几个文本块归 北京丁业丈学 学硕士学位论文 ( a ) 文本版块结构 ( b ) 几何树型结构 黼 嗨矿孙 州即 i e 1 6 b 。1 妇j 驵1 7 b , 2 b , 2 2 8 戤螋删f p l 憎口髓p 埘 f 舻嘲b p h ) 搽潞”e , 啐1 2 s ; 1 3 t ,b , 1 楣 哆删呻拉 墩嘲”( p 4 慷岬嘲楣 2 bs b t b ( p e r a g r a p “) ( p a r a g r a 砷) 图3 - 3 版面理解过程 结到几何树型结构的一个节点内,另一点是节点之间的父子关系是如何形成的。 对于第一点,我们按照从左到右、从上到下的顺序把文本版块结构转换成几何树 型结构,把具有相同宽度且在同一列内的文本块归结到对应的几何树型结构的一 个节点内。比如,我们把3 - 3 ( a ) 的8h 文本块和9b 文本块归结到3 - 3 ( b ) 的一 第3 章版面分析与版面理解 个节点内。把lh 、2b 和3h 三个文本块归结到3 3 ( b ) 的一个节点内。对于第 二点,当多于一个的文本块直接位于另外一个文本块的时候,节点的父子关系也 就形成了。比如,1h 和5h 两个文本块直接位于4h 文本块之下,即4h 是lh 和5h 的父亲,h 和5h 是4h 的儿子。但是1h 不是2b 的父亲,因为ih 和2b 位于同- - n ,只有位于一个文本块2b 直接位于ih 下面。 几何树型结构转化成逻辑树型结构有其转化的规则,它们是: 规则( a ) : 如果 一个节点( 设为a ) 是一个叶子节点,并且节点a 的第一个元素是文章内 容文本块( b l o c k ) ,并且按照深度优先顺序a 节点的前一个节点( 设为b ) 也是叶 子节点, 那么 从节点a 中删除第一个元素,并把该元素添加到b 节点的最后一个元素 的后面。 如图3 4 所示: n u l l 刚l l s 8 b b 一 图3 4 规则a f i g 3 - 4r u l ea 图3 4 中叶子节点a 的第一个元素a 1 是文章内容文本块,并且a 节点的前 一个节点b 也是叶子节点,因此将a 节点a l 转移到b 节点的最后一个元素b 的 后面。 规则( b ) : 曰曰 一 露一 北京工业大学工学硕士学位论文 如果 一个节点( 设为a ) 是一个不和根节点相连的叶子节点,并且按照深度 优先顺序a 节点的前一个节点( 设为b ) 也是叶子节点,并且a 节点的第一个元素 不为n u l l ,b 节点的最后一个元素是标题( h e a d ) 文字块, 那么 删除a 节点的第一个元素,并把它添加在b 节点的最后一个元素后面。 如图3 5 所示: 埘l l 图3 - 5 规则b f i g 3 - 5r u l eb 图3 5 中a 节点是一个不和根节点相连的叶子节点,a 节点的第一个元素a 1 不为n u l l ,a 节点的前一个节点b 是叶子节点并且其最后一个元素是标题文字块, 因此把a 节点的第一个元素a l 转移到b 节点的最后。 规则( c ) : 如果 一个节点( 设为a ) 包含一个标题文字块元素,并且该标题文字块不是 a 节点的第一个元素, 那么 我们生成一个新的节点( 设为d ) ,把a 节点中标题文字块元素及其后 面的所有元素转移到d 节点,并且如果a 节点有子节点的话,把所有子节点也都 作为子节点转移到d 节点上。 如图3 - 6 所示: 1 日固 一 雪一 第3 章版面分析与版面理解 影旧 8 。;s ,鱼h ,b :零 2 西 h u a , b o d ys 扫q u 栅 旷帕 图3 - 6 规则c f i g 3 - 6r u l ec 如图3 - 6 ,a 节点包含一个标题文字块a 2 ,并且该标题文字块不是a 节点的 第一个元素,节点c 是节点a 的子节点,因此,我们新生成一个节点d ,把a 节 点a 2 元素及其后面的所有元素都转移到d 节点,并且把a 节点的子节点c 也作 为子节点转移到d 节点上。 规则( d ) : 如果一个节点中存在一个标题文字块元素,并且它是该节点的第一个元素, 那么新生成一个子节点,并且把标题文字块后面的所有元素转移到该子节点上。 如图3 7 所示: 医戛 、i u 冒口 喇矿l 图3 - 7 规则d f i g 3 7r u l ed n ,h “ b 缸 文韶婿 北京工业大学工学硕士学位论文 如图3 7 ,a 1 是a 节点的标题文字块,并且是a 节点的第一个元素,b 节点 是a 节点的子节点,那么我们新生成一个子节点c ,把a 节点a l 后面的所有元 素a 2 、a 3 转移到c 节点上,并且把b 节点作为子节点转移到c 节点上。 图3 8 是图3 3 ( b ) 应用上述4 规则转化成图3 - 3 ( c ) 的详细过程: ( , e l ) l l 规则a _ l h , 2 e ( b ) i 规则b j n u l l 12 8 1 3 6 , 1 4 b ( c ) l 规则c 1 7 8 i 甜咸娩b ( d ) i 规则d ( e ) 图3 - 8 版面理解转化过程 f i g 3 - 8t h et r a n s f o r mp r o c e s so fd o c u m e n tu n d e r s t a n d i n g 图3 8 ( a ) 和图3 3 ( b ) 是一样的,图3 8 ( e ) 和图3 3 ( c ) 是一样的。图3 - 3 ( b ) 就是经过图3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人才日活动策划方案模板
- 东莞入企咨询方案
- 传媒艺考活动策划方案
- 水产养殖行业技术规范总结
- 软件著作权转让协议
- 2025结构工程师检测卷(历年真题)附答案详解
- 2025国家统一法律职业资格考试考试真题及答案
- 中考语文小说阅读赏练-梁晓声小说(含解析)
- 诚信与谎言话题作文(13篇)
- 2025计算机一级考前冲刺练习试题及完整答案详解(夺冠系列)
- 竣工结算审计服务投标方案(2024修订版)(技术方案)
- 2024秋新苏教版生物7年级上册课件 1.2.1 细胞的分裂和分化(第1课时)(教学课件)
- 桩基检测施工方案
- 刑法学课程课件教案绪论
- 精神科量表完整版本
- 混凝土搅拌站安全生产管理制度(2篇)
- 讲好中国故事英语演讲2-3分钟
- 跨境电商实务 课件 项目一 跨境电商概述
- 大学高数-函数和极限省公开课获奖课件说课比赛一等奖课件
- PDCA血液透析水循环案例汇报
- DB13T 5971-2024 从业人员健康检查技术规范
评论
0/150
提交评论