(电路与系统专业论文)扫描文档图像纠偏技术应用研究.pdf_第1页
(电路与系统专业论文)扫描文档图像纠偏技术应用研究.pdf_第2页
(电路与系统专业论文)扫描文档图像纠偏技术应用研究.pdf_第3页
(电路与系统专业论文)扫描文档图像纠偏技术应用研究.pdf_第4页
(电路与系统专业论文)扫描文档图像纠偏技术应用研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 中文摘要 近年来,随着信息技术的飞速发展,网上阅卷、电子图书馆等办公自动化应 用越来越广泛,这些应用通常需要将大量纸质文档转变为电子文档,转换过程中 由于扫描仪走纸机制的影响或者某些人为因素的存在,而使扫描到的图像往往会 发生一定角度的倾斜。然而,在文档图像的处理中,大多数的o c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) 系统对图像的倾斜角是非常敏感的,倾斜矫正质量的好 坏直接影响到后续的图像处理工作能否得到预期的结果,因此研究扫描图像的倾 斜矫正问题具有重要的意义。 要对图像进行纠偏,首先就是要检测出图像的倾斜角度。本文讨论了目前主 要的文档图像倾斜角检测算法,对各种算法的适用场合、优缺点等做了简要的对 比介绍;介绍了几种图像预处理的方法,如图像二值化、图像去噪增强等;提出 了一种新的融合了块拷贝、邻近插值、双线性插值和三次样条插值的快速文档图 像纠偏算法,并采用虚光蒙板技术进行清晰度强调,分析实验结果。实验结果表 明,该算法具有很高的执行效率,同时保证了纠偏后的图像质量。 创新点主要体现在以下几个方面: ( 1 ) 快速的倾斜角估计算法:边缘点检测和限定夹角的快速h o u g h 变换: ( 2 ) 块的分类算法:按照图像区域的平坦程度,分为平坦块和非平坦块; ( 3 ) 像素级分类:按照一阶邻域最大差图像分为平坦像素、清晰度强调像素 和非平坦像素( 需要进行高质量插值的像素) : ( 4 ) 清晰度强调:结合像素级分类的虚光蒙板清晰度强调方法; 关键词:文档图像纠偏倾斜角估计倾斜角检测h o u g h 变换 山东大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , o n l i n e s c o r i n g ,e l e c t r o n i cl i b r a r ya n do t h e ro f f i c ea u t o m a t i o na r em o r ew i d e l ya p p l i e d ,w h i c h a l eu s u a l l y r e q u i r et oc o n v e r th l j g ea m o u n t s o fp a p e rd o c u m e n t si n t oe l e c t r o n i c d o c u m e n t s i nt h ep r o c e s so fc o n v e r s i o n ,t h ei n f l u e n c eo fw a l k i n gp a p e rm e c h a n i s mo f s c a n n e ro rt h ee x i s t e n c eo fs o m eh u m a nf a c t o r s ,t h ei m a g e so fs c a n n e do f t e nh a v e c e r t a i na n g l e st i l t h o w e v e r , i nd o c u m e n ti m a g ep r o c e s s i n g ,m o s to ft h eo c r ( o p t i c a l i m a g er e c o g n i t i o n ) s y s t e mi sv e r ys e n s i t i v et ot h es k e wo fd o c u m e n ti m a g e s ,t h e q u a l i t yo fs k e wc o r r e c t i o nd i r e c ti m p a c to nt h eq u a l i t yo ft h ei m a g ep r o c e s s i n go f t h e f o l l o w - u pw o r k , t h e r e f o r et h er e s e a r c ho ns k e wc o r r e c t i o nf o rs c a n n e dd o c u m e n ti m a g e s h a sai m p o r t a n ts i g n i f i c a n c e i no r d e rt oc o r r e c tt h es k e wa n g l eo fd o c u m e n ti m a g e s ,t h ef i r s ts t e pi st od e t e c tt h e s k e wa n g l e t h i sp a p e rd i s c u s s e dt h ec u r r e n ts k e wa n g l ed e t e c t i o na l g o r i t h mf o r d o c u m e n ti m a g e s ,m a k eab r i e fi n t r o d u c t i o nt ot h ea d v a n t a g e sa n dd i s a d v a n t a g e so f v a r i o u sa l g o r i t h m sa n da p p l i c a t i o no c c a s i o n s ;m e a n w h i l e ,i n t r o d u c e ds e v e r a li m a g e p r e p r o e e s s i n gm e t h o d s ,s u c h a s i m a g eb i n a r i z a t i o n , i m a g ed e n o i s i n ga n di m a g e e n h a n c e m e n t ,e t e ;p r e s e n t e dan e wd e s k e wa l g o r i t h mf o rs c a n n e dd o c u m e n ti m a g e s w h i c hf u s i o nb l o c kc o p y , t h en e i g h b o r i n gi n t e r p o l a t i o n , d o u b l eb i l i n e a ri n t e r p o l a t i o n a n dc u b i cs p l i n ei n t e r p o l a t i o na l g o r i t h m u s i n gu n s h a r pm a s k i n gs t r e s s e dt h es h a r p n e s s o f i m a g e sa n da n a l y z e dt h ee x p e r i m e n tr e s u l t s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e a l g o r i t h mh a sh i g he f f i c i e n c ya n da s s u r et h eq u a l i t yo f t h ei m a g ea f t e rr e c t i f i c a t i o n i n n o v a t i o np o i n t si nt h ep a p e ra r em a i n l ye m b o d i e di nt h ef o l l o w i n ga s p e c t s : ( 1 ) f a s ts k e wa n g l ee s t i m a t i o na l g o r i t h m :e d g ep 0 缸d e t e c t i o na n df a s th o u g h t r a n s f o r mt h a tl i m i t st h ea n g l e ; ( 2 ) b l o c kc l a s s i f i c a t i o na l g o r i t h m :a c c o r d i n gt ot h es m o o t hd e g r e eo fi m a g er e g i o n , d i v i d e di n t os m o o t hb l o c ka n dn o n - s m o o t hb l o c k ; ( 3 ) p i x e ll e v e lc l a s s i f i c a t i o n :d i v i d e di n t os m o o t hp i x e l s ,c l a r i t ye m p h a s i z ep i x e l s a n dn o n - s m o o t hp i x e l s ( t h ep i x e l sw h i c hn e e dh i l g hq u a l i t yi n t e r p o l a t i o n ) a c c o r d i n gt o t h ef i r s t - o r d e rn e i g h b o r h o o dm a x i m u md i f f e r e n t i a li m a g e ; ( 4 ) c l a r i t ye m p h a s i z e :u n s h a r pm a s k i n gc l a r i t ye m p h a s i z e sm e t h o dt h a tc o m b i n e d w i t ht h ep i x e ll e v e lc l a s s i f i c a t i o n ; k e y w o r d s :d o c u m e n ti m a g e s ;d e - s k e w ;s k e wa n g l ee s t i m a t i o n ;s k e wa n g l ed e t e c t i o n ;h o u g h t r a n s f o r m 2 山东大学硕士学位论文 符号说明付丐吼明 o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) :光学字符识别 r l s a ( r u n l e n g t hs m o o t h i n ga l g o r i t h m ) :游程平滑算法 k n n ( k n e a r e s tn e i g h b o r ) :k 最近邻簇 o m r ( o p t i c a lm a r kr e a d e r ) :光标阅读机 u s m ( u n s h a r pm a s k i n g ) :虚光蒙版 3 山东大学硕士学位论文 1 1 论文研究的背景及意义 第一章绪论 随着信息技术的飞速发展,越来越多的应用场合实现了无纸化办公,如网上 阅卷、问卷调查、政府文件、银行票据和数字图书馆等。而在实际中,大量的信 息是记录在纸质文档上的,而纸质文档具有不便于保存、检索、修改等等缺点, 为了充分利用电子文档的优越性,就需要将大量的纸质文档通过高速文档扫描仪 转换为电子文档。相对于传统的纸质文档而言,电子文档具有占用存储空间小、 方便检索、便于传输及更新等许多优点,同时,为了增加对电子文档的版权保护, 可以进行必要的保密编码,提高了可靠性。而且,如果需要,电子文档可以随时 方便地转换成各种形式的纸质文档。 如此大量的工作量如果由手工录入其难度可想而知,通常情况下采用扫描仪、 数码相机等电子设备进行。由纸质文档向电子文档转变主要可分为以下几个步骤: 数字化过程、扫描图像的预处理、图像分割和文档内容的识别。在图像预处理中, 图像的二值化、图像的降噪处理以及倾斜角检测是其中非常重要的环节。 目前将大量纸质文档转换为电子文档所使用的高速扫描仪一般采用机械式的 自动进纸方式进行,它不同于平板扫描仪,可以大大加快文档的扫描速度,但由 于机械送纸或者文件本身的原因很难保证扫描的文档不会发生偏斜,从而得到倾 斜的扫描图像,这种倾斜的图像不但影响视觉效果,也将严重影响后续处理的精 度和速度等,比如:版面分析、字符分割等等。偏斜角度稍大就会严重影响o c r ( 光 标字符识别) 系统的识别效率,所以在文档分析中图像的倾斜角检测及矫正是非 常频繁的操作,提高文档影像倾斜角的矫正速度,可以保证整个文档影像的视觉 效果,也可以提高后续工作的处理速度,降低工作的复杂度。因此,采用一定的 自动纠偏算法实时对扫描的文档图像进行倾斜矫正是保证扫描图像质量的一个关 键步骤【1 1 1 2 1 。 在文档图像的分析理解领域,文档的图像的纠偏技术是其重要的组成部分, 它对后续的图像分割、版面分析、字符识别等工作的进行具有重要的影响。在图 4 山东大学硕士学位论文 像识别系统中,图像数据的质量直接影响到识别的准确度,而实际扫描的图像往 往会发生一定的倾斜。为了提高系统的识别率,增加系统的稳定性,需要快速而 准确的检测出图像的倾斜角度,并且加以校正。目前大多数的扫描设不备具备图 像的自动纠偏的功能,然而在实际应用中,由于印刷、打印的倾斜情况经常发生, 导致不能正确的进行倾斜校j 下的情况屡见不鲜。因此,研究扫描文档图像的纠偏 技术在数字图书馆建设、网上阅卷等文档图像的处理中具有重要的意义和价值, 并且具有广阔的发展空间。 1 2 本论文的主要研究内容 本论文针对扫描文档图像,提出了一种快速纠偏算法,主要研究内容如下: ( 1 ) 概述了目前应用于文档图像倾斜角度的快速检测方法,并对其优缺点、 适用范围作了分析; ( 2 ) 详细介绍了种基于边缘点检测和限定夹角的快速h o u g h 变换的倾斜角 估计算法,主要目的是减少参与h o u g h 变换的点数,并根据倾斜角范围减少h o u g h 变换空间; ( 3 ) 基于块的分类和像素级的分类,并根据其属性决定插值方法,提高纠偏 效率; ( 4 ) 对纠偏后的图像进行质量优化。 1 3 论文的结构安排 论文主要是提出一种扫描文档图像快速纠偏技术,全文一共分五章,各部分 内容安排如下: ( 1 ) 第一章为绪论部分,主要介绍了课题的研究背景及意义,论文的主要研 究内容以及论文的结构安排; ( 2 ) 第二章为文档图像纠偏技术中目前应用的典型算法,简要介绍了各种方 法的优缺点及其适用范围; ( 3 ) 第三章为文档图像的预处理了部分,介绍了图像的二值化、图像去噪等; ( 4 ) 第四章是论文的主要内容,提出了基于霍夫变换的倾斜角检测算法,描 山东大学硕士学位论文 述了块分类和像素分类的方法,详细介绍了快速纠偏算法及其实现: ( 5 ) 第五章给出实验结果及实验结果的分析; ( 6 ) 第六章为工作总结与展望。 6 山东大学硕士学位论文 第二章文档图像纠偏技术典型算法 随着i t 业的迅速崛起,将大量的纸质文档转变为电子文档的需求越来越大, 由于扫描过程中人为或者设备的原因不可避免地会有扫描图像倾斜的现象产生, 这种倾斜会对后续的版面分析理解和字符切分等等操作造成困难。 图像的矫正工作根据其工作方式可以分为手动方式和自动方式两种。手动矫 正的方式是指采用人机交互的方式进行,图像的倾斜角度由用户自己指定,然后 计算机根据相应的图像矫正算法解决倾斜图像的矫正问题。由于文档图像的特殊 性,再加上采用手工校正的方式费时又费力,使得采用计算机自动纠偏技术成为 可能。因此,相应的关于扫描的文档图像的自动纠偏问题也成为了各个相关科研 部门研究的技术重点之一。目前,关于扫描文档图像的纠偏算法研究国内外已有 不少,许多专家学者根据需要扫描的文档图像的特点提出了很多关于文档图像的 矫j 下算法。 图像的倾斜矫正一般可分为图像的倾斜角估计和图像的旋转矫正两个步骤。 要对图像进行纠斜,首先就是要检测出图像的倾斜角度。在过去的几十年中,人 们提出了许多的图像倾斜角检测算法,其基本原理是通过探求某种视觉信息得出 图像的倾斜角 s l 。针对不同的图像,目i j 的倾斜角估计方法主要可以分为以下几种 1 4 1 5 】【6 】:基于h o u g h 变换的方法,基于交叉相关性的方法,基于剖面投影的方法,基 于k 一最近邻簇的方法和基于f o u r i e r 变换的方法。下面这些常用算法分别进行讨 论,并对其优缺点进行简要的介绍。 2 1 基于h o u g h 变换的方法 h o u g h 变换1 7 1 是一种从图像中检测出某种几何形状的基本方法之一,它在图像 的检测倾斜角检测中有着广泛的应用【8 】【9 】【l o l 【1 1 1 。最初f l = i h o u g h 于1 9 5 9 年提出,自 h o u g h 在其专利中公布此方法以来,在工程技术中的各个领域都有着广泛的应用。 它通过笛卡尔坐标和极坐标两个坐标系之间的变化来检测平面内的直线或者有规 律的曲线,由于其良好的抗噪声性能以及对部分遮盖现象的不敏感等特性,使其 7 山东大学硕士学位论文 在图像处理领域有着广泛的应用。其基本思想是点一线的对偶性,即在图像空间中 一条直线上的点对应于参数空间中相交的线;反过来说,在参数空间中相交于一 点的线对应于图像空间中一条直线上的点。霍夫变换具有在变换空间所希望的边 缘积聚而形成峰值点的现象。下面我们简要介绍一下h o u g h 变换的原理。 假设在直角坐标系中有一条直线l ,如图2 - 1 所示,过原点做一条到这条直线 的垂线,这条垂线的长度为p ,垂线与x 轴的夹角为0 ,则其直线方程为: p = x c o s o + y s i n o 这条直线若用极坐标表示则表示为一点( p ,口) ,由此可见,在直角坐标系中的 一条直线在极坐标中则对应一个点,所以h o u g h 变换是一种由线到点的变换。 x 图2 - 1 直线的极坐标表示 所以它实现了一种从图像空间到参数空间的映射,从而将图像中的检测问题 转换到参数空间进行,在参数空间,通过简单的累加统计完成检测的任务。 在直角坐标系中过任意一点( 而,) 的直线系如图2 2 所示。 y 图2 - 2 过任一点的直线系表示 这些直线在极坐标系中对应的点( p ,0 ) 的集合构成一条j f 弦曲线。反过来也可 以说,j 下弦曲线上的一个点在直角坐标系中则对应于过点( 而,) 的一条直线。假 设在平面上有若干的点,则过任意一点的直线系在极坐标中则对应一条正弦曲线, 若这些正弦曲线有共同的交点( 岛,o o ) ,则这些点是共线的,且直线方程为: 8 山东大学硕士学位论文 p o2x c o s o o + y s i n o o a 它是先把笛卡尔坐标系上的点映射到极坐标系上,并且进行累积过程。即在 笛卡尔坐标系平面上任一直线上的所有点,均通过变换累积到极坐标系的同一点 集,然后寻找极坐标系中点集的峰值,从而发现直线特征。由于点集是通过累积 过程统计得到,因而对于间断的直线具有较好的鲁棒性。由于该变换受图像噪声 以及边界线间断的影响比较小,而其计算精度高、强大的抗干扰能力和算法实现 简单等特点,因而在各种文档图像纠偏中都有广泛的应用。然而,它的运算复杂 度高、执行效率低也是使用该算法的最大弱点。 h o u g h 变换的步骤一般可分为以下三步: ( 1 ) 在图像空间中的每个像素点转换为参数空间的参数直线。 ( 2 ) 初始化一缓冲区阵列,对应参数空间,对于图像空问中的每一个像素点, 在阵列中处于参数直线上的单元加l 。 ( 3 ) 找出参数平面上的最大点的位置,其对应参数所决定的直线即为图像空间 中对应的直线。 h i n d s 1 2 1 等人提出了一种基于h o u g h 变换的倾斜角检测方法,该算法具有较强的 鲁棒性,适应性很强,但由于霍夫变换本身计算量较大,若其对运算的精度有较 高的要求,则相应的运算量会急剧增加,并且耗费更大的存储空间。为了克服霍 夫变换计算量大的缺点,许多研究者提出了一些改进的算法, n a n d i n in 【1 3 1 等人 提出了一种基于h o u g h 变换的二值文档图像的倾斜角检测方法,该算法能有效的减 少h o u g h 变换的复杂度,具有一定的实用性。文献1 1 4 】采用变分辨率图像金字塔策 略的方法检测扫描图像的倾斜角度,该方法类似于人眼“;i :h 看 到“细看 的过 程。它首先对原图像作减半采样处理,以得到低一级分辨率的图像;然后对该图 像再一次作减半采样,以得到分辨率更低的图像,照此处理,可得到一组金字塔 式的变分辨率图像。h o u g h 变换首先在分辨率较低的图像上进行,以得到粗略的 图像倾斜角度,然后再在较高分辨率图象上进行细化,直到获得满意的精度,具 有很好的抗噪声性能和很好的适应性。为了克服霍夫变换计算量大的缺点,文献【1 5 l 在图像中选取有代表性的子块,并对选取的子块提取水平边缘,然后对其水平边 缘进行两级霍夫变换,这种方法不但利用了霍夫变换对噪声不敏感的特点,而且 有效的减少了运算量,提高了运算速度。 9 山东大学硕士学位论文 2 2 基于剖面投影的方法 其中基于投影的方法在图像的倾斜角检测中的应用也比较常见【16 j 【1 7 】【1 8 】【1 9 1 。这 类算法的主要思想是:在文本中,沿文本行倾斜方向剖面的某种特征的投影值最 大。其一般做法是:选取某种特征,构造适当的函数,如均方差、第一特征矢量 以及梯度等;在文本中,对所有可能的倾斜剖面,计算此函数值;然后对计算结 果求极值,对应特征函数值最大的候选角度即为倾斜角度。 这种方法的优点是易于实现,但是由于传统投影方法需要对整个图像进行投 影,且所需的投影方向多,算法的精确度也与投影的角度分辨率有关。角度分辨 率过低效果较差,而过高则运算量过大,因而通常情况下计算量和复杂度都较高。 而且只对版面布局简单的纯文本的文档影像效果较突出,但也有一些以此思想为 基础的改进算法,能从混有图、表的文档影像中找出文本部分,获得较好的效果。 总的来说,通过适当构造能量函数,剖面投影法可以获得比较好的结果。但 该算法在很大程度上依赖文字区域,对于文字区域较少的文档影像则无法得到满 意的结果。 h s b a i r d l 2 0 l j 入了一种称作倾斜角的能量对正函数的方法,该函数的全局最 大值采用迭代的方法确定,以此得到图像的倾斜角,使用该方法要达到较高的处 理精确度需要文档图像的倾斜角度在1 5 。范围以内,而且对噪声较敏感。h o u 2 i 】 提出了一种基于水平剖面投影的方法,针对二值文档图像,估算每一个水平行中 的黑色像素的数量。图像以一个预定的角度旋转,相应的计算每一个旋转图像的 剖面投影,通过计算顶点与水平剖面投影的峰值之间的最大差异估算图像的倾斜 角度。b l o o m b e r g 和k o p e c l 2 2 1 提出了一种改进的新算法,这种算法可以有效的减少 系统的处理时间,通过下采样的方式减少图像的大小,但是这种方法并不适用于 包含图标以及字体的大小或类型有变化的文档图像。l i ,s h e n a 和s u n b 2 3 】通过把水 平剖面投影和小波的l h 子带连结起来的方法得到文档的倾斜角度,l h 子带提供了 水平方向的细节信息。h a g i t a 和a k i y a m a l 2 4 1 j 通过把图像分割成垂直的竖条的方式, 对每一竖条计算其投影函数,通过检测相邻竖条的相关性得到图像的倾斜角。 p a v l i d i s 和z h o u 2 5 l 贝, w j 提出了一种基于水平竖条的垂直投影的方法。针对纸币清分 机的应用,李云峰【2 6 1 提出了一种通过灰度投影来进行纸币图像几何校正的方法。 i 0 山东大学硕士学位论文 该方法首先利用灰度投影曲线上的某些特殊点与纸币的顶点位置坐标有直接对应 关系的特点,通过计算整幅及部分纸币图像的灰度投影来确定纸币四个顶点的坐 标;然后利用纸币四个顶点的坐标值计算纸币的倾斜角。基于投影的方法优点是 它的易于实现性,但其计算的速度和精确度都不高。 2 3 基于交叉相关性的方法 交叉相关性的方法是基于计算图像中等距离的两个行线上像素点的交叉相关 性的方法。如果文档图像发生倾斜,则在两条平行的扫描线上位于同一行的像素 点会发生平移。文献2 刀以平行线上的像素点建立相关矩阵,并在竖直方向上做投 影图,图像的倾斜角对应于得到的投影图中的全局最大值。这种方法对倾斜角的 估计准确率较高,但相关矩阵的计算量较大。而且对于一些特殊情况的图像精确 度下降,例如图像中有较多的插图,其准确性则大大降低。针对以上不足,人们 提出了许多改进的交叉相关性算法,针对计算整个图像的相关函数计算量大的特 点,文献2 明采用随机选取的一小块子区域计算相关函数,以此得到图像的倾斜角, 有效的减少了计算量。m i n gc h e n l 2 9 j 的改进算法可以应用于灰度图像,并对各种版 式的文档图像都具有较好的效果,相对于传统的计算整幅图像的相关性,这种算 法是随机的选取一块小的区域进行计算,既减少了运算量,又使算法具有较好的 鲁棒性和有效性。 文献【3 0 l 首先采用水平r l s a ( r u n l e n g t hs m o o t h i n ga l g o r i t h m ) 的方法对图 像进行平滑处理,利用一系列具有相等距离的垂直扫描线,在可能的变化范围内 计算相关矩阵,从而得到图像的倾斜角。由于该算法利用图像中定义的某些垂直 线计算相关矩阵,所以算法的计算时间与文献2 刀相比有了很大的减少;采用多个 一系列垂直扫描线的方式提高了算法的精确度,减少了由于噪声的影响而产生错 误结果的可能性和由于文本行较短而丢失的可能性;同时该算法也具有鲁棒性, 对于文档中存在图片的情况同样适用。 该算法虽然具有较高的精确度,但是进行相关矩阵的计算中,其计算量比较 大。通过改进的算法虽然较少了一定的计算时间,但提高的速度依然不尽如人意。 山东大学硕士学位论文 2 4k - 最近邻簇的方法 k 最近邻簇( k n e a r e s tn e i g h b o r ,k n n ) 方法【3 1 】1 3 2 3 3 1 是先找出所有连通区中 心点的k 个最近邻,计算每对近邻点的矢量方向并统计生成直方图,直方图的峰值 对应于整幅图像的倾角。k 一最近邻簇的方法一般步骤是:首先找出文档图像中的 所有连通区,然后根据欧式距离确定每个连通区的最近邻,并计算最近邻连通区 中心点间的方向【3 4 】。通常情况下,同一文本行中最近邻主要为相邻的字符,累计 计算最近邻的方向矢量,统计生成直方图,则直方图的峰值对应于文档图像的偏 斜角度。 与其他方法相比,这种方法的优点是:它并不需要主要文本区域的存在,对 于分文本区域较少的情况,例如含有大量图片和图表的情形同样适用。也不受倾 斜角检测范围的限制。然而,在通常情况下,精确度较低也是其主要的缺点。 y l u l 3 5 1 使用k 一最近邻簇的方法,它应用文档图像的连通区计算其倾斜角度, 这种方法适应于具有多列的文档图像,它检测多个倾斜角度,并且检测的间隔没 有限制,但是这种方法比较耗时,对噪声的敏感性较大,并不适用于手写体的检 测。 文献阳提出了一种改进的方法,该算法对于每一个连通区域,找出k 个最近 邻,然后应用最近邻簇的方法计算倾斜角。然而该算法由于选择的最近邻有可能 不属于同一文本行,因此合成的直方图峰值通常不是很精确,可能会有较大的误 差。利用最小二乘法拟合各个连通区的中心点,计算精度增高,却是以计算时间 上升为代价的。 2 5 基于f o u rie r 变换的方法 基于f o u r i e r 变换的方法采用傅里叶变换检测文档的倾斜角度,该方法需要对 所有图像的像素点进行傅里叶变换,傅里叶空问中密度最大的方向即为文档页面 的倾斜角。因为该算法对文档图像的所有的像素点进行f o u r i e r 变换,当图像较 大时,其计算量巨大,目前已很少采用。 山东大学硕士学位论文 2 6 其它的方法 基于线性回归分析的方法【3 刀是用线性回归公式来估计每一条文本行线段的倾 斜角度。线性回归公式法是一种统计的方法,它通过线性回归公式找出一系列点 的最佳适配方程。对于一有效文本行,其直线拟合方程为:】,= 么+ 黜,其中 疗疗厅 玎薯咒一( 毛) ( 咒) b = - l 旦了卫( 2 1 ) 刀# 一( 而) 2 f = l 咒一曰毛 a = 生! ! = ! 甩 ( 2 - 2 ) 上式中,b 为拟合直线的斜率,x ,y 为拟合直线上像素点的坐标,刀为文本行 中有效字符坐标的个数。通过以上计算,一个有效文本行拟合直线的倾斜角可用 公式( 2 - 3 ) 计算: 0 = 卸c t a n b ( 2 3 ) 这种方法适用于文本文档的情况,对文本倾斜角度的计算可扩大至正负3 0 。 之间。它对任意大小的文档图像都具有较好的效果,但是对于倾斜角度超过3 0 。 的文档图像或者版面布局较负责的图像其精确度则大大降低。 另外,c - h c h o u 等人阴提出了一种具有鲁棒性的倾斜角检测算法,它是基 于平行四边形的分段覆盖算法。在这种算法中,文档图像被划分成互不重叠的对 象,每一个对象通过不同角度的平行四边形覆盖,哪一个平行四边形能最好的覆 盖文档所选区域,则对应的角度即为文档图像的倾斜角度。 针对彩色文档图像的矫正问题,文献f 3 9 1 提出了一种新的彩色文档图像的自动 校正算法,对于图像的旋转变换,通过色彩补偿解决了整数运算所带来的“锯齿 现象的补偿问题。提出的基于纹理复杂性分析的倾斜检测方法有效地利用了文本 图像的纹理特征,对于具有单一背景的文档图像具有较高的准确性。 文献1 4 0 l 提出了一种扫描文档图像的倾斜校正方法,该方法解决了书籍等文档 扫描时图像背景灰度不匀、几何畸变和局部模糊的问题。它不依赖扫描设备的物 理参数,完全根据对失真图像的测量来计算校正因子。选取适当的采样窗口,基 1 3 山东大学硕士学位论文 于直方图分析导出背景灰度因子,通过内插校正几何失真,最后进行空变高通滤 波以减轻字迹模糊。通过建立背景灰度因子和缩小系数的关系实现对扫描设备的 标定,从而在校正同一设备输出的其它图像时可根据背景灰度的变化而不必再检 测页面边缘。对于一般用户,这种方法不但效果好,而且易于实现。当图像背景 面积较大时,该方法也可克服其它某些方法中要依赖文本行的缺点,对含有文字、 表格、图形等的各种图像都有适用性;当图像背景面积较小时,亦可通过检测页 面的边缘来对图像进行校正。处理后的图像质量明显改善,不仅便于阅读,也有 利于用o c r 进行自动字符识别【4 。 2 7 本章小结 本章主要对目前应用的文档图像的倾斜角检测算法做了简要的介绍,算法主 要包括:基于霍夫变换的方法、基于交叉相关性的方法、基于剖面投影的方法、 基于k 一最近邻簇的方法和基于傅里叶变换的方法。并对各种方法的优缺点做了对 比。 1 4 山东大学硕士学位论文 第三章扫描文档图像预处理技术 本章介绍扫描文档图像的预处理相关技术,包括图像二值化、图像去噪增强 等方面。对图像进行预处理的主要目的是生成适合人眼观察和易于计算机处理的 图像。直接数字化生成的图像通常会在生成过程中引入一些不必要的噪声,这在 一定程度上减弱了原始文档的有用信息,从而使系统的识别率降低。所以,图像 的预处理技术是文档图像研究中不可缺少的组成部分。 3 1 文档图像的二值化 文档图像的预处理是极其重要的,它的好坏直接影响到后续工作的处理效果。 目前在进行大量文档扫描时,所用的高速扫描仪扫描的文档图像通常是狄度图像, 因此,目前大多数成熟的文档图像处理算法也都是针对灰度图像的,为了使扫描 得到的图像更加易于处理,增加o c r 的识别效率,并且减少数据的存储容量,通常 需要对得到的灰度图像进行二值化处理。由于一般扫描的文档原始资料一般都是 黑白的,所以图像二值化的过程并不会使文档的主要信息丢失。 图像的二值化处理是图像处理中一个重要的部分,它在图像增强、模式识别 以及图像的分割技术中都有着广泛的应用。二值化的关键问题是阈值选取问题。 即设定一个阈值t ,大于等于t 的将其设定为白色,小于t 的将其设定为黑色。它使 各个像素点的表示只需要为“0 ”或者“1 ”两个值,即1 位量化就足以描述字迹或 线条与背景之间的差别,使整个图像具有明显的黑白对比效果,这种用l b i t 信息 表示的图像即为二值图像,这样可使图像更易于识别处理,并且大大较小了图像 的大小,节省了存储空间。但阈值的选取是否合理直接影响到后续的处理过程, 阈值设置过小易产生噪声,而设置过大会降低分辨率,使非噪声信号被视为噪声 过滤掉。 阈值选取是图像处理与分析问题的基础,利用阈值对图像进行二值化是图像 处理的基本问题,并在图像分析和识别中起着重要的作用。在现有的阈值计算方 法中,主要可以分为全局阈值计算方法和局部阈值计算方法【4 2 j 。全局阈值方法是 山东大学硕士学位论文 指将整幅图像的二值化过程采用单一的阈值进行,阈值的确定是根据图像的直方 图或者灰度空间分布进行的,这种方法具有较快的运算速度,在物体与背景之间 的灰度值差别较大时具有较好的效果。典型的全局阈值方法包括平均灰度法 4 3 1 ,o t s u 方法 4 4 1 1 4 5 1 等。局部阈值计算方法是指把图像分成若干个区域,并且对每个 区域设置一个阈值进行二值化,或者对图像中的每一个像素点,根据其邻域的像 素点的灰度变化情况来设定一个阈值,然后逐点对图像进行二值化。这种方法速 度一般比全局阈值法要慢,但是在图像比较复杂或者背景存在噪声,用单一的阈 值很难区分物体和背景的情况下,往往就要采用此种运算方法。典型的局部阈值 方法有n i b l a c k 法 4 6 1 ,b e r n s e n 法1 4 7 ,平均梯度法等。 3 2 图像的去噪处理 由于文档本身的原因或者扫描过程中产生的原因,而使扫描出的图像效果差 强人意,通常会出现对比度较低、图像比较模糊、产生噪声的情况。为了尽量减 少对后续工作的影响,对图像进行预处理是很有必要的。 图像的噪声简单的可以理解为妨碍人的视觉感知,或妨碍系统传感器对所接 收图像信息进行理解或分析的各种因素,也可以理解为真实信号与理想信号之间 存在的偏差。下面对图像噪声的抑制方法进行简单的介绍。 由于文档本身的原因,或者在扫描过程中c c d 器件受到灰尘的干扰以及外界的 影响等等,会产生各种各样噪声。噪声是一种不可预测的随机信号,通常采用概 率的方法对其进行分析【4 引。文档图像的去噪处理是指去除扫描的文档图像中的杂 点的过程。杂点的产生原因多种多样,有的是原来的纸质文档本身就存在杂点, 有的是文档使用过程中产生的杂点,也有扫描仪在扫描过程中产生杂点等等。为 了降低后续处理的复杂度,通常需要对扫描的文档图像做降噪处理。 噪声的特点各种各样,其种类也很多,比如椒盐噪声、高斯噪声、瑞利噪声、 机械噪声等等,在图像处理中噪声的去除已成为一种不可或缺的技术。目前的图 像降噪理论体系已经比较完善,典型的可分为空间域降噪法和变换域降噪法【4 9 】。 所谓空间域是指图像平面自身,这类方法是以对图像像素的直接处理为基础。 它是针对原图的灰度直接进行运算,对像素的欢度值进行处理。一幅图像可以由 1 6 山东大学硕士学位论文 函数f ( x ,y ) 定义,其中x ,y 为像素点的坐标,通常对像素的操作是以点( x ,y ) 为中 心的一个邻域内定义一个矩形,采用某种操作方式去除无用的噪声。典型的方法 包括邻域均值滤波、邻域中值滤波等等【5 0 1 。 邻域均值滤波具有算法简单、计算速度快的特点,对噪声有较强的抑制能力, 但它也易使图像产生模糊,而且邻域选取的越大,图像的模糊就越严重。邻域中 值滤波的方法是一种基于排序统计理论的抑制噪声的方法。它的特点是首先确定 一个以某个像素为中心点的邻域,一般为方形邻域,也可以为圆形、十字形等等, 然后将邻域中各像素的灰度值排序,取其中间值作为中心像素灰度的新值,这里 领域被称为窗口,当窗口移动时,利用中值滤波可以对图像进行平滑处理。其算 法简单,时间复杂度低,但其对点、线和尖顶多的图像不宜采用中值滤波。很容 易自适应化。 频率域的方法是指将原空间进行某种方式的频率变换,从而将原来的图像从 空间域转换为频率域( 傅立叶变换和卷积理论是频域处理技术的基础) ,然后利用 变换后数据的特有性质对图像进行变换域处理,最后再将处理后的数据反变回空 间域,以此得到经过处理的图像。但变换域的缺点是算法的时间复杂度较高。 在图像的扫描过程中会产生一系列的噪声点,会严重影响后续的处理效果, 所以应该对图像进行去噪处理,这些噪声点的来源主要是扫描参数的设定不合理、 扫描过程中落入的灰尘以及物理器件畸变等等。下面介绍几种典型的图像噪声抑 制方法。 3 - 2 1 图像噪声的均值滤波方法 均值滤波是一种基本的对图像噪声进行滤除的滤波方法,它的应用非常广泛, 可以利用均值滤波的方法对图像进行平滑操作,以消除图像中的点状噪声。 均值滤波的基本方法是:对欲处理的当前像素,选择一个合适的模板,该模 板为其邻近的若干像素组成,用模板中像素的均值来代替原像素的值。 如图3 1 所示,当前像素为序号为0 的像素,序号从o n 8 的像素为模板中的相 邻像素,求出模板中的所有像素的均值,再把该均值赋予当前的像素点,则该均 值即为处理后该点图像的上的灰度g ( x ,y ) ,亦即 1 7 山东大学硕士学位论文 如朋= 击薹似,力 ( 3 1 ) 其中,8 为模板,m 为该模板中包含当前像素在内的像素总个数。 123 8o4 765 图3 1 均值滤波方法 考虑到数据分布的平衡性,模板一般选择为3x3 或者5 5 ,待处理的像素放 在模板的中心位置。同时,为了使输出的像素值保持在原来的灰度值范围内,模 板的权值总和应维持为1 ,。因此,模板与模板像素的乘积要除以一个系数,这个 系数通常情况下为模板系数之和,这个过程称为模板的归一化。 例如对于一个3 3 的均值滤波器,采用矩阵形式描述的模板可如下所示: r l 11 :1 i1 1ll ( 3 2 ) 9 l l l 1 j 对于均值滤波,其计算步骤如下: ( 1 ) 将模板在图像中心依次移动,并将模板中心与每个像素点以此重合( 不 包括边缘像素点) ; ( 2 ) 将模板中的各系数与对应的像素点的像素值相乘,并将所有结果相加或 者进行其他的运算; ( 3 ) 加权值即为目标图像中对应模板中心位置的像素点的灰度值。 对于椒盐噪声,均值滤波的效果不太理想,主要原因是椒盐噪声的幅值基本 是相同的,只是出现噪声点的位置比较随机,所以,统计意义下的噪声均值不为o , 即使在理想的情况下也无法完全去除。经过均值处理后,噪声部分被弱化到周围 的噪声点上,所以得到的结果是噪声幅值减小,但是噪声点的颗粒面积同时变大。 均值滤波去除噪声的方法算法简单,计算速度快,然而,均值滤波存在一个很大 的缺点,就是在计算中会同时将目标的边缘点也同时均值化处理,在降噪的同时 使图像产生模糊,使得目标物体的清晰度降低,损失部分画面的细节信息,特别 山东大学硕士学位论文 是在目标的边缘和细节处,而使画面变得模糊。模板选择的越大,虽然对噪声的 抑制效果越好,但去噪后的图像画面模糊的越严重。为此,很多研究者提出了一 些改进的算法对均值滤波的效果效率等都有很大的提高。 3 2 2 图像噪声的中值滤波方法 中值滤波的方法在图像的去噪处理中有着广泛应用,下面简要介绍一下其作 用原理。 中值滤波是一种基于排序统计理论的非线性信号处理技术,它是一种邻域运 算。通常图像上噪声点的像素值要比周围非噪声点的像素值偏高或偏低,基于这 样一种考虑,可选择一个窗口,将窗口周围邻域的像素按灰度级排序,选择其中 值作为其输出的像素值。这样,如果一个亮点或暗点是噪声,就会在排序过程中 被排在数据序列的最右侧或者最左侧,因而最终所选的排在序列中间的值一般不 是噪声点,以此来达到抑制噪声的效果。 中值滤波与均值滤波不同的是,它不是通过对邻域内的所有像素点求平均值 来消除图像的噪声,而是让周围像素点灰度值的差比较大的像素点改近似于周围 像素点的灰度值的值,从而来达到消除噪声的目的。中值滤波在一定程度上保持 了图像的边缘信息,因此得到的图像比较清晰,效果要比均值滤波好一些。它的 基本思想是:取某种结构的二维滑动模板,将模板内像素按照像素值的大小进行 排序,生成单调上升或者下降的二维数据序列,则其中值滤波输出为: g ( x ,力= m e d f ( x 一后,y z ) ,( 尼,) w ( 3 - 3 ) 其中f ( x ,少) ,g ( x ,y ) 分别为原图像和处理后的图像。形为二维的模板,通常 情况下选择3 3 、5x5 的区域,其形状也可以多种多样,例如线形的、圆形的、 圆环形、十字形等等。 对于一幅给定的图像,若采用3 3 的窗对其进行中值滤波运算,其边界像素 不做处理,滤波的结果可用图示表示如下; 1 9 山东大学硕士学位论文 ( a ) 原始图像( b ) 中值滤波结果 图3 2 中值滤波处理方法 对于椒盐噪声,根据中值滤波的原理可以看出,通过数据排序的方法,将图 像中未被噪声污染的点替代噪声点的值的概率比较大,以此具有很好的噪声抑制 效果,同时也能够保持画面的清晰度。但是对于高斯噪声,因为它是以随机大小 的幅值污染所有点,所以其抑制效果不是很好。 中值滤波是一种非线性处理技术,其抑制噪声的算法要比均值滤

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论