




已阅读5页,还剩66页未读, 继续免费阅读
(系统分析与集成专业论文)对利用边界标定自动机进行文档图像分析的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华采烬范天学谩十论文 霹零羁迭器标定蠢融掇述哲文秽爨辍分板鲍研究 摘要 文糖图橡分析是光学亨符识潮( o c r ) 技术的蕈要组成部分。奉文在对顶点链编 码深入研究的基础上,设训并实现了利用边界标定自动机进行文档图像倾斜校正、版血 分析及连通体几何特饺提取的方法。边界标定自动机是一套能对数字图像中的强标对象 进雩亍边弊拣定并生成对癍的顶点锩编码静技术,作者首次将这一技术应用予文档蚕像分 析,其中,根据输出的顶点链编码得到文档图像中所有连通体的外接矩形并相廊进行对 整幅图像躲文奉行判断以实现倾斜角度探测和版谳分析均属本文的创新之处。同时,作 者逶过大囊实验,涯明了奉算法裘实际应瑁中静可行注露有效5 羧。 关键字:o c r 、顶点链编码、边界标定自动机、倾斜校正、蛰棒回归、版颤分拆、版 蠢识剐、舨商理解、游长半清楚理、连通体、袋小外接踅形、密集度、体态比 华女、帅范人学倾十论文 对利用边界标定自动帆进行文档| 芏| 像分析的研究 一一 a b s t r a c t d o c u m e n ti m a g ea n a l y s i si sak e yp a r to ft h eo p t i c a lc h a r a c t e rr e c o g n i t i o n ( o c r ) s v s t o mb a s e do nt h ea u t h o r sd e e ps t u d yo nv e r t e xc h a i nc o d e ,an e wm e t h o df o rd o c u m e n t i m a g es k e wr e c t i f i c a t i o n ,l a y o u ta n a l y s i sa n dg e o m e t r i c a lf e a t u r e se x t r a c t i n gf o rc o n n e c t e d r e g i o n si sd e s i g n e da n dr e a l i z e d r e g i o n l a b e l i n g a u t o m a t ai sa t e c h n i q u et h a tc a nb eu s e dt o l a b e lo b j e c tr e g i o n sa n da c c o r d i n g l yg e n e r a t et h ev e r t e xc h a i nc o d e sf o rad i g i t a li m a g et h i s t e c h n i 口u ei sf o rt h ef i r s tt i m eu t i l i z e di nd o c u m e n ti m a g ea n a l y s i s t h ei n n o v a t i o no ft h i s p a p e ri n c l u d e su s i n gv e r t e xc h a i nc o d e f o rp r e c e d i n ge a c hr e g i o n sm i n i m u me n c l o s i n g r e c t a n g l e ( m e r ) ,e x t r a c t i n gt e x tl i n e sf r o ma d o c u m e n ti m a g e ,d e t e c t i n gi m a g es k e wa n d a n a l y z i n gt h ep a p e rl a y o u t ,t h er e s u l to fm u l t i p l ee x p e r i m e n t sh a st e s t i f i e dt h ef e a s i b i l i t ya n d e f f i c i e n c yo ft h ea l g o r i s m k e yw o r d s :o c r ,v e r t e x c h a i nc o d e ( v c c ) ,r e g i o n l a b e l i n ga u t o m a , s k e wr e c t i f i c a t i o n , r o b u s tr e g r e s s i o n ,l a y o u ta n a l y s i s ,l a y o u tr e c o g n i t i o n ,l a y o u tu n d e r s t a n d i n g ,r u n l e n g t h s m o o t h i n g ,c o n n e c t e dr e g i o n ,m i n i m u me n c l o s i n gr e c t a n g l e ( m e r ) ,c o m p a c t ,p o s t u r er a t i o 王涤琼硕士论文答辩委员会成员名单 姓名单位职称备注 际树叶1 华尔师范大学1 算机系教授答辩蚕员会主席 杨未游华采彝范大学计算撬系籁攫 下新伟 华东师范大学训算机系剐教授 学位论文独创性声明 本人所呈交的学饿论文是我在导师的指导下进行的研究工作及取得的研究成果。 据我爨懿,除文孛已经注鞠g 薅麴内容癸,本论文不链含箕 蠹个入已经发表袋撰写遂 的研究成果。对本文的研究做出重鬃贡献的个人釉集体,均已柱文中作了明确说明并 表示谢意。 作者签名:宴i 漕露 ,目期:狮j :多 学位论文使用授权声明 本人完全了解华东题范大学存荧保留、使用学位论文豹靓意,学援有投保整学位 论文势向啻家主管部门或箕指定枫褥送交论文静电子舨和纸餍敝。有权将学位论文用 于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。谢权将学位论文的内容 编入有篾数据库进行检索。有权将举位论文的标趱和摘要汇编出舨。慑密的举位论文 在解密菇适霜本蕊定。 学蕴论文豫纛签名:二i 己滴。妻;+ 日期:w j 2 弓 一褒:力圣呶 日期:硼r 1 对利用边界标矩自动机进行文档图像分析的研究第章研究背景鼓研究内容 第一章研究背景及研究内容 1 1 研究背景及意义 光学字符识别( o p t i c a lc h a r a c t e rr e c o g n i t i o n o c r ) 是目前在金融、保险、税 务、印刷、邮政等众多领域广为应用的一项数字技术。它通过扫描、摄像等光学输入方 式将报刊、书籍、文稿、各种印刷品以及手写文档转化为图像信息,再利用文宁识别技 术将图像信息转化为训算机可以直接处理的宁符数据和格式信息。o c r 技术作为数字图 像处理的一种重要席用及该研究领域的一个重要分支,涉及模式识别、数字信号处理、 自然语言理解、人t 智能、模糊数学、信息沦、计算机、字符信息处理等多门学科,具 有很强的综合性。o c r 在信息处理、办公自动化、机器翻译、人工智能等高技术领域, 都有着重要的实用价值和理论意义,并为纸质媒体信息的计算机输入提供了一种有效的 解决办法。在过去的近半个世纪里,经过众多学者的不懈努力,o c r 技术取得了长足的 进展。很多领域里,文档的自动录入和信息识别代替了人工操作,大大减轻了人们的负 担,提高了劳动效率。 文档图像是指由纸质文档经图像获取设备( 如扫描仪、数码相机等) 转化而成的图 像,主要包含文宁,通常情况下还会包含图形、图像、表格等内容。对文档图像进行分 析包括对图像倾斜角度的探测、版血分析和对图像中各宁符连通体几何特征的提取等多 方面,它是o c r 系统真正开始字符识别的预前t 作,其分析效果的好坏直接影响整个系 统的识别率。一方血,由于受人为冈素和图像获取设备机械误差的影响,纸质文档通过 图像获取设备转化为文档图像时小可避免地会存在一定的倾斜角度;另一方面,各种文 档的版面结构灵活多样,而只有通过版面分析对版面结构有了正确理解才可能对整个文 档进行正确的识别;再一方面,对每个字符或粘连宁符所在连通体的几何特征的正确把 握,是正确进行行字切割、区分文字和图形符号以及辅助字体识别的基础。因此,对图 像进行正确的倾斜校正并在此基础上进行对版面的正确分析,和对图像中各字符连通体 几何特征的充分提取,将在很大程度上保证o c r 系统的工作性能,从而有效缓解例络时 代大量纸质文档信息上l 叫难的闯题,并为办公自动化的更优实现提供强有力的支持。 1 2 文档图像分析的研究现状 1 2 1 图像倾斜角度探测 口前实现文档图像倾斜角度探测的方法主要有如下五类:基于投影的方法,基于 h o u g h 变换的方法,基于交叉相关性的方法,基于f o u r i e r 变换的方法和k _ 最近邻法。 对利用边界标定自动机进干了_ 文档幽像舒折的研究第幸研究背景及研究内容 l ) 基于投影的方法:先沿若丁指定方向投影得到若干投影图,再根据这些投影 图的某些特征,如均方差、第一特征矢量以及梯度等的统计特性来求得文本倾 斜角。这种方法的缺点是,由于需要对整个图像统讲特征值,因此c 十算量和复 杂度都较高。 2 ) 基于h o u g h 变换的方法”:先提取文本行中的一些点,利用h o u g h 变换将这些 点拟合成若t 直线,同时得到这些直线所对应的角度,再根据这些角度的分布 情况估训。出文档图像的倾斜角。由于基本b o u g h 算法计算量非常大,因此产生 了些专门用于倾斜角榆测的b o u g h 变换改进算法。 3 ) 交叉相关性算法是通过获取等距离的紧直( 或水平) 半行线上像素点的相关性来 探测文档图像倾斜角度的方法。 4 ) f o u r i e r 变换的方法:主要利用了页面倾角对应于使f o u r i e r 空间密度最大的 方向角这一特性。由于需要将文档图像的所有像素点进行f o u r i e r 变换,计算 量非常大,所以日前很少采用。 5 ) k 最近邻( k _ n e a r e s tn e i g h b o rk n n ) 法”5 “:先找出所有连通区的中心点,然后 从中找出最近邻的k 对,计算每对近邻点的矢量方向并统计生成直方图,直方 图的峰值就对应于整个页面的倾角。 以上五类方法除k 最近邻法外,均有其固有的缺点,即只能应用于算法定义的特 定类型的文档图像,对版面结构复杂、含多种字体和字号,以及有大量图片和表格的图 像,这些方法都小能正确探测得到图像的倾斜角度。而k 最近邻法也有其不足之处, 除计算量大以外,对倾斜角度过大的情况,串行汁算最近邻对的情况也会影响最后计算 结果的准确性。 1 2 2 文档图像版面分析 在实现文档图像版面分析方面,目前流行将算法分为基于形状和基于纹理两类。 其中,基于形状的版面分析算法又可继续细分为自顶向下、自底向上、混合法三类: 自项向下的方法从版面的全局特征开始,一个页面首先分割成几个大的区域,然后每个 区域再递归分割成子区域:自底向上的方法从像素点开始,将相邻的部分根据局部特征 的相似性合并成为一个小区域,小区域再连续地合并为大区域;混合法则是将两种方法 结合起来。这类方法的主要缺点是很大程度地依赖于特殊的规则和经验性的阈值,对日 益复杂的版面格式的适应性较差。 基于纹理的方法的主要思路是将图像看作是一些具有小同纹理的区域的组合。山予 文本中具有一系列相同方i 的文奉行,行中具有一系列大小基本一致的字符,这种相对 对利用边界标足自动机进行文档幽像分析的研究第帝研究背景欲研究内容 一致的纹理特性完全叫i 同于图像,冈此可以用来进行版面分析。这类算法近来得到了比 较大的发展,但日前基奉上还处于研究阶段。 i 2 3 几何特征提取 这里所说的几何特征是指目标对象所在的图像区域的几何特征,包括大小、位置和 方i 等”l 。几何特征提取一般是就二值图像而言,即只有两个灰度级的图像,它可以通 过适当地分割灰度图像得到。灰度图像是指图像中每个像素的红绿蓝三个分量的比值相 同的数字图像,而图像分割就是指把图像划分成区域的过程“7 f 。 一幅数字图像在计算机当中用一个二维点阵b i ,j 来表示,对二值图像而言,每个 点的值只有0 和1 两种情况。目标对象所在图像区域内的点一般用1 表示,背景区域的 像素点一般用0 表示,即: r1像素点( i ,j ) 在口标对象所在的图像区域内 呲j 2l 0 宾占 于是,对于一幅大小为mx ”的图像,目标对象所在图像区域的大小可以通过下式 给出: a = b 【i ,j i :t 标对象的位置一般用它的中心点的坐标来表示,中心点( x ,y ) 的位置可以通 过下式求得: x b 【i ,j j b i ,j l i b 【i ,j i = 0 1 = 0 日标对象的方向被定义为与其长轴的方向一致,通常,二维平面上与最小惯量轴同 方向的最小二阶矩轴被定为长轴。图像中日标对象的二阶矩轴就是对象上的全部点到其 距离的平方利最小的直线。有了这一定义,通过数学运算,可求出惯性轴的方向表达式 如下: s i n 2 臼= _! b2 + ( a c ) 2 c o s 2 曰= _ ! :! b2 + ( ac ) 2 其中,参数a ,b ,c 的表达式为 b 印m y 对利用地择标定臼动机进行宠档幽像分析的研究第章研究背景艘研究内容 a = ( x 。一i ) 2 b i ,j 】 in i b = 2 ( x # 一习( y 。一y - ) b i ,j 】 i = o j = o l n i c = ( y 扩y ) 2 b i ,j 1 i = 0 j = o 以土袭达式双数学谤舅的角度对塑稼中日标对象翡太小、位邈秘方自给嫩了严格定 义,在嶷鞲应蠲中可既有巧i 两的实现方法,掘本论文穗要介绍的秘籍边赛禄定叠动祝进 行图像睡域几何特征掇取的方法就建其中的一种。 l 。3 论文的主要内容、贡献及创新点 1 3 1 主要内容 本文从结构上主要分为二部分,第一部分包含第一章,主要是对文档图像分析的研 究背景、璇装及像者掰 乍嫒究懿内容与意义俘筵囊翕缓;第二豁分主要套绍拳舞法繇使 用的自动机技术,包括顶点链编码和边界标定自动机两章:第二部分分别从倾斜校正、 版面分折和连通体几何特征提取三方哑,详细讲述了作者对边擀标定自动机在文档图像 分析中的席_ 珥j 所作的讲究。 1 3 。2 贡献 本论文的贡献在于提出了一种新的探测文档图像倾斜角度的思路,即通过在文档图 像中查找簸长文本 亍,著根据最长文本行中每个字符连通馋对应瓣特短点利爆譬捧回归 法进行倾斜角度掇合来求取整个图像的倾斜角度。作者利用边并标定自动机的运行祝 制,使自动机在生成每个连通体的边界链编码的同时,输出其所在的最小外援矩形,把 对大量像素点的处理阅题转换为对糟于矩形的处理问题,这些矩形在数量上茹于控制, 在意义l 二饯表每一个遴逶蒋。进行文本毒亍翔蘩之 l 孽,奉算法还宓羹入7 怼生成瓣辨接矩形 进行分析整理的操作,以排除噪声点、粘连宁符莘“断裂字符的t 扰,使外接斑形和完整 的宁符更接近一一对戍,从而保证了最后探测结果的准确性。经实验证明,奉算法的探 测结果在文档图像中确大量表据、图片、公式等姻情况下币受影响,所以本算法相对其 谴算法舆有受广懿适掰往和普棒瞧。 奉文的贡献还在于对游长平滑处理庶用于版面分析作了一定程度的研究,提出了先 通过自动机标定,生成所有连通体的外接矩形,辩利用直方图进行长度区域统玑分析 褥出文辎中亨骛的半均蠢疰窝宽蹙,然嚣缮出进孑亍承平秘努妻方囱游长孚器懿理兹参数 4 对利用边界标定自动机进亍_ 文档幽像分析的斜究 第常研究背景及讲究内容 一一 值。半滑处理后再次调用自动机对新生成的图像进行标定,输出的外接矩形经过合并整 理等操作后即可作为版面块信息输出。 另外,利用边界标定自动机生成的连通体的顶点链编码提取连通体的各种几何特 征,也属于在图像几何特征提取上的种新的实现方法a 1 3 3 创新点 】) 提出了通过查找文档图像中的最长文本行,并利用鲁棒回归法对最长文本行中的特 征点进行拟合以探测整个文档图像的倾斜角度的算法。 2 1 将游长平滑处理麻用到了版血分析,结合边界标定自动机,通过对平滑处理前后原 图利新图的标定,分析得出文档图像的版血结构。 3 ) 对标定生成的矩形序列,通过直方图统玑分析得出文档图像中亨符的平均高度平u 宽度,并据此准确实现文本行判断。这一算法4 i 仅戍用于本文介绍的最长文本行查 找,还戍用到了对复杂版面结构中各分栏所在舨商块的定位上。 4 ) 提出并实现了利用边界标定机生成的顶点链编码提取图像中连通体的几何特征的 新算法。 对秘霜毽嚣稼霆基动帮l 进露文档蟹攮静辑翡磅炎 第_ 毒臻点链缟羁技术 笫二章顶点链编码技术 潮慷编码是一颂罐要的数字圈像处理技术,蒸秘的主要怒实现图像压缩,也就是 用爆可能少的代码表示尽可能多的图像信息。本章所要论述的顶点链编码并硝;属于图像 编码压缩的范畴,而是一种模式识别拨术。它仅能应用于二值图像,主要是对图像中的 黑叁边器避行蠹定,撅定生戏戆璎点链缡羁其有缀多侥盘将往,剽瑁这些特性可以方蠖 地对所标定的目标对象的多项特征进行提取,并相应对目标对象进行分类,最终达到模 式识别的日的。 2 1 顶点链编码 二傻图像的链编码表示方法出h ,f r e e m a n 于1 9 6 t 年最早掇出”,在f r e e m a n 之 嚣又骞多季孛链编跨方寨狡相缝摄出“j ”2 ,1 9 9 9 年b r i b i e s c a 援毫款项点链编码 ( v e r t e xc h a i nc o d e ,简称v c c ) 就是其中之”j 。由于对于2 2 维数字图像,只有正 二边形、正方形和正六边形能铺满平面,冈此从数字图像中相邻像素间的位簧关系来看 h 可能梅二车孛二维图像。链编码的攀本思想是:先用莱种规则的单元格将平蕊镳满( 单 元据可以蹩正方形、霰三蕉形、正六边形,每一个单元禧裁是瀚像中的一个像素) ,然 后对嗣标图像边界上的每一个像素根据与之相连的像素的情况避行编码。从图像边界上 的任意一个像素开始,按一定的方向( 顺时针方向戚逆时针方向) 沿着图像边界走一圈, 姣序憋艇舂像素点的编璐记录下来,聪形成鲶廖列耱是该墨像的链编码。链缡羁可酷盎 所标定对象边并上每个像素的边骈对应的码依序缀成,也可以出边界上每个像素的顶点 所对虑的码组成,利用像素点的边进行标定的链编码称为边界链编码,利用顶点标定的 就是顶点链编码,下砸对三种单元格对应情况下图像的顶点链编码的生成规则分别作介 绍。 以工e 方形铺满平呖的情况为捌,图像边界上像素顶点的情况只有如图2 1 所示的 二种,分别以数宁1 、2 、3 标记这= 二种情况。 砑1 砺2织 圈2 1 正方形点阵巾图像边界上像素顶点的三三种情况 于是获褥顶点镳编码兹过程霹以攒透为:鲻矮戳熬正方澎霹转久懿二壤图像送行 离散处瑷,从目标对象边界上的某个像素顶点开始,按顺时针或逆时针韵方i 句沿着目标 对象的边界走一圈,对经过的每个像素顶点对照上图所示的对应关系输出一个数字,回 到原出发点时标定完成,所得到的一串输出数宁就是该目标对象的顶点链编蝎。 对利用地界标定自动机进行文档图像分析的料懿 第一章顶点链编码技术 翔辎2 ,2 孛( a 怒努摇输入静二僮图像,( b ) 跫这个图像离数亿后褥虱豹区壤,跌 像素顶点p 出发,按逆时针方向绕嘲像边界走一阁,对途经的繇个像素顶点依序标定, 如图中( c ) ,最后得到的顶点链编码如( d ) 所示,( x 。y 。,) 是像素p 的坐标。 l3l _ _ 2 一 33 3 f 23 t 2 1 ,硒) 1 2 1 3 2 12 1 3 1 1 3 3 2 1 13 1 3 1 1 2 3 2 图22 正方形点阵中图像区域的顶点链编码 同理,对于用正兰边彤和正六边形糖满平赠的情况“,馁选謦像,对其蕊散化后 的区竣边舞遂 亍标定,缩采如鹫2 。3 所示: 辘a 鼬= 麓辫豫 ( x 。,对1 5 2 2 3 1 4 5 2 1 4 1 5 1 2 4 3 2 爨潆寓教他蜃撼捌豹区域殛墓对蔽豹璜点接编羁 ( x 。,茹1 2 1 1 2 2 1 1 1 1 2 2 2 2 1 1 1 1 2 1 1 2 2 1 2 1 1 1 2 2 l 输 的二值国博图像离散化后锑刹的区域厦萁对磨的顶点涟编码 圈2 3 正二边形和难六边形点阵中嬲像区域的顶点链编码 包括硕点链编码在内的多种链编码方案在对目标对象提取特征方面,器有和弊。 对利用边界标定自动机进千亍文档幽像分析的研究第一章顶点链编码技术 例如,b r i b i e s c a 顶点链编码对日标对象边界周长的计算最为方便,就等于链的长度, 即组成链的码的个数,但对区域面积的计算就远为复杂:利用f r e e m a n 链编码,则较容 易计算图像的一阶矩、二阶矩;利用m e r r ii l 链编码,可以方便地确定某一点是否在区 域之中。冈此如何在各种不同的链编码之间建立变换关系,以充分利用彳i 同链编码的优 点,成为链编码理论和应用研究中的一个重要问题。 2 2 顶点链编码的特性 顶点链编码是从任意一个像素开始按一定的方i 旬将图像边界上所有像素顶点的编 码依序连接起来构成的序列,冈为图像边界是有限而且封闭的,所以顶点链编码实际上 是一个环,与从哪一个像素开始编码没有关系。冈此,如果对图像进行旋转或映射变换, 图像的顶点链编码0 i 变( 如果吖i 考虑位置属性,标定起始位置像素的坐标可以先忽略) 。 图24 中( a ) 为一离散化后的图像区域和它对应的v c c , ( b ) 为该图像按逆时针方l 句 旋转9 0 度后的图像区域及其对应的v c c 。由此可见,顶点链编码不随图像在平面内的 旋转而改变,我们称这一特性为顶点链编码的旋转独立性。 1 1 2 3 2 1 2 1 3 2 1 2 1 3 1 1 3 3 2 1 i 3 1 3 ( a ) _ :13 1l ; 2i 33 2 1 2 3 1 1 2 3 2 1 2 1 3 2 1 2 1 3 1 1 3 3 2 1 1 3 1 3 ( b ) 图24 旋转独立性 顶点链编码还具有映射变换独立性,图2 5 中( a ) 为一离散化后的图像区域及其 对应的v c c ,( b ) 为该图像水平翻转后所得的映射图像所在区域及其对应的v c c ,显然, 如果相府调整标定时绕图像边界行走的方向,则顶点链编码4 i 随图像的映射而改变。 对利用边界标定自动机进行文档幽像分析的研究 第一章顶点链编码技术 11 13 l _ _ 一 j r -33 23 1 3 2 121 11 11 、。厂1 3 j 3 2 2 23 1 0 1 1 2 3 2 12 1 3 2 12 1 3 1 1 3 3 2 1 1 3 1 3 1 1 2 3 2 1 2 1 3 2 1 2 1 3 1 i 3 3 2 1 1 3 1 3 ( a )( b ) 图2 5 映射变换独立性 顶点链编码对于图像边界的标定是完备的,即我们可以直接利用顶点链编码而无需 将图像转换到笛卡尔坐标系中去计算图像的面积、图像边界上任意两点之间的距离等特 征值。关于利用顶点链编码计算图像面积和边界上任意两点之间距离的方法将在本文第 六章讲述。 霹秘霜迭辨拣建叠动孝l 进行文楼嚣攮势辑懿辑究第兰章边葬檬定垂露撬 第三章边界标定自动机 顶点链编码把二维图像的存储釉处理变为一缎链上的闽题,且对于大只魔的图像, 链编码可以大幅度地节省存储空阃并提高处理速度,加上它的旋转不变性利映射小变性 等优良特性,使得项点链编码成为数字图像处理领域的重要工具。奉章将介绍通过区域 边赛舔定整动撬耋动获褥f i 蠢对象壤点链编羁熬黪法,该算法对撰动瑗点链缡玛在图像 处理领域的应用,起到了重要 乍用。 3 1 正方形点阵二篷鎏像豹标定 所谓正方形点阵二值图像,就是前面提到的用正方形铺满平面的二值图像。在正 方形点阵中,像素的邻接方式有两种:( i ) 八近邻,认为每一单元格与其周闱的八个单 元格赘穗罄;( 2 ) 强i 露邻,谈为每一潼元揍冀与冀上下左袁鞫个攀元穆稿邻。j l 李予露3 。l 所示的睡域在八近邻方式中,两个黑像素是邻接的,所以图中只有一个区城;而在四 近邻方试中,两个黑像素小相邻接,冈此有两个隧域。 銎3 i 下嘶将分别介绍按两种邻接方式对二值图像进行标定的算法7 ”。 3 。1 1 鞠近邻图像隧域的标定 0 i 妨规定自动机缀逆时针的方向行走,被标定区域的边界为黑色像素。于是自动机 的当前位置、前一时刻的位置和被标定区域的边界点之间只有如下图所示的凹种位置关 系,以状态a 、状态8 、状态c 和状态d 标识这四种位置关系,则这四种状态就是正方 形点终酝域标定垂动枫靛内部获态篾台,魏壅3 2 联示。 卣l 囝p日 a bc d 图32 正方形点鼬区域标定自动机的内部状态壤 表示蠡动极的当裁位鼹,蓑头( 一t 一 ) 表示前一时刻自动机的位置,簸头方向表 0 对利用边界标斑自动机进行文档剧像分析的研究 第兰三章边界标斑自动机 示行走的方向,我们约定用i 、2 、3 、4 四个数字分别夜示水平向右、竖直f 叫上、水平向 左秘餐壹岛下这蹬稀幸亍走豹方淘。 对于上砸的任何一种位置关系,需要分析当前位霞周围5 个单元格是否为照色像 素。经研究,我 j x 需要考虑箕中一种位置关系的所有缀合,即可实现边器标定。以状 态a 为例,h 可能出现图3 3 所示的六种组合关系,即状态映射关系。 器岭阴嚣岭器囝专器 a l 固国 圆 日哮圈盟岭圈置岭留 圉圆 a 6 圈 圈3 3 最方形点阵中自动机的状态映射关系 图中,大箭头左边跫鸯动税餐鲞蘩获态鞠吾静输入,右边是翅袭梳下一对掰的状态,小 方框内的数字串是作为自动机的输出的顶点链编码子串。 飙圉中可以看国,输浅链编鸦子串所含的鹳个数就等于裔动机走过的区域边獬像素 的顶点个数。对任一连通馋,从其边界上的任一像素点开始标定,记录下开始时的像素 坐标和开始时的方向,沿蔷边界走一圈,对应上面介绍的四种状态和每种状态的六种映 射关系,把每次生成的硪点链编码子串侬序记蒙下来,当标定自动机又回到起始像素点 且方向也和开始标定时的样时,标定结束,得到的链编码就是该连通体边界的顶点链 绽弱。由此也缀容爨看出,项点链编码的玛个数( 也就是顼点链壤码蛇长发) 就等于连 通体边界上的像素个数。 掘国3 。4 ,黑色为德标定幻嚣域,羧匿近邻醵邻臻方式粼赣,强孛舂蕊个连遥钵。 由于图像在计算机中是从图像的左下角开始存储,所以对图中的两个连通体,自动机会 分嗣在鼙中标注为1 帮2 豹豫豢点楚讽为到达了区域边器,势分饕飘这两令像素赢楚开 始对这两个连通体进行标定。 图3 。4 镑标定豹銎稼区壤 从标注为1 的像素点开始标定的情况( 按逆时针方自进行标定) :由予要确定开始 对利用边界桥定自动机进行文梢幽像分析的斜巍第二章边界标定自动机 标定时瓤动税韵方目,整凌祝蠢;把舔注为i 醵豫豢点记录馥朗媳点,嚣会根据与其赣邻 的边界像素点及逆时针方向上下一个边界像素点的位置关系,确定标定时的初始方l 句为 水平柚右,同时自动机移到下一适当位置,即标注为3 的像素点处。所以,标注为3 的像素点才是基动极会记录下来的拐始拣定点,翅始拣定豹方向为承乎向右。这时鱼动 棍的状态为图3 ,3 中的a 2 ,报据睫麓表,下时刻鲁动梳赢在标注为4 的像豢点处, 同时输出链编码子串”2 ”;在标注为4 的像素点处,自动机的状态为图3 3 中的a l ,根 据映射表,下一时刻融动机鹿在标注为5 的像素点处,且输出链编码子串为”】”;在标 洼为5 豹像素点处,蠡魂橇靛获态为b l ,摄挺浚磐表炎接,下一时亥l 垂动规疲在拣注 为6 的像素点处,且输出链编码予率为”i ”:如此继续,当自动机又回到标注为i 的像 素点处时,其状态为圈3 3 所示的a 2 ,根据映射袋,自动机下时刻回到标注为3 的 像素点她,并输出子宰”2 ”,由于秘动机判断出当褥位置就是其所记录的开始标定时的 位重,晨既对的标定方目也是隶半| 鼋右,与开始标定时记录匏方向稳强,蕺以绫寒标定, 最后的输出为”( x ,y 。i ,1 8 ) 2 1 1 2 3 2 3 2 1 1 2 2 1 2 2 2 1 2 ”,这就是图中第一个连通体的外边 界顶点链编码,其中孛苦号内的x ,和y ,分别代表扁始像素的横纵废标,括号内的i 表示 秀始标志瓣豹方| 匀是承乎翔右,括号蠹的1 8 表示镶编码的长度为1 8 个码馕。阉理,自 动机将献标注为2 鹊像素点处对第二个连通体避行标定,标定络栗为”( y 。,i ,3 2 ) i 3 2 2 2 2 2 i 2 2 2 2 1 2 1 1 3 2 2 3 3 i 1 3 2 3 1 1 3 】2 ”。 3 1 。l ,近邻图像酝域的标定 同样先规定自动机的行走方i 柚为逆时针,自动机的内部状态集仍旧是上一小节圉 3 。2 所示躲4 嵇。根据链缡码的旋转4 i 变性,还是可以只礤究其中一莩中位置关系躲状态 映射情搅,这里仍暇以状态a 为僦。图3 5 为八近邻标定自动机在状态a 下的所有状态 映射和输出映射情况: 器睁口器岭器囝哮器 a 1 阅 a 2 圆 a 3 圈 禺岭翮器专圈器令阴 国 a 5 圃 銎3 ,5a 避镄萤像蔽态映射稻辕赘羲射 囤 对利用边界标定自动机进行文档图像分析的研巍 第二章边界标定自动机 对予,近邻标定舞动梳,图3 6 中( 1 ) 瘊示的a 、b 两种耩况都对应,l :阁中的a 3 状态,而对于四近邻标定自动机,只有b 对应为上闰所示的状态a 3 ,情况a 将对应于 图3 ,5 中的状态a l 。间理有四近邻和八近邻标定自动机对应图3 6 中( 2 ) 、 ( 3 ) 、 ( 4 ) 二秘德嚣在、捩态a 4 、a 5 、煺上豹差异。 圈圈百围 8 f 1 ) b 昏留盈腰留盈 b o ( 4 图3 6 八近邻标定自动机和四近邻标定自动机在状态姨射上的差异 八近邻标定自动机和四近邻标定自动机一样,运行时也是先探测到黑色区域边缘, 献边缘袋一豫豢开始嘲绕黑色区域爱圈,甄没舂重复也没有跷疑,回到开憝糠定兹那 个像素时就完成了标定。仍 匿以图3 4 为例,辩八近邻自动枫谳言,图中只有一个连通 体,标定机走到标注为l 的像素时开始标定:荫。先按逆时针方向找到连通体下边界像 素的位鼹,判断出初始标定方向为水平向右,同时自动机移动到阁中标注为3 的像素处, 记录秘瓣标定熬稼索( 拣注为3 瓣豫素) 器孛嚣始豁定时兹方彝 瘩平囱砉) :这露鑫动 机的状态对应为上图所示的a 2 ,根据映射表,下时刻自动机应在标注为4 的像素处, 同时输融链编码予串”2 ”;在标注为4 的像素处,翻动机的状态对应为图3 5 所示的a l , 根捌峡射表,下一时刻自动规在标波为5 的像素处,且输出链编码子串为“l ”:在标注为 5 酶豫索处,鸯动瓿的状态为b 5 ,嘏据映射表类攘,下一对亥l 鑫动撬麻在标注为2 静像 素处,i ! l 输出链编码子串为”3 3 1 ”:如此继续,当自动机又回到标注为1 的像索时,其状 态为图3 5 所示的a 2 ,根据映射裘,自动机下一时刻回到标注为3 的像素处,并输出 子串”2 ”,窭= | 予垂动撬潮氍基当蓠搜嚣裁是其酝记录数开始标定瓣的位置,藏魏薅兹耘 定方f 两也是水平l 沁右,与开始标定时记录的方向相同,所隧结束标定,最感的输出为 ”( b ,y 。1 3 8 ) 2 1 3 3 1 2 1 1 3 2 2 2 2 2 1 2 2 2 2 1 2 1 1 3 2 2 3 3 1 3 2 2 1 2 2 2 1 2 ”。 3 2 正三边形点阵二值图像的标定 在正三边形点黪的图像中,边箨点、自动机的当前位置和囱动机前一时刻黪位置有 图3 ? 蕊示静六嵇鞠苴关系,它们枣棼成正三透形点阵下透赛橡定蠡魂橇嚣蠢灏获态集。 对利用边界标定自动机进干j _ 文档例像分析的研究 第二章地羿标定自动机 兰7 a 疋 &弓扩 碍 b c d e f 鄹37 正一边形点黯下边界标定自动机的内部状态巢 x 表示自动机的当前位拦,箭头( 一 一1 ) 表示前一时刻自动机的位置,箭头方向表 示行走的方l _ ( 逆时针方向) 。 对于上癌任何一季孛位置关系,霪爰分掇自动机当蓊位置周嗣7 个单元格是否为黑色 豫素。横据顶点篷编玛的旋转不变穗,我船只需簧考虑其中一释位置关系豹所存缀合, 即可实现边界标定。以状态a 为例i - i 可能出现豳3 8 所示的八种状态映射关系。 。验鸯霹j 冬蔓每每v 畦? 、 a l 溺 氅鸯叁 a s 日 a 6 瑚a t : 8f 蕊 磁y 奄 图3 8 正边形j7 眸下选辨标定自动机的状态迁移映射祁输出映射 箭头左边楚垂动辊的尚蘸状态,蓊头右边是鲁动税下一时刻的妖态,小方梃肉的数字串 是作为自动机的输出的顶点链编码子串。 有了状态迁移映射和输出映射,对正三边形点阵中图像的边界标定就可阻和在正四 边形点簿孛露豫豹边箨标定一样避行了。 3 3 正六边形点阵二值图像的标定 对予正六边形点眸中的图像,鑫动槐的当前姣态、前一时瓤鞠状态和边群点有六释 小同的组合。图3 9 给出了正六边形的边界标定融动机的内部状态集。 j 峨j 霜净i , a c def 鞠3 。9 歪六边形翻攮边器标定囊动橇的蠢部、拔态集合 对利用地抖标定自动机进行文档幽像分析的研究第二章边界标定自动机 表示交勰棍静考蘸位黉,蓊头( 一 一;) 表承骜一时蘩壳稼靛位差,麓头方l 逮表示 行走的方向( 逆时针方向) 。状态a ,b ,c ,d ,e ,f 构成了自动机的内部状态集合。 仍然以状态a 为例,来考虑不同输入时,自动机的状态迁移和输出殃射。圈3 1 0 是委六边影霾檬边赛掇定整动规麴蕊零图。大翁头友嚣是获态a 秘嚣静鼍i 嗣懿辘入,簧 头右边怒下一时刻自动机的状态,方框中的数字串就是作为系统输出的正六边形图形的 顶点链编码。由对称性可以给出其余五个状态下的状态迁移映射和输出映射。 j ? a 2l 至上 参i ,_ 图3 1 0 正六边形图像边辨标定自动机妁状态迁移驶射羊u 输出映射 簸头左边是自动橇的当前状态秘各种输入,箭头右边是宣动机下一时刻的状态,小 方框内的数宁串是作为自动机的输出的顶点链编码子串。 对利用边界标定自动机进行文档剀像分析的研究第叫章利用边界标定自耐j + j t 进行文档图像倾斜校旷 第四章利用边界标定自动机进行文档图像倾 斜校正 如前面第一章所述,现有的五种计算文档图像倾斜角度的算法均有其固有的缺点 基于投影的方法、基于h o u g h 变换的方法、基于交叉相关性的方法和基于f o u r i e r 变换 的方法只适用于某些特殊类型的文档图像,对于版面结构复杂、含有多种字体和字号、 倾剁角度任意( 即不在约定的较小范围内) 、非文本区域( 如表格和图像) 占很高比例 的图像,这些方法都4 i 能正确地探测出倾斜角度。k 一最近邻法虽然相对其它方法适用面 吏广,但其训算精度也随k 取值的大小而变化,k 取值越大求出的倾斜角度越贴近真实 值,但随着k 值的增大计算量也随之成倍增加。本章将介绍的利用自动标定机探测文 档图像倾斜角度的方法,比较类似卜最近邻法,因为本算法的第一个步骤也是对文档 图像中的所有连通体进行标定,但后续的步骤是进行对文本行的判断,并根据找到的最 长文奉行( 即含连通体个数最多的文本行) 使用鲁棒回归法进行拟和,从而求出文档图 像的倾斜角度,所以本算法在基本思路上仍旧有异于k 一最近邻法,并在文本行判断上 有其独特之处。 由于本算法是根据最长文本行进行倾斜角度拟合计算,所以对含有大量图片、公式 利表格的情况,只要图像中有较长的文本行,探测的结果仍将非常准确。另外,对含有 带边框的图片和( 或) 表格的图像,还可以利用边界标定自动机标定生成的链编码找到 表格或图片边框的四个顶点,并据此计算出图像的倾斜角度,所以,利用边界标定自动 机可以对各种不同类型的文档图像有针对性地分别处理,实现对文档图像倾斜角度高效 准确的拟合汁算。 利用边界标定自动机进行文档图像倾斜校正的算法思路如下图( 图4 1 ) 所示: :值化莲薯荠饕 孽昔嫠丈一同稠旦阿荪蕊丽丽稠兰翌一 三压丽丽 l 塑竺垩丝兰| 僦一匝固竺匦圜噬捶 i 所有连通 图41 利用边界标定自动机进行文档图像倾斜校正的算法思路 奉论文仅介绍根据最长文本行利用鲁棒回归法拟合倾斜角度的算法,对利用标定自 动机进行表格图像倾斜角度探测的算法请参见 2 1 、 2 2 。 对利用地界标定自动机进行文档幽像分析的 f f 巍 第四章利用边界标嫩自动机进行文档嘲像倾斜校币 4 1 鏊本缀理 o c r 系统对文档图像进行识别之前必须先对图像进行二值化处理,日的是勾勒出宁 符的诗絮,扶两提取文件中的信息。二值化后的文档圈豫由一霆数量的连通体镌戏“, 每个连淹俸可能对癍一个完整的字符,也可蘸对魔个字符匏部分,或对应赢若干个字 符粘连在一起构成的粘连宁符,如柴原图像中包龠有图形、表格等内容,则二值化图像 中的连通体还会对应相麻的图形和表格,如图4 2 。 二、 卜,。 永 。鼢一 、x 。鼍x 掇硭 ca t i o i ) 凸 匿 粘连宇符 完整的字符 图4 2 连遂 奉豹多种对成情况 连通体的中心是描连通体所在的最小外接矩形的中心,本文将连通体所在的最小外 接矩形定义为由该连通体外边界上所有像素( x ,y ) 中的最大、最小坐标值确定的矩形, e p r e c t ( 鞴。,y 。,甄。) ,其中心点为pc e n t e r ( ( x 。,+ 。) 2 ,( y m i n + y m a x ) 2 ) ,如 匿4 s 骈示。在k 一最近邻算法中,蕊连遂体之间的距离藏等于4 鼓稍吾自的中心点之阉静 距离。在举文所要介缁的倾斜角度探测算法中,l i 使用连通体的中心,而使用连通体最 小外接嫩形的左下角顶点p b o t t o m l e f t ( 。y 。) 进行倾角拟台训算。 y x m l “ x 只的符字面n !囵 _ 一 一 m,。t。十,:,。;。,tl z a 对利用边界标定自动机进行文档图像分析的研究 第叫章利用边界标定自动机进行文档图像倾斜棱雨 图4 3 连同体的摄小外接矩形及中心 对绝大多数文档图像而言,文档图像中字符对应的连通体占绝对数量,大量具有一 定方向走向的文宁行利直线为我们探测文档图像的倾斜角度提供了可能”4 ” 。当文档图 像存在倾斜时,这些文字行的倾斜角度即代表了文档图像的倾斜角度。所以,可以通过 计算文宁行的倾斜角度间接得到整幅文档图像的倾斜角度。这也正是本文所要介绍的算 法的基奉思想所在,大体的算法策略是,先按照一定的判定机制查找文字行,然后仅对 包含最多连通体的文宁行( 即最长文宁行) 进行处理,处理方法是使用鲁棒回归法对该 文奉行中所有连通体的左下角顶点进行拟合,拟合得到的直线倾角就是所要求取的文档 图像的倾斜角度。 4 2 边界标定 本文介绍的算法采用正方形点阵对输入的二值图像进行离散化操作,并使用八近邻 标定自动机对图像区域进行标定( 后面章节皆同) 。自动标定机从图像的左下角开始逐 行扫描,当遇到黑色像素时就认为处于一连通体边界,并开始根据前面介绍的输出及状 态映射关系对该连通体进行标定,即根据当前所在像素位置、此时的标定方向、相关黑 色像素的位置来判断下一时刻标定机的位置及链编码输出。这里可以把标定机视为按照 前血介绍的输出和状态映射表进行移动的大小为一个像素的光标,这个光标沿着标定对 象的边界每走一步就相麻输出一段码值,当它回到开始位置时,对当前连通体的标定结 束,所有输出的码值依序连接起来就是该连通体的顶点链编码。 由于自动机在标定过程中具有位置属性,冈此可以在标定的同时通过执行简单的比 较利记录,在结束标定时得到该连通体所有边界像素的最小横坐标x 。最小纵坐标y 。, 最大横坐标x 。和最大纵坐标y 。,从而确定该连通体的最小外接矩形r e c t ( x 。y 。x 。, y 。、) 。 这样,肖标定机沿着一个连通体的外边界行走一圈结束时,能同时生成这个连通体 的顶点链编码和所在外接矩形。为标定需要,标定结束时自动机还会在其所有走过的标 定点处作红色标定,也就是沿被标定连通体的外边界再标一层宽度为一个像素的红色描 边。这样,当前连通体的标定结束后,标定自动机从结束点处继续对图像进行扫描,走 到红色描边里面时小进行标定,走到红色描边外后继续探测还没有被标定的连通体的外 边界,如果探测到则根据自动机的输出和状态迁移映射继续进行标定。当自动机一直走 到图像的右上角时,对整个图像的标定结束,自动机的输出为图像中所有连通体的顶点 链编码利外接矩形。图4 4 是对一倾斜文本图像进行边界标定所得结果的示例: 对利用地羿标逛自动机进行殳梢幽像分析的斜究 擀带利用边界桥砖自动机进行文档幽像倾斜校矿 1 蕊面莓一1 ( a ) 原图 ( b ) 莲道体的描边 ( c ) 生成的外接矩形 ( r - 2 l 仉h - 1 1 5 ,c o u n t e r = 9 ) ( x = i 帕,y = 2 2 ,d i r = d ,1 e n = 4 8 ) 2 13 1 3 2 2 2 2 t 3 2 2 2 3 2 1 12 2 3 i 2 1 3 1 1 3 2 2 2 2 13 2 2 2 2 2 3 1 1 2 2 2 2 2 l ( x = 1 5 0 。y = 2 9 ,d i r = 3 。i e n = 3 2 ) 3 2 2 2 1 1 2 3 1 3 2 2 2 1 3 2 2 2 2 2 1 3 2 2 2 2 3 l2 i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京市通州区新华街道社区卫生服务中心招聘非在编药学人员考前自测高频考点模拟试题附答案详解(典型题)
- 线上课堂协议样本
- 小学佛山安全教育培训课件
- 2025年微机励磁屏项目发展计划
- 2025年皮手套及皮革制衣着附件项目合作计划书
- 2025安徽六安市中医院紧缺人才招聘考前自测高频考点模拟试题附答案详解(突破训练)
- 2025届中国兵器装备春季校园招聘模拟试卷完整答案详解
- 2025年机组自动化屏项目建议书
- 2025年烟台莱阳市卫生健康局所属事业单位公开招聘工作人员(35人)模拟试卷及1套参考答案详解
- 2025年安阳市新华学校招聘教师4人考前自测高频考点模拟试题及答案详解(必刷)
- 18米固定式高杆灯
- 临时起搏器植入术后护理(心血管内科)
- 有机化学饱和烃课件
- GB/T 30707-2014精细陶瓷涂层结合力试验方法划痕法
- GB/T 26536-2011竹条
- 公司付款委托书 模板
- 全屋定制基础知识培训课件
- 设备安装施工方案
- 危险化学品作业场所安全、危险象形图、方向辅助标志、警戒线、警示语句、图形标志尺寸、基本形式
- 可测试性设计DFT课件
- 排污许可证管理培训
评论
0/150
提交评论