(计算机系统结构专业论文)表单图像版面分析方法研究.pdf_第1页
(计算机系统结构专业论文)表单图像版面分析方法研究.pdf_第2页
(计算机系统结构专业论文)表单图像版面分析方法研究.pdf_第3页
(计算机系统结构专业论文)表单图像版面分析方法研究.pdf_第4页
(计算机系统结构专业论文)表单图像版面分析方法研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机系统结构专业论文)表单图像版面分析方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息时代的来临,数字信息已经成为人类最重要的资源。而表单是最 常见的一种信息载体, 如何将表单文档中的信息电子化、数字化,已经成为研究 的热点之一。表单图像版面分析作为表单图像文档电子化的重要部分,其准确性 直接影响文字的识别率。本文对表单图像的版面分析方法进行了深入的探讨。首 先,论文简述了表单图像版面分析的发展历程和国内外现状。并从表单图像的特 点出发,介绍了几种图像去噪方法和二值化方法,并通过梯度调整改进了最住熵 闺值分割二值化算法,实验证明这种改进的算法使目标边缘细节信息不易丢失, 减少了出现线段断裂以及丢失的情况。其次,针对扫描图像可能产生倾斜,论文 采用了一种基于有向单连通链的表单倾斜检测与校正算法对倾斜图像进行校正。 再次,论文介绍了几种表单框线的检测算法,并对数学形态学提取表单框线的算 法进行了改进,改进后的算法不必获得表单中最宽字符的宽度,速度快,提取出 来的表单线效果较好。最后,论文提出了基于特征点提取表单单元的版面分析方 法以及基于拓扑关系和几何关系提取矩阵的版面分析方法,并进行了实现。 关键字:版面分析倾斜校正数学形态学特征点表单线提取 a b s t r a c t t h ed i 西协1i n f 0 h n a t i o ni st h em o s tp r e c i o u sr e s o u r c e si nt h em a l l k i n da l o n gw i t h m ec o m i n go f _ m f b m 而o na g e f o r mi so n eo f 也em o g tf a m i l i a ri n f o m l 撕0 nc a m e r s ,s o “h a sb e e no n eo ft h er e s e a r c l lh o t s d o 乜m a th o wt h ei n f o r m 砒i o ni nt h ef o 衄i s e l e c 订o n i c 卸dd i g i t a l 1 1 1 ef b n ni m a g el a y o u ta n a l y s i si st h e 沛p o r t a mp a l lo ff o h n i m a g ed o c u m e n te l e c 仃o n i c ,s ot i i ea c c u r 孔yo ff o ml 掣o u ta 1 1 a i y s i sh a sd j r e c te f r c c to n e 历c i e n c yo fc h a r a c t e t h ep a p 盯m o 蚰yf o c u s e so nf o mi m a g e 】a y o i l ta n a l y s i s a l g 嘶t h m s a t 衙s t ,t h ed e v e l o p m e mo ff b mi m a g el a y o u ta n a 培s i sa n d 1 e 甜u 出崎o f d o i n e s t i c 锄do v e r s e a si si f l t r o d u c e db r i e n y ,柚ds o m ek j n d so fi m a g en o i s e sf 1 1 t e d n g m e t h 0 出a n d 船。一v a l 啪m e t l o d sa r ei n 删u c e db a s e do nf o m li m a 窖ec h a r a c t e r i s t i c a 础m ee n 扛砷ym r e s h 0 1 dt w o va l u ea l g o 血hi si 廿巾r o v e do nb y 掣a d sa d j u s t m e 咄 w h i c hi sp r o v e da v o i d i n gl o s i n gt h ej n f o n n “o no fi m a g e 衔n g e 卸dr e d u c i n gf o m u n e sp 砒s e c o n d l y ,o w i n g1 0t h e i m a g es k e w ,as k e wd e t e c t i o na n d r r e c t i o n b a s e do nt 1 1 ed i r c c t i o n a ls i n g l c - c 咖e n e dc h a i ni sa d o p t c d t h i r d ly ,s o m ek i n d so ff o m l l i n e sd c t e c t i o na l g o r i sa r ei n 仃o d u c e d 舡l dt l l em a t l l e m a “c a im o r p b o l o g ya l g o t h m t oo b t a i nt h ef b r ml i n e si si m p r o v e do n b e c a u s eo f o to b t a i n m gt 1 1 ew i d t h f t h em o s t 埘d ec h a r a c t e ri nt l l ef b r i ni m a g c ,t 1 1 eh p r o v e da l g o 血l l n lh a s 王1 i g hs p e e da n de m c i e n c y t h el a s t ,l l l el a y o u t 锄a l y s bm e 廿1 0 d so fe x t r a c t h gf o 蛳l l sb y 也ef e 眦ep o i n t s 柚d c x 订a c t i n gf 0 加m 捌x e sb yf o m l t o p o i o 西c a la 1 1 dg e o m e t r i cs t n l c t u r ea r cp r c s e n t e d ,a n d a 1 1a l g o r i t h m sa r ec a 而e do u tb y 。耳唰曲n l a o n k e y w o r d :c h a r a c t e rr e c o g n i t i o nl a y o u ta 1 1 a l y s i s s k e wc o ”e c 石o n m 柚e m a t i c a lm o r p h 0 1 0 9 y f e a 伽r ep o l mf b m1 i n e se x 的c t i n g 独创性声明 y8 5 8 7 79 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,议文中不 包含其他人已经发表或撰写过的研究成果;也i 包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资牲若不实之处 本人签名: j ! 本人承担一切相关责任。 日期碰,f = 13 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文中的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本人签名 导师签名 了风 铭轳一一 日期塑! :! :望 日期2 塑 :王j 第一章绪论 第一章绪论 1 1 课题的背景 随着社会经济的发展,信息越来越多的以表格的形式存储,表格是信息高度 精炼、集中的一种表达形式,它广泛的应用于人们日常工作和生活之中。长期咀 来,人们主要是通过键盘手工录入表格文档信息,不但费时费力面目容易出错, 在一些实时性要求很高的场合( 如选票统计、海关的过关单、税务申报表以及货 物运输提货单处理等) 自动、快速、准确的处理表格显得尤为重要。表格处理具 有极为广泛的应用前最,仅就国家统计局而言,每十年全国范围内普查就有六次, i m 每次普查均有t 0 0 亿个以上手写数据需要录入,如果完全依靠操作键盘键入, 这是一个非常大的工作量,而且录入时间长、开销大、数据准确性不高,这将减 弱统计工作本身的重要意义。园此,采用高新技术成果、高速度、高质量自动录 入表格具有重要的现实意义,不仅可为国家节约大量的人力和物力,同时,由于 实现数据的自动录八,大大缩短了数据录入的时问,为政府决策提供了更详实、 准确、快捷的统计资料,可以取得重大的经济效益和社会效益。目前国外已经有 许多从事数据录入的企业,而且也取得了一定的成就。但是,国内的数据录入企 业的水平仍然停留在手工处理的阶段,随着国际数据录入业务的巨大增长,这已 成为国内该领域企业进入国际市场的巨大障碍。于是采用高新技术成果、高速度、 高质量表格信息自动录入具有重要的现实意义,也已成为当前该领域的研究热点 问题和企业的实际需求。 1 2 国内外研究的现状 自6 0 年代初期出现第一代0 c r 产品,经过3 0 多年的发展,0 c r 技术已取得 了长足的进步,商业化的o c r 产品已由早期的只镌识别指定印刷体的数字、英文 字母和部分符号,发展成可自动进行版面分析,表格识别,实现混台文种,多字 体、多字号、横竖混排识别的强大的计算机快速信息录入工具。 1 2 1 国内现状 在国内,重庆大学光电工程学院研制的a 、l l o o 表格自动阅读机,得到了国家 高技术研究发展“8 6 3 ”计划的资助,在1 9 9 6 年的农业普查中得到大规模的应用, 表草图像版面分析方法研究 实现了2 亿多张表格文档,2 0 0 多亿数据录入计算机进行处理、统计,其数据量之 大,堪称世界之最。这是世界上第一次手写数字0 c r 技术实现大规模数据自动录 入,它不仪为国家节约了大量的人力和物力,同时,由于实现数据的自动录入, 大大缩短了数据录入的时间,为政府决策提供了更详实、准确、快捷的统计资料, 取得了重大的经济效益和社会效益。北京邮电大学模式识别与智能系统实验室 2 0 0 1 年设计的银行票据图像处理与识别引擎,该项目也同样获得了国家“8 6 3 ”计 划的支持。该项目的完成解决了银行票据表格的自动录入问题。中国还有相当一 部分企业在从事开发这方面的产品,比如成立于1 9 9 3 年的北京汉王科技有限公司, 其产品包涉及到数据的自动录入功能,如汉王银行票据自动识别系统以及名片通 等产品。由东沈阳东软商业软件有限公司研究开发的“东软智能表格数据录入及 档案自动化管理系统”不仅可以实现对表格数据的智能识别,还能够进行数据的 自动录入及档案化管理。其突出特点是扫描速度快、精度高。据介绍,该系统在 表格数据信息书写正确的情况下,可以达到每分钟识别录入4 0 页表格信息( a 4 幅面) 的速度,是手工录入效率的1 0 0 倍,且录入信息更为准确,最大限度避免 了人为误差。北京优立慧科信息技术有限公司表格识别系统包括社会保险表格识 别系统、银行对帐系统、证券柜台业务系统等等【4 ”。 总的来说,虽然目前为止我国相当一部分公司在投资o c r 技术以及相当一部 分专业人士在研究o c r 技术,并且取得了一定的成绩,但是在o c r 技术方面的 研究工作我国起步较晚,7 0 年代才开始对数字、引文字母及符号的识剐进行研究, 7 0 年代末开始进行汉字识别的研究,到1 9 8 6 年汉字识别的研究进入一个实质性的 阶段,取得了较大的成果,不少研究单位也相继推出了中文o c r 产品。从8 0 年 代开始,o c r 的研究开发就一直受到国家“8 6 3 ”计划的资助。目前正在实现将 o c r 软件针对表格形式的特征设计了大量的优化功能,使得识别精度更高、识别 速度更快,并且为适应不同环境的使用提供了多种识别方式选项,支持单机和网 络操作,极大地方便了使用,使应用范围更加广泛,有达到各种不同用户的应用 要求。相信经过众多专家或专业人士的努力及国家在信息产业领域的大力资助。 使o c r 进入到网络的各个领域,会有更多的新品种奉献给用户,o c r 技术将会有 一个质的飞跃。 1 2 2 国外现状 国外基于o c r 技术的数据自动输入系统已在金融、保险、税务、邮政等领域 广为应用。目前,在美国、日本及一些发达国家,基于o c r 的信函分拣技术己得 到广泛应用。在口本,金融行业中大量的存单、储单、保单以及户籍登记等都是 通过基于o c r 的表单数据自动录入技术来实现的。在美国,大规模的人口普查、 第一章绪论 针对个人的信贷业务、个人所得税申报等也都采用这类技术。目前国外许多大学 和研究机构在研究o c r 技术,并取得了许多重要的研究成果,如1 9 7 8 年成立的 美国纽约州立大学b u f f a l o 分校的文档分析识别中心( c e d a r ) 该中心主要研究 的方向为:手写体识别、信封与信件的自动处理、智能字符识别、表格处理以及 日文文档识别等等。大拿大( c o n c o r d i a ) 大学模式识别与机器智能研究中心 ( c e n 黜。r m l l 于1 9 8 8 年9 月正式成立,该中心在国际字符识别权威d r c y s 【j e n 的带领下,在字符识别、文档图像分析与理解以及自然语言理解等方面的研究居 世界领先水平。美国w a s h i n g t o n 大学的智能系统实验室( i s l ) 开发了用于0 c r 和 文档分析与理解算法c d - r o m 文档数据库( u w i ,u w i i ,u w i i i ) 。此外,国外有许 多公司从事这方面的产品,比如k o f a x 公司:k o f 8 x 公司的产品将收集来的文档、 表单以及电子文档转换为精确、可恢复性的信息,并将这些信息提供给商业应用 程序和数据库,以此来达到提高商业处理速度的目的:s e r e s o f t 公司:s e r e s o f t 通过出众的数据记录技术将人们从繁重的手工劳动中解脱出来了,而且优化了商 业进程。通过s e r e s o f t 智能技术处理的无结构形式的表单、发票以及其他支付款 形式的票据每年超过4 0 百万个;c a p t i v e 公司:c a p t i v e 公司提供了把数据等输 入计算机处理的解决方法,而且使信息处理达到优化。c a p t i v e 软件公司在节约时 间和花赞的同时提高了数据获取的精确度1 4 2 j 。 1 3 论文研究的主要内容及章节安排 近年来,表格信息自动录入系统的版面分析与理解领域越来越受到广泛的关 注。本文的研究工作主要包括表格图像版面分析预处理、页面倾斜检测与校正、 表格图像的框线检测咀及表格版面分析等内容。 ( 一1 表格图像版面分析预处理 表格图像版面分析预处理包括图像去噪和二值化等内容。本文首先介绍了常 用的去噪方法,如中值滤波、邻域平滑以及数学形态学去噪等。并通讨论了这些 方法的性能。其次介绍了几种二值化图像的方法,如迭代法阚值分割二值化和矩 不变阉值分割二值化,并针对最佳熵闽值分割二值化算法的缺点通过梯度调按改 进了该算法,通过比较分析了改进算法的有效性。 ( 二) 页面倾斜检测与校正 表格图像通过扫描输入计算机不可避免的会发生倾斜现象,这将对后面的版 面分析无疑会产生负面影响,所以页面倾斜检测与校正对于整个表格信息自动录 入系统是十分必要的。本文介绍了一些常用的倾斜检测与校正方法,如基于投影 图的方法、交叉相关算法、基于h o u g h 变换的方法以及最近邻簇方法等等,并实 现了基于有向单连通链的表格倾斜检测与校正的方法,实验证明该方法具有速度 表单图像版面分析方法研究 快,准确度高,而且与文档图像内容无关等特点。 ( 三) 表格图像的框线检测 表格图像的框线检测是表格图像版面分析的基础,表格图像的框线检测的好 坏也将直接的影响版面分柝的质量。论文在介绍几种表格框线检测方法,如利用 投影提取表格线、利用形态学提取表格线、基于搜索提取表格线等的基础上,对 形态学算法提取表格线进行了改进。实验结果表表明,改进后的算法速度快,实 现容易且具有通用性等特点。由于使用这些方法检测出来的表格框线可能会产生 断线,论文通过将满足一定条件的表格线进行合并与修补的方法完成了表格框线 的完整提取,并通过实验证明了这些方法的有效性。 ( 四) 表格版面分析 本文介绍了两种表格版面分析方法,即根据特征点提取表格单元的版面分析 方法和基于拓扑关系和几何关系提取矩阵的版面分析方法,第一种方法比较简单, 速度快,一般只处理比较简单的表格图像;第二种方法相对来说复杂一点,但是 可以处理比较复杂的表格图像,而且准确度高。 论文章节安排如下: 第一章是绪论。 第二章是表格图像版面分析预处理。 第三章是页面倾斜检测与校正。 第四章是表格图像的框线检测。 第五章是表格版面分析。 第二章表格图像版面分析预处理 第二章表格图像版面分析预处理 表格图像版面分析预处理是把一个不理想的原始表格图像转变成为较理想的 二值表格图像。表格图像扫描时一方面由于受表格图纸本身的绘制质量、光电 扫描时的光照度不均匀以及扫描系统带宽限制等凶素的影响,其图像般都夹杂 着噪声和缺陷;另一方面,由于纸张边缘不平,纸张摆放不平整或者扫描仪的纠 偏性能不稳定等因素,会使扫描匿像存在倾斜的情况。这些将会为后面的正确分 析表格图像的版面工作带来较大地困难,所以预处理是版面分析中很重要、很关 键的一步。其中最主要包括去除噪声、图像二值化和倾斜检测与校正等内容,倾 斜检测与校正将在第三章电介绍。 2 1 表格图像去噪 噪声可以理解为“妨碍人们感觉器官对所接收的信源信息理解的因索”。例 如一幅黑白图片,其平面亮度分布假定为ol ,那么对其接收起干扰作用的 亮度分布“p ,即可称为图像噪声。但是,噪声在理论上可以定义为“不可预 测,只能用概率统计方法来认识的随机误差”。因此将图像噪声看成是多维随机过 程是合适的,因而描述噪声的方法完全可以借用随机过程的描述,即用其概率分 布函数和概率密度分布函数。但在很多情况下,这样的描述方法是很复杂的,甚 至是不可能的。而实际应用往往也不必要。通常是用其数字特征,即均值方差, 相关函数等。因为这些数字特征都可以从某些方面反映出噪声的特征。 2 1 1 表格图像中常见的噪声及特点 图像系统的噪声一般具有如下特点: 1 噪声在图像中的分布和大小不规则。 2 噪声与图像之间具有相关性。 3 噪声具有叠加性。 噪声影响图像处理的各个环节,去除噪声对图像处理十分重要。表格图像中 的噪声种类很多,对图像信息的影响十分复杂。一般噪声是不可预泓的随机信号, 有些和图像互相独立,不相关,有些则是和图像相关的,噪声与噪声之间也有相 关的也有不相关的,所以噪声只能用概率统计的方法去认识。常见的噪声一般有 四类: 衰单图像版面分析方法研究 ( 1 ) 加性噪声 加性噪声和图像信号强度是不相关的,如图像在传输过程中引进的信道噪声、 电视摄像机扫描图像的噪声等。这类带有噪声的图像g 可看成为理想无噪声图像f 和噪声n 之和,即; g = 十月( 2 1 ) ( 2 ) 乘性噪声 乘性噪声和图像信号是相关的,往往随图像信号的变化而变化,例如飞点扫 描图像中的噪声、电视扫描光栅、胶片颗粒噪声等,这类噪声与图像的关系是: g = ,+ 力( 2 - 2 ) ( 3 ) 量化噪声 量化噪声是数字图像的主要噪声源,其大小显示出数字图像和原始图像的差 异,对这种噪声的减少最好办法就是采用按灰度级概率密度函数选择量化级的最 优化措施。 ( 4 ) “椒盐”噪声 椒盐( s “ta i l d 聊r ) 噪声经常出现在图像中,当摄像机中包含一些失效的像素 时,所采集的图像就会出现这类噪声,椒盐噪声因在像素中表现为黑自相问的斑 点而得名,即黑图像的白点、白图像上的黑点。 对于表格图像,一般存在一些识别的小点,这些小点可吼看作是椒盐噪声, 应该去除。对于这类噪声的去除可以采用中值滤波或者数学形态学去噪方法,这 将在后面详细地介绍。 2 1 2 去噪方法 2 1 2 1 中值滤波 中值滤波m j 是一种非线性信号处理方法。中值滤波器在1 9 7 1 年由j w j u k e y 首先提出并应用在一维信号处理技术( 时间序列分析) 中,后来被二维图像信号 处理技术所引用。中值滤波在一定的条件下可以克服现行滤波器如最小均方滤波 和均值滤波等带来的图像细节模糊,能有效保护边缘少受模糊,而且对滤除脉冲 干扰、图像扫描噪声及椒盐噪声最为有效。由于在实际运算过程中不需要图像的 统计特征,因此这也带来了不少的方便。但是对于一些细节多,特别是点、线、 尖顶细节多的图像不宜采用中值滤波。 中值滤波一般采用一个含有奇数个点的滑动窗口,将窗口中各点灰度值的中 值来替代指定点( 一般是窗口的中心点) 的灰度值。对于奇数个元素,中值是指 第二章表格图像版面量析预盘上理 按大小排序后,中问的数值;对于偶数个元素,中值是指排序后中间两个元素灰 度值的平均值。举个例子说明就很容易了。 图2 1 中值滤波 图2 1 中数字代表该处的灰度。可以看出原圈中间的7 和周围的灰度相差很大, 是一个噪声点。经过3 l 窗口( 即水平3 个象素取中间值) 的中值滤波,得到右边 那幅图,可以看出。噪声点被去除了。 对于二维情况,中值滤波的窗口形状和尺寸对滤波器效果影响很大。不同图 像内容和不同应用要求往往选用不同的窑口形状和尺寸。常用的二维中中值滤波 窗口形状有线状、方形、圆形、十字形等。 2 1 2 2 数学形态学 数学形态学1 2 6 1 ( m a m e m 撕c a lm o r p h o l o g y ) 是分析几何形状和结构的数学方法, 是建立在几何代数基础上,用集合论方法定量描述几何结构的科学。其历史可追 溯到十九世纪的e u l e r ,s t e i n e r ,c m n o n 以及本世纪初m i n i o 怫虹的论述中,但数 学形态学是一门新兴学科,1 9 6 4 年,法国的g m a t l e m 和j s 日a 在积分几何的基 础上首次创立了这门学科,此后,他们又在法国建立了“枫丹自露( f o n t a i n c b l e “) 数学形态学研究中心”,在该中心的学者和其他各国研究人员的共同努力下,数学 形态学得到了不断丰富和完善。1 9 8 2 年,j s e r m 的专著图像分析与数学形态学 问世后,它才在图像处理、模式识别和计算机视觉等领域引起广泛的重视和应用, 这些应用反过来又促进它的进一步发展。日前国内许多有效的图像处理系统有的 是基于数学形态学方法原理设计的,有的是把数学形态学算法纳入其基本软件, 并以其运算速度作为系统性能的重要标志之一。 数学形态学是分析几何形状和结构的数学方法,是建立在集合代数的基础上 的,用集合论方法定量表述几何结构的科学。由一组形态学的代数运算子组成。 最基本的形态学运算子有:腐蚀、膨胀、开和闭。用这些算子及其组合来进行图 像形状和结构的分析及处理,包括图像分割、特征提取、边界检测、图像滤波、 图像增强和恢复等方砸的工作。对于表格图像的噪声去除主要利用数学形态学中 0 0 0 0 o i o o 0 0 o 疆o 2 2 2 o 自 岳0 2 2 2 o 理0 2 2 2 0 盘00 0 0 0 o o o o o 0 0 0 0 0 0 2 2 2 0稠。;:。 0 0 0 0 o o o 0 o o 表单图像版面分析方法研究 的丌运算来对图像进行滤波。现倚要介绍数学形态学的运算子。 1 ) 腐蚀 腐蚀可以看作将图像x 中的每一个与结构元素s 全等的子集s x 】收缩为点x , 记为a o b 。定义如下: a o b = x is l x 】e x ( 2 - 3 ) 与之等价的定义形式为: a o b ! n f s x 】卜s s ( 2 4 ) 腐蚀在数学形态学运算中的作用是消除物体边界点。腐蚀可以把小于结构元 素的物体去除,这样选取不同大小的结构元素,就可以去掉不同大小的物体。如 果两个物体之间有细小的连通,那么当结掏元素足够太时,通过腐蚀运算可以将 两个物体分开。 2 1 膨胀 膨胀的每一个点x 扩大为结构元素s 全等的子集s 【x ,记为a o b 。定义如下: a o b = fx i s 【x 】nx o ) ( 2 5 ) 与之等价的定义形式为 a o b = u x s is s a o b = u s 【x 】 x x ) ( 2 6 ) 膨胀运算在数学形态学中的作用是把图像周围的背景点合并到物体中。如果 两个物体之间距离比较近,那么膨胀运算可能会使这两个物体连通在一起。膨胀 对填补图像分割后物体中的空洞很有用。 3 1 开运算 开运算和闭运算是由上述两个运算的复合和集合操作( 并、交、补等) 组合成的 所有运算构成。 a 对b 的开。即a 被b 进行开运算的结果定义为: a 。b = ( a o b ) o b( 2 - 7 ) 即a 先被b 腐蚀,再被b 膨胀的结果。开运算可用来删除图像中的小分支。 4 ) 闭运算 a 对b 的闭运算,即a 被b 进行闭运算的结果定义为: a b = ( a o b ) o b( 2 8 ) 即a 先被b 膨胀,再被b 腐蚀。闭运算可填补小空穴。 利用数学形态学的开运算对图像进行处理即可达到去除噪声的效果,即: x l = xo s = ( x os ) os( 2 - 9 ) 其中x 为原图像,x 1 为去除噪声之后的图像,s 为结构元素,结构元素的选 择很关键,本文选用3 3 的结构元素。结构元素可以为水平的也可以为垂直的, 第一二章表格图像版面分析预处理 9 也可以根据不同的图像选择不同的结构元素。 形态学方法对于去除毛刺和椒盐噪声以及孤立点很有效,但因为该方法是根 据结构元素先对图像进行腐蚀再进行膨胀运算来去除图像的噪声,所以可能会把 表格中的一些面积很小的文字去除,但是因为版面分析是建立在表格框架的基础 上,所以对于版面分析来说是不会造成影响的。 2 1 2 3 图像平滑 图像平滑是一种实用的数字图像处理技术,主要目的是为了减少图像的噪声。 在灰度连续变化的图像中,如果出现了与相邻象素的灰度相差很大的点,比如说 片暗区中突然出现了一个亮点,这种情况被认为是一种噪声。噪声一般呈孤立 离散性分布。平滑时,顺序检测每一个像素,如果某个像素的幅度大予其邻域像 素的平均值,且太于预先规定的一定的阚值,则认为该像素为噪声,用它们的平 均值来代替该点的噪声值。 一种常见的平滑算法是邻域平均法,邻域平均法是一种简单的平滑化的空域 技术。其原理是将原图中一个像素的灰度值和它周围邻近n 个像素的灰度值相加, 然后将求得的平均值作为新图中该像素的灰度值。例如,对图像 f ( x ,”; x ,y = o ,l ,n - 1 ) 的每一个像素取处理邻域s ,s 咀( x y ) 为中心,作邻域平均: 1 一 g ( z ,y ) = 。寿,( f ,) “y ;o ,l ,2 ,n - 1 ) ( 2 - 1 0 ) h j j s m 为s 中包含的坐标点总数平均。 邻域的选取有两种方法: 1 以单位距离为半径 以3 3 窗口为例,其邻域为四点邻域,m = 4 s = ( j ,f 一1 ) ,( j + 1 ,f ) ,( ,f + 1 ) ,( ,一l ,i ) ( 2 1 1 ) 2 以单位距离的2 倍为半径 其邻域为八点邻域时。m = 8 最5 ( 卜1 ,一】) ,( 卜l ) ( 卜1 ,+ 1 ) ,( ,j 一1 ) ,( 工h 1 ) ,( ,+ 1 ,j - i ) ,( ,+ 1 ,f ) ,( j + 1 ,z + 1 ) ) ( 2 1 2 ) 邻域平均法算法简单,实现容易,速度快,能有效的抑制噪声,但是也引起了 图像模糊,特别是在边缘和细节处,模糊程度与邻域半径成正比。 0 表单图像版面分析方法研究 2 2 表格图像二值化 所谓二值图像,就是指图像上的所有点的灰度值只用两种可能,不为”o ”就为 ”2 5 5 ”,也就是整个图像呈现出明显的黑白效果。表格图像二值化涉及到图像分割 问题。图像分割是计算机视觉中的一个关键问题,它是一种重要的图像分析技术。 而基于闽值的图像分割技术是图像分割中最基本的难题之一。本文的表格图像二 值化技术是基于阉值的图像分割技术。下面简要介绍几种闽值分割二值化技术。 2 2 1 迭代法阐值分割二值化 假定图像中只有灰度范围不同的目标和背景。只有在其灰度直方图选择合适 的门限,才可能将其划分成目标和背景。迭代法是基于逼近的思想,不断的选择 阈值划分图像为目标和背景两种不同的灰度范围,直到两次的阈值相同为止。 其步骤如下: 1 求出图像的最大灰度值和最小灰度值,分别记为z m 。和z 。,令初始阉值 写2 ( z m 。+ z m 。加: 2 根据闽值耳将图象分割为前景和背景,分别求出两者的平均灰度值z 。和z 丑; 3 球出新闽值五+ 。= ( z 0 + 磊犯: 4 若瓦= 疋则所得即为阈值;否则转2 ,迭代计算。 该方法算法简单,速度快,实现容易,所得的阈值分割的图像效果良好。基 于迭代的阈值能区分出图像的前景和背景的主要区域所在,但在图像的细微处还 没有得到很好的区分,所以分割后的图像也比较粗糙。 2 2 2 矩不变阈值分割二值化 矩是随机变量的数学特征。矩法是由k a np e m o n 在1 8 9 4 年引入的参数点估 计算法,其基本思想是:样本抽自总体,样本的矩在一定程度上反映了总体的矩。 因此可以用样本矩函数的估计作为相应的总体矩函数的估计量。矩法是一种效率 较高的正态性检验方法。具体作法是:样本矩作为相应总体矩的估计量;以样本 矩的函数作为相应的总体矩同样函数的估计量。 矩不变闽值分割法就是把矩法用于图像的分割,其基本思想是:使阈值分割 前后,图像的矩保持不变。 二维图像的第k 阶矩帆定义为: 第二章表格图像版面分析预处理 i = 1 卜击莩;几加击扣k 耖川幺。 但1 3 1 其中为灰度值,n 为图像中灰度为f 的像豢比例。刘于图像分割来说,女u 果进行二值分割,则分割后只有z 。和z l 两个荻度级,z o 且小于互。低于阂值的像 素比例相高于阈值的像素比例分别使用晶和e 表示,则分割后图像的前三阶矩: 鸭= 所( z - l ,2 ,3 ( 2 14 ) t o 对于划分目标和背景的最佳闽值,应当保持分割前后的图像的前三阶矩相等。 即有; 小,。m 。 ( 2 1 5 ) 则可以得到如下方程组: 为i 找到希望的阕僵t ,嚣望先从上述万程组中觯出晶: 异:旦墨1 ( q 。q 一4 ) i 其中, c 0 :旦鲨型型旦 “h 一| 1 1 、 i 、 。:! ! 兰垡二竺 。一观确 g = 圭 ( q q 一4 声一q 求出嚣后再在原图像直方图上选择合适的t 使之满足 异= 日 ,f ( 2 1 9 ) 旬0 f | = = i i 习乏彳冒 x 暑片墨暑 + + + + 露盈器盈 昂吊昂尼 8 【一2 ( 7【2 1 2表单图像版面分析方法研究 则t 就是所求的分割闽值。当找不到精确的灰度值做门限满足r 时,选择最为 接近的灰度值作为分割阐值。 矩不变法的运算速度较快,可以满足实时性的要求,但其受目标影响较大, 目标大小的变化会影响分割的准确性。 2 2 3 基于最佳熵阈值分割二值化及其改进 从”熵“的概念被引入了图像处理技术后,人们提出了许多基于熵的阐值分割 法。一般的原理是研究图像灰度直方图的熵测量,并由此自动找到最佳门限分割 图像。对于一维最大熵分割方法,它的思想是统计图像中每一个灰度级出现的概 率卢,计算该灰度级的熵珂。芦( 寸j 窨p 扛) 出,假设以灰度级t 分割图像,图 像巾低于t 灰度级的像素点构成目标物体( 0 ) ,高于灰度级t 的像素点构成背景 ( b ) ,那么螽个灰度级在本区的分布概率为: o 区:坠l ,2 j b 区:1 尹fi = t + l 。l + 2 l 1 占 上式中的,5 刍a ,这样对于数字图像中的目标和背景区域的熵分别为; 月,= 一( 舅尹,) 培( p l ,p ,) 支_ 1 ,t ; 一 h b = 一f 尹j 一p r ) 】弧【n 柙一凡) 】。喜= t + 1 ,t + 2 l 一1 ( 2 2 0 j 对图像中的每一个灰度级分别求取矽= + 日。,选取使矽最大的灰度级作为 分割图像的阚值,这就是一维最大墒阈值图像分割法。该分割算法分割精度高, 受目标大小影响小。这种方法的缺点是对噪音敏感,主要是因为该方法仅仅考虑 了像素点的灰度信息,没有考虑到像素点的空间信息,所以分割后的目标边缘细 节信息有很大的丢失。针对最佳熵闽值分割= 值化算法的这些缺点,结合表单图 像的特点,本文对最佳熵阈值分割二值化算法进行了改进,利用最佳熵梯度调整 阈值对图像进行二值化分割。 一一兰三兰童坚堕堡堕堕坌堑望竺里 l 首先由一维毋大熵分割方法得到初始分割闽值t ,然后利用梯度算子对图像进 行处理,计算出图像的梯度分布。设现行扫描点、后一行扫描点和下一行中相邻 点的灰度为f ( i ,j ) ,f ( i + 1 ,j ) 和f ( i ,j + 1 ) ,在x 、y 方向上的一阶差分定义为: 凸,( f ,j _ ) = ,( f 十l ,j ) 一,( i ,l ,) i 口,厂( f ,) = ,( i ,_ ,+ 1 ) 一,( f ,) ( 2 之1 ) 梯度的幅值g = ( ,) 定义为: g 厂( j ,) = 口。,( f ,) ,q ,( f ,) + 臼,( f ,) 加,( f ,j ) r ( 2 _ 2 2 ) 也可采用下面的近似公式: g ,( f ,明= i 吐,( 力| + 旧巾,圳 ( 2 - 2 3 ) 为了简便计算,梯度幅值e ,( i ,力选用如下的近似公式: g ,( f ,j ) = m “ b ,( 驯,b ,( f ,) 口 ( 2 2 4 ) 根据计算出的梯度幅值,找出边缘像素。设边缘像素的梯度为e ,( f ,) ,则 哪沪p 力3 裟裟乏 s , 其中z 为边界梯度阈值,可适当选取为( g 皿。一g :。) 2 左右,其中。和g m 。 分别为所有q ,( j ,j ) 中的最大值和最小值。 再求出边缘像素的梯度均值m : 村= 五心 巾,明 ( 2 - 2 6 ) 这样,基于梯度调整的矩不变自动阈值分割法的阚值t 为: r 一目n 巾,明 ( 2 2 7 ) 其中,a ( o ( 皑。3 ) 如调整系数。根据经验在o 。l 左右选择。 2 2 4 实验结果 算法改进前后的效果如下图所示。 1 4 表单图像版面分析方法研究 i m -。4 。i “l 。 i - :;- 旱一。 - iil m i i * i ji_l 月日l 出叫瑚 li t i l i i i i l h 日 liiii ilili : #iilii r l iii 妻l a ) 原图 2 譬卜。旧n 黛制i 丽 b # 日。_ 击l 羞# 4 毫w ;i 陶”赫藉 盖謦击 - 1 一i 一- 卜卜+ 一l i 一 寺沙一 一- 十一 片 z 瞥p f “l “ 薅制”“ i】 ilj 曩耳i 耳l 口* l 研 l l “p “l ”1 。者l 。盖装。 llifi lii iljl el 】llf i iii 薯l b ) 基于最佳熵阕值分割二值化 c ) 最佳熵梯度调蔡闽值分嘉二值化 a 1 原图 b ) 基于最佳熵闽值分割二值化 c ) 最佳熵梯度调整阈值分割二值化 图2 3 算法改进前后效粜示意酮 第二章表格图像版面分析预处理5 图23 中,a ) 为原图,b ) 和c ) 分别为基子最佳熵阈值分割一值化算法和基于 最佳熵梯度调整闽值分割二值化算法的结果,基于最佳熵闽值分割二值化仅仅考 虑了像素点的灰度信息,没有考虑到像素点的空问信息,所以分割后的目标边缘 细节信息有很大的丢失,出现比较明显的线段断裂甚至丢失情况,而且分割后的 图像模糊不清不易表格图像版面分析。基于最佳墒梯度调整闽值分割二值化不但 考虑了图像像素点的灰度信息,而且也考虑了像素点的空间信息,梯度值在图象 变化缓慢的地方其值很小,而在线条轮廓等变化较快的地方的值很大,所以经过 基于最佳熵阙值分割二值化的图像再经过梯度运算会使其清晰,而且不易出现断 裂线条或者丢失线条等情况,便于表格图像版面分析。 第三章图敦倾斜监测与校正 第三章图像倾斜检测与校正 文档图像通过图像获取设备( 如数码相机、高速扫描仪等) 转化为文档图像, 由于人为因素和扫描仪扫描机构的机械误差的影响,文档图像普遍存在一定的倾 斜角度。倾斜校正是一项重要的文档图像预处理技术。 文档图像处理是建立在对版面理解基础上的,版面分析算法对表格图像的倾 斜非常敏感。因此,对文档图像的倾斜校正就显得十分重要。倾斜校正一般分为 手动校正和自动校正。手动校正,即系统提供某种人机交互手段,实现文档图像 的倾斜校正。自动校正,即由计算机自动分析文档图像的版面特征,估计图像的 倾斜角度,从而实现文档倾斜校正。由于大量的文档需要计算机来处理,倾斜图 像的手动校正需要人工干预,不仅浪费了人力,而且效率很低。所以计算机自动 校正成了文档处理研究领域的研究热点。下面简要介绍一下常用的倾斜检测与校 正算法以及重点介绍基于有向单连通链的表格倾斜检测与校正算法。 3 1 常用的倾斜检测与校正算法 目前,倾斜检测的方法种类很多,主要包括基于投影图的方法、基于h o u g h 变换的方法、最近邻簇方法以及矢量化方法等几类,它们各有各的特点,分别介 绍如下。 3 1 1 基于投影图的方法 投影法是最常用的倾斜校正方法,它是基于对投影图形状进行分析的方法。 其基本方法是计算每个倾斜角度的投影形状,并定义一个目标函数,实际的倾斜 角度就是使目标函数最优。由于这种方法需要计算每个倾斜角度的投影形状,要 使倾斜估计精度较高的话,这种方法的计算量将非常大。 最简单的方法是将文档图像向不同的方向投影。当投影方向和水平文字方向 一致时,文字行对应的投影图上的峰值最大,行间空白对应投影的峰谷。b a i r d 3 9 提出了一种改进投影算法提高了倾斜校正的计算的速度与精度,他是基于连通元 素的方法,假设一行中的字符是对齐并且十分靠近的。它采用一种自底向e 的方 法进行分析,将该行字符作为一个连通区域,以不同的角度进行投影,投影图上 出现最大峰值和最宽峰谷时,该投影角度就是倾斜角度。a “y a m n a h 研将一页文档 分成几列,然后向水平方向投影,计算每一列的投影值。每一个峰值对应于该列 的文字行。将投影图上每一列的峰值连接成一条曲线,曲线的切线就是文档的水 表单图像版面分析方法研究 平方向,切线的倾斜角度就是文档的倾斜角度。 投影法是一种基于文字行的倾斜校正方法,不适用于版面复杂的文档,计算 量比较大,而且当倾斜角度很大时,无法保证计算的精度。 3 1 2 基于i i o u g h 变换的方法 h o u g l l 变换刚是最常用的检测倾斜角方法,下面简单介绍h o u 曲变换。 用极坐标可将直线y = m x + b 表示为: r = j c o s ( 曰) + ys i n ( 日) ( 3 1 ) 也可以表示为: r = 一+ ) ,2s i n 妒+ 力,其中增( 2 形 ( 3 - 2 ) 其中,( f ,日) 定义了一个从原点到该直线最近点的向量,显然,这个向量与 该直线垂直。如图3 1 所示。 图3 1直线的极坐标表示 以参数r 和e 构成的= 维空间,彳,】,平面的任意一直线对应了,口平面上的 一个点。即置y 平面上的任意一直线的h o u 曲变换是r ,0 平面上的一个点。对于 五,r 平面上的一个特定的点南,儿,每一条过该点的直线,都对应了r ,口空间中 的一个点。这些点必需是满足以,h 作为常量时的等式。因此在参数空间中与置 y 平面上的任一点对应了,日平面上的一条正弦曲线。 如果有一组位于由参数和岛决定的直线上的边缘点,这个边缘点对应了r , 口空间的一条正弦型曲线,所有这些曲线必交于点( ,岛) ,因为这是他们共享的一 条直线的参数。 为了找出这些点所构成的直线段,可阻将r ,日空间量化成许多小格。根据每 一个( ,儿) 点代入0 的量化值,算出每个r ,所得值( 经量化) 落在某个小格内, 便使该小格的计数累加器加l ,当全部点变换后,对小格进行检验,有大的计 第三章图象倾斜监测与校正 9 数值的小格对应于共线点,其( r ,可用作直线拟合参数。有小的计数值的各小格 一般反映非共线点,应丢弃不用。可以看出,计算量与搜索角度步长只和搜索角 度范固口,密切相关。 由于基本h o u 曲算法( b h t ) 计算量非常大,因此一些专门用于倾角检测的 h o u g h 转换改进算法被提出来,采用了多级h o u g h 变换,用由粗到细的角度搜索 步长进行倾斜检测。虽然这些算法的核心思想是减少h o u g h 转换的数据量,从而 使h o u g h 变换进一步减小处理时间。h o u 曲变换最大的缺陷就是不适合处理版面 中凰像占多数的文档。 h o u 曲变换具有较高的倾斜估计精度,但是它的计算量大,速度较慢,也不 适用于版面大部分为图像的文档 3 1 3 最近邻簇方法 最近邻簇方法口日选取文本图像的某个子区域中字符连通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论