(计算机应用技术专业论文)中文版面分析的研究.pdf_第1页
(计算机应用技术专业论文)中文版面分析的研究.pdf_第2页
(计算机应用技术专业论文)中文版面分析的研究.pdf_第3页
(计算机应用技术专业论文)中文版面分析的研究.pdf_第4页
(计算机应用技术专业论文)中文版面分析的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 版面分析作为文字识别系统的预处理部分,其准确性直接影响文字的识 别率。本文针对复杂的中文版面,提出了一个基于模糊连接度和识别特征的 中文版面分析方法,完成了一个图像输入、倾斜校正、版面图文分割的过程。 版面图文分割主要采用自底向上的办法,利用连通域搜索算法检测出文本页 面卜的所有连通基元,通过对连通基元的网个方向上的连接度进 7 - - 奠糊化处 理求扶j 芷文字行、列的合并,并对在文字行合并n 0 影响鞍大的标点符号采用 先u 别后合并的方法。为了减少时n = i j 丌销,神:计算和合并过程中采用局鞠;亨翌 索策略。戈验结果表明,该方法划印刷质最比较好的中文版弧只柯较理想的 分:驯交幺玳。 关继词:文字谚 别:版丽分析:连接度;l l o u z h 变换:倾斜校i f a b s t r a c t a b s t r a c t t h el a y o u t a n a l y s i s i s p a r t o fi m p o r t a n tp r e - p r o c e s s i n go fc h a r a c t e r r e c o g n i t i o nt h ea c c u r a c yo fl a y o u ta n a l y s i sh a sd i r e c te f f e c to i le f f i c i e n c yo f c h a r a c t e rw ep r o v i d eac h i n e s el a y o u t a n a l y s i sm e t h o db a s eo nf u z z y c o n n e c t e d n e s sa n dr e c o g n i t i o nf e a t u r e sf o rc o m p l e xd o c u m e n tl a y o u t t h i si sa p r o c e s si n c l u d i n g t h e i n p u t d o c u m e n t i m a g e s 、s k e w c o r r e c t i o na l l d t e x t s g r a p h i c ss e g m e n t a t i o nt h eb o t t o m u pa p p r o a c hu s e di nt e x t s g r a p h i c s s e g m e n t a t i o n a l lt h ec o n n e c t e du n i t si nt h ep a g ea r ed e t e c t e db ys e a lc i t a l g o r i t b l l lo i c o n n e c t e dr e g i o n t h er o w c o l u m nm e r g e n c eo ft h ec h a r a c t e ri s d e f i n e db yl h z z yc o n n e c t e d n e s so t lt i l ec o n n e c t c du n i t sa tf o u ro r i e n t a t i o n s ”r 1 1 c c o n l b i n a t i o n o l p u n c t u a t i o n w ea d o p tt i l en m t h o do fc o m b i n a t i o nb e h i n d r e c o g n i t i o nd u el og r e a te f f e c to fm e r g e n c e i l lo r d e rt or e d u c et i m eo v e l h c a d 、 t i l el o c a ls e a r c h i n gs t r a t e g yi su s e di nt h ep r o c e s so fc a l c u l a t i o na n dm e r g e n c c j 、h cie s u l to fe x p e l i m e n t1 a ss h o w nt h a tt h i sm e t h o dc a l la n a l y s i sb e t t e r p r i n t e d q u a l i t yd o c u m e n tw i t hs a t i s f a c t o r ys e g m e n t a t i o n k e yw o r d :c h a r a c t e rr e c o g n i t i o n :l a y o u ta n a l y s i s :c o n n e c t e d n e s s : h o u g ht r a i l s f o r i l l ;s k e wc o r r e c t i o n 第1 章绪论 第1 章绪论 随着信息和计算机技术的发展,纸张这一传统信息媒介的控制领域己 受到了相当的影响。相比起数字化信息,纸面信息在存储成本、记录密度、 交换形式、共享手段、查阅方便性等诸多方面远远落后。特别是i n t e l :r l e ( 的出现,使得信息传播方式发生了变革,海量的信息可以通过低廉的传输成 本在网络e 传送,用户可以有选择地获取和使用自己需要的内容。电子4 t 的 信息数据不仅节约了传播的成本,同时加快了信息的增值,因此信息资判的 数字化成为未来信息社会的基本需要。但纸张作为信息媒介已有千年历史, 要把浩如烟海、古今中外各类载体上的原始信息重新人工录入是不可行的 而把它们直接转化为图像存储,也会占用过多的存储空间,而且不利于用,。 编辑与检索。造成的后果是,大量堆积的纸张难以管理和保存,信息无法检 索和查找,更谈不上信息的传播和增值。因此,对版丽进行自动分析,盯盈: 字、表格进行识别,对图像进行压缩处理,并重排为格式化文档是目前的研 究趋势。处理的关键技术是版面分析、字符识别、图像压缩。 版面分析足指分析给定的图像结构、提取其特征所进行的“图像专描述” 的处理过程。具体而言,版面分析是指剥版面内的图形、图像信息和结构关 系所进行的自动分析、识别和理解的过程。版面分析研究的对象包括:文本 版面、表格版丽、图形版面和复杂的图文表混合版面。 国内在o c r ( o p t i c a lc h a r a c t e rr e c o g ntior 1 ) 领域的研究开始于8r ) 年 代,起初集中在单字识别领域到9 0 年代才出现对版面分析的研究。匡川、 对o c l 技术和版面分析技术的研究起步较早,已经取得了i l i 少成果,到g ( ) 年代,英文版面分析己达到相当深入的水平。国外对汉字识别及相应自版面 分析技术主要在日本,其系统一开始就采用大量硬件设备,价格昂贵,再加 e 曰文使用的是小字符集,不符合我国国情。不仅如此,崮外版面分析所处 理的对象与国内相比,在版面的组成、结构、排版方式、规范化程度、印刷 质量方面上都有很大区别,中文版面设计复杂( 尤其对于中文报纸版面j , 规范性差,文字排版有横、竖之分( 英文版面只有横排) ,普遍印刷质量不 洞北大学硕士学位论文 高,最具代表性的就是中文报纸版面,版面内文字、图像交错,横、竖排版 交融,各个文本块的字体、字号频繁变化,文本块间的间隔线、花边线繁多。 再由于汉字本身特点,有些汉字有几部分组成,其偏旁部首有时很容易和标 点符号相混淆,甚至会对排版模式的确定造成干扰。其切分的实用化程度仍 有待于提高。到目前为止,版面分析在国内虽然【旦取得了一些成就,但中文 版丽分析的正确率还远远达不到英文o c r 的版面分析水平,这是因为中文版 面同英文相比要复杂的多,随着中文出版物花样越来越多,人们面临的文档 内容千变万化,版面各式各样,现有的版面分析技术已经无法满足人们的需 要,因此版面分析成为o c r 中的关键问题。所以,在研究适合中文版面分析 技术的同时,国外的一些思想和方法值得我们偌豁。早在19 9 5 年8 6 3 计 划3 0 6 主题专家组组织了印刷体汉字o c r 的评测,在此次评测报告中指出, 版面分析和表格自动识别离实用还有一定距离,同时还指出随着出版物版曲 的花样越来越多,一种高度智能化的分割技术已经迫在眉睫。并且在2 0 0 1 年“中文信息处理发展国际研讨会”上重申,版面分析仍是文字识别领域中 的个研究热点问题。 版面分析是实现“原文重现”的“。个重要前提,为了提高版面分析的正 确性,方便用户批量输入有的中文o c r 系统采用手动干预或者提供几种常 见的版丽格式供用户选择,如单栏书本,多栏报纸、杂志,手写文稿等,这 些用户干预无疑会降低文档分析的自动化程殷。这与版面分析的发展趋势是 相悖的。 目前,在中文信息处理领域有代表性的清华大学,汉王公司,书同文公 司等都推出了各自有代表一1 2 的产品,其中包括汉王的尚书五号、六号,汉王 表格自动录入系统,蒙恬o c r 文字扫描辨识系统,清华文通l 二| 勺t h 一0 c 、 t h o c r 2 0 0 0 、清华紫光的紫光o c r 等,这些软件在文字识别方面,从识别返 度和识别率 二看,基本上都达到了令人满意的效果并且有些支持繁体字的 识别,在汉王尚书五号、六号,清华文通的r h 一0 c 9 7 、t 一o c r 2 0 0 0 ,清华 紫光的紫光o c r 中,还支持表格的自动识别。但是,在版面分析方面,结果 却不令人满意为了提高版面分析的正确性,往往需要人工干预,例如,在 t h o c r 2 0 0 0 中,为了提高版面分析的正确性,版面分析前根据实际情况选 第l 章绪论 择“报纸版面”或“杂志版面”来提高版面分析正确性。从这些产品的评测 结果来看,版面分析在速度上、准确性上和自动化程度七需要大幅度的提鬲。 本文针对复杂的中文版面,提出了一个基 :| 二模糊连接度的中文版面分析 方法,使用连通域搜索算法获取二值文档图像上的所有连通域,然后计算各 个连通基元在四个方向上的连接度,近而对计算出来的各个连通基元的连接 度进行模糊化处理来决定进行文字行、列的合并。为了克服标点符号对文本 行合并时所造成的影响,对标点符号采用先识别确认后合并的办法。在文本 行合并成文本段的过程中,采用最佳结构树的表示方法,并在表示版面结构 的时融入排版规则知识,可以把版面结构形蒙化的表示出来。利用以上这些 算法进行版面分析,对印刷质量比较好的中文版面具有较理想的分割效果, 证实该方法具有比较好的适应性和较高的智能化程度。 本课题来源于河北省自然科学基金资助项目 ( 资助号:6 0 2 1 2 7 ) 。现在,本论文中的研究成果已经 在项目中得到应用,基本上达到了项目的设计耍求。 本文共分五章,第二章主要介绍了版面分析的研究内容及方法:第二章 e 要介绍了文本图像的输入及预处理:第四章详细论述了基于模糊连接度私 识别特征的中文版面分析方法:第五章结束语。 河北大学硕士学位论文 第2 章版面分析的研究内容及方法概述 文档分析的研究是随着计算机技术的发展而逐步* 起的,文档分析着眼 于从整体上把握文档的结构,它在分析过程中并没有对文档中的具体字符做 出识别,而是利用文档中各个概念上的组成部分的空间或视觉上的知识作为 依据进行决策。文档分析的研究涉及很多有关文档的领域知识( 如报纸、杂 志) ,因而具有很强的针对性。 文档版面分析是印刷体文字识别系统的重要组成部分与字符识别具有 同等重要的地位,为了提高识别系统的自动化程度和输入效率,具有版商分 析功能的识别系统不再要求用户使用鼠标或键盘在版面图像上以画框的形 式手工标识出待识别的文本块,而由计算机自动完成这项工作。国内对版面 分析的研究已经取得了一定的成果,但是还不能完全满足实用化的要求。一 个智能化的版式识别系统( 如图2 1 ) 不仅要求字符识别有较高的识别率, 而且要求有版面的复原、重构功能。目前,字符识别已经达到了实用化的程 度:联机手写汉字识别技术比较成熟,手写识别软件已经成为p d a 、h ) ( 1 的 标准配置,在香港、台湾地区市场,手写板基本上算是桌面电脑的标准配置, 达到了: o 的装机率,在中国大陆地区,目前仍处于普及推广阶段,装机! j 达到了1 0 9 1 。:脱机手写汉字识别由于其单字切分不能完全自动化、识别鉴 低的难点,目前逐步转向应用研究,如银行票据识别,邮政地址识别等。从 应用的角度来看,走专用的识别系统的路子可能是最切合实际的选择:在印 刷体汉字识别方面,技术尤为成熟,支持多字体识别、大字符集识别、巾英 文混排识别、中英文名片识别等,其识别率已经达到了相当高的水平。但是, 由于中文版面所具有的特点,使得对中文版面进行分析的难度高于英文版 面,其实用化程度还不能满足用户要求。完整f | 0 版面信息处理过程应包括以 下三部分: j 版面分析:将输入文档图像分割成为不同的区域,并标定区域的类 型( 如文本、图像、表格等) 。 2 版面理解:获取文档的逻辑结构,包括各区域的逻辑结构、文档的 第2 章版面分析的硼究内容及方法概述 层次关系和文章的阅读顺序等。 3 版面重构:根据版而分析和o c r 的结果重构出包含文字信息和版蔺 信息的电子文档。 ,j 、 圈悭匿堵i 一 国版 像 面 输分 j k表格识别卜, 叫 析 二纠字体、字符识别e : 格 式立 立j 、 件 件辅 士 叫 m 成 圈21 智能版式识别系统示倒 在目前的o c r 领域,对版面信息的利用停留在将版面分析作为识别预处 理步骤上。无论足将版面分析看作是文字识别的预处理步骤,还是将文字识 别看作是版面分析的一部分,均不能将版面分析和文字识别分离开来,版面 分析和文字识别在o c r 系统中占有同等重要的地位,它们的发展是相互促逆 和相互制约的。 21 版厩分析的目标及技术路线 2 1 1 中文版面的特点及需要解决的问题 中文版面与外文版面相比,有以下主要特点: 1 中文版面的版式结构花样繁多,干变万化。版面内文字、图像交错 中英文混排,各个文本块的字体、字号频繁变化,文本块间的问隔线、花边 线繁多。 2 中文版面有横、竖排版之分,而英文版面没有。中文版l 珂上标题、 正文的横竖排版方式交错存在,给版面分析增加了难度。 简单文档中含有很少见的版面。例如,不同区域的矩形边界相互交 叠,复杂的或多列的文档中含有小字体、小字块和小的行间距。 4 中文字符和英文字母的高宽比及其距离不同。因此,版面分析中所 i 羽北大学硕士学位论又 遵循的分析规则和划分区域的有效特征与英文版面均有所不同。 5 中文版面的印刷质量普遍不高,如噪声严重等,这使得关键性的版 面分析特征发生变异,导致版面分析得出错误结果。 正是由于上述特点,在中文版面分析中存在以下需要解决的问题: 1 如何适应汉字由部件组字和英文由字母组词之间的构成差异以及在 中英文混排文档中提取出有效的分割特征,是利用自底向上方法所需解决的 主要问题。 2 如何适应横竖混排的版面,版面分析的各个环节均具有处理横、竖 两种排版方向的文字的能力。 3 对于中文版面的规范性、印刷质量比较差的情况,如何归纳出具有 较强适应能力的用于版面分析的特征。 另外,中文版面根据其领域不同,还有些各自不相同的特点,例如: 中文杂志其版面比较简单,杂志中多采用单栏、两栏、三栏的分栏规则,整 个页面中的行间距、宇间距等特征比较统一,图像、表格、真线等特殊区域 与其文本区域的特征比较明显。然而,剥于中文报纸来说,报纸版式设计是 一f j 实用设计艺术,它既包岔了平面设计中的设h 一法则,也包含了新闻学、 语言学中的很多知识。并且又融入了定程度的艺术美学知识和造型能力, 使得对中文报纸的版面分析更加复杂,在分析过程中必须从版面结构、整体 布局入手,进而划分出版而上其他成分。 2 1 2 版面分析的目的 按照目前的实际要求,版面分析程序分析结果应达到以下几点: 1 对各种版面的不同版块几何结构的分布状况分析,把各个不同版块 切开。 2 列各版块的内部特征加以分析 其他一些特殊区域。 3 确认为文本域后,对文本域的属性( 排版方式等) 加以判断,为下 一步进行文字识别做准备。 第2 章版面分t s p 雕 j 研究内容及方法概述 ! = ! ! ! ! ! ! ! ! ! ! ! ! ! = = ! = ! = = = = ! ! = = ! = ! ! ! e ! = = = = = = = ! = = = = ! ! ! j ! = = = = = ! = ! ! ! ! ! ! = ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 1 2 1 3 版面分析的主要技术路线 目前,版面分析的算法通常分为三类: 自顶向下:是指从页面的整体入手,重视全局信息,将整篇文率图像划 分为若干区域,再根据文本图像的层次化结构信息,将主区域继续划分。其 优点是简单、快速,缺点是在区域的分割过程中借助于先验闽值,对复杂的 版面适应性不强。而且一般来说,它们只能适应于曼啥顿类型的版面,也就 是说在不同区域之间有明显横向或纵向的空白闻隔,每一区域是规整矩形的 版面。例如,投影二分法“l 、循环x y 切分”i 等属于自顶向f 方法。 自底向上:版面分析从图像的像素级开始,重视局部信息,将图像小区 域逐步合并成大区域,字词一文本行一段落等,直至覆盖整个文本图像。 自底向上d 法是为了克服自顶向下力法的缺陷而产生的,它耍求先处理局部 再处理整体,在整体版面信息不明显的而局部版面信息特征显著的情况下, 能够处理比较细小的部分和区分不同的功能块从而可以解决版面比较复;j 的情况。其优点是对版面的适应性比较好,刈以处理复杂的版面,缺点是计 算量大,比较费时,准确性也不易确定。但是,随着计算机运算速度的飞速 提高,自底向上的方法的时间、空问消耗已经达到了_ j 以使用的程度例如, 游程码平滑切分”、k 一近邻聚类方法”、连通域提取算法切分”。“。“等 属于g t 底向上_ :j j 法。 综合法:随着版面分析算法的深入研究,人们在原有腆型的版面切分尊 法的基础上,加以改进或综合,同【l 寸使用了全局和局部特征束处理比较复杂 的版面,结合了自项向f 和自底向上的方法,既照顾了分割的精确性,义兼 顾了分析处理的时间开销。产生出很多快速、准确、文档适应性好的实 算 法,这些算法很难被归结到上述两类中的某一类。例如,基于背景空白的版 面切分算法“、基于组件的中文版面分析算法。”1 、自适应的刚。i 向f 和自底向上方法”“等。 近来,些版面分析的新算法也相继出现。有些算法根据分析背景的望 白而不是分析前景内容来进行版面分析。另外一些瓶的算法是基于纹理分析 ( 7 ie x t u :r ea n a y s is ) 的版面分析算法”:“。一个文字区域包含系列相 河北大学硕士学位论文 同力向并有相同问隔的文本行,在文本行内则包含大小基本相同的字符,这 呵以看作一种特殊的纹理,而其他类型的区域也有各自不同的纹理特性。因 此,就可以根据不同的纹理性质来区分文字区域和其他区域。下表( 表21 ) 列举了过去主要的版面分割方法”“2 1 :“。 表2 1 版面分割方法览表 序号作者 日期方法 特点 lw a h l 等1 9 8 2 游程平滑耗时,对倾斜敏感 2 n a g y 等 1 8 8 4 纵横分割倾斜敏感,假设基元 为矩形 3 w a n g 等 1 9 8 9 游程平滑和递归纵报纸版面分析,倾斜 横分割敏感 4 f u j i s a w 等 1 9 9 ( ) 自顶向下针对日本专利文档 f i s h e r 等 1 9 9 0 游程平滑和连通可区分和非文本区 6p a v l i d i s1 9 9 1 面向列投影 话商话唐俪斜 7b a i r o t1 9 9 2 全局到局部策略 适应不同语言,h i 倾 剁校正 8 】a in 等 1 9 9 2 c ;a b o r 滤波分析图像纹理特征, 耗时 9 l e b o u r g e o i 1 9 9 2 8 * 3 窗口滤波无约束文档,不考虑 倾剩 l ( )p a v l i d i s1 9 9 2 水习2 习2 渭和自底向适应轻微倾剁,参数 上固定 l l a k i n d e l e 等 19 9 2 背景区域跟踪只考虑文本区域 1 2 a m t m o y o 等 19 9 : 在背景区域作形态区分横竖文本,不考 学操作虑倾制 1 : i t t h e y 等 19 9 : 背景区域和最小生语言和文本力向用 成树由,计算量大 1 40 ( ;o r m a n19 9 3 k 一近邻聚类计算量大 1 5 z l a t ( ) d ( 】1 s k1 9 9 4连通域抽取 多重倾角,对参数敏 感 1 6d o e r m a n n1 9 9 5 多尺度小波分析分割非重叠的嵌套文 本,处理灰度图像, 计算复杂度高 17i ) r iv a s 等1 9 9 5 连通域合并可倾斜校正,耗州 1 8 h a 等 1 9 9 5 基于连通域的投影速度快,对倾剩敏感 19 s y l w e s t e l 1 9 9 5 可训练的纵横分割倾角和噪声自由 2 0 t a n g y 19 9 5 m o d if i e df r a c t a l可处理复杂图像,处 s i g n a t u l e理灰度图像,耗时 第2 章版面分析的研究内容及方法概述 ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 = ! ! ! 皇 2 1 5 a i b 等 1 9 9 6 掩模和神经网络处理灰度图像,耗时 2 2k is e 等1 9 9 6 背景细化倾斜的巨型文本 2 3 l i u 等 19 9 6 自适应自顶向下和非矩形基元,自由 自底向上 2 4y a m a s h i t a1 9 9 6 游程平滑和自适应对字体和背景不敏 闽值感,倾角自由 2 5s a u v o n 等】9 9 7 自底向上可处理复杂图像,耗 时 2 6 k y o n g h o 2 0 0 0 基于知识的方法对公式、表格处理效 l e e 等 果差 版面分析作为o c r 识别的第一步,实用化的版面切分算法必须满足如下 要求; 抗干扰性 版面切分的本质是基于像素分布的统计分析。对于印刷质量较差的文本 图像,版而中的污点较多,舨面切分算法必须克服污点,特别是克服背景区 的污点在切分中造成的干扰。 版面分布的结构特征通常是文本、闺像、表格等以矩形块的形式,舒层 次的分布在页面中。但经过扫描或其他力式获得的文本图像,司能会造成图 像的倾制,可以在切分之前,对图像进行倾斜校正处理,但图像纠剩处理, 往 j = 会造成文本图像的失真,进而影响版面分析、文字识别等。因此,”不 做校正的一定程度的倾斜图像进行版面分析是有意义f 向,这就要求版面切分 算法必须考虑图像倾制所带来的干扰。 高效性 实用化的版i 1 分析算法,必须是快速、高效的,版面切分的时闭j 消耗必 颁是川户卅以接受的,要尽量提高处理速度,降低算法的复杂性。 保持整体性 切分后的文本图像应能够基本体现版面分布的整体特征,这就需要对切 分后的文本块进行适当的合并。这样,【_ ! :;l 可以方便送识别模块识别。 尽量减小对阔值的依赖性 随着出版物的种类越来越多,版而的设计日趋复杂,不同类型( 如报纸、 杂志) 、不同来源、不同应用的版丽设计存在着相当的差别,很显然在版面 分析方法中过多的依赖先验阀值会降低系统的适应性,因此,版面分析过程 河北大学硕士学位论文 ! = ! ! ! = ! ! ! ! ! ! ! ! ! 1 0 1 1 1 1 1 1 1 = ! ! ! ! ! ! ! ! = = ! ! ! ! ! = = ! ! ! = = ! ! ! ! ! ! ! = ! ! = ! ! ! ! ! ! = = = ! ! = = ! ! ! ! ! ! ! ! ! ! 中尽量采用统计参数特征,以减小对阀值的依赖性,提高系统的适应性。 2 2 版面理解 版面分析意昧着从一个页面中获取版面的物理结构,而版面理解则是糁 版面的物理结构映射成为逻辑结构的过程,即对于不同的区域标定出他们的 逻辑关系,例如标题、正文、摘要等。因此,通常版面分析过程又称为版而 的物理结构分析,丽版面理解又称为版面的逻辑结构分析。 版面上不同区域之间的关系,一般可以通过不同区域之f 司的位置关系和 排版规则来确定,版面理解的算法大致可以分为下面三种: i 基于树型分割结果的版面理解算法 本算法是利用递归纵横分割的结果直接导出各个不同区域之间的顺序 关系。我们把整篇文档看作是树的根结点,则第一次分割的结果看作是根结 点的子结点,再对每个子结点进行分割,得到的结果是相应的予结点,直到 不能再分割为止。 2 基于格式描述语言的版面理解算法 m g a s h i l 0 提出了一种基于格式表达的版面描述语言f d i _ ,( r m d e l i n a t i o nl a n g u a g e ) 来表示文档结构,文档结构被表示为一系列矩形区 域,每个区域又可以递归地定义为更小的区域。由此可以看出,这种疗法只 能处理规则的矩形区域。针对述方法的缺陷,c h iu l y t l 等人又提m 丁文 档结构描述语言i ) a i ,( i ) ( ) c u i i 0 1 ta r c h i t e cl i ”。l a n g u l g e ) 是羽 o l 的个改 进,主要体现在对非矩形版面的描述上。 : 基于知识的版丽理解算法 由于不同的文档具有不同的先验知识,并且有时会以一种文档模型的形 式来定义文档的先验知识,并且使用这个模型来将文档表示成可分析的结 构。这种方法就是使用知识来引导一个理解过程。其中,最重要的是策略知 识,也就是物理版而和逻辑知识之间的关系。例如,对于书本、杂志等规则 文档,其排版都是有一定规则可循的,即使是复杂文档( 如报纸) ,其标题 图像可能排列无规则,但其文本一般电是遵照一定的规则排版的。使用这些 知识,我们可以对版面分析的结果进行逻辑标注。 第3 章文本图像的输入及预处理 ! ! ! ! ! ! ! = ! ! 皇! ! ! ! ! = ! ! ! 苎! ! = = ! ! ! 兰! ! e ! ! ! 皇ii 自! ! = = j ! = ! ! ! ! = = ! ! ! = ! ! ! ! = ! ! ! = = = ! ! 兰 第3 章文本图像的输入及预处理 3 1 文本图像的输入 随着网络和多媒体技术的发展,使得图像数字化输入设备得到广泛应 用。扫描仪、数码相机等迅速成为计算机不可缺少的图像输入工具,这就需 要在图像输入设备和应用程序之间有一个标准的通信协议。早在1 9 9 2 年, 由a l d u s c a e r e ,e a s t a mk o d a k 、h e w l e t t p a c k a r d 和l o g i t e c h 五家公司共同制定 的t w a i n 标准就很好地解决了这一问题。使用该协议一方砸可以消除依赖 与硬件的不稳定性,另一乃。面可以使图像输入设备能被更多应用程序支持。 用户可以不必考虑具体的图像输入设备的物理特性,只要遵循该协议标准, 通过一个标准的接口就u t 以方便、快捷地开发出图像输入程序,来获取图像 数据。 3 11t w a in 的组成 t w a i n 为应用软件和图像输入设备问进行通信定义了一个标准的协议 和相应的a p i 。t w a i n 的三个重要组成部分为: 应用软件 数据源: 应用程序必须被修改以使用t w a 】n 。 即符合t w a i n 标准的设备驱动程序。 数据源管理器:用来协调和管理应用程序和数据源之间的通讯。 3 12t w ajn 的作用 t w a i n 对程序开发商提供了符合t w a i n 标准的图像输入设备源代码,因 此不再需要为图像输入设备创建和移植设备驱动程序。也不必提供相关的控 制界面,只要简单地使用高级t w i k 应用程序接口,应用程序能访问任何符 洞北大学硕士学位论文 ! ! ! = ! ! ! = ! ! ! ! ! = ! = = ! ! ! ! ! ! = = ! ! ! ! ! ! = = = = ! ! ! = = = = ! = = = = = = = ! ! = = ! = ! ! ! e = = = ! ! ! ! ! ! ! ! = ! ! = ! ! ! ! 苎 合i w a i l k 标准的图像外没,这些图像外设可以是扫描仪、数码相机、帧获取 设备等。由开发商决定一个图像获取设备能提供的性能参数,然后应用程序 能够限制此图像源,以提供只符合应用程序需求和能力的那些性能。 t w & i n 标准成功的解决了图像输入设备和应用之间的通信协议问题,荠 得到了产业界的广泛认可,对于图像源开发商来说,只要使自己的产品符合 标准,使用其产品的人将增多,同时产品的支持也将增多。这是由t ;a 1 n 、 提供的简易实现和更广的设备集成带来的结果。开发商能为他们的设备提供 一个专用的用户接口,它允许设备向用户显示最新的特性,而不用等待应厍 程序在它们的接口中处理这些特性。 而对于最终用户,则获得了一种简单的处理文档中图像的方式。他们能 咀更少的步骤来存取图像,因为不用离开应用程序。 313t w a l n 协议的软件体系结构 f w a n 将罔像输入软件划分为三个层次”“”如图2 1 所示 a p p li c a t j 。n1 1 。l 叫”8 ”一6 ” - i - 1 ”。”“”l s olj i g 川b 叭j i “ f 。一,j f _ j i,一j 阁2 1t w a i n 劬、议的软件体系结构| 鞫 s o u f c e 完成对设备硬件的控制通常的设备驱动程序包含在这一层 s o u c om a n ;i g o r 管理底层s o t l - c e 与顶层a p p l i c t i t i o f 之间的交互操作 和数搌传递,将底层物理设备特性与具体应用隔绝开,从而保汪了用户图像 输入程序的独立性 a p p i c a t i o n 是由用户依照协议编写的图像输入软件 t w a i n 的三个组成部分( a p p l i c a t jo n 、s o u r c em a n a g e r 和s o u r c e ) 之间 可以并且仅可出通过两个接口( 函数) 进行通信,它们是 i ) s m e n t r y0 ,d , s - e n t r y0 。应用程序不能和数据源直接刑1 话,数据源管理器 是应用程序和数据源之问通信的桥梁提供界面让用户选择数据源、装载数 据源。所有的请求、属性等信息必须经由数据源管理器中介。才能满足各种 图像分辨率、色彩等性能要求。 第3 章文本图像的输入及预处理 3 1 4t w a f n 的具体开发步骤 图像输入程序是t w a i n 工作流程的具体实现,整个流程可分为7 个步骤: 1 )装载并打开数据源管理器 2 ) 选择数据源 3 ) 打开数据源 4 )对传输的具体要求同数据源进行协商 5 )向数据源发出请求 6 )确认数据源准备就绪,开始传输数据 7 )确认传输成功,关闭数据源和源管理器 各步的具体实现代码都封装在c & d n e r 类中,再应用程序中通过“文 件”菜单中的“选择数据源”和“扫描”两个菜单项来调用,以下是部分程 序片段: v ( ) jdc 1 o c v i e w :o n fj le c h o jc 0 0 c c d o c + p f ) o o = ( ;og i ) o c u l n e nt ( ) : ir ( p 1 ) o c 一 s c f f l l l e r 一 d s m o p e n e d ! :y ) p d o c 一 s c a nr l e y 一 l o a d i ) s m0 : p d o c 一 s c e t dr l e r 一 s e l e c t s o u :c e0 v o id c 1 ) o c v 沁w :o n f i 。l n p u t ( ) c b o c i o c * p o c = g et b o c u m e nt0 : it 。( p d o c 一 s c a n n e r 一 d s m o p e n e db y 1 p 1 ) o c 一 s c a n n ef - l o a d d s m0 : ir ( p d o c 一 s c :m n e r 一 d s o p e n e d ! = y ) p d o c 一 s c a n n e r 一 o p e n d s0 : if ( ( p d o c 一 s g t n n e r n e g o tia t e c a p0 ) = = u n - o k ) 3 2 倾斜矫正 在输入图像时,由于版面因素、纸张放置等随机因素,以及排版印刷 等诸多因素,都可以造成输入后图像的倾斜,而这种倾斜,不仅会影响到 版面分析,文字域提取等,还会给以后的行、字切分及文字识别带来不利 的影响。因此剥输入的图像,首先要进行测斜与纠斜处理。 3 2 1h o u g h 变换 h o u g h 变换是h o u g h 在1 9 6 2 年首先提出的,最初发表是用来检测图像 中的直线,现在已经成为图像分析中的一个经典工具,并广泛用于模式识别 的各个领域。其不仅司以用来检测直线段,而且可以检测圆周以及各种事先 定义好t 的曲线。下而我们先以直线的检测米说明h ( ,u g 1 变换的基本原理。 由于二维图像中的直线可以表示为: x c o s 0 + ys i n 0 = p 其 1 参数,) 、0 ( p 一口2 , o ) ( 321 ) 式中p 是从原点引到直线的垂线长度,0 是垂线和x 轴的夹角。绷i 罔 ( 2 2 ) 所示。 x _ y 空间上的 点剥应于p 一0 空间上的一条曲线,而x _ y 空问上的列 一条直线上f ( j 各点在j d p 空间对应的曲线均交于一点。此点的p 一日值即 为 x y空问的倾制角度, 如图( 2 2 )所示 : 二李孓 多絮念 一j 心 图22 x 、r 和p 一0 空阃曲线变换圈 第3 章文本图像的输入及于奥处理 从图2 2 可以看出,同一直线上的点在经过h o u g h 变换后的共同交点, 实际上就是原点到该直线的距离,0 便等于该直线与y 轴形成的夹角。所以 同一直线周边的点在经过h o u g h 变换后落在p 一目区域的附近。 h o u g h 变换一般包括三个基本步骤: 1 几何空间的每个待处理像素转换成参数空间的参数真线。 2 在参数空间设嚣一累加阵列并初始化,每个待处理像素对阵列甲处 于其参数直线上的单元加l 。 3 从阵列中选出最大值的单元,其对应的参数所决定的直线就是我们 在几何空问上要寻找的直线。 h o u g h 变换的优点在于它抗噪声的能力强,并且不受搀1 象中直线的走向 的局限,但如何解决精确和运算复杂度的矛盾以及它对存储空问的要求是应 用h o u g h 变换的主要困难。多数空间量化得越精细( 或分辨率越高) ,算法 的精度越高,但算法所需的存储空间和运算量也越大,如何在保证鞘度的情 况下降低运算量就成了h o u g h 变换在实际应用中 弦j - 项重要技术。 3 22 改进的h o u g h 算法 针对l l o u g h 变换所需的存储空间和运算蹬大的缺点,在本文中采用丁一 种改进f i jh o u g l 】变换算法,由于在我们所处理的图像页丽中几乎都包括文 本,并且一股文本在整个图像页丽中处于 导地位,所以我们耍检测图像页 面的倾剩程度就等同检测图像中一行文字的倾斜程度,处理的关键技术就是 直f ,准确的寻j 圮一行文雩:。 在文档图像中,一般来说,图形、图像、表格、标题等版面基元都是由 较大的连通域组成,而文本基元,是由单个的字符( 西文文档) 组成的,j 衍 以组成:艾本的连通域多是由大小均匀,数目众多的较小的连通域组成。因此, 通过判定连通域的大小就叮以大致确定文本区域。剥于中文文档图像来说, 一个汉字可能由几部分构成,每一部分单独构成一个连通域,这些连通城可 能大小、形状彼此差异较大,与其它宇连通域电相差较大,但这些连通域彼 此靠的非常接近,敌我们把它们先合并成一个连通域,这种连通域与其它字 连通域就比较相似了。然后,再统计出字间距和行间距,利用字问距和行问 河北大掌硕士学位论文 ! ! ! = = ! ! ! = ! ! ! ! ! ! ! ! ! ! ! ! = = ! = = ! ! ! ! ! ! ! = = = = = = = = = = # = o ! ! = ! ! = = = = = = ! ! ! ! ! ! ! = ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! :! ! 距就可确定出一行或一列文字( 如图2 3 ) 。 蚓2 : 倾斜_ 叉:本仃 然后,将每个文字以其中心点表示,这样,我们就可以用有限的点来代 替整个页面检测页面的倾斜度。如果再想提高图像倾角精度的话,可以同时 检测多行文本,取其平均值作为图像页而的倾角。这样,既减! i ) _ 厂计算量, 又保证了测量精度。 在判断文本的倾斜角度时,我们按照下面的力法进行统汁: 先固定0 ,然后按如下| :| l 勺算法统计数值, f o r ( p p ;p o i i g h t n c o l | n t t f ) 一j ,l 或 ,7 形 p 幻“力? 一c7 1 w - e e l * r e 馏;氇蕊曼,; ,t 。风为连通区域r e c ( ,、r e c t 在r 牟 ;j 上的投影 兀、0 为连通区域r e c l x 、r e c 6 ,在j 硝m 上的投影 ,f ,”是比例参数,由实验确定) l i n k ( x ,) ,) r = 1矿( t m k ( x 3 少l i n k ( y 协) f 1 ;1 l m k ( x , y ) 一0矿( 1 m k ( x ,j ,j f m k ( x 勘) 蔓f 其中:l m k ( x , = l 表示两个连通区域在i 方向上有连接关系 l i n k ( 墨= o表示两个连通区域在i 方向上无连接关系 经过对每个连通基元的四边连接度进行模糊化处理,可以去掉绝大部分 的非行、非列上的连接属- 肚以及去掉独立连通基元的连接属性,为以后的文 本合并打一| 、了坚实的基础。 定义45 行列置信度:即某一文本为文本行或文本列的程度。用戍 ) 来表示,b 口:剥任意一文本行( 列) c “它由连通域w “j ,r d c l 2 一 w _ ,1 r e e l 。组成,则: ,( ) = r a t i o + p r m ) 4 + “1 c ,( w p 第4 章基于模糊连接度和识别特征的中文版面分析 其中:r a t i o宽高比或高宽比; p i a # l y i 表示组成文本行( 列) 的所有的任意两个连通域 c l ! y l l c l ( r ) a 的和的平均值: m ,e r a g e 表示组成文本行( 列) 的所有的任意两个连通域 d ! f f b r e n c e ( r , y ) i 的和的平均值; 规则8 :行、列合并规则。根据所计算出来的连接度,把所有存在连接关 系的连通基元合并成文本行、列。即对任意两个连通基元o 、r e c ( ,如果 l i n k ( x :j 0 ,一l ,则令l e c l x = r e c , 。w r e c l ,去掉连通基元r e c 6 ,。其中: jf l o g x = 1矿i = l 或,= 3 l 肛w x - 2 ,i = 2 或j = 4 如果剥任意连通基元,1 e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论