(计算机应用技术专业论文)基本数学公式识别技术的研究.pdf_第1页
(计算机应用技术专业论文)基本数学公式识别技术的研究.pdf_第2页
(计算机应用技术专业论文)基本数学公式识别技术的研究.pdf_第3页
(计算机应用技术专业论文)基本数学公式识别技术的研究.pdf_第4页
(计算机应用技术专业论文)基本数学公式识别技术的研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)基本数学公式识别技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈m t 业人学碱卜学位论文 摘要 印刷体数学公式识别( o p t i c a l f o r m u l a r e c o g n i t i o n ) 是图像分析技术与传统的字符 识别技术、公式的结构分析技术相结合的结果,它是近年来爿兴起的研究热点,其与普 通的o c r 系统的主要区别在于公式同文章的文本部分的分离,公式巾符号位置信息的 记录以及公式的结构分析与再现。 利用先验知识查找公式所在区域是目前国际上最新的也是最广泛的查找公式所在区 域的方法。经过对先验知识的分析和公式中符号特性的总结可以很好的找出公式在文章 中的位置。本文重点研究了汉字文章中公式区域的查找、公式中字符的分割以及其位置 信息的记录、公式中字符的识别等。此外,本文重点论述了利用汉字形体信息与排版的 先验知识在查找公式区域中的应用。 数学公式的识别不仅只是公式中符号的识别,其还包括了公式抽取,公式:维结构 的记录等方面的研究。目前国际上提出的公式区域抽取的方法基本上是针对外文文章而 言的,对于中文文章并不适用。本文根据汉字的形体特征,设计了利用循环投影统计的 方法求出相应的闺值,并根据汉字的形体特征,找出汉字文章中的公式区域。本文通过 计算公式中字符的最小外接矩形,将字符依次分割开并记录其位置信息,然后进行归一 化处理,利用本文设计的适合本文中字符识别的识别模块,即二层感知器神经网络识别 模块,将归一化后的字符识别出来。本文对公式的结构分析与再现只做了概要性的介 绍,介绍了目前常用的方法。本文最后将所设计的方法进行了实验,证实该方法是可行 的。 关键词:公式抽取,分割,神经网络 沈阳t 业人学坝l 学位论文 b a s i co p t i c a lf o r m u l ar e c o g n i t i o nt e c h n o l o g yr e s e a r c h a b s t r a c t o p t i c a lf o r m u l ar e c o g n i t i o ni st h er e s u l tw h i c ht h ei m a g ea n a l y s i st e c h n o l o g ya n dt h e t r a d i t i o n a lc h a r a c t e rr e c o g n i t i o nt e c h n o l o g y ,t h ef o r m u l as t r u c t u r ea n a l y s i st e c h n o l o g yu n i f y i t b e c o m i n gm o r ea n dm o r ei m p o r t a n tt e c h n i q u e t h e d i f f e r e n c e sb e t w e e no p t i c a lf o r m u l a r e c o g n i t i o na n dt h eo r d i n a r yo c r a r ce x t r a c t i n gm a t h e m a t i c a lf o r m u l ai np r i n t e dd o c u m e n t s , t h ep o s i t i o no f s i g ur e c o r d e da sw e l la st h ef o r m u l as t r u c t u r ea n a l y s i sa n dt h er e a p p e a r a n c e i t i st h em o s ti m p o r t a n tm e t h o dt h a ts e a r c hf o r m u l ar e g i o nb yt h ep r i o r ik n o w l e d g e t l n o u g ht h ep r i o r ik n o w l e d g ea n a l y s i sa n dt h ec h a r a c t e r i s t i co f s i g ni nt h ef o r m u l a , w ec a nf i n d t h ep o s i t i o no ft h ef o r m u l ai nt h ea r t i c l e t h ee m p h a s e so ft h ea r t i c l ea r et h ef o r m u l ar e g i o n s e a r c h ,t h es i g no ff o r m u l ad i v i s i o n ,t h ep o s i t i o n a li n f o r m a t i o no fs i g nr e c o r d ,t h es i g no f f o r m u l ar e c o g n i t i o na n ds oo n i na d d i t i o n ,t h i sa r t i c l ee l a b o r a t e dt h ea p p l i c a t i o ni nt h es e a r c h f o r m u l ar e g i o nb yc h i n e s ec h a r a c t e rf i g u r ei n f o r m a t i o na n dt h ep r i o r ik n o w l e d g eo f t y p e s e t t i n g o p t i c a lf o r m u l ar e c o g n i t i o ni sn o to n l yt h es i g no ff o r m u l ar e c o g n i t i o n ,b u ta l s oi n c l u d e t h ee x t r a c t i o no f t h ef o r m u l a , t h er e c o r do f t w od i m e n s i o ns t r u c t u r eo f t h ef o r m u l aa n ds oo na t p r e s e n t ,t h em e t h o d so ff o r m u l ae x t r a c t i o nb a s i c a l l ya r ea i ma tf o r e i g nl a n g u a g ea r t i c l et h e y a r cn o ts u i t a b l ef o rc h i n e s ea r t i c l e t h i sa r t i c l ep r o p o s e dt h ec i r c u l a t i o np r o j e c t i o ns t a t i s t i c s m e t h o dt h a tf i n d st h ec o r r e s p o n d i n gt h r e s h o l d a n dt h e na c c o r d i n gt ot h ec h i n e s ec h a r a c t e r f i g u r ec h a r a c t e r i s t i cd i s c o v e r st h ef o r m u l ar e g i o ni nt h ec h i n e s ec h a r a c t e ra r t i c l e t h i sa r t i c l e c o m m i n u t e st h es y m b o l so ft h ef o r m u l aa n dr e c o r d st i l e i rp o s i t i o nb yt h eo u t l i n er e c t a n g l e so f s y m b o l s ,a n dt h e nn o r m a l i z e dt h e s es y m b 0 1 t h e nd e s i g n e da r t i f i c i a ln e u r a ln e t w o r kt h a t r e c o g n i z e st h e s es y m b 0 1 t h i sa r t i c l ei n t r o d u c e dt h eo u t l i n eo ff o r m u l as t r u c t t t r ea n a l y s i sa n d r e a p p e a r a n c e t h i sa r t i c l ei n t r o d u c e ds o m ec o m m o n l yu s e dm e t h o d s f i n a l l y , t h ea l g o r i t h mi s t e s t e d a n dc o n f i r m e dt h i sm e t h o dw i l lb ef e a s i b l e k e yw o r d s :f o r m u l ae x t r a c t i o n ,s e g m e n t a t i o n ,a r t i f i c i a ln e u r a ln e t w o r k 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 沈刚工业大学或其他教育机构的学位或证书所使用过的材料。与我一同 【作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表 示了谢意。 签名: 孟呈垂日期: 关于论文使用授权的说明 本人完全了解沈阳工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 ( 保密的论文在解密后应遵循此规定) 签名:熊遮 导师签名:垒玺复生 日期:;塑! :i :! ! 1 绪论 1 1 问题的提出 随着近年来因特网用户的非常迅速的增加,通过这条渠道传播和交换信息的趋势只 益增多。数字图书馆和远程教育已经成为很热的研究领域,在这个领域中广泛的使用 i n t e r n e t 从事出版。实现这些想法的有效工具之一就是开发廉价并且有效的将现有纸 上的文献转换成相应的电子格式,这种电子格式可以由今天的电予计算机处理得到并且 通过i n t e r n e t 传输。 数学公式是构成大多数科学和工程科目的重要部分,将数学公式输入计算机通常比 纯文本难,因为数学公式通常由特殊字符和希腊字母,此外还有英文字符和数字组成, 为了适应所需的大量字符和符号,在早期通常使用修改常规的键盘以适应全部字符的需 要,一种方法是用键盘上的额外的键( 如:功能键) 以及一套特殊的键顺序代表其它的 特殊符号,另一种方法是仅仅定义一套关键字代表特殊字符和符号,如在l a t e x 中那 样。现在常用的字处理软件中输入数学公式,常采用字处理软件所带的公式编辑器,但 一旦数学公式以图片形式出现,公式编辑器是不会对其起作用的。 数学公式能够包含大量的信息,一位职业数学家即使不懂f 1 语,仅仅通过看公式, 也能看懂部分用r 语写的数学专著,并且看出这本书是否值得翻译。在很多情况卜- ,公 式已经以某种印刷形式存在了,这时我们就需要扫描这篇文章,直接从图片上识别数学 公式。 数学公式的识别包括【1 :联机手写数学公式识别( 也称为在线手写数学公式识别) 和印刷体数学公式议别( 也称为离线印刷体数学公式识别) 以及离线手写数学公式u 别。在线手写数学公式识别是相对较容易的一类,目前国内外开发的基于笔输入的数学 公式编辑器就是对其进行研究。本文所讨论的是印刷体数学公式识别,印刷体数学公式 识别其实际h 是符号识别的延伸,作为普通类型的符号识别问题,已经活跃了几十年 了,并且二维图像的结构分析也有很长的历史了,但是只有很少的文章处理与数学公式 识别有关的问题,直到最近才有6 些研究者丌始关注这一领域,在国外也有人将其称之 为光学公式识别( o p t i c a lf o r m u l ar e c o g n i t i o n ) 系统,印刷体数学公式识别系统的研究 是我们对现有o c r ( 光学字符识别) 系统的有益补充,而且也有利于科技文献的电子 化。因此,在这一领域展丌研究,是有其实际价值和理论意义的。 1 _ 2 公式识别系统处理的般步骤 公式识别系统,是一个新系统,这个系统是用来抽取和理解数学公式,而这些公式 是在印刷的文献上的。一般的公式识别系统都包含下面几个处理步骤,如图1 1 所示。 其中,与( ) c r 系统口1 存在区别的主要是将公式同文章的文本部分分离丌来和对识别后的 公式进行结构分析并表达,其他的主要处理步骤与o c r 系统有很多类似之处,尤其是对 符号的识别的处理。 图像获取 r 预处理 文本与公式的分离 r 公式的分割 公式中的符号识别 r 公式的结构分析与再现 手l 到错处理 图1 1 公式识别系统处理步骤图 f i 同的公式识别系统在处理幅待识图像时,处理步骤可能并不完全相同,有的系 统可能将分割与识制合并为一步,但一般看来,都需要经过以下几个阶段。 ( 1 ) 图像获取阶段,同其他识别系统一样,获取图像是公式识别系统的第步, 通常采用光学的办法( c c d 摄像机、光学扫描仪等) ,得到的图像是字符和公式的像素 描述,像素描述的重要参数是分辨率,分辨率包括空间( 二维平面) 分辨率和灰发分辨 率,前者反映了象素描述在空间一卜- 的精细程度,而后者则反映了象素描述在獗度( 色 彩) 空间的精细程度。 ( 2 ) 图像的预处理阶段,预处理阶段在实用系统中是个很重要的阶段。预处理 效果的好坏会直接影响到整个系统的性能,其包含的内容非常广泛。一般而言,预处理 的目的是为了滤除噪声、增强有用信息、对退化的信息进行复原、二值化等。 ( 3 ) 将公式同文本部分分离阶段,普通的o c r 系统在版面分析阶段只是将图片、 表格等区域同文本区域区分开来,与文本区域很相似的公式区域是作为文本区域起与 其他区域区分开来的。公式识别系统与同普通o c r 系统的不同之处就在于,它需要将 公式区域同普通的文本区域相分离,以便采用不同的分析及构造手段,公式阿文本部分 的分离是公式识别系统中重要的一步,尽管在识别阶段,对符号字符的识别与对文本中 字符的识别所用方法类似,但在构造再现阶段,二者所用方法是有本质区别的。如果分 离阶段出现错误,那么下面的工作将很难进行。 ( 4 ) 分割和识别阶段,在将公式区域单独分离后,需要将公式中的字符进行分割 以便进行识别处理,这一阶段的处理与字符识别时的分割虽然有不同的地方f 3 l ,但还是 有很多方法都可以借鉴的。为了进行识别,还需要进行特征抽取。 特征抽取是为了去除图像信息中对分类没有帮助的部分,将图像信息集中到有代表 性的几个特征上来的过程。选择稳定的、有代表性的特征往往是一个识别系统成功的关 键。按照统计的观点,好的特征抽耿方法必须满足三个条件:一是抽取的一组特征相互 独立或者说不相关:二是特征抽取能有效减小类内距离,增大类间距离:_ _ = :i 是特征向量 的维数尽量小。而在实际应用中,寻找满足这兰点要求的特征抽取方法是硕富有挑战 性的工作,也是人们梦寐以求的。 沈m i 业人学砸f ? 学位论文 人们按照特征生成的方式,将特征分成三类:局部特征、全局特征、结构特征。局 部特征指那些不考虑字符结构信息,而通过局部变换得到的特征;全局特征指那些不考 虑字符结构信息,而通过全部变换得到的特征:结构特征指那些考虑到字符笔画结构的 特征。不同特征,特别是不同性质的特征从不同的方面表达图像不同的本质信息。 特征抽取之后就要进行分类识别,分类识别指分类器依据特征抽取阶段抽耿的特 征,用事先得到的文法规则或决策函数判别对待识字符的类别做出判断。获耿文法规则 或决策函数的过程称为训练或学习。训练或学习的过程既可以由机器自动完成,也可以 用手工方法进行,或两者结合。分类器可分为模板匹配分类器、统计决策分类器( 含几 何分类器) 、句法结构分类器、模糊判决分类器、神经网络分类器和逻辑推理( 或人工 智能) 分类器等六种。多数情况下,单一分类器往往难以获得好的分类结果,因此,多 分类器融合的方法在实际应用中常被采用。而在很多时候,为了提高分类器的工作速 度,分类过程常分为两级或多级:先进行粗分类,然后再一步步进行细分类。 ( 5 ) 结构分析与表达阶段,在识别之后,对于公式识别系统来说并没有结束,山 于公式具有二维信息,其分割识别后的字符不一定是一个单个的个体,这就需要利用分 割和识别时所得到的信息,如符号之间的相对位置信息,对公式进行结构分析,并通过 一定的构造方式将其表达出来1 4 j 。 ( 6 ) 后处理阶段,识别的结果通常不可能达到完全的理想状况,通常需要对识别 的结果进行纠错处理,有时是通过手动进行纠错的,但并不是每个公式识别系统都必须 的。 1 3 公式绷技术的国内外发展现状 目前在国内,文字识别的方法很多口 ,也形成了一些比较成熟的软件( 如清华紫光 ( e r ,汉王科技等) ,它们对印刷体文字( 包括英文和汉字) 的识别率较高,对手写体 文字的识别率也在逐步提高。但由于数学公式中包含了一些特殊的字符,如数字、英文 字母、希腊字符和一些数学运算符号等,并且这些符号不像简单文本那样线性排列,而 足按一定规则分布在二维结构中,结构比较复杂,计算机对它的自动识别是富有挑战- 阽 的【】。曾有研究者在文章中指出科技文档不仅包含普通文字、图像和图形,还包含人墨 沈t 业人学硼卜学何i = l = 殳 的数学公式。现有的商业处理系统能够高效、准确的识别这砦文档中的文字,但是还没 有种系统能够识别其中的数学公式。国外能够识别公式的软件也处于研制当中。 对于公式识别的研究,田外早:卜国内,国外曾有文章指出,公式识别是典型的由符 号识别和结构分析组成,另外对于印刷体的公式识别,确定公式所在区域也是公式识别 中必须要解决的问题。符号识别,作为普通类型的符号识别问题,已经活跃了3 0 年 了。:- 维图象的结构分析也有很长的历史了。但只有很少的文章处理与数学公式识别有 关的问题,直到最近才有更多的研究者开始关注这一领域忆 在公式识别系统中所涉及的几个方面中,将公式从文本中分离、公式中符号的识 别、识别后的结构分析与再现,国外都早于国内,但其中将公式从文本中分离是应用于 外文文本的。国外对于将公式从文本中分离出来的研究是近年来才开始的,面且提出过 不同的方法,而且目前从资料上看效果比较令人满意,国外对这一方面的研究已经比较 深入,但这些方法都是针对外文文档的。国内从目前本文作者所查找的资料范围来看, 还没有入对从中文文档中将公式从文本中分离出来公开发表文章,只有对圈外方法的筒 要介绍。对于公式中符号的识别,由于其与普通的字符识别在方法上并没有太大的区 别,故国内外并没有人针对这一点进行什么研究,都是利用已经有的识别技术对公式中 出现的符号进行识别。对于公式的结构分析与再现,国外在较早的时候已经开始单独研 究,并且也提出了不少的方法,但从再现上看,基本上是应用在u n i x 系统下的,并且 在重构时并没有将其转换成现在较流行的m a t h m l 语言。国内对这一方面的研究也是处 于起步阶段,发表的文章并不多,并且由于公式不存在语言上的差别,故可以比较好韵 借鉴国外的做法。 另外,国内目自u 对公式识别的研究主要集中在在线手写公式识别系统 6 1 的研究,而 对于离线印刷体公式识别系统的研究目前的研究还比较少。2 0 0 3 年5 月份召丌的数字 纸张大会上曾提出了要对其在今后进行详细的研究。 1 4 本文工作概述 本文针对印刷体数学公式识别这领域中,根据目前国内情况有别于幽外情况,进 行了研究,主要研究工作包括: 沈mi 业人学硕l 学位论文 本文所处理的图像是最大为8 0 0 6 0 0 的2 5 6 色的扶度级图像,并且只包括文字和 公式,肘于包含表格、图片等的图像本文不做考虑。在文档图像的预处理中, :要介绍 了图像的_ 二值化方法、倾斜矫f 等常见的图像预处理方法,并阐述了本文采用最大类蚓 方差法进行二值化的原因。 本文根据目前国内外情况,主要研究了在中文文档图像中将公式l j 文本分离以及分 离后对公式中字符的分割,本文根据中文文本的特性,与国外方法做比较,并提出了适 合中文的文本与公式分离的方法。在公式与文本分离后,根据在字符识别中常用的分割 方法,以及对公式中分割后的字符需要记录其位置信息的要求,采用了适合公式中字符 的分割方法。最后对分割后的部分公式中的字符进行了识别,对于公式结构的分析与再 现,本文只做了简要的介绍。 1 5 本文内容安排 本文主要分为7 大部分,第1 部分对公式识别系统及其意义做了介绍;第2 部分介 绍了与图像预处理有关的方法,主要探讨了二值化方法;第3 部分介绍了利用循环投影 统计的方法将中文文档图像中公式与文本分离的方法;第4 部分介绍了分离后适合公式 中字符的基于连通域的分割方法;第5 部分介绍了基于二层感知器的神经网络的识别方 法以及对公式的结构分析与再现的简介;第6 部分是对所作实验工作的结果分析;第7 部分是结论及对今后工作的展望。 沈m t 业大学硕i 学位论文 2 图像的预处理 2 1 引言 同o c r 系统一样,公式识别系统,也需要首先将印( 写) 在纸上的字符,经光电扫 描产生模拟电信号,再通过模数转换为带灰度值的数字信号输入计算机。纸张厚度、洁 白度、光洁度、油墨深浅、印刷或书写质量都要造成字形畸变,产生污点、飞白、断 笔、交连等干扰。输入设备的鉴别率、线性度、光学畸变、量化过程也要产生噪声。所 以,识别之前,要对所要处理的图像进行预处理( p r o c e s s i n g ) 。 预处理一般包括二值化、平滑、去噪声、规范化等。不同的识别方法,对预处理的 项目和要求有所差别。有的识别方法对细化预处理要求很高,有的则不需要细化等。 2 2 劣渡图像的- = t 直4 9 2 2 1 概述 二值图像是指整幅图像画面内仅黑、白二值的图像,在它们之间不存在其他灰度的 变化。在数字图像处理中,二值图像占有非常重要的地位。这是因为,一方面,有些需 要处理的如文字图像、工程图纸等图像本身就只需要是二值的;另一方面,在某些情况 下即使图像本身是有灰度的,我们也设法使它变成二值图像再进行处理( 即灰度图像的 二值化) 。这是考虑到在实用的图像处理系统中,要求处理的速度高、成本低,信息量 大的浓淡图像处理的花销太大。此外,二值化后的图像能够用几何学中的概念进行分析 和特征描述,比灰度图像优势大的多。因而,二值图像处理目前己经成为图像处理中的 一个独立的、重要的分支。 一:值化的方法很多,但又没有对任何对象都普遍适用的方法,必须根据具体的处理 对象而定。二值化的关键是要找到合适的闽值t 束区分对象和背景。 设扫描、a d 转换后的图像点阵为: c = ( f ( i ,j ) ) i = j ,2 ,p ;j = l ,2 ,q ( 2 1 ) 式中f ( i ,j ) 是像素( i ,j ) 的灰度值。有黑笔画的部分,f ( i ,j ) 小;而门 背景部分,f ( j ,j ) 则大。最简单的二值化通过设定固定灰度闽值t 完成,即当f ( i ,j ) 值比预定阚值t 大,看成背景,以0 标志;甭则看成字符笔i m j ,以“】”标 志。 假设: 鲥,2 忙篇甾i 乩z ,巾一心,a z , 则b = ( 烈巧”为图像二值化后的图像点阵。 二值化的关键在于阈值t 的选择。一般情况f , 关,而且还与该点的灰度值和它周围点的灰度值有关。 元函数的闽值算子来表示。 t = t f ( x ,y ) ,n ( x ,y ) ,( x ,y ) 式中:( x ,y 卜一图像中像素位嚣; t 的选择不仅与像素点的位置有 因此,阈值t 可用一个形式为三 ( 2 3 ) 胀,打一弋表图像中( x y ) 处的灰度值; n ( x ,y ) 一为( x ,y ) 周围邻域的灰度特征。 其中有些元素是可以缺省的,因此可以衍化为三种形式p 。 当仅由像素点( x ,y ) 的灰度值f ( x ,y ) 确定闽值时,闽值t 表示为t = f f x ,y ) 。这种确 定闽值的方法称为整体阂值选择法。 当由像素伍y ) 灰度值f ( x ,y ) 和像素周围点局部灰度特性确定阈值时,闽值t 表示为 t = t f ( x ,y ) ,n ( x ,y ) 】。这种确定阈值的方法称为局部闽值选择法。对于质量差,干扰较严 重的图像,采用全局法对它进行二值化,效果不太理想时,局部阂值选择法有可能得到 较为满意的二值化结果。不同的局部闽值法源于n ( x ,y ) 的不同选择。 当阈值选择不仅取决于该像素阈值以及其周围各像素的次度值,而且还和该像素坐 标位黄有关时,阈值t 表示为t _ 叮 取,y ) ,n ( x ,y ) ,( x ,y ) ,这种确定阂值的方法称为动态阂 值选择法。这种方法可以处理低质量甚至单峰直方图图像。对于字符图像而言,其笔画 和背景的区分是比较明显的。而且,动态阂值法计算时间长,因此在文字识别中很少采 用。 令局阙值法根据图像的直方图或狄度空间分布确定1 个阈值,以此实现狄度幽像到 二值图像的转化。典型的仝局阀值方法刚包括o s t u 方法、最大嫡方法等。全局闽值法算 法简碧,对于目标和背景明显分离、直方图分布呈双峰的图像效粟良好,但其对j 由于 光照不均匀、噪声于扰较大等原因使直方图分布不呈双峰的图像,二值化效果明显变 差;局部闽值法通过定义考察点的邻域,并由邻域计算模板,实现考察点灰度与邻域点 的比较。非均匀光照条件等情况虽然影响整体图像的灰度分布却不影响局部的图像性 质,从而使得局部闽值法在某些类型的图像中较全局阂值法有更广阔的用途。b e m s e n 9 1 算法是一种典型的局部闽值法。但局部阂值法在文本图像识别中也存在以下问题和缺 点:如实现速度较全局阈值法慢,不能保证字符笔划连通性,容易出现伪影( g h o s t ) 现 象( 背景区域受到噪声于扰出现笔划) 等;动态闽值法是一种自适应的二值化方法,它 利用了像素自身及其邻域灰度变化特征,由于充分考虑了每个像素邻域的特征,能够更 好的突出背景和目标的边界使得相距很近的两条线不会产生粘连现象,例如文献1 0 1 将其应用于矿图扫描图像的二值化,效果较好。 需要指出的是,局部阈值和动态闽值虽然能处理质量较差的图像,避免整体闽值法 带来的不应有的夫真。但是,- - n 时间开销大,二则考虑到实际的局部闽值和动态阈值 选择算法,往往在图像的某些部位上产生整体阈值选择法不会产生的失真,因此,存字 符识别中,一般采用整体阈值法。 2 2 2 二值化方法介绍 ( 1 ) 人工设定整体阈值】,人工设定整体阈值法是根据实验或人的先验经验,预 先给定一个固定阈值t ,当舣,y ) 丁,。17 1 其他情况。 喵 式中t 为预定的非负阀值,它是噪音成分标准差的常数倍,实际值由实验决定。该 方法的思想是:当一些点和它邻域内点的灰度平均值的差不大于规定的阀值t 时,就仍 保留其原灰度值不变,如果大于阀值t 时就用它们的平均值末代替该点的灰度值,从 而减少因完全平均化而使图像边缘模糊的现象。 2 4 图像的倾涂 桩 住扫描输入的过程中,图像由j 一各种原闲不可避免地会引起倾斜现象,出丁本文后 面将用到投影操作,这种操作对倾斜比较敏感,故需要对图像做倾斜矫正的操作”j 。图 像的倾斜校正般分为f 动校正和自动校f r 。手动校j i 指系统提供某种人机交瓦手段, 山用,1 指定图像倾斜的角度,然后采用相应的图像旋转算法进行旋转校f 。自动校正, 即f = f 系统通过分析图像的点阵信息,白动计算出图像的倾斜角度,从而自动对之进行校 j f 。山于倾斜矫f 卜本身并卜是本文研究的对象,故本文中采用的图像是经过手工矫正的 图像。对于倾斜矫正在此处就不做过多的介绍了。 预处理的目的是为了减少出于传输设备的 i 精确而产生的干扰信号,是为了纠f 卜由 于某种原因所产生的图像变形,是为了去除冗余的数据信息。 本文在此处只介绍了部分预处理,包括二值化、甲滑等。二值化把字符灰度图像转 换成二值图像,减少了处理数掘量。平滑是为了消除图像中的噪声成分。倾斜校正是为 了纠i i _ f 图像的变形。对于其他的图像预处理操作,本文在此处就不做介绍r 。 沈1 业人学城i 学f 缸论史 3 公式与文本的分离 3 1 概述 数学公式的抽取与其他对象如:图表、冈画等的版面分割有所相同也有所不同。从 目前所查找的文献表明,国外有对其进行专门研究的学者,而且从9 0 年代中期就已经 开始,但国内目前就作者所查找的范围,还没有发现公开发表的文献对其进行专门研 究。 在科技文献和工程文献中很多情况都是文本和数学公式混合在一起的,所以在识别 之前需要从文档中找出数学公式,在文档中的数学公式表现为2 种形式:独立的公式行 和嵌入式公式的文本行。独立的公式行是指独占一行的公式区域,而那些和文本混合在 一行中的公式行称为嵌入公式的文本行。 本文只处理包含数学公式与文本的图像,对于包含图表、图片等的混合图像不进行 处理。对于将公式与文本进行分离,从执行方法上来看,大体上分为两种方案。中是 先对包含公式的文本进行识别,对于不能识别的部分,则全部当成是数学公式区域进行 处理,并且对于当成数学公式区域处理的部分在处理后的出错部分则进行手l 处理:另 一种是根据公式本身以及排版的特性,先进行对公式区域的查找,然后抽取。 由于,第一种先进行识别文本的方法需要所用的识别软件有较高的识别率,而目很 多情况下,由于公式的存在,公式周边的文本经常被误识。这种方法在国外九卜年中后 期曾有研究者采用过。进入二十一世纪后,国外学者更倾向于第二种方法。 对于第二种方法,基本上都是利用先验的知识进行处理。并且目前就作者所查资料 显示国内还没有人对这一方面进行专门的研究,国外的做法有多种,下面简要介绍卜- 国外研究者的做法。 l e ehj 和w a n gjs 【1 叼是较早研究公式抽取的国外作者,他们将文档中的行分为文 本行( 标为t e x t ) 和公式行( 标为e x p ) ,通过分析孤立公式行的上下有较宽的窄白 区域,将其作为孤立公式行进行抽取,并标记为e x p 。对于嵌入公式的文本行则灯其| ;f 的字符进行识别,如果存在公式中的字符则将该行也标记为e x p ,但没有确定其的具体 沈阿i t 业人学烦卜学位论文 区域。并目,这种方法如果存在相近字符则很容易产生错误,只适合简碧公式的区域定 位。 f a t e m a nr j 【”1 提出定义了文本包( t e x tb a g ) 和公式包( m a f i ab a g ) ,首先将所有 的符号初始化分为2 类,分别放在定义好的2 个包中。在f a t e m a n 的方法中利用了在外 文中公式区域是斜体的特征,其需要将所有的连通分量都看做是字符,并且在分类的时 候需要能够识别字符和字体。在此处其认为斜体部分可能是公式区域。这种方法需要人 工娇正,并且只适合外文。 c h a u d h u r i 和g a r a i n 【z o j 的算法定位独立的数学公式不要用到符号识别的方法,它通 过计算行内各符号的纵坐标的平均值和标淮差来判断本行是否为独立的数学公式,采用 符号识别的方法来检测嵌入式数学公式,如果存在某个特殊符号( 这犟的特殊符号指数 学公式中特有的符号) ,则说明存在数学公式,并采用启发式算法来得到整个数学公 式。但其所采用的特有符号在中文中容易与中文中的字符相混淆,故对中文的处理存在 一定的不适用牲。 k a c e m l 2 1 捌等的方法是将图像中的所有连通区域都作为符号对待,根据每个连通区 域的宽高比、密度等特征,找出属于公式中的符号,并将他们定位。但该方法较适用于 英文,因为大多英文字母都在同一连通区域,对中文就不太适用了。 通过对国外方法的研究,发现国外的方法比较适用于外文,对中文并不是很适用, 故作者根据中文文字的特性,设计了循环投影统计的方法进行对公式区域的抽取。 3 2 行列切割统计 通常对于汉字识别系统,汉字图像经过扫描仪等光电设备输入计算枫后,经过对文 本二= :值化图像的版面分析,将文字图像的区域按方块提取出来以后,为了识别单字,还 需要将每个汉字的图像从整块文字图像中分割出来,这就必须进行文字图像的行切割和 列切割。 由于本文重点是在汉字图像中抽取数学公式,进而再对数学公式进行分割,故也需 要对图像进行行切割和列切割。同时利用包含数学公式的文本行的特点,找出该行。 沈阳t u kk 学硼i ”学位论史 目前我冈的出版物一般以横排版为主,横排版的文字是从五二向右按行编排,然后再 从上往下逐行排列。因此,我们以横排版为例,进行说明。 3 2 1 行切割 普通的o c r 对于输入的二值化文字图像,首先要逐行地把各文字行图像切割出来, 行切割的方法是:对二值化图像从上到下逐行扫描并同时计算扫描行的象素,以获取图 像的水平投影,根据水平投影值确定文字行的位置,利用文字行问的空白间隔造成的水 平投影空白间隙,即可将各行文字分割开来。 对于需要识别公式的公式识别系统来说,也需要进行行切割,由于本文采用的方案 是先将公式与文本分离出来再进行识别,故行切割就不仅仅是将各行文字分割开来。在 本文的彳亍切割中我们需要记录各行的宽度,同时记录该行的y m i n 和y m a x ,将最常出现 的宽度值作为普通行的宽度,汜为b w i d t h 。另外在行分割时还要记录各间段宽度,同 时统计出最常见的间段宽度作为普通间段宽度,记为w w i d t h 。在统计各行宽度的同时 还要计算各文本行密度,同时对各行的密度进行统计,对所得的统计值进行分析,根据 b w i d t h 得出普通文本行的行密度,记为b d e n s i t y 。 图像的行切割结果如图3 1 所示。 一骱育一十卑膏量对眯曩脯律 青每盒曩帕点童i 育一 量执膏t 生烟 蠢千擗卉镧嘲蔫i 蛔嵋矗膏蔫期瞄期惦子 傩蟪脯翱睫参t 鼍蕾童丧奠韩嘲幡嚏限下蠢璧翮i 膏l 慷 奄鬟童一_ p o l 矗豫鬟毫t 1 琦雠瞄看计黼觳量 扣f f ( 口瑚 拉i 甜 蕾1 0 l l i l t l l 力时t 手l 方一躺,- i 以r i t l t ,q ,凡硼嘲 簟步吐挹膏韭馨在t 奇辱,再鞋蕾一舞中麓甜矗啪 的量肆麒 知_ t 酋毒俸盼医摹稠币太且有声么- i 育- 车身鼍 育枷- t 了目鲁尊如韵菇井,膏羹曾赫皇位t 鞋孰,格 t 不刖l 蠹持彗摹羽i 主聃鹫卜明在一舰城上膏砖勘堋囊 曩蜘攮垃蛳i 捌l j 晰+ i i 辩曩i 蹑- 潍太奉不_ # 摹矗串 静盘可t 小瑚忱量叠l 睁琦慢,在州目啉囊_ 嘲慑下 峰t 蓬矗叠生t 井童毫量l r 触赫_ 狰幕育i 融毒赫奠蛔簟t 毒i 瞬 于撇摹十一毫曩羹幸旧髑上翻千辱摊囊棒冉黼井尊煮 曩( 出毳麟) 渡缸- m ? ,榭t _ 瞳计明i 多日曩 的量嚏t i 童_ 靠看曲彗甘蔓可 图3 ,1 行投影结果图 li|熬 行分割的具体方法如卜: 没文本的二值图象为f ( i ,j ) ,文本图象的大小为m ,m 。,其中,j 、j 为像素的 行列坐标。那么,首先定义f ( i ,j ) 在i 行上的投影函数为: m , g ( f ) = f ( i ,) i = 1 , 2 ,m , ( 3 1 ) = l 显然,g ( i ) ,i = l ,2 ,m ,反映了文本图像的按行灰度累积密度分布情况。详 细分析g ( i ) 的分布规律,就可以获得文本图像按行书写的排列情况,并确定每行文本 的首行和尾行下标。 通常,如果第i 行图像处于行间隔,则g ( i ) 几乎为0 ,否则g ( i ) 起码大于一个宁 的平均投影密度。这样,我们就可以在单字平均投影密度值和0 之间选择一个阂值来对 g ( i ) 进行二值处理,形成二值序列g 。g 。一- g 。其中,g ,要么为0 ,要么为1 。序列中连 续为1 的子列为行段,连续为0 的子列为间段,行段或间段中1 或0 的个数称为段长。 于是,对于图片的行分割以及统计分析就可按如下方法来实现。 ( 1 ) 生成文本图像的二值序列邑g :g 。,并求出全部行段和间段。 ( 2 ) 对所求出的全部行段和间段进行统计分析,将最常出现的行段距离作为普通 行宽度,记为b w i d t h ;将最常出现的问段距离作为普通行间段宽度,记为w w i d t h 。 ( 3 ) 对所求出的全部行段和间段,根据各个段的宽度w i d t h 和图片长度m 。计 算各行的行密度: d e n s i t y = n ( w i d t h * m ,)( :3 2 ) 式中:d e n s i t y 行密度; n 一行段的黑色像素个数,对于间段其n 设为0 : w i d t h 行段或间段的宽度; m 一图片的长度。 ( 4 ) 根据b w l d t h ,统计所求的d e n s i t y ,求出其平均值,并根据实验结果进行修 l l ,将修正值记为b d e n s i t y 。 ( 5 ) 令k = l ;i = 1 ;1 - 1 :j = l :f l a g j = o 。 2 0 沈m t 业人学倾i j 学位论文 ( 6 ) 分情况对段k 进行如下处理: ( a ) 如果段k 为削段,则令 分行j = i ,i + 段长k 及i = i + 段长k ,f a g j = o 。 ( b ) 如果段k 为行段,则令 分行j = i ,i + 段长k 及i = i + 段长k ,f l a g j = 1 : ( c ) 1 = 1 + 1 :k = k + l :j = j + l 。 ( 7 ) k 小于段的总数,则转( 6 ) ( 8 ) 形成分行j = 分行首位。,分行末位, ,j = l ,2 ,1 。 3 2 2 正文抽取及文字统计 根据上- d , 节所统计的分行j 、b w i d t h 、b d e n s i t y ,抽取出部分正文文字区域,并 进行统计分析。其具体做法如下: 当行段的密度大于由实验所得值b d e n s i t y ,并且当行段宽度等于b w i d t h 时,根据 分行j 分行首位。,分行末位j ,抽取出该行。 抽取完成后,对所抽取的部分,根据分行j 进行列分割。从左到右搜索一行文字的 左右边界,切分出单字或标点符号对文本汉字行来说,由于存在左右分离字,宽窄字, 字间交连等复杂情况,加一l 字间污点干扰,使得列切割比行切割困难得多。 设l ( i ,j ) 为一行文字图像点阵,i 。为行起始位置,i 。为行结束位置,则列切割 方法如下: ( 1 ) 寻找满足兰三( f ,) :0 、兰上( f ,j + 1 ) 1 的点,作为该字符的起始位置j 。 i = i aj = “ ( 2 ) 继续寻找满足兰三( f ,j 一1 ) o 芝上( f ,) :o 的点,作为该字符的终止位黄 f = i = i 4 j e 。 ( 3 ) 按( 1 ) 、 ( 2 ) 的方法查找出所有字符的起始位置和终止位置,并统计得到 多少字符n u m b e r ,根据最常出现的n u m b e r 作为- - q :中所含汉字个数n l y b e r 。 沈m t 业人学硕卜学位论文 ( q ) 计算所有的z _ l v b w i d t hj r j 。,然后统计最常见的z w b w i d t h ,作为图像中汉字 的宽度。 ( 5 ) 计算所有的z 1 v l v w i d t i i = j - lj 。,然后统计i 最常见的z w w w i d t h ,作为图像中文 本行中汉字间距。 抽取的正文及统计如图3 2 、3 3 所示,图3 2 显示的是从图片中抽取出来的部分 正文文字区域,图3 3 显示的是对抽取的结果进行统计汉字大小以及间隔。 一古霄个与青量对出曩量曲糖悻曲曩 青色古疆的蠢度重方田 田复幻- 胃十虫舶于桷体 和井触t 目的点峰哪时莓肘斑千 量嚣如果值r 对应于i 方帕番,一i l 肌,增船刊,u ,只引起有权 n a t 步西此挹一衄鼍在i 方曲番,可毗耙一t 琏彝中峙慢耐丧舅t 鲡曩曩t 乜音体硇簟曲置蕾翻不太且3 膏_ 声奢么i 方掌身鼍 t 不量一一盼景羊童胃靠避+ 向在一童嗣童上可阻鼍过甩鲁鞭 或矗曩垃疆对育膏纛精+ 昔强亮量膏太小车一# 曩么,早 行蟊w t 小佳井t t 盘生,t 量,在平括让寞鼍毒酋情嚣下 峰值蒜量鼻盘证井童也 梧昔t 静一种蔓可的宵螯蕾彝t 蕾在糖对 曲鬟度t 簟童方瞳曲番的估计更可靠 图3 2 正文文字区域抽取图 = 童童= 皇重量t 誊量一赫囊童i l 直 羹4 】- 一抽麓誊簟囊t - 叠蚰王 柚一z 珏童一叠。曩且瑚抽t 茁且劓一誓 盘暇一重量蠢毫蕾置镰簟童m a r t i n i i 柚“生盔土丑直摹一。t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论