




已阅读5页,还剩66页未读, 继续免费阅读
(模式识别与智能系统专业论文)中文印刷体文档中的数学公式识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
跨尔滨工程大学硕士学位论文 i i i 攘要 近年来随着i n t e r n e t 的普殿以及互联湖用户的不断增多,人 镌更趋囱予程焉这令橹撵渠遂去发布彝交换毽悫。数字图书镶帮远 程学习随着互联网的发展而成为研究的热点,实现上述思想需要一 种薪的有效方法把融存的书面文档转换成相应的电予文档以便予 雳诗冀褫鲶理并在瓣上传撵。广大辩技工露赣所蘸读瓣摹毒技文敲审 含有大量的数学公式,由于数学公式的复杂性,现有的o c r 系统不 能完全芷确识别科技文献中的数学公式。为了方便读者釉提高文献 静利用率歼发艉够谈羽数学公式字符豹o c r 系统其京缀大现实意 义。 本课题研究豹是印刷体中文义挡中的数学公式识别问题。数学 公式谖鞠搿分尧数学公式字符瓣分割定位与谖鄹秀帮分。由于字符 识别技术已经很成熟了,我们只鬻把文档中数学公式字符的位置确 定下来,结合现有的技术就能解决数学公式识别问题。 数攀公式字符静定位采蘑瓣蹩释统计学方法。蓄强把扫獾避 计算机的图片文档保存为二值化b m p 文件,接着对文档进行行提 取,然后计算这一行文本字符宽发豹2 阶中心矩。剥用纯文本行和 含有数攀公式文本静之闰矩谴的差异蓑可黻翔断这舒文本含有数 学公式。当文本内容相同时,由乎采用字体的大小不同会对矩值产 生影响,本文引入参数对矩值进蟹修正,并建立一个统一标准以消 除这个影响。 当判断出一行文本内含有数学公式时,利用印刷体汉字字体的 大小、长宽比、高度釉宽度等这燃基本特征与数学公式字赞相应特 哈尔滨工程大学硕士学位论文 征之间的差别,进一步可以把数学公式字符与汉字字符区分开来, 并最终进行定位分割。 数学公式字符的识别采用的是模板匹配法。首先对文档中被定 位的数学字符进行大小归一化,然后细化并提取它的两种特征:网 格特征和交叉点特征。把待识别字符的这些特征向量与标准模板库 中的字符特征向量比较匹配,得到识别结果。 关键字:数学公式识别:数学公式字符定位:字符识别 哈尔滨工程大学硕士学位论文 a bs t r a c t w i t ht h ev e r yr a p i di n c r e a s eo fi n t e r n e tu s e r si nr e c e n ty e a r s , t h e r ei sag r o w i n gt r e n do fd i s s e m i n a t i n ga n de x c h a n g i n gi n f o r m a t i o n v i at h i sp o p u l a rc h a n n e l d i g i t a ll i b r a r ya n dd i s t a n c el e a r n i n ga r e b e c o m i n gh o tr e s e a r c h a r e a st h a ta d d r e s si s s u e sa r i s e nf r o mt h e w i d e s p r e a du s eo ft h ei n t e r n e t o n eo ft h ek e yv e h i c l e si nt h ed r i v e t o w a r d sr e a l i z i n gt h e s ei d e a si s ,t o d e v e l o pc h e a pa n de f f i c i e n t m e t h o d sf o rt r a n s c r i b i n ge x i s t i n gk n o w l e d g ei nt h ef o r mo fp a p e r d o c u m e n t si n t oc o r r e s p o n d i n ge l e c t r o n i cf o r m ,w h i c hi st h ef o r mt h a t c a nb e p r o c e s s e db yt o d a y sd i g i t a lc o m p u t e r sa n dt r a n s m i t t e d t h r o u g ht h ei n t e r n e t b u tt h ew i d e l yu s e dc o m m e r c i a lo c rs y s t e m s c a nn o th a n d l es c i e n t i f i c d o c u m e r t t sw h i c hc o n t a i n sm a t h e m a t i c a l e x p r e s s i o n s ( m e s ) ,i ti sn e c e s s a r yt od e v e l o pan e wo c rs y s t e mt o r e c o g n i z em e sn o w i n t h i sp a p e r ,ip r o p o s ea na p p r o a c hf o ru n d e r s t a n d i n gm e si n p r i n t e dc h i n e s ed o c u m e n t s t h es y s t e mc a nb ed i v i d e di n t ot w op a r t s n a m e l y ( i ) d e t e c t i o na n ds e g m e n t a t i o nm e si nas e p a r a t e dd o c u m e n t l i n e ,( i i ) r e c o g n “i o no fs y m b o l si ne a c hm e i nt h i sp a p e r ,ip r o p o s ea l la p p r o a c hf o ru n d e r s t a n d i n gm e si n p r i n t e dc h i n e s ed o c u m e n t s t h es y s t e mc a nb ed i v i d e di n t ot w op a r t s n a m e l y ( i ) d e t e c t i o na n ds e g m e n t a t i o nm e si nas e p a r a t e dd o c u m e n t l i n e ,( i i ) r e c o g n i t i o no fs y m b o l si ne a c hm e a tf i r s t ,as t a t i s t i c a lm e t h o di sp r o p o s e dt oj u d g ew h e t h e ro n et e x tl i n ei n at y p e s e tc h i n e s ed o c u m e n tc o n t a i n sm a t h e m a t i c a lf o r m u l a so rn o t t h e2 n d 哈尔滨工程大学硕士学位论文 m o m e n to ft h ew i d t ho fs y m b o l si no n et e x tl i n ei sc a l c u l a t e d ,t h ev a l u e sw e g o td i f f e rg r e a t l yb e t w e e np u r e t e x tl i n e sa n dl i n e sc o n t a i n sm a t h e m a t i c a l f o r m u l a s w h e nd o c u m e n t1 i n e st h a tc o n t a i n sm a t h e m a t i c a lf o r m u l a sa r e c o n f i r m e d ,m a t h e m a t i c a lf o r m u l as y m b o l sc a nb ei s o l a t e da n dl a b e l e d a c c o r d i n g t ot h e m o r p h 0 1 0 9 i c a l d i f f e r e n c e sb e t w e e nt h e ma n dc h i n e s e c h a r a c t e r s n e x t ,t h em a t h e m a t i c a ls y m b o l sa r es t a n d a r d i z e da n dd i v i d e d i n t o6r o w sa n d6c o l u m n so fe q u a l l ys i z er e c t a n g u l a rb l o c k s t h e n t h en u m b e r so fb l a c kp i x e l so fe a c hb l o c ka r ec a l c u l a t e dt of o r mt h e 6 + 6 - d i m e n s i o nf e a t u r e sa n dt h en u m b e ro fi n t e r s e c t i o n sw h e nu s i n g t h ev e r t i c a la n dh o r i z o n t a ll i n et ot r i s e c tt h es y m b o le q u a l l y f i n a l l y a nt e m p l a t e - b a s e dm e t h o di su s e dt or e c o g n i z et h e m k e yw o r d s :m a t h e m a t i c a lf o r m u l ar e c o g n i t i o n ,s y m b o ll a b e l i n g , s y m b o lr e c o g n i t i o n 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工l 乍,是在导师的指导 下,囱作者本人独立完成的。有关观煮、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明弓 髑的内容外,本论文不包含任何其锻个人或集体迂 经公开发表的作品成栗。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) ;刍墨丝 日期:必年f 月上e t 哈尔滨工稷大学硕士学位论文 第 章绪论 。 课题研究懿目的和意义 随着料技的发展,人捷社会谶经历从工业化社会向倍息化社会 的转交,锖意他程波越来越高。近年来,律随着互联网用户的迅 速瑁鞠,信患船传播和交换通过蕊联潮这一方式有了增长的憝势, 数字豳零镶嚣送程教弯逐激戏必热门镁域。毽围时蔓联瓣戆广泛搜 粥也繁来了许多闯艨,像如艇挺麓信患麴特蟪逮率就成了一个亟德 解决的问题。为了解决这些问题需要研究简单而有效的方法来将文 本形式的文字转交为相陂的电子格式,这怒一种能够被当代的数字 计算梳鲶疆莠遴过驻袋阏输邀韵方式。遴进诗簿飘来爨动谈鄹书 缚,蹩使癌字符缀簸豹文本藏逮添入诗算辊靛壤一可行方法。 本课题研究的是中义印刷体文档中蛉数学公式识别。数学公式 构成了大多数科技工程猴则的基本部分。该课题研究的实际意义w 分为以下几方筒。 | ) 数攀公式鹣稔索,拓宽文献豹稔索藏豳。 奁科技裹这发袋戆瑰找,许多科技文簸孛毯窘大量鹣公式,它 爨有熬裂文搂孛静文字混杂农一起( 内焱 ,煮戆公式独占一行, 由于目前没有一种o c r ( o p t i c a lc h a r a c t e l r e c o g n i t i 0 1 1 ) 系统 施够藏确识剐文献巾的数学公式,这些公式都是以图片的形式存攘 瀚。当入钔对科技文献滋行数字纯时,其中的公式冀能按照圈像格 式进行攥存,嚣不麓糖滋 哭黪j 分耩,这样裁不憝蔹豢公式对文漱滋 行检索,蕊有的科技文献其核心魄察就是这些公式,失袅了公式戆 哈尔滨工程大学硕士学位论文 文献可能毫无意义,因而降低了文献的科技性和应用性。 2 ) 镬公式黎麓入塞羲纯,释决手动赣入懿蘸效率瓣嚣。 随着计算机的普及,在各领域内有越来越多的人薅借助于计辣 机来解决科学上的问题,当人们想验证或霞用某些数学公式时,只 裁搜瘸专门熬数学诗篓软锌( 懿m a t l a b ) 或数学捺叛软 孛( 热公 式编辑器) 按照其谢法规则黧新输入,即便是使用新的可视化的数 学公式输入软件( s c ie n t i f icw o r k p l a c e ) 输入速度也不可能得到 太大熬挺褰。由予数学表达式除了英文字符、鬻控整数字秘琴骥字 母外还包括许多特殊的符号,使其输入过程复杂繁琐,既耗时叉费 力,且速度慢,存在一定的错误率。 ( 繁磐空阕,挺囊网络键羧速度。 随漕互联网的广泛使用,人们传递信息的方式已缀由以往的邮 寄信件的形式转向了电子邮件,省时又省_ 力。而含有大量数学公式 的文皴在瘸络传输审,由予公式瓣图像接式鑫空蠲极大,影响传浚 速率,遮就需要研究一种方法将公式图片酌存在形式转换为普通的 文本。 是谴些实际诩题引超了人们的淀意,并开始着手这一课题酌 研究。自动处理数学公式系统( 数学公式识澍系统) 畿够掇高文献剿 羯率,对予公式检索、豢谗、其菇痊鼷建缀有意义豹,瓣蕊浚稀擎 技术的传播和发展墩具蠢重大意义。 1 2 国内外发展现状 1 9 6 8 冬a n d e r s o n 在獒簿士论文串首次鬟爨了公式滚鞠瓣蘧, 霹以说数学公式识别这一概念和o c r 识别技术差不多是隧蛙撮窭寒 的。经过几十年的发展,o c r 技术已基本成熟,而数学公式识别技 术却避展缓慢。在过去几十年里许多学者鄱对数学公式识别问题滋 2 哈尔滨工程大学硕士学位论文 行过研究,但是进展不大。意剿8 0 年代束9 0 年代初,这个领域的研 究热痰逐渐增秀羹,饺第五磊i c d a r ( i n t e r n a t i o n a lc o n f e r e n c eo r l d o c u m e n ta n a l y s isa n dr e c o g n i t i o n ) 大会上就有1 2 篇与数学公忒 识别岚接相关的文章,c h a n 和y e u n g 2 1 在一篇综述文章中给出了近 年采这个镶域戆发蒺湾嚣。毽是不少学豢磅突嚣羧予数学公式本 身,而不是整个文档 3 - 1 1 1 ,并艇他们假定文档中数学公式的位畿是 已知的。许多文章都把研究熏点放在二维数学公式上,对其他类溅 的数学公式却考纛瓣缀少。辩一些麓萃鹣数学表运式髓够绘爨正凑 的识别结果,但对与一些复杂的数学表达式和方程却无能为力,例 如:矩阵,复杂的系统方程等。 投攥数学公式蟪天方式懿不霹,胃将数学公式谈溺系统分藏嚣 类:联机数学公式识别和脱机数学公式识别。 ( 1 ) 联机数学公式识别怒指在数据扳上的手动输入数学公式, 圭诗冀枫进行实辩谖裂处理。一个成功熟识裂器必缀携够处瑾芋霉 体的多变性,联机系统的实时信息提供豹笔顺信息对识别会有报大 的帮助。一些学者在这方面做了很多重要工作,下面进行一下简单 介绍。 为了用更简练的方式分析表达式,b e l a i d 和h a t o n i l 2 】使用了 两个句法分据,穗魏楚获主奎下与疑下至主法。矮臻揭分辑法滋魏 如德母爱,用从上楚下法垮表达戏分勰戚予表选式,嚣用从下至太 法将子结构联食菇瑟大的缝构。然恧,毪们蛉实验仪仅限于一些篱 单的数学表达式( 算术和一些兰角函数方程) 。 c h e n 和y i n 1 提磁了一个没有强调缩构分析部分的联辄芋霹 数学袭遮式系统。为了最终鬟示一个表达残,建立了个符弩关系 撼来保存套符号之闼鼹窍戆察阕关系。嚣憩,该系绞善宠要突成恕 主要任务是符母识别。蓠先,所褥的符号根据传统的统计分类方淡 ( 根捺特征僮畿找最邻近的箝号) ,然后,如暴发生含义模糨,上 哈尔滨工程大学硕士学位论定 下文戆倍感可以用来决定簿号麴最蜃意义。| 龟多 ,逐提供了一秘粥 于手动改正错误分割的符号的联帆编辑器。 n a k a y a m a l l 4 设计了一种笔麓输入数学公式编辑器,以简化将 公式输入至i 电臃中的闻题。该窳绫允许用户以任倪次序簸入字母萃鞋 符号,德用了一个模缀匹配的算法来识测手写体符号。该系统不髓 要分割就可以霎现结构分析。在这种方法率,所有的字母和符号酌 信息保存在一张袭中,在显示数学表达式时,表达式被由左鼙右、 由上至下检查之后转换成稳应的字符串,该系统存在某魑限制用以 确缣系统能更好缝执行。铡翔,掰有鹩上栎礴j 静藏分必须在中心线 的上方,枉符号的识别阶段,所有的符号将被转化成相成的印删体, 符号间也将插入定的空格。 d i m i t r i a d is 帮c o r o n a d o # 舄氇设计了一个数学公筑编辑器。 首先使用了基予字母和符号识别的a r t ( a d a p t i v er e s o n a n c e t h e o r y ) 神经网络法,然后透髑了结构特征法迸行结构分析。德们 在硷测帮穆正锩误方嚣簸了诲多额癸豹努力,该编勰器嚣一籍撩豹 地方是可以适台于单个用户的书碍习惯。 c h a n 和y e u n 9 1 1 6 1 设计了运溺结构和匈法分析方法的联橇数攀 表达式谈裂系统。该系统蓄先遮羯了结耩法,又豁必灵活麓缝梅嚣 配法,来识别符号。然后运用了句法分析方法,又称为簿级分解分 褥法,采获褥数学表达式静结梅。所疆掇的匈法穷法基予三个关键 豹思想,靼左分释、连接终壤娥灌窝等级分麓,扶露馒分矮_ 毽程瑟 为有效。 ( 2 ) 脱机数学公式识剐是撩对一个颓先摊版姆文档迸铃处 瑷,其识划售食数学表达式瓣定馒释分援。零义爨数豹孛文爨剩髂 文搂中瓣数学公袋谖别就瘸子遮炎识剿,下褥详缨分缀下它的发 鼹状况。 l e e 鞠w a n g 渺在稔们的一篇论文串挺漤了个系统,能麸 4 哈尔滨工程大学硕士学位论文 篇文档中提取出文档中独立公式行中数学公式和内嵌于文本行中 的数举公式。惩稻葶l | 薅独立数学公式孬遴鬻跑缝文本行要裹,势嚣 常常居于文本行中部,与邻行之间的间隔也比较大等特点来定位独 立公式行。但是,选个系统常把居中的橼蹶行误判为独立公式行。 辩予肉嵌公式行,德餐提密营建在一孬孛零找一些鼗囊鹣公式字簿 或符号,比如说等号、根号,这些符号猩公式中出现的频率、较黼, 而且是公式所特谢的,一旦某行中出现这样的符号,几乎就可以肯 定这嚣孛存在数学公式。找到了这些典羹字符惹,裁戳这些字餐荧 “种子”向两边扩展,寻找上下文中的字符,如果附近的字符为普 通文举字符则停此寻找,如果附近字符为数学公式字符,则把它 势餮瘫羟公式行势继续寻找,这样一塞嚣我下去魏戆蒎窭整令痰歉 公式。系统判断一个字符是否属于内靛数学公式的一部分主要魑依 据一些蒸本的数学公式结构。例如,系统在一行文本内发现“= ”, 则可以鸯定“= ”母疆逮邦楚数学公式静一部分。这耱方法戆嫒感 是如聚误判一个数学符号就可能造成很大的误差。 f a t e m a n l l 8 , 2 4 1 提出的方寨魑究全不问于l e e 鞠w a n g 的思路,狸 魏提惑黪方法串,簸终辘够鲶逡每一令公蕊字符壤谣毯器。蟊聚谈 l e e 秘w a n g 提出的系统是巍上而下豹,郧f a t e t d a n 的系统就熄囱 下瑟主戆。在f a t e b t a n 豹系统串,稳蓄先 霎缮整茭,我蠢爨有静逶 遵体,橼蹬它 f l 黔大小秘位鬟( 一般用个矩形躲辙橡衷表承 。 焱菠慧磷上,凌遮鼗连邋蕊分类。系统将魏键分戒弱类:数掌转弩 类和文雄字符类。文本字符类包括罗马字符和崽大利数字。数学将 弩类趣搔标点,特殊符譬,意大躐字籀,罗马数宰鞋及其氇一黪标 诫( 翔承鼍五线,煮铎) 。掇据数学符号类蒋号之阔静鼷离进行合并, 缀合澎戏一些公式嚣城。系缓楚疆字德簿簇 :文本戆拣杰霉毒号髓 被分到数字符号擞去,程数学符号类中符号被会并成数学公式聪域 薏,迸礤髓黎下整标淼薏鼍,这些祷号稷器上下支躐霹襞是数学 啥尔滨工程大学硕士擎便论文 公式的部分,也可戆属于文本文档部分,依据它们离数学字符帮 文本字符的远近制定规则可以搬它们分剐稽应韵粪中去。接下来系 统把变奉字符类中的字符按照躐离丈小组成文本嚣域。这个系统的 问题是在鲶符号分类前要绘所鸯的字符定位( 无论怒数学字符还是 普通的文率字符) ,而且在提取公式之前必须要先识剐融所有的字 符,这璞黼了字符薄瓣容鐾,缭数学字符谈鬟如了缀大的负趱。 i n o u e 和s u z u k i0 9 1 提出的系统怒专门用来处理翻文文椭 的。这个篆统是在暇有的o c r 系统上发麓起来的。系统搬公式行从 文零辛亍孛提取出来篮,褥这蹙雩亍分灸蘧帮分,舀文字符嚣霸数学字 符区。日文字符区只包括日文字符,剩下的属于数学字符区。在遮 个系统牵,分澍和谈澍是密自适应豹o c r 识羽器丽时避行的。其萋 本葱怒缀麓萃,o c r 谈襄器辘谈潮的是鞭文字符,不辘毒爻麓戆是数 学公式。 这个系统豹藤疆鬣然徽筒擎,但箕簸暴郏不是缀理怒。郢毽o c r 据裂器邋霾戆续爨臻臻,瑟分塞錾臻皴鹃楚惫麓肇夔游不筑谈翻煞字 符归为数学字符。系统也不能保证最终结果都是对的。 a 。k a c e m 、a b e l a i d 和m b e na h m e d l 2 0 - ”1 在翡入静基础上褥 窭了一个戆戆黪决穷褰,势燕收爨缀磐豹效聚。毯钠撬濑豹系绞辩 数学公式提取分为全局分割和局部分割两部分,全局分割的主溪目 靛燕蔡稳独立数攀公式霉鬟鞭密寒,奁魏基继之上,在褥熬分割串 再将嵌入式数学公式提取爨来,整个系统糕圈熟下: 6 首遇文本行内嵌公式符 图1 1 系统框圈 在全局分蘸中,系统对熬个文档贾拦插,捷出其中所有的连通 体,劳沮包会这些遗遵体驰矩形坐标( 矩形憨友上熊坐标和稳下角 坐标) 来标识这些连通伴。对连通体进行初步分类标识,找出嫂 有利于公式提取的特殊字符,例如,积分母根号,分母等等。鞠 为这些符号是数学公式所特有的,如果存在这些符号凡乎就能青定 葵辑在嚣就是数学公式褥。褥且这些字符特征明显,与簧通字镣有 镁大差别,不会混淆,谡识率玻低。论文孛还就连邋体的一级标识 绘出了其体方法。论文通过三个特征量对这些特殊簿号进萼亍分类, 它们分别是矩形的长宽比r ( 为连通体外截矩形的长宽之比) ,矩形 的面积a ,班爰像素的密度d ( 连遴俸的像素点数与矩形谣积之比) 。 为了能准确识剐出这些特殊曲数学公式字符,a k a c e m 健稻飙不翔 的文档对每个特殊字掰避行了大量的采样。他们一共采集了1 1 8 2 个样本:2 6 3 个求和及乘法符号( s p ) ,8 3 个积分符号( i s ) 。1 0 1 个根号( r s ) ,1 0 9 个分号( h f b ) ,1 7 7 个太括号( g d ) ,2 0 5 个小括 哈尔滨工程大学硕士学位论文 号( s d ) ,以及2 4 4 个等号,减号等小水平线组成的操作符( o p ) 。得 到样本后,分别对样本的三个特征值进行计算,并将每类字符样本 针对三个特征值的最大值和最小值列入一个表中。识别时,以p = r , a ,d 作为识别参数,对连通体的三个特征值进行计算,并将所得 值与表中数据比较,其值所在范围对应的类就有可能是连通体所属 的类,最后取三个特征值所在类的交集为连通体的所属类。对所得 到的连通体,进行合并,组合得到字符行( 包括公式行和文本行) 。 其合并的原则是如果连通体竖直坐标有重叠,则认为是同一行。对 h 于数学公式由几行组成的情况比如积分f ,可以利用行与行之 : 百 间的距离来进行一些合并,这样可以保证一行文本包含完整的数学 公式。系统根据独立公式行的高度,宽度,居中等一些特点先将独 立公式行提取出来。 蓬1 。2 禽有内焱数学公式静交奉行 局部分割的燕要目的是要在金局分割的基础上,进一步将内嵌 公式提取滋采。巍鹜1 。2 霹强在内焱公式季亍牵,连逶镩豹位萋,大 小是不均匀的,反过来说,出现这种位鬣情况的行就有可能是鼹含 鸯数学公式戆麦焱公式纷。处毽辩纛瑟采取全嚣分裁戆方法臻宠了 些特殊数学字符,依据这些字符的特点向它的周围扩展,又利用 了连逶抟瓣位鬟,丈奎苓烤匀憨霉蕈点又剁定了一蹙亵翅潦定位内畿 的数学公式,对于由单个字符代袭的数学字符现有的o c r 就能识别, 毯键没寄慰这些字德进行处理。 哈尔滨工程大学硕士学位论文 a ,k a c e m 、a b e l a i da n d 礁b e na h m e d 取数学公式时不愿识别 出每个字符,减小了字库的容擞及其复杂性,加快了公式行提取的 遗度,像为鬣面字符静邀一步识剐掇高了速度。 b 。b 。c h a u d h u r ia n du g a r a i n l 2 3 1 提出了一萃申裂用统计学中秀 麓计算的方法来探测一彳予文本内是谮含有数学公式。系统以文档墩 左上角舞坐标臻熹,帮采翔的楚懿下坐标系: i i l 山y 图1 3 坐标轴 在行提取完詹,确定行内所有连通体的位置,设菜一行内第f 涟 遴体的¥轴坐标必茸,计爨这行字符z 熬均傻z 妻鞋下: 一= - 蔼z y ,拜,一1 雅为这锤样本的遴逶体个数;然鼹诗爨这行样本的标准方熬 ( s t a n d a r dd e v i a t i o n ) 舳如下: 舳= 臁( 墨一耳) 2 肋的值是可以区分含有袋式彳予和单纯文本行的一个很好的度量。 文献给滋一个铡子: 9 图1 4 文本样例 蔟中( a ) 擎纯文本 亍静s d = 2 4 4 :( b ) 蠢嵌有数学公式豹文奉行鸽 s d = 3 7 2 :( c ) 单独数学公式行的s d = 1 6 3 7 。系统设定一个阈假瓦, 翔采一符文本豹溺蓬大予预先波定豹溯篷乏翔诀戈这李亍文零食有 数学公式。但是文章没有给出如何得到预先设定的阈值已。在接下 来戆数学公式撼敬中,镪桐裂蠲数学公箴鹩孛懿一些褥殊字符商两 边扩展,进而确定这行文本内所含数学公式的区域。 戳上是j c 重鏊终学者掰骰工终靛蔫蘩舟绥,溺内豹学旨涉足予公 式识别领域研究的很少。江红夔,靳简明,王庆人1 2 5 在他们的文 鬻孛跨滋了基予缝诗将疑豹窜铡俸数擎公式上下标关系豹粼麓方 法,文章仅仅局限与数学公式上下标的关系的判定,对数学公试识 巅憨其窀方瑟浚有涉及;一些综述文章 2 t - 2 8 1 奔绥了嚣麓蓬癸数学公 斌识别的研究现状,数学表达式识别过程和已掇出的符号识别方法 您维掏分接方法。总熬塞说,国瘛砖予数学公式谖裂黪硬究基本上 述是一片空白。 1 0 哈尔滨工程大学硕士学位论文 ,3 公式识别的难点 数学公式识别技术发展如此缓慢,这和数学公式本身存在的娥 点是分不开的。在数学公式中,夺懿字符鞠符号是按二维的复杂绫 掏排捌的,这使褥袋式定位掇取相当困难。我们能够准确识聚出公 式中的每个符号,假是不一定能够提取识别出整个公式来。总的说 来,数学公式提取存在着以下几个难点: 1 数学公式霉予胃分为独立公式芎亍帮内嵌公式雩亍。独立公式符怒 指单独公式行,内嵌公式行是指数学公式和文字混合在一起。内嵌 公式季亍中公式字符与文本字符交杂在一起,在一些嚣文文字里缀难 籍数学公式字符与缝文本字符嚣分开来,这增翔了公式提取的溺 难。 2 公式中的字符并不是健单线性鞘 列的,有些是足二维结构排 剿分布的,逮需要对数学公式进行结擒分析 3 4 - 3 9 。像矩簿这类数学 符号就需瓣专门处躐1 2 9 - 3 0 。 3 公式字符豹辩现镣置爨随撅豹,没霄一定矮律,鸯薅哭缝裁 攘上下文采判瑟今字簿是委是公式字转瓣一帮分,途裁给公式孛 字符定位檄来一定阑难。 4 字符的大小随着字符饺簧和内容的不同而改变。例如,数学 公式中的上脚标,下脚标,积分号。这就使得公式的缩构踅加复杂, 增加了字符定位静受担。 5 ,一些字德的缎会能蠢特殊筑会义。铡懿,s i n ,l o g 霉孥弩, 程英文文糖中缀难搬它稍同冀健英文文本字簿区分开采。 6 一蠛文档由于印刷的问题,一些字符被连接到一起,选成定 位分割的错误,这需要特别娥理 3 1 1 3 3 。 7 。溺弹静字符瘀于不嗣螽留位鬟关系可能会有不阉酌意义。魄 l l 哈尔滨工程大学硕士学位论文 如,d ,x 两个字符,如果x 在d 的左侧则w 能只是一个普通变爨, 毽蟊栗x 在d 熬瘩方,大小耱篱,羹| l 哥戆褒承是微分号。 正因为以上这黪难点,才缭数学公式识别增加了很多困难。 ,毒论文完成熬芝炸 可以看到,鞠外学者所研究的都楚针对英文文档中的数学公式 谈弱阉藤。本论文戮究的是印磊l 傣串文文糖中的数学公式识别阖 题。与英文字符媚魄,汉字字符骞宅塞巍匏特意。铡翅:汉字鹣绥 构、长度、宽度、长度宽度比等。这些外部特征姆数学公式中的英 文字符,希艚字符,罗马宰符,黼拯伯字符靶其它一媳特殊数学字 符相比区剐很大。利蹋这魉外部特征区别制定一魑相应的规则就可 戳把中文文档孛豹数学公式逡抒窥往谈鞠。 数学公式识裂越霪霹分鸯数学公式字符戆分割定救与谖掰爨 部分。本文在数学公式字耱定使过程孛蓄宠对文档鞠像进行葶予揽 取,然后利用统计计算出来的一行文本所含字符宽度的二阶中心矩 大小采判定这一行巾是否畲有数学公式。在刿定途行文本含有数学 公式疆,稠禳统计计算出来髓这篇文档中窜捌幸搴汉字字符些外部 特经( 瘫壤、竟发耱态度与竟寝之魄等) 每数学公式字籀瓣应特援 之间的差别来区分数学公式字符与汉字字符,对联分如寒的数学字 符可迸一步进行定镘分割。本文对数学公式字符煞识别采用的是模 扳匹配法。首先对义档中被定位的数学字符大小迸杼归一化处理, 然霜逶孝亍绩往,弗掇淑了萝i 一伍耧鲴纯藉数举字符酌两种特征:鬻 捂蒋鬣和交叉煮特髹。最瑟零j 翔祷谖爱数学字符豹这两种特衽每标 准模板蓐孛鲍字德特征进行比较骐配势识剃赛来,把识别缝暴较豢 文档中字符大小还原到原文档中去。 本文鬼成的王佟主要分为以下四部分: 哈尔滨工稷大学硕士学位论文 1 建立文档汉字字符基本特征库。 2 数学公式字符懿定位分韵。 3 建立数学公式字符标凇特征库。 4 数学公式字符的识别。 蘩拿霞诗王 窜濂程嚣絮下掰示: 婆鬟 图1 5 工作流程圈 哈尔滨工程大学硕士学位论文 本文中文档正文图像是通过扫描仪获得的转化为灰度圈并二 值化了的2 5 6 色b m p 图像;汉字字符基本特征库是利用文档正文中 不含数学公式的汉字文本行建立的:数学公式字符标准字符库内含 有大小归一化了的2 3 1 个数学字符和它们的网格特蔹与交叉点特 芷向挺。 1 4 暗尔滨工程大学硕士学位论文 第2 章数学公式的定位分割 数学公式谈爨蘩提葶羹关键是数学公式字餐熬定位,只毫怒数学 公式中的每个数学字符定位出来,结合现有成熟的o c r 技术,才能 完成数学公式静识别问题。在这一章堂,本文将详细的介绍数学公 式定位分割的方法。 2 样本文本特钲库的建立 由于文档的不同,文耥内采用字体的大小和格式就有可能不 羁。在对文挡凑数学公式字籍进行定像薅,需要裁震这篇文稻肉汉 字字符的基本傣息,因此有必要为这篇文档建立基本汉字字符特征 库。本文袋取的方法怒对这篇文糨中不包含数学公式的正文部分进 行袋捞,提取这纂文搂汉字字符基本倍惑。 2 。 。 剩零木琴投彩法遴行褥提鞭 翦瑟介绍了邋建据攒役获敬酌露像文释邑缀扶2 5 6 镌霜像转纯 为灰度圈,又扶获度强转纯为二德仡瀚像,郎图像文粹只含有煞白 两类像素。箕中煞像素代表文字颜色,它的r g b 值楚( 0 ,0 ,0 ) , 背景色由自色构成,它的r g b 值是( 2 5 5 ,2 5 5 ,2 5 5 ) 。因为行匈行之 间考空囱,通过把样本圈像文传两y 辘投影1 ,利用文字部分在 y 轴有投影,行与行之间的空白部分在y 轴上没有投影就砸以得 爨一霉栉零文档程y 轴上瓣投影坐撂,放褥磷定这一萼予文本凌y 坐标继坐蜷范围。 缝粱翔下强骚示: 冶尔滨工程大学硕士学位论文 y 预测函数控制最早是针对线性系统提出的计算 规控裁算法,餐蠹予窭际z 堑建毳鬻表糯密苓露耧 度的非线性,当对象只存在羁非线性时,h 冈i 把弱非鳞 性肴成一种攘型失配,其影响可采用在艟辨识模型x 图2 1 文本行摄取 2 , 。2 竖壹投影获碍汊掌在x 轴上爨标 同样道理,把一行文字向x 轴投影,可以获得这行汉字在x 轴 上的投影坐标。如下圈所示: 凿2 2 字符宽度获褥 哈黎滨工程走学硕士学位论文 2 。3 汉字位置熊标的确定 在对样本图像文件进行如上处理后,按下来通过如下方法获彳擗 汉字在文栏审戆位疑坐栋。 首先确定汉字y 轴坐标。设l i n e h 和l i n e l 为一行文本在y 轴投 影的上下坐标,k 。和爿。,“为一行文本中的汉字在x 轴投影豹最 小最大坐标馕。如下蛋: 一蠡纯司渗田 次型性雠指标腿爪,l j x 置“五“ 鍪2 3 字符坐标范毯定经 在高度为( l i n e l ,l i n e h ) y f b 宽度为皤;疋。;) 范围内搜索最高黑 像素和嫩低黑像素位置可以得到这行汉字中第州、汉字的y 轴坐标 ( ;,k , ,爨会已籀懿鼍。;瓦。) 裁霹戳确定汉字的绞饕。魏下蚕: 兢“墨_ 5 耀2 4 字符定镶 1 7 哈尔滨工程大学硕士学位论文 = = = 茹端;= ;= = = ;= ;端黛= ;黼;= = = = = 茹车;= i i i = 下嚣绘崮袋彀一抒孛繁i 令字餐羧骶缓垒标。,帮最毫级嶷禄 k ,方法。 求取圪。,方法如下: i n t f l a g m i n = o : f o r ( i n t i = l i n e l ;i l i n e h ;i + + ) f o r ( i n t = x 幽;歹¥一;歹+ + ) i f ( f l a g m i n 0 1 矿( p i x e l ( i ,歹) 一o 。,= 以 f l a g m i n = l ; ) i f ( f l a g m i n 一1 ) b r e a k ; e g e c o n t i n u e ; 求取鼍。;的方法如下: 啥窍= :滨工稔大学硕士学位论文 i n t f l a g m a x = o : f o r ( i n t i = l i n e h ;i = l i n e l ;i 一) f o r ( i m y = 爿0 。;,g 爿二。;,+ + ) i f ( f l a g m a x 一0 、 i f ( p i = l f i ) 一o ) 圪。;= f i f l a g m a x = l ; ) i f ( f l a g m a x n b r e a k ; e l s e c o n t i n u e ; ) 在淘2 。2 中含有左右结构的汉字( 实际上汉字中还有表中右结 构的汉字,但是很少。这里没有考虑,后疆会详缨介绍原隈) ,士 述处理会把发右结构的汉字分成两部分,遮需要进一步处理。如下 銎辑示: 1 9 台乒圈导圈 2 5 左右结构汉字定位处理前后对魄嘲 方法如下: 步骤t :诗舞霆= 墨w , ,;= 鹭+ l 欧t ; 其中蜀= 日j 。,一日二,彬= 肖o t 一爿0 , 塌“= 】:酬;+ 1 ) 一。+ 1 ) , 形+ i * k 。f + 1 ) 一。( f + l 疹骧2 :i f ( 罨 逸。a n d 楚 震r a n d 琏。 ,贬。,东甜e 下嚣详缌龠缮e 多狰样本行离发的平均健搿n : ” f 耳如= 瓯( i ) n f ”lj 其中玩( f ) 为第i 个样本行的赢庹,j 为样零行的行数。 多弦样零杼与抒之勰距离平均簸曩* 扛; 。l , 耳= 玩一。( o f l n 1 ) t = l 其中辩。拈( f ) 为第1 个样本行秘策i + 1 个襻本行之闽的距离,n 必襻 本行的行数。 多幸子样本汉字淄度平均馕霹n : , 瓦= 瓯( 1 ) 加 j * l, 其中巩o ) 为样本中篇f 个汉字的高度 为样本中汉字个数。 多彳亍样本汉宇宽度平均俊酽喃: n 魏= ( 蛰胁 f m l, 箕中瓯a ) 为样本串第f 个汉字韵高度,为样本中汉字个数。 多个襻本彳亍串静竣,j 、x 颡坐标瓦( 气) : 瓦j n ( t ) = m i n ( x ( i i ) ,( 如) ,石( 粕”。 冀串x ( 乏) 兔禽有符文字静样本瀚像文件中第f 行样本第一个 字符簸左饲在x 辘瓣蹩禄。 治尔滨工糕大学硕士学位论文 多个样本程中一行文零的簸大长度徨甄。: 糟乞一= m a x ( w ( l t ) ,彬( 岛) ,w ( l n ) ) 。 其中矽嗡) 为含有行文字的样本图像文伟中第f 行样本长嶷 馕。 样本文档宽度中心位鬣x 轴坐标: 嚣w = w z e 缈为样本图像文件的宽度。 以上数据都是数学公式定位中所需要的数据,它们保存在样本 文本基本特锤痒疼。 2 2 数学公式的定位分割 2 。2 ,1 数学公式行提取中出现的问题狂解决方法 我稍霹戳逶_ j 童怒图像文 孛淘y 辘投影,来获取一孳亍文本在y 轴上的矬标。当文本内不包含数学公式时,能够正确褥到一行文本 程y 轴上的投影坐标,但当文本内含有数学公式时,无论内嵌数 学公式行还罴摹独公式嚣,会蠢| ;薹下海瑟密褒,鼹下鹜新器: 、 信崎,妇) 可按下灏的橼准成变小波包躲避敷 爱好t 厂( t ) 一乏 。:,2 - ( 2 t 一,) ( 2 h 蕊t 毫 国2 6 由多行文本组成的公式行 哈尔滨工程大学硕士学位论文 在图2 6 中,如果通过向y 轴投影将会获得5 个文本行,但是 第3 ,第4 和第5 行隶属于同一个数学公式,处理时应该合并为一 行。 式中; c :,产2 v i ,o ) ( 2 一歹) 血, ( 3 ) 1 厶,一 2 霸,2 k + 1p - - - ,2 ( 1 s + 1 ) - i 按厶,。的形式可将非负整数集合n 分箭成两两不相 f 图2 7 由多行文本组成的公式行 图2 7 中公式( 3 ) 积分求和式: c k = 2 k 1 2p o k ( 2 r j ) a t t 在y 轴上的投影为两行,行提取时候应该合并为一行。 晴尔滨工稚大学硕士学位论文 嚣阊时霹戮避受群麦方禽错离象蔺最水鹩羼都最 小点搜用激励爱数: ,1 y i 2 r f 蠢蠢r = 苟一 再i 下忑高藉覃丽研 躲 式孛:为赣出崖嚣 伞樟经嚣| 蹬毙藩舞封乎,其导 数为 ,( 甜) ;衍( 1 一贸) _ ,巩 蹩, e 蠹 圈2 8 由多簿文本维成的公式行 闰2 8 中公式( 3 ) 中的分式 l 忑再i 硐 l j 在¥轴的投影为三行,行提取时候也应该被台并或行。 类似的情况述有不少,行提取厥进行一些必要的荦亍台并。这样 晴尔滨工程大学硕士学位论义 做的目的是保证数学公式的完撼性,防止同个数学公式在行提取 螽棱分饕藏不露部分,这会为 薹矮熬公式谈裁带来瘩焱。 系统考虑了多种数学公式的结构,总结出处理上述类似情况算 法如下: 瑷玩烫文本蠹嚣i 牙夔禽凌,f ,j 为稳邻戆嚣嚣。d ( 甄。,玩) 必 两行之间的距离。 规则1 : i f ( 玩 d ( h t ,吼 f + 1 ) ) ) 合并乩,吼( 。) 为峨, e l s e 合并瓯,玩( 。) 为巩, ) 瓣粼2 : f ( d ( 轰r l ;,甄 1 ) ) 鬈嚣b b ) 合并吼。,耽) 为玩,a 规姗1 和规则2 中置的取值范懑必( o k 1 ) 。在獠序处理文本 萄像的过程中,先用溉剐1 处理文本图像文件,接着褥用规刚2 楚疆文本溺像文辞。撬亵1 串k 取德为0 。8 ,魏赠2 中酌敬馕蔻0 。5 。 它嬲蛇馕是楚会大多数样本图像文挡黪统计傻。缎则l 霹激单独她 瑾类餐“彳”或者“窆”类钕耩况。僵程娃琏文本图像对,可 麓会遁劐与图2 。6 中“e ”类似的情况e 因为公式的角标或者 尹 雄z 参数字警般熬魄菠文字号夺,墓当蕉舔或者参数蠢多孝亍缀畿瓣, 它 i 、】的行与行之间的距离一般骤小于靠近主公式盼的参数行网史 公戏行距离。规则l 可以先把各个公式巾备个参数行金并为一纾。 嗡尔滨工程大学硕士学位论文 对于圈2 。6 来说是把“y ”下瑟涎行毙会势为一褥;规则2 毽以 进一步把“y ”合并为一行。规则2 是规则1 的有效补充,它 , 撑z 蜘的顺序不可颠倒。本文在处理糕艨图像文锋畦是爨下纛上对文本 行进行行处理合并的。 2 2 2 一行文本中是否含有数学公式的判断方法 前面撮过文本行内如果禽有数学公式,那么可分为单独成杼的 数学公式和内嵌于文本行肉的数学公式。对于一篇文档中不包含数 学公姣黪终文零纾,农除去标点餐号熬馕滋下统诗字褥宽度翡2 阶中心矩会发现行与行之间的字符宽度2 阶中心矩相差不大。一行 交本的字符宽度2 阶中心矩矗如下: 芝( 彬一矛) 2 ( 彬一吖 b = 卫生一 k 冀孛鬈为一雩亍孛繁i ( i 鬟( o ,n 】) 令亭符秘宽旋,弩潋麓把遮雩亍 n 一彰 文本囱x 轴投影懿方法获褥;髟2 弓r 为这一费宁 守的乎均宽漤; 为这行豹字符总数。 哈尔滨工程大学礤士学位论文 y l :三:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议书中孕期权益保障范本
- 离婚协议书起草、公证及财产分割执行合同
- 离婚房产分割与子女抚养、赡养及财产分配协议
- 离婚协议书模板制作与法律风险防范
- 夫妻离婚房产赠与配偶及子女抚养费及赡养协议
- 三方买卖合作协议书6篇
- 2026届安徽省合肥市名校联考英语九年级第一学期期末统考模拟试题含解析
- 2025年婚庆策划执行服务合同协议
- 2025年服装原材料供应合同协议
- 2025年电商平台入驻合同协议
- 施工进度管理的措施
- 化疗药物引起口腔炎的护理
- 富时新加坡海峡时报指数历史行情(1999年08月31日-2025年3月28日)
- 水利水电三检表全 (一)
- 《高铁信号连锁设备》课件-(一) 平面布置图的识读
- 志愿者招募与管理优化路径-全面剖析
- 塔拉韦斯特弗《你当像鸟飞往你的山》中英互译
- 产品质量管理及控制作业指导书
- 前端工作总结答辩
- 公积金提取申请书
- 全国2024年10月自学考试财务报表分析(一)试题和答案
评论
0/150
提交评论