




已阅读5页,还剩103页未读, 继续免费阅读
(精密仪器及机械专业论文)数学表达式数字化处理中关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽蛰 摘要 数学表达式数字化处理足指利用计算机自动处理数学表达式,其内容包括 数学表达式的采集与输入、数学表达式的输出与显示、数学表达式的表示与传输 和数学表达式的检索。存信息技术、电子计算机和网络迅猛发展的背景下,开展 对数学表达式数字化处理的研究,在建设多功能的数字图书馆、构建自然简洁的 计算机代数系统人机交互界面、丌展远程教学、共享分布式计算数据等方面部具 有重大的意义。本论文旨在对数学表达式数字化处理中的若干关键技术进行一 些探讨和研究。 数学表达武的采集与输入,即数学表达武的识别,是数学表达,数字化处理 中的核心内容,主要包拓印刷体数学表达式识别与联机于写体表达式识别。目前 对数学表达式识别的研究还处于实验室阶段,到实用还有一定距离。本义针对目 前表达式识别q ,存在的问题,主要做了以下的工作: ( i ) 文档图像的倾斜检测 文档图像的倾斜检测与校正是印刷体数学表达式识别系统文档图像预处理 模块中的一个重要环节。目前存在的各种文档倾斜方法难以同时兼顾检测精确 度和处砰速度。为此提出了一种皋于形态学和雀大变换的文档倾斜检测方法。首 先用形念学方法对文档图像进行行程平滑、消除噪声和边缘提取,然后用霍夫变 换检测山文档的倾角。此外,还对形态学运算进行了改进,加快了检测速度。实 验表明,该方法精确度高、速度快、具有良好的稳健性。 ( 2 ) 中义科技文档中的数学表达式定位 数学表达式定位是印刷体数学表达式识别的前提。目前的研究大多是针对 英文文档。本文针对中文科技文档,分别对独市表达式和内嵌表达式的定位问题 提出了新的方法。采州自适庶7 十经模糊推理系统( a n f i s ) 对行特征进行分类, 提取出独市表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、 中文标点和英文字符,之后合并剩余的数学符号而提取出内嵌表达式。实验表 明,术文提m 的表达式定位方法有很高的止确率,其中独立数学表达式的定位止 确率为9 7 3 9 ,内嵌表达武的定位币确率为9 7 2 3 。 ( 3 ) 从p o s t s c r i p t 格式文献中提取数学表达式 捕箜 从p o s t s c r i p t 格式文献中提取识别数学公式,是数学公式识别颁域的一个新 的研究方向。本文书要针对以w o r d 和l a t e x 为牛成源的p o s t s c r i p t 文档,提出了 基于内窖的数学公式提取方法。首先重载了p o s t s c r i p t 语言中的一些相关命令, 先后提取山p o s t s c r i p t 文档中的字符及南线段连接得到的图形。之后根据字符名 称、字体信息、位置信息别字符进行判断分析,提取出其中的数学符号:别提取 出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号 之间的空问位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公 式。实验结果表明,该方法具有很高的正确率,其中数学符号识别的正确率达到 9 9 3 。 数学表达式的检索也是数学表达式数宁化处理领域的重要内容。对表达式 的硷索不能仅靠字面还要依赖于语义。日前很少有这方面的研究。本文在这力面 作了一些探索性的工作,把本体引入表达式的检索中,建立了数学表达式的本体 模型,并且采用o p e n m a t h 作为奉体模型的描述语言。在检索过程中用o p e n m a t h 树来表记表达式,从而将表达式的检索转变成了树的匹配问题。根据表达式检 索精度要求的不同,本义把选配分为了精确巡秕、招容匹配、语义匹削和模糊逃 配,并对每种情况给出了相应的匹配算法。本文重点讨沦了模糊匹配的情况。根 据数学表达式语义的特点,对经典树匹配算注中的编辑距离进行了改进。最终采 用模糊匹配度作为衡量表达式检索 l 表达式问模糊匹配程度的依据。 关键字:数学表达式数字化处卿数学表达式识别文档幽像倾斜检测 数学表达式定位p o s t s c r i p t 数学表达式检索 a b s t r a c t a b s t r a c t d i g i t i z a t i o no fm a t h e m a t i c a le x p r e s s i o n sm e a n st h ep r o c e s s i n gf o rm a t h e m a t i c a l e x p r e s s i o n sb yc o m p u t e ra u t o m a t i c a l l y ,i n c l u d e st h er e t r i e v a l ,i n p u t ,d i s p l a y ,o u t p u t , n o t a t i o n ,t r a n s m i s s i o na n ds e a r c ho fm a t h e m a t i c a le x p r e s s i o n s w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,c o m p u t e rs c i e n c ea n di n t e r n e t ,t h er e s e a r c ho nd i g i t i z a t i o no fm a t h e m a t i c a le x p r e s s i o n sh a sg r e a ts i g n i f i c a n c ei nb u i l d i n gd i g i t a ll i b r a r y , n a t u r a l i z i n gt h ei n t e r f a c eo fc o m p u t e ra l g e b r as y s t e m ,o n l i n et e a c h i n ga n dc o m m u n i c a t i o no fd i s t r i b u t e dc o m p u t i n gs y s t e m s ,e t c r e s e a r c ho ns o m ec r i t i c a lp r o b l e m si n d i g i t i z a t i o no fm a t h e m a t i c a le x p r e s s i o n si sp r e s e n t e di nt h i st h e s i s t h er e t r i e v a la n di n p u to fm a t h e m a t i c a l ,n a m e l yt h er e c o g n i t i o no fm a t h e m a t i c a l e x p r e s s i o n s ,i st h ec o r ec o n t e n ti nd i g i t i z a t i o no fm a t h e m a t i c a le x p r e s s i o n s t h e r ea l e t w ot y p e so fr e c o g n i t i o nm a i n l y :r e c o g n i t i o no fm a t h e m a t i c a le x p r e s s i o n si np r i n t e d d o c u m e n t sa n dr e c o g n i t i o no fo n l i n eh a n d w r i t i n ge x p r e s s i o n st i l ln o w ,t h er e c o g n i t i o n s y s t e mi ss t i l l i nt h es t a g eo fl a br e s e a r c ha n dw i l lt a k et i m et ob eu s e di np r a c t i c a l s o m ei s s u e si nt h i sa r e aa r ei n v e s t i g a t e da n dt h ef o l l o w i n ga r et h em a i nw o r ka n d p r o g r e s si nt h i st h e s i s : ( 1 ) s k e wd e t e c t i o no f d o c u m e n ti m a g e s s k e wd e t e c t i o na sas t e po ft h ed o c u m e n ti m a g ep r e p r o c e s s i n gp l a y sa ni m p o r t a n t r o l ei nt h er e c o g n i t i o no fp r i n t e dm a t h e m a t i c s t h ee x i s t e n tm e t h o d sd e t e c t i n gs k e wo f d o c u m e n t sh a v ed i f f i c u l t i e si np r e c i s i o n a c c u r a c yo rs p e e d am e t h o db a s e do nm a t h e m a t i c a lm o r p h o l o g ya n dt h eh o u g ht r a n s f o r mi sp r e s e n t e d m o r p h o l o g ym e t h o di s u s e dt os m o o t ht h ed o c u m e n ti m a g e ,e l i m i n a t et h ep i x e ln o i s ea n dd e t e c tt h ee d g eo f t h et e x tr o w ,a n dt h eh o u g ht r a n s f o r mi sa p p l i e dt od e t e c tt h es k e wa n g l et h i sm e t h o d i sp r o v e dt ob ep r e c i s e ,a c c u r a t e ,f a s ta n dr o b u s tb ye x p e r i m e n t s ( 2 ) e x t r a c t i o no fm a t h e m a t i c a le x p r e s s i o n si np r i n t e dc h i n e s et e c h n i c a ld o c u m e n t s e x t r a c t i o no fm a t h e m a t i c a le x p r e s s i o n si st h ep r e c o n d i t i o no fm a t h e m a t i c a le x p r e s s i o n sr e c o g n i t i o n an e wa p p r o a c hf o rs e p a r a t i n gb o t hi s o l a t e da n de m b e d d e d e x p r e s s i o n si np r i n t e dc h i n e s et e c h n i c a ld o c u m e n t si sp r e s e n t e d a f t e rt h ef e a t u r e so f a b s t r a c t t e x tl i n e sa r ee x t r a c t e d a n f i si su s e dt oc l a s s i f yt h et e x t 【i n e sm t ot w oc l a s s e s :l i n e s o ft e x ta n dl i n e so fi s o l a t e de x p r e s s i o n s f o re m b e d d e de x p r e s s i o n s ,f u z z yc l u s t e r i n g a n dd y n a m i cp r o g r a m m i n ga l g o r i t h ma r ea p p l i e dt oe x t r a c tc h i n e s ec h a r a c t e r s ,c h i n e s ep u n c t u a t i o na n de n g l i s hl e t t e r si ns e q u e n c e a tl a s t ,m a t h e m a t i c a ls y m b o l sa r e m e r g e di n t oe x p r e s s i o n s t h em e t h o d sp r o p o s e da r ep r o v e dt oh a v eh i g ha c c u r a c yb y e x p e r i m e n t s ( 3 ) e x t r a c t i n gm a t h e m a t i c a le x p r e s s i o n sf r o mp o s t s c r i p td o c u m e n t s e x t r a c t i n gm a t h e m a t i c sf r o mp o s t s c r i p td o c u m e n ti san e wa r e ai nt h er e s e a r c h o nr e c o g n i t i o no fm a t h e m a t i c a le x p r e s s i o n s ac o n t e n t b a s e da p p r o a c hf o re x t r a c t i n g m a t h e m a t i c a le x p r e s s i o n sf o r mp o s t s c r i p td o c u m e n ti sp r e s e n t e d ,t h ec u r r e n ts t u d y o b j e c t sa r ep o s t s c r i p td o c u m e n t st r a n s f o r m e df r o mm i c r o s o f tw o r do rt r a n s f o r m e d f r o mi ,骚b yr e d e f i n i n gs o m es t a n d a r dr o u t i n g sr e n d e r i n gt e x to f p a i n t i n gi np r i o r , t h ec h a r a c t e ri n f o r m a t i o n ,s u c ha sc h a r a c t e rn a m e ,f o n tt y p e ,f o n tn a m ea n dc h a r a c t e r b o u n d i n gb o xa ne x t r a c t e df o r mp o s t s c r i p td o c u m e n t ,t h el i n ei n f o r m a t i o ni se x t r a c t e d a sw e l l a c c o r d i n gt ot h ec h a r a c t e ri n f o r m a t i o n t h em a t h e m a t i c a lc h a r a c t e r sa r er e c o g n i z e d ,a n dt h e nt h ec o n n e c t e dl i n e sa l er e c o g n i z e da sm a t h e m a t i c a lc h a r a c t e r s a tl a s t , h e u r i s t i cr u l e sa r eu s e dt om e r g em a t h e m a t i c si n t oe x p r e s s i o n s t h em e t h o d sp r o p o s e d a r ep r o v e dt oh a v eh i g ha c c u r a c yb ye x p e r i m e n t s , s e a r c ho fm a t h e m a t i c a le x p r e s s i o n si sa n o t h e ri m p o r t a n tc o n t e n ti nt h ea r e ao f m a t h e m a t i c a le x p r e s s i o n sd i g i t i z a t i o n t h es e a r c ho fe x p r e s s i o n sl i e so nn o to n l yl i t - e r a lb u ta l s os e m a n t i cc o n t e n t s ,r a r er e s e a r c hi nt h ea r e aa r ef o u n d ,t h i st h e s i sp r o b e s i n t ot h i sa r e aa n di n t r o d u c eo n t o l o g yt os o l v et h es e a r c hp r o b l e m am a t h e m a t i c a l e x p r e s s i o no n t o l o g ym o d e li se s t a b l i s h e da n do p e n m a t hi su s e da sd e s c r i p t i o no ft h e m o d e l d u r i n gt h es e a r c hp r o c e s s ,e x p r e s s i o n sa r el a b e l e db yo p e n m a t ht r e e ,a n ds o t h es e a r c ho f e x p r e s s i o nt u r n e di n t ot h et r e em a t c h i n gp r o b l e m a c c o r d i n gt ot h ed i f f e r - e n ta c c u r a c i e so ft h es e a r c h ,t h em a t c h i n ga r ed i v i d e di n t op r e c i s em a t c h i n g ,i n c l u s i v e m a t c h i n g ,s e m a t i cm a t c h i n ga n df u z z ym a t c h i n g ,a l g o r i t h mo fe a c hm a t c h i n ga r ep r e - s e n t e d t h ef u z z ym a t c h i n gi sd i s c u s s e dm a i n l y t h ee d i td i s t a n c ei nt h ec l a s s i c a l t r e em a t c h i n ga l g o r i t h mi sc o r r e c t e dt oa d a p tf o rt h ec h a r a c t e r i s t i co fe x p r e s s i o n s t h e a b s t r a c t f u z z ym a t c h i n gf a c t o ra l eu s e dt oe v a l u a t et h ed e g r e eo ff u z z ym a t c h i n g k e y w o r d s :d i g i t i z a t i o no fm a t h e m a t i c a le x p r e s s i o n s ,m a t h e m a t i c a le x p r e s s i o n r e c o g n i t i o n ,m a t h e m a t i c a le x p r e s s i o ne x t r a c t i o n ,p o s t s c r i p t ,s e a r c ho f m a t h e m a t i c a le x p r e s s i o n 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 倌者签名:趣幺! 扛 年月日 第1 章绪沦 第1 章绪论 1 1引言 人类与动物的最大区别之一就是人类创造并且运用语言和文宁。语言是特 殊的社会现象,是人类作为必不可少的思维工具和最重要的交际工具来使用的 音义结合的符号系统。文字则是记录语言的符号系统,是人类交际的最重要的辅 助工具。义字的记载功能,贯通了时间的隧道,使之传诸j | 舌世:而贮藏了历史。纸 张和活字印刷的发明,极大的扩展了信息传播的空间,一地的信息扩展到了全国 乃全世界。文献的积累、承袭和升华,促进了人类智力进化和文明的发展。可以 说,语言和文字是推动人类文明发展的发动机。 文档可视为记录存某种载体上的文字集合。约公元前3 3 0 0 年,世界上最甲 的文字出现在美索不达米业平原,当时的载体是一些黏土或石质的小书板。埃 及最早的文宁大约出现在公元前3 1 5 0 年,载体是一个用于祈祷的大型工具的碎 片。在公元前2 0 0 0 年初,我国出现了记载在甲骨上的象形文字。之后造纸术和 印刷术的发明,使得纸张成为直到现在仍然至为重要的文档形式。随着文化发展 和科技进步,义档的形式经历了由黏土、石块、甲骨、布绢到纸张的漫长的进化 发展过程,而文档形式上的每一次革新,都使得信息的传播在时间和空间上更朋 迅捷、便利和持久,从而大大推动了人类文明的发展。 口前,人类社会正从工业化社会迈向信息化社会。在信息技术高速发展、汁 算机和叫络d 益普及的今天,文档形式又一次产生了重大的革新,出现了以数字 形式存储的电子文档。这些电子文档包括各种格式的电子文献、数码相片、数字 语音和视频文件等等。同传统的纸质文档相比,电了文档具有存储量大、编辑方 便、复制简捷、传输迅速、检索支持、保存永久等显著的优点,此外,电子文档 的使用还可以减少纸张的浪费,有利于节约资源和环境保护。因此,发展电子文 档、对义档进行数字化处理成为了迫切需要和必然趋势。 人类文明的发展离不开浯言和文字,同样,也离不开数学。数学几乎与人类 文明一样古老,数学在其发展的甲期就与人类的生活及社会活动有着密切的关 系,解决着各利一各样的问题:食物、牲畜、工具以及其他生活_ h j 品的分配与交换, 第l 荦绪论 房屋、仓库的建造,丈量土地,兴修水利,编制历法等。随着数学的发展和人类 文明的进步,数学的应用逐渐扩展到更一般的技术和科学领域。从古希腊开始, 数学就与哲学建立了密切的联系。近代以来,数学义进入了入文科学领域,并使 人文科学的数学化成为一种强大的趋势。当今社会,随着计算机技术的广泛应 用,数学的足迹已经遍及人类知识体系的全部领域。 如果将数学税为一种语言,那么可以说数学足迄今为止唯一的世界通用语 言。准确、简明、抽象的特点使得数学语言不受种族、国家、文化和任何方言的 限制,成为不同国籍的人们交流科学技术的重要的语言工具。记录语言的符号系 统是文字,与之对应,记录数学语言的符号系统即为数学表达式。在繁多的数学 文档和其他科技文献中,包含着大量的数学表达式用以表示各种数学知识。而目 前绝大多数数学文献还是纸质的文档。顺应文档电子化的潮流,需要对以数学表 达式为表义基础的数学文档进行数字化处理,特别在科教领域,这种需要尤为迫 切。 数学文档数字化处理的关键是对其所含数学表达式的数字化处理。这一处 理过程涉及虱了表达式的采集、表记,传输、检索等多个方面,这些即足本篇博 士论文所要研究和探讨的内容。 1 2 论文的选题背景与研究意义 1 2 1文档电子化趋势和数字图书馆的创建 信息化杜会的到来使得文档电子化成为一种趋专争和潮流。;己载着人类亘古 至今的包罗历史、文化与科技的浩瀚文献绝大多数都是纸质文档的形式。世界各 国都在设法更好的保存和利用这笔人类文明的巨人财富,两对这些义档进行屯 子化处理,建立数字图书馆( d l :d i g i t a ll i b r a r y ) 即是解决此问题的。个行之有 效的办法。 数字图书馆可以看作为一种有着纸质幽书馆外观和感受的幽书馆,t 闩在其 中的资料都已经被数宁化并存储起来,而且能在网络化的环境中被本地和远程 用户存取。还能通过复杂的自动控制系统为用户提供先进的、自动化的电子服 务。数字罔节馆的实质就是文献信息存储的计算机化,以资源数字化、存取网 络化、使用共享化为主要特征。数字图书馆这一概念最早诞生于美国。1 9 9 4 年, 美国国会图书馆宣布将耗资巨额资金建立国家数字化图书馆。计划在2 0 0 0 年前 2 弟l 覃绪论 把全同5 0 0 多种藏品数宁化,并于1 9 9 5 年在华盛顿召开了网络信息联盟会议, 共有1 6 个图书馆加入了信息联腽,目的就是爰用数字化与动态的方式来保存 美国的文化遗产,建设分布式的开放型图书馆,以图实现全球范围内的资源共 享。1 9 9 5 年秋,美国国会图书馆,萨式启动国家数字图书馆馆项目( n d l p ) ,在 i n t e r n e t 上的名称为“美国的l 旦f 忆”。美国的行动随即推动了世界范围数字图 书馆的建设,日本、法国、英国、德国等西方发达国家迅速跟进。而在我国,由 于因特网的高速发展以及受到西方国家对数字化图书馆的大力研究的启示与影 响,国内也提出了数字图书馆的建设计划。国家8 6 3 计划智能计算机系统主题专 家设立了数字图书馆重点项口:“q ,国数字图书馆示范工程”,最终日标是建设巾 凰数宁图书馆示范应用系统。在这种形势f 。用内止掀起兴建数宁化图书馆的热 潮。 在数字图节馆的建发中,文档至计算机的输入是研究的一个重点。对于实时 编辑的文档,可以通过人机接口设备如键盘,鼠标、写字板等输入文字;而对于 现存的纸质文献,由于其信息量的庞大,基本不可能由人工完成输入,只能将纸 质义档扫描或拍摄成图像,然后再将返些图像输入计算机。各类f : 技义献中包含 了大量的数学表达式,这些数学表达式与普通的文本存在显著的不同。在近几午 的数字图书馆研究和应用中,对隐藏存一般文本文献中的表达式往往一律用图 像方式加以表现。这固然节省了数字化的成本和难度,但由于数学表达式住文献 的使用中起到巨大作用,而这种作用又和它们白身特殊的形式和功能密切相关, 单独对它们进行撷取、描述和组织就不可避免了。因此为了减少存储量和进行检 索、共享的需要,必须要从文档罔像中识别出数学表达式,并将其按照某种编码 存储。此外,还要研究基于数学语义的表达式检索技术,以利于更好的查找和共 享数字科技文档资源。 1 2 2 计算机代数系统的发展与泛化计算概念的提出 数字图书馆的建立要求从文档图像一l ,采集数学公式,f f l 】i r 算机代数系统的 发展又对数学表达式的实时输入方法提m 了要求。计算机代数是近三十年发展 起来的关于数学、计算机及人t 智能方面的交叉学科,是数学发展的前沿学科。 计算机代数系统( c a s :c o m p u t e ra l g e b r as y s t e m ) 则是集成化的计算机数学软 件系统,其主要功能包括符号演算、数值计算和快捷作图。计算机代数学系统 对社会和科学技术发展起着重要的作用,为减轻脑力劳动中的机械化负担提供 3 第l 章绪论 了新的方法和思路。过去,人们只能用臼己的头脑去记忆、考察和判断问题,借 助纸和笔作为t 具去辅助火脑功能,而计算机代数系统的出现能给人们带来思 维与解题工具的更新,使人们能够涉及比较复杂的符号计算和数值计算的理论 和实际问题。目前,最常用的计算机代数系统包括m a x i m a 、m a t h e m a t i c a 、m a p l e 等。 数学表返式足c a s 最基本的输入和输出元素。如何更加方便的输入、输出 数学表达式,使得c a s 的用户界面更加友好,一宜是c a s 发展普及中不断研究 和探讨的课题。由于计算机显示设备技术水平的提高,赢观形象的显示数学表 达式的问题口前已经基本得到解决。至于数学表达式的输入,长期以来,c a s 主 要采用的方法是编码输入和模板输入。编码输入是用键盘输入线性的字符组合 编码,然后由c a s 分析编码得到数学表达式。例如在m a t h e m a t i c a 中输入表达 式:詹z 2 ,需要在键盘上输入i n t e g r a t e x 2 ,f x ,o , j 。这种输入方式迫使用户去 学习特定c a s 的表达式编码,并且在输入过程中,容易产生语法或拼写上的错 误。模板输入法则是由用户选中特定的表达式结构模板,然后向结构的各部分元 素中填入字符。返种输入法比较简单直观,但足需要用户在键盘和鼠标中来回切 换,降低了输入的效牢。 寻找新的更加方便的表达式输入方法成为c a s 系统发展的需要,泛化计算 这一概念的提出,对c a s 的输入提出了更高的要求。随着数字设备的计算速度 和元件密度的稳定增加,电了元件价格的不断卜降,包括掌卜电脑、移动电话等 越来越多的电子产品具有了数字计算的能力,在此背景下,m a r k w e i s e r ( 1 9 9 1 ) 提出了泛化计算( u b i q u i t o u sc o m p u t i n g ) 的概念,其思想是试图通过强调上下文 感知、自然交互和计算机的空间分布来丰富人们的计算环境。泛化计算的思想反 映在人机交互技术的革新上,即是要求一个隐式或透明的用户界面。目前的人机 交互人多数足碌式的,即需要用户在某种抽象的层次上明确的给计算机或其他 数字设备指定任务,例如c a s 中表达式的编码输入和模板输入法。而隐式界面 止用户只需专注丁进行的上作本身,而i 必考虑如何与计算机进行交流,就仿佛 是看不见整个界面。样。这样,将使得刖户可以更加自然流畅的完成工作,从加 大大提高工作效率。在泛化计算思想的要求卜,如何为c a s 寻求种高效、自 然的数学表达式的实时输入力法成了急需解决的问题。 4 第1 章绪论 1 2 3 数学文档编辑及数学信息网络传输、共享的需要 f 刊c a s 的用户相l j ,j 大教学工作者和科披工作者也面临着如何利用计算 机表示数学表达式的问题。对于教师来说,需要用信息化设备辅助只常教学,制 作包含数学表达式的表格、课件等,而科技工作者除了要在科技论义中编辑数学 表达式,还往往需要从电子科技文档- f - 提取数学表达式,进行编辑、复用或者验 证和计算。与普通文字相比,存计算机中处理数学表达式要复杂和困难的多。这 种复杂性主要表现在下三点:。是数学表达式- l 要大量地使_ f j 各种特殊符号, 计算机软件系统中的常用宁符集中甚至缺少某些数学符号;二是由于数学表达 式排版的可扩展性,使得一些符号的大小和形状可发牛变化。三是由于数学表达 式结构复杂,具有维的空间排列性质。这些复杂性的客观存在,使得人们在利 用计算机处理表达式时面临着许多困难。 随着互联网技术的高速发展,越来越多的数学信息需要在网上发布、传输与 共享。例盘远程教学需要解决在网页中实时显示和编辑数学表达式的问题,而 分布式汁算系统则需要通过网络在服务器与客户端的c a s 系统之间传输交流包 含数学表达式的数据。如果小解决好表达式数字化处理的问题,那么包括数字图 书馆、分布式汁算和远程教学等住内的基于网络的数学相关成川将面临着瓶颈 的制约。 1 2 4 光学字符识别与文档图像处理技术的蓬勃发展 数学表达式的采集与输入是数学表达式数字化处理中要解决的关键问 题之一。光学字符识别( o c r :o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 和义档图像处 理( d i p :d o c u m e n ti m a g ep r o c e s s i n g ) 技术的研究和发展,为实现数学表达式的 采集与输入提供了有力的依托。 自从1 9 2 9 年t a u s h e c l d 得光学字符识别专利以来,经过近个世纪的发 鼹,o c r 已经成为当今模式识别领域中最活跃的研究内容之一。它综合了数宁 图像处理、计算机幽形学和人t 智能等多方面的知识,并在计算机及其相关领域 中得到了广亿应用。o c r 在人机交互中实际充当了人机界而的作用。目前,以 w i n d o w s 和鼠标为主的图形用户界面虽然给用户使用计算机带来了很大的便利, 但其实质与命令行时代相比并没有本质变化。随着信息化程度不断加深,传统界 面日益成为数据交流的“瓶颈”。o c r 由于更容易被人们接受掌握,近几年来, 5 第l 章绪沦 它同语音识别、行为识别等一起日靛成为人们研究的焦点。i b m 、m o t o r o l a 、h p 和m i c r o s o f t 等公司都陆续展开了这方面的研究。微软公司推出的办公套件从 m i c r o s o f to f f i c ex p 版本开始,不仅加强了原有对予写输入识别的支持,还增加 了对扫描贞面中文字进行识别的组件。传统的o c r 产品主要解决文字自动录入 的问题,现代的o c r 产品实际上已经成为了沟通现实世界和计算机世界的一座 桥梁。字符识别产品的广泛应用推动了模式识别等相关理论的发展,促进了计算 机应用的普及。经过几十午的发展,现在o c r 技术取得了很多进展。在国内也 已有了相对成熟的o c r 的产品,汉王、尚书、清华紫光等o c r 产品具有很高的 识别率。 由于通信与传输技术的发展,网络带宽和数据吞叶= 率的大幅度提高,以及海 量存储器与扫描仪、数码相机的价格急剧降低,促使图像数据库技术的快速发 展,使数字图像成为数字陶书馆等领域的重要信息载体。然而,罔像数据膨胀的 速度还是远远超过了网络吞吐率和海量存储器的发展速度圆此实际上无法革 纯以图像为存储方式保存海量的文档文献,客观上要求对文档图像进行迸步 的处理工作。 文档图像处理包括了文档图像压缩、版面分割与辨识、文字提取识别与文档 结构发语义分析理解等内容。自1 9 6 0 年以来,天丁文档处理方面的很多研究鄯是 基于o c r 的,从1 9 9 1 年开始每两年届的国际会议“i n t e r n a t i o n a lc o n f e r e n c e s o n d 0 c u m e n t a n a l y s i sa n d r e c o g n i t i o n ”的论文集中发表了许多文档图像处理的 相关文章。国内完全针对文档图像的研究不多,研究丰要集中在文档图像的分析 理解方面,如o c r 、视频图像中的文本跟踪,定位与识别( 如车牌识别、邮编识 别) 等;而国外的研究则比较丰富,包括文档图像的处理、分析理解与压缩等。 o c r 与d i p 技术与数学表达式的数字化处理密切相关,无论是表达式的文 档采集还足实时输入都可以从o c r 和d i p 技术中得到有价值的研究基础。目 前,主流的o c r 系统对文档中的汉字、英文字母、表格等已具有相当高的识别 率,但是由丁数学表达式的特殊性,现有的针对普通文字文档的o c r 和d i p 系 统还不能直接廊,f j 十表达式的数字处理,必须开发新的面向数学表达式的o c r 和d i p 系统。 1 2 5 数学表达式数字化处理的研究意义 从本节前而的分析中可以看出,利用计算机对文档罔像中所包含的数学表 6 第l 苹绪论 达式进行自动提取和识别可以实现人工不可能完成的海量数学知识的录入;联 机手写数学表达式的识别使得人们可以利用手写板等设备更自然方便的输入表 达式;表达式识别的结果以编码的形式存储于计算机,不仅可以避免直接以图像 存储所造成的存储量庞大、网络传输量大的缺点,还可以对表达式进行重新编 辑、复用、验征和检索,此外一个统一的表达式编码形式还可以实现各c a s 之 间的数据传输与共享。因此,在信息技术,屯子计算机和网络迅猛发展的背景 下,开展对数学表达式数字化处理的研究,在建设多功能的数字图书馆、构建自 然简洁的c a s 人机交互界面、开展远程教学、共享分布式计算数据等领域都具 有重大的意义。图1 1 展示了数学表达式数字化处理的鹿j 1 j 前景。 8 砦 哗8 蛾警舀 一心 ” 奴园 图1 1 数学表达,数宁化处理的应用 1 3 数学表达式数字化处理的研究范畴 在阐述数学表达式数字化处琊的研究范畴之前,首先明确一下数学表达式 的概念。本文将数学表达式定义为:由字母数字或各种数学符号所组成的e i j 来 7 第l 章绪论 表示某一数量、变量、或是某种关系及运算的字符序列,此外针对以f 几种情况 作出相应的规定: 在文档中页码、章节序号等处的数字或数字组合不属于数学表达式。 只有表示变量、常量或具有其他数学含义的字母才视为数学表达式。 “如果”、“那么”、“存在”、“任意”等表达数学概念、定理、证明时常用的 词汇小视为数学表达式,但是这些词汇有助丁判断其他字符是台埔丁数学 表达式。 数学表达式数字化处理的对象是数学表达式,其研究范围涉及到利用计算 机和网络处理数学表达式的各个方面,但是不包括利用计算机对表达式进行计 算、求解、化简,作图、推演及证明等计算机代数系统研究范围内的内容。本文 将数学表达式数字化处理的研究归为以下四部分工作:数学表达式的采集与输 入、数学表达式的输出与显示、数学表达式的表示与传输、数学表达式的检索。 1 3 1数学表达式的采集与输入 采集与输入是数学表达式数字化处理过程的第一个步骤,也是其他相关研 究的前提。数学表达式的采集指的足对现存文档中( 包括纸质文档和电子文档) 的数学表达式进行提取、识别并保存在计算机中的过程;而数学表达式的输入则 指通过鼠标、键盘、手写板等人机交互设备或者通过语音、手势识别等手段实时 的将数学表达式输入计算机的过程。 换一种 兑法,数学表达式的采集与输入也可称为数学表达式的计算机识别。 根据识别方式的不同,数学表达式的计算机识别可分为基于图像和基于内容的 两种识别方式。从文档图像中提取识别数学表达式和识舜j 联杌手写输入的数学 表达式都隶属于基于图像的表达式识剐,而从电子文档( 例如p d f 文档) 或其他 数学表达式表记方法中根据内容通过解码提取井识别表达式则描丁基丁内容的 表达式识别。幽1 2 给出了数学表达式识别的研究内容。 1 3 2 数学表达式的显示与输出 数学表达武的输出与显示是将存储在计算机中的表达式编码转换成屏幕显 示或输出打印的图像。通常首先要从表达式编码中确定要所要显示的表达式的 8 第1 章绪沦 图1 2 数学表达式识别的研究内容 结构;然后确定组成表达式的各种字符及每个字符的字体、大小,由丁许多大小 可变的数学字符的存在( 如积分号r ) ,实际上这一步往往要考虑更多的问题; 最后是根据显示群幕的尺寸,确定表达式显示的位置、样式,是否分屏等。由于 p d a 等微型移动设备的小现,如何实现数学表达式在微屏上的有效显示史成为 需要研究的课题。此外,随着互联刚的应用与普及,有关数学表达武显示的研究 内容还包括如何在网页r f l 显示数学农达式的课题。 1 3 3 数学表达式的表记与传输 网络的出现使分布在各终端的c a s 在相互之问进行通信和数据交换成为 可能,但是由于现存各c a s 往往采用各自的表达式表记方法,因此必须采用某 种统的数学表达式的表记方法作为各c a s 之问进行通信的“协议”。m a t h m l 和o p e n m a t h 等数学标记语言的出现即是向此疗向做出的努力,但是还需要进一 步的研究。此外,由于c a s 往往虽然擅长于数值计算、绘制图形等数学相关功 能,但是在输入输出和扩展开发等方面存在一些不足。囚此,有必要将c a s 与 编程开发工具相整合,扩展c a s 强大的数学功能到更普及的应用中去。这需要 在c a s 与外部开发工具之间进行通信以交换数学表达式等数据,数学表达式的 这种传输方式也足数学表达式数字化处理研究的内容2 一。 0 第1 牵绪论 1 3 4 数学表达式的检索 数学表达式的采集与输入,使得数学表达式以各种编码的形式存储于计算 机中,分布于互联网上。特别是数字图书馆中由于海量的文献,会形成庞大的数 学表达式的数据库。这使得数学表达式的检索成为一个急待研究的重要课题。同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国邮政2025许昌市秋招社区团购运营岗位面试模拟题及答案
- 肥乡防水毯施工方案
- 梧州脱硫烟囱施工方案
- 大学vfp考试题及答案
- 大班教学考试题及答案
- 2025年心理学概论试题及答案
- 衬衣制作考试题及答案
- 测量知识考试题及答案
- 青岛信诚百嘉商贸有限公司租赁客车合同4篇
- 景谷傣族彝族自治县中烟工业2025秋招工艺工程师岗位面试模拟题及答案
- GB/T 3253.8-2009锑及三氧化二锑化学分析方法三氧化二锑量的测定碘量法
- GB/T 15065-2009电线电缆用黑色聚乙烯塑料
- 陈嘉庚生平介绍(中文+英文版)
- 静脉血栓栓塞症预防与护理课件
- 西门子低压电器快速选型手册
- 养羊与羊病防治技术课件
- 蔬菜大棚项目计划书
- 医学资料品管圈十大步骤的运用
- 餐饮空间设计课件ppt
- 《基因组学》课程教学大纲(本科)
- DB51T 5036-2017 四川省屋面工程施工工艺规程
评论
0/150
提交评论