




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
广西师藏大学碗士研究生学能论文 印刷体数学表达式识别系统的设计与实现 论文作者:橡晓蓉专韭:计算瓿载佟与理论方向:黼稼娃瑾与模式讽捌年凝:2 0 0 2 缎 论文摘要 现代社会中计算机的磐及使人们越寐越多盼使用计舞机来处理日常察物和存储倍感,此时, 繁重焉低效撼手下录入方式与要求戆轻松蕊离效录a 之间麓矛昏也睫之 i i 产生。为了潮快文字的 录入,人们徽早以前就开壹f i 了研究,现已形成了一些比较成熟的文字识别软件( 如清华紫光o c r , 汉王科技等) ,这些文字识别软件,虽然对手写、印刷体文本( 包括汉语、英文和数字) 都有很 高的识别率,也己经筏广泛癍惩予办公蠹韵化、抉速录入镰领域,佳入锻裂爱了一些琥套戆文挡 资源,克暇了入j 二输入费时费力酶缺点;德楚,对予含青大量数学表达式的科技文献的识别来说, 它的作用真是让人不敢恭维,它的识别结果最多只能是一组毫无关系的字符串,而且这一组字符 串还表达不了任何的数学含义。分析其原因知,这些数学表达式一般都蹩由特殊的符号、希腊字 母、英文字簿秘数字等缀袋戆复杂静二缕鳐梅傣,嚣当嚣豹o c r 系统是缝沃澍一维静绻擒,对于 这样的二维结构,它根本就无能为力。为了解决二维数学表达式的自动识别问题,我们提出了一 种新的关于农达式识别的设计思想,并给出了完整的算法。可将印刷体的数学表达式( 圈像格式) 转换残可编辑鲍电子格式( 如l a t e x ,w o r d 公式编辑嚣) 。 按照袭这式识剐系统的流程,本文籀艨的分为班下翻部分: 图像预处理。预处理魁字符识别前十分重辫的一步,它的好坏将齑接影响到识别结果的好坏。 鞭处理工作檄褥好,傻发姨字簿本质特继躲部分摄到铩整甚囊突出赘采,识瓣就窭黪遴孬,谖裂 缝暴藏较好。爱之,藏念经谈剐交褥翻罐,菸黧造成谈鼍鞋警不莛磊聚。本文罄宠褥簿簧奔缁鞭楚 理麴斋个壹劳骤爱其耪斑静方法。最嚣,遴;曩辩常耀翔纯葬法静分擀,援斑了种设谶瓣静鞠豫 大小归化的组合方法,该方法可有效的处理大小不同、长宽比例较大的数学符号。 特镊键敬每选择。个字褥匿像只是模式空间中瓣特短,还不糍溺采分类,必须在它上甄提 淑稳定媳分类往i 极强躲特征。文中赍蜓了两萃争特征提墩与选择的方法,一静是传统驹旗子蟹号 特点的特征掇取方法,即掇取符号的结构特征和统计特征:第二种是利用k - l 变换氲接摄取各符 号鹜像鲍整体蟪诬,该方法扶焰一化蹲像鲍象囊特短共7 8 4 缭中选取了8 0 缎作为铃母熬特裎, 髋撂在镶整穰感鬟静弱拜蕈,大大黪诋了将挺矢爨静维数,淤豫了撙奉鞠豹程关注,突臻了莲器往。 蒋弓谖鲻。势类器蹩熬个谈裁系统抟竣心。支持惩鹫凝分类嚣竞瑕了弩游常曩戆模式毒鬟* l 方 法的缺点,有效提高了识别率。文中爿j 多类支持向量机对符号戚基元进行识别,得到了较高的识 掰率。 结搦谈凌。崮予裁端豁嚣橡分害l 燕迸努裁,鼓在谈澍了符号或羹蠢之恁,在逡行结构分析之 前,我们辩多元符号进行了合弗,为了薪续静理的方髓,也对函数型字符进行了合并。如何从一 缀字符中判断它们复杂的结梅至今也没蠢擞好的格决。文中将介缀一种基予蓥线的鲢秘浚剥嬲方 法,该方法霹将帮捌体数学袭囊奎蓑转换戚簸终胃壤辑蘸l a t e x 公式格式。 荚链运:数学袭达式识鼹,妇一诧,特楚选替与提取,p l 变换,支持趣餐援,褥号谖爨,臻捣 识别 广西师范大学硕士研究生学位论文 a b s 薯r a c t t h ec o m p u t e r i z e dd o c u m e n t - h a n d l i n gs y s t e m sh a v eb e e nw i d e l yu s e d ,b u tf e ws y s t e m sh a v e p r o v i d e df u n c t i o n sf o rr e c o g n i z i n ga n du n d e f s t a n d i n gm a t h e m a t i c se x p r e s s i o n sp r i n t e di nd o c u m e n t , t h es y s t e mp r o p o s e di nt h i sa r t i c l eh a st h ea b i l i t yt or e c o g n i z em a t h e m a t i c se x p r e s s i o n si nf i l e ss c a n n e d d i r e c t l yf r o mp a p e ra n dt or e c o n s t r u c tt h er e c o g n i z e de x p r e s s i o n si n t op a r t i c u l a rp u b l i c a t i o nf o r m a ts u c h a sl a _ r e xo rw o r d t h es y s t e mw o r k sa sf o l l o w s : p r e p r o c e s s i n g 确ep r e p r o c e s s i n gi sav e r yi m p o r t a n ts t e pb e f o r et h ec h a r a c t e ri sr e c o g n i z e d i t s q u a l i t yw i l li n f l u e n c eo nt h eq u a l i t yo f t h er e c o g n i t i o nr e s u l td i r e c t l y i f t h eq u a l i t yi sn i c e ,i ti se a s yt o c a r r yt of e c o g n i z e ,a n dt h er e s u l tr e c o g n i t i o ni sb e r e lo nt h ec o n t r a d ;b a dq u a l i t yc a r lm a k ei td i f f i c u l t n o tt or e c o g n i z e ,e v e nc a b s em i s t a k e nc o n s e q u e n c e 。i nt h i sp a p e r , a tf i r s t , w ew i l li n t r o d u c ee a c hs t e p a n di t s c o r r e s p o n d i n gm e t h o do ft h ep r e p r o c e s s i n gb r i e f l y f i n a l l y , t h r o u g ha na n a l y s i so fd a i l y n o r m a l i z a t i o na l g o r i t h m ,w ep u tf o r w a r dak i n do fc o m b i n e do n e ,t h i sm e t h o di s v e r ye f f e c t i v ef o rt l l e m a t h e m a t i c a ls y m b o lw i t hd i f f e r e n ts i z ea n dw i t hl a r g ep e r c e n t a g eb e t w e e n l o n ga n dw i d e f e a t u r es e l e c t i o na n de x t r a c t i o n as y m b o li ni m a g ef i l ec a nn o tb ec l a s s i f i e dd i r e c t l y , w em u s t e x t r a c tt h ef e a t u r e sw i 墩e x t r e m e l ys t r o n gs t e a d ya n dc l a s s i f i e dp e r f o r m a n c ef r o mi t w ei n t r o d u c e dt h e m e t h o d su s e dt os e l e c ta n de x t r a c t 啦ef e a t u r ei nt h ea r t i c l e ,o n ei st h et r a d i t i o n a lf e a t u r em e t h o db a s e d o nc h a r a c t e r i s t i co ft h em a t h e m a t i c a ls y m b o l ;a n dt h eo t h e ri st ou s ek 正。t r a n s f o r m a t i o nt oe x t r a c tt h e w h o l ec h a r a c t e r i s t i cf r o ms y m b o li m a g e sd i r e c t l y , w h i c hr e d u c e dd i m e n s i o n so ff e a t u r es p a c ew h i l e r e t a i n i n gt l s e f u li n f o r m a t i o n s y m b o lr e c o g n i t i o n t h ec l a s s i f y i n gd e v i c ei s ac o r ei no u rs y s t e m s u p p 础v e c t o rm a c h i n ei sa r e s e a t hf o c u so fs t a t i s t i c a l e a r a i n gt h e o r y 诳r e c e n ty e a r s ,s u p p o r tv e c t o rm a c h i n ec l a s s i f i e ro v 掰譬o l 奠e t h es h o r i c o m i n go ft h ep r e s e n ta n dc o m m o n l yu s e dp a u e m - r e c o g r t i t i o nm e t h o d s ,a n dh a si m p r o v e dt h e r e c o g n i t i o nr a t ee f f e c t i v e l y i nt h i sp a p e r , w eu s et h em u l t i - c l a s ss u p p o r tv e c t o rm a c h i n ec l a s s i f i e rt o r e c o g n i z et h es y m b o l s ,a n dg e tt h er a t eo f h i g h e rr e e o g m t i o n + s t r u c t u r a lr e c o g n i t i o n i m a g e sa r ec u te x c e s s i v e l yi nt h ep r e v i o u sp r o c e s s i n g ,f o rt h ec o n v e n i e n c e o ff o l l o w - u pt r e a t n l e n ls ow es h o u l dc o m b i n et h es y m b o la n dt h ec h a r a c t e ro ff u n c t i o nn a i n e 。s of a r , t h ep r o b l e mo fu n d e r s t a n d i n gac o m p l i c a t e dm a t h e m a t i c a le x p r e s s i o ni nap r i n t e dd o c u m e n th a sn o t b e e nc o m p l e t e l ys o l v e dy e t w ei n t r o d u c e d3f o r m a t i o na l g o r h h mb a s e do nt h eb a s el i n e t h e nt h e s t r u c t u r eo far e c o g n i z e de x p r e s s i o nw a sr e p r e s e n t e db yat r e es t r u c t u r e ,a n dt h eo r i g i n a le x p r e s s i o n s c o nb er e p m d u c e db yu d n gas u i t a b l ef o r m a tl i k el a t e x + t h ee x p e r i m e n t a lr e s u l t sa tt h ee n do f a r t i c l eh a v ed e n m n s t r a t e dt h ef e a s i b i l i t yo f t h es y s t e m 。b u t t h em o d e lw ep r o p o s e ds t i l ln e e d sf u r t h e ri m p r o v e m e n tf o rc o m m e r c i a la p p l i c a t i o n k e yw o r d s :m a t h e m a t i c a le x p r e s s i o nr e c o g n i t i o n ,n o r m a l i z a t i o n ,f e a t u r es e l e c t i o na n de x t r a c t i o n , k - lt r a n s f o r m ,s u p p o r tv e c t o rm a c h i n e ( s v m ) ,s y m b o ir e c o g n i t i o n , s t r u c t u r a lr e c o g n i t i o n , 1 l 第一章绪言 第一章绪论 1 1 课题来源及意义 1 1 1 课题来源及目的 本课题来源于广西壮族自治区教育厅下达的科研项目:“数学表达式自动识别中的模式识 别方法研究”。本文是该课题研究的主要部分,研究i i 的是设计和实现一个自动识别印刷体数 学表达式的识别系统,使得我们可以直接利用已有的写在文档中的数学表达式,从而可减轻 劳动强度,提高工作效率和方便对数学表达式进行其他处理。 1 1 2 实际意义及价值 近年来,由于互联网用户的迅逮发展,通过互联网这个方式,信息的传播和交换有了迅 猛的增长,班互联网为基础的数字嗣书馆和远程教育也逐渐成为热门领域。为了推动这始领 域盼发疑,首要任务就是开发一种麓易丽档效的系统该系统能够将现存雏文档澎式的知识 转变成相应的电子格式,以便于被当代的数字计算机处理,并能使其通过互联网方式进行传 埝。如晨这些已枣静纸涮文楼坟仅禽毒一缝的文字瓣话,我们可以使蠲一些褒鸯戆比较戏熬 的文字识别软件( 如清华紫光o c r ,汉乇科技等) 来将其电子化,而当含有大量公式的文献 在两终中铸输对,崮予公式蕊秘霰班图像形式铸翰,这不仅会影确两络瓣传赣速率,两氨这 样的公式,我们是无法再对其进行编辑、修改的,因此,遮就使得现有资源不能被充分利用。 耍解决诧类阍蕊,一个狠好的办法就是,开发一种可以识稍数学裟达式的系统,该系统w 将 已有的图像格式的公式转换成如l a t e x 等格式的文本公式,这样类型的公式,不仅占用空闻小, 而且,可以进行再编辑、修改,避免了重复性劳动,在一定程度上,方便了公式的录入。 经过谖囊之募斡数学表这式,霄攫大懿窭覆徐馕,摄器磊蔻祷嚣,至! j : 1 ,转换成l a t e x ,用于h t m l ,x m l 的制作: 2 ,用于机器的自动证明; 3 ,编辑+ 修改、传输越来 没有识剐的公式图像更方便。 。2 数学表达式分耩 ,2 数絮表达戏识别的分类 数学表达式识别是光学字符识别的一个蘑要领域。 根据输入方式的不同,数学表达式识剐可以分为联机识别与脱机识别 1 】。联机识别,也 叫在线识别,是指采用电子笔在电子板上边写边识别。这瓣识别方式,适合个人秘小援模数 据的录入使用。联机识别时人们在写字板上手写的字符数据( 即笔触板时的触点嫩标) ,通过 计葬极麴串爨或共曩俦入计舞视,然嚣对璧标僮迸行预照耀、字褥分裁、特征接取、特缝匹 第一鬻绪言 酉已、分类识别等。脱机识别,也叫离线识别,相对于联机识别难度要大一点,它是对已经碍 槛纸上的数学表达式通过扫描仪将其输入计算机后的二值图像进行识别,啪写和识别可吼分 歼进 亍,这种识裂方式适合大批量数据豹集中录入,聪枧识别聪,蓄先用翻撼设备把字符静 二值图像铸入计簿梳,然螽对二= 二值图像进行颈处理。图像分潮,特征摘取,特征匹配、分类 识别等,其主骚特点是: 脱机识别相对于联机识别难度要大一些,嗣为在联机识别时,符号的特征比较容易提取, 懿篷翻,笔颓等,霹鞋壹书写避疆壹接褥裂,褥菇凝识剐藏不嚣藐存在遮藏经势;另乡 ,联 机识别时可以规定表达式的书冀顺序,如从意到右等约柬条件,使得识别枢对比较容羁,而 甩表达式的结构也相对容易得到,这些约束祭件对于脱机识别是不可能有的。可能是因为以 上两个原因,毳野究工作者在脱机识划方直做的工作比较少。 根据书写字符豹正援程寝,数学表遮式静谈崩可醛势为鞠捌俸谖剐和簪譬俸误爨。丽手 写体识别可分为限制手写体识别和自由手写体识别。印刷体识别现还只限于脱机识别,魁将 印刷刊物上的数学表达式扫描并进行识别,是将已有刊物上的数学表达式输入计算机的最有 簸的方法。 本文所研究的是印刷体数学表达式盼自动t 鞋别系统的设计与实现。主骚对脱机数学表达 式识别的两个主要阶段符号识别与结构解析进行研究。 1 2 ,2o c r 系统中豹数学表达式识别疑薅究现、获 1 ,o c r 系统巾的数学表达式识别 一篇科技文献,其中一般都会含有大照的数学表达式。数学表达式魁由对阿拉伯数字、 茭文字母。希鞴字母,特豫糟弩等壤戒鳇一莉将豫艘二维翁梭。聪商静o c r 系统一般只髓识 剐革个字符,蕊不能分析表达式的结梅,困雨,使瑚现有的o c r 系统去识别的数学表达斌, 挺多廷疑缛戮缀毫无关系懿掌簿审,巍不g 蒋裂套完整意义缒数学表这袋。 一个典型的数学表达式识别系统包括扫描公式、去噪、倾斜校正、字符分割、字符图像 鞭楚理、转程键取、字符臻剐、缝梅势辑、公式输躲等蘧耧f 2 2 】。藤蓠,辫囊多 对数学表这式 t 驳别的研究桕对还是比较少,其研究主要集中在两个方面;镣号识别和结构分析。符号识别, 主要怒指数学符号的识剐,奉璜上与大多数掌符识剐问题样。编构分耩嘲主要在前面锊号 谖剐上作熬基础上,遁过某种繁略采分斩辨谖鑫个符号之阕煦空阕关系和逻辑关系。 符号识掰i 璧耩般分为涮像灏懿瑾、特征提取与选择、分类器的设讲+ 三个模块。舀像联 处理壤挺二蕊化、图像娇正、尝嘹、图像分劐,螳诧,缨睨等步骤,它鲥均与提取特缝紧 密相连。去噪鼹预处理中极藏要的环节,系统颟对的是从窝际环境中切分n j 的字符幽像,可 戆有糍连逮拯、随概壤蠡、还霹笺麓龄线等使骛景增趣蘸噪声。秘蓠逶照箨静环境斡逶霜去 噪算法还不成熟。图像矫正魁通过对倾斜文本进行矫正,侵同水平线上的符号熏心位于间 一隶平线上,嚣有通过图像辩援,在结捣势桁淤段才能对备符号之闽僚饕关系进行正确德分 衔。另外,出予纸质文档的印酃质援、纸张的光洁程度、招描纹豹分辫率、= 毽位等禹誉盼 嚣嫡,害j 播褥鳓戆弱豫中斡字褥霹麓是糕凌的。嚣忿。精建字符懿势帮也疑联整理过程中熏 2 第一章绪言 要的一步,但是,由于时间有限,我们鼹前的系统还没谢实现对粘连字符的分割。 一个字籀窭缳灵跫模式空嗣中憨特镬,还季戆瘸采分类,鍪矮在它上瑟攫取拣旋转、缭 放、平移的几何不变性特镪。为了分辨j 垃锨的字符,需骚提取字符的纲节特征;为了克服= 僮纯带来瀚澎交,提筒拣予抗能力,需骚键取字符的总体特征。本文中,我们首先利用数学 簿号匏特森,挺取了一个幽多释特鳋缀贼蜂特短集,该特征集壤予符号浚鬻暂获褥较窝靛谖 裂攀:跤下采,我嚣j 提班了静基于k - l 燮换豹数擎褥芍懿夔嚣褥镬熬提取方法,该蠢法较 我们的前一种方法来得艨鼹愿简单,鼠更张效。 分类器魑整个识别累统的核心,也就魁识别图像分离后的符号鼗簸冤。鲤标是参照数学 符号嶷台,趣够竞成在摆攫披上输入的辩捌钵数学簿露瓣识尉王终,劳褥至l 鞍瘫静谖裁褰。 结构分拼遘稳建本鬻跷静勇一个整点,对数学符弩的识翻只是给构分析酌前期撒备。岗 像文转中躲豪述式是二缝努雍静,鲡馋涎滚缀符号采判断它稍之间簸杂的空阐和邋辑关系 是结构分橱的主要任务。 遥逡鞋童多臻,文糨孛麓蠡擎表这式禳转按袋霹镳耩瀚l a t e x 格式。系统蘩褥霓黧l ;1 。 蘸绫翰a 符骛 黼 绻梅势牛蓐 糕凌瓣i 嫩 爨lt 羧攀簸逸式谖戮邋毽 2 ,戮凳骥靛 手笃俸数学表述式游巍辘识羯在黧海多 拜究静毪较多。褥数擎袭稳武秘联撬谈剐,在溪 淘矫剐霄捆警多的研究,融胄魑比较成功的撮导( 2 ,3 ,4 ,5 6 ,7 】,也形成了一然可以使用的系统一 熟藿静静n a k a y a m a 8 疆d i m i 撼a d i s 辩e o 黼岛f 露敬诗翡肇写输入数学公霞编辑嚣,c h a r t 翮毪髓鲑5 3 l 浚诗簿运麓臻筠鞣姆浚方法鼹联撬鼗学袭逡威谖躐系统;以爱滏峦褥串料陵鑫磅 化所的警弼体淡达式联机识剐瑟统。但攒我 f l 辑知,爨内 对露裂体抟鼗学表达式塔剐系统 3 第一章绪言 的研究起步较晚,近几年柱国内外才引起了较多研究者及研究单位的兴趣,如国外的o k a m o t o 和m i a c 1 5 、h j l e e 和m c l e e 4 8 1 、l e e 穰w a n g 4 ,f a t e m a n 5 9 ,6 0 】镣研究者,以及国内的 一些研究单位,热咯尔滚工程大学自动化学院、河戴大学数学与计舅祝学院、南开火学智髓 研究所蹿。但他们的研究还都处于初级阶段,还没有可以应用的实际系统。因此,我们在此 重点研究讨论印刷体脱机表达式的识别。 1 。2 。3 数学表达式鞠特点分橱 在文档中,相对于文字之间的一维必系而言,数学表达式有其特赚之处,即总的说来, 它是将大小不一定完全相同的符号按一定舰则排列成一个二维层次结梅。具体地说,数学表 逮式戆赞点f 2 ,3 】套: ( 1 ) 数学表达式中的符号分为两种,基本符号和特殊符号,特殊符号如绑定符号、界定 符号、逡算符号等,它们宵各自的组织准则,如加号必须有两个操作数等。 基本簿号一觳存鞋。f 缒影藏援黧:大,l 、稳翼曼籀邻涎数字应该怒一个整馋,鲡4 1 0 , 相邻但大小不同就不能律为一个整体,如4 ”;几个栩邻的字母有可能形成一个整体,如函 数名( t a n ,s i n ) 等,但有时也代表两个畿鬣的乘积,如a b ,它表示a 女b ;除了字母和数 字的其它符号应该独自形成一个整体。 对于特殊的符号,一般有以f 三种情况:绑定关系符号,如分数线、n 矿等,它 们霜露臻蠛中游表达予式绑定在一怒,懿y l 中的求藏耱弩藏绑定了兰个袭这予式l 姻、 罚 i = 0 ;器定符号,麴括号,宅蒋棼定符号淘静内辫澎赣成一个凳整豹部分,宅典眷受离的 运算优先投;运算符母,如+ ,、 ,等,它们都约寐装各自的操作数。 ( 2 ) 运算餐包耩箍茂运簿蒋帮臻式远葵簿。 照式避算符就是通常的运算符,可以根据它们的运算优先权规则求确定运算_ 荧系。如果 表达式不怒缝往疑,魏a 要,霹弑壤嚣送舞簿弱律嬲壤寒确定逢舅关系。隐式避簿稽幽撵 。 佟鼗匏穗对谴譬来确淹运簿燕系,嚣没露明照运算符号,如上标,下撩霹懿式夔豢号。铡翔, a b 表示燮凝一和交鬣詹相辩;在a 2 中2 魁a 的上标,而程a ,中2 是n 的下标。 3 ) 稳强戆 事号程不溺靛谴置旋暴戆禽义可麓不强。镄热,爨赢爵貔表示豢,霹能袭示 小数煮,薇一整数学表选或鞫像中还w 熊是噪声等:涟例翔叔在式i x 焱中玉表示税分窝元, 两在式甜+ 焱中表拳d 释芏襁黍。 爨努在黪臻瞧袋城串,数学表遮戏孛驰符号煮特爨瓣禽义,麴瓣惩孛瓣一些鬻数搴擎号。 所以一个数学表达式识别系统不可能适威子所有的领域。几乎所脊的识别系统都只造艘予某 4 第一章绪言 一个或某几个领域。 1 ,2 。4 数学表达式识别的研突特色 数学表达式识剐主要番两个差键技术,一个是数学符号的移 嗣,男一个怒数学表述式的 缝构识别。 ,符号识别 数学表达式识别中黪数学符号识别就是对袭达式孛存在懿数字、英文字薄、希腊字母、 运算符、关系符等特撩字符进行准确确认的过程。现如今,虽然砖字母、数字等的识剐硬变 得比较多 6 l ,3 9 ,4 0 ,4 1 ,但专门针对如此多类的数学符号的识别的文献还不是锻多,丽旦 其识别率也不高。我们知道,数学符号的正确识别直接影响着数学袭达式识别的正确奉,因 而,提疆正确率高、谖剐速度快、识别方法简单的数学符号的识别方法对数学表达式的识别 起蔫至荚重要翡佟角。 2 ,结稳谖剐 数学表选式中的单个符号识剐出来之后,下一个重要的步骤就是结构的识别,即各单个 符号之润的数学美系熬谖剐。在虢识搿过稳中,主婺识耐的是符号之间的空间关系和逻辑关 系。表达式分辑申鲍礁点考上下掭、】鬟标、底椽位置煞确定,壤式、分式的予表遮式范匿的 界定,以及艇阵、行列式、与分段表达式的分捞筹。 。3 统计学习瑗论 渡蕊撬嚣学习疆谂的核心是经验飙险最小诧原则( e r m ) 。翔聚默丈爨麴榉本进行训练, 劳强栽找裂一个稳当遥远这垫样本瓣酗数,酃么它胃望焉工作祥零锻出较准确的预测。这反 映了大榉本统计学对潮避耪链懿禳赖。裾年健辩锻多学者试隽袋学习褪器是翥静熊拦广缝力 的唯一斛素就是使它襁训练熊上的谈慧最小,因此,e r m 艨则似乎是不正囊踞憋。鼹事实上, 魏巢学魏橇舔能力过强。能档无谈麓鞠适淼任意麓镶练辑率,筑会磐餮秘学蜇攀中不霹涎镄 的情况。这楚因为它所采用的函数巢过于拦杂,对任何训练样本都僳持黼精度的辩识能力本 身裁魏游着对王俸榉率掰骰预涮韵不可靠链。 v v a p n i k 等人在年代来撵渤并在9 0 年代遥港完善的一种专门针对小棒零的机器学习 规铃懿理论- 绫诗学霹理论f s 拯t i s e 破l e a r n i n gt h e o r y ) 蕺( s l t ) ,它静菝心润题楚寻筏一种i | ! j 纳愿魁以实珑最,l 、纯风险泛瀑,扶穗实现最毽斡握广娆力。 统计学习理论的主要内辩包括四个方面: 激验最验最小豫臻囊下绞诗学习一致惶秘条梅; 2 ) 在这些条件下关予统计学习方法稚,1 性的界的结论; 3 1 往遮垫器翁基馘上建立酶审榉奉辩霸攘理穗剡; 4 ) 实现掰媳准则的裳磊穷法算法) 。 其中,鼓有攒母性的邂谂结慕是箍广饺躯舞,与鼗档美戆个竣,豁藏忿楚v c 壤。 第一章绪言 1 。3 ,1v c 维 为了研究学习过程一致收敛的速度和推广性,统计擎习理论定义了一系列有关函数集学 习性能的指标,其中最重要的是v c 维c v a p n i kc h e r v o n e n k i sd i m e n s i o n ) 。模式识别方法申v c 维的赢观定义是:对一个指示函数集q ( z ,d ) ,a 人,如果存在h 个样本能够被指示函数集中 的函数以所有可能的2 “种搿式分开,这时称函数集能够把h 个样本打散。函数集的v c 维就 是它8 9 打数躲最大榉本数霆h 。据鬃慰于经爨数曩大奎豹群本,慧霹跌疆通数集q ( z ,& ) ,群a 打散,那么该函数粜的v c 维就是无穷大。实数函数的v c 维的定义与此类似。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复絷( 容量黼大) 。谴憾的魁,目 藏崮没有逮鲻憋关予饪意委数集v c 维计舅瓣理论,只黠一些耱豫躲函数粲躲遵箕v c 缭,努 可以证明1 7 1 维空间中的线性函数集合 q ( z ,口) = a ,z r + 口。,n 。,口l ad 。( 哪,栅) ( 1 1 ) ;t 的v c 维h 等于n + l 。例如在二缭平薅中直线最多只憩打数3 个点( 蝴燃1 :) n 程嘲数 f ( z ,口) = o ( s i n a ( a z ) ) ,a 营r ( 其中口( z ) 为跃阶陶数,当z 0 ,j i ! j j o ( z ) = o ;否则口( z ) = 1 ) 豹v c 维为嚣舅大,溺为通避调节a 它能够打散直线上任意数量酌点。 鞠l ,2 平面中离臻秘鞯维示意蕊 。3 2 攘f - 性戆赛 统计学弼理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关幂, 辩嚣广链鼹弊。关予豫类努黉蕊蘧,结论燕:对指示函数爨中翁衙帮函数( 包括谴经验风险最 小的瀑数) ,经验鼹陵跫。( 均帮囊甄风险晨妨之黼鞋至少l r 皱概率满足据下关系: w ) s 最。磅+ 厩蕊函虿面j 而两 q i 1 - 2 ) 其中h 蓬丞数集静v c 维,n 为样本数。 这一结论技瑾埝上遵鸡了学习戡嚣戆实糠最蹬是由嚣韶分壤盛骢:一是经验灏陵9 # 练误 差、。翳一部分称作爨信范围。它和学习机器的v c 维及训练样本数有关。可以简单地表示为: 6 第一章姥砉 r ( w ) r , 。p ( w ) + o ( n h ) 1 - 3 ) 它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) 则置信范围越大+ 导致 真实风险与经验风险之间可能的麓别越大。这就是为什么会出现过学习现象的原因。机器学 习过程不但要使经验风险最小,还要馒v c 维尽量小啦缩小置馈藏匿,方毙取褥较小躺实际风 险,即对未米样本有较好的推广性。 霈婺搭鑫,接广洼静彝是麓予最坏情况静结论,在缀多馕搅下是较松的,完其当v c 维较 高时更是如此。而甩,这种界只在对同一类学习函数进行比较时有效,可以指导我们从函数 集中选择藏优豹函数,在不同函数集之间比较却不一定成立。v ;a p n i k 指出寻我趸好地反映学 习机器能力的参数靼碍到照紧的辫是学习理论今骶的研巍方向乏一。 1 ,3 3 结构风险最小化原理 献上蓓豹结论嚣翻,e r m 原捌在样本有限时是不合理的,我们需要同时最小化经验风险 和置信范围。其实,在传统方法中,选择学习模型和算法的过瑕就是调整置信范围的过程, 如暴模型比较适合现有的训练样本( 相当于h n 值适当) ,则可以取得比较好的效果。但闭为缺 乏邂论指导,这转选择炅能依赖先验知识秘经验,造成了懿持经甄络等方法对嫒瘸黄“技巧” 的过分依赖。 绕;卡学秘理论摊出了一释新豹策黯,嚣酋兔徐定一个韬数繁,它由系捌酝套静璐数子 集最= :据矗。 堡成,辩s c 是c ac s 。c a 且备黼鼗鹣子集蘸v c 维满足 h ,蛙a 2 a - h 。- a ,随着子集序姆, 泡增加r 宾。( w 的最小谨逐滚减小,但赞攘范燃却不 断增加,我们可以通过选择合适的子集s ,馊得在这个子集中,最小化r 。( w ) 会得到r ( w ) 的 最好的界( 如图1 3 ) 。这种在训练样本逼近程度和函数复杂程度之间取折裳策略称为“绺构风 险最, 、佳嚣嬲”s t r u c t u r e 黜赡i v i m i m i z a t i o n s r m ) 。缝诗学习理论还绘窭了台疆瓣漪数予集结 构应满足的条件及在s r m 准则下实际风险收敛的性质。 蜜蕊s r m 豹方法有两种: l ,通过选择逢当结构的匝数子集模型) ,馒燮僖范燃保持固定,然麓在醴数嶷中选择最 小化艘。( 。的函数; 2 ,保持嚣。( 帅固定( 静j 如令r 。卅p ( w ) * o ) ,选择适当的函数使置信范围最小。 第一种方法的蓑键是要选择适幽复杂的函数集。如果函数集过于复杂( v c 雅偏大) 。虽然 叠。谚攫枣,钽燕置莹嚣隧会缳犬,瓿嚣盎瑗过学习秘簸。反之,奶暴蕊数纂过于麓肇秽e 维德小) ,萎然置信菠基穰小t 蜓嚣一( 奶会 曼夫,鼓薅出现灾学习趣题。特经耀络露袋瘸第 一种方法,斛此神经网络的结构设计对推广能力的影响非常大。第二种方法的必键是要使的 7 第一章绪言 函数集尽可能宽滋,既包撼v c 缎较大的啦数予嶷,也包撼v c 维减小姆晒数予集,这样冀法 才有可能选择出真正最优的分类函数。支持向量机就是这类方法的典型代表,它通过引入核 函数使得可选的函数集非常宽。 图1 3s 麟原翊示意萄 1 4 本文内容安排 本文主簧研究的是印刷体数学表达式识别系统的设计与实现。第二二章主要介缁r 图像预 处糍蹬段辛魏霓个主萋步骤,及簿一夸步骤中酶嚣掰方法。在戴还提出了一静适台子鼗学符 号熙缘熬大小夥一健方法。 第兰章主瑟磺究数学符号游特征遮择与掇取,势提毒了延耱方法;一萼孛是基于数学祷弓 特点的特征选择与提取方法,媳过该方法褥到了一个有效的特挺集;另一秘方法是剿慰k - l 变换提取数学符号的籀体特征。 第鞘章对支持向量瓤豹理论鏊础、基零髹瑾,辇奉谶练算法进嚣了麓单套缝,并绘如了 使耀支持向量帆对数学符号涟彳亍识别的结果比较。 筻五章黄宠饕要贫缀了基霄翁结稳势辑方法,巍了结鞫努耱旁寝,畿稍在我增麴一个结 聿句分板颓处理攥块,谶模块谯瓣熬元避嚣合并熬月黠瓣函数爨字簿也进行赍并,这经萋元奁 菇与瑟数型事符台著嗣越避霄,麓纯了整令裘这羲诞糕系统的步骤,莠轰魏稳势繇过程提篌 了方便,晟后,介绍本文的基于基线的结构识别方法并给出袭迭式的识别结果。 第六章对本文做了一个全面的总缩,指出了茸前数学表达式识别有待解决的问题,并对 凝嚣f 步鲍研究避行了扔步的设想。 8 第二章图像预处理 第二章图像预处理 预处理是数学符号识别前十分重器的一步,它的好坏将直接影响到识别结果的好坏。预 处邂工作做褥好,使爱映符号本蔟特征鹩部分褥鲻保留甚至突斑出来,识别就容荔进行,识 别结果就较好。葳之,裁会经谖剿变褥嚣菠,鬟至造成误谈等不鑫菇采。国既,本文在预处 理阶段,对翻像进雩亍了较为宠善的颈处理,包撼平潺、去噪、分割、大小归一化拳鲴化,然 而得到了较理想的符号点阵为后续符号的特征提取和识别打下了良好的基础。一f 豆对步 骤分别介缁。 2 。 图像旋转 图像旋转趋攒对馍魁的表达式匿像进褥矫委,使同一孝亍的符号鬟心懿予嚣一隶平线上。 在扫描的过程中,可能会因为印刷品摆放位置不正两s l 起表达式图像躯憾裁。从第5 章 可以看到,倾斜的图像会给结构分析工作带来很大的困难。所以我们需要提前把它旋转过来; 依据如下公式c 1 0 : 毋= l a t e r a n = 堡娑撵s2 ) 譬, ) 2 掰2 0 一柳0 2 2 箕中8 燕包含氆檬区域辩椭灏翡长辘萼y 辘翦菠是,掰。= 矿罗9 ,( 墨西,f ( x ,力是 熹 h ,刚 p e r c e n t = 哆s w ,否则,p e r c e n t = 殿r 坶。则融下式得到归一他图像中每个豫素的灰 度篷: s ( 工,) 2f ( x l ,y 1 ) ( 2 5 ) 2 ,算法矜辑: 嚣艨霸一证蔻,逶港毒两静溃躐,鞠髹淫缘院翔一德强像枣帮缀鬻像跑努一讫黧像大, 如图2 2 所示a ( a ) 图袭示原图像小的情况,即归一化艏,图像放大了:( b ) 图表示原图像大的 情瑟, j = j l 一纯嚣,鹫稼缩小了。 国鼹2 , 2 中我稻w 戳嚣瓣,蒙黼德逝翔一姥翻蠓夺融,原塑像中斡一个象素点对应魍一 化图像的一个隧域,即蚓一化图像和原 鹫像乏阍是“隈瓣点”瓣美系,足残魄 率p e r c e n t 戆,l 、,这个对艨瓣区壤裁麓广 太。穗乎驭上归一记簿法采蠲的是遗掰 芒兰i 归一化图像中的所有象索点,即通过式,、 僦姐襞愿圈像比腿一化图像大+ 搀妇化操作对,在嬖葺一佳整像秘簸黧像之游蹩“点一区 域”关系。蓉溪援醛上髯法糖一铯之蠢,霹髓会丢失魏信塞,麴纯戮像会产生戆键、笔 魁丢必等嚣璐象,煮孵葵至整个嚣号型像都不觅了。逡楚疆为对麴诧搿豫孛熬莱象豢按 1 2 第二章圈像颞处理 式( 2 - 4 ) 怍变按时,它只能对应原型像中它所对应区域中的某一点,若该区域包含笔划,瓶腰 映射劁的象綮又不是前景色,此时在该区域中的笔划信息在归一化图像中无法得到体现,从 覆造战了笔划的断链,甚至泛失。魏对一个长嚣缎躲分数线蒋号麴像进纷归一诧对,出于分 数线比较欧,导致尺度比率很大,归一化图像中的一个点对应原圈像中的区域也就越大;而 显笔划义毙较细,在漂图像禁令对液躲嚣城中,受裙少数象素属予翦景象索+ 经_ 遗式 2 4 ) 交 换得到的象索点有可能不在前景色点,这样前最色点的信息就不能被反应到归一化图像中, 扶两岢致归一亿图像靛信惠丢失,褥不到较好的妇一化图像。 2 。s 。2 瓤方法 1 时,说明原潮像眈趋一化图像要大,此时 需受缩小,则采用爨洼二;讴则采趟算法一对它遴行归一化。 但对于宽高比很大的符号,如长根号婶,不能直接采用算法一或算法二进行归一化处理, 由于它躲宽蹇魄太大蔼 l 恕尺度魄率p e r c e n t 1 ,扫一诧鹜像中豹菜一唾、象素京在琢圈德中 对应的区域很大,归化后会使长根号变成一条盥线,如阁2 5 所示。在归一化之前需要对它 避行预箍理,将宅裁剪。 经统计研究发现,只省长根号、和分数线符号的宽离比大予2 。其它符号,包括短根号 的宽高比都魑小于2 的。裁剪的方法是保留符号的左边部分,而舍弃符号的右边部分。裁剪 得到的图像的宽高比为1 5 1 8 任选。实骏蛙累表明,裁剪之后的图像经过归一化之后德到的 结果是令人满意的。如图2 5 所示,对于长根号的归一化处理时。若不进行裁剪,则归化之 基会褥到一条壹线,这彝长势数线符号 霹傀兹续暴差不多,我瓣看至经过载赞之螽褥到戆 上 赶一化图像自很好的反应 警号的特点。图2 6 是傻用本文方法对 8 表达式型像分裁爱袋褥 的符号隧像避行大小螺一他后敕结襞。 1 4 且 点 丑 爿;烈 4 4 以 4 爿么 直 彳4 4 彳且 矗 4 44 以4 4 一么 丑 第一二章图像预处理 4 - - 囝25 长根号的归一化处理 上一行是原图像,下一行左圈是未经裁剪归一化得到的结果,中国是裁剪的结果, 右图是经过裁尊后归一化樨到的结果 图2 6 ,举文方法对表选式的归一化结果 2 。7 纲 : 细化的必要性不仅仪只是压缩冗采信息的需要,同时还是对模式进行结构分析的需要。 对于字符来游,细化后的图像更为符合人类的识别习。骥,便于我们进行结构分析并设计出更 为查囊
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届闽粤赣三省十校化学高三上期末学业质量监测试题含解析
- 情景剧模板课件
- 悲惨世界课件
- 2025年秋季部编版初中数学教学设计八年级上册12.1 全等三角形
- 班级圣诞活动策划方案
- 四班级班主任家访方案
- 主题营销的策划方案
- 2026届天津市第100中学高二化学第一学期期中综合测试试题含解析
- 劳动活动奖惩方案
- 电路基础试题及答案
- 妇女维权法律知识讲座
- 2025年内蒙古自治区中考语文真题含答案
- 2025版危险货物道路运输综合预案(电石)
- 2025年中医确有专长考试试题及答案
- DB32∕T 4553-2023 医疗机构医疗器械不良事件监测工作指南
- 2025年机关事业单位技能资格考试-政工历年参考题库含答案解析(5套共100道单选合辑)
- 关于工勤人员管理办法
- 传统丧事流程安排方案
- 老中医讲辟谷课件
- 殡葬政策培训课件
- ICU保护性约束护理
评论
0/150
提交评论