(计算机应用技术专业论文)基于ocr识别信息的语音合成在web上的实现.pdf_第1页
(计算机应用技术专业论文)基于ocr识别信息的语音合成在web上的实现.pdf_第2页
(计算机应用技术专业论文)基于ocr识别信息的语音合成在web上的实现.pdf_第3页
(计算机应用技术专业论文)基于ocr识别信息的语音合成在web上的实现.pdf_第4页
(计算机应用技术专业论文)基于ocr识别信息的语音合成在web上的实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于ocr识别信息的语音合成在web上的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北工业大学硕士学位论文 摘要 随着计算机技术与i n t e r n e t 互联网的发展,人们的信息交流带来了巨大的变化。 各种现代化的技术手段和大量丰富的电子信息资源,提供和服务于人类社会。其 中现代化的技术之一,计算机模式识别与语音合成技术也得到了巨大的发展。文 字识别技术在中文信息处理、办公自动化等高技术领域,都有着重要的实用价值 和理论意义。语音技术已作为新一代智能应用的一项重要标志它能为我们提供 接近自然语言的人机通讯方式从而达到人机对话的目的。多种信息化技术的结 合是满足现代化、智能化、信息化发展需求的必然趋势。文字识别技术、语音合 成技术的以及w e b 技术的结合,其应用领域将会更加广泛。 本课题是基于o c r 识别信息的语音合成在w e b 上的播报,以实现一个图像信 息向语音信息的远程转换,为智能化技术在未来计算机集成制造中的应用打下基 础,使部门文档数字化、车间管理语音化,进一步提高生产效率。 整个系统由o c r 部分和远程语音合成部分组成。o c r 部分首先分析汉字识别 的基本方法,并进行了比较分析,按照步骤详细介绍了“弹性网格”结合“神经 网络”的识别方法,并使用j a v a 语言编程实现。由于硬件设备欠缺,使用汉王o c r 设备进行演示,并将数据格式进行转换。语音合成部分介绍了参数合成、拼接合 成等合成方法,以及s s m l 、s 3 m l 技术在网络语音合成中的应用,并选择i t t s 语音合成服务器作为语音合成平台。最后通过一个在线考试演示系统,将两部 分有机结合起来,扶数据库中读取o c r 模块识别的用户信息,根据成绩进行远程 语音合成和语音播报。在本项目的开发过程中,注重使用v i s u a ls t u d i o n e t 中的 c 样n e t 、a s r n e t 和a d o n e t 技术,结合使用s q ls e r v e r2 0 0 0 数据库,使得软 件的结构更趋合理、方便及实用。结果表明,“神经网络”进行o c r 识别具有更 强的稳定性,o c r 信息通过网络进行远程语音合成最终转换成语音信息。 关键词;o c r ,w e b ,x m l ,s s m l ,n e t ,三层结构,神经网络,集成制造 湖北工业大学硕士学位论文 a b s t r a c t w i t ht h el l i 曲s p e e dg r o w t ho fb o t hs o c i a le c o n o m ya n du r b a np o p u l a t i o n ,t h e d e m a n do fu r b a nc i t i z e nf o rt r a v e li nt h es a m ec i t yi si n c r e a s i n g l yg r o w i n g ,w h i c h u s u a l l ye x c e e d st h es u p p l yo fp u b l i ct r a f f i c sc a p a c i t y , a n dr e s u l t si ns e v e r et r a f f i c c r o w d i n g h o wt os o l v et h i sp r o b l e mi si m p o r t a n tt oe a c hc o u n t r y , e s p e c i a l l yt ot h e d e v e l o p i n gc o u n t r y a tp r e s e n t ,t h em e t h o do ft h eb u ss c h e d u l i n gi no u rc o u n t r yi sp o o r s oi ti sm o r ew i s ea n dm o r er e a l i s t i ct ot r yi m p r o v i n gt h el e v e lo f t h eb u ss c h e d u l i n g n 佗b u ss c h e d u l i n gp r o b l e mp r e s e n t e di nt h i sp a p e ri sc o n c e r n e dw i t hc o m p i l i n g a no p t i m a lt i m e t a b l eb a s e do nt h ep a s s e n g e rd e m a n d si nd i f f e r e n tt i m er a n g e s t h e p r o b l e mc o n t a i n st w oo b j e c t i v e s ,w h i c ha r ec o n f l i c t o n ei st om i n i m i z et h eh e a d w a y , w h i c hc o n c e r n st h ep a s s e n g e r s w a i t i n gt i m e s a n o t h e ri st om i n i m i z et h en u m b e ro f t r i p s ,w h i c hc o n c e r n st h eo p e r a t i o n a lc o s to f a b u sc o m p a n y t h i sp a p e r , o nt h eb a s i so fp a s s e n g e r - f l o wo fa l lu r b a nr o u t e ,a p p l i e st h et h e o r yo f d y n a m i cp r o g r a m m i n gt o t h eb u ss c h e d u l i n gs y s t e ma n de s t a b l i s h e sad y n a m i c p r o g r a m m i n gm o d e lo nt h er o u t et h a th a sb e e nf i n a l l yg i v e na ne x a m p l et ot e s t f i r s to fa l l ,t h i sp a p e rr e v i e w st h eh i s t o r yo fd e v e l o p m e n to fu r b a np u b l i ci r a f t i c b o t hi nc h i n aa n di no t h e rc o u n t r i e s 。a n a l y z e st h et e n d e n c yo fd e v e l o p m e n t ,i l l u s t r a t e s t h ei m p o r t a n tr o l eo f u r b a np u b l i ct r a f f i c ,r e s e a r c h e sp r o b l e m so f c u r r e n tb u ss c h e d u l i n g s y s t e mt h a te x i s t si no u rc o u n t r yt o d a y , a n dp u t sf o r w a r dt h em a i nc o n t e n t ,m e t h o d sa n d t h es i g n i f i c a n c eo f t h er e s e a r c h , s e c o n d ,i ts t a t e st h ef u n d a m e n t a lt h e o r ya n dt h o u g h to fd y n a m i cp r o g r a m m i n g , i n t r o d u c e st h eb a s i cc , o n c e p t sa n de q u a t i o n ,r e f e r st ot h ea p p l i c a t i o np r e m i s eo f d y n a m i cp r o g r a m m i n g t h i r d ,a s s a yt ot h eb u ss c h e d u l i n gs y s t e mh a sb e e ng i v e ni nt h ep a p e r i ts e l e c t st h e b e n e f i to fb u s - c o m p a n i e sa sa no b j e c t i v ef u n c t i o na n dt h a to fp a s s e n g e r sa sc o n s t r a i n s , a n dt u r n sad o u b l e - o b j e c t i v ep r o b l e mt oas i n g l e o b j e c t i v ep r o b l e m t h e ni tg i v e s s i m p l i f i e d t r e a t m e n tt ot h eb u ss c h e d u l i n gs y s t e ma n dp r e s e n t ss o m er e a s o n a b l e a s s u m p t i o n s f i n a l l yo nf u r t h e rd i s c u s s e s ,i ts e t su pam o d e li n t e r m so fd y n a m i c p r o g r a m m i n g f i n a l l y , t h em o d e lh a sb e e nv e r i f i e db ya ni n s t a n c e a tt h es a m et i m e ,t h er e s u l t s r e q u i r e dh a sb e e na n a l y z e da n de v a l u a t e d k e y w o r d s :p u b l i ct r a f f i c ,b u ss c h e d u l i n g ,d y n a m i cp r o g r a m m i n g , c u l - v ef i t t i n g u 诹l l 亡工繁火洛 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果a 对本文的研究做出贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律结果由本人承担。 学位论文作者签名:鹳f 苓日期:如- 刁年j ,月;日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使_ i j 学位论文的规定,即:学校有权保留并向国家有关 部j 或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖北i :业人学可以将本,学 位论文的全部或部分内容编入有关数据库进行检索,可以采婀影印、缩印或扫描等复制手段保存年| j 汇 编本学位论文。 学位 日期 指导教师签名 丝i 玖 日期:纠年,月诸日 上啊 勤船 名 月签l 锗 纠 姘刁 沦 哆 湖北工业大学硕士学位论文 第1 章引言 1 1 课题来源及研究意义 本课题来源于湖北省科技厅攻关项目“企业级中小型呼叫中心的研制”( 编号: 2 0 0 3 a a l 0 1 c 0 6 ) 和武汉市青年科技晨光计划项目“基于w e bs e r v i c e 的分布式语 音远程控制机器人技术研究”( 编号:2 0 0 7 5 0 7 3 1 2 7 9 ) 。 作为现代化的智能技术之一,计算机模式识别与语音合成技术得到了巨大的发 展。o c r 技术本身的实用性使得其应用领域十分广泛。金融、电子政务、保险、 税务、工商等行业对信息识别的需求越来越广泛,促进了识别技术的大规模应用。 语音对话系统、语音呼叫中心、语音触发的网站和电子邮件服务等实际应用的迅 速发展,掀起了对文语转换( t t s ) 技术的一个前所未有的需求高峰。 互联网及相关的信息技术近年来的迅速发展和普及也已经到了无处不在的程 度。伴着各种生产技术的发展,广泛地应用于企业的管理和数据处理。多种信息 化、智能化、网络化技术的结合将成为现代科技应用和发展的必然趋势。例如计 算机集成制,它利用网络技术、制造技术和管理技术等多种技术将市场分析、产 品设计制造、生产管理等整个生产过程中的信息进行统一处理,实现企业的总体 优化。o c r 信息识别、t t s 文语转换作为重要智能化技术,应用于计算机集成制造, 将进一步提高企业的智能化程度和生产效率。管理部门可以应用o c r 进行图像文 档的数字化;检验部门对产品检测后通过t t s 语音自动向各车间播报检测结果。 本文通过研究基于o c r 信息识别的语音合成在网络上的实现,为目前o c r 技术、 t t s 技术、网络技术的结合以及生产生活中的应用打下基础。 1 2 国内外研究现状 1 2 10 g r 技术概述 o c r ,中文意思就是通过光学技术对文字进行识别。这种技术能够使设备通 过光学的机制来识别字符。人类用眼睛来识别许多事物,其方式就是一种光学机 制。但是当我们的大脑意识到外界事物的总信号输入时,每个人会因为诸多因素 的影响对这些信息的理解能力有所不同。通过分析这些变化因素,我们可以理解 在o c r 技术发展中所面临的巨大挑战【”。 湖北工业大学硕士学位论文 一个o c r 识别系统,其目的非常简单,只是把影像作一个转换,使影像内的 图像继续保存,若有表格,则将表格内资料及影像内的文字一律变为计算机文字, 识别出的文字可在进行使用及分析,当然也可以节省键盘输入耗费的人力与时间。 其处理过程如下: ( 1 ) 图像采集 要进行o c r 处理,必须先通过光学仪器,如影像扫描仪、传真机或任何摄像 器械,将图像传入计算机。 ( 2 ) 图像预处理 图像预处理是o c r 系统中需要解决问题最多的一个模块。从得到一个不是黑 就是白的二值化图像或灰、彩色的图像,到分离出一个个的文字图像的过程,都 属于图像的预处理。它包含了图像的正规化、去噪、图像矫正等图像处理,以及 图像分析、文字行与字分离的前处理【2 】。 ( 3 ) 特征抽取 特征抽取可以说是o c r 的核心,用什么特征,怎么抽取,直接影响识别好坏, 所以在o c r 研究初期,特征抽取的研究较多。而“特征”可说是识别的筹码,可 简易的区别两类。一类是统计特征,例如文字区域内的黑点与白点数比;而另一 类为结构特征,例如细化后,取得笔画端点、交叉点之数量及位置。 ( 4 ) 对比特征 当输入文字算完特征后,不管是用统计还是结构的特征,都需要有一比对特 征的过程。对比特征是特征抽取所得到的特征向量。 ( 5 ) 判断识副 判断识别是根据不同的特征特性,进行比较和识别。 ( 6 ) 结果输出 显示或者存储结果的过程。 我国对汉字识别研究工作始于七十年代未,其研究工作大致可以分为二大阶 段:。第一阶段从7 0 年代木期到8 0 年代末期。这一阶段主要研究的是汉字识别的 算法和方案,研究人员提出了用于汉字识别的各种方法和特征,第二阶段是九十 年代初期开始,汉字o c r 技术进入了一个重要、蓬勃发展的时期即将实验室的研 究成果推向市场,推向实用。 1 2 2t t $ 技术概述 t t s ,英文全称是t e x tt os p e e c h ,即语音合成技术,语音合成技术是信息处 湖北工业大学硕士学位论文 理领域的一个重要分支,实现计算机文本文件语占合成,就是让计算机j rl j 说话, 这也是人工智能的个重要研究方向。 语音合成系统包括三个重要的组成部分:文本分析模块、韵律产生模块和声 学模块。语言学处理在文语转换系统中起着重要的作用,主要模拟人对自然语言 的理解过程一一文本规划、词的划分、语法分析和语义分析。使计算机对输入的 文本能完全理解,并给出后两部分所需要的各种发音提示【3 】。韵律处理为合成语音 规划出音段特征,如音高、音长和音强等,使合成语音能j 下确表达语义,听起来 更加自然。声学处理根据前两部分处理结果的要求输出语音,即合成语音。 语言合成技术早期的研究主要是采用参数合成方法。自八十年代木期至今, 语言合成技术又有了新的进展,特别是基音同步叠加( p s o l a ) 方法的提出( 1 9 9 0 ) , 使基于时域波形拼接方法合成的语音的音色和自然度大大提高。国内的汉语语音 合成研究起步较晚些,大致也经历了共振峰合成、l p c 合成至p s o l a 技术的过程。 在国家8 6 3 计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等 支持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的 例子:如中国科学院声学所的k x p s o l a ( 1 9 9 3 ) ,联想佳音( 1 9 9 5 ) ;清华大学 的t hs p e e c h ( 1 9 9 3 ) ;中国科技大学的k d t a l k ( 1 9 9 5 ) 等系统。 t t s 将在下面几个方向发展: ( 1 ) 进一步提高语音合成的质量,到达更加流利和自然的程度: ( 2 ) 进一步研究音色的转换功能,使得t t s 技术可以实现各种音色( 包括不 同性别、不同年龄等) 的语音输出: ( 3 ) 为各行业提供t t s 核心技术和解决方案特别是c t i 和嵌入式系统。 目前,互联网技术飞速发展。借助x m l 技术可以在互联网上实现语音合成【4 i 。 传统的语音系统使用预先录制好的样本、词典和音素来创建我们所听到的声音。 然而,使用这种预先录制的手段有很多问题。其中最普遍的问题之一就是缺少连 贯性和变化。如果只有一种录制好的语音版本,其中每个单词或者声音都只有一 个样本,那么很难让计算机发出和普通陈述语句不同语调的疑问句。同样困难的 是让计算机知道何时该用某种语调或者该用何种语调发音。为了帮助解决语音合 成问题,w 3 c 为语音合成标记语言( s p e e c hs y n t h e s i sm a r k u pl a n g u a g e ) 创建了 一种新的工作草稿。这种新的x m l 词汇表可以使语音浏览器丌发人员能够控制一 个语音合成器的创建方法。例如,开发者可以将命令包含进音量中,并在合成语 音模式的时候使用它1 5 】。 湖北工业大学硕士学位论文 1 3 本文的主要工作 本文阐述了在网络技术,o c r 技术、t t s 技术的发展中多种技术相结合趋势 和在生产中的意义。着重分析了“神经网络”算法的在o c r 识别中的应用以及语 音合成在网络上的实现,并以此为基础,实现了一个在线考试演示系统。论文 主要分为三大部分:汉字识别研究:跨平台远程语音合成:在线考试演示系统 的实现。 本文分为七个章节: 第1 章,提出本文研究的背景和意义,阐述了o c r 技术及以t t s 技术的应用 意义以及在计算机集成制造中的融合。分析了o c r 技术和t t s 技术发展的情况和 国内外的研究状况。 第2 章,主要是总体设计方案,为实现基于o c r 识别信息的语音合成在w e b 上的实现。为适应当i j 智能化、信息化的发展,提出一个具体的解决方案。 第3 章,主要是进行o c r 信息识别的研究,首先分析汉字识别的基本方法, 并进行了比较分析,接着按照步骤详细介绍了“神经网络”的识别方法,并使用 i a v a 语言进行实现。 第4 章,主要是汉王o c r 设备的使用以及数据格式转换,在实现中采用c 群n e t 开发了基于w i nf r o m 的数据格式转换程序,将e x c e l 数据格式导入s q ls e r v e r 数 据库服务器中。 第5 章,主要是基于网络的语音合成技术,本部分介绍了参数合成、拼接合 成等合成方法,以及s s m l 、s 3 m l 技术在网络语音合成中的应用。 第6 章,主要是在线考试演示系统的实现。通过使用c 撑n e t 语言编制程 序,将o c r 模块、考试模块、语音模块形成一个有机整体。 第7 章,主要是本课题的总结和展望。对全文进行总结,并提出展望。 4 湖北工业大学硕士学位论文 第2 章总体设计方案 课题主要研究是基于o c r 识别信息的语音合成在w e b 上的实现,并构架了 一个基于o c r 技术、t t s 技术和网络技术的在线考试演示系统,为目前网络 化、智能化、信息化技术的结合和在生产生活中的应用,提出一个具体的解决方 案。 2 1 系统功能 ( 1 ) 研究“弹性网格”结合“神经嚼络”的o c r 识别方案,并用j f l v a 语言 编制程序实现; ( 2 ) 实现汉王“名片通”识别的数据格式向数据库s q l s e r v e r 2 0 0 0 格式的转 换; ( 3 ) 实现远程语音合成,语音合成服务器按照s 3 m l 规则合成语音,并按照 t c p ,i p 协议传输语音数据; ( 4 ) 在n e t 平台上实现一套在线考试演示系统,使o c r 技术和t t s 技 术有机结合。 2 2 整个系统设计方案 系统为一个基于o c r 与t t s 的在线考试系统。由管理员o c r 识别录入用户 信息、用户在线考试两个大模块组成。系统采用b s 结构,如图2 1 所示。 w e b 服务器,位于最外层,为用户提供一种交互式的界面:文语转换服务器, 进行远程语音合成操作:数据库服务器,实现对数据的保存和读取操作1 6 j 。 原始数据通过o c r 识别获取,存储到数据库服务器中:用户通过各个客户端 浏览器访问w e b 页面,登陆系统,验证后丌始执行业务操作( 演示系统是进行答 题) ;w e b 服务器将待合成信息按照s 3 m l 规则传送到语音合成服务器进行语音合 成操作,语音数据通过t c p l p 协议传送回w e b 服务裂”,再由w e b 服务器传送到 客户端。 湖北工业大学硕士学位论文 2 3 系统模块化分 2 3 1o c r 研究模块 订s 语音服务嚣 图2 1 系统构架图 汉字识别分为手写汉字识别和印刷体汉字识别,印刷体汉字由于其不存在变 形,或者变形不会像手写汉字那么大,所以识别起来相对容易一些。应用神经网 络进行模式识别方面的研究是一个热点,量化是模式识别问题很重要的一步。本 文使用b p 神经网络结合弹性网格技术对汉字识别进行研究。 2 3 2o c r 应用模块 基于神经网络和弹性网格的识别方法,对于汉字识别尤其是手写汉字识别有 较高的价值。但作为一个o c r 识别系统还缺少硬件部分的支持。所以在演示系统 中使用汉王公司的o c r 产品进行识别,并编制程序实现数据数据格式的转换。 2 3 3 远程语音合成与w e b 应用程序 在图2 2 中给出了系统整体构架图,其中语音服务器提供语音合成功能。用户 在客户端通过浏览器登陆网页,验证通过后,w e b 服务器将试题传送到客户端, 用户做完试题进行提交,w e b 服务器自动判分后与语音服务器建立t c p i p 连接, 按照s s m l 规范合成语音,并传送给客户端。步骤如下: ( 1 ) 用户登录验证; 6 湖北工业大学硕士学位论文 ( 2 ) 在线考试; ( 3 ) 远程语音合成并播报。 2 4 系统主要软硬件组成 2 4 1 系统软件配置 ( 1 ) 在数据服务器中安装w i n d o w s2 0 0 0 高级服务器版,安装s q ls e r v e r2 0 0 0 企业版数据库,用于存储数据。 图2 2 客户机与应用服务器通讯图 ( 2 ) 在应用服务器中安装安装i i s ( i n t e m e ti n f o r m a t i o ns e r v e r ) 服务、m d a c ( m i c r o s o f td a t a a c c e s sc o m p o n e n t s ) 、n e t 框架和用a s p n e t 开发出来的应用程 序f 9 1 。 ( 4 ) 在语音服务器端安装i t t s 4 0 。 ( 3 ) 在w 曲客户机中只要安装1 e 5 5 以上浏览器即可。用来通过浏览器执行 应用服务器中a s e n e t 应用程序。w e b 客户端和应用服务器通讯如图2 2 所示。 2 4 。2 服务器的硬件建议需求 ( 1 ) c p u 建议使用p e n t i u m w i g 以上; ( 2 ) 内存2 5 6 m 以上; ( 3 ) 数据服务器硬盘1 2 0 g 。应用服务器硬盘无特别要求,1 0 g 以上即可。 2 4 3w e b 客户机建议需求 ( 1 ) c p u 建议使用p e n t i u r n u l6 0 0 以上 7 湖北工业大学硕士学位论文 ( 2 ) 内存6 4 m 以上: ( 3 ) 硬盘无特别要求,1 0 g 以上即可。 2 5 本章小结 本章首先介绍了论文所要做的工作和实现的功能,然后给出了系统整体构架 以及各个模块化分,最后给出了系统软硬件的配置要求。为目前网络化、智能化、 信息化技术的结合和在生产生活中的应用。提出一个具体的解决方案。 湖北工业大学硕士学位论文 第3 章基于神经网络的0 0 r 信息识别研究 识别方法是整个o c r 识别系统的核心。用于汉字识别的模式识别方法可大致 分为结构模式识别、统计模式识别以及人工神经网络识别方法。人工神经网络有 效的自学习、高度并行性和良好的容错能力已在模式识别领域得到了广泛应用, 特别是在小类别的分类问题上( 如数字识别) 显示出极强的分类能力。鉴于此, 本文主要采用人工神经网络分类器作为分类算法。 3 1 汉字识别的基本方法 3 1 1 结构模式识别 汉字是一种特殊的模式,其结构虽较复杂,但具有相当严格的规律性。换言 之,汉字图形含有丰富的结构信息,可以设法提耿含有这种信息的结构特征及其 组字规律,作为识别汉字的依据,这就是结构模式识别。用这种方法柬描述汉字 字形结构在理论上是比较恰当的,其主要优点在于对字体变化的适应性强,区分 相似字能力强。但是,在实际应用中,面临的主要问题是抗干扰能力差。此外, 结构模式识别的描述比较复杂,匹配过程的复杂度因而也较高。所以在汉字识别 领域中,纯结构模式识别方法已经很少使用。 3 1 2 统计模式识别 统计决策发展较早,理论也较成熟。其要点是提取待识别模式的一组统计特 征,然后按照一定准则所确定的决策函数进行分类判决。汉字的统计模式识别是 将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到 的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之 处在于细分能力较弱,区分相似字的能力差一些。常用的统计模式识别方法有模 板匹配、投影直方图法、笔划密度特征、特征点特征等等【9 】。 3 1 3 人工神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,以下称a n n ) 是一种模拟人脑神经 元细胞的网络结构,它是由大量简单的基本元件一一神经元相互连接成的自适应 9 湖北工业大学硕士学位论文 非线性动态系统。a n n 中的各个神经元的结构与功能较为简单,但人量的简单神 经元的组合却可以非常复杂,我们从而可以通过调整神经元间的连接系数完成分 类、识别等复杂的功能【l 。a n n 还具有一定的自适应学习与组织能力,组成网络 的各个“细胞”可以并行工作。a n n 可以作为单纯的分类器( 不包含特征提取与 选择) ,也可以用作功能完善的分类器。a n n 为复杂分类问题的解决提供了一种可 能的解决方式。 3 2 汉字识别中存在的问题及困难 手写汉字识别是一种重要的、适用于把手写文稿随时输入计算机的方法,也 是机器字符识别最为困难的一个课题,这些困难和问题表现在: ( 1 ) 汉字类别多。仅康熙字典中就包含了4 9 0 0 0 多个汉字,而常用的汉 字就多有4 0 0 0 个,因而汉字识别问题属于大类别( 或者称为超多类) 模式识别问 题,在模式识别理论和方法研究方面有重大意义: ( 2 ) 汉字字形结构复杂。汉字集合中相似字较多,有些汉字的差别仅为一点 或一个笔画,由于手写变形的存在,使得手写体中相似字的区分比印刷体要困难 得多。因不同人书写风格的差异造成手写汉字的变形很大。 3 3 汉字识别系统软件部分的方案设计 汉字识别的过程就是从输入的待识样本提取描述该汉字的特征,再根据一定 准则制定该样本所属的模式类别。因此特征提取与选择,识别方案判决是汉字识 别过程的两个基本环节,也是汉字识别的核心。汉字数量大,其形念也繁杂多变, 有的变形还十分相似,因此在汉字识别技术中,为了达到识别速度和识别精度的 较好的折衷,一般均采用“特征提取+ 分类器”的方法。目前,人工神经网络由于 其有效的自学习、高度并行性和良好的容错能力己在模式识别领域得到了广泛应 用。特别是在小类别的分类问题上( 如数字识别) 显示出极强的分类能力。鉴于 此,本文主要采用人工神经网络分类器作为细分类算法。特征提取有许多方法, 如比划特征,均匀网格特征,弹性网格特征等。其中,笔画特征能从整体结构上 把握汉字的笔画分布位置:弹性网格能根据投影密度动态划分网格区i 日j 。所以, 特征提取结合笔画特征和弹性网格特征。从实验的角度上,我们只取l o 个汉字进 行识别。 0 湖北工业大学硕士学位论文 3 4 汉字识别中的图像预处理 预处理是整个汉字识别韵重要组成部分。对汉字进行识射时,首先要将印在 纸上的汉字经输入设备( 如光电扫描仪等) 转换为带厌度值的数字信号输入计算 机。纸张薄厚、洁白度、光洁度、油墨深浅、印刷或书写质量都要造成字型畸变, 产生污点等干扰:输入设备的鉴别率、线性度、量化过程也要产生噪声:汉字的 手工书写和扫描时纸张摆放不正等等情况均会造成汉字大小位置不确定,使识别 无法在原始图像上直接进行。质以,在进行单个汉字识剐之前,首先要对原始图 像进行预处理,它能起到“去粗取精,去伪存真”的作用。由于识别过程是在经 过预处理的汉字图像上进行的,预处理性能的优劣和结果将直接影响到整个汉字 识别系统的性能。根据手写体汉字在书写上和字形上的特点,简单的汉字识别的 预处理步骤如图3 1 所示。 图3 1 汉字识鄹的预处理过程 3 4 1 平滑去噪预处理 一幅图像可能存在着各种噪声,消除图像中的这些噪声成分叫做图像的平滑 化。平滑化处理是图像增强中的一种技术。对图像平滑化处理的要求有两条:一是 不能损坏图像的边缘轮廓及线条等重要信息;二是使图像清晰。视觉效果好。图 像平滑化处理方法有许多,一种简单的方法是邻域平均法。邻域平均法就是一种 在空间域上对图像进行去噪的方法。该方法的原理为:求出图像中,以某点为中 心的一个邻域范围内的图像象素平均值,以此平均值作为该中心点的灰度值,去 除突然变化的点,从而滤掉一定的噪声。其代价是图像有定程度的模糊。 邻域平均法的基本原理为;假如给定一幅n x n 的图像“x ,y ) ,用邻域平均法 得到的平滑图像为g ( x ,y ) ,可用公式3 1 表示: g ( x ,y ) = l m f ( m ,力 ( 3 - 1 ) 历 式中x 、y = 0 ,1 n 1 ,s 表示( x ,y ) 点邻域中点坐标的集合,m 表示集合s 内坐 标点的总数。在此。邻域的取法为:以。【,y ) 为中心以单位距离2 为半径构成 湖北工业大学硕士学位论文 点( x ,y ) 的邻域,选择在圆的边界上的点和在圆内的点为s 的集合,此时公式 g ( x , y ) = l 9e 多( 掰,砂= 1 2 ,9 ( 3 2 ) m 月 显然,邻域平均法使用是通过一点和周围邻域内的几个点的运算来去除突然 变化的点,从而达到消除一定噪声的目的。不过,这种平均化的运算也不可避免 让图像损失了一定的有用信息,即噪声虽然被消除,可图像灰度急剧变化的边缘 和线却模糊不清了。 3 4 2 图像二值化 图像的二值化就是去掉扫描图像中不必要的信息,提高识别的速度,并为以 后的汉字特征提取打下基础。用于识别的汉字图像通常可以是2 5 6 级灰度图或二 值图,在顸处理中加入灰度图的二值化功能,一束可以提高二值化的质量,可大 大压缩图像数据,减少存储容量;二来也可以增强识别软件的适应。显然汉字 图像在二值化过程中会丢失原始图像的大量信息,因此如何使二值图像能最大限 度地保持原图像的重要特征或细节是值得研究的问题j 。我们采用阀值判定法, 它是利用了图像中所要提取的目标物与其背景在狄度特性上的差异,把图像视为 具有不同灰度级的区域的组合,通过选取闳值,将目标区域从它们的背景中分离 出来。 3 5 图像细化 图像细化就是把二值图像中具有一定宽度的线条状区域变成一条薄线,使之 只有一个像素宽度,图像细化大大压缩了原始图像的数据,并保持其形状的基本 拓扑结构不变,从而为文字识别中的特征提取奠定了基础【坨1 细化算法应满足以 下条件: ( 1 ) 将条形区域变成一条博线; ( 2 ) 薄线应位于原条形区域中心; ( 3 ) 薄线应保持原图像的拓扑特性。 本文中使用h i l d i t c h 算法,该算法适用于输入图像为0 和1 的二值图像,像素 值为1 的区域是需要细化的部分,像素值为0 的区域是背景。可描述如图3 2 。 1 2 湖北工业大学硕士学位论文 p 5p 6p 7 p 4p 1p 8 p 3p 2 p 9 图3 2 八邻域图 设集合i 表示需要细化的像素子集,集合n 表示背景像素子集 测的像素,设: m , o : b ( p - ) 2 ,( p ) 设p l 为被检 ( 3 - 3 ) ( 3 _ 4 ) a q l ) = 去( ( i 厂( p ) 一,( p 一) ) i ) + i ( f ( p ,) - f ( p 2 ) i ) ( 3 5 ) 二 j = 2 一个点是否从图案中去除,应该满足一下几个条件: ( a ) 2 = b q l ) = w i d t h r e t u r nn u l l , ) i m a g e p r o c e s s o ti m a g e p r o c e s s o r = s r c g e t p r o c e s s o r ( ) , i n tp = i m a g e p r o c e s s o r g e t p i x e l ( x , y ) ; i f ( p ! ;c o s o a _ f o r e g r o u n d ) f r e t u r n 1 1 : ) i f ( m a r ki x 【y 】= = m a r k u n e a r s e a b l e ) ( i f ( c o d e = = 0 ) 创建新的笔画 cc=newc h a i n c o d e ( n e wp o i n t ( y ,x ) ) ; e l s e f 笔画中加入点 c c a d d c o d e ( y ,x ,c o d e ) j 记录某点已经成为笔画一部分 m a r ki x 【y 】= m a r k e a r s e a b l e ; e l s e r e t u r nn u l l ; 用递归的方法取得所有笔画 g e t c h a i n c o d e ( x ,y + 1 ,1 ,c c ) ; 1 4 3 7 笔划规整 通过上一节的方法,可以得到“横、竖、撇、捺”四种基本笔划。由于汉字 尤其是手写体汉字有较大的不稳定性,各种笔划可能产生不规则的断笔、倾斜、 抖动,给识别带来一定的影响。因此,采用笔划规整,可以缓解这些问题。 ( 1 ) 小笔划去除。由于人的书写习惯,手写体中经常出现一些不必要的过渡 笔划,这些笔划长度通常较短,所以可以通过设定一定的阀值将其去除。 ( 2 ) 断开笔划连接成一笔。上节中的算法将各个线条分解提取,有可能导致 比划的分割。例如:“十”字的笔划“横”有可能分成两个“小横”。通过比划之 间的位置比较,可以将笔划重新合并起来。 ( 3 ) 四种基本笔划均拉成直线。为了是识别更加简明,通过笔划端点的比较, 将笔划调整成为“横平竖直”。 “合并”与“拉直”实际是一种归一化操作。这在传统的神经网络识别方法 中并不存在。传统方法经预处理以及细化后,分解出笔画,然后直接在原笔画上 进行特征提取。归一可以达到更好的训l 练效果。如图3 3 中,笔画a 和笔画是一 笔,笔划c 是两短笔,但是经过归一化之后,都成为笔画d 。代入神经网络的是由 笔划b 产生的向量,这样有利于提高神经网络的训练效果。 图3 3 笔画a笔画b笔画c笔画d 湖北工业大学硕士学位论文 3 8 弹性网格特征 3 8 1 均匀网格与弹性网格 网格是一组假想的网线对汉字图像的区域划分,如图3 4 ( a ) 所示,图中水 平和垂直方向分别用7 条网线对汉字进行划分,从而将该汉字图像分为8 x 8 = 6 4 个 小区域,每一个小区域称为一个网格。由于图中网线是在垂直方向和水平方向均 匀分布的,这样所得到的网格我们称之为均匀网格。 图3 4 ( a ) 均匀网格划分 如果根据汉字图像的笔划分布用非均匀的网线划分汉字所得到的网格,就是 非均匀网格,我们又称之为弹性网格。通常,弹性网格是根据汉字图像在水平、 垂直两个方向上的直方图投影来确定的,对直方图的均匀等分实际上就是对汉字 图像的非均匀等分。如图3 4 ( b ) 、3 4 ( c ) 所示。 露国 图3 4 ( b ) 8 x 8 弹性网格划分( c ) 4 x 4 弹性网格划分 采用非均匀网线提取汉子特征般能容忍不同书写风格所引起的笔划位置不 稳定、局部字形变化等,在手写体汉字识别中一般采用弹性网格效果会好些。鉴 于此,我们在本系统中采用8 x 8 非均匀网格来划分汉字图像,每个网格分别作用 于汉字的四个分量,如此即可得到一个“维的特征向量。 3 8 2 弹性网格特征矢量的提取 在汉字未分解之前,首先对汉字图像按照上一节所述的方法进行弹性网格的 构造,然后将汉字进行“横、竖、撇、捺”四方向分解。我们用f h ( x ,y ) ,f “x ,y ) ,f i ( ) ( ,y ) ,f r ( ) ( ,y ) 分别表示分解后“横、竖、撇、捺”四个方向的汉字 子图像,则各方向的弹性网格。 像素概率分布特征可由下列各式给出: 1 6 湖北工业大学硕士学位论文 横方向 竖方向 撇方向 捺方向 m 2 r i o ,f h ( x , y x d r f ( x , y ) d r d y 紫, l f 等y i i ( ,) 出砂 聊t = 案等 mr2 f r o ,f r ( x , y ) d x d y :f 万 ( 3 6 ) ( 3 7 ) ( 3 - 8 ) ( 3 9 ) 式中i = 1 ,2 ,3 ,n 为网格的数目,“横、竖、撇、捺”四个方向的特征组合在 一起,构成一个完整的汉字特征矢量。 3 8 3 弹性网格像素概率分布特征提取 为了更好地理解该特征提取原理及提取方法。我们对手写体汉字“木”进行 了此特征的提取实验,具体步骤如下: ( 1 ) 先将手写体汉字“木”用扫描仪扫成2 5 6 色位图文件存入计算机内,图 像如图3 5 ( a ) 所示。 , l 1 壬。 彳 i 图3 。5 ( a ) ( 2 ) 将原始汉字图像( a ) 进行细化处理,其结果见图3 5 中( b ) 所示。 图3 5 ( b ) 1 7 湖北工业大学硕士学位论文 ( 3 ) 笔划规整,“横平竖直”。 图3 5 ( c ) ( 4 ) 对细化后的汉字图像进行“横、竖、撇、捺”四方向的分解,分解后四 方向的分量拉直图见图3 5 中( c ) ,( d ) ,( e ) ,( f ) 所示。 不o 图3 5 ( d ) ( 5 ) 用8 x 8 非均匀网线对汉字图像进行网格划分,其结果如图3 5 中( g ) 所 图3 5 ( e ) ( 6 ) 将上述网格分别作用于汉字分解之后的四个分量上,统计每个网格黑像 素点的概率分布值即可得到此汉字的特征矢量x 。 3 9 人工神经网络 3 9 1 生物神经网的构成 人的大脑由大量高度互连的单元组成,这些单元别称为神经元。神经元由三 部分组成,如图3 6 所示。 细胞体、树突和轴突。树突将电信号送入细胞体;细胞体对这些信号进行整 合并进行阀值处理:轴突将信号传送给其他细胞体。神经元排列和树突、轴突的 强度,确立了神经网络的功能。其特点有: ( 1 ) 神经元互相连接: ( 2 ) 神经元间的连接强度决定信号传递的强弱: ( 3 ) 神经元间的连接强度可以选练改变: ( 4 ) 神经元具有“阀值”。 湖北工业大学硕士学位论文 3 9 2 人工神经网络 图3 6 生物神经网 人工神经网络是一种按照人脑的组织和活动原理而构造的一种数据驱动非线 性模型。它由神经元结构模型、网络连接模型、网络学习算法等几个要素组成, 是具有某些智能功能的系统【1 3 l 。 ( 1 ) 人工神经元基本构成图 x 1w 1 图3 7 人工神经元基本构成图 人工神经元与生物神经元相似,是人工神经网络的基本处理单元,神经元输 出除受到输入信号的影响之外,同时受到神经元内部其他因素的影响。 输入: x = ( x b x 2 , x n ) 连接权:、萨( w l ,w 2 ,w n ) 1 网络输入: n e t = x i w i 、 向量形式:n e t = x w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论