已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
宁夏大学硕士学位论文中文摘要 摘要 文字识别是集模式识别、图像处理与文字处理技术于一体的一种新技术,是模式识别和 人工智能领域的一个研究方向目前,西方文字和汉字的印刷体识别经过了多年的探索和实 践,已经走向了实用化西夏文字是记录古代西夏主体民族党项族的语言和文字,是研究西夏 文化的重要手段西夏文字识别可以广泛应用于西夏文字信息处理的各个领域,如新闻出版印 刷业、古籍资料的整理和研究、西夏文字数字图书馆等为了更好的进行西夏文字处理,急需 开发西夏文字识别软件,将西夏文字资料及图书输入到计算机巾保存起来,以方便学习和研 究 本文围绕手西夏文字识别研究的难点,从西夏文献图片的预处理、弹性网格划分、笔画方 向分解特征和g a b o r 特征的提取以及b a y e s 分类方法四个方面对西夏文字识别进行了综合的研 究,主要工作包括: 1 、西夏文献图片预处理:对西夏文字文字图片进行二值化、去除噪声、细化等预处理,并 对西夏文献中的西夏文字按照书写方法实现了单字的切分 2 、西夏文字的弹性网格划分方法:对西夏文字划分各种弹性网格,以最大限度的消除西复 文献中文字书写各异、手写风格等引起的旋转变形、伸缩变形、笔画位置不稳定等问题 3 、西夏文字特征提取:根据西夏文字的特点及笔划分布的统计特征,对西夏文字进行横 竖撇捺网方向的分解,对分解后的各分向量的像素在弹性网格上进行统计而提取特征,并使 用l d a 方法压缩提取特征以提高识别的性能 4 、b a y e s 分类方法分类西夏文字:讨论了使用欧氏距离、街区距离、带偏差的欧式距离等 距离测度方式- f b a y e s 分类西夏文字,实验证明使用了带有二阶统计特征的距离测度方式可以 提高西夏文字识别率 关键词:西夏文字;特征提取;模式分类;光学识别 宁夏大学硕士学位论文 英文摘要 a b s t r a c t t h ec h a r a c t e rr e n c o g n i t i o n ,an e wt e c h n o l o g yc o m b i n e dw i t hp a t t e r nr e c o g n i t i o n ,i m a g ep r o c e s s i n g a n dl a n g u a g ep r o c e s s i n gt e c h n o l o g y ,i so n eo ft h er e s e a r c hi n t e r e s t si np a t t e r nr e c o g n i t i o na n da r t i f i c i a l i n t e l l i g e n c ef i e l d s 。w i t hm a n yy e a r s e x p l o r a t i o na n dp r a c t i c e ,t h ew e s t e r na n dc h i n e s ec h a r a c t e rp r i n t e d t e x t sr e n c o g n i t i o nt e c h n o l o g yh a sa l r e a d yb e e np r a c t i c e dw i d e l yi no u rd a i l yl i f e 。x i x i ac h a r a c t e ri st h e l a n g u a g ea n dw o r du s e db yt h ea c i e n tx i x i am a i nn a t i o n t a n g u t x i x i ac h a r a c t e ri sa l li m p o r t a n tt o o lf o r t h er e s e a r c ho fx i x i a sc u l t u r e ,a n di tc a nb ea p p l i e dw i d e l yi nm a n yf i e l d so fi n f o r m a t i o np r o c e s s i n g ,s u c h a st h ep r i t i n gp r e s sa n dt h ep u b l i c a t i o ni n d u s t r y ,d a t ac o l l e c t i o na n ds t u d y ,d i g i t a ll i b r a r ya n ds oo n i n o r d e rt om a k eab e t t e rd e a lw i t ht h ex i x i ac h a r a c t e r , i ti sa nu r g e n tj o bt od e v e l o par e c o n g i t i o ns o f t w a r e , w i t hw h i c ht h ex i x i ac h a r a c t e r sl i t e r a t u r ea n db o o k sc a nb ei n p u ti n t ot h ec o m p u t e rd i r e c t l ya n dr e s e r v e d f o rl a t e rs t u d y i n ga n dr e s e a r c h t h i st h e s i ss t u d i e st h ep r o b l e mo fo p t i c a lr e c o g n i t i o no fx i x i ac h a r a c t e ro nt h eb a s i so fx i x i ac h a r - a c t e r sl i t e r a t u r ei m a g ep r e p r o c e s s i n g ,e l a s t i cm e s h i n g ,f e a t u r ee x t r a c t i o no fs t r o k ed i r e c i t o nf e a t u r ea n d b a y e sc l a s s i f i c a t i o nr e s p e c t i v e l y t h em a i n w o r ki n c l u d e s : 1 x i x i ac h a r a c t e r sl i t e r a t u r ei m a g ep r e p r o c e s s i n g :m a k e i n gp r e p r o c e s s i n go fx i a x i ac h a r a c t e ri m a g e ,s u c ha sb i n a r i z a t i o n ,d e n o i s i n g ,t h i n n i n ga n ds oo n d e v i d i n gs i n g l ex i x i ac h a r a c t e rf r o m x i x i ac h a r a r - c t e r sl i t e r a t u r eb yi t sw r i t i n gs t y l e 2 e l a s t i cm e s h i n gt ox i x i ac h a r a c t e r :e l a s t i cm e s h i n gt ox i x i ac h a r a c t e rt or e m o v et h ei n f l u e n c ef r o m r o t a t i o n a ld e f o r m a t i o n ,s t r e t c h i n gd e f o r m a t i o nc a u s e db yh a n d w r i t i n gs t y l e ,w r i t t e ni nd i f f e n t 3 f e a t u r ee x t r a c t i o no fx i x i ac h a r a c t e r :a c c o r d i n gt ot h es t r o k es t a t i s t i c a lp r o p e r t i e so fx i x i ac h a r - a c t e lw ed e c o m p o s eax i x i ac h a r a c t e rp a t t e r ni n t of o u rd i r e c t i o n a ls u b p a t t e r n s as e to fe l a s t i cm e s h e s a r ea p p l i e dt oe a c ho ft h ef o u rs u b p a t t e r n sr e s p e c t i v e l yt oe x t r a c tt h ep i x e ld i s t r i b u t i o nf e a t u r e s t h e n c o m p r e s s i n gf e a t u r e sw i t hl d a ( l i n e a rd i s c r i m i n a n ta n a l y s i s ) m e t h o d e x p e r i m e n t ss h o wt h a tt h i sn e w f e a t u r ee x t r a c t i o na p p r o a c hi so fg r e a te f f e ca n dt h er e s u l t sw eo b m i n e da r ev e r yp r o m i s i n g 4 c l a s s i f y i n gx i x i ac h a r a c t e rw i t hb a y e sm e t h o d :s e v e r a ld i s t a n c em e a s u r es u c ha se u c l i d e a nd i s - t a n c e ,b l o c kd i s t a n c e ,b a l a n c e de r r o rd i s t a n c ea r ea p p l i e di nx i a x i ac h a r a c t e r sc l a s s i f y i n g e x p e r i m e n t s s h o wt h a td i s t a n c em e a s u r ew i t hs e c o n d o r d e rs t a t i s t i c sc a ni m p r o v ex i x i ac h a r a t c e r sr e c o g n i t i o nr a t e g r e a t l y k e yw o r d s :x i m ac h a r a c t e r ;f e a t u r ee x t r a c t i o n ;p a t t e r nc l a s s i f i c a t i o n ;o p t i c a lr e c o g n i t i o n i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得宁夏大学或其它教育机构的学位或证书而使用 过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意 研究生签名:i 丝叠够 时 间: 夕年岁, q ? - e l 关于学位论文使用授权的说明 本人完全了解宁夏大学有关保留、使用学位论文的规定,即:学校有权保留送 交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文同意宁夏大学可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容 ( 保密的论文在解密后应遵守此规定) 善篡蛩 导师签名: 上:碰致 时 间:细乡年厂, e j ? 。e l , 时间:工矽年期二l 日 , 宁夏大学硕士学位论文 第一章绪论 1 1引言 第一章绪论 最早的有关字符识别的研究可以追溯到2 0 年代,1 9 2 9 年t a u s h e c k 获得了字符识别的第+ 个专 利【i 】,在他的专利中,t a u s h e c k 第一次提出了模板匹配( t e m p l a t e m a s km a t c h i n g ) 的概念,它的摹本 原理很朴素:识别一个汉字时,让光线透过字模射到待识别字符到一个光感受器上,当字模与待识 别字符相匹配时光感受器上将检测不到光线,从而识别出该字符1 9 3 3 年,美国学者h a n d e l 亦获得 了字符识别的专利并第一次提出了光学字符阅读j 5 l ( o p t i c a lc h a r a c t e rr e a d e r , 简称o c r ) 的概念当 时人们梦想着能有一种能自动阅读字符和数字的机器,这种梦想一直激励着许多学者往这。领域 中辛勤地努力着随着5 0 年代电子计算机的诞生和人规模集成电路的飞速发展,字符识别的研究越 来越受到了j “泛的注意,到了6 0 年代,字符识别在模式识别( p a t t e mr e c o g n i t i o n ) 领域中已成为个 十分活跃的研究课题【引,字符识别的研究被认为是模式识别中十分典型的应刚研究课题,其中包含 了模式识别的许多典型技术和基本理论的应用1 9 6 6 年i b m 公司的c a s e y 和n a g y 发表了第1 篇关 于汉字识别的文章,用模板匹配法识别1 0 0 0 个印刷体汉字f 3 ;7 0 年代以来,日本学者、台湾学者作 了很多工作,提出了多种识别方法,先后研制了能识别2 0 0 0 4 0 0 0 字的印刷体汉字和限定性手写体 汉字识别系统,识别率可达9 7 - - 9 8 左右。识别速度约为1 0 0 字秒f 4 1 我圜的汉字识另l j 研究始于7 0 年代,经过十多年的努力,1 9 8 6 年 - 1 9 8 8 年是印刷体汉字识别和 联机手写体汉字识别研究成果的丰硕期l5 f ,从九十年代初期开始,印刷体汉字识别技术开始推向 市场,进入实j h 化阶段形成了些初步实f j 的印刷体汉字识别系统,如:清华人学电子工程系研 制的清华o c r 、北京信息工程学院研制的北信o c r ,沈阳自动化所研制的沈阳o c r 以及,“州奥德 公司研制的丹青o c r 1 9 9 3 年,有关方面将上述前三个系统合在起,完成了集成o c r 近年米联 机手写体汉字识别也取得了突破性的进展,已经有许多较为成熟、实j 封化程度较高的产品进入市 场如巨人中文手写系统、汉王笔、蒙恬第一笔等等f 6 1 与此同时,对于手写体汉字识别的研究也 取得了很大进展,日前已研制出的一些系统的主要指标是:能识别2 0 0 0 - - 4 0 0 0 个常j j 汉字,识别率 存8 5 - - 9 8 ,识别速度在2 0 字 - 1 0 0 字秒尽管一些实验系统已经达到了较高的识别率,然丽这蝗 系统性能的好坏在很大程度上依赖于手写汉字样本质量的好坏,绝大多数对书写的规范性都有较 严格的要求1 7 对于西夏文字的光学识别国内外还鲜有人研究,国内马希荣老师从西夏文字识别中版面分 析、二值化、倾斜检测、尺寸归,化及去噪等预处理技术到西夏文字的各种特征提取以及西夏文 字神经网络的识别等方面都做了一些研究,但还没有成熟的实用的软件产品 1 2文字识别 文字识别是模式识别和人工智能领域的个具体的研究方向,是模式识别、图像处理与文 字处理技术相结合的种新技术一般通过特征判断( f e a t u r ed i s c r i m i n a t i o n ) 及特征匹配( f e a t u r e 宁夏大学硕士学位论文第一章绪论 m a t c h i n g ) l 狗方法来进行处理特征判断是通过文字类( 例如英文和汉字) 的共同的规则( 如点特征、 网周边特征等) 进行分类判别它不需要利刚各种文字的具体知识,根据特征抽取的程度分阶段地 用结构分析的办法完成字符的识别文字识别的关键就是特征抽取特征匹配的方法则是一个分 类比对的过程,最仇结果就是最后的识别结果 文字识别的一般过程为:。 由扫描仪、数码相机或者其他数字图像获取设备,把打印或者写存纸上的文字,经 过c c d 或c m o s 感光元件和模数转换成具有一定灰度值或彩色颜色值的数字采样信号送入计 算机,得到原始的文字图像 识别区域确定可以有人工和自动两种方式,人工处理时,由人工划定图像中需要识别的区域, 交下步处理用;自动处理时,根据具体的任务,按任务的要求搜索划定待识别区域对1 般文档识 别也可以扫描整个文档,把全部含有文字的区域划分出来,全部进行识别 预处理环节般包括去噪、二值化、平滑、归一化、线性或非线性变换等等。行列切分就是 把整合并列的,页文档划分成单。一的字符( i s o l a t e dc h a r a c t e r ) 也可以把行列切分这步归入预处 理环二机同时,根据具体的处理方法,识别区域确定和预处理的顺序是可以交换的 在完成以上步骤后,文字成为规范化的二值点阵( d o tm a t r i x ) 信息,通过核心的o c r 引擎进行 识别对于二值化点阵,按照识别方法的要求,抽取代表该字的特征,并与存储在计算机中已知标准 文字的特征进行匹配判别,找出字典特征集中与输入文字特征最接近的一个,这个字被认为是该字 的识别结果 文字识别技术可以分为对印刷体识别和手写体识别两种技术而手写体识别又可以分为联 机( o n l i n e ) 识别与脱老l l , ( o f f - l i n e ) 识别诱种这种划分方法可以刚图1 1 米表示 图1 1文字识别的分类 从识别技术的难易程度来讲,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体 的难度又远远超过了联机手写体识别 到目前为止,除了联机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处 在实验室研发阶段 联机手写体的输入,是依靠电磁式或压电式等手写输入板来完成的在节写时,笔存板上的运 动轨迹( 在板上的坐标) 被转化为系列的电信号,电信号可以串行地进入到计算机中从这些电信 号我们可以比较容易地抽取笔划和笔顺的信息从9 0 年代以来,联机手写体的识别i f 逐步走向实 一2 一 宁夏大学硕士学位论文第一章绪论 用,方兴未艾中国人陆及台湾地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一 些火公司也开始进入这一市场这技术也迎合了p d a ( p e r s o n a ld i g i t a la s s i s t a n t ) 的发展潮流 与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实j j 化,而且在向更高的性能、更 完善的用户界面的方向发展因为它有着广。泛的应用前景目前,办公自动化已成为信息社会不可 避免的发展趋势虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多 “电子版”的报纸、杂志等出版物但是我们可以看到印刷材料的数量也大大地增加了,一些专业 单位如新闻社、图j 传馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷 材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都 是方便、快速地获取这些信息的约束因素电子化的与印刷体文本材料如同+ 一枚硬币的两面,互桐 补充、互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况 1 3手写体汉字识别研究的一般方法 一个典型的h c c r 系统由前端数字化输入装置、预处理系统、识别系统和后处理系统四人部 分组成 数字化装置的主要作j 1 j 是将。佶写在纸张上的汉字经过光电设备转化为计算机所处理的数字信 号常用的光电转化设备有图文丰1 描仪、数字摄像机等汉字经转化后可用一个二维点阵图像来 表示 预处理主要是对经数字化的汉字图像进行版面分析、汉字的自动切分、以及平滑、滤波、归 化等处理 后处理是利用,定的语言模型来进行汉字语法、语义、词组等分析,从而纠正。螳在识别过 程中容易发生的错误,以提高系统的识别性能 识别系统是整个系统的核心传统的识别方法主要有统计模式识别和结构模式识别两火类, 近年来,人们将统计模式识别和结构模式识别两种方法有机地结合在一起,提出了所谓的综合方 法( h y b r i da p p r o a c h ) 1 8 1 ;此外,如雨后春笋般兴起的神经网络理论和方法也为汉字识别的提供了新 的研究途径和方法 统计决策法是建它在统计模式识别理论基础之上的,利用汉字的整体性原则进行特征提取,然 后进行识别处理手写体汉字的断笔、连笔以及局部模糊等现象对统计决策方法识别的影响较小 但是,字形的扭转、歪曲以及其它书写异常情况将会很大程度上影响其识别的结果;特征提取是统 计识别方法的关键结构分析法的最大特点是利用汉字的可分解性,将汉字模式整体分解成系列 的子模式汉字的子模式可以是笔段、笔划或字根,或者用折线近似笔划轮廓的线段结构分析法 中可以运用的子模式形式并不太多,因而选取子模式的形式也很简单子模式的类型单纯,其属性 自然不会复杂但是,即使在这几种类型的子模式中,笔划和字根实际上现在还无法直接从汉字图 像中提取当前技术能够从汉字图像中直接提取的只有作为直线段的笔段在需用常规笔划和字 根的场合,就必须用笔段去组成它们 一3 一 宁夏大学硕士学位论文第一章绪论 1 4本文的主要工作 一研究内容 】适合西夏文字的图形图像处理方法的研究; 2 西夏文字的统计特征提取方法的研究; 3 识别信息匹配处理和校破的方法的研究 二论文的组织结构 本文共分为五章对研究内容进行阐述第一章主要介绍信息处理和文字识另i j 的概念、文字识 别的分类、研究主要内容等;第二章简要的阐述了模式识别的理论和识别方法;第二章重点分析 了谣夏文字的特点、西夏文字的录入及西夏文献数字化现状;第网章主要讨论了手写体西复文字 识别的模式识别方法,识别系统的结构和流程及西夏文字识别的预处理技术:第五章是重点讨论 了手写体西夏文字识别的特征提取及统计模式识别方法,针对西夏文字如何构造弹性网格及网格 上笔画方向特征的及弹性网格g a b o r 特征的提取方法、分类与识别等,并将此方法运刚于手写体西 夏文字识别过程中,并通过试验验证了方法的有效性第六章总结了本文的研究上作及对西复文 字识别方法的后续研究的展望 4 一 宁夏大学硕士学位论文第_ 章模式识别的理论和方法 第二章模式识别的理论和方法 2 1模式和模式识别 人类具有很强的模式识别能力通过视觉信息识别文字、图片和周围的环境,通过听觉信息识 别与理解语言等模式识别是人类的一种摹本认知能力或智能,是人类智能的重要组成部分,在各 种人类活动中都有着重要作用在现实生活中,几乎每个人都会在不经意问轻而易举地完成模式 识别的过程但是,如果要让机器做同样的事情,恐怕决非这么轻松 要让机器具有像人样的模式识别能力,人们首先需要研究人类的识别能力,因此模式识别是 研究人类识别能力的数学模型,并借助卡计算机技术让计算机模拟人类识别行为的科学。换言之, 模式识别是研究如何让机器观察周围环境,学会从背景中识别感兴趣的模式。并对该模式的类属作 出准确合理的判断模式识别研究主要集中存两方面,即研究生物体( 包括人) 如何感知对敦,以及 研究存给定的任务下,如何用计算机实现模式识别的理论和方法前者属于认知科学的范畴,是生 理学家、心理学家、生物学家和神经生理学家的研究内容,后者属于信息科学的范畴,是数学家、 信息学专家和计算机科学工作者的研究内容识别行为可以分为两人类:识别具体事物和识别抽 象事物具体事物的识别涉及到时守信息的识别卒间信息的例子,如指纹、气象图和照片等;时间 信息的例子,如波形、信号等抽象事物的识别涉及到某问题解决办法的识别、个古老的话 题或论点等换言之,抽象事物的识别是识别那些不以物质形式存在的现象,属于概念识别研究的 范畴本文所指的模式识别主要是对具体事物的识别,如语音波形、地震波、心电图、脑电图、图 片、文字、符号、三维物体和景物以及各种可以用物理的、化学的、生物的传感器进行测量的具 体模式等要识别的数据有:r - 4 维数据,如语音、心电图、地震数据等;二缝数据,如文字图片、 医学图像、卫星图像等;三维数据,如图像序列、结晶学或x 像断层摄影术等9 】 2 2 模式识别系统 个模式识别系统可由数据采集、数据处理和分类决策三个主要部分构成,其基本职能是判 别系统所要处理的模式所属的类别其框图如2 1 所示: 图2 1模式识别系统的组成 数据采集 数据采集是指利用各种传感器把被研究对象的各种信息转换为计算机可以接受的数值或符 号( 串) 集合习惯上,称这种数值或符号( 串) 所组成的卒间为模式空问这一步的关键是传感器的选 一5 一 宁夏大学硕士学位论文 第一章模式识别的理论和方法 取为了从这些数字或符号( 串) 中抽取出对识别有效的信息,必须进行数据处理,包括数字滤波和 特征提取 二数据处理 数字滤波是指消除输入数据或信息中的噪声,排除不相干的信号,只留下与被研究对象的性质 和采用的识别方法密切相关的特征( 如表征物体的形状、周长、面积等) 例如,在进行指纹识别时, 指纹扫描设备每次输出的指纹图像会随着图像的对比度、亮度或背景等的不同瓶不同,有时可能 还会产生变形,对于研究者来说,感兴趣的仅仅是图像中的指纹线、指纹分叉点、端点等,而不需 要指纹的其它部分或背景因此,需要采用合适的滤波算法,如基于块方图的方向滤波、二二值滤波 等,过滤掉指纹图像中这些不必要的部分 特征提取是指从滤波数据中衍生出有用的信息,从许多特征中寻找出最有效的特征,以降低后 续处理过程的难度比如,图像识别时,提取的特征有灰度变化、纹理、形状等我们对滤波后的 这些特征进行必要的计算( 比如进行快速傅里叶变换以得到信号功率谱) 后,通过特征选择和提取 或摹元选择形成模式的特征空间那么,如何判别什么特征是最有效的呢 人类很容易获取的特征, 对于机器来说就很难获取了,这就是模式识别中的特征选择与提取的问题特征选择和提取是模式 识别的一个关键问题般情况下,候选特征种类越多,得到的结果应该越好但是,由此可能会引 发维数灾害,即特征维数过高,计算机难以求解因此,数据处理阶段的关键是滤波算法和特征提 取方法的选取不同的应堋场合,采用的滤波算法和特征提取方法以及提取出来的特征也会不同 三分类决策或模型匹配 基于数据处理生成模式特征窄问后,人们就可以进行模式识别的最后一部分:模式分类或模型 匹配该阶段最后输出的可能是对象所属的类型,也可能是模型数据库中与对象最相似的模式编 号,模式分类或描述通常是基f 已经得到分类或描述的模式集合嘶进行的人们称这个模式集合 为训练集,由此j 虹生的学习策略称为监督学习学习也可以是非监督性学习,枉此意义下产生的系 统不需要提供模式类的先验知识而是基于模式的统计规律或模式的相似性学习判断模式的类别 模式分类或模式匹配的方法有很多,主要是基于以下思想设计的: c 一) 成员表 即模板匹配摹于该思想,分类系统中会预先存储属于同一模式类的模式集,然后将输入的未 知模式与系统中已有的模式相比较,具有相同或相似匹配的模式类即为该未知模式的所属类型 ( 二) 一般特征 模式的一般特征被存储在个分类系统中,当有一个未知模式进入该系统时,系统会将其一般 特征与系统中现有类的般特征相比较,并将其归入到与其有相似特征的类中 ( 三) 聚类 用实数向量来表示目标类的模式,这样,利用其聚类特性,可以轻易地将未知模式进行分类如 果目标向量在几何位箕上相距很远,就容易确定未知模式的类别但是如果目标向量栩距较近,或 甚至有重叠,人们就需要采用比较复杂的算法来确定未知模式的类别最小距离分类法就是一个基 于聚类概念的简单算法该算法通过计算未知模式与希望的已知模式集之间的距离,来决定哪 个已知模式与该米知模式最近,并最终将该未知模式归入到与其相距最短的已知模式类中该算 法对于目标向量在几何位置上相距很远的模式分类很有效 ( 四) 神经元 6 一 宁夏大学硕士学位论文第_ 二章模式识别的理论和方法 上面的模式分类思想都是基于机器的直接计算,而直接计算则是基于数学相关的技术仿生学 是一种将生物学知识应j l j 到电子机器中的学科神经系统方法就是利用仿生学进行模式识别的。一 种方法,从而引进了人工神经元网络一个神经元网络是个信息处理系统,由大量简单的数据处 理单元组成,这魑单元互栩连接,协同工作,从而实现犬规模并行分布处理神经元网络是模仿了 生物的脑部和神经系统的功能而设计的神经无网络具有自适应学习、自组织和容错力等优点 由于神经元网络的这些突出特点。人们可以应用神经元网络进行模式识别常用的一些较好的神经 元网络模型有后向传播网络、高阶网络、时延和周期性网络等其中,前向传播网络常被用来进 行模式识别前向传播也即没有回到输入端的反馈信息与人类从错误中得到教训相似,神经元网 络也能通过向输入端反馈信息,从其错误中得到教训通过反馈可以重建输入模式,避免产生错误, 从而提高神经元网络的性能当然,构造这样的神经元网非常复杂这类神经元网络要用到后向传 播算法( b p ) 后向传播算法的主要问题之一是局部极小问题另外,神经元网络在学习速度、结构 选择、特征表示、模块性、缩放性等方面也的研究还存在一些困难,但是其发展潜力还是巨大的 2 3 模式识别方法 统计识别 统计识别方法是受数学中的决策理论启发而产生的一一种识别方法其基本思想是将特征提取 阶段得到的特征向量定义在个特征窄闻中,这个空间包含了所有的特征矢量不同的特征向量, 或者说不同类别的对象,都对应于此空间中的一点在分类阶段,则利j i j 统计决策的原理对特征审 问进行划分,从而达到识别不同特征对象的目的统计识别中应用的统计决策分类理论相对比较 成熟,研究的重点是特征提取 二句法结构识别 句法结构识别是对统计识别方法的补充统计方法用数值来描述图像的特征,句法结构方法则 是用符号来描述图像特征它模仿了语言学中句法的层次结构,采用分层描述的方法,把复杂图像 分解为单层或多层的简单子图像。主要突出了识别对象的结构信息图像识别是从统计方法发展起 来的。而句法方法更扩犬了识别的能力,使其不仅限于对事物的分类,而目还j f j 于景物的分析与物 体结构的识别 三模糊识别 1 9 6 5 年l a z a d e h 的模糊集合论( ( f u z z ys e t s ) ) 宣告了模糊数学的诞生,之后,有关模糊 信息处理的理论和应用取得了重大进展,并由此产生了模糊模式识别方法模糊模式识别是基于 模糊数学的模式识别方法现实世界中存在许多界限不分明、难以精确描述的事物或现象,而模 糊数学则可以用数学的方法研究和处理这类具有“模糊性”的事物或现象模糊数学的出现使得 人们可以模拟人类神经系统的活动,描述模式属于某类的程度,这就使得模糊数学在模式识别中得 到了很好的应用。模糊聚类分析是非监督模式识别的重要分支1 9 9 4 年,r a n d a s 利用模糊聚类从原 始数据中直接提取特征,并对提取出来的特征进行优选和降维操作,以免造成维数灾害;马少平在 汉字的方向对像素特征进行了模糊化描述,使特征变化比较平滑,提高了汉字特征描述的准确度 在模糊模式识别中。隶属函数的选取是关键 四人工神经网络识别 一7 宁夏大学硕士学位论文第章模式识别的理论和方法 上世纪5 0 年代末,e r o s e n b l a t t 提出了一种简化的模拟人脑进行识别的数学模型感知机,初步 实现了通过给定类别的各个样本对识别系统进行训练,使系统在学习完毕后具有对其他未知类别 的模式进行j f 确分类的能力8 0 年代,j h o p f i d 深亥l j 揭示出入工神经元网络所具有的联想存储和计 算能力,为模式识别技术提出了一种新的途径,从而形成了人工神经元网络模式识别方法神经元 模式识别利j h 神经元网络中出现的神经计算模式进行大部分神经元网络都有某种训练规则,如 基于现有模式调:诲连接权重换句话说。神经元网络直接对例子进行学习,得出其结构特征进行推 广,入上神经元网络可以超越传统的基于计算机的模式识别系统的能力人们可以利埘计算机线 神经元网络进行模式识别计算机利用传统的数学算法来检测给定的模式是否跟现有模式相匹配 这是一。个简单易懂的方法但是,该方法只能进行是或非的判断,月不允许模式有噪声;而神经元 网络允许模式可以有噪卢,而且如果训练得当,神经元网络会对未知模式的类别做出正确的响应 五模板匹配识别 模板匹配的原理是选择已知的对象作为模板。与图像中选择的区域进行比较,从丽识别目标 模板匹配依据模板选择的不同,可以分为两类:以某一已知目标为模板,在幄图像中进行模板 匹配,找出与模板相近的区域,从而识别图像中的物体,如点、线、几何图形、文字以及其它物体; 以一。幅图像为模板,与待处理的图像进行比较,识别物体的存在和运动情况模板匹配的计算量 很大,相应的数据的存储量也很大,而r 随着图像模板的增大,运算量和存储量以几何数增长如 果图像和模板人到一定程度,就会导致计算机无法处理,随之也就失去了图像识别的意义模板匹 配的另个缺点是由于匹配的点很多,理论上最终可是以达到最优解,但在实际中却很难实现 人支持向量机的模式识别 v v a p n i k 提出的支持向量机( s u p p o r tv e c t o rm a c h i n e ,i i p s v m ) 的模式识别的摹本思想是:先在 样本审问或特征空间,构造出最优超平面,使得超平面与不同类样本集之间的距离最人,从而达到 最人的泛化能力支持向量机结构简单,并且具有伞局最优性和较好的泛化能力,自2 0 世纪9 0 年代 中期提出以来得到了,“泛的研究支持向量机方法是求解模式识别和函数估计问题的有效j 二其 s v m 在数字图像处理方面的主要应用是:寻找图像像素之间的特征的差别,即从像素点本身的特 征和周围的环境( 临近的像素点) 出发,寻找差异,然后将各类像素点区分出来 8 一 宁夏大学硕士学位论文第章西夏文字及西夏文字识别研究 第三章西夏文字及西夏文字识别研究 3 1西夏文字概述 西夏文字的创制借鉴了汉字的形制,在构成上可分为单纯字和合体字两大类其笔两多在十画 左右,撇、捺等斜笔较多,结构均匀,格局周i e 。有比较完整的构成体系和规律,具有鲜明的个性特 点西夏文字创制后被作为“国字”推行,因此在西夏国的应用范围十分广泛,如官署文书、法律 条令、审案记录、买卖文契、文学著作、历史书籍、字典辞书、碑刻、印章、符牌、钱币、以及 译自汉、藏间的佛经等西夏文字是西夏文化的精华所在,它的使用在整个西夏时期从未间断过 西夏灭亡后,西夏文字仍由其后人在一定范围内延续使用至明朝中期,而今西夏文字已经成为探寻 西夏后裔踪迹的有力佐证 1 西夏文字的起源 党项存内徙以前仍处在原始游牧部落时期,过着“不知稼稽,土无五谷”、“畜嫠牛、马、 驴、羊以食”的游牧生活,他们“逐水草而居,但候草木以计时岁”社会形态尚处于原始社会父 系氏族公社末期,生产力水平低下,无法令赋税,也没有文字内徙后,由于长期受到各民族特别是 汉族文明的影响,社会经济与文化都有了长足的发展西夏社会形态的变更与生产力水平的提高, 是文化发展的先驱党项族历经数百年的辗转迁徙,不断吸取融入了其他民族的生产力技术与先 进文化,从而加速本民族的封建化进程特别是西夏建国前夕,由于政治与经济上需要有个独立 的局面,文化也相应地需要从汉族文明的母体脱离出来在生产发展以及与其他民族文化的撞击 中党项文化有了新的质变,而文字的e j , n 贝, j 是这种质变的显著表现在西夏建国前夕,元吴为了进 步突出民族文化的秀才特质,于是创制了记录党项语言的文字一西夏文。 2 西夏文字的创造 西夏文字创制于元吴建国前公元1 0 3 6 年左右。由火臣野利仁荣演绎而成文字的创制是民族文 化发展到成熟阶段的重要标志,它给本民族的人民在思想交流和文化传承上带来莫火的便利,也使 后人研究这种文化与党项民族语言成为可能西夏文的创制参照了汉字创制的“六停”理论,采用 合成法进行造字。即先创造了一些文字元素,即我们常说的字根或母字,然后再用合成法繁衍出更 多的西夏字 在西夏文中,除有很少的一部分是直接采用文字元素创字外,绝大部分是合成造字包括会 意、音意、对称、互换、反切、长音等六种合成法,如: 会意合成法:西夏文。水”字中的一部分+ “土”字合成( 泥) 音意合成法:即两字合成一字时,其中字起标音作用,它与合成字同音;另字起表意作 用,它与合成字字义有关 互换合成法:( 指h 趾) ;( 逃h 服) 对称合成法:( 双) ;( 唇) ( 中) ;( 分) 反切合成法:读音为“妻”的西夏字的一部分+ 读音为“因”的西夏字的一部分,合成汉族 “秦”姓的西复字 一9 一 宁夏大学硕士学位论文第五章西夏文字及西夏文字识别研究 长音合成法:读音为“阿”的西夏字的一部分+ 含意为“长的西夏字的一部分,合成阿长音 西夏文字创制后,元吴即下令推行国中,诏令国民悉崩蕃茂以法令的形式确屯了西夏文的地 位,并于建国初期设靠“蕃字院”,选拔西夏贵族子弟加以教之,以期传播因此西夏文字很快就在 西夏国中通行。西夏灭r :后,西夏文字一直到明代中期尚有少数党项后裔还在使媚此后便被历史 所淹没,变成了“一种死亡的文字清嘉庆九年( 1 8 0 4 年) , 重修凉州护国寺感通塔碑被发现后,学 者根据该碑上的汉字与西夏文对照及记年,才重新确认了这种文字即是衰亡已久的西夏文 3文献资料 据目前发现的文献资料证实,西夏文字大约有6 0 0 0 多个内蒙古额济纳旗黑水城出土的西夏辞 书文海与音同收字最全这两部辞书是由西夏时期的党项族人编著的,为进。步研究西 夏语言、文字提供了丰富的实物资料,同时出土的还有一部由党项族入骨勒茂才编著的辞书蕃 汉合时掌中珠,它是j 1 j 汉文与西夏文对音、对意的方式编成的,并收录了许多党项语词汇,成为 后人解开西夏语言、文字的钥匙近百年来,中外专家学者经过艰苦不懈的努力钻研,结合这些珍 贵的文献资料,已荩本掌握了西夏文字的结构与部分语音。使西夏学的研究有了明显的突破 3 2西夏字的基本特征 西夏字的最大特点就是通过大量的会意字来书写当时的西夏语i t o 会意方式普遍采用二合、 三合、网合的形式,笔画多在9 一1 4 画之问,字形与字音之间没有直接的联系研究西夏文字的困 难主要在于: ( 1 ) 西夏字构造无。一定规,不能利用汉字偏旁原理; ( 2 ) 无充分翻译字伟可资考释: ( 3 ) 缺乏探求其构字规律的记载,达到通释并非易事 与汉字相比较,二者的共同点在于: ( 1 ) 两种文字均为方形块状,形体相近,汉字的点,撇,捺,横,竖,拐。提等笔面都能在西夏字 中找到,唯不见汉字的挑笔: ( 2 ) 合体字占绝大多数,独体字很少; ( 3 ) 均有楷,行,草,篆等字体 不同点在于: ( 1 ) 西夏字笔画较多,形体较汉字更为复杂 ( 2 ) 西夏字属中途造字,象形字,指事字很少 ( 3 ) 西夏字中组成合体字的部位左右互换的近义字比较多 ( 4 ) 反切上下字合成构字法是西夏文字构成的特殊方法,类似于拼音法,这种造字法在汉字 中很少使用图3 1 为部分手写体西夏文字,图3 2 为一张西夏文献图片中的西夏文字 一l o 宴墨查兰堡圭耋堡丝兰 墅三塞矍要兰耋量塑塞兰兰堡型矍塞 霰莆霞霰覆羲蔽磊露爵蔽霞 更菱菱建死死死氯氯氯琵毳 氯冠荔黍丽氚讯需砜菊氯磊 蓊荔露藕蕊蔬氟纛磊释谬雾 圈3 l 部分西夏文字 霞 震黼麟甄黼阐 囤3 2 西夏文赫图片 3 3西夏文字的录入及西夏文献数字化现状 有关西夏文的计算机数字化方面的研究,当前国际上主要有臼本、媲罗斯和台湾等地区的学 者进行的研究工作1 其中,日本国克亚非语言文化研究所1 9 9 6 年制作了西夏文字库和捧版系统 1 9 9 7 年巾国学者季范文教授和h 本学者中岛干起利用该捧版系统台著出版了电脑处理西夏文 杂字) 研究一书该所副教授荒川慎太衄与俄罗斯西夏学专家克恰诺夫合著了西夏文字 舆* 外值得一提的是胃际合作中的勇际敦煌项目1 n 11 9 9 4 年,旨在促进敦煌文物文献保护和 研究以及数宁化的敦煌国际合作项目组( 简称i d p ) 正式成立i d p 早期工作主要集中在修复、啻i 护 与缩目等方面近年来加快了数字化步伐,目前正栩着将包括西夏文献影印图像在内的敦煌及丝绸 之路文物文献争部放到罔上的目标而努力 国内方面1 9 9 9 年1 1 月国家自然科学基金项目”基于汉字字形的西夏文字研究的研究成果 “夏议字处理及电子字典”软件由清华大学出版社正式出版i i3 1 该成果是按照期角号码和顺序号 检字法对西夏字进行捧列、注音和释义的w i n d o w s 单机版应用软件它按照( 瑟救宁典从西夏 宁的音,形、义等方面对每一十西夏字作出了汉、英般语的较为争面的解释,建市了两套西夏宁 库成为当时在囝内外第一个能够独立完整的在个人计算机上进行西豆文、中文和英文互译,并 宁夏大学硕士学位论文 第三章西夏文字及西夏文字识别研究 同屏混排、输入、输出的软件产品国内大多西夏文论著采用此系统排版“夏汉字处理及电子 字典”软件中的西夏字库采用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2356-2025计量器具软件标识通用要求
- 2026年中国加热变形试验机行业市场前景预测及投资价值评估分析报告
- 2026年中国门诊输液系统行业市场前景预测及投资价值评估分析报告
- 2026年中国炉体行业市场前景预测及投资价值评估分析报告
- 宜宾市航务事务中心2025年第2次公开招聘编外人员考试笔试模拟试题及答案解析
- 青海省格尔木健桥医院医务人员招聘考试笔试参考题库附答案解析
- 2026云南文山州检验检测认证院事业单位紧缺岗位招聘3人考试笔试备考题库及答案解析
- 2025下半年江苏淮安市洪泽区卫生健康委员会所属事业单位招聘10人笔试考试参考试题及答案解析
- (人教2024版PEP)英语一年级上册全册单元测试(含答案+听力音频)新教材
- 骨关节炎康复锻炼方案
- 医疗废物的管理和分类
- 循证思维在临床护理教学中的应用
- 围手术期管理制度与流程
- 2025大连机场招聘109人高频重点提升(共500题)附带答案详解
- 湘教版(2024新版)七年级上册地理期末复习必背知识提纲
- 【MOOC】大学生心理健康-厦门大学 中国大学慕课MOOC答案
- 企业用地申请报告范文
- 快递突发事件应急预案(3篇)
- 2024年自助售货店转让合同范文
- 2023年凉山州雷波重点国有林保护局招聘工作人员笔试真题
- 大班科学课件《它到哪里去了》
评论
0/150
提交评论