(计算机应用技术专业论文)联机手写藏文识别特征提取方法的研究.pdf_第1页
(计算机应用技术专业论文)联机手写藏文识别特征提取方法的研究.pdf_第2页
(计算机应用技术专业论文)联机手写藏文识别特征提取方法的研究.pdf_第3页
(计算机应用技术专业论文)联机手写藏文识别特征提取方法的研究.pdf_第4页
(计算机应用技术专业论文)联机手写藏文识别特征提取方法的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)联机手写藏文识别特征提取方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

联机手写藏文识别特征提取方法的研究 摘要 该论文和相关研究得到国家自然基金( 基金号:6 0 2 7 3 0 9 0 ) 的支持。特征提取是联机手 写藏文识别进行中的关键问题。围绕这一难题,本文依据统计和结构两种方法的优点,提出 了统计与结构方法相结合的特征提取方法。该方法是从藏文字丁的特点出发,对联机手写藏 文识别的三个主要方面:预处理、笔段提取、笔划粪型统计,进行了深入的研宄,使抽取的 特征相对稳定,藏文字丁的基本笔划类型更具科学| 生,这些都是同类联机手写识别系统中所 未见的功能,同时联机手写藏文识别特征提取的研究为分类器的输入奠定了良好的基础,对 提高整个系统的效率和实用性有很重要的意义。 所谓统计与结构相结合的特征提取的方法就是在藏文字丁的笔段抽取中采用结构的方 法,即在对输八字的点阵图像进行字彤纠正以抑制手写变形和噪声的基础上采用非线性规 范化的方法和消除噪声的方法使得藏文字丁的特征稳定,进而由长短臂长动态结合的方法得 到字丁的笔段;在藏文基本笔划类型的获取中采用统计的方法,分析各种笔划类型,提出笔 划分类算法( 如近邻法,树型分类法,基于最大最小距离试探的聚类搜索算法) ,对大量的样 本进行笔划统计,得到l6 种笔划类型19 种笔划的藏文基本笔划表。 将统计与结构相结合的特征提取模块和所得到的基本笔划加入识别测试系统,首位识别 率最高为7 2 43 ,前10 位的识别率最高9 2 98 ,平均首位- ;r 3 1 率为6 7 3 4 ,前l o 位的 识别率为9 0 57 ,比以前的识别系统的识别率平均首位识别率提高了7 6 3 ,前1o 位的识 、舅蟀提高了2 16 。 关键词:手写藏文识别,特征提取,统计方法,结构方法,统计与结构哿尊合的方法 西北民族大学硕+ 论文 s t u d y o nt h ef e a t u r ee x t r a c t i o no f o n l i n eh a n d w r i t t e nt i b e t a nc h a r a c t e rr e c o g n i t i o n a b s t r a c t f e a t u r ee x t r a c t i o ni st h ep r o b l e mi nt h eo n - l i n eh a n d w r i t t e nt i b e t a nc h a r a c t e rr e c o g n i t i o n a c c o r d i n gt ot h es t a t i s t i c sw a ya n ds t r u c t u r ew a ye a c ha sat o t a l l yd i f f e r e n tt h i n k i n g ,t w om e t h o d s h a v eb e e nc o m b i n e d i no r d e rt os o l v et h i sd ;f f i c u l tp r o b l e m ,s o m ed e e pr e s e a r c h e sh a v eb e e n c a r r i e do u ti nt h i sp a p e rf r o mp r e p r o c e s s i o n ,s e g m e n t s e x t r a c t i o n ,s 廿o k ec l a s s i f i c a t i o n - s t a t i s t i c i a n t h ed e v e l o p m e n to f f e a t u r ee x t r a c t i o ni sv e r y i m p o a a n tf o rv a l i d i t yi n p u a i n go f t h ec l a s s i f i c a t i o n a l g o r i t h m ,i n c r e a s i n gt h ee f f i c i e n c ya n dp r a c t i c a b i l i t yo ft h ew h o l es y s t e m t h em e t h o do f t r a i t - e x t r a c t i n gb a s e do nt h ec o m b i n i n gi nt h es t a t i s t i c sw a ya n ds t r u c t u r ew a yi sp u tf o r w a r db y s t u d y i n gf r o mt h ec h a r a c t e r i s t i co ft i b e t a nc h a r a c t e rt om a k et h et r a i t se x t r a c t e dm o r es t a b i l i z e d , a n dt om a k et h ed e f i n i n go f t h et y p e so f t i b e t a nc h a r a c t e r sb a s i cs t r o k em o l es c i e n c ep o s s e s s e d , w h i c hi sn e v e rp r e s e n t e di np e e ro n - l i n eh a n d w r i t t e ns y s t e m t h es l _ r a c t u r es c h e m en e wn o n l i n e a rs h a p en o r m a l i z a t i o nm e t h o d sa n dt h em e t h o d so f e l i m i n a t i n gn o i s e sa r ea d d r e s s e d ,w h i c hi sa i m e da tr e d u c i n gh a n d w r i l l e nd e f o r m a t i o n i ti s b e n e f i c i a lt os t a b l ef e a t u r ee x t r a c t i o n t i b e t a ns e g m e n t se x t r a c t e dm e t h o d ( t h ed y n a m i cc o m b i n i n g o fl o n g s h o r ta r l t ll e n g t hm e t h o d li sa d d r e s s e d , t h i sm e t h o dw a sa l s oa p p l i e di nac o m p l e t es y s t e m w i t hs a t i s f y i n ge f f e c t t h es t a t i s t i cp l a n ei sd e s i g n e db a s e do nt h ee x t r a c t i n go fs t e a d y s t r o k e s e g m e n t a n dt h ea r i t h m e t i co fc l a s s i f y i n gs t r o k ei sp u tf o r w a r df o ra l lk i n d so fs t r o k e s s o t h et y p e so ft i b e t a nb a s i cs t r o k ea r eo b t a i n e db ys t r o k es t a t i s t i c sm e t h o dw i t hl a r g en u m b e r so f s a m p l e t h es t r u c t u r es c h e m ea n dt h es t a t i s t i c ss c h e m ea r e t e s t e df 6s e t s , e a c h1 1 7s a m p l e s ) i nt h e t e s t i n gs y s t e m ,t h eb e s t e dr e c o g n i t i o nr a t eo f7 2 4 3p e r c e n ti st h ef i r s tc a n d i d a t e s ,w h i l et h eb e s t e d r e c o g n i t i o nr a t eo ft h ef i r s tt e nc a n d i d a t e si s9 2 9 8p e r c e n t ,t h ea c c u m u l a t i v er e c o g n i t i o nr a t eo f t h ef i r s tc a n d i d a t e sc f l lb ei m p r o v e db y7 6 3p e r c e n t , t h ea c c u m u l a t i v er e c o g n i t i o nr a t eo ft h ef i r s t t e nc a n d i d a t e sc a nb ei m p r o v e db y2 1 6p e r c e n t k e yw o r d :h a n d w r i t t e nt i b e t a n c h a r a c t e rr e c o g n i t i o n , f e a r t u r e e x t r a c t i o n ,t h es t a t i s t i c am e t h o d ,t h es t r u c t u r a lm e t h o d , t h es t a t i s t i c a - s t r u c t u r a im e h o d 西北民族大学硕1 一论文 第一章绪论 1 1 特征提取的研究背景与意义 联机手写输入做为种自然、方便的输入方法在众多文字输入中脱颖而出,这种输入方 法适合于微机特别是袖珍电子产品如个人数据助理p d a 等。因此藏文联机手写输入的研究不 仅有理论意义更有实用价值。 特征提取是联机手写藏文识别的核心部分。它具有承上启下的作用,如果能够找到 不随书写人风格变化且稳定的有足够区分能力的特征,那么识别率自然会得到提高。 一个良好的手写藏文字丁特征应该能够反映字丁笔划构成及其笔划之间的相对位置关 系等。在联机手写藏文识别方面,我们虽然做了一些初步的研究,但是如何快速高效地将手 写藏文输入计算机仍然足一个难题,而难题中亟需解决的就是抽取准确的特征值。只有解决 了这个难题,抽取出有效、稳定的特征,整个联机手写藏文识别系统的识别率才会得到改善 而提高。 目前计算机藏文处理与汉字处理水平相较之下并不高,尽管做了一些研究,但仍处于起 步阶段,还需不断的深入探索研究。文献【1 简要分析了藏文字符的特点并列举了一些可用来进 行藏文字符识别的方法;文献 2 】根据藏文在字形和书写方式上的特点,实现了一种适用于藏 文识别的预处理技术;文献3 1 借鉴汉字识别的方法,提出了一种基于统计模式识别的多字体 印刷藏文识别方法;文献f 4 1 基于藏文字丁的结构特点,对藏文识别中相似字丁的区分问题进 行了研究,同时,在藏文识别后处理研究方面,文献【5 】提出了基于藏文音节拼写规则的统计 m a r k o v 模型;文献 6 】在总结了藏文音节规则的约束条件的基础上,提出了基于藏文音节拼 写规则的识别后处理方法;文献 7 】对联机手写藏文识别提出了一些方法并以此做出了些初 步的试验和分析,它的首位识别率最高达到6 6 ,最低为5 3 这种识别率只能处在试验阶段, 还需要大量的试验和研究才能推向市场使用。 1 2 联机手写识别中各种特征提取方法的分析 在分析特征提取的方法的以前首先要了解下面的几个概念: 特征:( 语言意义:可以作为事物特点的征象、标志等) ;特征可以分为3 类:物理特征、 结构特征、数学特征。因此汁算机氓别毛要是通过数学特征实现识别功能。而数学的特征主 要指统计特征。 原始特征:有些时候是原始测量。用仪表或传感器测最出、或计算出的被识则对缘的一 西北民族火学硕上论文 组基本特征。原始测量可以作为原始特征,而有些必须再通过计算才可以作为原始特征。 特征提取:原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射 ( 或变换) 的方法可以用低维空间米表示样本,这个过程叫特征提取。映射后的特征叫二次特 征,它们是原始特征的某种组合( 通常是线性组合) 。所谓特征提取在“义上就是指一种变换。 若y 是测量空间x 是特征空间,则变换a :y x 就叫做特征提取器。 从直观上可知,在特征空间中如果同一类的模式分布比较密集。不同类的模式相距较远, 分类识别就比较容易正确。因此在由实际对象提取特征时就要非常注意这一要求,这将给后 继分类识别环1 t 带来很大的便益。但是由于某些实际的原因。我们提取的特征使模式没有显 著地如上述那样分布。或者所得的特征过多。为了保证所要求的分类识别的正确率和节省资 源,希望依据最少的特征达到所要求的分类识别的正确率。因此,通常在得到实际对象的若 干具体特征之后,再由这些原始特征产个出对分类识别最有效、数目最少的特征,这就是特 征提取的任务。 从本质上讲我们的目的是使在最小维数特征空间中异类模式点相体较远( 类问距离较 大) ,而同类模式点相距较近( 类内距离较小) 。在实现上述目标时,往往需要首先制定特征提 取的准则,可直接以反映类内类间距离的函数作为准则,或南接以误判概率最小作为准则, 也可以用类别判决函数作为准则,还可以构造与误判概率有关的判据米刻划特征对分类识别 的贡献或者有效性。 特征提取的目的就是将来自同一类别的不同样本的特征值应该j r 常相近,而来自不同类 别的样本的特征值应该有很大的差异。这让我们提取最有“鉴别”( d i s t i n g u i s h i n g ) 能力的 特征,这些特征对与类别信息不相关的变换具有不变性。 为了进行有效的分类设计,需要把测量空间变换到维数大大减少的特征空间,因此有效 特征的提取是模式识别系统最困难和最关键的任务之一。 虽然特征提取占有如此重要的位置,但是,迄今没有特征提取的一般方法,因为在很多 实际问题巾常常不容易找到那些最重要的特征,或受条件的限制不能对它们进行测量,特征 提取相比分类更加依赖子具体问题和具体领域,因此相应领域的知识是必需的。这种结果就 使得特征选择的难度复杂化,特征的提取难度加大,所以很多的特征提取方法都是面向问题 的。同时,同一个问题又有不同的特征提取方法,因此,对各种方法的评价又是比较困难的。 一个实际的想法;特征取的越多越好,特征向量( 模式向量) 的维数越高越好,即对分 类器的设计越有利。其实情况并非如此。 就义字识别而言,特征抽取是最重要的一个环节,抽取有效、稳定的特征足识别系统成 功的关键。对文字特征及特征抽取的经研究,己获得了各种各样的方法,常用的有结构特征 和统计特征两大类,其方法就分为结构特征提取方法,统计特征提取方法,结构与统计相结 合的特征提取方法。 1 2 1 结构特征提取方法 8 在许多情况下,对于较复杂的对象仅用一些数值特征已不能较充分地进行描述,这时可 采用结构模式识别技术。结构模式识别技术将对象分解为若干个基本单元,这些基本单元称 2 西北民族大学硕_ 上论文 为基元;用这些基元阻及它们的结构关系米描述对象,基元以及这些基元的结构关系可以用 一个字符串或一个图来表示;然后运用形式语言理论进行句法分析,根据其是否符合某类的 文法而决定其类别。 在结构模式识别方法中,首要的问题是选取什么作为基元。联机手写汉字识别的基元一 般选取笔划或者笔段。结构模式识别方法需要先抽取笔划或笔段作为基元,由这些基元再构 成部件( 子模式) ,由部件的组合米描述藏文( 模式) ,最后再利用形式语言及自动机理论进 行文法推断,即识别。但藏文字符除了9 0 度、1 8 0 度、4 5 度和1 3 5 度四个方向的笔划外更多 的是弧线笔划。弧线笔划多给准确的笔端基元抽取带来了一定的困难。同时因为笔划的提取 需要预定义笔划类型,但由于同一笔划不同人书写时变形较人,很难定义一组稳定的笔划类 型。 采用轮廓结构信息作为特征 9 1 0 c 1 1 ,这一方案的识别结果将优于基元抽取的方法, 但识别需要进行松弛迭代匹配,k y a n a m o t o 和a r o s e n f e l e 对e t l 一8 字库巾8 8 1 个汉字进 行识别的识别率最好为9 8 1 2 。但是藏文弧线笔划多,很难提取稳定的轮廓,有时会产生 较大的失真。 采用抽取藏文中关键特征点米描述藏文,藏文的关键特征点包括端点、折点、交点、歧 点、局部曲率最大点等。对基元、轮廓、特征点等结构信息准确提取后,再用动态规划匹配 法,松弛迭代匹配法,模糊属性自动机识别等方法完成整个字的匹配 1 3 。但是由于这种方 法特征点的抽取易受抖动、噪声干扰,使盲角变成圆弧,圆弧变成直角,而无法辨别。 动态规划方法是一种用途相当广泛的求晟佳匹配关系的算法,它利用多段决策方法求最 短路径,通过分段求最佳来减少对非最短路径的计算。它通常是与误差校正操作相结合,以 使两匹配串的匹配的代价最小。 松弛匹配法 1 4 3 1 5 根据匹配基元间的相互关系,通过多次迭代逐步罚整基元对之间的 可能性,从而达到最佳匹配。 模糊属性自动识别法设u 为给定的待识别对象全体的集合,u 中的每一对象“有p 个 特性指标“。,“:,“。,l ,“。每个特性指标刻化了对象 的某个特性,有p 个特性指标确定的 对象“可记为特性向量“= ( “1 ,“:,l ,“。) 设识别对象集合u 可分成n 个类别,每个类别均为 u 上的一个模糊集。记做a 。,a 2 , l ,4 i ,则称它们为模糊模式,模糊属性自动识别就是把对 g t u = ( “l ,“2 ,l ,u p ) 化归到与其最相似的一个类别4 中( 1 f n ) 去。 结构模式可以对藏文识别,但由于藏文的基本笔段复杂,准确提取基元是很难做到的 而且结构模式识别的描述比较复杂,因而匹配过程的复杂度也较高。 西北民族大学硕+ 论文 1 2 2 统计特征提取方法 1 6 1 7 1 8 1 9 2 0 2 1 传统的统计模式识别方法是在样本数日足够多的前提下进行研究的,所提出的各种方法 只有在样本数目趋向无穷大时其性能才有理论上的保证。传统统计学所研究的是渐近理论, 即当样本数目趋向于无穷大的极限特性。而在多数实际应用中,样本数目通常是有限的,这 时很多方法都难以取得理想的效果。近年来,在有限样本情况下的机器学习理论研究逐渐成 熟起来,形成了一个较完善的理论体系一统计学习理论( s t a t i s z i e a | l e a r n i n gt h e o r y , s l t ) 。 变换系数法作为特征是众多统计学理论中颇为典型的联机手写识别统计方法 1 3 。联机 识别时被处理的信号是笔划轨迹坐标随时问而变化的一维函数,将它们进行适当的预处理后, 即可以提取其变换系数,并选择其中某些系数作为识别特征。常用的变换有f o u r i e r ,w a ls h 等。用变换系数作为识别特征的方法比较简单,对笔划数较少且笔划较为圆滑的数字和字母 较为适_ h j 。 有的统计方法是利用联机书写的特点,首先提取出方向码、特祉做为统计信息,如:复 杂指数特征,这种方法反映文字x 方向和y 方向笔划的复杂程度。所谓复杂指数是指笔划的 线段密度,它和文字的结构的繁简、笔划的多寡与方向都有密切的关系,这和人们的直观感 觉是一致的,其特点是对文字大小和何置不敏感但分类能力较差,类间交叠较大。四边码, 从文字四周边框开始,向内取适当宽度,以此宽度分割出四周的四个部分。根据4 个部分所 含黑象素数量的多少分为4 级编码( 0 ,l ,2 ,3 ) 。其特点是对文字的断线有较强的适应性。 粗外同特征,粗外围特征抽取的过程,把p q 点阵文字分割成n n 份,从文字四方向对边 扫描,开始与文字笔划相碰的非文字部分的面积和全部面积之比作为一次粗外围特征,再将 第二次与文字线相碰的 文字部分面积和全部面积之比作为二次外围特征。形成8 n 维的特征 向量,特点是从文字外围轮廓和内部结构两方面反映文字的特征。粗网格特征,把p q 点 阵文字分割成n n 份,每份中黑像素数与整个文字黑像素数的比例,形成n 平方维的特征 向量,体现了文字整体形状的分布,特点是笔划位置抗干扰能力差。笔划密度特征,将p x q 的文字点阵,向不同方向投影,对文字黑像素的个数类加计算,形成笔划密度真方图,一般, 从四个方向抽取笔划密度特征,每个方向取n 个值作为特征,形成4 n 维的特征向量。特征点, 因为文字的特征集中在字体的骨架上,笔划特征点集中了主要的信息,特点是具有抗噪声的 能力,包含选配法( 或叫模板匹配法) ,利h j 许多文字含有相同的偏旁部首这一特点对文字 进行分类,其特点是:由于偏旁部首的标准模板增加少,其分类速度比粗外围和粗网格容易 提高,而存储量要求少,基于小笔段特征的层次结构,这是由小笔段到部件,再由部件到文 字的层次结构的一种捕述,能够反映文字结构不同层次的约束关系。 然后用统计学原理对这些特征进行统计,将得到的总的特征统计信息做为识别特征,其 要点是提取待识别模式的一组统计特征信息,然后按照一定准则所确定的决策函数进行分类 统计,主要的方法有类条件概率分布的估计,线性判别法,贝叶斯分类器等方法。 ( 1 ) 线性判别法。f is h e r 判别法和主分量分析法是在模式分类与特征提取是传统线性方 4 西北民族大学硕士论文 法。线性判别方法对于藏文容易实现且简单,需要的计算量利存储量小,但是所产生的错误 事或风险较大。 ( 2 ) 蛆叶斯分类器。贝叶斯分类器中,物体是按最大后验概率进行分类的,它使错误率 或风险达到最小,这种分类器为最优分类器,由于藏文结构复杂,当用一个判别函数计算后 验概率时,该判别函数是线性或二次的,当类服从正态分柿时,要找到最优线性分类器是不 可能的。 还有其他方法,如聚类分析中,利用待分类模式之间的“相似性”进行分类,更相似的 作为一类,更不相似的作为另外一类。在分类过程中不断地计算所分划的各类的中心、下一 个待分类模式以其与各类中心的距离作为分类的准则,该类方法的另一种技术是根据待分类 模式与已判定为某类的模式的距离来确定其类别;支持向量机 2 2 ,通过非线性变换将输入 空间变换到一个高维空间,然后在这个新的空间中求取最优线性分类面,这种非线性变换是 通过定义适当的内积函数来实现的。这些都是利用各类的分布特征,即利j = j 各类的概率密度 函数、后验概率或隐含地利用上述概念进行识别。 统计模式特征提取的各种方法,实现藏文联机手写识别相对容易,但首先必须解决极为 困难的概率密度估计问题。 1 2 3 统计与结构相结合的特征提取方法 由上述可见,统计与结构方法对于藏文识别而言各有优缺点,结构模式识别方法利用结 构信息及句法分析的方法进行识别,类似一个逻辑推理器,用这种方法来描述藏文结构在理 论上是比较恰当的,其主要优点在于对字体变化的适应性强,对结构敏感,细分类和区分相 似字丁能力强,对一些藏文字r 变形,如位移、旋转等的适应性好,模式表达能力也强;但 是,在实际应用中,面临的主要问题是抗干扰能力差。这些因素直接影响到藏文结构基元的 提取,它要求基元的分割、抽取和识别都要有较高的准确率,假如结构基元不能准确地得到, 后面的推理过程就成了无源之水且匹配过程的复朵度也较高。 藏文的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大 量的统计而得到的。统计特征的特点是具有良好的鲁棒性,匹配与分类的算法简单,易于实 现,较好的抗干扰抗噪声的能力,它一般按一定的距离度量匹配准则,采用多维特征值累加 的办法,把局部噪声和微小畸变淹没在最后的累加和里,这样也造成了对“敏感部位”的区 分能力变弱,区分相似字的能力差,它不能很好利用藏文字丁本身固有的结构信息,抗字形变 化的能力差,手写藏文字丁因人因时而异,特别对自由书写时,用统计大的方法难以吸收巨 大变化,就会出现特征不稳定现象,影响识月效果,因此,可以将两者结合起来使用,从结 合方式米看,有两种方式: 一种是在结构法中加入统计因素;主要是利用模糊技术,在进行结构基元的判别和基元 西北民族大学硕士论文 问关系的描述时,经事先定义的隶属函数的处理,获得一种近似的量的关系,而不是传统结 构法中简单的符号表达。显然,应用这种模糊方法之后,系统的抗干扰,形变能力可大大增 加。 另一种是在统计法统计大量样本时,变统计的对象为含一定结构信息的特征,这样就使 统计法的结果在一定程度上也反应了藏文字丁的结构特征。 将结构和统计的特征提取方法结合起来可使二者相互取艮补短,在以前的工作中,这方 面属空白领域,前人几乎没有涉及到该问题,更无实质性的突破,本文将试图呈现关于这种 方法的研究原理及成果。 1 3 特征提取存在的问题 ( 1 ) 联机手写藏文的变形。基本笔划变化横不平、竖不直、直变弯。直角变成圆弧,而 圆弧的部分又变成直线等;笔划的倾斜角、鹾短以及部件的大小发生变化;联机手写时由于 硬件的原因而大量抖动所带来的噪声,规范书写如图( 1 1 ) ,变形后的藏文字j 一如图( 1 - 2 ) 。 ,一 : 一j j j 二 j 一一一 t ,一+ 圈( i1 ) 规范书写的藏文字丁 横不平 直角变成圆弧 , t ”k j j 、叶圆弧变威直线 ”, 图( 1 2 ) 变形后的藏文字丁 ( 2 ) 对联机手写藏文字丁识别的规范化,采用了线性规范化方式。该方法保持了原有字 丁的形状和特征,且算法比较容易实现,但是只能对原始的笔划进行更改大小,旋转和平移 的处理,对藏文字丁的不规j l ! | j 性和部分形变处理是远不能达到理想效果的,例如不能调整藏 文字丁的重心位置,对偏长和一些不台适的笔划段不能进行修正,对藏文字丁笔划密集的区 域不能突出,对笔划分散的区域不能进行压缩,这些缺陷对特征提取都可能造成不良影响。 ( 3 ) 基元的选取。藏文字丁中曲线型( 或圆弧型) 的笔划占有较大的比例,如复音字母 如图( 1 3 ) 所示: 幽( l 3 ) 部分复音字母笔划中台有墒线 西北民族大学顾士论文 这些藏文字丁均有弯曲度较大的笔划。还有就是减文字丁中笔划的长度不一样,如同一藏文 字丁中,字丁的笔划有的横短、有的横长,有的竖短、有的蛏长如图( 1 4 ) ;不同藏文字丁 笔划也会出现相同情况如图( 1 ,5 ) 。因此基元定义的不准确会严重影响特征提取的准确性。 q 1 图( 1 4 ) 字丁中出现不同的吩图( 15 ) 不| 可字丁中出现不同的横 ( 4 ) 对笔段统计时分类算法的选择。统计不同的笔段类型时采用的分类算法也就不同, 尤其对于多笔段的统计,它们的类型数目在开始时无法确定,例如一个四笔段统计时如果定 义类型数目最多要达到8 x 8 8 8 = 4 0 9 6 种。现在虽然分类算法的方法很多,但根据不同 的笔段类型找剑合适的分类算法还是很困难的。 ( 5 ) 样本的采集更加复杂。做统计时需要有大量的样本支持,这些样本即能够反应藏文 字丁笔划之间的关系,如上下关系,左右关系等,同时又能反应每个笔划中笔段的构成内容, 以及笔段之问的关系,因此所需要的样本更细致精确,随之数目也更多,样本采集的算法也 就更加复杂。 以上五点即是联机手写藏文识别的难点,也是传统方法不能很好解决的问题。本人的论 文正是从这些方面出发,设计出自己更为有效方法的。 1 4 技术路线特点 本文是针对藏文联机手写识别系统中的核心部分特征提取,设计出自己不同于传统方法 的新的理论方法。因此在技术路线上,本文的方法即继承了传统的优点,又做了大量的改动。 所以,与传统的方法相比,该算法具有定的应用优势。 与传统的方法相比,优势如下 ( 1 ) 传统的方法采用是基于结构的特征提取方法,本文将采用基于统计与结构二者相 结台的特征提取方法。充分利_ = j 统计方法与结构方法各自的优点,以其研究联机手写藏文识 别的特征提取,因为联机手写识别的对象是一维的坐标序列,因此,容易从中获得对于藏文 识别十分重要的结构信息,对人量的结构信息进行统计,抽取能反映手写藏文结构信息的统 计特征。在进行设计时,将反映手写藏文结构信息的统计特征硐1 结构信息结合起来,可以提 高识别系统的鲁棒性,改善结构识别抗干扰能力弱的的缺点,解决了藏文字j 一中曲线型( 或 圆弧型) 笔划多的问题。 西北民旗大学硕i 论文 ( 2 ) 除了解决好手写藏文字r 的特征提取的设计问题,还有比较重要的是要求字丁模 式必须经过稳定的预处理,以保证特征提取和识别算法的香效性。本文旨在通过对藏文字丁 的预处理中规范化处理的讨论,对几种常用的规范化处理方法进行讨论,从试验雨i 理论上对 不同的方法比较井评价,找到更为适合联机手写藏文字 一特点的非线性规范化方法。同时分 析预处理中出现的各种噪声,提出针对不同噪声所采取的相应消除方法。算法对藏文字丁的 变形有一定的修止,为后续的准确特征提取铺平了道路。 1 5 系统构成 图( 16 ) 联机手写藏文识别系统的结构框图 图1 6 中展示了本文联机手写藏文识别系统的结构框图,特征提取和分类识别是识别系 西北民旗大学硕士论文 统的两个重要环节,其中特征提取是本文研究的重点。 图形输入板采样得到笔尖运动的坐标情况,将这些信息发送给与其相连的计算机,识别 软件通过处理得到的信息,从而得到笔尖运动的轨迹 将笔尖运动的轨迹送到特征点提取模块,由于书写时笔尖速度时快时慢,写字有大有小, 运笔抖动时常发生,因而首先需进行预处理,以滤除数据中的噪卢干扰,并把输入字的大小变 换到一个固定尺寸,顶处理包括噪卢消除,规范化等,把处理后的坐标点序列通过笔段抽取,提 取出转折点,同时计算笔段的方向,这部分用结构的方法。得到笔段后通过大量的统计,将笔段 拟和成笔划,经过实验分析得到常用的笔划表,这部分使用统计中的方法。整个过程如图 ( l7 ) 。 特征点 的提取 藏文字丁笔 划方向的确定 采集大量的藏文字 丁,对笔翅蒯彳f 统计 圈( j 7 ) 藏文字丁笔划提取的结构框图 通过统计得到 藏文基本笔划表 最后通过分类器的分类识别,得到识别结果,这部分有中国信息民族技术研究所的李红 同学来完成。 本文的篇章安排如下:第二章讨论联机手写藏文识别的预处理问题,在常用的预处理操 作之外,特别提山了手写藏文字形的4 种非线性规一化矫正方法,并将它们进行了比较,找 到了适合藏文字j 的非线性规范化方法;第三章介绍了笔段抽取的工作,在藏文字丁弧线较 多的情况下,提出了笔段抽取算法;第四章在第三章的基础上讨论了藏文基本笔划类型的获 取,分析各种笔划类型,提出笔划分类算法,对大量的样本进行笔划统计。第五章是对试验 结果的分析,第六章对全文进行了小节,并对将来的工作做了简要的展望。 9 西北民族大学硕士论文 2 1 噪声消除策略 第二章预处理 联机识另1 n , t ,人用笔在图形输入板上写字,把笔相对于扳的坐标位置检测出来,使藏文 笔划上各点的x ,y 坐标对不断输入计算机,完成信号的模数转换。经过模数转换的数字信号 不能直接用来识别,因为它含有各种干扰利噪声,这些干扰和噪声土要有人手抖动,笔的速 度变化,图形板的量化噪声,感应噪声等,分析预处理中出现的这些噪声,提出了相应的噪声 消除的方法,图( 2 i ) 是消除噪卢的过程。 罔( 2 1 ) 消除噪声的过程 2 1 1 消除笔划平直处的噪声 藏文字丁较汉字的书写而言,字丁的第一笔在基线位置,且为直线型笔划。此外在藏文 字丁中也含有一定量的直线型笔划。一般平直处的噪声是由丁书写时笔尖的抖动造成的,平 直处的噪声包括横笔划噪声和竖笔划噪声,横笔划噪声表现为一串连续的横坐标相同、列坐 标不同的笔划点中出现一个或两个横坐标和列坐标都不相同的点,竖笔划噪声表现为横坐标 不相同、列坐标相同的笔划点中出现一个或两个横坐标和列坐标都不相同的点。 消除横笔划平直处噪声算法: yy 2 , y , 如y o = y l 则y 1 不变 如y o y l ,y o = y 2 则修正y l = y o 如y o y 2 ,y o = y 3 ,y 1 y 2 贝u 修正y l = y o ,y 2 = y o 0 西北民族大学硕十论文 其中儿,m ,y :,y ,为四个连续点的纵坐标。 消除竖笔划平直处噪声的算法: 而 五 恐 而 如x o = x 1 则x l 不变 如x o x l 则修正x l = x o 如x 0 x 2 ,x o = x 3 ,x l x 2 贝0 修正x l = x o ,x 2 = x o 其中x o ,x l ,x 2 ,) 已为四个连续点的横坐标。 2 1 2 消除量化噪声和突发噪声 在输入的藏文字丁原始数据中含有大量的量化噪声和突发噪卢。突发噪卢是由一些偶然 的突发原因引起的,一般数量少、幅度大。突发噪声的消除是判断当前点与上一点的距离是 否大于下一点到上一点的距离,若是则为突发噪声点,应将其删除 2 3 。量化噪声是输入设 备对坐标值进行数字化时产生的,消除量化噪声可用以下算i 去完成。 r 1 l 2 设l ( x ,一x 川) 2 + ( y ,一yh 厂l = z 当z 上。时取as = l 当z a 乞) ,则该点也是噪声,将其删除。 2 1 3 消除笔划起始处和终止处的噪声 根据人们的抟写习惯,在笔划落笔和抬笔处的变化较大,就引入了噪声,这种噪声一般 都在笔划的前两个和最后两个笔划序列中,在获取藏文信息时,笔划中采样点过多,删除某 些笔划点,不仅不会影响笔划判别的准确性,而且还会减轻笔划判别的处埋负担,提高效率, 因此,可以直接将笔划前两个和后两个坐标点删除 2 3 2 4 。 2 2 非线性规范化 2 5 对联机手写藏文字丁识别的规范化,可以采用线性规范化和非线性规范化线性规范化 在识别中使用的比较普遍,公式如一f : x 2a 1 _ c - i - a2 y + a3 少2 口4 x + a5 y + a 6 其中a1 ,a2 a6 时常数。线性规范化保持了原有字丁的形状和特征,算法实现比 较容易,但是对丁藏文字丁的不规则性和部分形变处理是不够的。因此,利用1 f 线性规范化 方法来弥朴这方面的缺陷。非线性规范化方法可以按照藏文字丁的特征分布来处理,调整藏 文字丁的重心位置,削弱偏长和一些不台适的笔划段,或者是突出藏文字丁笔划密集的区域, 压缩笔划分散的区域,通常有4 种非线性归一化方法可以使用。由于书写者书写藏文字丁的大 小不一,所以必须归化到统一大小,这里取4 8 9 6 点阵。使用4 8 9 6 点阵是根据藏文字 丁的特点,例如字丁的高度不等,所有字丁依上平线对齐,上平线之上有或没有元音,上平 线之下冈字母、替加层数的不同而不等长 4 ,第一笔是基线且为直线型笔划,藏文字丁的宽 长比例约为1 :2 得出的。为方便说明得到如下定义: 定义1 设f ( x ,y ) ( 0 x 4 8 ,0 y 9 6 ) ,是4 8 x 9 6 点阵内在位置【石,川处是 否有笔划穿过的标志。f ( x ,少) = 1 时,表示在( x ,y ) n n 划穿过,f ( x ,y ) = o 时 表示在( 工,y ) 处无笔划穿过。 西北民族大学硕士论文 2 _ 2 - 1 基于藏文字丁点密度的方法 使用文献 2 6 点密度的方法,对藏文字丁水平、垂直方向投影信息进行扫描,并对投影 特征的均衡处理,使得藏文字 原本分布不均匀的投影密度函数均匀化,实质上是将藏文字丁 的重心位置调整到藏文字丁点阵的中心。 9 6 h ( x ) = f ( x ,y ) + 口 y = 1 4 8 v ( x ) = f ( x ,j ,) + 口。 x = 1 其中a h ,表示在两个方向的调整参甄在这里蚴。 规范化后新的笔划位置: ,4 8 m = h ( i ) x4 8 ( f )z_一z_一 、7 f - l f i l 2 2 2 基于藏文字丁笔划交叉点密度的方法 利用文献 2 7 笔划交叉点密度的方法,结合藏文字丁笔划之间的交叉特性对笔划进行规 范化处理。定义藏文字丁中某一点在水平方向上,从前向后扫描过程中同时出现0 ,1 坐标的 个数为该点在水平方向上的笔划交叉密度h ( x 1 ,同理可得在垂直方向的笔划交义密度 矿( y ) ,即: 9 6 ( x ) = 冗万面f ( x ,y ) + a 。 4 8 矿( y ) = 冗巧面f ( x ,y ) + 口, j = l 其中7 瓦历表示对( x ,y ) 的值取逻辑反。 舰范化后新的笔划位置是: 西北民族大学硕上论立 脚= h ( i ) 4 8 h ( f ) f = li = l 2 2 3 基于藏文字丁线间隔密度的方法 首先定义两个函数: f h = 可蠢 ,= 杀击 其中h ( x ,y ) 表示图像中相邻两个笔划之问的水平距离,v ( x ,y ) 表示图像中相邻两个笔 图( 22 ) 特征密度均衡函数:h ( z ) = v ( j ,) = 乃( x ,y ) 对应的位置变换关系为:历:妒( x ) :4 8 蓬h ( 七) 艺日( j ) 心= y ( y ) = 9 6 匹矿( ,) 9 6 矿( ,) y 1 = 1 j = 1 1 4 、j,l 矿 芦 69 、j,l 矿 ,芦 = 聆 南南 i i = y 芹 f f 、jy x ,l h f 垆 堕韭墨鳖查兰堡兰丝苎一 2 2 。4 基于藏文字丁线密度等分的方法 参考文献 2 9 线内接圆密度的方法,分析藏文字1 一的局部信息利二维属性使点阵中笔划 复杂的部分相对于笔划简单的部分放大。点( x ,y ) 的密度函数尸( x ,y ) 定义如f :假如从点 ( z ,y ) 出发,沿水平轴方向向两侧遍历时相遇笔划的右边界厶,和l h :,左边界为三一,和 厶。,其中b 1 和l 。3 在点 ,) 的左边,而如2 和l h 。在点( x ,y ) 的右边。 正。= m a x yl , ,y ( r ,。) 厂( r ,+ 1 ) = l 三,= m i n ,l ,f ( x ,+ ) ,( r ,+ + 1 ) = l 上掣,高l n a x ,j , 五。= r a i n j ,j j , j ,f ( x ,一1 ) f ( x ,) = i j ,f ( x ,一1 ) ,( x ,。) = 1 计算在点( z ,y ) 处沿水平方向的线间距上 l = l 。l 。4 未定义 。,l h3 未定义 l 。:,l n4 未定义 l 。,。未定义 l n t 未定义 l 。未定义 其它 同理可得( x ,y ) 沿垂直方向的线问距0 ,但对于藏文字丁在垂直方向的线问距0 是水平方 向k 的2 倍,即:= 2 k ,常量w 表示原始藏文字i j 点阵的宽度a l p = 8 w 4 w 4 w 4 w 旷4 一矿3 l p 2 一 ,1 ( 三y 2 一l r i + 三r4 一l p 3 ) 2 线密度函数 5 上r4 三r 4 未定义 l p l ,l v3 未定义 l r2 ,l v4 未定义 l 。三,。未定义 三,未定义 l w 未定义 其它 之 w w w w 小 ,1锄知c专撕“o皈 垦j ! 垦塑奎兰堡堡壅 一。 加,恤2 训嚣l h + l g _ - x 骗) n 刊n y i 薹喇m 引9 6 ) 2 3 本章小结 经过以上所述的噪声消除的运算后,得到比较平滑的坐标点序列。如图2 3 _ 手i i2 4 所示 为藏文字丁消除噪声前后的图像,可以看山处理后的图像较处理前更加光滑。 。; , 幽( 23 ) 消除噪声前的藏文宁丁 图( 24 ) 消除噪声后的藏文宁丁 基于藏文字丁点密度方法雨l 基于藏文宁丁笔划交叉点密度的方法,是利用全局密度均衡 的,算法简单,计算速度块,算法对藏文字丁点阵的总体分布处理能力较强,对局部性不能 得到很好的纠正。基丁藏文宁丁线间隔密度的方法,考虑了空白坐标点和笔划坐标点,能较 好地处理局部范围,但所有的笔划坐标点具有相同的密度,效果不是很好。基于藏文字丁线 1 6 i 。 两北民族大学硕士论文 皆发等分的万 去的卺厦幽数具有二维性,r b 很好阳凫月k 手写子j 耍彤甲的局邵性丰u 小剃j j ! j j 性, 规范化后的结果对照如图2 5 所示: 原圉方治2 2 i 方法2 2 z ,f 甚2 z 3 旁话z ,- a 圈园图因园 图酉图匿圄 冒圄圄圄圄 关于这些作线性归一化方法的性能比较如表3 i 所示。 表2 1 4 种非线性归一化方法的性能比较 密度函数定义密度函数定义算法密度函数定义密度描述 、的全局性的二维性速度的笔划点合理性 方法2 2 1全局 一维 快仅笔划点不合理 方法2 2 2全局 一维 快仅笔划点不合理 方法2 2 3局部二维慢笔划点,空白点较合理 方法2 2 4局部二维慢笔划点,空白点较合理 通过3 套、每套儿7 个手写字符样本的测试,使用这些方法后联机手写藏文识别系 统的识别率比较如表2 2 所示。 表2 24 种1 线性归一化方法的识别率比较 前十位识别率( )线性归化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论