(计算机应用技术专业论文)脱机手写体汉字识别研究(1).pdf_第1页
(计算机应用技术专业论文)脱机手写体汉字识别研究(1).pdf_第2页
(计算机应用技术专业论文)脱机手写体汉字识别研究(1).pdf_第3页
(计算机应用技术专业论文)脱机手写体汉字识别研究(1).pdf_第4页
(计算机应用技术专业论文)脱机手写体汉字识别研究(1).pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)脱机手写体汉字识别研究(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要( a b 删) 中文摘要 汉字是历史悠久的中华民族文化的结晶,闪烁着中国人民智慧的光芒。随着科 学技术的不断进步和信息时代的不断发展,汉字在世界上已经有越来越多的使用人 口,因此计算机自动汉字识别在模式识别领域也越来越受到研究人员的关注。汉字 识别一般分为印刷体汉字识别和手写体汉字识别两类。到目前为止,印刷体汉字识 别已经实用化,并且向更高性能、更完善的用户界面方向发展。而手写体汉字识别, 特别是自由手写体汉字识别一直是模式识别研究领域中的难点,还处于实验室阶 段。本文就自由手写体汉字识别过程中的特征选择、特征提取进行了探索性研究。 特征选择是模式识别中处理原始特征的一种重要技术。其目的是去掉无用、不 相关或冗余的特征。本文对特征选择算法f o s 进行了改进,提出了一种新的特征选 择算法虾o s 。改进后的算法所选择的特征能更准确地代表模式。该算法提取了模式 中的重要特征信息,同时减少了特征之间的相关性,能有效地对模式进行分类。 j 特征提取是汉字识别过程中的关键环节。近2 0 多年来,中外学者已经做了大 量的研究工作,提出了许多不同的特征提取方法。这些特征主要分成两大类:统计 特征和结构特征。其中统计特征抽取包括抽取文字背景轮廓特征、笔画方向特征等, 结构特征的抽取主要是基于特征点、笔段、笔画等。针对手写体汉字识别过程中的 特征提取,本文提出了一种新的抽取笔画平面的方法。对每幅经过规范化后的图像 进行笔画平面提取,优越性主要在于能够根据单个汉字的汉字点阵每一条横向、竖 向以及斜向扫描线( 撇捺笔画平面) 上的黑像素数目决定是否抽取该扫描线上的黑 像素点,抓住了每幅汉字图像的一些细微信息。理论分析和实验结果表明这种算法 是有效的。 基于笔画平面抽取和动态网格划分,本文提出一种笔画平面与模糊隶属度相结 合的手写体汉字特征提取方法。考虑到重叠动态网格可以克服对于笔画位移和局部 变形的敏感性,用模糊隶属度表示网格中的每个点构成汉字图像的重要程度。首先 用动态网格将汉字图像分别划分成横、竖、撇、捺四个笔画平面,然后赋予每个网 摘要( a b 删) 格中的点模糊隶属度,针对每个网格求加权累积直方图,最终获得汉字特征。该方 法克服了汉字特征抽取过程中因笔画粗细不均、笔画长短变形等引起的特征抽取不 稳定问题。实验结果表明这种汉字特征抽取方法是有效的。 关键词:手写体汉字识别,特征选择,弹性笔画长度,动态网格划分,笔画平面, 特征提取 a b s t r a c t c h i l l e d 凶剧地潲a t l l e 托s l l l t so fa b i l l 船ec l l l t u r a la c c u m u l 砸。如w 量l i c hh 硒a1 0 n g h i s t 0 锄d 曲e y 建p i 伪c n ta h i p 帅p l e ,sw i s d o m a l o i l gw i mt b ep r 0 伊e s so f t e i c h n o l o g y 勰dt l l e 如e 1 0 l 舡i 饥to fi n f 0 删o n 姐r e ,m o r e a n dm o r ep e o p l ei i lm ew o d d g mt 0u 廿圮:珈n e c h 觚娥础m 砸cc l l i n e s ec h 础陀c o 础i o ni sb e i n g p a i dm o r ea t t e l m o nb y 也er e s e a r c h e ri n 也ep a :t t i 加1r e c o g i l i t i o nd o m a i l l u s u a l l y ,c l l i n e s e c b a r a c t e rm c o 鲥6 0 ni n c l u ( 1 c sp r 砷耐c i l i n e c h a r a c t e rr e c o g 血i o n 觚dh a n d w r i t t e n :b i n e s ed 豫瑚k ;t e rr o g 乒崩。也b yf a r p 】妣dc l l i n e s ed 均r 乏眈rr c c o g 了l i t i o nh 勰b e e n 璐e di nm 趾ya r e 懿,趾dh a dat e n d e i l c yt o w a r dt 0l l i g h e rp e d i o n n a i l c ea n dm o r ep e r f e c t u s e lh o w e v h 锄d 硎t c c nc h i n e c h a r a c t e rr c c o 嘶t i o ni sd i 伍c u ha ta l l t i 】:n e si i l 廿l e p a l t e mr e c 0 印j t i o na r 孤ds t i ni n l es t a :t eo fe x p e r i m e n t a lt r i a l t h i sp a p e rs t u d i e s b a n d w t t 锄i :b i i l e c b a r a c t e rr e c o 霉l i t i o 玛w h i c hi i l c l u d e sf e a :t u r cs e l e c t i o n 缸df e a t l l r e e i ( i :r a c t i o n f 色a :t i l r e l e c t i o ni sa ni m p o r t a n tt e c h o l o g yf 0 rd e a l i i l gw i t h 也eo r i 西n 面f e a :c u r e , a i m i n gf 0 rr e l n o v i n gu s e l e s s 、硎l d a n to ri r r e l e v a n tf e a t u r e s t l l i sp a p e rp r o p o s e sa 1 1 c w 五龇u r e l e c t i o na 1 9 0 r i t h mn 锄dm f o sb 嬲e do nf o s 1 1 l en e wa 1 9 0 r i t h r n l e c t s 圯 f e 栅c sw m c hr e 畔渤tt h em o s tf e 舭si n 也ed a t a s e t s ,f 0 姗se 丘e c t i v ef e a t u r e 吼l b s e t s t 0r 印r e s e n to c l l i 玳塔ec b 脚t 既i te x t m c t si 脚【p o r t a n tf e a m r ei i l f o r m a :t i o no ft h e c h i n e s ec b a 船c t e r a tt 1 1 es a m et i m e ,陀d u c e sm m e c e s s a 巧r e l a t i o n 觚1 0 i 培f e a t u r e si n o r d e r 屯0c l 嬲s i 鸟锄d c 0 孕施o ne 任e c t i v e l y f e a t u r ee 赋船c 垃0 ni sav e 巧i n l p o r 啪ts t 印f o rc k n e s ed 培r a c t e rr e c o g n n i o n i nl a s t 2 0y c a 璐,m 粕ya 曲s ep l e o p l e 锄df o r e i 舀1 e 瑙h a 、,ep u tf o n 删a1 0 to fm e m o d so f f e a :t i l r ea ( 旬阻c t i o na i 幽gt 0t 1 1 i sp r o b l e m f 朗:t i l r e sa r ed i v i d e di n t ot 、7 旧k i n d s :s t a t i s t i c & i a l u r ea n ds t n l c 臼l r ef e 矧:i l r e s t a :t i s t i cf c 矧胍c o n t a i n sc l 擒i 翟哦e rc 0 n t e x = tc o n t o u rf e a l :陀, s 臼o k ed i f e c t i o n 佗a :t l l 陀锄d o n ,s t m c t u r ef e a t u r ci n c l u i e sf e a t u r ep o i i 止s t m k i es e 毋n e n t , 摘要( a b s t r 2 l c t ) 鼬d ba t c a c c 池gt 0t l l ! ef e a :t l l r ec ) ( 缸枷o no f 也ek m d 、椭t t e nc l l i n e c h 缸a c t 黻 湫盼础l o n ,被啦谢e x 蛐g 融p l 跹e s 测地甜i sp o p o 耐孤sp a 蹿城娃g s 内删组以也ee l a s t i c 始。虹l e n 啦童。铹删也es _ 拄 0 k e 衄sk 龄do nn o 腿a l 泌d 证l a g e s 。 n 地a d v a i 她喀ei sw h a t l l e r0 rn o tt o 心a c tt h eb l a c kp o i n to nt h es c a n l l i n gb e 锄i s 蠢e c i d e db yt l 掩n 砌b c r so ft l l eb l a 馥p o _ i l 俺o nt l 狩辩撇n 证gb e 髓撼缸i 礅越羝r e 鬣 妇e 随。鼓s 。曩蠡m 酬撼de a t e 始sb l do fe v e 猡蛔湛g e si | 麓p e 皤i b l c 遮f ;印强缴i o n ,a 以 i m p r 0 v e s 也er c c o g 皿t i o nr a :t ed e f - m i t d y t h e o 巧a n a l y s i s 黻试e x p e r i m e n tr e s u l t si n m c a t e t :h ee 登i c c t i v e n e s so f t h i sn l 幽d b a s 糠。蕤s 按o 汜p l 黜e 礤刺。致鑫芏通由蚴i em e s 正鹚p a 娃越。玛a 粼;w 翻毹b d & c h 洫e s ec h a “i 凇f ea | c u r ee x 缸t 犯t i o ni s p r o p o s e d c o n s i f ( 2 2 ) 【g ( 所,拧) ,d 历们妒觇 其中丁为预定的非负阈值,它是噪声成分标准差的常数倍,实际值由实验来确 定。 1 4 扬州大学硕士学位论文 2 2 图像二值化 汉字图像的二值化就是把汉字灰度图像处理成二值( 0 ,1 ) 图像的过程。图像的二 值化可以去掉图像中的无用信息,降低后续处理的复杂度,提高识别速度。 设汉字图像点阵为: c = ( z ,) ,f = l ,2 ,j = 1 ,2 ,- 厂( 2 3 ) 其中厂( z ,) 表示像素o ,d 的灰度值。最简单的二值化通过设定固定阈值t 来完成。 假设 ,f l 八f ,) r g 【,) = 1 0o ,) r = 1 ,2 ,= 1 ,2 , ( 2 _ 4 ) b = ( g ( f ,歹) ) 即为字符二值化后的图像点阵。二值化的关键在于阈值t 的选择。一 般来说,t 的选择不仅与像素点的位置有关,还与该点的灰度值和它周围点的灰度 值有关,因此,阈值t 可以用一个形式为三元函数的阈值算子来表示: r = r ( 厂( f ,歹) ,( f ,) ,( f ,歹) ) ( 2 5 ) 式中( f ,j ) 为像素点的坐标,厂( f ,j ) 为像素点( z ,歹) 的灰度值,( f ,) 表示点( f ,) 周 围的局部灰度特性。 2 2 1 整体阈值二值化 由像素点瓴j ) 的灰度值厂( f ,) 确定阈值的方法称为整体阈值选择法。阈值t 表示为: r = r ( 厂( z , j ” ( 2 6 ) 常用的整体阈值选择方法有:人工设定整体阈值、由灰度直方图确定整体阈值。前 者是指根据实验或人的先验经验,预先给定一个固定的阈值t ,当厂o ,j ) r 时,为 笔画上的点,否则为背景点。这是一种简单而且速度很快的二值化方法:后者是根 侯艳平脱机手写体汉字识别研究 1 5 据图像和背景点的灰度值确定阈值,图像的灰度直方图表示图像中具有某种灰度级 的像素的个数,反映了图像中每种灰度出现的频率,是图像最基本的统计特征。一 般地,汉字图像灰度直方图有两个峰值,分别代表汉字图像的笔画部分和背景部分, 阈值取两个峰值的波谷处。 2 2 2 局部阈值二值化 对于书写质量比较差,干扰严重的汉字,在整体阈值二值化效果不理想的情况 下,通常采用局部二值化,此时,阈值t 表示为: z = r ( ( 1 ,j f ) ,( f ,j f ” ( 2 7 ) 2 2 3 动态阈值二值化 动态阈值二值化是指阈值的选择跟像素点本身的位置、灰度值及其周围点的灰 度都有关,即阈值丁= 丁( o ,j f ) ,( f ,_ ,) ,( f ,) ) ,采用这种方法对于文字图像而言, 笔画和背景的区分是很明显的,同时可以处理质量较低的图像,但由于该方法计算 时间较长,所以在文字识别中很少使用。 2 3 图像规范化 一般来说,图像规范化分为线性规范化和非线性规范化【3 9 1 ,其中非线性规范化 的算法又有多种,如基于点密度均衡的非线性规范化、基于汉字笔画交叉点密度的 非线性规范化、基于线间隔密度的非线性规范化、基于线密度均衡的非线性规范化 等。 2 3 1 线性规范化 图像的线性规范化是通过伸缩变换统一图像尺寸,通过旋转、平移变换改变图 像的位置。所以,线性规范化可以表示为: 1 6 扬州大学硕士学位论文 ( ) = ( 乏乏) ( ) + ( 乏) ( 2 8 ) 其中,o ,d 为原来汉字图像点阵上某点的坐标,( f ,_ ,i ) 为经规范化后新的点阵上该 点的坐标。 2 3 2 非线性规范化 手写体汉字经常会因为不同人的书写方式及书写时的随意性而造成字形各异, 这些变形表现在: ( 1 ) 基本笔画的变化,如横平、竖直的规则被打乱,出现横不平、竖不直、折笔 的拐角变成圆弧等情形; ( 2 ) 笔画模糊,不规范,出现笔画粘连或断开; ( 3 ) 笔画之间、部件之间的位置发生了变化; ( 4 ) 笔画粗细不均匀; ( 5 ) 笔画或部件的长短和大小发生变化等; ( 6 ) 汉字整体或局部笔画发生倾斜: 手写体汉字的这些变形,具有局部特性,在汉字点阵图像上表现为笔画分布过 分不均。非线性规范化方法可以减少汉字的变形程度,减弱不同书写风格者在书写 时所产生的字形差异和离散,有效地提高手写体汉字的识别率。在规范化过程中, 各种方法都是基于密度均衡的,不同的只是对于笔画密度的描述。设厂( f ,) 为原汉 字点阵图像,gj ) 表示经过规范化之后的汉字点阵图像,d ( f ,歹) 表示汉字点阵图 像厂( f ,j ) 中与点( j ,j f ) 有关的笔画密度函数。笔画密度在水平方向和垂直方向的密 度投影函数分别定义为h ( f ) o = l ,2 ,) 、矿u ) u = 1 ,2 ,d 。 2 3 2 1 基于点密度均衡的非线性规范化f 1 7 l 这是一种比较简单的非线性规范化方法,其密度函数定义为: 侯艳平脱机手写体汉字识别研究 1 7 砸毗舻亿鬻言熹 ,协9 ) 该方法仅考虑了笔画像素点,没有考虑空白点。虽然计算速度快,算法简单, 却不能保证手写体汉字的不规则性及局部性得到纠正。 2 3 2 2 基于汉字笔画交叉点密度的非线性规范化【3 6 】 在传统的印刷体汉字识别研究中,人们借助汉字中的特征点取得了很好的效 果。在此,利用汉字的笔画交叉特性,对笔画交叉点进行研究,得到了基于汉字笔 画交叉点密度的方法【3 6 】。 该方法是对汉字点阵进行水平和垂直扫描,统计扫描线上的笔画穿透数目定为 所求密度。定义汉字中某一点在水平方向上从前到后扫描过程中出现o l 的个数为 该点在水平方向的笔画交叉密度日( z ) ,同样,该点在垂直方向扫描,从上到下出现 o l 的个数即为垂直方向的笔画交叉密度y ) ,其表达式如下: 日( 功:壹7 石了面厂( x ,力+ ( 2 1 0 ) y 篁l 矿( y ) :壹而厂( 训) + 唧 ( 2 - 1 1 ) 式中,、是用来调整分布函数的参数,一般取值为零。在图像的上边界和左 边界外的超界像素值为o ,7 ;瓦页为m = l ,2 ,膨刀= 1 ,2 ,的值取逻辑反。与 此特征分布函数对应的算法确定了规范化后图像点阵中点沏,玎) 的位置为 上r 朋= 日( f ) m 日( ) 】 ( 2 - 1 2 ) j 慧1j t l 刀:【壶y ( 歹) 圭矿( 朋 其中肌= 1 ,2 ,m ;拧= l ,2 , 2 3 2 3 基于线间隔密度的非线性规范化3 8 1 ( 2 1 3 ) 1 8 扬州大学硕士学位论文 任意两条相邻笔画间的间隔长度或间隔分布密度函数表示了汉字的形状特征, 该方法的原理如图2 2 所示: 图2 2 基于线间隔密度的方法示意图 基于线间隔密度的方法p 8 1 既考虑了笔画点又考虑了背景空白点,本文用如下分布函 数来表示: 日o ) = 日o ,y ) ( 2 1 4 ) y ( y ) = 易( x ,川 ( 2 1 5 ) 其中 昂( 毛力= 瓦与,昂( x ,y ) = 丽b ( 2 一- 6 ) 汉字图像中任意一点处的水平、垂直方向上的线间隔办( 石,少) 、1 ,( x ,y ) 表示最近的 两个笔画之间的距离。如果( x ,少) 是笔画点,则式( 2 一1 6 ) 不变,否则昂“力、0 ( 五y ) 将取一个很小的常数值。密度均衡函数定义好后,相应地位置变换关系为: 侯艳平脱机手写体汉字识别研究 1 9 聊= ( x ) = 么日( f ) + 而 f = l y 刀= 认x ) = b 日( ) + j = 1 ( 2 1 7 ) ( 2 - 1 8 ) 式( 2 1 7 ) 和( 2 1 8 ) 中,彳、b 是分别对应于矽( x ) 、缈( x ) 的常系数,而、为规 范化后图像的起始位置。 2 3 2 4 基于线密度均衡的非线性规范化【1 8 】 与2 3 2 3 节所介绍的方法相似,基于线密度均衡的方法也既考虑了笔画像素 点,同时考虑了背景空白点。不同的是该方法的描述是基于二维的区域统计,较好 地克服了手写体汉字变形的不规则性。 在定义密度函数之前,首先定义如下四种类型的边: 厶= m a x y i y ( 2 - 1 9 ) 厶= m m y iy y ,厂( x ,少1 ) ( x ,y + 1 ) = 1 ) ( 2 2 0 ) 厶= m a x y iy 这四条边的示意图如图2 3 ( 2 - 2 1 ) ( 2 - 2 2 ) | ( 1 ) u 囱臌l 她应 u ; 囫 :i : :i; : ;圆 0 e :j i 丑 j ( 5 ) 一 : i; : i q , 白一 旧臣一一 :一- - 一- - - 二一一_ 一- - - _ - 一- 一- 一一一- - : 图2 3 线间隔的定义 设汉字图像点阵大小为,则如图2 3 处所示的点沿水平方向的线间隔“可定 扬州大学硕士学位论文 义如下: 1 4 n | 2 1 2 = 2 l 厶一厶 i 厶一厶 【( 厶一厶+ 厶一厶) 2 ( 5 ) 厶,厶,厶,厶未定义 厶,厶未定义 g ) l 2 ,l 。未定义 ( 6 ) 厶,厶未定义 ( 4 ) 厶未定义 ( 4 ) 厶未定义 ( 1 2 ) 其它 ( 2 2 3 ) 同理司定义该点在垂直方向的线间隔厶,则最终该点的密度函数为 胡川k 川蛩宅罢高 2 3 2 5 基于笔画间距和笔画宽度的非线性规范化3 9 】 该方法是针对手写体汉字总体笔画位置及单个笔画粗细长短的变形提出的,不 仅调整了构成汉字的笔画相对位置,而且根据笔画宽度调整了笔画的粗细。 设汉字点阵图像由o 、1 组成,且大小为肘,点( x ,力为背景空白点,则设 4 = 五z l 厂( 西,力页历= l ( 2 2 5 ) 鸣= 五i 冗磊形“,y ) = 1 ) ( 2 - 2 6 ) 4 = 毛x 1 7 砑( 毛,y ) = l ( 2 2 7 ) 4 = _ 毛l ( 弓,y ) _ :石历= l ( 2 - 2 8 ) 设 厶: 0 4 加 ( 2 - 2 9 )厶= 1 ( 2 - 2 9 ) 1 【m a x 4 4 m 厶:o 4 = ( 2 3 0 ) z 【m 觚 i 式中西表示空集。 ( 2 3 2 ) 根据式( 2 - 2 9 ) 到式( 2 - 3 2 ) 的定义,点( x ,y ) 的水平笔画间距日( x ,) ,) 表示如下: 踯川= 坠学 ( 2 3 3 ) 同理可定义垂直笔画间距矿( x ,力。假如点 ,力为笔画上的点,设 4 = 黾s x l 厂( ,y ) 厂( x ,y ) = 1 ) 以= 讫x l 厂( ,y ) 厂( x ,y ) = l ,f o 以= 西 岛2 t m a ) 【 4 4 ,i 以= k 2 1 l 血 4 以中 式中表示空集。 定义点( x ,力水平笔画宽度如下: 拍咖学 同理可定义点( x ,y ) 垂直笔画宽度以( x ,y ) 。 设( x ,力和昂( x ,”分别表示点( x ,力的水平线密度和垂直线密度,则 驰咖 筘2 芝y ,嬲: 啪,麓兰力凳嚣 其中口。、,为很小的常数。相应地特征投影函数如下: ( 2 3 4 ) ( 2 3 5 ) ( 2 3 6 ) ( 2 3 7 ) ( 2 3 8 ) ( 2 3 9 ) ( 2 - 4 0 ) 扬州大学硕士学位论文 1 日= 日阮力 y 1 1 i 矿o ) = 昂( 毛力 l p l 规范化后的图像点阵为 ( 2 4 1 ) f 脚= 【日( 七) m 日( 尼) 】 扣1躺 ( 2 - 4 2 ) | 刀= 【y ( 七) m 矿( 动】 li z i七i l 本文采用基于线间隔密度的方法,图2 4 和图2 5 分别为使用该方法规范化前、后 的汉字图像: 壹壹壹壶壶童凌凌壶壹 贰贰贰甙贰甙贰塞甙贰 叁叁叁叁叁叁叁叁叁叁 翼幕肆肆肄群肆肆弊辞 住怔住伍伍枉彳五任伍任 陆陆陆陆融陆陆斌融陆 染柒染象柒。津柒染榘柒 拐1 捌糟】捌捌鹅1 1 糟l 抒1 糟1 耪】 玖张张欢欢狄玖玖玖玖 侯艳平脱机手写体汉字识别研究 糟袷袷袷拾拘枪拾袷栓 秀零零零罨零琴零秀零 元磊宏云元宏疡而元无 角角j 蜀角角角角角角角 分分分分分分份分分分 佰伯伯力召伯伯j 硇伯 召1 秀 俄姣情俄饿情醺砥俄饿 力乃乃乃石刁万万力乃 彳乙亿百乙亿,f 厶1 弘仙4 l1 乙彳乙 整璺整整登整整整整整 图2 4 捆范化前的汉字图像 2 4 扬州大学硕士学位论文 侯艳平脱机手写体汉字识别研究 2 5 图2 5 规范化后的汉字图像( 基于线间隔密度的方法) 2 4 本章小结 本章介绍了手写体汉字图像的预处理方法,主要包括平滑去噪处理、图像二 值化、规范化等。平滑去噪在不损坏汉字图像重要信息的情况下,去除了图像中的 噪声,使图像变得清晰以便于识别。二值化把汉字灰度图像转换为二值图像,减少 了预处理过程中的数据处理量。规范化方法是汉字图像处理的一种重要方法,分为 线性规范化和非线性规范化,其中非线性规范化最为有效。另外,各种非线性规范 化方法有一个共同点,都是基于密度均衡,以直接从汉字图像上矫正手写体汉字的 变形为着眼点,有效地去除了冗余的数据信息。 扬州大学硕士学位论文 第三章手写体汉字特征选择 模式识别过程中,特征选择一直是关键技术和瓶颈技术,其本质是一个寻优的 过程,目的在于减小样本的特征向量维数,去除冗余特征,保留有区分能力的特征, 使识别具有理想的效率、满意的精度。 由于一个类别中的各个样本受到多种条件的限制,以手写体汉字为例,同一个 汉字由于书写者的不同,会造成字形千变万化,每个字符粗细、大小等不尽相同。 为了使模式识别系统的性能尽可能高,通常总是尽可能抽取模式的不同特征,让它 们反映模式的不同方面,因此,代表模式的特征就不可能不存在冗余。f o s 算法【4 2 】 基于一个特征与其余所有特征的相关系数进行特征选择,但是如果一个特征与其余 特征之间的差异比较大的话,让它代表其余特征显然是不合理的。因此,本章提出 了一种新的特征选择算法o s 。其基本思想是:在模式原始特征中选择出一组能 够代表模式重要信息的新特征。这样选择的目的是去除模式中的冗余信息,保留具 有代表性的本质特征。 , 本章由如下几部分组成,第1 节介绍了一些常用的特征选择方法;第2 节介绍 了f o s 算法;第3 节给出了基于f o s 算法的一种新特征算法m f o s ;第4 节,基 于汉字外围特征和交叉数特征给出实验测试结果;第5 节是本章的结论。 3 1 特征选择概述 特征选择通常包含在特征获取过程中,通过从一组特征中去掉冗余或不相关的 特征来进行降维。它可以从原始特征中找到最有效特征【加】,这些被选择出的特征保 留了数据集的主要信息,为分析高维的特征问题提供了便利,避免或减少原始特征 中不相关的信息所带来的识别过程复杂化。特征选择包含了两个方面,一方面是试 图从特征集合中选择最为有效的特征子集,另一方面,选择合适的评价准则确定所 选特征的有效性。由于特征之间存在一定的冗余性和相关性,因此,特征选择具有 侯艳平脱机手写体汉字识别研究 2 7 很高的实用价值。目前,国内外许多学者对此进行了研究,并提出了一系列算法 【2 l 4 1 4 2 】。 按照特征子集的形成方式,特征选择方法可分为穷举法、启发法和随机法三种 f 4 3 】。穷举法是指遍历特征空间中所有特征的组合,选择最优特征组合子集的方法。 常用的方法有回溯方法】及其变体等。其优点是一定能找到最优子集,但在实际情 况下由于特征空间过于庞大,导致计算复杂度较大,所以实用性不强。启发法是一 种近似算法,通常有很强的主观倾向,实际应用中采用期望的人工机器调度规则, 重复迭代产生递增的特征子集。这种方法实现过程比较简单而且快速,在实际中应 用很广泛。但是不能保证识别结果最优,通常能够获得近似于最优解的解。随机方 法一般分为完全随机方法和概率随机方法两种。前者是指“纯”随机产生子集,后 者则指子集的产生依照给定的概率进行。常用的方法有遗传算法【4 5 1 、模拟退火算法 及其变体等。这类方法需要进行参数设置,并且参数值决定是否能够取得最优解。 综上所述,三种选择方法各有利弊,实际应用过程中经常将三种方法结合起来使用 以折衷性能和代价之间的矛盾。 3 2f o s 算法 f o s 算法旧是将一个二次相关系数函数作为标准去估计每个指定的被选择特 征代表所有特征的能力,使得选择出的特征最能代表所有的特征。 f o s 算法: 输入:刀个原始特征,所要选择的特征数d ( d 玎) ; 输出:d 个特征; b e g i n ( 1 ) 定义二次相关系数函数卵( z ,力: = 踹= 簧器 ( 2 ) 选择第一个特征毛,并规格化为单位向量g l ,表达式如下: ( 3 1 ) 扬州大学硕士学位论文 卯,办l 】- 卵“,) ,歹= l ,2 ,刀 m 翔= 去喜m 刎 五= 鹕m a ) ( i 葡;1 】) z l = 魂 吼2 五 ( 3 ) 确定剩余需选择的特征。设为未被选择的特征,计算吼刖,脚= 2 ,d , ,= l ,2 ,刀一朋+ l , 小吩一鲁”一袅 ( 4 ) 利用二次相关系数函数确定及其对应的被选择特征乙, c 【f ,;朋】- 卵瓴,劬啊) _ 【加】= 三窆印,伽】 刀酉 l = a l g m a ) 【研;m 】) 埘” = 气刖,乙= 乜 ( 5 ) 如果掰 d ,返回第( 3 ) 步,否则,算法结束; e n d 3 3 一种新的特征选择算法m f o s ( 3 1 7 ) ( 3 - 8 ) ( 3 9 ) ( 3 - 1 0 ) ( 3 1 1 ) 如果一个特征与其余特征之间的差异比较大的话,让它代表其余所有的特征是 不合理的,它也不可能代表其余所有的特征。此时,如果按照f o s 算法每个特征或 正交过程中的向量与所有特征求相关系数,势必会丢失一些有用的特征。所以在特 征选择算法f o s 的基础上,本章提出了一种新的特征选择算法一最大相关系数特征 ) ) ) ) ) 乏 o 4 5 石 3 3 3 3 3 ( ( ( ( ( 侯艳平脱机手写体汉字识别研究 2 9 选择算法m f o s 。该算法选择出了最能代表样本大多数特征的特征,构成有效特征 子集,实现了数据降维,对于提高汉字的识别效率有很大的帮助。 3 3 1 原始特征抽取 本章用汉字外围特征阳和交叉数特征【4 7 1 作为原始特征验证m f o s 的有效性。 在取得外围特征和交叉数特征之前,为了减少对汉字位置、大小等变形的敏感 性,首先将汉字图像在水平方向和垂直方向不均匀分成八个条形区域,使得每个区 域内的笔画点( 即黑点) 数目相同。设汉字图像点阵大小为m ,水平条形区域 从上到下记为羁,f = 1 ,2 ,厶,同理,垂直条形区域从左到右记为巧,歹= l ,2 ,厶, 其中皿的大小为,且 艺= ( 3 - 1 2 ) 巧的大小为,且 芝= m ( 3 1 3 ) 3 3 1 1 外围特征 外围特征是利用首次扫描到的字符笔画边界点分别到字符图像左边界、右边界 的距离来进行定义的。设或为在e 中从左到右扫描时,第七( 七= 1 ,2 ,) 条等间隔 水平线首次扫描到的字符笔画边界点到左边界的距离,则定义: 铲吉薯卅 俘 从右向左在皿中扫描时,同样可以得到畋。,此时定义q z = i 1 _ 薯( 喀+ i 一面- ) ( 3 1 5 ) 同理在巧中用珥条等间隔垂直线从上到下、从下到上扫描时,可定义参数。和乃:。 于是汉字的外围特征可定义如下: 扬州大学硕士学位论文 媚= “l ,q 2 ,气l ,气2 ,勿t ,魂2 ,i ,:) ( 3 1 6 ) 3 3 1 2 交叉数特征 用吩条等间隔水平线从左到右扫描水平条形区域时,若设第七( 七= 1 ,2 ,) 条 等间隔水平线与字符笔画的交叉次数为& ,则定义瞑= 丢喜气 ( 3 1 7 ) 在垂直条形区域中用 仰= l ,2 ,朋,) 条等间隔垂直线从上到下扫描时与字符笔画 的交叉次数为厶,定义哆= 击善 ( 3 1 8 ) 定义汉字的交叉数特征为: = ( q ,岛,气,q ,呸,屹) ( 3 - 1 9 ) 3 3 2 最大相关系数特征选择算法 3 3 2 1 基本思想 针对f o s 算法所存在的问题,本文认为选择出的特征能够代表大多数特征即 可,而不需要代表全部。设f - o l 抛,州) 为个样本的特征集合,即每个样本有 靠个特征。这里,第七个样本的特征向量为【五( 七) ,而( 七) ,毛( 七) 】,所有样本的第 个特征用向量表示为一= 眄( 1 ) ,巧( 2 ) ,一( 删r 。本文算法的目标是要从样本的万 个特征中选取d 个特征表示模式品= ( 毛,s :,) ,= ( , ,) ,。所选的特 征要能够代表原始特征,当求得所有特征( 刀个) 与任一特征( 或者是一个正交向 量) 的一个相关系数以后,选取其中较大的个相关系数,再求平均值,然后选择 平均值最大的特征作为候选特征。这样选择出的特征代表性更强。 3 3 2 2m f o s 算法 m f o s 算法框架如下: 侯艳平脱机手写体汉字识别研究 3l 输入:玎个原始特征,所要选择的特征数d ( d 刀) ,万o : 输出:d 个特征: b e 咖 ( 1 ) 定义二次相关系数函数s c ,少) ,同式( 3 - 1 ) ; ( 2 ) 利用函数即伉力计算c 【f ,;1 】,对f 的不同取值所得的刀个c 【f ,;1 】进行排序, 取其中最大的刀0 个,求其平均值,过程如下: 印,歹;l 】= 北( 毛,) ,f ,_ = l ,2 ,- ,九 动;1 】= 羔c 【l ”】 百 五= a 鹅麟( c 歹;1 】) z l 。 g l2 毛 由此得到第一个特征毛及其对应的正交向量吼; ( 3 ) 同f o s 算法第( 3 ) 步; 同式( 3 2 ) ( 3 - 2 0 ) ( 3 _ 2 1 ) ( 3 2 2 ) ( 3 2 3 ) ( 4 ) 根据函数s c ( 毛y ) 计算c 【瓦上朋】,对珀勺不同取值所得到的刀个q l 六朋】进行排序, 取其中最大的个,求平均值。过程如下: c 【j ,歹;胁】= ,鼋j 耐) - 【歹;埘】:羔c f _ ,;埘】 百 然后确定及乙: 乙= a 唱m a ) 【( c 【;肌】) z m = x i _ 同式( 3 8 ) ( 3 - 2 4 ) ( 3 2 5 ) ( 3 2 6 ) 3 2 扬州大学硕士学位论文 = 朋f ( 5 ) 如果搠 l o o 时,识别率有所下降。采用最小距离分类器,当= 1 3 0 时,识别 效果最好。这说明了的选取是很重要的,选取的过程就是去掉冗余特征信息的 过程。所以在网格特征集上,针对不同的分类器,建议取值为1 0 0 、1 3 0 。( 3 ) 图 3 1 图3 3 中,所用数据集虽然不同,但每个数据集上,刀。取不同值的时候,识别 结果都相对较好,大部分标记识别率的曲线都呈上升趋势。这充分说明了本文算法 的稳定性;( 4 ) 在同一数据集上,不论采用最小距离分类器还是最近邻分类器,本 文算法在取恰当值的时候,识别结果都优于同等条件下的f o s 算法。同时,就 同一种算法而言,最近邻分类器的分类效果相对来说更好。以上分析结果均显示了 本文方法m f o s 的有效性。 3 5 本章小结 根据特征选择方法f o s 的特点,本章提出了一种改进的特征选择算法m f o s 。 改进后的算法所选择的特征能够代表样本中的大多数特征。该算法提取了样本中的 重要特征信息,同时减少了特征之间的相关性,跟f o s 算法相比,能更有效地进行 分类识别。算法枷f o s 不足之处是:所要选择的特征数太少会影响识别率,特征维 数高时时间复杂度变大等。针对这些情况,今后将在特征选择方面做进一步的研究, 以求能找到适用性更强的特征选择方法。 侯艳平脱机手写体汉字识别研究 3 7 第四章基于弹性笔画长度的特征提取 由于在很多实际问题中常常不容易找到那些最重要的特征,或受条件限制不能 对它们进行测量,这就使特征提取的任务复杂化而成为构造模式识别系统最重要的 任务之一,这个问题已经越来越受到研究人员的重视。 原始特征的数量可能很大,或者说样本处于一个高维空间中,通过映射( 或变 换) 的方法可以用低维空间来表示样本,这个过程叫特征提取。特征提取【4 8 】的主要 任务是从原始数据中抽取出用于区分不同类别的本质特征。其目标是使特征之间相 互独立,增大类内相似性的同时减小类间距离相似性,同时使特征向量的维数尽可 能小。但在实际应用中,很难达到上述要求。目前汉字识别过程中主要采用的特征 可以分为两大类:结构特征和统计特征。统计特征又分为全局特征和局部特征两种。 由于汉字字形千变万化,特征种类众多,研究人员提出的特征提取方法也趋于多样 化。 本章引入弹性笔画长度的思想,提出了一种提取横竖撇捺笔画平面的新方法。 识别的主要过程是:( 1 ) 对图像进行非线性规范化,克服了笔画密度不均对识别的 影响;( 2 ) 对规范化后的图像用弹性笔画长度分别抽取横竖撇捺四种笔画平面;( 3 ) 对每个平面划分s s 均匀网格,并统计每个网格内的交叉数特征。最后用基于最小 距离的分类器完成整个识别过程,实验验证该方法的有效性。 本章在第1 节中,介绍常用的特征提取方法;在第2 节中介绍了基于笔画跨度 的笔画平面提取方法;第3 节定义了弹性笔画长度,提出了基于弹性笔画长度抽取 横竖撇捺笔画平面的方法;第4 节对实验结果进行了比较;第5 节对已有的工作进 行了总结。 4 1 常用特征提取方法 l 、基于结构特征的提取方法 3 8 扬州大学硕士学位论文 基于结构特征的提取方法口7 】是人们最初用来进行手写体汉字识别研究的方法。 一般都要先抽取笔段或基本笔画作为基元,由这些基元再构成部件( 子模式) ,由 部件的组合来描述汉字( 模式) ,最后再利用形式语言及自动机理论进行文法推断, 即识别。然而,由于从汉字图像中抽取笔画等基元比较困难,该方法并没有很好地 实现。因此,有些研究人员放弃了抽取笔画或笔段作为基元的思路,采用汉字轮廓 结构信息作为特征,这一方案的识别结果优于基于基元抽取的方法,但识别方法耗 时严重,而且对于笔画较模糊的汉字图像,抽取内轮廓会遇到极大困难,外轮廓的 抽取也不太稳定。也有些学者采用抽取汉字图像中关键特征点来描述汉字,汉字的 关键特征点包括端点、折点、交点、歧点、背景特征点、局部曲率最大点等,但是 特征点的抽取易受噪声点、笔画的粘连与断裂等影响。综合上述原因,研究人员意 识到单纯利用结构特征进行汉字识别研究是不够的,于是将目光转向了统计特征模 式识别方法。 2 、基于统计特征的提取方法 与结构特征相比,统计特征具有良好的抗噪声、抗干扰的性能。一般来说,统 计特征分为全局统计特征和局部统计特征两类。全局统计特征包括全局变换特征、 全局笔画方向特征、笔画穿透数目等特征,而局部统计特征则包含了局部笔画方向 特征、方向线素特征、鼬0 r 特征等反映汉字局部信息的特征。研究人员可以通过 抽取全局特征或局部特征进行手写体汉字识别,但方块汉字具有二维结构,单纯利 用统计特征还不能很好的反映出汉字的结构信息,这使得统计特征在实际应用中受 到了限制。 3 、统计特征与结构特征相结合的方法 由于统计特征和结构特征各有优缺点,统计特征具有良好的鲁棒性,较好的抗 干扰、抗噪声的能力,可以减少局部噪声和微小畸变,但是,可以用来区分“敏感 部位 的差异也随之消失,因此区分相似字的能力较差;而结构特征区分相似字的 能力较强,但是结构特征难以抽取,不稳定,所以将两种方法结合起来使用已经成 为近年来模式识别领域的一个重要研究方向【2 7 1 。 4 、人工神经网络方法 侯艳平脱机手写体汉字识别研究 3 9 基于人工神经网络良好的自适应性、自组织性,以及很强的学习功能、联想功 能和容错功能,研究人员通常将人工神经网络用于特征抽取。常用神经网络模型有: h o p f i e l d 神经网络、前向多层神经网络( 如b p 算法、r b f 网络等) 、自组织特征映 射网络、认知器模型等等。目前常用的做法是将神经网络方法和传统的识别方法结 合起来使用,互相取长补短,如先用传统的方法抽取较为稳定的特征,然后再用神 经网络进行自组织聚类学习等。 4 2 基于笔画宽度的笔画平面抽取 在抽取笔画平面之前,首先要估计笔画宽度,令丁代表非线性规范化后的汉字 模式中所有黑像素的总和,令三代表规范化后汉字模式中所有笔画轮廓线周长的总 和,则规范化后的汉字模式中平均笔画宽度可用如下公式估计:矽:丝。有了笔画 宽度以后就可以抽取四个笔画平面【2 6 】。比如在抽取竖笔画平面时,将规范化后的汉 字模式从左到右逐列扫描,每列从上到下扫描,当每一扫描线上的连续黑像素点的 数目大于c s ( c 为常数,s 为每行( 列) 的网格数) 时,就分离出了竖笔画平面。 其他三个笔画平面的抽取方法与竖笔画平面类似。最后将提取到的四个平面分别均 匀划分成s s 个网格,在每个小格内统计其笔画穿透数目,这样就形成了4 s :个特 征向量。 4 3 基于弹性笔画长度的笔画平面提取 由于手写汉字存在各种各样的变形,使得抽取到的特征不是很稳定。文献 2 6 提出了抽取横竖撇捺平面,使得汉字识别的研究领域有了新的发展方向,但由于其 抽取平面时用到的阈值是一个固定值,因而影响了识别结果。 本章针对手写体汉字识别过程中的特征抽取,提出了一种改进的抽取笔画平面 的方法。首先,将手写汉字图像进行非线性规一化;然后,利用弹性笔画长度,根 据汉字的横竖撇捺四种笔画分别抽取出四种笔画的平面;最后,将四个笔画平面分 别均匀划分成s s 个网格,在每个网格内计算其笔画交叉数目,便得到了用于分类 扬州大学硕士学位论文 识别的一个4 s :维的特征向量。 4 3 1 弹性笔画长度 由于手写体汉字形体会随着不同人书写风格的不同而不同,即使同一个汉字都 会出现多种写法。因此,定义:扫描汉字点阵时,每一根扫描线上的黑像素数 目为弹性笔画长度厶( f = 1 ,2 ,) ,即厶的大小随着扫描线的不同而改变。这样就 避免了丢失角落里的一些重要信息。例如,在抽取捺向笔画平面时,如果抽取条件 只是满足大于一个固定值,则一些相对比较短的捺笔画信息就极易丢失。那么在后 续的特征抽取中,就会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论