(计算机软件与理论专业论文)离线手写体笔迹鉴别方法研究.pdf_第1页
(计算机软件与理论专业论文)离线手写体笔迹鉴别方法研究.pdf_第2页
(计算机软件与理论专业论文)离线手写体笔迹鉴别方法研究.pdf_第3页
(计算机软件与理论专业论文)离线手写体笔迹鉴别方法研究.pdf_第4页
(计算机软件与理论专业论文)离线手写体笔迹鉴别方法研究.pdf_第5页
已阅读5页,还剩91页未读 继续免费阅读

(计算机软件与理论专业论文)离线手写体笔迹鉴别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 计算机笔迹鉴别是根据书写笔迹来判断书写人的一门科学和技术,属数字图 像处理、模式识别和人工智能等应用领域。根据应用场合和考察对象的不同,有 在线离线和文本独立、文本依存等不同的分类方法。 本文主要针对基于文本独立的离线手写体笔迹鉴别方法展开研究,重点集中 在笔迹图像预处理、特征提取、分类匹配和分类器组合等方面,探讨了部分方法 的优点和不足,提出了一个完整的基于全局纹理分析的笔迹鉴别系统设计方案, 并在此基础上实现了一个“笔迹鉴别软件系统”原型。 笔迹图像预处理部分涉及了笔迹样本图像的获取和一系列预处理算法,如基 于r g b 颜色模型理论的背景去除算法、位图转换和灰度化处理算法、离散杂点噪 声去除算法、基于阀值分割的图像二值化算法、行倾斜度调整、行列压缩与拼接、 归一化和有效的文本块截取方法等。 特征提取部分从笔迹的全局纹理分析的角度出发,采用了多通道g a b o r 小波 变换方法提取笔迹纹理特征。根据多通道g a b o r 变换算法,在样本不变的情况下 选择不同参数,通过实验对识别结果进行比较分析,取得了满意的效果,并为多 通道g a b o r 小波变换在笔迹鉴别应用的进一步研究提供了参考依据。 基于所提取出的笔迹纹理特征数据,分别采用欧氏距离分类器和k n n 分类 器进行分类识别,还在此基础上提出了更优的神经网络分类器和分类器的组合方 法,并通过m a t l a b 7 0 工具箱进行了仿真实验,如b p 网络分类器、c 卧网络分 类器、基于多数表决规则的组合分类器、基于后验概率的多神经网络集成分类器 等。通过测试,文中给出了各种分类器以及组合分类器的性能评价,获得了良好 的鉴别效果。 关键词笔迹鉴别;预处理;特征提取;分类器 a b s 打a c t a b s t r a c t w m e ri d e n t m c a t i o n ( w i ) b yc o m p u te r ,i sas l l b j e c to fs c i e n c ea 1 1 dt e c h n o l o g y a c c o r d i n gt os o m e o n e sh a n d w r i t i n g ,a n db e l o n g st ot h ed i g i t a li m a g ep r o c e s s i n g , p a t t e mr e c o g n i t i o n 觚da r t i f i c i a li n t e l l i g e n c er e s e a r c h 行e l d s a c c o r d i n gt om e d i 珏打e n c e 五r o mi t sa p p l i c a t i o nb a c k 乒o u n d 孤di n s p e c t i o no b j e c t s ,i ti sc 】a s s i f i e dt o o n 一1 i n e ( o f f _ l i n e ) a i l dt e x t - i n d e p e n d e n t ( t e x t d 印e n d e n t ) t h ed i s s e r t a t i o nm a i n l ya i m sa tt h em e t h o db a s e do nt h eo f f - 1 i n ea n dt e x t i n d 印e n d e n th a n d 硎t i i l gi m a g et od e v e l o pt h er e s e a r c h ,a n dc o n c e n t r a t e do nt | l e s c a l l n i n go fh a n d w r i t i n gi m a g e s ,p r 印r o c e s s i n g ,f e a t u r ee x t r a c t i o n ,c l a s s i f i e ra n d t h e i rc o m b i n a t i o n s i nt l l i sd i s s e r t a i o n ,w ed i s c u s s e dt h em e r i ta n di n s u 街c i e n c yo f s o m em e t h o d s ,t h e np r e s e m e daw h o l es c h e m ea b o u tw 打t e ri d e n t 讯c a c i o ns y s t e mf o r t h et e x t u r ef e a t u r eo f t h ew h o l es c r i p t s ,d e s i g n e da n di m p l c m e n t e das o f 研a r es y s t e m a n t 哟巾e 蠡) r w i t h ep a no f p r o p r e c e s s i n gh a n d w r i t i n gi m a g ei n c l u d e dh o wt og e tt h eh a n d w 订t i n g s a m p l ei m a g e s , as 嘶e so fa l g o r i t a n a l y s e ss u c h a sh o wt or e m o vi m a g e s b a c k g r o u n db a s e do nm er g bc o l o rm o d e l ,h o wt os e p a r a t et h em i x e ds p o tn o i s e f 如mh a l l d w t m g ,c o v e r t i n gb i t n l 印s ,也et w o - v a l u e di m a g ea l g o r i m mb a s e do n v a l v ed i v i s i o nt h e o a t l dt h ee 骶c t i v en o m l a l i z e da n d 协et e x tb l o c ki n t e r c e p t i o n m e m o d a n ds oo n f r o mm et e x t l 】r ea n a i y s i sa n g l e ,m em u l t j c h a n n e lg a b o rw a v e l e tt r a n s f o m l a t i o n m e t h o dw a su s e dt oe x t r a c tt h ef b a t u r ef o rh a n d w r t i n gt e x t u r ec h a r a c t e r i s t i c st h e r e c o 印m o ne f f e c th a sb e e nc o n t r a s t e da n da 1 1 a l y z e db yc h o o s i n gs o m ed i 虢r e n t f k q u e n c ya 1 1 dd i r e c t i o nv 撕a b l e sw h a to b t a i n e d 丘o ms o m ee x p e r i m e n t sw h e nt h e s a m p l e sw a su n c h a n g e d t h a th a sp r o v i d e dt h er e f e r e n c ef o rt h em u l t i - c h a n n e l g a b o rw a v e l e t 廿a n s f b n n a i j o nr e s e a r c ho nt h eh a j l d w r i t i n gi d e n t i 丘c a t i o ni n 缸t h e l b a s e do nt h eh a n d w r i t i n gt e x t u f ef b a t u r ed a t a se x t r a c t e d ,w eu s e daw e i 曲t e d e u c l i d e a l ld i s t a n c e ( w e d ) c l a s s i f i e ra n dk - n e a r e s tn e 追h b o r ( k n n ) c l a s s m e rt o m l f i l lt h ep a t t e mi d e m i f i c a t i o nt a s k ,t 1 1 e no nt h eb a s i so ft h a t ,am o r es u p e r i o r a r t m c i a ln e 盯a ln e t w o r k s ( a n n ) c l a s s i f i e ra n dt 1 1 ec o m b i n e dm e t h o d sw e r ep r o p o s e d i nm ee n d ,w ec a r r i e do nt h ee x p 喇m e n t a l t e s t st h r o u 曲t h em a t l a b 7 ot 0 0 1 b o x f o r e x a m p l e ,bp ,c p na n do t h e rc o m b i n e dc l a s s m e r sb a s e do nm o s tv o t i n gm l ea n d p o s t 嘶o rp r o b a b t y a n dt h e nw ep r o p o s e dap e r f o m l a n c ee v a l u a t i o na n da c h j e v e d i i i 北京工业大学工学硕士学位论文 b e t t e rd i s t i n c t i o nr e s u l t sb yt e s t i l l g k e y w o r d s w r i t e r1 d e n t l 6 c a n o n ( w i ) ;p r e p m c e s s l n g ;f b a 恤r ee x t r a c 廿o n ;c l a s s m e r 独创性声明 本人声明所早交的论文是我个人在导师指导下进 r 的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志列本研究所做的任何贡献已 在论文巾作了明确的说日爿并表示了谢意。 签名:互区尘垒日期:丝幺笸:2 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用彩印、缩印或其他复制手段保存沦文。 ( 保密的论文在解 签名:互风选签名:盘垃丛童训j 沌 第1 章绪论 1 1 笔迹鉴别的概念及其意义 1 1 1 概述 笔迹,是指书写人通过书写活动形成的、具有个人特点的文字符号的记录轨 迹( 例如书写的文件或签名等) ,是书写者自身的生理特点和后天学习过程的综合 反映,属个人书写习惯的外在表现。古训| “字如其人”的说法,即反应了这一道 理。 笔迹鉴别( h a n d w r i t i n gi q e n t i f j c a t i o n ) ,也称书写者鉴别( w r i t e r i d e nl l l l c t ( 】n ) ,是通过对检材和样本两部分笔迹之间的比较,确定其是否为 同一人所写。它是通过分析、比对书写人笔迹的书写风格和特征来判断书写者身 份的一门科学和技术,属于人体生物特征识别技术的范畴,是人体生物特征识别 的有效方法之一。“,尤如指纹、虹膜、语音、脸谱和红外温谱等生物特征识别 技术一样,往往是认定违法犯罪嫌疑人的直接依据,亦可作为司法定案的罩要证 据,已越来越引起学术界的高度重视。 手写体笔迹鉴别通常有两种方式”1 :一种是直接比较两份手写体笔迹,确定 他们是否为同一个人所写;另一种是从不同人书写的参考笔迹( 又称样本) 中找 出与检验笔迹( 义称检材) 的书写风格昂接近的样本。视不同的应用场合,研究 的侧重点有所不同。通常,根据笔迹信息的采样方式可以分为在线和离线两类 。1 ,前者除静态特征信息外,还可以采集书写的序列、压力和速度等动态信息; 而后者的鉴别对象则仅是写在纸质上的静态手写体笔迹信息。根据所考察的对象 和提取的特征不同又可以分为文本依存和文本独立两类。,前者主要是针对相同 的特征单字进行鉴别,通常可以提取更多的特征信息,如图l _ 1 所示;后者是从 大量字符集中提取笔迹整体特征信息,特征向量与书写内容无关,通常难度更大, 但因为其对样本的依存性小,应用范围更加r 泛、实用性强,如图卜2 所示。 磐囊鼗媾 熙卜1 离线的文本依存 熙卜l 离线的文本依存 f l g 1 1 。f f _ l l n et e x t d 印e r 山n t 匿卜2 离线的文本独立 匿卜2 离线的文本独立 f 培1 2o 昏1 i n et e x t m d 。p e l l d c n t 隧蘧蘧燃糍 北京工业大学工学硕士学位论文 1 i 2 人工笔迹鉴别方法的不足 长期以来,笔迹鉴别基本上都是采用传统手工的方法,主要靠文检人员手工 选择、剪切文件得到特征字,将相同特征字逐个拼排起来进行比较来形成特征比 对表,再依靠文检人员的经验进行判断。这样,不但任务重、鉴别过程慢、效率 低且不可靠,更容易引入人为主观因素的影响而产生误差( 如感情、环境、心理; 生理因素等) ,从而影响最终鉴别效果的真实性和准确性;另外,如果使用人工 鉴别方法,笔迹相关信息也很难自动归档、检索,而计算机自动鉴别系统将可以 很好地解决这一难题。 1 1 - 3 计算机笔迹鉴别及其意义 计算机笔迹鉴别( w r i t e ri d e n t i f i c a t i o n ,w i ) ,是通过机器来分析、比对 不同人书写相同单字( 特征字) 或整体笔迹风格的差异特征来识别书写者的过程, 就像语音、指纹、虹膜和脸谱等生物特征识别技术一样,能广泛应用于公安、司 法、金融和考古学等领域。它具有鉴别过程快、效率高、不容易受文检人员主观 因素的影响等特点,且能够自动地对书写人及其笔迹信息进行自处理、归档和建 库等。 相对于其它的生物特征识别,如指纹,语音,掌纹、虹膜样本等,获取笔迹 样本相对容易,且具有非侵犯住( 或非接触性) ,通常易为人们所接受。所以, 基于手写体笔迹样本的易获取性和笔迹自身所具有的稳定性等内在特点,已逐步 成为很多应用领域进行身份鉴别的重要手段之一。 当然,随着计算机应用领域的不断扩大,机器自动笔迹鉴别技术在犯罪学和 公共安全( 如公、检、法等部门) 、金融,甚至考古学等领域都越来越引起重视, 有着重大的应用价值和实际意义【4 。 ( 1 ) 在签名验证上的意义 随着经济活动的日益频繁,在金融界、政府等部门,各种各样的协议书、合 同书、规章制度和支票等都需要当事人的签名,如果签名被模仿或伪造,将造成 严重的社会后果或经济损失,甚至会破坏整个金融秩序和社会的稳定,因此对签 名笔迹进行可靠、有效、快速的验证或鉴定,具有十分重要的社会价值和现实意 义。同时,随着计算机网络的发展,也为在电子商务中进行网上支付的安全性方 面提供了保障。 第1 章绪论 ( 2 ) 在刑侦、安全领域方面的意义 笔迹鉴别应用于刑侦、司法举证等领域,对于提高鉴别的准确性,排除人为 主观因素影响等方面有重要意义。另外,能够方便地对已有的笔迹信息归档,自 动建立笔迹特征数据库,可以减少手工鉴别的工作量,对提高工作效率有很好的 作用。 ( 3 ) 在工程方面的意义 笔迹鉴别在工程上的意义更不可忽视。因为手工笔迹鉴别是一种非工程式的 工作方式,但笔迹鉴别的计算机化是把一个非工程式的问题纳入用工程式的手段 来处理,这种方法的有效性将直接推动整个行业应用的可行性。 总之,计算机笔迹鉴别作为一门特殊的学科,综合了模式识别、计算机视觉、 人工智能、专家系统和图像处理等多个领域的相关技术,不论在科学研究,还是 在工程应用上都具有很好的经济价值和现实意义。所以,我们对该课题进行研究 是十分必要的,必将有力地推动笔迹鉴别理论和工程应用的发展,并产生庭好的 社会和经济效益。 1 2 本课题相关的应用背景 近年来,与本课题密切相关的领域,主要集中在文字信息化处理和生物特征 识别技术方面的研究和应用,概括为以下几个方面: 首要成果是字符识别( c h a r a c t e r sr e c o g n i t i o n ) ,即识别字符本身,而不 是识别其书写者,该方面的技术在工程上已接近或达到实用水平。 其次是签名验证( s i g n a t u r ev e r i f i c a t i o n ) ,在该项应用中,比较有效的 方法是联机的动态验证方法。它不仅可以利用书写结果,通常还要求知道在线的、 动态的即时书写过程,如运笔的压力、速度、加速度、握笔的姿态等信息。在国 内外关于签名验证方面的应用,某些领域在工程上已进入实用阶段。 第三是其它生物特征识别技术。如指纹、虹膜、语音、脸谱和红外温谱等, 属于人体生物特征识别技术范畴,该应用领域的研究,已越来越引起学术界的重 视,其中有些方面的应用已进入实用阶段。 当然,笔迹鉴别技术有赖于字符识别、签名验证和人体生物特征识别技术。 目前,字符识别、签名验证、人体生物特征识别都是科学研究的热点,从理论和 技术路线上来看,它们与笔迹鉴别都有许多相似之处。 北京工业大学工学硕士学位论文 1 2 1 与字符识别的关系 谈及笔迹鉴别,有时人们自然会联想起字符识别,其实在本质上是不同的。 为了不引起混淆,在这里作一个比较: ( 1 ) 相似点 笔迹鉴别的信号预处理、特征提取、分类匹配等环节都采用了与字符识别相 类似的理论和技术,有许多类似之处。但从历史的角度来看,显然笔迹鉴别的研 究晚于字符识别,在投入的研究力量和提出的方法上也都远远少于字符识别,但 由于研究的信息和载体相同,字符识别的发展为笔迹鉴别的研究提供了很多现成 的技术。当然,笔迹鉴别的深入研究也会为字符识别的进一步研究提供借鉴,把 笔迹鉴别和字符识别技术很好地进行结合研究是很有必要的。 ( 2 ) 不同点 二者的研究目的不同。字符识别是根据印刷体或自由手写体字符的笔迹特 征,判断是什么字,而并不关心它的书写者是谁的问题。笔迹鉴别是根据书写人 的书写特征来判断书写者的身份,而不强调这是什么字的问题。 二者所依据的特征信息是不同的。笔迹鉴别是提取不同人书写同一个字或整 体书写风格的差异特征来确定书写者,而字符识别是提取不同人书写同一个字的 共性特征来达到识别字符的目的。 虽然二者之间存在一定的差异,但是由于手写体的笔迹鉴别和字符识别的相 似性,完全有可能在文字识别的基础上,实现计算机进行笔迹鉴别的真正应用目 的,可以说其前景是非常乐观的。当然,对于公安、司法举证等应用领域而言, 要求鉴别的笔迹信息通常是静态的、文本属非固定的、独立的,因此将字符识别 的研究成果直接应用于笔迹鉴别领域,无论从理论上还是技术实现上都存在更大 的难度。 1 - 2 2 与签名验证的关系 签名验证也分在线和离线两种方式,都有很广泛的应用背景。相比较而言, 在线签名验证技术的可靠性要更高一些。为了进一步提高离线签名验证的可靠 性,近年来,一些学者尝试通过签名笔迹的灰度图像来提取书写过程的伪动态特 征来区分正常和伪装( 模仿) 签名 4 】。 笔迹鉴别的考察对象范围更广、具有内容无关性,且应用手段与签名验证也 第1 章绪论 不尽相同。签名验证的书写人通常是经过注册的,而且登记的每一个人都附有一 个身份号码,验证时只需根据待验证者申明的号码调出相应的参考签名进行比较 即可。 但是,签名验证与笔迹鉴别在某些鉴别环节( 如预处理、特征提取) 上也是相 通的,签名验证的具体技术特别足离线签名验证的技术和笔迹鉴别的技术可以相 互借鉴。 1 2 3 与其它人体生物特征识别技术的关系 人体生物特征识别是指通过计算机利用人体所固有的生理或行为特征来进 行个人身份鉴别,有些特征是先天性的,而有些特征是后天习惯养成的,但都具 有稳定性的特点。例如:脸像、声音、指纹、掌纹、虹膜和手写笔迹等都属生物 特征识别的范畴。所以说,手写体笔迹鉴别是生物特征识别技术的重要组成部分。 目前,指纹识别和虹膜识别技术已相对成熟,因为在一定的时期内人的指纹 和虹膜不会有太大变化,特征相对稳定。比如,指纹都是由一个核心、一些交叉 点和很多线条组成,虽然说每一个人的指纹不尽相同,但不同人的指纹组成大致 一样,因此在指纹鉴别上可以相应地提取点、线等特征来分别进行比较:虹膜的 特征数据相对较小,且每人只有左、右两个眼睛,人们通常将其视为图像纹理进 行处理,多数通过多通道滤波方法来提取其纹理特征或考虑其局部斑点等。从提 取特征的复杂性来考虑,它们的特征信息相对简单。当然,关于这方面的研究目 前基本己进入实用或商业应用阶段。 然而,笔迹鉴别用于人体生物特征识别方面,似乎更复杂,难度较大。因为 它们在应用背景和实现方法上都有很大的差别。就拿指纹识别来看,在应用背景 上,要求先建立所有嫌疑人的指纹数据库,识别是把待检验的指纹与已注册的嫌 疑人指纹进行比较,找出相似者。笔迹鉴别则不同,嫌疑人往往是没有注册的, 只是通过案情分析确定嫌疑人,并收集嫌疑人平时书写的笔迹或让嫌疑人当场书 写笔迹作为参考样本后,将检验笔迹与参考样本比较以确定作案人。由于没有注 册过程,笔迹鉴别不可能事先通过训练和学习提取特定书写人的笔迹特征,这就 增加了笔迹鉴别的难度。另外,即使是在短时期内,每个人的书写笔迹都有可能 会发生许多变化,且容易伪装,如果在书写速度、工具不一致的情况下,变化则 更大,技术上实现起来相对更加困难。不过,它们之间也有许多相似之处。比如, 北京工业大学工学硕士学位论文 在理取笔迹图像的纹理特征时,可以借鉴虹膜识别的方法,在提取笔迹的结构特 征时,可以考虑使用类似于指纹的结构点的匹配方法等等。所以说,笔迹鉴别是 人体生物特征识别中的一个重要研究领域,从上个世纪起就已成为图像处理、 计算机视觉、模式识别和人工智能应用领域中研究的热点问题。 舞惑老,字符识别、签名验证和其它人体生物特征识别技术方面的研究辜啦用, 无论从理论上,还是在工程意义上都为计算机自动笔迹鉴别的研究奠定了基础。 但是,目前笔迹鉴别技术尚存在许多难点,些问题尚未完全解决,大部分研究 都停留在理论或学术阶段,有待在工程应用上进一步探索。 1 2 计算机笔迹鉴别的可行性分析 笔迹鉴别的研究是模式识别领域中一个非常活跃的分支。传统的笔迹鉴别方 法一般是指由文检专家根据其个人的经验和知识,对笔迹作品之间的异同点进行 反复对照,结合书写者的生理,心理等影响因素的分析,对其所书写的笔迹的真 伪做出评判的过程。另外,主观意义上的鉴别过程会严重的影响评判的客观性, 甚至造成判断错误。所以,如何提高笔迹鉴别结果的准确性已成为一个令人关注 的课题。 计算机笔迹鉴别之所以能成为一门科学,且具有一定的可行性,是因为它有 稳定的研究对象、有专门的研究领域、有系统的研究方法和技术路线,笔迹鉴别 的科学性和可行性,已经被理论和长期的实践所证明“,。 首先,笔迹能够客观反映书写者的习惯,一经形成是难以改变的,书写习惯 通过书写活动表现为笔迹,研究每个人的笔迹表现在笔迹过程中所呈现的变化, 从而研究人的笔迹及其发展演变,人的意识对书写习惯的制约作用,研究熟悉条 件对笔迹的影响,以及书写习惯的特征与特性,并进行比较和鉴定。所以,笔迹 的客观反映性是笔迹鉴别的基础。 其次,由于书写习惯在长期的发展演变中,虽然会产生自身的差异,但具有 相对的稳定性,基本特征保持不变。所以,笔迹的相对稳定性是进行笔迹鉴别的 基本条件。 最后,书写笔迹既受共同性支配又受特殊性支配,共同性取决于文字结构, 特殊性取决于个人书写习惯。所以,渗透在结构共同性中的运笔特殊性是笔迹鉴 别的前提和保证。 第1 章绪论 虽然笔迹的反映性不单是反映书写习惯的真实面貌,笔迹的同一性又包含着 矛盾与差异,笔迹的运笔特性又包含着与他人的共性。但是,只要客观地、科学 地认识笔迹的基本属性,掌握笔迹伪装变化的一般规律、笔迹自身演变的规律、 笔迹特征的价值特性等因素,并在具体的研究中,通过采用抽取多样本、多特征 等方法,是可以避免上述下扰的。 综上所述,笔迹本身所具有的客观反映性、相对稳定性和个体特殊性等特点, 可以为笔迹鉴别提供客观依据;同时,由于计算机视觉、模式识别和人工智能及 相关应用领域研究的不断深入,如字符识别、签名验证、其它生物特征识别技术 等,也为计算机笔迹鉴别的研究提供了理论和技术支撑。总之,从理论和实践上 都证明了笔迹鉴别这一研究课题的可行性。 1 4 国内外的研究进展及现状 1 4 1 国外在该领域的研究 计算机笔迹鉴别系统在国外已有一定的发展,最早的研究始于2 0 世纪6 0 年 代。1 9 6 6 年前苏联的几名研究者发表了用电子计算机进行笔迹鉴别的报告,他 们的方法是从字符骨架中提取一些代表点作为特征,用字母“k ”作为实验样本, 得到了7 5 的鉴别正确率”。 8 0 年代初,该领域的研究和开发进入了一个高潮。以色列、南非和前西德 的专家采用笔迹图像的正交变换谱分析、笔段长度直方图、笔段方向直方图、单 字变形程度分析等方法,也取得了较好的笔迹鉴别效果”3 。之后,日本学者也陆 续发表了计算笔迹中不同方向、不同长度和弧度等曲线分布的相关研究成果。 由于文化背景的差异,西方国家对于汉字鉴别问题研究较少,因此对于汉字 笔迹鉴别相关问题的研究机构大多分布在亚洲。目前,主要的研究机构包括韩国 釜山大学p n u ,中国科学院自动化所模式识别实验室n l p r ,中国科学院计算所 c a s i c t ,美国b u f f a l 0 大学c e d a r ,日本早稻大学w a s a d a ,香港科技大学h k u s t , 新加坡南洋理工大学n t u ,东京科学技术大学s u t ,以及泰国清迈工程学校等。 日本虽然在这一方面的公开报导不多,但由于语言上的渊源,日本的研究成果比 较适合运用于汉字,很值得借鉴。 1 4 _ 2 国内在该领域的研究 在我国,计算机笔迹鉴别系统的研究始于九十年代初期,在北京、武汉、河 北京工业大学工学硕士学位论文 南等地的公安机关已经针对汉字的计算机鉴别系统进行过研究,比较有代表性的 有中国科学院自动化所模式识别实验室,中国科学院计算所等:另据报导,2 0 0 5 年底,清华大学和公安部合作研制成功了计算机笔迹鉴别系统,并投入使用。但 汉字与西文相比,本身的书写结构复杂多变,且单字数量多,给计算机的鉴别带 来很多困难。因此,汉字的计算机笔迹鉴别系统不能完全照搬西方国家的方法, 应该采取中西结合的方法。 当前,关于笔迹鉴别领域的研究多数是围绕离线手写体应用而开展的,且重 点集中在笔迹预处理、特征提取、鉴别过程和效果评价等几个方面。当然,仍有 许多问题需要解决,这也是本课题研究的目的所在。 就实际应用场合来分析,在线的笔迹样本的获取是比较难的,所以通常在线 鉴别的基本条件不太容易实现,而离线笔迹的获取相对容易,因此深入研究离线 笔迹鉴别的有效方法具有更加重要的现实意义。 从相关文献来看,国内外专家对笔迹鉴别从不同的研究角度出发,己尝试了 不同的方法,并积累了一定的经验,在我们的研究工作中值得借鉴【l 8 】。针对汉 字手写体笔迹识别,当前比较典型的方法对比如表卜1 所示。 表卜l 典型的笔迹鉴别方法比较 t a b l e l _ lc o m p a r js o n so fs o m et y p ic a lm e t h o d so f w i 类型鉴别方法使用特征适用条件实验结果特点和评价 笔迹检验专家 笔迹文检方笔顺特征、搭特定的字符、视文检人员人员要求高、 系统法配特征等偏旁等水平而定效果不理想 提取字符图计算量和存储 如简化的像的纹理特正确鉴别率量小、耗时少, w i g n e r 分布征特定汉字8 0 一9 0 但只适用于同 字问的比较 文本依存 笔迹总体静正确鉴别率计算和存储量 静态特征态特征,局部特定汉字8 0 左右 静态特征 对笔迹进行 基于全局纹方向和频带正确鉴别率可以将笔迹看 文本独立理分析,如分解,再用分 与文本内容 为9 0 左右 作是纹理特 g a b o r 多通道 解信号作为 无关 征,文本无关, 分解和匹配笔迹特征实用范围宽 第1 章绪论 1 5 本课题的提出 1 5 1 存在问题及课题来源 相对于字符识别、签名验证和其它生物特征识别技术,计算机笔迹鉴别的研 究起步晚,虽取得了一定的成果,但整体水平不高,与真正实用要求仍有差距, 尚存在诸多有待解决的问题,主要有以下4 个方面。 1 笔迹鉴别系统的方法论、体系结构和人机结合的专家系统的研究; 2 笔迹图像预处理的相关算法的实用性研究; 3 基于全局纹理分析的笔迹特征提取方法的研究; 4 分类匹配和分类器组合方法研究。 本课题获得广西科技攻关项目“w j j d 一1 笔迹检验自动鉴别系统”的资助。 1 5 2 本课题的研究目的 从计算机笔迹鉴别技术的发展历史和研究现状可以看出,目前该领域虽取得 了一定的成果,但仍存在许多难点和不足,且各种探索还停留在学术研究阶段, 离真正的实用化水平还有差距。本课题研究的主要目的是: 从与本课题相关领域理论和应用背景方面入手,在分别深入研究各种已知笔 迹鉴别技术和方法的基础上,改进一些技术或方法上的不足,并提出更新的思路 和方法,同时推动图像处理、人工智能和模式识别等的研究。 本课题成功实施后,将提出达到实用要求的离线自由手写体笔迹鉴别系统模 型,开发出一套自动笔迹鉴别的实用软件系统,从而提高计算机笔迹鉴别的效率 和准确性。另外,也希望某些方法和技术可以推广到相关的行业应用,促进社会 稳定、经济发展。 1 6 本文主要研究内容和结构安排 1 6 1 主要研究内容 本文主要针对离线的手写体笔迹鉴别方法展开研究,重点集中在笔迹图像预 处理、特征提取、分类匹配、鉴别过程和效果评价等方面,主要涉及内容有: ( 1 ) 对文检专家传统的手工笔迹鉴别方法、过程进行研究,提出计算机笔迹 鉴别系统的整体设计方案; ( 2 ) 研究笔迹图像的预处理方法,如去背景、位图转换、去离散杂点噪声、 北京工业大学工学硕士学位论文 行倾斜校正、行列压缩、归一化和有效文本块截取等算法,分析和改进一些预 处理算法; ( 3 ) 研究用全局纹理分析的方法提取笔迹特征,采用多通道g a b o r 变换算法 用于文本独立的笔迹鉴别; ( 4 ) 探索多特征、多分类器集成方法在笔迹鉴别中的应用,以便提高笔迹鉴 别的准确率和可靠性: ( 5 ) 提出一种基于纹理分析的离线手写体笔迹鉴别系统的原型,并整体设计 和实现一个“笔迹鉴别软件系统”原型。 1 6 2 论文结构安排 全文正文部分共分6 章。第1 章初步介绍了笔迹鉴别的相关知识,指出了研 究目的、内容和工作重点;第2 章从人、机结合的角度,提出了一个基于文本独 立的离线手写体笔迹鉴别的系统流程;第3 、4 、j 章分析了当前在计算机笔迹鉴 别各个环节的研究中所存在的一些主要问题和不足,并分别从理论和实验验证角 度给出了相应的解决方案。其中第3 章重点讨论了笔迹图像的预处理问题;第4 章讨论了纹理分析方法在笔迹鉴别中的运用;第5 章讨论了分类匹配以及分类器 组合方法在笔迹鉴别中的运用。第6 章从软件工程角度设计并实现了一个较完整 的笔迹鉴别系统软件原型,并在小样本实验的基础上得出鉴别结论。最后,进行 总结全文,指出研究中存在的困难和不足,并提出了将来的研究方向和展望。 1 7 本章小结 本章主要对计算机笔迹鉴别的概念、意义、应用背景、可行性、与相关领域 的关系和国内外研究现状等进行了阐述,指出了当前该领域研究中所存在的问题 和不足之处,并明确了本文的研究目的、工作内容和重点等。 第2 章计算机笔迹鉴别系统 第2 章计算机笔迹鉴别系统 2 1 手工笔迹鉴别的过程 手工笔迹鉴别普遍采用“同一认定法”,即通过检材笔迹和嫌疑人样本笔迹 间的比较,确定二者的书写习惯和风格特征是否同一,从而做出认定或否定的结 论。文检人员进行笔迹鉴定过程基本可以分为受理检验、分别检验、比较检验、 综合判断等几个阶段,每个阶段都有其相应且不同的方法【9 。 ( 一) 受理检验、收集样本 文检部门在受理笔迹检验任务时,由委托方提供待检的笔迹文件( 也称检 材) ,文检人员收集嫌疑人笔迹文件作为样本。通常,样本由委托方提供,或由 公安部门在案件侦查过程中收集,或者要求嫌疑人在规定条件下当场书写。在笔 迹检验过程中,可能会因为样本数不够或质量不合要求,而需要不断地补充样本。 ( 二) 分别检验、挑选特征 分别检验是发现与确定检材笔迹与样本笔迹各自的特征的过程: 1 判定检材笔迹特征的真实程度。根据检材笔迹的特点和案情,准确地判 断笔迹特征的变化或伪装以及变化或伪装的原因与程度。 ( 1 ) 如果检材笔迹熟练程度一致,书写水平与语文水平相适应、运笔自然, 笔画间搭配比例协调,书写动作规律性强,即可认定其为正常笔迹。 ( 2 ) 如果检材笔迹的大小与斜度程度不均匀,书写速度不一致,运笔不自 然,笔画转折生硬但书写动作有一定体系,相同的单字、笔画特征基本一致,说 明它是由于客观原因或除伪装以外的其他主观因素影响形成的变化笔迹。 ( 3 ) 如果检材笔迹熟练程度不一致,书写动作不成系统,笔画弯曲、断续, 且有停顿、修描痕迹,字的结构与形态不正常,动作技巧能力与语文水平不相称, 一般可判定其为伪装笔迹。 2 发现和确定检材笔迹特征。发现书写动作局部特征,要对检材字迹逐字、 逐个笔划进行对照观察,找出其书写动作的规律性,其中非规范性的部分即是特 征。 3 发现和确定样本笔迹特征。初步判定检材笔迹特征之后,可以此为依据, 按照上述顺序和方法确定样本笔迹特征。与检材笔迹相同的特征和不同的特征都 北京工业大学工学硕士学位论文 要全面寻找、对照。 ( 三) 比较检验、找出异同 比较检验的主要任务是确定检材笔迹和样本笔迹两者之间的相同特征与不 同特征,为综合评断提供依据。通常,以目察比较为主,并借助于摄影仪、比较 显微镜、幻灯片等进行形态比较。 比较检验的内容有四个方面: ( 1 ) 比较书写动作一般状况特征、文字布局特征、书面语言特征的相同与 不同; ( 2 ) 比较单字或单个笔画特征的相同与不同; ( 3 ) 比较各组特征的相同与不同; ( 4 ) 比较各类特征的相同与不同。 如果检材较多时,要对上述四个方面的相同特征和不同特征进行精确地统计 分析,用数学方法反映书写习惯的量与质方面的异同。 ( 四) 综合评断、做出结论 综合评断是对检材笔迹与样本笔迹的相同特征与不同特征的价值进行科学 分析,确定两者符合点与差异点的总和及其性质,并进而做出鉴定结论。评断的 方法,一般是从研究差一点开始。鉴定任何笔迹,都会出现一定的特征差异。评 断差异点的要点,是要确定差异点的性质。其性质有本质差异和非本质差异两方 面。非本质差异说明检材笔迹与样本笔迹不同特征数量与质量所占的比例较小, 本质差异表明两者不同特征的数量、质量比例大。前者一般说明两者为不同人书 写习惯体系的反映。 笔迹鉴定既要重视对差异点的评断,也要重视对符合点的评断,不能片面地 否定一方面就盲目的肯定另一方面,即在确定差异点属于非本质的性质以后,就 贸然做出肯定同一结论是不科学的。符合点也有本质的符合和非本质的符合之 分,如果检材笔迹与样本笔迹相同特征的数量、质量占绝对优势,即构成本质符 合性质;如果两者相同特征在数量、质量方面占的比例小,即属于非本质性的符 合。经过差异点和符合点的评断,如果检材笔迹与样品笔迹之间,出现了本质符 合和非本质差异,或者本质差异与非本质符合的结果,既可做出检材笔迹与样品 笔迹是同一人书写或不是同一人书写的确切结论。 第2 章计算机笔迹鉴别系统 2 2 计算机笔迹鉴别系统基本构成 计算机笔迹鉴别从其学科分类来看是一个典型的模式识别问题,具有模式识 别系统的普遍特性。 2 2 1 模式识别系统的基本组成 模式识别通常有两种基本方法 1 0 】,即统计模式识别方法和结构( 句法) 模 式识别方法。与此相对应的模式识别系统普遍由两个过程所组成,即设计和实 现。设计是指用定数量的样本( 也称训练集或学习集) 进行分类器的设计: 实现是指用所设计的分类器对待识别的样本进行分类决策。我们采用基于统计 方法的模式识别系统,主要由四个部分组成:数据获取、预处理、特征提取和 分类决策,如图2 一l 所示。 训练过程 图2 一l 模式识别系统的基本组成 f 1 9 2 一l 血eb a s i cc o t n p o s eo f p a n e mr e c o g l l i t i o ns y s t e m 2 2 1 1 信息获取 为了使计算机能够对所研究的对象进行分类识别,当然要用计算机可以计算 的符号来表示所研究的对象。通常输入对象的信息有下列3 种类型,即: ( 1 ) 二维图像:如文字、指纹、地图、照片等对象。 ( 2 ) 一维波形:如脑电图、心电图、机械震动波形等。 ( 3 ) 物理参量或逻辑值。前者如在疾病诊断中病人的体温及各种化验数据等; 后者如对某参量正常与否的判断或对症状有无的描述,如疼与不疼可用逻辑值即 o 和1 表示。在引入模糊逻辑的系统中,这些值还可以包括模糊逻辑值,比如很 大、大、比较大等。 通过测量、采样和量化,可以用矩阵或向量表示二维图像或一维波形,这就 是数据获取的过程。 22 1 2 预处理 预处理的目的是去除噪声,加强有用的信息,并对输入测量仪器或其他因素 北京工业大学工学硕士学位论文 所造成的退化信号进行复原。当然,根据具体应用目的不同,还需进行一些必要 的其它预处理活动。 2 - 21 3 特征提取和选择 由图像或波形所获得的数据量是相当大的。例如,一个文字图像可以有几千 个数据,一个心电图波形也可能有几千个数据,一个卫星遥感图像的数据量就更 大。为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本 质的特征,这就是特征提取和选择的过程。一般我们把原始数据组成的空间叫测 量空间,把分类识别赖以进行的空间称为特征空间。通过变换,可把在维数较高 的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。通常,在特 征空间中的一个模式也叫做一个样本,它往往可以表示为一个向量,即特征空间 中的一个点。 2 2 1 4 分类决策 分类决策就是在特征空间中用某种方法把被识别对象归为某一类别。基本做 法是在训练样本集的基础上确定某个判决规则,使按这种判决规则对被识别对象 进行分类所造成的错误识别率最小或引起的损失最小。 2 2 2 计算机笔迹鉴别系统模型 作为模式识别的一个应用分支,笔迹鉴别具有模式识别系统的一般特征,又 有其针对性。目前的笔迹鉴别研究主要包括两类问题,即文体依存和文本独立的 笔迹鉴别问题。文本依存笔迹鉴别问题由于对于书写内容有固定限制,因此相对 容易解决,而应用范围较窄;而在文本独立的情况下,由于对书写内容不加限制, 问题就变得更加复杂了。到目前为止,对于文本独立的笔迹鉴别,真正投入市场 的准确而高效的鉴别系统还很少见,但有很好的应用前景。所以,基于文本独立 的离线手写体笔迹鉴别正是我们研究的重点。 本文提出的基于文本独立的离线手写体笔迹鉴别方案和其他身份识别方法 流程大致相同,主要由训练和测试( 识别) 两部分模块组成,训练模块采集训练 样本生成统计数据,提取出笔迹特征的代表性数据,并将特征值和相关信息存入 数据库:识别模块用来采集待识别笔迹样本( 检材) 的数据,提取出特征值后再 在训练模式数据库中进行检索,找到匹配结果或作出拒绝识别的结论,如图2 2 所示。 第2 章计算机笔迹鉴别系统 数 据 库 图2 2 笔迹鉴别系统框架图 f i g 2 2w r i t e ri d e n t i f i c a t i o ns y s t e ma r c h i t e c t u r ec h a r t 首先,笔迹文件( 检材、样本) 通过扫描仪录入计算机。其中所有嫌疑人的样 本笔迹可以扫描后转换成数字图像形成参考样本库; 其次,进行图像预处理、提取特征,如图像增强( 去噪声、滤波) 、二值化( 或 背景抑制) 、归一化和有效笔迹文本块的截取等。 最后,检材图像和样本图像分别经过预处理之后,提取出笔迹样本的特征值, 生成模式库。文本依存方式主要依赖单字匹配,而文本独立的方式主要依靠全局 特征和整体书写风格,其中纹理分析的方法是当前研究的热点,当然也是本文研 究的重点方法。在提取纹理特征时,通过任意选取统一规格的文本块( 如 2 5 6 t 2 5 6 ) ,通过多通道g a b o r 滤波器提取出文本块笔迹中有价值的纹理特征,在 特征选择后得到整幅笔迹的特征编码。然后,再通过加权欧氏距离( w e d ) 、k 近邻( k n n ) 、b p 神经网络分类器、c p n 神经网络分类器、基于多数表决规则 组合分类器和基于后验概率的多神经网络集成分类器等进行模式匹配和分类决 策,得出最终的鉴别结论。实验结果表明:分类器组合方法对于数字识别、手写 体笔迹鉴别具有很好的效果3 0 3 8 3 9 1 。 2 3 局限性分析 笔迹鉴别是一项复杂的智能活动,虽然检验工作量大,但要求结果完全可靠, 最终达到1 0 0 正确。所以在笔迹鉴别系统的整体设计中,必须考虑到计算机自 身的不足和局限性。 1 计算机只是一种高速的数字计算工具,它的结构和运行机制与人脑的结 构和思维过程相距甚远,虽然可以在系统中嵌入一些专家的经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论