(电工理论与新技术专业论文)基于基本笔划笔压特征的手写汉字笔迹鉴定的研究.pdf_第1页
(电工理论与新技术专业论文)基于基本笔划笔压特征的手写汉字笔迹鉴定的研究.pdf_第2页
(电工理论与新技术专业论文)基于基本笔划笔压特征的手写汉字笔迹鉴定的研究.pdf_第3页
(电工理论与新技术专业论文)基于基本笔划笔压特征的手写汉字笔迹鉴定的研究.pdf_第4页
(电工理论与新技术专业论文)基于基本笔划笔压特征的手写汉字笔迹鉴定的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t t h er e s e a r c hw a sb a s e do n a na s s u m p t i o nt h a tv a l i df e a t u r e si n h a n d w r i t t e nc h i n e s ec h a r a c t e r sw e r ec o n t a i n e di nt h ep r e s s u r eo ft h e w r i t e r ss t r o k e s s ow ed e a lw i t ht h eb a s i cs t r o k e sa sm a i no b j e c ti nw r i t e r i d e n t i f i c a t i o n t h eb a s i ch a n d w r i t i n gs t r o k e sw e r es e l e c t e df r o mc h i n e s e c h a r a c t e r sa st h em a i no b je c t s t h em u l t i - d i m e n s i o nf e a t u r es p a c ew a s o b t a i n e df r o mt h ep r e s s u r ef e a t u r eb a s e do nt h eb a s i cs t r o k e s t h e nw e c a no b t a i n t h ed i s t r i b u t i o no fe v e r yo b j e c ti nt h ef e a t u r es p a c e b yt h e g e n e r a ld i s t a n c ea n dt h en e u r a ln e t w o r k ,w ea c c o m p l i s ht h ew r i t e r i d e n t i f i c a t i o n w es e l e c t e dt e nw r i t e r s ,a n df o u rb a s i c s t r o k e s ,t h e s a t i s f y i n gr e s u l tw a so b t a i n e df r o ms o m es i m p l ec h i n e s ec h a r a c t e r s t h e r e s e a r c ht o t a l l yo v e r c o m e st h ed e f e c to ft h ep r e v i o u sr e s e a r c hb a s e do n t h et e x t d e p e n d e n t ,a n da l s or e d u c e st h ed i c t i o n a r ys p a c e k e yw o r d s :w r i t e ri d e n t i f i c a t i o n b a s i cs t r o k e s p r e s s u r ef e a t u r e f e a t u r es p a c e g e n e r a ld i s t a n c e 第一章前言 1 1 问题的提出 在当今社会生活中,随着经济的进一步发展,国际合作与交流的日益频繁, 身份识别这一课题显得日益紧迫和重要。就目前的技术而言,身份识别的方法有 许多种,如指纹识别,掌纹识别,声音识别,虹膜识别,笔迹鉴定等等。在这些 方法中,有的已经取得了很好的识别率,如虹膜识别,但是,这种识别方法要求 鉴别对象必须在场,因而其应用范围受到很大的限制;相对来说,笔迹鉴定这一 身份识别的方法所要求的条件就要宽松许多,首先我们能比较容易地获得鉴别对 象所书写的文字,其次,在进行身份识别时,并不一定要求鉴别对象在场。因此, 无论是在各国政府之间合作与交流中,还是在银行个人支票的签署和兑换中,笔 迹鉴定这一身份识别技术得到了广泛的应用。 目前的笔迹鉴定有两种方式:人工笔迹鉴定和计算机笔迹鉴定。尽管受过 专门训练的笔迹专家可以通过笔迹对人的身份进行鉴别,但其效率是十分低下 的,因为笔迹专家不可能2 4 小时地进行鉴别工作;并且人工笔迹鉴定容易受到 主观因素的影响,从而影响其准确性。针对人工笔迹鉴定的弊端,科研人员开始 利用计算机自动地进行笔迹鉴定的研究。近几年来,网络技术的普及和发展,使 得笔迹鉴定技术突破了原有的应用范畴,其应用领域更为宽广,比如,计算机登 录,信息网入网,信用卡签字,电子商务等等。因此,笔迹鉴定是种非常有应 用前景的身份识别方式。 1 2 笔迹鉴定的意义 首先,笔迹鉴定作为模式识别中的一个分支,其虽不同于汉字识别,但和 汉字识别是相辅相成的。因为完整的汉字智能系统,应同时具有这两方面的能力 和优势,计算机不仅能从输入的汉字图像中识别出所写的汉字为何汉字,又能从 与样本库中的现有样本的比较的结果中鉴别出书写人,最好还具有自我不断更 新、学习的功能,真正尽可能具有人类的智能作用。只有如此,汉字的智能信息 处理才能达到一个质的飞跃,进而向更深一层的方向发展。因此,笔迹鉴定的发 展,不仅能促进汉字识别的进一步发展,而且对整个汉字智能信息处理系统的发 展有着深刻的意义。 其次,从整个社会的角度来看,笔迹鉴定所能取得的成果是显而易见。随 着经济的发展,国际交往的日益频繁,在金融界和政府界,各种各样的协议书、 合同、法令及支票等都需当事人的签名。因此,假如签名被模仿或伪造,将造成 严重的社会后果和巨大的经济损失,严重的更会破坏整个金融秩序和社会安定。 因此,对于签名笔迹进行可靠、有效、快速的鉴定具有重要的社会价值和实用意 义。同时,作为属于犯罪对策学范畴的学科,笔迹鉴定也是检验与案件有关的笔 迹,确定笔迹与案件事实、当事人或嫌疑人关系的一门刑事科学技术,其鉴定的 结论具有法律效力。因为各当事人或嫌疑人的笔迹肯定有不同之处,但对于各人 的书写风格必然有一个定势作用,这是由长期的书写习惯所决定的,即使刻意地 模仿,肯定也有微小的、令人忽视的不同。若用计算机能从已有的样本库中找到 笔迹的书写人或是大致的范围,这对于产生一系列快速且可靠的鉴定效果肯定是 受益匪浅。因此,对于笔迹鉴定来说,其在犯罪学领域和公共安全领域都具有重 大的应用价值,大力开展签名鉴定的研究是很有必要的。 再者,也是最重要的,是其在工程上的意义。对于手工笔迹鉴定来说,这 是一个非工程的工作方式,而对于计算机笔迹鉴定来说,这是一个工程化的手段。 也就是说,笔迹鉴定的计算机化,把一个非工程的问题纳入了用工程手段来处理 的方法。这种方法、手段的有效性将直接影响到整个研究的可行性和有效性。因 为在其他领域,或许用工程的手段来处理非工程的问题并不十分困难,这是由于 人类本身的劳动效率较慢而决定的,因此当机械化制造出现时,便从手工劳动这 种非工程的手段逐步向机械化这种工程的方式迈进;而对于笔迹鉴定来说,从非 工程到工程的转化并不是简单机械化所能解决,这是因为计算机首先并不具有笔 迹鉴定所必须具有的那种人类的智能,这是由计算机本身的内部机制所决定的, 而且这种用工程的手段来处理非工程的问题是具有特定意义的。因此,用工程的 方法来处理笔迹鉴定这一非工程的领域,就本身而言,对笔迹鉴定的发展有着不 可动摇的推动作用。同时,其对于其他类似的问题具有相当大的启发提示作用, 因为现实中还有许多问题是难以用工程的手段来解决,从这一点来说,笔迹鉴定 2 在科研中的工程地位也是显而易见的。 由此可见,笔迹鉴定作为一人工智能的范畴,其不管是在社会应用上还是 在工程和科研上都具有深远的意义,对其进行研究是十分必要的。 1 3 笔迹鉴定的现状 由于书写者笔迹的获取可以分为脱机和联机两种,因此,笔迹鉴定也可相 应地分为静态和动态两类。就目前的运用范围来看,联机笔迹鉴定的实际意义并 不广,因为在大部分的应用场合中,一般来说并不常有联机鉴定的情况。但毕竟 其有一定的应用场合,且其目前在鉴定中取得了较好地效果,对于类似的文字信 息处理,甚至是模式识别研究有一定的提示启发作用。而脱机鉴定的应用范围更 广,具有更多的研究意义,且有许多问题待解决。因此,笔者对这两大类问题的 现有研究作下述描述,并就一些特征提取的方法作简单的举例、分析、评价。 笔迹鉴定 图1 i 目前笔迹鉴定方法 双重识别法 优点:利用静态、动态特 征,有效率高 缺点:文本依存性 局部弹性匹配法 应用范围窄 伪动态特征法 多通道分解与匹配法 简化w i g n e r 分布法 优点:与联机笔迹 鉴定相比,应用范 围有所拓宽 缺点:文本依存 性,对全部汉字而 言,有效率低,实 用价值小。 就联机鉴定来说,目前一般都采用双重的识别方法。也就是说,对于特征 提取,既提取反映笔迹对象的拓扑结构的静态特征,又提取反映整个签名过程中 笔尖运动的动态特征,从“结果”和“过程”两个方面对签名进行鉴定。一般来 说,伪签名是很难同时模仿真签名的这两大类的特征。也就是说,如果伪造者越 希望模仿真签名形状的每一个细节,则往往动态特征差别较大;倘若伪造者刻意 去追求动态特征的相似,则往往在签名的具体细节上有所差异,造成拓扑结构的 差别。因此,一般都采用静态和动态两大类特征,这样会取得更加多的有效的特 征值,而这往往是脱机鉴定所不具有的,这也是为何联机鉴定比脱机鉴定能取得 更加理想的效果的重要原因。下面笔者就曾经看到过的几种联机鉴定方法作一下 简单的介绍。 其一,笔者简单的称之为“双重识别方法”。“研究中既以笔尖运动的加速 度为动态鉴定特征,又以笔迹的拓扑结构为静态鉴定特征。对于以加速度为动态 特征,该研究认为:签名时每个人笔尖运动都有自己的习惯,因此,笔尖运动的 加速度都有自己的特点,而且不同人之间难以互相模仿,因此该研究提取了笔尖 加速度的切向和法向二个分量。在鉴定前,先采集真签名加速度作为注册样本, 然后提取待识签名的加速度波形,用波形匹配算法求出样本加速度波形和待识签 名加速度波形之间的距离,根据距离的大小判决真假。对于静态特征,该研究认 为:每个人签名笔迹都有自己的特点和相对稳定性。在鉴定中,先把签名看作是 一个平面无向图,然后提取连通片,网孔,一度顶点及多度顶点作为静态特征。 对于效果,该研究认为:虽然笔迹可以被模仿,但由于采用了双重鉴定,其中的 加速度特征几乎是无法模仿的,因此可以取得较高的鉴定率。该研究给出了部分 的实验数据和图,表明了其有较高的鉴定率。对于此,本研究认为,虽然该研究 的方法是一种不错的思路,且取得了成功的实验数据,但该研究存在这样一个局 限:其应用范围太窄,只能对样本库中已有的笔迹进行鉴定简单来说,该方法 是文本依存的,当在样本库中不具有待鉴汉字时,该方法是根本无效的因此说, 本研究只能在签名鉴定范围内是有效的,这种方法并不适用于整个笔迹鉴定研究, 这不是真正意义上的笔迹鉴定 其二,是一种常用的联机鉴定方法。“该研究中当取动态特征时,把签名 表示为一个或几个时间的函数,当抽取静态特征时,把签名看作是一幅二维图像。 该研究抽取的动态特征包括签名的总时间、签名过程中落笔时间和签名总时间之 比、均方值速度、均方值法向加速度和切向加速度、均方值加速度、水平速度的 均值、向心加速度的积分值、x ,y 速度相关,抽取的静态特征主要包括签名轨 4 迹的总长和签名的宽度之比、水平扩展率,水平和垂直集中度、书写方向在0 2 n 之间8 个均匀扇区中的分布、书写方向角的变化在o 一2n 之间4 个均匀扇区中 的分布、签名图像的零阶矩、签名图像的主轴、基于非均匀区域分割的区域笔画 方向向量特征( 其中有些概念参见参考文献3 ) 。该研究利用特征空间的加权海 明距离或欧氏距离来进行相似性度量,从而判定签名的真伪。实验结果中表明该 研究具有百分之九十以上的鉴定率,取得了较满意的结果,初步显示了该研究的 可行性。对该研究笔者认为其存在如下不足:除了和上一研究有同样的缺陷以外, 该研究并没有充分利用不同人在书写笔划上所体现出来的不同微特征,这样一来 就没有使整个研究的鉴定率达到最优。 其三,局部弹性匹配方法。“该研究属于典型的特征函数方法。首先将签 名切分为笔段,以包含特征的笔段为基元,然后根据一些比较简单的静态特征, 采用动态规划的方法寻求输入签名和参考签名基元之间的最优对应关系,根据最 优对应关系,再同时考虑签名的静态和动态两类特征,对输入签名和参考签名的 基元进行局部弹性匹配。具体来说,首先根据起笔和落笔信息将签名分割为笔划 序列,然后以时间先后将其相连生成虚拟笔划,根据曲率信息将签名切分为笔段 序列,并以笔段作为基元,抽取总体静态特征。为了进行弹性匹配,将每一笔都 表示为一定的参数向量序列,然后利用动态规划求取最优对应关系,在这基础上 再采用弹性匹配方法。该实验的结果表明:仿真结果能达到9 2 6 识别率和0 9 秒的识别时间,初步显示了该方法的有效性。本研究认为,该研究具有其特有的 优势,其识别时间较短,但同样也存在不足:除了现有的一般研究中所体现出来 的文本依存的不足之外,该研究由于根据曲率来分割笔段,因此有可能破坏本来 的复合笔划中所能体现出来的微特征,这对于提高整个系统的性能是不利的。 以上仅是笔者所见过的有关研究中较有代表的部分,由此可见,虽然联机 鉴定由于能取得较有实效的动态特征,因此具有较高地识别率,且鉴定时间也较 短,但是,有一个共同的问题就是文本依存。目前联机鉴定的应用范围很窄,一 般只是对本人的签名才有效,上述的方法对于整个笔迹鉴定的研究并不是普遍适 用的,而且并没有充分发挥各人笔划所能反映出来的各人不同的微特征。所以说, 联机笔迹鉴定仍需广大研究人员的不断努力。 对于脱机笔迹鉴定来说,由于失去了很多恰恰是有用的动态信息,因此鉴 定时肯定比联机鉴定困难的多,对于其研究也需投入更多的精力。但就脱机笔迹 鉴定本身的意义来说,其具有更广的应用范围,因为很多的支票签名鉴定,合同 签署签名及犯罪学上的笔迹鉴定都是脱机的。因此,这个问题具有更多的研究价 值。下面,笔者就几类脱机笔迹鉴定作一下具体地探讨。 其一,常用的脱机签名鉴定系统。“该研究除了提取常用的静态特征以外, 还借助于签名图像灰度级的变化,提取了签名图像的部分动态信息,通常被称为 伪动态特征。和其他研究一样,该研究的静态特征包括总体特征和局部特征。总 体特征为:签名的宽高比、签名的有效高度和紧凑宽度之比、签名图像的垂直重 心与有效高度之比、签名图像的最大水平方向与投影与紧凑宽度之比、签名图像 的黑点面积与有效面积之比、签名图像的基线变动与有效高度之比。局部的特征 包括:签名的笔划密度特征、归一化的区域方向向量特征、局部倾斜方向向量特 征。其中采用了基于签名图像质心的非均匀区域划分来提取归一化的区域笔划方 向向量特征。对于其采用的伪动态特征包括签名的灰度级分布和笔划宽度分布的 概率直方图,这些特征在一定程度上反映了签名过程中笔尖压力和书写速度的变 化情况。该研究的实验结果表明了用这两类的特征可以取得较为满意的效果,其 鉴定率可达9 0 。但是,该研究仍然具有文本依存的不足,且其所谓的伪特征提 取方法具有一定的偶然性,当书写人采用不同的笔时,伪动态特征肯定是无用的。 其二,多通道分解与匹配的笔迹鉴定研究。作为文本依存的一种笔迹鉴 定方法,该研究提出了一种二值图像多通道分解方法,利用字符的笔划方向性先 进行方向分解,然后对每个方向的子图像进行频带分解,用分解后的采样信号值 作为笔迹特征,再用特征匹配的方法进行识别。该研究认为:字符的笔划位置、 笔划方向及搭配关系是非常重要的笔迹特征,通过多通道分解,这三个特征都能 被提取出来,相当于采用了一种空间域和空间频域的联合表示。具体的算法采用 方向分解( 方向指数直方图d i h 法) 和d o g 分解相结合的方法,相对于g a b o r 变换和小波变换,具有计算方便的优点。方向分解的过程是:对所有的前景点, 根据其局部笔划方向赋予一个方向值,然后把四个方向的笔划点分别分配到对应 的方向子图像中去,其中对轮廓点和非轮廓点同时进行方向分解。方向分解以后, 对每个子图像进行低通滤波和带通滤波,并通过采样值得到特征值。最后,利用 特征距离的概念来进行鉴定,其中,既要考虑单个频带的作用,又要考虑不同频 带对鉴定的不同贡献。该研究就实验结果和d i h 法作了一下对比,实验结果表明 了该研究的有效性,其识别率高于d i h 法,甚至可以达到1 0 0 。因此,对于多 特征字结合的鉴定,该研究认为已经具有了实用水平。但有一点还是值得一提, 就是该研究提取特征的出发点是提取汉字的位置关系、笔划搭配关系等和汉字结 构有关的特征,这样一来使该研究仍然是基于文本依存的。另外,虽然其应用了 笔划的特征,但特征的提取还是从把整个字符看作一个处理单元出发的,没有充 分利用笔划上反映出来的微特征。 其三,简化w i g n e r 分布在笔迹鉴定中的应用“。该研究认为,能够反映各 人书写风格的一些特征,如笔划方向、部首搭配、字位倾斜、字形及笔划都可以 用字符图像的纹理特性表示出来,纹理是图像中像素灰度分布的规律,具体表现 为纹理基元的形态及其相互关系。不管是以字符、笔划还是像素为基元,广义地 说,字符结构和形状都可以看作是纹理特征。而图像的w i g n e r 分布是一种空间 域空间频域的联合表示,适合纹理分析问题,因为纹理大多具有很强的频谱特 性和方向性,而纹理分割和纹理边界检测等问题又要求特征的表达具有局部性, 而w i g n e r 分布正好是一种图像的局部频谱表示。至于为了计算的方便与快速, 提出了简化的w i g n e r 分布进行纹理分析。它的简化基于以下两个事实:一是字 符图像的频谱主要分布在水平、垂直、左对角和右对角四个方向,二是w i g n e r 分布是信号的冗余表示,简化的w i g n e r 分布是信息保持的。在具体的方法是, 对归一化的6 4 * 6 4 字符图像计算简化的w i g n e r 分布作为笔迹特征进行特征字的 比较。首先对每一点计算水平、垂直、左对角和右对角四个方向上的局部相关, 然后对局部相关函数在空间域进行平滑,平滑的过程把n * n 点的数据投射到 4 4 = 1 6 个空间定位的加权窗口,平滑后的局部相关函数对黑点数归一化,然后 对每个窗口四个方向上的相关函数用f f t 计算功率谱,用于鉴定时只采用低频分 量作为特征。该研究给出了和l b s r ( 线段谱分解法) 的比较结果,实验结果表 明:该研究的正确鉴定率和运算速度都比l b s r 有了较大的提高,该方法比起以 往的笔迹纹理分析方法有了不少的进步。这是由于采用了简化的w i g n e r 分布, 不仅是信息保持的,而且大大减少了计算量和存储量。就笔者的观点分析来看, 虽然该法取得了不少的进步,但仍具有文本依存这一现有方法的通病,即使采用 某些方法来增加样本量,但这不是解决问题的根本措施,因此还需更多的研究。 以上也仅是笔者所见过的有关研究中较有代表的部分,由此可见,虽然脱 机鉴定由于失去了较有实效的动态特征,因此进行鉴定的困难比联机要高得多, 但在广大的研究人员的努力下,已经取得了一定的成绩,且在某些特殊场合已经 具有一定的实用价值。可由于脱机鉴定的本身特点、性质所决定的原因,还是存 在着较多的问题尚未解决,突出表现为:目前脱机鉴定只在特定场合才能具有应 用价值,一般只是对本人的签名才有效,对于整个笔迹鉴定并不是有效的;而且 没有充分发挥笔划微特征的作用。 总而言之,就笔迹鉴定的目前现状来说,不管是联机还是脱机,在现有的方 法中有一些不错的思路和解决办法,因此也取得了某些进步,在特定场合具有一 定程度的识别率,且鉴定时间也较短。但由于不少研究人员对笔迹鉴定的认识存 在着一定的误区,对于笔迹鉴定采用和汉字识别相同的特征,因此总的鉴定率并 不是令人满意的。简单地分析一下就可知:汉字识别的目的是识别出待识汉字为 何字,而不在乎待识汉字的书写人;笔迹鉴定的目的是鉴定出待鉴汉字的书写人, 而不在乎待鉴汉字为何字。因此说,两个研究方向的基本出发点是完全不一样, 或者可以说是完全对立相反的,所以对于笔迹鉴定采用与汉字识别相同的特征是 不可能取得高的鉴定率的。从这一点来说,之前大部分的研究可以说是不成功的。 也正由于这个原因,且由于笔迹鉴定这个高难度研究工作本身所决定的因素,目 前有一个共同的遗留问题就是鉴定都是文本依存的,在存在文本依存性的笔迹鉴 定的研究中,有两个难以克服的困难:其一是单一汉字的数目十分可观,据康熙 字典记载的汉字己达4 7 0 0 0 之多,按中华大字典记载己达4 9 0 0 0 多个,近年台湾 中央语言研究所称,包括异体字与未解明训诂的汉字已达8 0 0 0 0 之钜,即使常用 的汉字也已经有6 0 0 0 多,如此庞大的汉字字库,在存在着结体依存性的笔迹鉴 定的研究中,无疑是个难以克服的巨大困难;其二是该研究方法还有赖于汉字的 e 确识别,所以其真正有效的笔迹鉴定率应该在现有的基础上乘以汉字的识别 率,而所得到的结果实际上是比较小的。因此这些研究的真正的实用价值是十分 有限的。特别是在犯罪侦破中,待鉴的笔迹汉字不大可能在样本库中都有的,有 可能只具有嫌疑人的另外的汉字笔迹,至于联机笔迹鉴定目前来说更是少有可 能。另外,笔划特征的有效性已经是有目共睹的,且在人工笔迹鉴定中已经取得 了实用价值,但目前的研究还是把接个汉字作为一个处理对象的,笔划中的微特 征潜力还有待于进一步发掘。因此,对于笔迹鉴定来说,还有许多研究工作需要 广大研究人员的不断努力。 1 4 本研究的特点以及目标 以上内容对现有笔迹鉴定的研究作了描述、分析及评价。相对于此,笔者 就本研究所采用的方法及其特点作一下援引,并对其实现目标作一下简单介绍。 在人工笔迹鉴定中,主要利用的是结体特征,以及遣词造句等信息来进行 鉴定,一般来说,这些特征的信息量是非常多的,因此,人工笔迹鉴定只可能在 特定对象中进行,还有,由于是依靠人来进行鉴定,因此不可避免的要受到主观 感情因素的影响,导致其有效率降低。而对于计算机笔迹鉴定来说,可以排除主 观感情因素的影响,因此其主要目标就是如何提高有效率。根据对目前的人工笔 迹鉴定和有关资料的调查和分析发现,在笔迹鉴定中,有如下特征能确实反映并 区分各人不同的书写习惯,也就是说,对笔迹鉴定的研究要以以下特征为研究的 方向。这些特征包括:文字布局、字体字形、笔顺、字的搭配、运笔、书写水平、 书面语言、字的写法、标点符号等。以上几个方面是笔迹鉴定中常用的特征,但 对于计算机来说,有些特征就目前的计算机能力来说是无法考虑的,例如标点符 号,书写水平等。因此,在目前的情况下,对于计算机笔迹鉴定来说,主要考虑 文字布局、字体字形、笔顺、字的搭配及运笔特征,而对于脱机笔迹鉴定来说, 笔顺特征实现起来是比较困难的。因此,脱机处理只能利用文字布局、字体字形、 字的搭配及运笔特征,除了运笔特征以外,其它特征在其它研究中或是直接地, 或是间接地已经得到了切实地应用,并且在文本依存的条件下也取得了一定的实 效。而对于运笔特征,虽然在某些研究中曾经也利用过笔划特征,但其都是对某 一汉字的所有笔划作为一个整体来处理的,并不是从单一的笔划出发的来提取不 同基本笔划的运笔特征,而正是这些隐藏在笔划中的特征是真正能够反映各人书 写习惯的,对于笔迹鉴定是十分有效的,这也是其他研究为什么只能作文本依存 笔迹鉴定的重要原因。事实上,如果能从各个基本笔划中取得确实能反映和区分 各人不同书写习惯的有效特征,那么不管样本库中是否具有待鉴汉字,只要其具 有基本笔划就可以进行鉴定了,而这是肯定的,因为每个汉字都是由基本笔划组 成的。这或许正是许多研究人员所忽略的问题。基于以上分析,笔者抛开任何汉 字,直接从基本笔划出发,以基本笔划中的运笔特征及少量的类结体特征为对象, 进行笔迹鉴定的研究。当然,上述的运笔特征是一个广义上的运笔,包括常说的 起笔、运笔和收笔特征,而类结体特征是指不同基本笔划的组合特征。 在本研究中,基本笔划是指“横”、“竖”、“撇”、“捺”。由于不同基本笔划 所能反映各人不同书写习惯的位置不一,因此根据不同的基本笔划,所求取的运 笔特征也是不一样的,但一般来说主要包括起笔特征,运笔特征及收笔特征,具 体对于各个笔划抽取哪些特征,笔者是根据对采样样本的实际分析来决定的,具 体的分析和抽取过程参见本研究的关于特征提取的部分。笔者需要指出的是,虽 然基本笔画的数量远不止这些,但是提取有些基本笔画的笔压特征非常困难,如 提取“点”的特征时,其长度比较短,因此其起笔、行笔、和收笔之间的过渡距 离太短,很难区分开来。 由于本研究的基本出发点是基本笔划,因此本研究如付之实现的话,首先 应对待识汉字进行基本笔划的分解。由于已有类似的研究出现,例如支路组合的 汉字笔划抽取方法”、模式松弛匹配的汉字笔划抽取方法“,故本研究不对这个 问题进行迸一步的研究,直接从基本笔划开始。其次,由于本研究是建立在基本 笔划上的,因此被鉴定的对象不能是连体汉字,即平常所说的草体汉字,除非有 一听十算法能从草体汉字中提取基本笔划( 目前尚没有类似的研究成果) 。虽然这 在本研究中并没有加以实现,但作为一类科学研究,只要能够其对整个研究的发 展具有一定程度的帮助,即使对其的他研究有一个互补的作用,也应充分认识到 该研究的学术价值和实用价值,更何况其在某些场合具有较高的实际意义。 由此可见,本研究从一定的角度来说有助于实现真正意义上的笔迹鉴定, 不仅从笔迹鉴定的基本出发点来提取有效的特征,更是实现了文本独立。因为对 于真正意义上的笔迹鉴定来说,各个对象在样本数据库中不可能具有所有汉字样 本的采样,特别是对于汉字这种数量极其庞大的文字,更是如此。因此要实现真 正意义上的笔迹鉴定,使其能够具有更广泛的实用价值,必须要做到文本独立。 而本研究是以基本笔划作为处理的对象,在鉴定时即使在样本库中不存在待鉴汉 字,但其肯定具有本研究中所采用的基本笔划,这是毫无疑问的。这样一来,对 于笔迹鉴定来说排除了汉字本身的结构影响,基本上做到了文本独立,这是本研 究最大的、有别于现有其它研究的重要特点。 o 另外,从事笔迹鉴定的研究人员应该知道,在整个笔迹鉴定中( 甚至也是 整个模式识别中) ,最重要的是特征提取,而不是提取特征后在特征空间具体分 类的实现方法。因为,从数学的角度来说,模式识别的关键实际上是寻求一个多 对一的映射关系。一般来说,要进行分类的各个类的对象在模式空间中的分布基 本上是重叠、不可分类甚至是杂乱无章的,即使是某一类的所有对象在模式空间 中的分布也是离散的。因此模式识别的工作就是要寻找另一个映射空间,在该空 间中,每个类的不同对象分布于相对集中的位置( 理想化的是在同一个位置,形 成一种多对一的映射关系) ,而不同类在空间中的分布要相对离散,这样一来在 该空间中是很容易将不同的类区分开来。在模式识别中,对于寻找这一映射关系 是通过特征提取来实现的,而映射空间便是特征空间。由此可见,对于模式识别 的问题,关键在于特征提取,能够寻求一种有效的映射关系,在这基础上再采用 简单的分类方法便能取得成效。倘若把模式识别的关键局限于在原有的模式空间 或是映射效果差强人意的特征空间上寻求复杂的分类方法的话,不仅要花费更大 的精力,而且最后的识别效果也是无法保障的。因此,本研究把研究重点放在特 征的提取,首先应以能确实有效的反映各人不同书写习惯的特征为目标对象,对 其进行彻底的分析和调查,在实际中寻求能充分体现各人的书写习惯的特征量, 进而形成有效的特征空间。这是本研究所体现出来的一个显著特点。 当然,和其他有关的研究一样,要进行一定的研究,肯定是有既定的目标 的。本研究着重于运笔特征的研究也是有其目的的,从简单的实际需要来说,除 了验证具体运笔特征和类结体特征对笔迹鉴定的有效性这一根本问题之外,还要 验证本研究中所提出的特征提取方法的总体可行性,希望对提高笔迹鉴定应用范 围,鉴定率及其他各方面的性能有所帮助,也可作为对其他研究的一个补充。在 具体的实现中,争取能够取得较为满意的鉴定率。同时,验证本研究在所提取的 有别于汉字识别的特征的有效性方面和本研究可实现文本独立方面也是必不可 少的。 因为本研究是基于对各方面的资料和事实的调查分析的基础上的,因此对 其进行研究应该具有其特有的科学性和理论依据的,笔划特征的有效性还是有理 论基础的。但对于计算机来说其到底如何,还需以事实来说明和验证,特别是目 前还没有其他研究人员做过类似的、直接从基本笔划来从事笔迹鉴定的研究,所 以更需事实来验证。从这个角度来说,首先要证明笔划特征的有效性。另外,在 这基础上,还需验证本研究中所提出的具体的特征值对笔迹鉴定的可行性,这也 是每个笔迹鉴定研究所必须用实验数据来验证的,这同样是笔迹鉴定研究的关键 所在。因为就本研究而言,笔者所提取的特征是建立在笔者对研究对象进行粗略 的观察的基础上的,这肯定具有一些偶然性和武断性,况且有些特征是通过基本 笔划之间的类比而提取的。因此,特别需事实来验证。 除此之外,也是比较重要的是,验证本研究对于笔迹鉴定整个研究方向是 有贡献的,主要是指在之前所提出的关于对笔迹鉴定要提取和汉字识别不同的特 征的观点及本研究能够实现文本独立的目标。虽然这两方面都是具有理论依据 的,但还需实践来加以验证,特别是该两方面在之前都不具有相类似的研究,因 此不具有可比性。虽然,要完全验证所有的各类汉字的有效性具有某些困难和约 束条件,但作为一类科学研究,只要能够朝着预定的目标前进,不管是前进的步 伐大小,哪怕其对于其他研究只是一个互补的作用,对整个研究的发展肯定是有 所裨益的。因此,本研究作为笔者对笔迹鉴定这一个高难度研究所作的初步的探 讨和研究,是一个不错的研究思路。所以说,证明本研究对整个笔迹鉴定的向前 发展有一定的促进作用也是本研究的一个目标,是本研究和探讨取得初步成果的 标志。 第二章关于本研究方案的思考 2 1 什么是笔迹鉴定 何谓笔迹鉴定,首先我们应明白笔迹鉴定的定义。顾名思义,笔迹鉴定就 是利用笔迹来鉴定书写人的身份;从更深一层的理解来说:笔迹鉴定是通过分析 和比较手写笔迹的书写风格来判断书写人身份的一门科学和技术,是个人身份辩 识的有效方法之一。因此,笔迹鉴定的大致过程是对鉴定笔迹和样本笔迹进行比 较,根据能稳定地反映个人书写习惯的特征来找到书写风格最为相似者判定为鉴 定笔迹的书写人。对于手工笔迹鉴定来说,主要是通过文检专家的目测观察来区 分出不同人的书写笔迹,从而对鉴定笔迹作出正确的鉴定。为了避免引入人的感 情心理因素,使文检人员从茫茫的“字海”中解脱出来,得到更快更可靠的鉴定 模式空间 特征空间特征空间 类空间 ( 1 )( 2 ) 2 1 笔迹鉴定的实现原理图 效果,这就要求文检人员尽可能的采用计算机实现鉴定,由于脱机笔迹鉴定不受 应用场合的限制,所以本研究采用计算机脱机笔迹鉴定。 笔迹鉴定属于模式识别的一个分支,对于如何解决笔迹鉴定这一问题,可用 模式识别的研究方法加以解释。模式识别从数学上来说是寻找一种从模式空间到 类空间多对一的映射关系:笔迹鉴定也遵循这一规则,是寻找一种从模式空间到 书写者空间多对一的映射关系,如图2 1 所示,在模式空间中各个类的模式所处 的位置存在很大的随机性,不能很好聚类。因此,须抽出对分类有效的特征张成 特征空间。使各模式在特征空间中重新排列,更好地聚类。从模式空间到特征空 间( 1 ) 的映射、从特征空间( 1 ) 到特征空间( 2 ) 的映射就是特征提取的过程, 该过程应不改变模式的总数,只改变在空间的重新排列。由图可知,特征空间( 2 ) 中各类模式相应的位置分布已经彻底的分开,完全实现了分类。最后通过特征空 间( 2 ) 到类空间的映射就能实现笔迹鉴定了。 从上面的分析可以看出,特征空间的选择对于笔迹鉴定有着重要影响,它决 定着整个笔迹鉴定的成效,因此,选择特征空间必须要有两个明确的目标:是 能够降低特征空间的维数;二是能够有效的聚类。 2 2 如何选择特征空间 为了选择有效的特征空间,本研究分析了手写汉字的特点“”。 水 图2 2 手写汉字样本 图23 骨骼特征1 圈24 臂骨吾特征2 图2 2 为手写汉字“永”,其骨骼特征1 ( 图2 3 ) 能基本上反映整个汉字 的结体特征,但没有反映出该书写者的个人特点,因此骨骼特征1 只能用于识别 该手写汉字;在骨骼特征2 ( 图2 4 ) 中就考虑了手写汉字的一些修饰特征,如 起笔和收笔的特征,笔画转折部分的变化等等,而这些特征是因人而异,能够反 映出该书写者的个人特点,这些能够反映书写者个人习惯的特征正是笔迹鉴定所 需要的。 i j 笔划码 笔画特征 骨骼函数 笔压函数 结体特征 修饰特征_ 笔画起点终点坐标 笔画行进主方向 起点到终点的距离 笔压系数 相对曲度 从以上的分析可以看出,要生成能反映个人书写特点的“永”在,在结体 特征上,要加上特征码,其中包含两个函数:骨骼函数和笔压函数。这两个函数 可以表示在行笔过程中的书写规律,而在行笔过程中实际书写的程度,则由相对 曲度和笔压系数来表示,增加了这些信息之后,就可以生成能反映个人书写特点 的手写汉字。 因此,对于汉字识别而言,笔画特征中的结体特征比较重要;对于笔迹鉴 定来说,就要研究笔画特征中的修饰特征,如相对曲度和笔压系数等等。在文献 1 中,研究了蕴含在骨骼特征中的相对曲度的变化,而本研究就从笔压变化特征 入手,希望能找出其中稳定的个人信息。需要指出的是,在脱机的笔迹鉴定的研 究中,不可能实时地获取手写汉字的笔压变化,但是,笔压变化与笔画宽度的变 化成单调关系,而笔画的宽度可以从笔画上下两侧轮廓之间的距离反映出来。所 以,本研究就从手写汉字的基本笔画的笔压变化出发,提取笔压变化的特征,形 成特征空间,从而进行手写汉字笔迹鉴定的研究还有。 最后,需要指出的是,虽然汉字数量庞大,但其基本笔画的数量是有限的, 而基本笔画是组成汉字的基本单位,这样,从手写汉字的基本笔画中提取特征对 于全体汉字而言都是有效的,因此,本研究就彻底的摆脱了以往研究中所依存的 文本过多的缺点,因而有更大的实用价值。 第三章手写汉字基本笔划笔压特征的抽取 本研究的流程如图所示 研究流程简介 圈3 1 研究流程图 3 1 观测和预处理 对于签名的输入,若是脱机的笔迹的鉴定,一般说来都采用扫描仪将笔迹 输入计算机并加以进步的处理;若是联机笔迹鉴定,一般都采用类似的交互式 手写输入设备。由于其能实时地显示笔迹移动地轨迹,能满足大多数人的视觉反 馈的要求,符合人们的书写习惯,有利于获取高质量的签名样本和提取高质量的 动态特征。 预处理的过程可能随不同的研究系统有一些不一样,因为不仅不同的书写 背景会对笔迹有比较大的影响,而且就不同的鉴定方法本身对签名的要求就不一 样。对于笔迹鉴定的预处理,一般来说主要包括几个方面:图像平滑,位置正规 化,尺寸正规化,重心和中心正规化,倾斜校正,细线化等。然而并不是所有的 研究都需要这些预处理,例如:对于某一研究来说,其只提取一些和尺寸、倾斜 度、位置无关的特征,因此在预处理时并不需要进行尺寸正规化等处理,直接进 行其他相关必要的预处理,然后进行进一步的研究。因此,在进行笔迹鉴定的研 究时,一定要根据将提取的特征来进行相对有效的、必要的预处理。 3 2 轮廓抽取 本研究的对象是不同手写汉字中相同的基本笔画笔压变化,由于笔压变化与笔画 粗细的变化成单调的关系,而笔画粗细可以从双侧轮廓之间的距离反映出来,因 此,笔者抽取特定方向的双侧轮廓,通过双侧轮廓之间的距离来表示书写过程中 笔压的变化。由于在书写过程中,笔划会出现交叉,这时的轮廓会被截断,而笔 者所研究的笔划必须是连续的,考虑到所截断的部分占整个笔划长度的比例比较 小,加上笔划宽度变化的相关性,因此,笔者用线段将两个断点直接连接起来, 当然,这只是在一定程度上的近似。 需要指出的是,在提取轮廓时,笔者采用的方法是分别抽取上下两侧的轮廓, 而不是直接提取双侧轮廓,之所以不直接提取双侧轮廓,是因为在短线连接时, 容易出现错误的连接。 、i l t _ - i f = 墨 图3 2 错误的连接 而单侧轮廓在短线连接时,就不会受到这种干扰。 3 3 提取特征量 在这里需要说明的是,本研究是针对基本笔画的行笔部分的研究,在抽 线的形态: 1 起点宽度与终点宽度的比值:t = x 。x 。 2 起点宽度与最小宽度的比值:t 2 = x 。x 。 3 起点宽度与最大宽度的比值:t 。= x 。x 。 4 最小宽度所在的点相对于整个笔画行笔长度的位置:t f d 。d 。 5 最大宽度所在的点相对于整个笔画彳亍笔长度的位置:t s = d 。d 。 “竖”、“撇”、“捺”的特征抽取与之类似,笔者将在后面的实验中作详细 的说明。 3 4 有效性的测试 3 4 1 特征值的p j 一化处理 在进行正式的实现算法之前,有必要作一下归一化的处理工作,这相当于一 般模式识别中的量纲问题。就本研究来说,因为在特征的提取过程当中,所提取 的特征是互不相关的,且提取的基本笔画及其部位也是各不相同的,因此造成了 所提取的特征值在绝对数值上具有一定的差异,有的特征的值很小,其最大值也 就只有0 6 ,而有的特征值又比较大,其最小的值也大于1 5 ,虽然大部分特征 的值处于两者之间。所以,可以试想一下,假如直接用该些特征值进行实验,在 求特征空间的距离时,不管是欧氏距离还是其他形式的距离,肯定会削弱比较小 的特征值的作用,因为大值特征的相对微小的变化完全有可能掩盖小值特征的相 对较大的变化。换种角度来说,在求特征空间的距离时若有大值特征在其中,那 么对于小值特征来说,其几乎是可有可无的。举例来说,若有书写对象的两个特 征,一个特征值较大,另一特征值较小,当两个书写对象的大值特征相差无几, 而两个小值特征相差悬殊,事实上可以通过两个小值特征来区分两个书写对象, 但由于受特征空间中大值特征的影响,所计算出来的特征空间的距离值几乎是相 差无几,不大可能作出准确的区分。这一点对于提高鉴定率是是相当不利的,因 为实际上也有可能小值的特征更能区分不同的书写对象。所以为了公平处理各类 特征,使各个特征都能发挥其应有的作用,必须对所有特征值进行归化处理。 所谓的归一化处理是指把某一特征的所有的值都映射到0 1 这个值域中去 ( 包括所有对象的所有采样样本) ,其具体的实现算法是:对于某一特征的所有 的值求出其中的最大值m a x 和最小值m i n ,然后算出两者之间的距离 d i s t a n c e - m a x _ m i n ,在这基础上可以方便地折算出原特征值映射到o 一1 这个值 域中相对应的值v a l u e = ( v a l u e m i n ) d i s t a n c e ,式中v a l u e 是指原来的值, v a l u e 是指映射后的值,由式中可以方便的看到,原来最小的值对应于映射值中 的0 ,原来最大的值对应与映射值中的l ,其余的值按照原来的分布规律分布在 0 一l 这个值域中,这样便完成了该特征的归一化的处理。该算法的可行之处在 于其算法简单,且保留了特征原来的分布规律,只不过是值域进行了简单的平移 和线性的缩放,在所有的特征都进行了该项处理工作后,虽然影响了特征空间距 离的绝对值,但各个特征空间距离之间的关系并不改变,对区分不同书写对象的 能力没有丝毫的影响。基于这样的原因,本研究对所有的特征都进行了归一化处 理,以便于在不影响特征有效性的基础上充分利用目前所有的二次特征,不管是 小值特征还是大值特征。 3 4 2 广义距离法 提取的汉字笔画特征应运用数学方法测试其有效性,采用该方法实际上是对 所有的特征作一下总体的测试与评价,该方法的总体思路与算法如下所示( 样本 平均法) : 设书写者i 第k 个样本特征j 的值为t 。 其中:i = l ,2 ,3 ,n : j = l ,2 ,3 ,n : k = i ,2 ,3 ,n : 现选取书写者m 的第k o 个样本的特征值作为鉴定对象的特征组: ( l 【mt h ,2 k 0 ,t n ) : 其中:m 为该书写者序号,k 0 为( 卜r 1 ) 中任意值: 然后根据样本平均法求取各个书写者的标准参考样本,根据定义,书写者i 的特 征j 在特征空间中的标准参考值为: ( 3 1 ) 其中:i = l ,2 ,3 ,n : j = l ,2 ,3 ,n : 由此可得书写者i 在特征空间中的标准参考特征组为: ( t a 。,i a 。t a 。o t : 在这基础上,求取鉴定对象特征组和所有书写者各自标准参考特征组的距离 d ,=雁p 也。2 其中:i = 1 ,2 ,3 ,n : 由于本研究假如该待鉴特征组所属的书写对象在这十个对象之间,因此通过 比较十个距离值的大小就可以判定该待鉴特征组出自于哪个书写对象,判定的依 据是:和待鉴特征组距离最小的那一组平均值所属的书写对象即为待鉴特征组所 属的书写对象,而并不需要另外求取在模式识别判断中常用的阈值。需说明的是, 对于一般的模式识别问题,由于并不确定待识对象的所属范围,因此必须用一个 闽值的概念,当特征空间的距离小于该闽值且是最小距离值的时候,就可以判定 待识对象的所属范围;然而当所有的距离都大于该阈值时,可以认为该待识对象 并不在数据库中所有对象的范围之内。在本研究的计算中,特征量都进行了归 一化处理,对于各个对象的距离计算有了一个统一的处理范围,且在采用上述判 定方法的时候,本身也就是通过比较距离这个数字量来实现的,这个数字量的大 小确实和该待鉴对象与各个书写对象的相关程度呈正比。 擎 一一m毒埘 = 扣一。 = h甲t t时m 第四章具体实验 本研究的输入样本是十位书写者所书写的共计6 2 0 个手写汉字,如下图所示: :、 i 张;吉日日昌 学星 强;管毅 , 粜锨山奎椽万龙萑袼 钇 伟王 ;进:陷迥, 当 超建 一 中 孝 晚刚。许吉由 丘督治 磋鲁 爽。毒 j 履酬 丁 爱 民 昊 盎、坚王威 彪 自 考 力 雄、粜 凌 王 屁 一 王 文 ;吉下击立吉! 埔;顾 爱 豸牟 够腴;薪。侪甓雾 , j 历 誓绚 铅 壬南 琳李 日厂r 图4 1某个书写者的样本 4 1 观测输入和预处理 在样本采样完成之后,接下来要把样本作为一幅图像输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论