已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 i 摘摘 要要 签名作为身份鉴定的一种手段被用于很多领域,如银行票据、各种协议、各国 之间文件等。如果签名被模仿或伪造,会造成严重的社会后果或巨大的经济损失, 甚至破坏整个金融秩序或社会治安,因此展开对离线中文签名鉴别技术的研究具有 十分重要的理论意义和实用价值。 结合汉字字符特有的结构特征和比较现有的细化算法的优劣,设计了一个基于 汉字笔画结构特征的签名图像细化算法。说明了算法的基本设计思想,描述了算法 的工作流程,给出了基于该算法的实验结果,并与基于 zhang 细化算法的细化结果 进行了比较。此外,通过借鉴笔画提取方面已有的研究成果,同时结合签名鉴别本 身的特点,探索性地提出了一种具有较高鲁棒性和较低时空开销的签名分段方法。 该方法对每个分段提取位置、轨迹和笔画浓度三组特征,有效地克服了网格化分段 和特征提取方法的不足。与此同时,围绕同一组签名的鉴别,给出了一个计算签名 相似度的方法。 基于一个改进的 dhmm(discrete hidden markov model)模型,借助仿真实验, 展示了所研究的离线手写中文签名鉴别方法的鉴别效果。实验结果表明,所给出的 细化算法更好地保留了签名的笔画结构信息,减少了笔画相交处的畸变和毛刺,提 高了鉴别的准确率,无论对于随机伪签名还是简单模仿伪签名的鉴别率和错误率均 可达到达到可接受的范围内。 关键词:关键词:离线签名鉴别,签名细化,签名分段,特征提取,隐马尔科夫模型 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 ii abstract as a means of identity verification, signature is used in many fields,for example bank notes, all kinds of documents and various agreement between countries. signature imitation will cause serious social consequences or huge economic losses. therefore the research of off-line chinese signature verification technology has important theoretical significance and practical value. combined with chinese characters unique structural features and comparison of the existing algorithms, the thesis gives a signature thinning algorithm based on the chinese stroke structure characteristics. first it explains the basic design ideas of the algorithm, then it gives the results of the algorithm, and compare with the results of zhang thinning algorithm. in addition, through reference stroke extraction in the existing research results, and combining the characteristics of signature verification, the thesis proposes an effective signature segmentation method with higher robustness and low time and space overhead, which extracts each signature segmentations location track and strokes gray value and effectively overcomes the shorts of grid segmentation and features extraction method. meanwhile, it gives an identification method of similarity calculation for the same signature. based on an improved dhmm, the thesis shows the research verification results by a simulation experiment. experimental results show that the algorithm retained the signature of the structure of information, reduced the strokes of the distortion and strokes intersect, improved the accuracy of the identification. the verification results can accept for the random pseudo signatures and simple imitation pseudo signatures. key words: off-line signature verification, signature thinning algorithm, features extraction, hidden markov model 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集 体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中 以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。 本 人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保 密 ,在_年解密后适用本授权书。 不保密 。 (请在以上方框内打“”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 本论文属于 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 1 1 绪言绪言 1.1 课题研究的背景课题研究的背景 随着计算机技术、信息技术、数字化技术的不断发展,信息安全技术得到了长 足的发展。人们的生活越来越数字化,信息安全在人们的学习、工作、生活中所占 的比重越来越大。目前信息安全领域个人身份识别与认证的方法一般是密码、口令 以及访问卡,但这些方法并不是很可靠,因为它们很容易被忘记或丢失,而且对于 没有授权的用户在一个相同的环境中也使用这些方法则没有进一步的限制。在这种 情况下,生物特征认证技术应运而生。所谓生物特征认证技术就是利用人的生理特 征或行为特征对个人身份进行识别或鉴定的技术。相较于传统的身份鉴定方法生物 特征认证的特点主要体现在1-3: (1)不会遗忘或丢失; (2)不易伪造和盗用; (3) 随身携带,随时随地可用; (4)天然绑定性,具有一定程度的不可否认性。其实生 物特征认证并不是一个全新的概念,在某些领域,通过人类专家对人的生物特征进 行鉴别来判定人的身份已经有相当长的历史。自动生物特征认证技术是指通过计算 机对获取的数据进行特征提取并和事先保存的模板进行匹配运算来完成对身份进行 认证的过程2。 一般来说如果一个特征满足下面几个条件: (1)普遍性; (2)唯一性; (3)稳 定性; (4)可采集性,就可以作为生物特征用于身份认证。尽管生物认证技术只有 短短几十年的发展,但是其已经在刑事、民事等法律领域和军用系统中得到较为广 泛的应用。最近几年,民用系统中也可以见到生物认证技术的应用,如:门禁系统、 员工考勤系统、银行和金融系统等。 目前正在研究使用的生物特征主要包括:指纹4、脸相5、手型6、掌纹7、虹 膜8、声音9、签名10-11和击键习惯12等。这些技术各有优劣,表 1.1 是它们之间的 部分性能参数的对比4。除目前已展开广泛的研究,而且部分已经得到大规模应用的 技术外,此外还有其它的一些正在发展中的生物认证技术,如利用静脉图像、身体 气味13、汗毛孔等进行生物认证。随着深入研究解决困扰生物认证技术的难题,部 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 2 分生物认证技术将更加主流化,今天发展中的生物认证技术必将成为明天的主流选 择14。 表 1.1 性能参数对比 生物特性 普遍性 独特性 稳定性 可采集性 性能 可接受性 防欺骗性 脸相 高 低 中 高 低 高 低 指纹 中 高 高 中 高 中 高 手形 中 中 中 高 中 中 中 虹膜 高 高 高 中 高 低 高 视网膜 高 高 中 低 高 低 高 签名 低 低 低 高 低 高 低 声音 中 低 低 中 低 高 低 随着社会经济的发展和国际交往的日益频繁,在法律界、金融界和政府界,各 种各样的法令、支票、合同、和协议书等都需要当事人的签名。因此,如果签名被 模仿或伪造,就极有可能会造成严重的社会后果或巨大的经济损失,甚至破坏整个 社会的金融秩序或社会的治安团结。签名鉴别技术与其他生物测定技术相比,具有 足够的动态信息、难模仿、区分性较高、尊重隐私权和信息获取高效性等优势,在 签名特征的可搜集性、人体伤害可接受程度和鲁棒性方面都是非常突出的,有广阔 的应用前景和应用价值。因此,对签名进行有效、可靠、快速的鉴定具有重要的社 会价值和实用意义。 1.2 签名签名鉴别鉴别的发展现状的发展现状 签名作为人的一种行为特征,与其它生物特征相比,具有稳定、可采集、获取 的非侵犯、易为人所接受等特点。然而书写签名是一个动态的过程,它受书写者健 康状况和情绪波动等的影响非常大;有些书写者的书写笔迹变化很大,即使同一书 写者在同一时间的书写笔迹也存在很大的差别;而且如果经过专门的模仿训练,伪 造的签名笔迹也可以达到以假乱真的程度。尽管人类笔迹专家可以鉴别出笔迹的真 伪,但是用计算机来描述笔迹的特征、自动鉴别笔迹还是个非常困难的问题。 根据签名鉴别的应用领域,在不同的领域有不同的鉴别方法15。在司法和刑侦 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 3 部门,主要是通过人类笔迹学专家来鉴定笔迹的真伪。其目的就是要通过研究笔迹 中反映的书写动作、习惯特征、文字布局和书面的语言特征,用以分析笔迹的真伪 情况,为诉讼提供线索和证据。然而在需要大批量鉴别而且要求不是那么严格的情 况下,如考试系统中检测考生在考试中是否存在替考等,就需要用计算机来辅助鉴 别,筛选出一部分可疑的考生,然后再由专门的审核人员来判定,这样可以减少工 作量提高效率。 根据签名获取的时间不同,签名鉴别通常分为离线(off-line)签名鉴别和在线 (on-line)签名鉴别两类16。 离线签名鉴别的原始对象一般是指书写者在普通纸张上书写的签名,通过照相 机、扫描仪等光学成像设备把写有签名的纸张转化为计算机能处理的数字图像,再 采用一定的方法对数字图像中的签名区域(称为签名图像)进行处理和鉴别。离线 签名鉴别的处理对象是签名图像。 离线签名鉴别按是否需要签名模板可分为基于签名模板的鉴别和与签名模板无 关的鉴别。 基于签名模板库的离线签名鉴别系统的鉴别流程,如图 1.1 所示。 模板库 特征提取特征匹配判定真伪 生成id 成像设备 签名图像 签名模板 库 图 1.1 基于签名模板的离线签名鉴别系统 作为模式识别的一种典型应用,基于签名模板的离线签名鉴别系统一般包含四 个模块:签名图像预处理模块、特征提取和选择模块、匹配模块和签名模板库模块。 在签名鉴别系统中,签名图像预处理模块主要包括:签名定位、签名截取、噪声消 除、平滑、细化和签名分段等;特征提取和选择模块主要是指选择合适的特征描述 签名并将签名图像转化为一组特征矢量;匹配模块主要是将需要鉴别的签名的特征 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 4 矢量与模板库中相应的真实签名的特征矢量进行比较,并产生相似度值,然后与事 先给定的阈值比较来确定该签名是否是伪造的;签名模板库的产生通常由用户注册 签名完成,主要用来保存用户的真实签名样本或签名的特征矢量。 与签名模板库无关的签名鉴别是指利用计算机和模式识别技术对同一个人在不 同时期书写的多个签名图像的处理过程。 为了更好地对伪签名进行鉴别,通常将伪签名分为三类: (1)随机伪签名:是指伪造者随机写下的签名; (2)简单模仿伪签名:是指伪造者想要模仿真实签名,但是模仿得不够逼真; (3)熟练模仿伪签名:是指伪造者经过对真实签名较长时间的精心模仿练习, 以至于所写的伪签名非常接近真实签名。 通常情况下,随机伪签名最易鉴别,简单模仿伪签名稍难,熟练模仿伪签名最 难鉴别。 在线签名鉴别指通过专用的数字手写板等,实时地采集书写者所书写的签名图 像信号。它不仅可以采集到签名笔迹序列,并把采集到的笔迹序列转化成图像,而 且可以记录书写过程产生的压力、速度等信息,可为签名鉴别提供更加完备的鉴别 信息。目前在线签名系统的交叉错误率已降到 1%17以下,国内外已经有实用的产品 面世。目前在个人数字助理 pda 等上,在线签名鉴别已经获得比较成功的应用。由 于在线签名鉴别能实时地读取用户在手写板上的录入轨迹、录入速度、压力等相关 数据,故在线身份鉴别在身份鉴别领域以其高安全性和应用灵活而被广泛使用。 离线签名鉴别的精确度虽然没有在线签名鉴别的精确度高,但其对于设备环境 的要求比在线方式低很多,且成本较低。离线签名鉴别在很多应用领域如:支票签 名鉴别、合同文书签名鉴别、司法刑侦方面的签名鉴别等有较大的实用价值。如果 能提高离线签名鉴别的正确率,离线签名鉴别将会有更大的应用范围。 1.3 课题研究的意义、内容及目标课题研究的意义、内容及目标 1.3.1 意义意义 离线手写中文签名作为一种身份鉴别方式,经过多年研究,已经取得不少研究 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 5 成果,并被应用到诸多领域,如银行票据签名鉴定、合同文书签名鉴定、司法刑侦 部门的签名鉴别等。如果签名被模仿或伪造,会造成严重的社会后果或巨大的经济 损失,甚至破坏整个金融秩序或社会治安,因此展开对离线中文签名鉴别技术的研 究具有十分重要的理论意义和实用价值。 1.3.2 内容内容 (1)分析几种常见的并行细化算法的性能,结合汉字字符特有的结构特征,设 计一种基于汉字笔画结构特征的签名细化算法。 (2)对签名分段和签名特征提取展开研究。 (3)结合隐马尔科夫模型在离线手写中文签名鉴别中的应用展开研究。 1.3.3 目标目标 (1)采用基于汉字笔画结构特征的细化算法,保留签名的笔画结构信息,提高 签名鉴别准确度。 (2)使用基于隐马尔科夫模型的离线手写中文签名鉴别方法,无论对于随机伪 签名还是简单模仿伪签名的鉴别率和错误率均达到可接受的范围内。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 6 2 相关理论基础相关理论基础 本章简单介绍离线手写中文签名鉴别技术的研究中应用到的一些相关技术。首 先介绍签名图像预处理技术;其次介绍几种常用的特征提取方法和矢量量化技术; 最后介绍基于隐马尔科夫模型的匹配技术。 2.1 图像预处理技术图像预处理技术 2.1.1 图像二值化、去噪和平滑图像二值化、去噪和平滑 二值化就是通过设阈值,把它变为仅用两个灰度级分别表示图像的前景和背景 颜色的二值图像18。图像二值化的方法通常有:整体阈值二值化、局部阈值二值化、 动态阈值二值化。 图像扫描或成像过程中通常可能带入噪声,使用空间域滤波、频率域滤波技术 或者开闭操作予以消除。本文中所提到的噪声不是随机噪声,而主要是指签名图像 上签名下方的横线,为了更好的标注签名位置为存在的,对于这种噪声的消除可以 用 lut19算法。 平滑就是将一个 nn的像素窗口,依次在二值图像的每个像素点上移动,利用 逻辑表达式来消除孤立像素的一种技术。 2.1.2 图像图像归一化和归一化和边缘边缘提取提取 归一化就是把签名图像尺寸变成统一大小,汉字位置(旋转、平移)纠正,汉 字笔画粗细变换等规格化处理20-21,本文中提到的归一化,是指调整签名到一个确 定的大小。当签名小于这一确定大小时通过插值处理放大原始签名,而当签名大于 这一确定值时,需要消除部分前景像素。 边缘提取就是提取图像的边缘。边缘特征是模式识别技术中重要的图像特征之 一,对图像识别与计算分析都很有用,边缘能勾勒出目标物体,蕴含了如方向、阶 跃性质和形状等信息,使观察者一目了然。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 7 2.1.3 图像细化图像细化 细化又称为骨架化,是模式识别中的常用技术,在图像处理中占有重要地位。 2.1.3.1 常见细化算法 根据迭代方式的不同,细化算法总体上分为串行细化算法和并行细化算法。在 串行细化算法中,每次迭代的结果不仅取决于前一次的迭代结果,而且与当前处理 情况有关;而在并行细化算法中,当前迭代结果仅由上次的迭代结果决定22。 常用的并行算法有 hall 细化算法23、 zhang和 suen细化算法24以及 opta 细化 算法25等,串行细化算法有 hilditch,pavlidis 等。一般图像细化算法要满足以下几 个条件26。 (1)保证细化后曲线的连通性,细化结果是原曲线的中心线; (2)保留原图的细节特性,保留曲线的端点; (3)交叉部分中心线不产生畸变; (4)细化处理的速度快。 2.1.3.2 算法比较 上面提到的并行、串行细化算法均各有所长,但是相对于串行细化算,并行细 化算法的处理速度比较快,这里我们主要比较几种常用的并行细化算法。其中 hall 细化算法是采用逻辑算术运算来进行删除判断,其优点是无论对直线、斜线或交叉 线都能得到较平滑的单像素宽的骨架线,尤其是对斜线的细化效果更好,但在拐角 及 t 型交叉处变形较大,有时直线两端也被缩短,且所需迭代次数较多;zhang 和 suen细化算法和 hall 细化算法一样也是采用逻辑算术运算来进行删除判断,其最大 优点是对直线、拐点及 t 型交叉点能比较精确地保持和原图像一致,且迭代次数少, 执行速度快;缺点是斜线交叉变形大,甚至将斜线收缩为一点,在某些情况下,细 化结果不是单像素宽;opta 细化效果与 hall 算法相近,但由于两个附加模板的影 响,其对斜线有时会产生双像素宽的细化结果,所需的迭代次数介于 hall 算法和 zhang和 suen算法之间26。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 8 2.2 特征提取技术特征提取技术 特征提取是指在原始数据集的基础上,通过变换或组合创建新的特征。用于离 线签名鉴别的特征一般可以分为以下几类27:几何特征、矩特征、基于投影的特征、 基于变换的特征、纹理特征等。 几何特征28是最早得到应用的特征,它相对较直观,主要是从签名图像的几何 外观入手提取特征。 矩特征29是基于不变矩的特征, 在模式识别领域得到较多应用的是 zernike 不变 矩。 基于投影的特征30一般有水平投影尖峰数、各尖峰位置和大小,垂直投影尖峰 数、各尖峰位置和大小。 基于变换的特征31通常是对图像本身或者是对从图像的某种处理(如投影)之 后得到的一维信号进行二维的变换。常用的变换32有傅里叶变换、哈达玛变换和小 波变换。 纹理被认为是按一定规律分布原始模式的重复,提供了对图像线性、方向性和 周期属性的度量, 常被用于图像描述和对象识别33。 常用图像纹理特征提取的方法34 有基于结构化的方法、基于统计学的方法和基于空间(或频率)域分析的方法。 2.3 矢量量化技术矢量量化技术 量化是模式识别问题中很重要的一个步骤,因为原始的输入信号不一定能适合 用通用的方法来处理,需要先量化,再进行相应的变换处理。矢量量化(vq)是一 种高效的数据压缩技术,优于标量量化35-36。 矢量量化过程在极大压缩数据量、减少运算量的同时也造成了有用信息的损失。 针对这种情况,一个有效的解决办法是增加码本的大小,然而这样又会带来两个新 的问题:一是计算量会显著增大,而得不偿失;二是会极大的增加训练数据的需求 量。 一般训练数据至少是码本大小的 3-5 倍, 一个太大的码本所需训练数据在实际应 用中很难满足37。针对这个问题,本文采用将特征矢量分组量化的方法,较好的克 服了这种情况。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 9 在矢量量化过程中,有两个关键方面影响到量化的质量38:一是码本的优良与 否;二是表征该矢量的码矢量和码字的确定是在给定码本之后进行的。码本产生的 最好办法是为每个书写者生成其专用的码本,但由于用来训练产生码本的矢量应该 是码本大小的 5 倍以上这个条件39,这就要对每个书写者都提供足够多的样本来训 练。为了减少对训练样本的需求,要为所有的书写者选择一个样本来训练。 2.4 基于隐马尔科夫模型的匹配技术基于隐马尔科夫模型的匹配技术 由于完善的数学理论的支撑和在自动语音识别系统中的成功应用40,隐马尔科 夫模型(hmm)近十几年来受到了广泛关注,并且在手写字符识别、人脸识别、手 写签名鉴别中等系统中得到应用。 2.4.1.1 隐马尔科夫模型 一个 hmm 通常由以下参数描述: n:模型中马尔科夫链的状态数。记 n 个状态为 n . 21 ,记 t 时刻马尔科 夫链所处的状态为 t q,显然 t q. 21n ,。 m:每个状态对应的可能的观察值的数目。记 m 个观察值为 m ., 21 ,记 t 时 刻观察到的观察值为 t q,则., 21mt q。 a:状态转移概率矩阵。 n )( nij aa,其中,njiqqpa itjtij ,1),|( 1 b:观察值概率矩阵。 mnjk bb )(,其中,mknjqopb jtktjk 1 ,1),|( :初始状态概率矢量。 n , . . , 21 ,其中,niqp ii 1),( 1 这样一个 hmm 可以记为:),(bamn或简写为:),(ba。hmm 可以分为两个部分41:一个是马尔科夫链描述,由 ,a 描述,产生的输出为状态 序列;一个是随机过程,由 b 描述,产生的输出为观察值序列,如图 2.1 所示。其 中,t 为观察时间长度。 hmm 按观察值的连续或离散可分为三类:连续 hmm(chmm)、离散 hmm (dhmm)和半连续 hmm(schmm)。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 10 markovmarkov链链 (,a a) 随机过程随机过程 (b) 状态序列状态序列 观察值序列观察值序列 r qqq, .,., 21t ooo, . . . , 21 图 2.1 hmm 构成示意图 2.4.1.2 基本问题及解决方法 hmm 模型应用于模式识别要解决三个问题42-43:识别问题、解码问题和学习问 题。 (1)识别问题:给定观测序列 t oooo. 21 和模型),(ba,考虑怎样有效 的计算)|(op,即求给定模型的观测序列的概率,可以采用前-后向算法来解决。 1)前向算法 前向算法的前向变量定义为式(2.1),初始化前向为式(2.2),迭代公式如式 (2.3),结果为式(2.4)。 ttqooopia jttt 1),|,. . .,()( 21 式 (2.1) niobia i 1),()( 11 式(2.2) )()()( 11 tiij j tt obajaia,11 ,1ttni 式 (2.3) )()|( 1 iaop n i t 式 (2.4) 2)后向算法 后向算法的后向变量定义为式(2.8),初始化后向为式(2.9),迭代公式为式 (2.10),结果为式(2.11)。 11),|. . .,()( 21 ttsqooopi ittttt 式(2.8) nii t 1, 1)( 式(2.9) 1 . . . , 2, 1,1),()()( 11 tttnijobai j ttjijt 式 (2.10) )()|( 1 1 iop n i 式(2.11) (2)解码问题:相应的识别方法有传统的 viterbi 解码算法,这种方法是一种识 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 11 别率很高的方法,而且是针对 dhmm 设计的。 viterbi算法的初始化为式 (2.12) , 归纳为式 (2.13) 和 (2.14) , 结果为式 (2.15) , 状态序列(即最佳状态链的确定)为式(2.16)。 niiobi ii 1, 0)(),()( 111 式 (2.12) ,1 ,2),()()( 1 1 max njttobaij tjijt ni t 式 (2.13) njttaij ijt ni t 1 ,2,)()( 1 1 maxarg 式(2.14) ),( max 1 * ip t ni )( maxarg 1 * iq t ni t 式(2.15) 11),( * 11 * ttqq ttt 式(2.16) (3)学习问题:目的是通过对样本集的统计计算来调整模型参数),(ba, 使得对每一个模式找到一组最适合样本集的参数,使得)|(op最大。调整模型参数 的过程就是参数估计的过程或者说是参数训练的过程。 n i n i ttjijt ttjobaiop 11 11 11),()()()|( 式(2.17) 采用 baum-welch 算法进行多观测量参数重估,定义),(ji t 为给定序列 o 和模 型 时,时刻 t 时 markov链处于 i 状态和时刻 t+1 处于 j 状态的概率,即: )|,(),( 1 jtitt qqopji 式(2.18) 可以推导出: )|( )()()( ),( 11 op jobi ji ttjt t 式(2.19) )|( )()( ),()|,()( 1 op ji jiqopi tt n j tttt 式(2.20) 则有: )( 1 i i 式(2.21) 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 12 1 1 1 1 )( ),( t t t t t t ij i ji a 式(2.22) t t t t t t jk j j b t 1 o,1 )( )( k 式 (2.23) 2.5 小结小结 本章对离线手写中文签名鉴别所涉及的一些重要技术进行了概要性讨论。首先 论述了签名图像预处理中所用到的相关技术,重点说明了细化算法的基本作用并比 较了几种并行细化算法的优劣;接着论述了几种主流的特征提取方法和矢量量化技 术;最后阐述了隐马尔科夫模型及其在模式匹配应用中要解决三个问题。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 13 3 基于汉字笔画结构特征的基于汉字笔画结构特征的签名图像签名图像细化算法细化算法 细化是离线手写中文签名鉴别中相当重要的一个环节,签名图像细化的结果直 接影响签名鉴别的准确度。考虑到汉字字符的独特结构,结合现有细化算法的特点, 本章将设计一种基于汉字笔画结构特征的签名图像细化算法,该算法可使得到的签 名细化骨架更好地保留原始签名图像的笔画结构信息,减少笔画相交处的畸变和毛 刺。 3.1 设设计思想计思想 汉字字符特征从总体上分为两大类43:结构特征和统计特征。汉字的结构特征 主要是基于笔画交叉点、笔画段、笔画轮廓线、笔画边缘和特征点。现有的实验表 明结果,只要结合恰当的训练识别算法,越能准确度提取这些特征,就越能提高签 名鉴别的准确度。 统计方法具有鲁棒性较高和抗干扰、抗噪声能力较强的特点。通常它根据距离 度量匹配规则,采用多维特征值累加的方法,且最后的累加和把局部噪声和微小畸 变造成的影响可减到最小程度,甚至忽略不计,但是用来区分“敏感部位”的差异 特征也随之消失了43。因此相对汉字的结构特征,汉字的统计特征区分相似字的能 力较差。 结构方法对结构特征比较敏感,区分相似字的能力比较强,而且汉字的结构特 征,即汉字笔画及其相对位置关系,是手写汉字中最为重要的特征。但直接从汉字 点阵图像上准确地提取汉字的每一个笔画并找出其相对位置关系十分困难,故需要 采用一种能够减少所要处理的数据量,并能准确、快速提取字符结构特征的字符细 化算法。 第二章中介绍的 zhang和 suen细化算法,其缺点是斜线交叉变形大,甚至会将 斜线收缩为一点,在某些情况下不可能总是得到单像素宽的线条,会保留有多余像 素点。但是因为汉字的笔画结构主要为直线和 t 型结构,且由于 zhang 细化算法的 最大优点是对直线、拐点及 t 型交叉点能比较精确地保持和原图像一致,且迭代次 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 14 数少,执行速度快,故本章节所提出的基于汉字笔画结构特征的细化算法是在基于 zhang细化算法的上一种改进算法。 3.2 算法算法 基于汉字笔画结构特征的签名图像细化算法的流程图如图 3.1 所示。 满足细化规则1中的条件 标记该像素点 是 是 否 保留该像素点 扫描标记的签名图像 进行字符宽度单像素化和断笔连 接,得到最终细化图像 扫描二值图像 满足细化规则2中的条件 删除该像素点 是 否 保留该像素点 开始 结束 图 3.1 基于笔画结构的细化流程图 假设要细化的签名图像(这里所说的签名图像,指的是经过第二章所介绍的图 像预处理技术处理过的原始扫描签名图像)为 m行 n列的像素点,用一个 m行 n列 的数组 k 表示整个二值图像,黑色像素用 1 表示,白色像素用 0 表示,第 i行 j 列像 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 15 素点的值用 ki,j表示。采用传统的 33 网格的八邻域方法分析,定义边界点是黑 色像素 1,而其八邻域中至少有 1 个白色像素点,记网格中心点为 0 p, 0 p的八邻域 图如图 3.2 所示。 p8p1 p7p0 p6p5 p2 p3 p4 图 3.2 p0点的八邻域图 基于汉字笔画结构特征的细化方法的实现规则描述如下: (1)首先扫描当前像素点 0 p的八邻域,如果 0 p为黑色像素,即 0 p=1,且同时满 足下面四个条件,则删除 0 p,即令 0 p=0。 1)21 则分别根据其 左、左上、上、右上四个点的八邻域,判断当前像素点所在笔画的结构走向。 1)若左边点 7 p值为 1,即 ki,j-1=1,再判断以下条件是否满足。 ki,j-2=1,即 7 p左边的点; b( 7 p)1; c( 7 p)=2。 其中, b ( 7 p) 表示以 7 p为中心点的八邻域中像素按顺时针方向遍历一圈从 0-1 的变化次数。c 7 p)表示以 7 p为中心点的八邻域中像素按顺时针方向遍历一圈从 1-0-1 变化次数。如图 3.4 中所示情况 c( 0 p)=4。 p0 图 3.4 c( 0 p)的八邻域图 若同时满足以上三个条件,则可以断定当前点左边笔画走向为“横”,且在该 笔画的走势上,保留该点,否则删除该点。 2)判断当前像素点 0 p右上的点 2 p情况,若 2 p的值为 1,即 ki+1,j+1=1,再判断 其是否也满足以下的条件。 ki+2,j+2=1,即 2 p的右上点; b( 2 p)1; c( 2 p)=2。 若同时满足以上三个条件,则可以断定当前点左边笔画走向为“撇”,且在该 笔画的延伸方向上,故保留该点,否则删除该点。 3)判断当前像素点 0 p上方的点 1 p情况,若 1 p的值为 1,即 ki,j+1=1,再判断其 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 17 是否也满足以下的条件。 ki,j+2=1,即 1 p上方的点; b( 1 p)1; c( 1 p)=2。 若同时满足以上三个条件,则可以断定当前点左边笔画走向为“竖”,且在该 笔画的延伸方向上,故保留该点,否则删除该点。 4)判断当前像素点 0 p左上方的点 8 p情况,若 8 p的值为 1,即 ki-1,j+1 =1,再判 断其是否也满足以下的条件。 ki-2,j+2=1,即 8 p左上的点; b( 8 p)1; c( 8 p)2。 若同时满足以上三个条件,则可以断定当前点左边笔画走向为“捺”,且在该 笔画的延伸方向上,故保留该点,否则删除该点。 按照以上的步骤扫描签名的二值图像,虽然能获得比较严格的八连通且对称的 中心骨架,并能有效地抑制笔画交叉处的畸变,具有很好的细化效果和较快的处理 速度,但是不能保证得到单像素宽的细化骨架,故本算法参考文献44中的方法,对 以上得到的结果进行单像素化和断点连接。 (3)单像素化 1)首先对上面得到的细化图像进行扫描,当扫描到黑色像素时,初始化标记变 量 flag=0,然后按下面方法处理。 对当前点的 4 个斜对角线方向搜索,如果存在笔画像素,则将其存入目标队 列 sq,并置 flag=1,把其像素值修改为 0,即删除该点。 如果 flag=1,则将当前点十字方向的笔画像素存入待删除矩阵 dm 中,同时 将原像素置反,但不将它们压入目标队列中。如果 flag=0,则将当前点十字方向的 笔画像素存入目标队列中。 将 flag置为 0,删除目标队列的队首元素。若当目标队列非空转到进行下 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 18 一目标点的搜索,否则结束一个连通区域的搜索。 2)按 1)中的方法扫描、处理其它连通域,直到整个图像扫描完毕。 3) 将待删除矩阵 dm 中的点映射到前面得到的骨架图像中, 并把其像素值置反。 即得到单像素宽的细化结果。 但是这种处理方法在单像素化的同时会在少数地方,如笔画交叉处,出现笔画 的断裂,所以为了保证字符笔画的连通性,下面还要对细化字符进行断点连接。 (4)断点连接 因为在上面单像素化的同时会在笔画交叉处出现只有一个像素的断裂,故针对 这种情况提出相应的连接算法。具体算法实现描述如下。 1)对步骤(3)所得的细化图像增加四条两个像素宽的黑边。 2)扫描步骤(3)所得的细化图像,如果为黑色像素点,假设当前点为 0 p,则 有下面的操作。 扫描以 0 p为中心点的八邻域图, 如果 a ( 0 p) ! =2, 则转到 3); 如果 a ( 0 p) =2,则它可能是断裂点或端点。 找到 0 p八邻域中其邻接点后,将以其邻接点为中心点的八邻域置为 0。然后 对以点 0 p为中心的二十五邻域求 a( 0 p)。如果 a( 0 p)等于 0,则它为端点,转 到步骤 3);如果 a( 0 p)大于 0,则其为断裂点,把以点 0 p为中心的二十五邻域中 像素值为 1 的点的横坐标和 0 p的横坐标相加得到 sum_x, 把以点 0 p为中心的二十五 邻域中像素值为 1 的点的纵坐标和 0 p点的纵坐标相加得到 sum_y,最后求 sum_x 和 sum_y 的平均值,得到的以点 0 p为中心的二十五邻域中的位置点,并将其像素值 修改为 1。最终得到断点连接的细化图像。 3)转 2),直至步骤(3)所得的细化图像扫描结束。 因此,一个签名图像经过以上四步处理,就可以得到一个单像素宽、连通的签 名骨架,为后续进行准确的签名分段和签名特征提取提供了很好的保障。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 19 3.3 实验实验结果结果 经过上述算法处理就得到了单像素宽、且连通的签名骨架。原始字符图像如图 3.5 所示;基于 zhang 细化算法的细化结果如图 3.6 所示;基于笔画结构特征的细化 算法的细化结果如图 3.7 所示。 实验结果表明,基于汉字笔画结构特征的细化算法与没有考虑笔画结构特征的 细化算法有明显的区别:前者更好地保留了签名笔画的结构信息,减少了畸变的发 生,尤其是在交叉点处的情况。 图 3.5 原始字符图像 图 3.6 基于 zhang 算法细化算法的细化结果 图 3.7 基于汉字笔画结构特征的细化算法的细化结果 3.4 小结小结 本章结合汉字字符特有的结构特征和现有基于 zhang 的细化算法的特点,围绕 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 20 基于汉字笔画结构的签名图像细化算法的设计展开研究。首先说明了算法的基本设 计思想;其次详细描述了算法的工作流程;最后给出了基于该算法字符图像的细化 实验结果,并把得到的结果与基于 zhang 细化算法的细化结果进行了比较。实验结 果表明,本文所给出的基于笔画结构特征的细化算法更好地保留了签名的笔画结构 信息,减少了笔画相交处的畸变和毛刺。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 21 4 签名签名特征提取特征提取 在离线手写中文签名鉴别的过程中,特征提取是一个极其重要的步骤,提取到 稳定而且有效的特征是后期进行签名鉴别的保障。本章将主要研究签名分段和签名 特征提取。 4.1 签名分段签名分段 签名图像经过一系列的预处理后,可以对其进行签名分段和签名特征提取。为 提取到相对恰当的签名笔画特征,基于细化图像的笔画提取方法主要从两个方面来 考虑45-46:一是定义和提取特征点;二是定义被断开笔画的连接原则。特征点通常 是由两个或两个以上笔画交叉或粘连产生具有多个分支的点,准确的提取到这些分 支点是笔画提取的前提;断开的多个分支采用什么连接原则来构成完整的笔画是能 否提取到相对清晰和准确笔画的关键因素。 与离线手写中文字符识别不同,对于离线手写中文签名鉴别来说提取相对清晰、 准确的笔画并不是必须的。因为离线手写中文签名
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论