(电路与系统专业论文)基于人脸和语音的PFVATM系统的实现[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于人脸和语音的PFVATM系统的实现[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于人脸和语音的PFVATM系统的实现[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于人脸和语音的PFVATM系统的实现[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于人脸和语音的PFVATM系统的实现[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(电路与系统专业论文)基于人脸和语音的PFVATM系统的实现[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 生物认证技术是一门新兴的技术,拥有传统身份认证技术没有的独特优点, 在金融、公共安全以及日常生活中都有广泛的应用。本文围绕构建基于密码、人 脸和语音的自动取款机( p f v - a t m ) 系统如何实现而展开,并以此为原型,与 传统信息安全相结合,其主要内容如下: 首先,针对本系统的实际应用环境,对人脸确认和说话人确认的算法进行改 善优化,以取得与实验室条件下等同的理想效果。首先围绕人脸处理,优化了基 于肤色背景模型的检测算法,对人脸图像做了亮度归一化以及直方图均衡化;语 音处理,在已取得算法的基础上,优化了特征提取以及模型建立方法,提出了一 种有效的语音端点检测算法。实验结果发现,经过优化以后的人脸和说话人确认 算法对实际环境变化的鲁棒性较强,确认效果极佳,与同类算法相比具有一定的 优势。 其次,采用客户端n 务器( c s ) 模型进行系统设计,首先阐述系统的设计 原则,设计系统的工作流程,按工作流程将其分解为客户端、服务器端和管理端, 根据系统组成提出几种体系结构方案,并分别论述了其优缺点,选取一种最优方 案应用到系统中;然后针对系统的各工作终端,分别设计其功能模块和各组件模 块;最后实现了安全等级可伸缩的p f v a t m 系统,并对系统从不同的角度进行 了测试评估。 最后,从当前电子商务以及a t m 常受到的各种攻击入手,结合传统信息安 全技术和生物认证技术以及我们的项目,设计了p f v a t m 系统的安全增强方案 并进行了实现。 关键词:生物认证技术,人脸确认,说话人确认,p f v - a t m ,安全增强,传统 信息安全 注:本文得到浙江省科技厅计划项目资助( 项目编号:2 0 0 6 c 3 1 0 0 6 ) 浙江大学硕士学位论文 a b s t r a c t b i o m e t r i c si sa ne m e r g i n gt e c h n o l o g y ,w h i c hh a su n i q u e a d v a n t a g e so v e rt r a d i t i o n a l a u t h e n t i c a t i o nt e c h n o l o g i e sa n dh a sw i d ea p p l i c a t i o n ss u c ha si nf i n a n c i a l ,p u b l i cs e c u r i t ya r e a s a n di ne v e r y d a yli f e t h i sp a p e rf o c u s e so nr e a l i z a t i o no fp f v - a t ms y s t e mb a s e do nf a c ea n d v o i c e ,w h i c ha l s oi n t e g r a t e dw i t ht r a d i t i o n a li n f o r m a t i o ns e c u r i t y t h em a i nc o n t e n ti sa sf o l l o w s : f i r s t l y ,a i m i n ga tt h ea c t u a la p p l i c a t i o ne n v i r o n m e n t ,w em a k em a n yi m p r o v e m e n t si nt h e a l g o r i t h m so fs p e a k e ra n df a c ev e r i f i c a t i o n ,i no r d e rt og e tt h es a m ee f f e c ta si nt h el a b a st ot h e v o i c e ,w ef i r s ta p p l yt h et e c h n o l o g i e so fn o i s ea n da c t i v i t yd e t e c t i o n ,a f t e rw h i c hw ee x t r a c tt h e f e a t u r e ,t h e nw eb r o a d e nt h ed i m e n s i o n so fi t l a s tw eu s et h es p l i t i n gm e t h o dt oe s t a b l i s ht h e i n i t i a l s p e a k e rm o d a l a st o t h ef a c e ,w ep u tf o r w a r daf a c ed e t e c t i o na l g o r i t h mb a s e do n c o m p l e x i o nb a c k g r o u n dm o d a l ,a n da p p l yi ti no u rs y s t e m t h r o u g ht h ee x p e r i m e n t s ,w ef o u n dt h a t t h ei m p r o v e dv o i c ea n df a c er e c o g n i t i o na l g o r i t h m sh a da n s t r o n ga d a p t i v ea b l i t yt ot h ec h a n g a b l e e n v i r o m e n t ,a n dg a i n e dah i g h e rv e r i f i c a t i o na c c u r a c yt h a nf o r m e ra l g o r i t h m s s e c o n d l 5w ea d o p t e dc l i e n t s e r v e rm o d a lt od e c o m p o s et h ew h o l es y s t e ma n dc o n s t r u c t e di t f r o m3a s p e c t s :c l i e n t ,s e r v e r , m a n a g e r c l i e n ti sm a i n l yr e s p o n s i b l ef o rg o o dg u i ( g r a p h i c su s e r i n t e r f a c e ) t ol e tu s e r sc o l l e c tt h e i rf a c ea n dv o i c e a l s o ,t h ec l i e n tn e e dt om a t c ht h eb i o m e t r i cf i l e w i t ht h ef e a t u r em o d a lt r a n f e r r e df r o ms e r v e ra n ds h o wt h ev e r i c i f a t i o nr e s u l to nt h ed i s p l a y ; s e r v e ri sm a i n l yu s e dt od e p o s i tt h et r a i n i n gf i l e si n c l u d i n gf a c ea n dv o i c ef e a t u r em o d a l m a n a g e r i sm a i n l yf o rm a n a g e rt ou p a d t et h eu s e r s d a t a b a s e ,i n c l u d i n gi n q u i r y i n g ,m o d i f y i n g ,r e g i s t e r i n ga n d l o g o f f t h e r e i n t ot h e m ,r e g i s t e r i n gp r o c e s s c o n s i s i s t so fi n f o r m a t i o n c o l l e c t i n g ,f e a t u r e e x t r a c t i o n ,a f t e rw h i c ht h eu s e r si n f o r m a t i o ni ss a v e di nt h ei cc a r da n df e a t u r em o d a l i ss a v e di n t h es e r v e rd a t a b a s e f i n a l l y , f r o mt h eu s u a la t t a c k si nt h ee c o m m e r c ea n da t ms y s t e m s ,c o n c e r n i n go fo u r p r o j e c t ,w ep u tf o r w a r das e c u r i t ys t r a t e g yb a s e do nt r a d i t i o n a li n f o r m a t i o ns e c u r i t yt e c h n o l o g y a n db i o m e t r i c sr e c o g n i t i o na n dr e a l i z ei t k e y w o r d s :b i o m e t r i c s ,f a c ev e r i f i c a t i o n ,s p e a k e rv e r i f i c a t i o n ,p f v o a t m ,s e c u r i t ye n h a n c e m e n t , t r a d i t i o n a li n f o r m a t i o ns e c u r i t y 浙江大学硕士学位论文 1 1 问题的提出 第一章绪论 数字化交易以其便捷、高效一经推出就广为市场所接受,浙江省在推进金融 和贸易数字化方面一直走在全国的前列。早在9 0 年代初期有关银行就已经开始 发行信用卡,当今具有“电子钱包 功能的银行卡已经成为人们日常生活中不可 或缺的必需品,遍布各个城市的银行、商场以及各类公共场所的a t m 机系统承 载着巨大数量的银行卡的正常运作。另一方面,电子商务在浙江省也有显著业绩, 人们足不出户就可以享受通过电子商务网站和网上支付购买所需商品的便捷。由 此,人们面临着如何在数字化时代保护各种信息安全的新课题。当前信息安全课 题中首当其冲的是用户身份认证问题。 数字化交易需要安全可靠的用户身份认证技术支持。近些年来各地陆续发生 了各种针对a t m 机的违法犯罪行为,其中不乏有蓄意破坏、使用伪钞等,当前 a t m 机常用攻击手段主要有以下几种【l 】: ( 1 ) 秘密摄影:在机器上安装针孔摄像头,记录下持卡人全部操作,窃取到 密码而进行犯罪活动。在入卡口出或门禁处安装读卡器来获取持卡人的卡号; ( 2 ) 伪造通知:利用持卡人对转账业务不熟悉的特点,冒充管理行在网点加 贴银行公章的“紧急通知”,要用户将资金转移到指定的账户上; ( 3 ) 通过网络盗取卡号和密码。通过改造a t m 机器上的网络联线,利用黑客 技术批量侦听这台取款机上所有取款者的卡号和密码,然后复制客户的银行卡或 者疯狂转移客户的资金; ( 4 ) 安装假柜员机。在旅游景点、繁华商业街头安装假的自助柜员机。 多数还是集中于非法用户使用盗用卡、假卡冒领现金的情况。随着a t m 机 数量的不断增多和使用范围的逐渐扩大,其安全性正在受到极大的挑战。传统的 a t m 机在反入侵方面有两类措施:其一是采用内部密码认证【2 】的方法,对提供 了正确密码的使用者开放相应的使用权限;其二是采用外部监控【3 】的方法,通过 安装摄像探头记录系统在一段时间内的使用环境。 浙江大学硕士学位论文 目前来看,两者均存在较大的脆弱性,这是因为a t m 机自身无法分辨真实 用户和取得了某种用户标识的冒名顶替者,同时由于技术、成本的原因,其监控 系统过于简单并容易受攻击而导致失效。数字化交易需要更为安全可靠的用户身 份认证技术支持。因此,目前可加强的防范措施主要集中在以下几个方面【4 】: ( 1 ) 智能卡( i c 卡) :利用微晶片存储信息而不是用容易复制的磁条存取: ( 2 ) 数据加密:针对网络监听资料的犯罪,确保a t m 机端到端资料在传输过 程中不被泄漏或窃取,巩固加密功t 日- , 匕1 5 和手段; ( 3 ) 身份确认:改变单纯的以卡片和密码进行身份确认的方式,开发更加安 全可靠的身份确认系统,如引入声音、指纹、人脸等生物特征的多通道生物认证 系统。 在以上三种方法中,当前研究比较热的更主流的方式则是生物认证【5 】技术。 生物认证是指通过测量个人独一无二的生理特征或行为特征来确认和鉴定一个 人的身份。一般的能够用来进行生物认证的生理特征包括人脸、手形、指纹、视 网膜和虹膜等,而行为特征有签名、语音( 它也含有一些生理成分) 、击键方式 和步态等1 6 】。 1 2 生物认证技术的必要性 传统的安全技术已经受到了巨大的安全威胁,首先看下面一组调研数据【7 1 : ( 1 ) 没有有效的身份认证技术,在美国每年约有上亿美元的福利款被人以假 冒的身份领取; ( 2 ) 据m a s t e r c a r d 公司估计,每年约有价值四亿五千万美元的信用卡诈骗案 发生; ( 3 ) 由于无法鉴别删持卡人的身份,每年美国a t m 诈骗案造成的损失至 少有三亿美元: ( 4 ) 使用盗窃来的身份识别码( p n ) ,每年造成移动电话通讯的损失高达十 亿美元; ( 5 ) 随着网络的发展,非法登录计算机的案件呈上升趋势。网络技术的发展, 对涉及国家安全的信息安全领域提出了严重挑战,以传统密码学为基础的保护 体系无法防范各种层出不穷的信息窃取技术。网络经济带来的电子商务中,未 2 浙江大学硕士学位论文 来的国家经济安全面临严重挑战,传统密码技术无法保证电子商务安全。 以上数据表明,传统的安全技术已经呈现出无法解决的重大缺陷。以信息化、 数字化、网络化为特点的社会发展对国家以及社会生活的安全性提出了全新的要 求,而生物认证技术是解决信息化、数字化、网络化社会安全问题的重要办法。 其次,个人移动通信终端的发展,未来社会的各种经济、政治、商务活动必 然以个人移动通信终端为核心,如何对个人身份进行精确认证成为必须要解决的 国家重大基础技术问题。 再次,全球各国纷纷将生物认证技术作为关系国家安全的重大基础技术加以 扶持、推广。而中国已经在国际生物认证技术发展竞争中处在了落后的位置,规 模小、应用水平低,核心技术为国外大公司所把持。 总体来说,与高性能计算技术、生物技术、航天技术一样,生物认证技术已 经成为国家需要重点发展的重大基础技术,未来的国家安全急需使用具有完全自 主知识产权的中国自己的生物认证技术来保证。 1 3 当前生物认证技术的发展 生物认证技术在信息安全领域市场潜力巨大。早在二十世纪六、七十年代, 生物认证的优势就已被人们发觉并加以利用,这一时期最具代表性的生物认证系 统是由美国德州仪器公司研制开发的说话人识别系统【8 1 。此后,随着超大规模集 成电路的飞速发展,计算机的运算能力日新月异,这极大的加快了生物认证技术 从理论向实践的转化速度,相继出现了指纹识别、人脸识别等新的认证方式,同 时识别算法的种类和性能也在不断的演进之中。 “9 1 1 事件后,由于世界范围内的反恐、刑侦、金融等众多领域安全方面 的需要,国际上生物认证技术的研究和应用更是取得了长足发展。西方发达国家 在加大对生物认证理论研究投入的同时,大力推进各类生物认证产品的应用和推 广。美国为反恐需要,已在生物认证的安全身份认证方面投入了一百亿美元,并 计划在公民护照中加入指纹、人脸、虹膜等生物特征信息。许多国家正大范围地 为银行、机场等大型场所配备可以进行指纹、人脸等多种识别的生物认证安检设 施: ( 1 ) 在日本,各银行纷纷开始在a t m 机上安装手指静脉和手掌静脉等生物认 浙江大学硕士学位论文 证装置。2 0 0 4 年,日本日立公司制造出一种基于生物认证的a t m 机【9 1 ,该a t m 采用日本富士通研究所研制的基于手指静脉和手掌静脉的生物认证装置来完成 客户的身份认证,该装置通过对人的手指静脉纹理进行高对比度的扫描,然后与 预先存储在i c 卡中的用户模板信息进行对比,从而实现很高的识别精度,据日 立的测试数据,其f a r o 0 0 0 0 2 ,f r r 讹口” 砌, 一 ( 2 6 ) m o - v a r o ( i ( i , j ) - m e a n ) 2 一,加,_ ,) 为其它 l r “, 。7 。 。 其中,m 0 和v a r 0 为给定常数; 经过以上处理,就可以把各幅亮度不同的人脸图片归一化到均值为m 0 ,方 差为v a r 0 的图像上来,从而减轻了由于光线强弱而导致系统确认率下降的影 响。 冒冒冒 ( a ) ( b ) ( c ) ( d ) 图2 4 ( a ) 为暗光线下的人脸图片( b ) 为强光下的人脸图片( c ) 为( a ) 图归一化后图片( d ) 为( b ) 图归化的图片 浙江大学硕士学位论文 2 3 4 灰度图象的直方图均衡化 经过上述处理的入脸图象只是减轻了光线强弱带来的影响,却无法减轻由于 人脸图象上亮度不均匀所带来的系统确认率的下降,因此,需要进一步对人脸图 象进行直方图均衡化【”j 。 直方图均衡化( h i s t o g r a me q u a l i z a t i o n ) 是一种借助直方图变换实现灰度映 射从而达到图像增强的方法。其基本思想是把原始图的直方图变换成为均匀分布 的形式,这样,就增加了像素灰度值的动态范围,从而达到增强图像整体对比度 的效果。其实现过程如下: 图像空间域点的增强过程是通过增强函数f = e h ( s ) 来完成的,f 、s 分别为目 标图像和原始图像上的像素点 ,力,在进行均衡化处理时,增强函数筛要满 足两个条件:增强函数e h ( s ) 在d 盟一髓匀范围内是一个单调递增函数,这个条件 保证了在增强处理时没有打乱原始图像的灰度排列次序;另一个需要满足的条件 是对于o s s _ l j 应当有d e 耶) 盟,它保证了变换过程中灰度值的动态范围的一 致性。累计分布函数【2 8 l ( c u m u l a t i v ed i s t r i b u t i o nf u n c t i o n ,c d f ) 就是满足上述条件的 一种,通过该函数可以完成s 到f 的均匀分布转换。此时的增强转换方程为: t k = e h ( s t ) = _ n = p s ( s f ) ,k = o ,1 ,2 ,三一l ,扛o ,1 2 尼; ( 2 7 ) 根据该方程可以由原图像的各像素灰度值直接得到直方图均衡化后各像素 的灰度值。在实际处理变换时,一般先对原始图像的灰度情况进行统计分析,并 计算出原始直方图分布,然后根据计算出的累计直方图分布气,按式t k = ( 1 ) 牛f 。+ o 5 】对其取整,并得出源灰度到t 。的灰度映射关系,其中为灰度的级数。 重复上述步骤,得到所有的源图像各灰度级到目标图像各灰度级的映射关系,再 按照新的映射关系对源图像各点像素进行灰度转换,即可完成对源图的直方图均 衡化。 ( a ) 图2 5 ( a ) 均衡化前的人脸图片 ( b ) ( b ) 均衡化后的人脸图片 浙江大学硕士学位论文 2 3 5 人脸确认测试 人脸确认系统的实验和评估是相当重要的,为此我们从m i t c b c l 人脸识 别数据库3 6 1 中收集了1 0 个个体,共4 0 0 幅人脸图像;又从u m i s t 人脸数据库【3 7 】 中收集了1 5 个个体,共6 0 0 幅人脸图像。总共2 5 个个体的人脸图像各4 0 张, 共1 0 0 0 幅人脸图像( 尺寸调整为5 0 x5 0 ) ,包括姿势、灯光、表情和背景的变化。 其中,每个个体各2 0 张用来训练,其余的用来测试。 人脸确认算法采用的是预研阶段提出的基于重建误差分类器的特征脸确认 算法,实验分别直接用该算法、人脸检测和该算法、人脸检测和亮度归一化与该 算法以及人脸检测和亮度归一化和直方图均衡化与该算法分别对人脸数据库进 行了实验,最后的结果如下: 表2 1 实验结果 算相关系数和加上人脸加上人脸检测和加上人脸检测、亮度归一 法重建误差检测以后亮度归一化后化以及直方图均衡化后 e e ro 6 5 0 6 3 0 5 5 0 4 5 由上表可以看出,只对原算法加上人脸检测后,实验结果并没有太大改善, 原因是所采用的人脸库本身已经是检测处理过的,若是采用未被检测过的人脸库 进行实验,结果会明显改善。 对原始算法加上亮度归一化后,其e e r t 3 8 1 有了较大的降低,取得了较好的 效果,这说明,亮度归一化的确能有效地克服光线强弱的不同所带来的确认率的 下降,对人脸照片进行亮度归一化是必须的。 最后,对原始算法加上了所有的优化操作,包括几何处理、亮度归一以及图 像均衡等操作,其e e r 从原来的o 6 5 降低到0 4 5 ,这说明本文所做的优化工 作是成功而且必要的,经过这些优化处理,系统的漏识率和误识率大大降低,性 能进一步提高,为最终的实用化奠定了基础。 2 4 说话人确认算法优化及测试 在预研阶段,前人提出的说话人确认算法主要侧重于理论角度,着重针对理 想的语音数据库进行建模和测试,取得了一些成果: 1 9 浙江大学硕士学位论文 将基于高斯混合模型【3 9 】( g m m ) 的说话人确认算法进行改造,并应用于独立 于文本的说话人确认,对只有0 2 0 秒和0 5 2 秒的测试语音进行说话人确认时, 最小等误差率分别为4 5 2 和3 8 8 。但己取得的算法存在以下缺点: ( 1 ) 无法实际应用:没有进行端点检测,没有语音消噪以及去静音处理,因 此实际录制的语音无法直接应用在本系统当中; ( 2 ) 特征系数不能有效表征说话人:预研算法采用的特征系数是m f c c t 4 0 1 , 只能包含说话人的部分低频信息,对于声源高频部分,该系数无法表征; ( 3 ) 没有建模优化:g m m 的模型建立与初始模型的设定有紧密的联系,但 是预研算法并没有有效的建立g m m 初始模型,只是随机设定,因此系统的性能 得不到提高。 基于以上因素,本节所做的算法优化工作主要侧重于工程实践的角度,着重 针对实际环境下夹杂各种因素( 噪声、静音等) 的语音文件进行优化处理,在原 有的高斯混合模型( g m m ) 的分类基础上,针对语音文件的预处理以及特征提 取作了大量优化,提出了一种有效的语音端点检测算法;针对模型的建立,应用 了分裂法【4 l 】来构建初始说话人模型,处理流程见图2 6 。 2 4 1 语音预处理 麦克风录音 上 语音去噪 0 语音净音检测 上 特征提取 图2 6 语音处理流程 语音预处理主要包括语音去噪、静音检测以及预加重等前端处理操作,其主 要目的在于从复杂的环境中获取干净的纯正语音,为说话人确认算法打下良好的 浙江大学硕士学位论文 基础。 ( 1 ) 语音增强 考虑到系统的使用环境,在干净环境下录制的声音含噪音比较少,对系统的 确认率影响不大,但当在噪杂环境中使用时,比如旁边有卡车或者其他大型物体 的背景声音时,就会给系统带来严重的影响,因此,系统采用语音增强【4 2 1 技术来 去噪。 语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景 中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提 取尽可能纯净的纯正语音。 语音增强的方法可以从时域、频域以及时频域三个角度来考虑,由于本系统 采用的是频域语音增强技术,这里只讲频域增强。谱相减法【4 3 】是频域语音增强技 术的常用方法,其基本原理如图2 7 : 上 s 。( n ) 图2 7 谱相减法 将含噪语音信号和有声无声判别得到的纯噪声信号进行离散傅立叶( d f t ) 变 换,从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方,然后开方,得到原 始语音谱幅度的估值,再借用含噪语音的相位,进行逆离散傅立叶( d f t ) 变 换,得到增强的语音。图2 9 显示了语音波形在经过谱相减法处理前后的变化。 谱相减法有以下几个特点: a ) 原理简单,只需要一个话筒,故又称为单话筒语音降噪,见图2 8 。 蒜 浙江大学硕士学位论文 话 - e - r 日 噪 日 输 出 - 图2 8 单话筒降噪示意图 b ) 需要无声和有声判决,在信噪比大的情况下,使用短时平均能量等参数 可达到效果。 c ) 由于该方法存在的前提条件要求噪声平稳,因此当噪声特性变化时,消 噪效果可能会变差,这时需要重新拾取噪声特性。 d ) 由于噪声的随机分布的范围广,因此相减时,若该帧某频率点上的噪声 谱幅度分量大时,就会有很大一部分残留,在频谱上呈现随机起伏的尖峰。在听 觉上形成有节奏的类似音乐的残留噪声,又称为背景音乐噪声。背景音乐噪声损 伤了语音的质量,降低了可懂度和清晰度,是该类方法最大的缺点。 图2 9 外围为原始含噪语音内围为谱相减处理的结果 ( 2 ) 端点检测 考虑到实际采样到的语音信号中可能含有大量的冗余信息:静音段和幅值较 低的背景噪声。如果系统不加以检测就直接进行处理的话,会大大降低确认的速 度和准确度,从而影响系统的确认性能。因此作者在传统语音端点检测的基础上 加以综合,提出了一种高效的语音信号端点检测机制,以提高系统性能。它的大 体思想是: 小将语音信号分帧,同时计算整段信号的过零率【4 4 1 和短时能量【4 5 1 。 b ) 根据上面的短时能量来求取两个能量门限e h ( 高) 和e l ( 低) 。 c ) 将各帧的能量与这两个能量门限比较: 浙江大学硕士学位论文 s o ( 静音段) 或sl ( 声音可能开始) 状态下,如果某帧能量高于e h ,将此段保存 ( c o u n t 力i 1 ) ,同时状态跳至s 2 ( 有声段) ;如果能量低于e h 而高于e l ,仍将此段保 存,但状态不变;如果能量低于e l ,此帧丢弃,状态设为s o 。 s 2 状态下,如果某帧能量高于e h ,将此段保存;若能量低于e h ,将此段记下 ( s i l e n c e 力1 1 ) ;如果总的静音长度( s i l e n c e ) 低于某一静音长度门限( m a x s i l e n c e ) , 则认为语音又一次进入了静音段,而非即将结束;最终保存下来的有声段长度 ( c o u n t ) 如果高于某一判定门限( m i x l e n g t h ) ,则认为语音有效,否则认为是 噪声,回到初始状态( s o 或s 1 ) 重新判定。 图2 1 0 为经过上述处理前后的语音信号变化,可以看出,原始语音的4 5 0 0 0 个单位长度变成了只存在语音信号的1 0 0 0 0 个单位长。经过端点检测后,大大减 少了数据量,降低了对智能卡存储量的要求,提高了系统确认的速度和准确度。 1 0 5 0 q 5 开 j- 。 乡 魏 。裔 r 一, 需 w 焉 r , 1 i i 广i 1 i 1 西r 1 5 1 1 1 0 01 咖砌舢舢姗咖硼聊娜1 哪 ( a ) ( b ) 图2 1 0 ( a ) 未经检测前语音( b ) 端点检测后语音 2 4 2 语音特征提取 f 1 ) m f c c 和m f c c 的组合 在实际应用环境中,确认系统会遇到测试环境和训练环境失配的问题,而这 将显著影响到确认系统的确认率。尽管m f c c 可以在干净语音情况下获得较高的 确认率,而且相对于l p c c 4 6 】其噪声鲁捧性获得若干提高,但当语音信号信噪比 较低时,其确认性能往往不能令人满意。瞬态参数( 如d e l t a 参数) 则具有明显的 环境鲁棒性,然而单独采用瞬态参数在干净语音环境下的确认率往往不能令人满 意,将瞬态参数和静态参数相结合可以提高其在干净语音环境下的确认性能。 本文实验中采用的瞬态参数是一阶、二阶和三阶d e l t a 参数的组合,即将前 后帧的m f c c 系数进行差分运算所得,可用下式的差分特征参数提取算法提取 浙江大学硕士学位论文 am f c c 4 7 1 参数: d f =c f + 1 一c i ,t 0 c r c f + l ,t t o 0 o ( c ,+ 口- c ,一p ) 丝l 百一,其它 e ,、。 2 y0 2 ( 2 8 ) 其中d f 表示第,个一阶差分倒谱系数,琨为倒谱系数的维数, 表示一阶导 数的时间差,其值取1 或2 ,1 0 0 ,c t 表示第f 个倒谱系数。 ( 2 ) 高阶m f c c 系数的话者确认性能和噪声鲁棒性 从m f c c 的提取过程可以看出,经过解卷积后的对数倒频谱将声道响应和声 源激励响应分离,并且声道响应大多集中在倒谱参数的低阶部分,而声源激励响 应则相对集中在倒谱参数的高阶部分。对于说话人确认,除了声道响应信息外, 声源激励响应信息对于表征不同说话人的个人身份特征也是十分重要的。 本文在干净语音环境下分别针对选取l l l 阶、第1 0 2 0 阶以及所有1 - - 一2 0 阶 m f c c 系数作为特征矢量的情况做了确认实验,其确认结果如表2 2 所示。 表2 2 干净环境下确认结果对比误识率 i m f c c ( 1 - 1 1 )m f c c ( 1 0 2 0 )m f c c ( 1 2 0 ) 10 2 7 4 o 1 8 3 0 2 7 6 由上表可以看出,在干净语音情况下,高阶( 第1 0 2 0 维) m f c c 系数的确认性 能要明显优于只取前1 1 阶系数作为确认参数的情况,并且也要明显优于取全部2 0 个系数作为特征矢量的情况。因此我们可以认为,高阶的m f c c 系数作为话者确 认特征参数时具有比低阶m f c c 系数更好的噪声鲁捧性。 ( 3 ) a m f c c 对话者确认噪声鲁棒性的影响 图2 1 1 是取第1 0 - - - 2 0 阶系数的m f c c + m c c 与m f c c 的抗噪性能对比。其 中,曲线a 为以m f c c 第1 0 , - - 2 0 阶系数作为特征矢量的各种信噪比环境下误识率 曲线,曲线b 为m f c c + m f c c ( 2 2 维矢量) 在各种信噪比下的误识率曲线。可以 看出,由于加入了瞬态参数,不仅使干净语音环境下的确认性能有所提高,而且 随着信噪比的恶化,其对话者确认性能的提高作用越来越明显,0 d b 时的误识率 从5 5 9 0 5 下降至4 3 4 2 9 。 2 4 浙江大学硕士学位论文 6 0 幅度 ( ) 5 0 4 0 3 0 2 0 1 0 2 0d b1 5 d b 信噪比= ,矗 图2 11 加上a m f c c 后系统抗噪性能的改变 在对加噪语音进行了进一步分析之后我们发现,m f c c 的低阶2 至t j 3 维系数最 易受到加性高斯噪声的干扰,因此将高阶m f c c 系数进一步进行拓展,只舍弃低 阶3 个系数并将其与d e l t a 参数结合后,系统的噪声鲁棒性得到了明显的改善。基 于这个结果,我们实验只丢弃前3 个m f c c 系数,并将剩下的系数与三阶d e l t a 参 数相结合成为4 8 维的特征矢量,对文本有关的说话人确认实验表明:采用m f c c 和g m m 相结合的确认率为:8 8 8 9 ,采用三阶差分m f c c + m f c c 和g m m 相 结合的确认率为:9 5 1 1 。 2 4 3 特征加权 倒谱参数加权是r a b i n e r 4 8 1 等人首先提出来的,其基本依据是低阶的倒谱 参数对由信道干扰引起的谱畸变较为敏感,而高阶倒谱参数对噪声比较敏感,如 果选择合适的权值,对各阶倒谱参数进行适当的加权处理,以提升那些受谱的畸 变和噪声影响较小的倒谱成分在整个倒谱向量中的作用,则可以提高系统的鲁棒 性。r a b i n e r 等人是针对l p c c 提出倒谱参数加权的,采用如下带通滤波器: 0 9 = 口+ 6s i n ( r t k 12 )( 2 9 ) 对特征参数进行加权。由于m f c c 比l p c c 抗噪性能好,因此本文对m f c c 进 行了各阶倒谱参数的加权。通过分析m f c c 各阶参数的抗噪性能,我们提出了 如2 1 0 式所示的窗函数来进行加权: 浙江大学硕士学位论文 q = a + f l c o s ( 岩。1 2 矽 眨 其中p 表示m e l 倒谱的阶数,a ,表示窗的参数。下一步工作将研究口,卢取什么 值确认效果更好。 2 4 4 特征前端处理 说话人确认任务对于系统稳健性有很高的要求。在实际应用中,消除噪声和 信道的影响成为说话人确认研究中一个比较重要的部分。 在本文中,采取的消除信道影响的技术主要有对特征的前端处理和对得分的 后处理。对特征前端处理的技术包括:倒谱均值减,特征映射,r a s t a 滤波,特 征弯曲【4 9 1 ,n a p 5 0 】等;而对得分的后处理技术主要有零规整和测试规整。限于 篇幅,这里只简单介绍两种处理技术。 ( 1 ) 倒谱均值减 线性的信道影响可以通过在语音的m f c c 参数中减去一个偏移量消除,这 个偏移可以在整段语音参数序列上估计: 语音的m f c c 参数序列x = ( 墨,- x 2 ,7 r ) ,其中t 为参数序列的帧数,则 m f c c 参数在整段语音上的均值: 17 乃= 一1y 墨 ( 2 1 1 ) 2i 己一 l r 2 1 1 ) 工 l = l 在这里整段语音m f c c 参数矢量的均值历可以作为语音m f c c 参数的偏 移。对语音的特征参数做倒谱均值减可以消除线性信道的影响: x = ( 元l 一皿,x 一2 一露,x r 一盂) ( 2 1 2 ) ( 2 ) r a s t a 滤波 信道激励对于语音信号的影响往往是缓变的,而人类的语音听觉感知对于缓 慢变化的激励源是不敏感的。r a s t a 滤波针对人耳的这一特性而设计。r a s t a 用一 个低端截止频率很低的带通滤波器对语音信号进行处理,经过处理后,频谱中的 常量或者变化缓慢的部分被抑制,动态部分被增强。 带通滤波器频率响应h ( z ) 可以表示为如下的形式: 2 6 浙江大学硕士学位论文 日( z ) :o 1 兰丝兰:二圣;二三兰) ( 2 1 3 ) 1 一p z l 对于m f c c 参数,由于m e l 频率倒谱由m e l 频率对数频谱作d c t 变换得到, 两者之间为线性关系,可以直接将r a s t a 滤波放在得到倒谱后进行,这样进一步 减少运算量,图2 1 2 描述了对m f c c 参数做r a s t a 处理的过程。在公式( 2 1 3 ) 中,p 取经验值o 9 4 。r a s t a 滤波对于信道缓变带来的卷积噪声有着良好的效果, 但是对于加性噪声起到的作用不大。 预加重 斗 m e l 滤波 d c t 变换 - - r a s t a 滤波 图2 1 2r a s t a 滤波对m f c c 参数的处理 2 4 5 分裂法构建g m m 初始模型 由于系统使用高斯混合模型( g m m ) 来为每一个说话人建立模型,在寻求 最优模型的时候采用最大先验概率【5 i 】( e m ) 法则,因此初始模型建立的是否合 理,直接影响到最终模型的好坏,从而对系统确认率的高低产生影响。本文采用 分裂法来建立初始模型,下面给出论述。 先对训练矢量样本集进行聚类分析,然后再估计各类的均值矢量和方差矢 量,并将之作为g m m 中各分量的初始值。聚类分析方法有很多种,本文是应用 矢量量化中的分裂法,具体步骤如下: ( 1 ) 计算所有训练矢量的中心: 少门= 手x tm 为训练矢量,t 为训练矢量的总数( 2 1 4 ) ( 2 ) 分裂聚类中心:y := y n ( 1 + 占) ,y := y n ( 1 一占) ,得到2 ”个中心矢量 c l ,c 2 ,c 2 。,聚类中心矢量序号r f ,z ,仁5 陬3 2 个高斯密度分量) ,占 一般取0 0 1 。 ( 3 ) 分类:按最近邻准则将训练矢量分类: l 碗一c :fi 马x k 一巳i ,v i :f ,j = l ,2 ,m , ( 2 1 5 ) 则x k 属于第f 类 2 7 浙江大学硕士学位论文 ( 4 ) 中心更新:计算训练矢量各类的中心: q2 寿互x ,( 2 1 6 ) 其中,是x ,q 的矢量的个数,并用这些新的中心代替原来的中心矢量。 ( 5 ) 结束:若模型收敛,得到q ,乞,m 个中心矢量,则停止,否则转 ( 3 ) 继续。 初始g m m 模型参数的计算: 口,2 等,“2 瓦1 篇x ,吼2 专互( 一心) 2 ,其中肛o l ,d - 1 ( 2 1 7 ) 最终,用e m 算法估计g m m 的步骤总结如下: ( 1 ) 给定g m m 模型的阶数m ; ( 2 ) 用分裂法计算初始模型参数; ( 3 ) 对于每个特征参量,将其代入初始模型中,计算的概率分布值 ( 只( 一) ) ,条件分布概率值( p ( i x , ,a ) ) : ( 4 ) 重估模型参数; ( 5 ) 若模型收敛,则停止迭代,否则转( 3 ) 继续。 2 4 6 说话人确认测试 本实验研究的确认算法是基于预演阶段g m m 的说话人确认算法,再将本章 已经做的优化工作结合进来,从o r a t o re x p r e s s i v e 语音数据库【5 2 1 中获得所需 数据。由于这个数据库中由1 3 位专业演员和1 4 位群众对同样8 句话进行了1 1 7 个不同版本的演绎。我们从中搜集了不同人演绎的2 5 个样本,4 4 1 k h z 的频率 进行抽样,且将每个样本分为4 0 段,每段持续时间为0 5 2 秒;而未分段之前的 整一个样本作为训练,总的持续时间大概为2 5 s 。 实验选取g m m 模型的数量为2 5 6 个,分别用原始的m f c c + g m m 、 m f c c + m f c c + g m m 、m f c c + a m f c c + 分裂法g m m 进行实验,其结果如表 2 3 所示。 浙江大学硕士学位论文 表2 3 实验结果 算阿c c + c c + 分裂法 m f c c + g m mm f c c + m f c c + g n i m 法g m m e e r3 8 8 2 9 8 2 3 5 由上表可以看出,在原有的m f c c + g m m 基础上,对特征系数增加了提取 a m f c c 操作之后,系统的e e r 由3 8 8 降低到2 9 8 ,这说明,m f c c 的确 表征了说话人的高频特征,对其提取来作为标征说话人的特征系数是绝对必要 的。 当对系统进一步采用分裂法构建初始g m m 模型时,系统的e e r 有了进一 步的降低,降到2 3 5 ,这说明分裂法构建的初始g m m 模型的确能更好的表征 说话人的语音初始模型,大大降低了系统的漏识率和误识率,系统的性能进一步 提高,为系统的实用化奠定了基础。 2 5 总结 本章主要选取人脸和语音作为p f v - a t m 系统的认证通道,围绕两个通道的 算法优化工作展开。对于人脸,系统进行拍照、检测、光线补偿之后获得了非常 理想的人脸图片,然后送入人脸分类器,实验结果证明,所做的优化工作大大提 高了系统的确认率,使人脸的误识率降低到3 以下;对于语音,针对预处理及 特征提取进行了大量的优化和改进,包括作者提出的端点检测机制,实验证明, 这些优化算法的确提高了说话人确认的精度。经过人脸和语音各自确认之后得出 的分数,再送入算法预研阶段提出的正交多项式核函数s v m 分类器【5 3 1 ,得出融 合结果。经过本章的优化工作,p f v - a t m 系统的实用化有了坚实的基础。 2 9 浙江大学硕士学位论文 3 1 引言 第三章p f v a t m 系统的设计 经过第二章对人脸和语音确认算法的优化,系统的认证率有了显著的提高, 为系统设计奠定了良好的算法基础。因而本章主要从如何设计系统的角度进行论 述,首先阐述系统的设计原则,引入可伸缩型安全策略,按其工作流程将系统分 解为客户端、管理端和服务器端;然后从特征文件存放位置确认位置角度提出 几种可能的结构体系方案并加以分析,选择最优的一种;最后,针对每个终端按 其功能论述每个组件模块的设计思路和流程。下面展开详细论述。 3 2 系统的人性化设计 3 2 1 人性化设计准则 传统的a t m 机并没有考虑人的因素,没有权衡用户取钱的方便性与安全性, 因此,在p f v - a t m 系统中,我们融入更多的人性化因素,根据不同的客户需求 和不同的场合,设计满足用户需求的系统。人性化的设计应遵从以下原则【5 4 】: 第一是安全性。这一点不言自明,我们采用的所有的手段和所有对策都是为 了尽可能安全地让正确的人在正确的时间正确的地点能够访问正确的资源。这个 策略应该对各种非法访问和攻击具有很强的抵抗性和免疫力。 第二是成本。要实现一个特定的身份认证安全策略,可能需要牺牲一定的成 本作为代价,也就是前面所说的时间、金钱和精力。安全和代价这两个目标并不 总是一致的,常常它们之间还会有冲突。 第三个是可操作性。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论