(计算机软件与理论专业论文)基于智能卡的说话人身份认证研究.pdf_第1页
(计算机软件与理论专业论文)基于智能卡的说话人身份认证研究.pdf_第2页
(计算机软件与理论专业论文)基于智能卡的说话人身份认证研究.pdf_第3页
(计算机软件与理论专业论文)基于智能卡的说话人身份认证研究.pdf_第4页
(计算机软件与理论专业论文)基于智能卡的说话人身份认证研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机软件与理论专业论文)基于智能卡的说话人身份认证研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士学位论文 说话人身份认证技术研究 摘要 本文主要研究工作是基于智能卡的说话人身份认证技术。将生物特征加入智 能卡进行身份认证已经成为目前十分热门的研究课题。基于智能卡的说话人认证 与传统的说话人认证有些不同,智能卡存储容量、使用环境的限制对系统的语音 长度、抗噪能力、准确性等提出了新的要求。 本文详细研究了说话人认证方法,包括基于协方差模型和高斯混合模型的建 立、阈值的选取以及个人身份认证的判别策略。主要工作和创新点如下: 1 引入了基于m f c c 参数的协方差模型,通过分析其特点,提出了用d 旧w 算 法结合_ a r i l h m e t i c - h a 脚n i c 计算协方差模型的相似性。 2 提出用两个阈值的方法将协方差模型方法认证的语音分为通过、可疑、拒 绝三部分。采用基于假设检验的无背景模型g m m 方法,对可疑区的语音 进行重新验证,从整体上提高了系统的验证准确率。 3 设计了一个基于i c 卡的说话人身份认证系统。该系统不需要很长的认证语 音、无需建立背景模型,有较好的抗噪性能,系统的整体正确率达9 9 以 e 。 关键字: 身份认证,说话人确认,智能卡,g 删,协方差模型 中山大学硕士学位论文 说话人身份认证技术研究 a b s t r a c t 1 1 i i sm e s i sm a i n l ys t 砌e ss p e a k e rv e r i f i c a t i o nw i t hi n t d l i g e n c ec a r du s i n g t h em e t l i o d o l g yo f p u t t i n gb i o m e t r i cc h j pi ni i l t e m g e n c a r df o ri d e n t i t y a u t l i e m i c a t i o n t h i sm e t h o dd i f e rg r c a t l y 如mp r c v i o u so n e sf o r t h e1 i l i l i t a t i o n o fs t o r a g ea n de n v i r o n m e n to fi i l t e l l i g e n c ec a r dp r e s e n t sn e wr e q u i r e m e n t ss u c h a st h ev o i c cl e n 舀h ,柚雠n o i s ep e d 0 m a n c ca n dv e r 谁c a t i o na c c u r a c y ,e t c m i s c e l l 雏e o u sp r o b l c m si ns p c a k e rv e r i 丘c a t i o n ,j l l c l u d i n g ( ) o v a r i a n c c m o d e l 跏dc 潮m sc s t a b h s h m e n l 柚dd e c i s i o ns 打a l e 舒a 陀i n v e f s i l a g c d t h e c 0 删曲u t i o na n di n n o v a t i o no ft h i st l l e s i sa r ea sf b l l o w s : 1 ) a f t e ri n t m d u d n g f c cc 0 v 孤i a n c cm o d e l 锄d 柚a l y 咖gi t sc h a r a c t e r ,a c o m b 沁dm 鹬l l r e m e n to fd t w 瓶d 觚m 雠t i c - h 蛐o i i i ci sa d o p t e dt 0 e v l a u 习i t es i 砌a r i l yb 咖e e nc o v a r i 锄cm o d e l s 2 ) 1 1 1 i st h c s i sa l s op r o p 0 st w ot h 佗s h o l du s e dt od i v i d et h ev c r i f i c a t i o n r c s l i l t si n t ot h r e ep 州:a c o e p t e d ,r c f i l s c d 姐dd u b i o u s i kd 曲i o u sv o i c cw i l lb c f i i n h e rv e r i f i e db yh y p o t h e t i c a lt e s tg m mw i t h o u tb a c k | 咖岫dm o d e l 1 1 i i s c o m b i n e dv e r i 毹a t i o nr a i s e st h ea c c u r a c y 3 ) a l lh t e l l i g c n o ec 删s p e a k c rv e 桶t i o ns y s f e mi sc s t a b l i s h e dj nw h i c h s h o nv o i c cc a nb ev c r i f i c a t e d 卸db a c k 鲫岫dm o d e l sa r en o l f c q u i r e d t h e 忡s c ds y s t e mr c l e a s e sg o o d 姐t i n o i c ep e d _ 0 m 啪c e 柚da c h i v e s9 9 6 a c c u m c y k e yw o r d s :i d t 蚵a u m e n t 妇啪n ,s p c a k e r 、k f 墒龃t 自咂,g m m ,c c v 龃i a n c e m m e l 中山大学硬士学位论文说话人身份认证技术研究 引言 生物认证技术具有不可模仿性和特征唯一等优点,近来越来越受到人们的重 视。指纹识别技术的成功应用就是其例。人的声纹和指纹一样具有特征的唯一性, 且与指纹相比还具有不可盗用性。目前,声纹识别正在受到更多的重视。近年 来,已有这方面的研究成果开始应用到信息安全的领域中。 另一方面,i c 卡自2 0 世纪7 0 年代问世以来发展迅速,己在商贸、交通、电 信、医疗、卫生保健、社会保险、金融、税务、工商、公安、城市公用事业等领 域获得广泛应用,并取得了初步的社会效益和经济效益。 本文所研究的基于智能卡的个人身份认证,是将声纹识别与智能卡技术结合 在一起,充分利用智能卡的保密性和个人语音不可模仿特性,为高可靠性的身份 认证提供了一种有效的方法1 1 】。 基于l c 卡的说话人身份认证系统,对于传统的说话人认证方法提出了以下 的限制: 1 认证语音不能太长,通常3 5 秒为人们所能接受的长度。 2 受智能卡容量和读卡速度的限制,卡中的模板数据不能太大。 3 因为使用环境的影响,需要有一定的抗噪能力。 4 使用人群不断变化,应当避免背景模型。 目前研究的方法主要有g m m 、h m m 、删、神经网络、支持向量机、二 阶统计量等。限定文本的系统通常采用d 1 w 和h m m 方法,需要用户说出预定 义的一句话,2 3 秒语音就足够进行判别。这种方法对于语音的端点检测技术 要求很高,受环境、通道影响很大。非限定文本的系统通常采用g m m 、神经网 络、二阶统计量等方法,不需要指定用户说话内容,对于说话环境要求相对较低, 中山大学硕士学位论文说话人身份认证技术研究 但需要很长时间的语音进行训练和判别,通常训练时长1 0 3 0 秒,验证需要5 1 0 秒才能达到理想效果,并且为了归一化结果,往往还需要训练一个背景模型。 为了克服传统方法的不足,本文提出了基于协方差模型和g m m 的组合决策 方法进行说话人身份验证。使用协方差模型对语音和模板进行认证,综合d 删 和舳h m c i i c h a r m o i 血量度的方法得到通过闽值,用经验方法获得拒绝闽值, 将处在两个阕值中间的语音采用基于假设检验g m m 方法进行复检,最终得出验 证结果。该方法具有模型存储容量小、无需建立背景模型、验证语音可以很短、 抗噪能力好、正确率高等特点。因而这是一种适合用于基于l c 卡的说话人身份 认证系统中的方法。 本文结构如下: 第一部分介绍理论和方法:第1 章综述部分。第2 章对说话人确认方法进行 介绍和比较。第3 章介绍语音的预处理技术和特征提取技术。第4 章介绍协方差 模型和距离量度方法。第5 章介绍基于假设检验的g m m 方法。第二部分描述算 法和系统设计及实验,第6 章阐述算法思想,第7 章介绍本文设计的说话人认证 系统,最后用实验结果说明。第三部分是对全文总结,并对未来工作提出展望。 中山大学硕士学位论文 说话人身份认证技术研究 第一部分理论和方法 个人身份认证( p e r s o n a li d e n t i t yv e r i f i c a t i o n ) 技术是一种对受保护资源的控制 访问技术。广泛应用于民用、商用、军事等领域,从传统的暗号到流行的数字密 码,从古代的令牌到现代的身份证,从过去的身外之物到今天的自身的指纹或声 音。可以说在有各种安全需要的领域,身份认证技术无处不在。 在真实世界中,验证一个人的身份主要通过三种方式:一是根据你所知道的 信息来证明身份,假设某些信息只有某人知道,比如暗号等,通过询问这个信息 就可以确认此人的身份;二是根据你所拥有的物品来证明身份,假设某一物品只 有某人才有,比如印章等,通过出示该物品也可以确认个人的身份;三是直接根 据你独一无二的身体特征来证明身份,比如指纹、虹膜等生物识别技术。 这三种方式中,只有生物识别技术的安全系数是比较高的,其他方式都容易 被他人仿冒。随着人们对安全要求逐步提高,生物识别技术的研究逐渐受至4 人们 重视。 生物识别技术( b i o n 坨t r i ci d e n t i 量j c :a t i 0 咀t e c h l o g y ) 是利用人体生物特征进 行身份认证的一种技术。生物特征是唯一的( 与他人不同) ,可以测量或可自动 识别和验证的生理特性或行为方式,分为生理特征和行为特征。 生物识别系统对生物特征进行取样,提取其唯一的特征并且转化成数字代 码,并进一步将这些代码组成特征模板,人们同识别系统交互进行身份认证时, 识别系统获取其特征并与数据可中的特征模板进行比对,以确定是否匹配,从而 决定接受或拒绝该人。 目前常用的生物特征有: ( 1 ) 面孔 ( 指纹、手指和掌纹 ( 3 ) 虹膜识别 中山大学磺士学位论文说话人身份认证技术研究 ( 4 ) 视网膜 ( 5 ) 签名识别 ( 6 ) d n a ( 7 ) 声纹 ( 8 ) 其他生物特征 如指法、气味、签名、步态、耳形等等。 所有这些生物特征在进行身份鉴别或确认时,其普遍性、唯一性、永久性、 易获取性、可区分性、防伪能力以及用户接受程度等等,都不尽相同,因此,在 不同场合、不同应用环境下,应选择不同的特征。 作为生物识别重要分支的说话人识别技术,是本文的研究领域。 中山大学硕士学位论文说话人身份认证技术研究 第1 章声纹识别综述 1 1 声纹识别技术 声纹识别,即说话人识别,是一项根据语音波形中反映说话人生理、心理和 行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同,说话人识 别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,强调说话人 的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是 谁,强调共性。声纹识别技术的核心是通过预先录入说话人的声音样本,提取说 话人独一无二的语音特征并保存在数据库中,应用时将待验证的声音与数据库中 的特征进行匹配,从而决定说话人的身份 2 。如图1 所示: 圈1 说话人识别示意豳 说话人识别任务有许多类型。一般来说,可以分为两类:说话人辨认( s p e a k e r r e c o g n i t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。说话人辨认是指从给 定用户集中把测试语音所属的说话人区分出来:说话人确认是针对单个用户,即 通过用户测试语音来判断其是否是所声明的用户身份。如图2 所示。这两个问 题在某种程度上是相通的,即如果把说话人确认问题看作是一个两类的说话人识 别问题,则其基本算法是一致的【3 】。 中山大学硕士学位论文 说话人身份认证技术研究 图2 说话人识别任务类型 说话人识别任务从对语音的要求上可以分为:与文本无关 ( t e x t i n d e p e n d e n c e ) 的说话人识别和与文本有关( t e x t d e p e n d e n c e ) 的说话人 识别。与文本无关的说话人识别指模型训练语料不要求特定的语言和内容,而且 训练语料与测试语料之间也不要求一致;与文本有关的说话人识别指模型的训练 语料是由用户按照给定的文本朗读得到,测试语料应与训练语料相一致。 1 2 声纹识别技术的优势 与其他生物识别技术诸如指纹识别、掌形识别、虹膜识别等相比,声纹识别 有不会遗失、无需记忆和使用方便等优点,在生物识别技术领域中,说话人识别 技术以其独特的方便性、经济性和准确性等优势受蛩f 世人瞩目,并日益成为人们 日常生活和工作中重要且普及的安全验证方式。 声纹识别的应用有一些特殊的优势: ( 1 ) 蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因 此使用者的接受程度也高; ( 2 ) 获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备 时更无需额外的录音设备: 中山大学硕士学位论文说话人身份认证技术研究 ( 3 ) 适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路( 通 讯网络或互联网络1 实现远程登录; ( 4 ) 声纹辨认和确认的算法复杂度低; ( 5 ) 配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。 1 3 声纹识别与个人身份认证 我们平常所说的在某个应用中的身份认证实际上应该是身份鉴别 ( a u t h c n t j c a t i d l l ) 而不是身份认证( c e n i a t i o n ) 。是指确认某个用户、实体是 它所声称的人、实体的过程。 说话人身份认证包括两个领域:说话人确认( s p e a k c fv e r i 丘c a t i o n ) 和语义信 息确认( v e f b a l i n 幻r m a t i o nv c r i 位a t i o n v 【4 】) ,这两种方法各有自己的特点 和不同的适用领域。 本文的主要任务就是研究文本相关的说话人确认技术( t e x i d e p e n d c n c c s p c a k e rv e 撖i o n ) 。 4 基于i c 卡的身份认证技术 智能卡( i n t e l g c n c cc a r d ) 俗称i c 卡【5 】,发展至今,已经深入到日常生活 的方方面面。它有携带方便、易于使用等特点,而且采用逻辑加密功能,里面内 容受密码保护,极难复制。 l c 卡应用在身份认证领域中,存在一个很大的缺陷:当持卡者将卡遗失,那 么当冒认人在还持卡人未挂失的情况下使用该卡时,系统是无法识别这种情况 的,对于许多安全要求较高的环境,很容易造成损失。 将声纹认证与智能卡技术结合在一起,可以十分有效地结合两者的优点,高安 全性的进行个人身份认证。声纹识别的加入,使得智能卡的保密信息与个人特征 紧密结合,降低了因为遗失而造成的风险:使用智能卡,只需要在注册部分记录 模板信息,验证部分是不需要语音模板库的,使得验证端的成本大大下降; 同时,基于i c 卡的身份认证技术,对声纹认证技术也提出了新的要求: 中山大学硕士学位论文说话人身份认证技术研究 1 认证语音不能太长,通常3 5 秒为人们所能接受的长度。 2 受智能卡容量和读卡速度的限制,卡中的模板数据不能太大。 3 因为使用环境的影响,需要有一定的抗噪能力。 4 使用人群不断变化,应当避免背景模型。 如何找到有效的办法解决以上问题,使得基于智能卡的说话人认证的功能得 以发挥,是本文主要的研究工作。 1 5 应用举例 声纹身份验证可以应用的范围很宽,可以说几乎可以应用到人们日常生活的 各个角落。基于智能卡的说话人身份认证可以广泛用于保安和证件防伪。如机密 场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的 钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把声纹存在卡上, 在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储 存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份 确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过上面所述的过 程完成证件防伪。 中山大学硕士学位论文说话人身份认证技术研究 第2 章说话人确认研究现状 2 1 说话人确认系统的结构 通常的说话人确认系统包括两个部分,其中之一是注册( 勘m e m ) 部分, 对于说话人语音进行预处理、训练,生成对应人的语音模板或者参照模型;另一 部分就是确认( v e r i f i c a t i o n ) 过程,对待确认语音经过预处理,与模板或者参照 模型进行比较,根据比较的得分采用一个决策规则进行认证,得出“通过”或者 “拒绝”两种结果。 下面是通常的说话人确认系统结构图: 图3 说话人确认系统结构框图 2 2 说话人确认研究方法 结果+ 从七十年代开始,说话人确认技术经过二十多年研究已经有很大发展,并且 出现在很多商业系统中【6 】。由于说话人识别存在一些目前还无法解决的困难, 影响了普遍的应用。目前采用的研究方法有许多: 中山大学硬士学位论文 说话人身份认证拄术研究 2 2 1 矢量量化 矢量量化v q ( v e c t o rq u a n t 矾i o n ) 【7 】:如果我们把一个说话人的所有短时 特征向量收集起来,那么就可以用这个集合代表说话人的特征空间,但在实际应 用中这是不可行的,因为集会过于庞大,需要极大量的存储空间和计算两,矢量 量化的方法恰好可以对这些数据进行压缩,将庞大的特征空间浓缩为聚类的中 心。 如果把每个说话人的语音看作一个信号源,从中提取特征参数矢量序列,然 后为每个说话人建立一个码本,每个码本含有一定数量的代表说话人特征的向 量,称为码字,码字的个数就是码本的大小,训练的时候,将说话人的特征向量 聚类,然后平均每个聚类中的向量得到代表这一类的码字。如果这些码本在特征 空间的分布相互不重叠或者有重叠但是有较好的区分度,那么我们认为这些码本 包含了说话人的个人特征。 实验的时候,我们从待确认语音中提取特征矢量序列,然后用己建立的说话 人码本对其进行矢量量化,用平均量化畸变程度判断该矢量序列与目标样本比 较,由阈值来确认是否为同一人。 2 2 2 高斯混合模型 基于高斯混合模型( g 肌豁i a nm i 】【t u r cm o d c l s ) 的说话人识别方法是现代说 话人识别技术的重要方法之一,已有的一些识别性能较好的系统大多数都是基于 这种方法建立起来的。说话人识别是模式识别的一种,而高斯混合模型则是属于 统计模式识别的一种方法。人体的发音器官和过程都是很复杂的,直接对人体的 发音过程建立模型显然是非常困难的,但我们可以把声音的产生抽象为一个随机 过程( 实际上是从声音中提取出的特征参数在特征空间中的分布是一个随机过 程) ,这样我们的发音过程就可以建立一个概率模型,而高斯混合模型就是我们 要找的这样一个一般的概率模型。 基于高斯混合模型的说话人识别的基本原理是对说话人集合中的每一个体 建立一个概率模型( 高斯混合模型) ,该概率模型中的参数是由说话人的特征参 数分布决定的,因此表征了说话人的身份。由说话人的特征参数求出概率模型中 的参数的过程被称之为训练。这样说话人识别的过程实际上就是一个说话人的特 中山大学硕士学位论文说话人身份认证技术研究 征参数和说话人集合中的概率模型( 不同的人其概率模型的形式是一样的,不同 的是概率模型中的参数) 相匹配的过程。由于这里的概率模型采用的是多个单高 斯分布的线性组合,因此被称为高斯混合模型。 我们将在以后章节对高斯混合模型详细进行介绍。 2 2 3 隐马尔可夫模型 隐马尔可夫模型( h m m ) 是一种基于转移概率和传输概率的随机模型,最 早在c m u 和i b m 被用于语音识别。它把语音看成由可观察到的符号序列组成 的随机过程,符号序列则是发声系统状态序列的输出。在使用h m m 识别时,为 每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩 阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模 型进行判决【8 】。h m m 不需要时间规整,可节约判决时的计算时间和存储量,在 目前被广泛应用。缺点是训练时计算量较大。 2 2 4 动态时间归整 阴( d y i l a m i ct i m i n gw r 印) ,说话人信息不仅有稳定因素( 发声器官的 结构和发声习惯) ,而且有时变因素( 语速、语调、重音和韵律) 。将识别模板 与参考模板进行时间对比,按照某种距离测定得出两模板闯的相似程度f 9 j 。常 用的方法是基于最近邻原则的动态时间规整咖【1 0 】a 在后面的章节还会详细 介绍。 2 2 5 更多研究方法 目前还有许多方法被研究者们使用,比如人工神经网络,小波变换、支持向 量机【1 1 】等方法。 中山大学硕士学位论文说话人身份认证技术研究 2 3 各种方法比较 在说话人确认方法中,所采用的几乎都是根据模型之间的相似度的一个得分 来判定代测对象与模板是否匹配。而就计算得分方式而言,通常有两种:其一是 祯级别的方式,其二是整段级别的方式 1 2 j ; 下面分别对这两种方式进行说明: 2 3 1 祯一级的计算得分方式 当前大多数文本无关说话人确认系统都是采用这类方法。当我们对一个测试 语句进行评估时,会用到一个代表说话人特征的概率密度函数的表达式,而这个 表达式则是根据特定的那个说话人模型得出的。通常我们会采用一个预先定义的 概率密度函数来描述这个模型,如g m m 【1 3 】、h m m 、d 删等都是这种方式。 我们利用训练数据估计出模型的各项参数,包括均值、方差以及权重。同时, 还需要计算出一个反模型,略有不同的是,这个反模型是用其他说话人建立起来 的而不是本人语音。其建立方式通常也有两种,我们称之为全局模型和群体模型, 全局模型是采用大量的说话人评估出来的一个概率密度函数,而群体模型则只是 训练一部分说话人模型,然后求得平均作为全局模型。 当待测语音要与指定说话人模型验证时,该语句每一个祯都要与指定说话人 模型和全局模型进行计算,通过归化之后的逐祯得分累加,平均之后便得到测 试语音的综合得分,这种方法就是祯级别的计算得分方式【“,1 5 】。 2 3 2 语句级别的计算得分方式 在祯级别的方式中,测试语音仅包含由模型构建语音空间的一个子集,无法 与整体进行比较。事实上,每一祯的得分只受最接近的高斯成份所影响。方法受 环境的影响很大,噪声,通道都会对结果产生很大的影响。实验结果也证明,样 本的时长越长,效果越好,因为会把某祯的影响平均掉,淡化。但随着时长增加, 因为每祯都要进行计算,时间复杂度过高,比较的效率相对来说太低。另外,为 了归一化每祯的得分,还需要训练背景模型,这样也让系统的自适应性产生很大 中山大学硕士学位论文 说话人身份认证技术研究 影响,当说话人的群体逐渐增加之后,原先系统的正确率会不断的下降。因此, 我们引入语句级的新方法。 在祯级别的计算中,隐含了一个这样的假设,从某祯提取的向量在特征空间 中的确切位置包含了说话人身份的信息。而不能描述全段语音的分布特性。然而, 在实践中,我们从语音中提取的准确位置受语音通道、话音类型、额外的噪声影 响很大。与祯一级的计算得分方式相对应的,我们从语句整体出发【1 6 】,将整体 的特征分布情况与说话人模型和全局模型进行比较,这就是我们所说的语句级的 积分【1 2 ,1 7 】。本文所要提到的协方差模型是属于这一类型的。 2 3 3 各种方法存在的问题 对于与内容有关的,词汇量有限的,而且可以准确找出话音端点的,我们可 以使用h m m 和d t w 方法,将待测模板与样本进行比较,通常能达到十分准确 的效果。但是实际的语音环境并没有这样的理想,不同人发音方式和习惯不相同, 说话人语句粘连情况很普遍,并且偶然的噪声就会对结果影响很大,另外h m m 计算复杂,要求系统性能比较高,通常只用于以简单数字为内容的认证。v q 仅 仅得到说话人语音特征在特征空闻的聚类中心,只描述了特征空间的大体形状, 结果是不太令人满意的。g m m 方法以每个信号帧计算它与目标说话人模型和背 景模型的相似性,然后累加整个说话全部帧的相似性,最后做出决策。这种方法 受环境,噪音干扰很大,而且需要建立背景模型,当系统人数增加的时候,正确 率便会下降。 中山大学硕士学位论文说话人身份认证技术研究 第3 章语音的预处理和特征提取 在说话人确认系统中,很重要一个环节就是提取包含说话人个性的语音特 征,特征提取的好坏,直接关系到最终结果。这一点与关心内容的语义识别是有 所不同的。从七十年代研究至今,人们已经尝试了许多种语音参数进行研究:短 时频谱、基音、过零率、倒谱等等,不同的特征有不同的适用范围。 预处理问题,也一直是困扰语音技术前进的课题之一,主要问题有:如何降 低环境噪声的对识别系统的影响、如何有效端点检测、怎样分割对话语音中的不 同说话人等。 本文采用m f c c 参数作为文中实验的特征向量,这一章主要围绕基本预处理 技术和m f c c 参数的提取算法。 3 1 预处理工作 预处理对于语音而言,是一项十分重要的任务,预处理的好坏对于结果有着 直接的影响,本文并不预计提及降噪技术。因为降噪本身是一个很大的课题,后 面可以看到,采用的协方差算法,偶然的噪声是不会对系统造成很大影响的。 3 1 1 采样与量化 在这个阶段中,语音从连续的模拟信号转换为离散的数字信号。这个过程可 以通俗地称为“录音”,由专门的语音信号处理芯片来完成,在一般的个人电脑 里,这一过程是由声卡来完成的。计算机根据内部的时钟频率,以一定的采样周 期t 对语音信号s ( t ) 采样,将其离散化为s ( n ) ,采样周期的选取应根据模 拟语音的带宽依采样定理确定,以避免信号的频域混叠失真。 中山大学硕士学位论文说话人身份认证技术研究 3 1 2 预加重处理 在语音信号的频谱分析中发现,频率越高谱值会越小,当频率提高两倍时, 其功率谱的幅度约下降6 分贝。因此,一般在特征提取之前要对原始语音信号进 行高频预加重,使其高频部分的谱值与中频部分相当。数字滤波器的z 传递函数 为 日0 ) = 1 一盯“( 3 1 ) 其中a 称为预加重系数,可取为1 或比1 稍小的值,如取a = 0 9 6 。 3 1 3 加窗 语音信号是一维的非平稳信号。但是,由于语音的形成过程是与发音器官的 运动密切相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语音信 号常常可以假定为是短时平稳的,即在1 肚2 0 m s 这样的时间段内,其频谱特性 和某些物理特征参量可近似地看作是不变的。这样,我们就可以采用平稳过程的 分析处理方法来处理了。 加窗就是将语音信号划分为一个一个的短时段,每一短时段称为一帧。为从 语音信号中切取含有n 个样本的语音信号波形,需要用时间窗函数w ( t ) 乘以 原来的语音信号。最常用的两种窗函数分别是矩形窗和汉明( h a m m i l i g ) 窗。 矩形窗吣) - 吣菇一 ( 3 2 ) 汉赡吣) o 5 4 。0 4 6 虮坳0 菇。 ( 3 3 ) 在矩形窗中,由于信号在窗边处急剧下降为o ,使得语音信号的动态变化信 息失真,即所谓的边际突变。而汉明窗则克服了这个困难,信号在汉明窗边际是 缓慢下降的,实际应用中多使用汉明窗。另外,为尽可能不丢失语音信号动态变 化的信息,常采用滑动窗,即帧与帧之间有一定的重叠,帧移量常取为帧长的一 半。 中山大学硕士学位论文说话人身份认证技术研究 3 2m f c c 特征提取 3 2 1 倒谱系数 语音信号包括说话人特征和话音特征( 与说话内容相关) ,而说话人特征在 很大程度上取决于说话人的发音声道,即声道频率特性。如果能使这两者有效分 离,就可以得到有效表征说话人特征的参数。由于语音信号是由激励信号与声道 频率响应相卷积的结果,可利用将信号作适当的同态滤波将相卷积的两个部分分 离,滤波的关键是先将卷积处理化为乘积,然后作对数处理,使之化为可分离的 相加部分。这一过程示于图4 : abcd ( a ) abcd ( b ) 图4 ( a ) 倒谱的含义( b ) 复倒谱 图中a 处语音信号s 一f 。 。,j 表示语音信号的音源激励分量,| 1 1 表示声 道分量( 即声道冲击响应) 。用聊可算法计算s 的短时付里叶变换,就会在b 点得到音源激励与声道冲击响应付里叶变换的乘积,取这一乘积的幅度的对数, 在c 点就得到了音源激励与声道冲激响应的付里叶变换的对数之和。再对其进 行付里叶逆变换,将在d 点所得到的信号称为是s 的倒谱c ,也称为倒谱系数 ( c c p s t m mc o e 蜥c i e n t s ) ,它是音源激励分量的倒谱t 与声道分量的倒谱t 之和。 可以证明,声道分量的倒谱将集中在语音信号倒谱的低时部分,而音源激励分量 的倒谱则集中在语音信号倒谱的高时部分。因此,通过取语音信号倒谱的前面若 , 干个分量( 低时部分) 可以较好地将语音信号中的音源激励部分与声道部分分离。 中山大学硕士学位论文说话人身份认证技术研究 3 2 2 m d 倒谱特征 不同于l p c 等通过对人的发声机理的研究而得到的声学特征,m e l 倒谱系数 m f c c 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研 究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指 的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于 临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。m e l 刻度是对这 一临界带宽的度量方法之一。 在图5 的倒谱计算过程中,如果不是直接对语音信号的对数谱作逆d f t ,而 是先经过一定的频率坐标的尺度弯折瓦( ) ,将频率坐标取为在l 0 0 0 h z 以下采用 线性的频率弯折、而在1 0 0 0 h z 以上采用对数的频率弯折的新的频率坐标,然后 才进行f f t ,这样得到的信号就称为是语音短时信号。b o ,1 ,一1 j 的一维 m e l 倒谱,二维m e l 倒谱则兼顾了语音信号的时变特性和短时语音的平稳特性, 是一维m e l 倒谱在时域上再进行一次付里叶变换的结果。m e l 倒谱系数简称为 瑚、c c 。 僦掀潲介 1jllljl 7 m 1m 2m 3 图5 加三角窗的频率弯折 类似于图5 的倒谱计算过程,首先计算第m 帧语音的n 个采样点 。l ,l - 眠,一1 的频谱 s 一鬟s “,m ) e x p ( 一j 拥寺) ( 3 4 ) f r e q 中山大学硕士学位论文说话人身份认证技术研究 其中s ( 七,m ) 为第m 帧语音的频谱。因此,第m 帧语音信号的m e l 频谱( 也称 为m e l 对数谱) 则为 工( 七,m ) ;瓦【l l l f s ( 七,肼】2 】 ( 3 5 ) 其中l 为m e l 频率尺度弯折操作符。图6 中示出了通过加三角窗来进行m e l 频率弯折的方法。频率横轴被一些三角窗划分为多干个频率段,三角窗之间有重 叠,其中每一个三角窗代表一个频率段。三角窗对应到纵轴上是权重,表示各个 频率对本身所属的频率段的贡献。频谱在三角窗中加权后累计就得到了语音信号 的m e l 倒谱。一维m e l 倒谱定义为语音信号的m e l 对数谱石伍,m ) 在频率上的付 里叶变换。即 c b ,m ) i 古荟j 忙,小b - 幻 ( 3 6 ) 其中,te x p ( 一,2 玎古) ,为一帧语音中的采样点数。二维m e l 倒谱定义 为语音信号的一维m e l 倒谱再在时间小上的付里叶变换 1 8 。 3 3 特征的选取 特征的组合、选取通常是个很复杂的问题,不同的组合,不同的系数,对于 结果的影响很大。目前大家比较接受的m f c c 、l p c c 、线谱对、一阶差分等方 法也都各有特点。有的学者还提出了m f c c 各阶分量对于不同的系统影响有不 同【1 9 】。本文侧重点在方法改进,没有迸一步对参数进行研究。 中山大学硕士学位论文说话人身份认证技术研究 第4 章协方差模型 4 1 协方差模型的定义 我们提出协方差模型是一个忽略了均值向量的单高斯模型,于是训练一个 协方差模型就是要从训练数据中计算样本的协方差矩阵c s 。 g 。瓦三善 一肛) 一胪) ( a - ) m 是训练特征向量的个数,船是第i 个训练向量,胪是训练数据样本的均 值。这里忽略均值的目的是我们仅关心从说话数据中抽取特征的分布形状,而不 是在特征空间中的确切位置。 就语句级的积分计算方法而言,并不需要一祯一祯计算,而是直接计算与模 板语音分布的形状相似度。 4 2 计算模型间似然性的几种方法 4 2 1 基本公式 下面对几种相似度的计算提出的推导过程【1 2 1 。 对于语句z ,y ,我们可以分别提取出他们的协方差矩阵x ,y ; 计r - x2 2( 4 2 ) 我们计算他的相对特征值,设r 的特征值为协】l t 一, 那么r 可以分解为如下: r = 趴日。1 ( 4 3 ) 其中口是特征向量矩阵,a 是特征值矩阵,特征值沿对角线降序排列。 中山大学硕士学位论文说话人身份认证技术研究 特征值就是 丢 “, 我们引入特征值的几种均值, 算术均值: 口;上专a , p 能 ( 4 4 ) 几何均值: g 一州 。, h a r m d n i c 均值: 玎 。, 由于x ,y 都是对称矩阵,满足护j 。l r ( y x ) ,护代表矩阵的迹: d e t c 肼) 一d c t 伍) x d e t ( y ) ,d c t 代表矩阵的行列式。 根据这两个性质,我们来对前面的a 、g 、h 进行计算: 口。吉押。吉妒c d 。吉打卜 踊 ) 吉r r ( 髓 盖弓) 。吉打( 掰。, pppi jpljp, 7 、 一c 牡删忆( 器) “他8 , a 。殳旦 l r ( r ) l r ( 肼。1 ) ( 4 9 ) 这些结论,对于我们今后的简化计算十分有利。 中山大学硕士学位论文 说话人身份认证技术研究 4 2 2a d t h m e h c g e o m e t d c 球形量度( a g ) 由a n d e 瑚n 提出的【2 0 】,一个检验协方差矩阵y 对于x 的比例的似然函数: s p l x ) 一 记砸i x ) 一专l 。g 心l 石) )1 凸: 我们可以以此得到x 对于y 的似然函数: ! f r r 雕,y ) “。g i 蔷矿 l o g ! 护( 肠一- ) p ,d e t 1 7 9 【i 石j - l o g ( 口g ) ( 4 1 0 ) ( 4 1 1 ) ( 4 1 2 ) 对数符号中的a 和g 分别是特征值的算术平均和几何平均,于是该方法称为 算术一几何球形量度。 4 2 3a 一咖懈h c h a m o 川馏球形量度( 凡h ) 与上面方法相似,我们采用h 删n j c 均值代替几何均值,便得到了i l b m e t i c h a r n 的n i c s 量度1 2 1 1 。 公式是: 肥帅g 罢 - 蚴啪- t o g ( 塑等哟) “嘲 一, 0 n 一 护 d一一p 一, 中山大学硕士学位论文说话人身份认证技术研究 4 2 4g 彻s s i 蚰一l i l 【e l m o o d 方法( g l ) 假设所有从说话人z 中语音向量服从高斯分布,那么说话人y 中每一个 单独的语音片段与z 的似然性可以用如下公式来描述: g o tiz ) 2 i i :击e 一;m i ,z “h 一习 ( 4 a ) 如果假设y ,都是独立的观察,那么对于侈,l 。的平均对数似然就可以写 成: 砭( ) ,) 一专l 。g g o 。,) ,:叫,lz ) - 专薹g i z ) 圭【p t 。9 2 ,r + k g e t 硼+ 专羹饥一i ,7 x 。1c y ,一刁】c t 坫, 我们替换) ,。一i 为y 。一罗+ 箩一i 并且利用属性: 专善( y r 一刃7 x 。( ) ,t 一力护假4 ) ( 4 1 6 我们可以得到: 瓦( y ,) + 旦竽- 一三k 鲋e t z ) + 护( 瑙- 1 ) + 仃一习7 善一1 咿一习】 ( 4 1 7 ) 和 吾酌m l o g 幼+ 吉l 蝴州- 吉| 1 0 9 ( 器) 一t r 衄- 1 ) - 仃巧娜4 侈一卟1ppp i、d c l 五,i ( 4 1 8 ) 所以如果我们定义高斯似然量度: 如小一言【b 器) 一打假- 1 ) - 伊秽硝阳 。 - 丢时1 0 9 ( d e t r ) 6 】一1 中山大学硕士学位论文 说话人身份认证技术研究 。口一k ,g g + 三6 7 z - 1 6 1 ( 4 1 9 ) p 于是,我们可以知道,卢仅,r ) 的最小,也就是瓦( y f ) 的最大值。 根据我们的经验,当噪声和语音扭曲比较明显时,均值向量五歹会受信道很 大的影响。而我们所提出的协方差模型所受到的影响则会小很多,因此也更具有 鲁棒性。 我们可以利用以下公式专门计算协方差模型的高斯似然量度: 肛,r ) 一口一k 培g 一1 ( 4 2 0 ) 可以看到,公式舍弃了均值对量度的影响。 4 2 5 模型距离( 欧氏距离) ( e d ) 既然同一说话人特征模板相似度高,那么也可以认为模板在向量空间中的分 布位置也是固定的,很自然的,我们联想到了使用距离来判断两个特征模板的相 似性,以此来作出决策。 我们首先看看常用的欧氏距离: 我们定义两个点j - 皈,算:,工,) f 与) ,一( y ,y :,) 之间在p 维空间中的 欧氏距离如下: d 。g ,y ) 一k 一) ,) 2 + 0 :一) ,:) 2 + + b ,一) ,) z ( 4 2 1 ) 4 2 6 唧一c o v 方法( d c ) 对于描述模型分布形状的协方差矩阵,我们进行更深入的探讨。对于从整段 语音中提取的特征向量,每一维都是代表一定频段的信息。在语句一级的积分计 算中,我们实质上就是打乱每一维的时序性,用概率分布的形式来描述这一维特 征的形状,于是有多少维特征,那么自然就会有多少个分布。 中山大学硕士学位论文说话人身份认证技术研究 我们可以把这些不同维的数看成一组随机变数,而整段语音的协方差矩阵就 完全可以理解成为各维之间的关系矩阵。 进一步考虑,协方差矩阵的行列却是按照维数排列的,也就是说行列里暗含 了一个顺序。笔者联想到了阴方法,先计算两个序列的距离矩阵,然后根据 d t w 的时间归整算法【2 2 ,2 3 】从距离矩阵中计算两个矩阵的最小歧变距离。实验 中,我们对两个矩阵的歧变距离进行计算时发现,相同说话人的协方差矩阵最小 距离往往要小于不同说话人间的比较值,也就是说,用这种d 1 w 方法可以成为 计算两个特征协方差矩阵相似度的另一个量度。 4 2 7 距离量度的对称化 我们不难发现这样的问题,以算术一几何球形量度为例,有些量度存在不对 称性: o ,工) - ! 打r - 1 p ( d e tr - l y 巾 - o g 【裔 - - 叫詈) 州娜, ( 4 2 2 ) 那么也就是说,我们拿x 语音对y 语音进行验证的结果,与拿y 语音对x 语音进行验证的结果是不同的。这样会导致采用这些方法对于我们实验结果是不 稳定的:拿同样数据集计算,只要调换样本和测试语音的顺序,就会使结果产生 改变,那么我们实验的结果就存在不确定性,这就要求我们对以上这些量度进行 对称化处理。 所谓对称化,在这里我们就是要使得: 以石) 。心悸,y ) ( 4 2 3 ) 在f b i m b o t 的研究中,他们采用了以特征向量数为权值的对称化方法,即: 以( z ,l ,) 。以何,工) - 志p 暖,y ) + 志p o ,置) ( 4 2 4 ) 1一生1一g ,0 中山大学硕士学位论文说话人身份认证技术研究 4 3 协方差模型说话人确认 协方差模型与模板类的方法类似【2 4 】,不需要按照各祯计算似然值,训练简 单,只需要求出语音的m f c c 系数,然后计算协方差矩阵即可,验证的时候只 需要按照某种量度进行一次计算,速度要比其他的方法快很多。同时,因为模型 只是一个协方差矩阵,那么存储上的要求变得更加简单,更容易存储。 而且,实验中也可以发现,对于样本少,训练时长短,文本相关的短句子, 要比文本无关的长句性能要好。 协方差模型方法不足之处在于,如果不采用背景模型进行归一化,不同时间 长度的语音,得到的确认阈值是变化的,通常越长时间确认距离量度会越小。这 给我们验证带来了困难,或者训练背景模型进行归一化,或者将话语的时长进行 限定。而本文针对i c 卡系统的要求,可以采用限制语音长度来对阙值进行控制。 中山大学硕士学位论文说话人身份认证技术研究 第5 章高斯混合模型 基于高斯混合模型( g 卸豁i 趾m i 】【t u r em o d e l s ) 的说话人识别方法是现代说 话人识别技术的重要方法之一,已有的一些识别性能较好的系统大多数都是基于 这种方法建立起来的。说话人识别是模式识别的一种,而高斯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论