(信号与信息处理专业论文)文本相关的说话人认证系统.pdf_第1页
(信号与信息处理专业论文)文本相关的说话人认证系统.pdf_第2页
(信号与信息处理专业论文)文本相关的说话人认证系统.pdf_第3页
(信号与信息处理专业论文)文本相关的说话人认证系统.pdf_第4页
(信号与信息处理专业论文)文本相关的说话人认证系统.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)文本相关的说话人认证系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本相关的说话人认证系统 摘要 说话人认证技术是语音技术的一个重要分支,通过声音对说话 人身份进行认证,是生物特征认证技术的一种。本文主要针对文本 相关的说话人认证技术做了研究。说话人认证系统由三个部分构 成:前端语音特征提取部分、模型训练与识别部分、判决部分。前 端特征提取部分主要包括语音端点检测技术、以及各种信道均衡技 术、特征选择和特征变换技术。论文主要研究了特征选择的方法, 使用了一种基于互相关信息的特征选择算法。使用了这种特征选择 算法后,在选择特征达到1 8 维后系统的性能就比基线系统( 2 6 维 特征) 有所提高,在选择特征达到3 0 维以上后,性能比基线系统有 很大提高,并且系统性能稳定。 由于实现方法和使用方法的不同,文本相关的说话人认证可以 有许多不同的实现方案,论文研究了用户定制密码的说话人认证和 系统提示密码的说话人认证。在用户定制密码的说话人认证系统中 重点研究了为语音密码建立整句模型的方法,使用了d t w ,h m m 和 g m m 模型实现了对用户的建模和识别。整句模型简单而且适合于先 验知识较少、训练数据量小的情况。本文研究了d t w 为说话人建模 的实现细节,在h m m 建模中研究了h m m 结构( 主要是状态数目) 的 选择。本文建立的系统提示密码的认证系统是基于汉语数字集合 的,文中研究了汉语数字集合的认证特点,以及建立特定用户的音 素h m m 的方法,并在此基础上实现了认证系统。 认证系统得判决部分主要探究了得分归一化的理论意义和实现 方案,尤其征对文本相关的认证系统数据量小的特点,采用了测试 归一化的方法,同时选择前几名的得分作为归一化得分,并且在归 一化计算时忽略得分的方差。 关键字说话人认证用户定制密码的说话人认证系统提示密码的 说话人认证隐马尔可夫模型得分归一化 t e x t d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m a b s t r a c t s p e a k e rv e r i f i c a t i o nt e c h n i q u ei sav e r yi m p o r t a n tb r a n c ho fs p e e c h t e c h n i q u e s t ov e r i f yas p e a k e r si d e n t i t yt h r o u g hh i so rh e rv o i c ei sa k i n do fb i o m e t r i cv e r i f i c a t i o nm e t h o d s t h i sp a p e ri s m a i n l ya b o u t t e c h n i q u e st oc o m p l e m e n tat e x t d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m t h es y s t e mw a sd i v i d e di n t ot h r e ep a r t s :f r o n te n df e a t u r ee x t r a c t i o np a r t , s p e a k e rm o d e l i n ga n dr e c o g n i t i o np a r t ,a n dd e c i s i o nm a k i n gp a r t b e s i d e s f e a t u r ee x t r a c t i o n ,f r o n te n dp a r ta l s oi n c l u d e se n dp o i n td e t e c t i o n , c h a n n e ln o r m a l i z a t i o n f e a t u r es e l e c t i o n t h i ss t u d yf o c u s e do nf e a t u r e s e l e c t i o na l g o r i t h ma n dc o r r e l a t i o nb e a s e df e a t u r es e l e c t i o na l g o r i t h mi s u s e d c o m p a r e dw i t hb a s e l i n es y s t e mw h i c hh a d2 6f e a t u r e s ,w h e nt h e n u m b e ro fs e l e c t e df e a t u r e sr e a c h e dl8 ,t h ep e r f o r m a n c eb e c a m eb e t t e r w i t ht h es e l e c t i o na l g o r i t h m 蚴e nt h en u m b e ro fs e l e c t e d f e a t u r e s i n c r e a s e dt o3 0 p e r f o r m a n c ei sm u c hb e r e ra n dt h ef e a t u r es e ti sv e r y r o b u s t t e x t - d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e mc a nb ei m p l e m e n t e d t h r o u g hd i f f e r e n tm e c h a n i s m s i nt h es t u d y ,t w ok i n d so fs y s t e m sw e r e b u i l t :u s e r - c u s t o m i z e ds p e a k e rv e r i f i c a t i o ns y s t e ma n dt e x t p r o m t e d s p e a k e rv e r i f i c a t i o n i nu s e r - c u s t o m i z e ds p e a k e rv e r i f i c a t i o ns y s t e m ,w e f o c u s e do nb u i l d i n gw h o l eu t t e r a n c em o d e lf o re v e r ys p e a k e ra n d d t w 、h m ma n dg m m m o d e l i n gm e t h o d sw e r ea d o p t e d t h ed e t a i lo f d t w t e m p l a t em a t c h i n gw a ss t u d i e d i nh m m b a s e ds y s t e m ,t h en u m b e r o fh m ms t a t e sw a ss t u d i e d o u rt e x t p r o m p t e ds p e a k e rv e r i f i c a t i o n s y s t e mw a sb a s e do nc h i n e s ed i g i t a ls e t a n dp h o n e m eh m m w a su s e d a st h eb a s i ca c o u s t i cm o d e lsf o rs p e a k e rm o d e l i n g i nd e c i s i o n m a k i n gp a r t s c o r e n o r m a l i z a t i o nw a ss t u d i e di n m a t h e m a t i c a la n dp h y s i c a la s p e c t s b e c a u s et r a i n i n gd a t aw a sl i m i t e d ,o u r n o r m a l i z a t i o nm e t h o dw a si nt e s t i n gs t a g e ( 1 i k et n o r m ) ,a n do n l yt o p 2 0 s c o r e sw a ss e l e c t e dt oc o m p u t et h en o r m a l i z a t i o ns c o r e i i i k e yw o r d s s p e a k e r v e r i f i c a t i o nu s e r - c u s t o m i z e d v e r i f i c a t i o n t e x t - p r o m p t e ds p e a k e rv e r i f i c a t i o n h i d d e n m o d e ls c o r en o r m a li z a t i o n i v s p e a k e r m a r k o v 声明 独创性( - - - j l ;创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 翌缝日期:坦笪:主:垫 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定, 即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被 查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、 缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规 定) 保密论文注释:本学位论文属于保密在- 年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:玺埴日期:丝墨:芝:丛 导师签名: c 参 第一章绪论弟一早三百t 匕 1 1 语音技术概述及说话人识别技术在其中的地位 语言是人类智能的最基本要素,也是人与人之间最直接和最自然的沟通方 式。语音是对语言的编码,人类正是通过对由人类智能系统产生的抽象的语言 符号进行编码,生成语音,语音传递到交流对象,再对它进行解码变成人类可 以理解的抽象语言符号( 字,词,句子等) 进行交流的。这样看来人类天天使 用的语言交流系统一共有两种存在状态,也就是说两种表达方式:抽象的语言 符号和具体的语音信号。 抽象的语言符号 及特定说话人 编码 传艺风, 具体的语音信号 解码 抽象的语言符号 及说话人身份 人类可以理解ii 机器可以理解i1 人类可以理解 图i - i 语音系统 由上图可以看到人类的语言交流过程,在人类语言系统中,由语言符号到 语音信号的编码是由人类的发音系统完成的,而从语音信号到语言符号的解码 是由人类的听觉系统完成的。这一编码解码的过程是必须的,因为抽象的语言 符号是人类智能可以理解的,而传播的过程必须是具体的语音信号。在对人类 的语言系统进行研究时,人们越来越惊诧于人类的发音系统和听觉系统的神 奇。发音系统作为一个编码系统,不仅具备把数量庞大的语言符号编码成相应 的语音信号的能力,而且相同的语言符号经过不同人的发音系统的编码还会产 生不同的语音信号,这个神奇的系统甚至还可以根据语言符号表达的内容信息 在编码中加入表达人类情绪的因素。听觉系统作为解码系统不仅可以将同一语 言符号产生的不同语音信号解码为相同的语言符号,而且可以解码出语音信号 中所包含的不同说话人的信息。如何让机器具备人类的神奇的语言能力是很长 时间以来科学家们的梦想,这便是语音技术。语音技术是实现人工智能不可缺 少的部分,在未来的人工智能世界里,人们希望用语音与机器交流代替键盘鼠 标的输入,希望用生物特征代替普通的钥匙或密码。 从上面分析中可以看出语音技术包含三项主要技术:模拟人的发音系统将 抽象的语言符号转变为具体的语音信号的语音合成技术;模拟人的听觉系统将 语音信号转变为语言符号的语音识别技术;模拟人的听觉系统将语音信号中不 同说话人的信息进行解码的说话人识别技术。在语音识别中还有语种识别等技 术。这篇论文关注的就是语音技术中的说话人识别技术。模拟如此神奇的人类 语言系统对于机器来说不是一件间单的事情,这主要是因为在上图中所示的抽 象的语言符号和具体的语音信号之间的对应关系是变化的,对于说话人识别技 术来说说话人身份信息与语音信号之间的对应也是变化的。如何排除干扰,在 语音信号和说话人身份之间建立一种可靠的对应关系是说话人识别的研究重 点。 图1 - 2 语音技术与功能 从应用上而言,说话人识别技术是一种基于生物特征认证的安全技术。生 物特征作为安全手段的好处是不会丢失,难于偷窃。在众多生物特征中语音是 比较适宜作为安全手段的,因为语音简单易采集,终端设备( 手机,电话,麦 克等) 成本低,而且说话人识别的识别率在众多生物特征识别技术中是比较高 的。说话人识别技术有着很广泛的应用前景,例如:电话银行中的自动转帐, 司法领域中的指认犯罪嫌疑人,日常生活中的门禁系统,对机器人通过特定人 的声音控制等等。当说话人认证的系统需要较大规模应用时,用计算机来代替 人类能够解放出更多的劳动力,从而推动着社会的进步。 1 2 文本相关说话人认证概述 如果说语音识别技术关注的是语音信号中的语言内容,那么说话人识别技 术关注的就是语音信号中的声纹信息。“声纹”一词的含义类似于“指纹”, 是指包含于语音中的标志一个人独一无二的声音特点的那部分信息。在同常生 活中我们会发现对于一个很熟悉的人,不论他她说什么内容,我们都能听出是 他她的声音,这就是因为语音中含有独一无二的“声纹”信息。 2 说话人识别技术在应用上分为说话人辨认和说话人认证。说话人辨认是指 判断当前说话人是集合中的哪一个人或者不在集合中。说话人认证是指判断当 前说话人是不是他她所声称的身份。本课题关注的是说话人认证技术。 从技术和使用方式不同来划分,说话人认证分为文本相关的说话人认证和 文本无关说话人认证。文本无关的说话人认证是指用户在使用认证系统时可以 说任意语句,系统中保存的用户模型是不含有语言内容信息的模型。在这样的 系统中只能依靠声纹信息判别使用者身份。文本相关的说话人认证是指用户在 使用系统时必须说某一句特定的语句,因为系统保存的用户模型就是用特定语 句的语音建立起来的。在文本相关的说话人认证中不仅可以利用声纹信息进行 判断,而且还可以利用内容信息判断。由于文本无关的说话人认证中建立模型 所需的语音数量大,而且单纯依靠声纹信息的认证率低,很难单独使用这项技 术进行认证,文本相关的说话人认证是与内容相关的声纹验证,相对而言认证 正确率比文本无关的说话人认证要高。此次课题关注的就是文本相关的说话人 认证技术的研究。 说话人认证所利用的语音是经过不同的终端设备( 麦克,固定电话,手 机) 采集的,而且还会经过不同的信道( 光缆,电缆,移动信道) 的传播。这 些设备和信道会对语音信号产生不同的影响,这篇论文主要关注电话( 包括固 定电话和移动电话) 信道下的文本相关的说话人认证技术,因为以电话和手机 为终端的通信网络将是未来各项技术应用的主要平台。 图1 - 3 文本相关的说话人认证系统分类 3 目前还没有一种技术能够完全模拟人脑处理语音信号的过程,只能通过语 音信号本身的一些物理特性来代替这种辨识。由于冒充者会采用不同的手段攻 击认证系统,为了应对这些复杂的情况,文本相关的说话人认证系统也尽量设 计各种安全机制,这些机制都各有不同的特点。冒充者主要分为三种:不同的 人说不同的密码,相同的人说不同的密码,不同的人说相同的密码。其中第一 类冒充者最为常见,在这种情况下冒充者对于用户的声纹信息和语音密码内容 都是未知的;对于第二种冒充者,他们掌握了用户的声纹信息,但是不知道语 音密码内容;第三类冒充者偷听到了用户的语音密码内容,但是没有得到声纹 信息,在这种情况下只能通过声纹信息判断说话者身份。此次课题研究主要争 对第三类冒充者,建立了两种认证系统:用户自选密码认证系统和系统提示密 码认证系统。 从图1 3 中可以看到文本相关的说话人认证总的说来可以分为四种实现方 式:系统已知密码的固定密码方式,系统未知密码的固定密码方式,系统已知 密码的可变密码方式,系统未知密码的可变密码方式。对于固定密码方式可以 采用子词,整词模型或者整句模型作为系统的声学模型。对于可变密码方式则 只能使用子词或整词模型。 所谓固定密码系统,是指用户在每次进入系统时所使用的语音密码文本必 须一致,并且都与用户注册时的注册密码相同。在这样的系统中,系统一般就 不在对密码的词库作限制,比如在一个汉语系统中,用户的密码可以由任意汉 字构成。对于固定密码系统,由于用户注册时采用的方式不同,系统可能是已 知用户密码内容,也可能未知密码内容。如果用户注册时是在管理员的监督下 说出语音密码的,或者用户在说出语音密码的同时又将密码内容通过键盘输入 到系统中,则系统就会得到关于用户密码的确切知识。如果用户注册的过程对 系统是保密的,则系统将不能得知用户密码的确切内容。对于前一种注册方 式,由于系统已知密码文本,可以建立比较准确的子词或整词声学模型。后一 种注册方式的优点是方便用户使用,避免密码在注册时就被“盗窃”。但是这 样就导致系统如果想要建立基于子词或整词的声学模型,就必须先使用无监督 识别或者盲切割的方式得到子词或整词语音段,这些过程必然会给系统带来额 外的错误【2 4 1 。另一种避免无监督识别和盲切割的办法就是为整句密码建立声 学模型。整句模型的优点就是声学模型建立与密码内容甚至密码所使用的语言 没有关系。这种系统的一个巨大的缺陷是万一有恶意的冒充者通过录音的方式 采集到用户的密码语音,则系统会完全失效。用户定制密码系统就是一种特殊 的固定密码系统。 4 可变密码系统是指用户每次进入系统时所使用的语音密码内容可以不同, 但是密码所使用的词语一般都出自一个提前限定的有限集合。在这种系统中, 用户一般来说是在被监督的情况下注册的,因为用户在注册时必须提供有限集 合中的所有词语的语音以便为他建立声学模型。与固定密码系统不同,在可变 密码系统中,由于用户每次进入系统所说的语音密码不同,不能使用整句模 型。这样的系统可解决恶意冒充者通过录音的方式侵入系统的问题,但是它不 能通过文本是否正确来区分真实用户和冒充者。系统提示密码的系统就是一种 特殊的可变密码系统。 在课题研究中,将以用户自选密码系统,和系统提示密码系统两种系统为 实验对象对文本相关的说话人认证技术作全面研究。 用户自选密码的认证系统中,用户在注册时可以随意使用自己喜欢的容易 记忆的密码,这很大的增强了方便性和用户使用系统的兴趣。但是这样也增大 了系统建模的难度,由于系统对于用户密码内容未知,很多现有技术难以直接 运用。 系统提示密码的系统中,可以有语音提示密码和文本提示密码两种方式, 我们采用文本提示的方式,这样我们可以假设用户一定可以正确的说出系统提 示的密码。 当然对于很多文本相关的说话人认证系统,可以用文本认证的方式来拒绝 掉一些不知道用户密码的冒充者,这是一个很大的优势,但是对于文本的认证【6 】 属于另外的研究,在这次课题的研究中将不涉及对于文本认证的技术。在大多 数研究中我们都假设冒充者偷窃到了用户的密码内容,我们只能通过声音特征 来区分真实用户和冒充者。考虑到实际中并不是所有冒充者都能得到用户语音 密码内容,所以系统的错误率将会是文本认证与说话人认证错误率的乘积。 1 3 说话人认证研究历史与现状 贝尔实验室最早提出通过概率统计方差分析的说话人识别方法【,后来声 学特征参数的模式匹配方法被广泛应用于说话人识别中【2 】【3 】【4 】,上个世纪8 0 年 代,矢量量化技术的出现,隐马尔可夫模型的推广和神经网络的应用推动了说 话人识别的研究。9 0 年代,高斯混合模型加背景模型的系统【5 】成为主流。美国 标准与技术研究院( n i s t ) 于1 9 9 6 年也开始了文本无关说话人识别的评测。 进入2 0 0 0 年以后,得分归一化,高层信息逐渐成为了研究热点。近年来,人们 还提出了一些崭新的技术,例如:隐藏因子分析【7 8 】、干扰属性消刚9 1 等复杂的 信道模型补偿方法,以及各种系统得分融合技术。 5 美国的m i t 林肯实验室,s r i 公司的语音技术与研究实验室( s t a r ) , 朗讯b e l l 实验室,i b m 的w a s t o n 研究中心都在进行说话人识别的研究工作, i b m 于2 0 0 0 年也推出了v i v a 系统【l o 】,a t & t 应用说话人识别技术研制出的智 慧卡( s m a r t c a r d ) 已经应用于自动提款机上,n u a n c e 等语音技术公司也相继 推出了说话人识别的产品,2 0 0 7 年初,r s a 正式在美国启动商业化的说话人认 证服务。在国内,许多研究机构和公司也在致力于说话人识别技术的研究和产 品开发工作,如中国科技大学,清华大学,中科院自动化研究所,中科院声学 所,北京邮电大学,北京大学,上海交通大学,中科模识科技公司和中科信利 有限公司等。 1 4 评测方法介绍 说话人认证是一个统计假设检验问题,其中零假设风:认证结果正确, 与之对应的是备选假设q :认证结果错误。说话人认证就是对零假设进行验 证。根据假设本身的性质( 真假) 与假设检验的结果( 接受拒绝) ,可能有四 种结果出现:正确接受( t a ) 、错误拒绝( f r ) 、错误接受( f a ) 和正确拒 绝( t r ) ,如表1 1 所示。这里j 下确接受率( t a r ) 与错误拒绝率( f r r ) 之 和为l ,而j 下确拒绝率( t i 汛) 和错误接受率( f a r ) 之和也为1 。 表1 - 1 假设检验表 接受风拒绝风 风真 尉f r 风假 f at r 这样,要评价一个认证系统,可以只从两个方面来考虑:错误拒绝率和错误接 受率,也被分别称为第一类错误和第二类错误。假设我们用一个得分人来表示 认证结果,系统给定了一个阈值口对该得分进行判决,当人口时接受该说话 人,当a 臼时拒绝。如图1 2 用户的得分分布和冒充者得分可以认为是一个高 斯分布,当判决阈值秒在不断变化时,r ( 秒) 和匕f 秒) 也在不断改变,这两类 错误可以看成是一个以口为变量的函数,r ( p ) 单调递增,而巴( 秒1 单调递 减。 检测错误折衷( d e t e c t i o ne r r o rt r a d e o f f ,d e t ) 曲线【l1 1 就表达了这三者的 变化关系,只( 伊1 = p , ( ) 时称为等错误率( ,。曲o0 e q u a le r r o rr a t ee e r ) d e t 线和等错误率都可以用来表示系统的性能。 6 1 5 研究工作概述 。 图1 - 4 冒充者与用户得分分布 由图1 1 可以看到抽象的说话人声纹信息与具体的语音信号之间的编解码 机制是说话人识别技术的关键,但是现在科学界对于人类的听觉系统是如何从 具体的语音信号中提取出包含在其中的抽象的说话人身份信息的机制还没有完 全认识清楚,所以要让机器做到这件事只能试图在语音信号的物理特征中寻找 相对稳定的可以表示说话人身份的信息。也就是说人脑可以理解抽象的语言符 号和说话人身份,但是到目前为止机器还只能读懂具体的语音信号。语音信号 与抽象的说话人身份之间的对应关系依靠的是语音信号物理特性的比对。所以 利用什么样的物理特性,如何进行物理特性的比对,比对之后如何作出决定是 现在说话人认证技术的主要研究方面。这样我们把一个说话人认证系统分为三 个部分:第一个部分是前端特征提取部分,也就是要找到最佳的语音信号的物 理特性;第二部分是特征比较部分( 也称为识别部分) ,比较的方法有很多, 有些是直接用提取的特征进行比较( 比如d t w ) ,还有些是将提取出的特征建 立起模型,再用合适的比较算法进行比较,比如基于h m m 模型的说话人认证 就是利用提取的特征建立统计模型然后进行比较的方法:第三部分是判决部 分,也称为认证部分,是根据第二步部分比较的结果给出接受或拒绝的结论的 部分。一个说话人认证系统又同时有两条支路:训练支路和认证支路,这样才 能实现系统让每个用户注册和使用的价值。 从下图可以看出系统由四个模块组成:特征提取模块( 这里所说的特征提 取其实只是对语音进行前端处理的一个方面,另外还有各种语音增强过程,特 征选择过程) ,建立模型模块,识别模块,以及认证模块。对于这四个组成模 块都有许多技术用来提高系统的性能。 7 图1 - 5 文本相关说话人认证系统结构 l ,前端处理:短时处理技术,主要涉及在频谱域,对数谱域,倒谱域的信号 处理方法。 语音增强目的在于尽可能去除语音中的各种加性噪声或卷积噪声,避免噪声 对于模型建立和识别的影响。特征提取是从语音信号中提取出能够表征说话人 特征的具有一定鲁棒性的语音特征参数。什么样的特征参数可以更好的表征说 话人特征,人们在这方面也做了大量的研究,得到了许多特征提取方法,比如 l p c c ( l i n e a r p r e d i c t i v ec e p s t r a lc o e f f i c i e n t ) ,m f c c ( m e lf r e q u e n c yc e p s t r a l c o e 佑c i e n t ) ,p l p ( p e r c e p t u a ll i n e a rp r e d i c t i v e ) 等,这些参数主要是针对说话人的 声道特征进行的特征提取,也是现在语音研究领域普遍使用的语音特征。特征 空间映射是对语音特征作非线性的映射,以减小语音中附加的噪声对语音特征 参数的影响,提高语音特征参数的鲁棒性。特征选择的目的是降低语音特征的 维数,从而提高系统的效率。为了在减少语音特征参数的情况下又不使系统性 能下降,在进行特征选择时要尽量选择对于区分说话人最有用的,同时与其它 特征的相关性比较小的特征。 2 ,建立模型:主要是统计建模技术。涉及各种估计算法。 8 在建立模型时可以有多种建模方法,根据系统实现方式的不同可以建立子 词模型,整词模型,整句模型。在建立子词或整词模型时都涉及端点检测问 题,必须在一句话中确定每个字的端点在哪罩,以及在一个字内确定每个子词 的端点。而建模的方法人们也做了很多研究,有d t w ,h m m ,g m m 等建模方 法。其中d t w 是一种基于模版匹配的方法,代表一个说话人的参考模版与用 于识别的语音都将在同一个语音特征空间中作比较,因此不需要进行模型参数 估计,只要将训练语音提取特征后保存其特征参数就可以作为将来进行匹配的 模版了。h m m 与g m m 都是参数化统计模型,在建立模型阶段要对这些模型 参数进行估计。这些参数估计的好坏将直接决定日后说话人识别的效果。这些 参数要能表征每个说话人的不同特征,同时又要对说话人声音的变化有一定鲁 棒性。 3 ,识别:将输入的语音与模型进行匹配的过程。涉及各种搜索算法。 圃 识别 h m m ,g m m 泽码 识别的过程就是针对所输入的语音以及所声称的身份给出一个相似度度量的 过程。怎样将一段语音与一个模型相比较,定义怎样的相似度度量值是识别的 关键。对于d t w 的建模方式来说,由于模版与语音处在同一个语音特征空 间,比较过程就是直接计算语音与模版的空间距离。由于语音是一个时变的过 程,在计算距离的时候需要对模版和测试语音进行时问对齐。对于h m m 和 g m m 建模方式,要对测试语音进行h m m ,g m m 译码( 即找到正确的输出路 径) ,利用译码过程输出的对数似然值进行最后的认证。 4 ,认证:统计判决过程。是假设检验的应用。 9 认证过程就是根据识别所得到的相似度度量值作出判断:此语音是来自真实 用户还是冒充者。一般来说系统是根据一个判决门限来判决的,如果相似度高 于这个门限就认为语音来自真实用户,反之如果相似度低于门限就认为是冒充 者。 设想有一个目标说话人的模型和假冒者集合的模型,后者我们称为背景模 型( b a c k g r o u n dm o d e l ) ,然后我们设计一个对似然概率比的检测,从而在风 和q 中做出决策。设特征矢量集合x = x t ,屯, 属于原说话人的概率为 p ( 五ix ) ,不属于说话人的概率为e ( x lx ) ,那么这两个概率比就是它们的 商。根据贝叶斯准则,我们就可以把这个比例写成: 糊p= 器糊 m 。 - - = - - - - - = = - - - - = - - - - - - - - - - - - - o ? - - 二i_-_j 五jx )尸ixi 五) p i 五) p ( x ) 舍弃常熟概率项并利用对数,我们就能够得到对数似然比( 1 0 9 1 i k e l i h o o d r a t i o ,l l r ) : t l r ( x ) = i o g 尸( x 吲_ l o g p ( x 例 ( 1 2 ) 我们将对数似然比同阈值进行比较来决定接受或是拒绝,判断此语音是否属于 原说话人,即: t t r ( x 1 0 ,接受 l l r ( x 1 尺。f ,则将从中删 除,继续选择下一个特征并记为五。 4 如果r m r 盯,则将保留在s ;i s i 中。 5 重复( 3 ) 的操作,直到所有的特征都被选择完成。 从上面的特征选择算法上看,计算量最大的是计算每一个单独的特征与其 “答案”之间的互相关值,后面的步骤仅仅是从相关性矩阵和特征与结果的互 相关的向量来判断。 方法分为两个部分,一个是选择特征,一个是删除特征。选择的原则是尽 量选择那些与结果相关性最大的特征,也就是f 比最大的特征;删除的原则是 删除那些与已经选择的特征相关性大的特征。具体达到什么程度才选择或者删 除,除了步骤中所提到的选择和删除准则外,还可以使用如下公式: ( 1 ) 选择的准则: j = a r gm a x r j 。c 表示选择与结果相关性最大的特征 = a r g m a x a 乃,c 一吩加, 综合考虑一个特征与结果的相关 性以及它与上一次选中的特征的相关性,选择差值最大的特征。口,是 常数。 j = a r g m a x l 6 e j , c 夕吉圭尺巾 综合考虑一个特征与结果的 一 l 1 p 2 i j 相关性以及它与之前所有选中的特征的相关性,选择差值最大的特征。 1 7 ( 2 ) 删除的准则: 每次选中特征p 时就删除一部分特征,被删除的特征满足条件: 弓,c 一缈。b ,p 万,也就是说删除那些与结果的相关性和与当前选中特征p 的相关性相比较差值不够大的特征。痧,缈,万是常数。 每次选中特征p 时就删除一部分特征,被删除的特征满足条件: 矽q ,c 一缈去q j 万,也就是说删除那些与结果的相关性和与前面所有选 ri = 1 中的特征的相关性相比较差值不够大的特征。多,伊,万是常数。 这些公式的基本原理都是相同的,都是考虑一个特征与结果的相关性以及 它与其它特征的相关性来决定是否选择它或者删除它,所不同的是在这一过程 更侧重一个特征本身好坏,即它与结果的相关性,还是更侧重一个特征相对于 其它特征的独特性。 表2 - 2 特征选择选中特征 静态参数一阶差分参数二阶差分参数 l p c c 5l p c c 6l p c c 7a l p c c 2a l p c c 4a l p c c 5a a l p c c 2a a l p c c 3a a l p c c 4 l p c c 8l p c c 9l p c c l2a l p c c 7a l p c c 8a l p c c 9a a l p c c 5a a f b a n k 6 a l p c c l1a l p c c l2 a a r a s t a 2a a r a s t a 3 r a s t a 5f a s t a 6r a s t a 7r a s t a 8r a s t a 4 r a s t a 9r a s t al0r a s t a lla r a s t a 2 a r a s t a 4a r a s t a 5 r a s t a l 2a r a s t a 6 a r a s t a 7a r a s t a 8 a r a s t a 9a r a s t a l0a r a s t a l l a r a s t a l2 以上表格显示了选中的4 0 维特征。从表中可以看到被选中的特征主要是 r a s t a - p l p 参数,l p c c 参数,以及它们的一阶二阶差分系数。因为实验证明 r a s t a - p l p 参数的性能是最优的,其次是m f c c ,l p c c 第三。但是m f c c 和 r a s t a - p l p 的相关性很大,在选择过程中被删除了。这样的结果提示出在不进 行特征选择的情况下,用p a s t a p l p 和l p c c 参数作为语音特征参数进行说话人 识别会有比较好的结果。 2 2 4 实验及分析 为了验证特征选择算法的性能,我们建立了一个基于动态时间规整算法 ( d t w ) 的认证系统。实验数据集中有2 1 4 个不同说话人,其中1 0 3 个男性说 1 8 话人,1 11 个女性说话人,每个说话人有三十句不同语句作为语音密码,每个 语句都有2 0 遍语音。开发集采用2 1 4 0 个目标说话人语音,2 1 4 0 个冒充者语 音,比例是1 :l ;评测集采用7 0 0 0 个目标说话人语音,7 0 0 0 0 个冒充者语音, 比例为l :1 0 。这里的基线系统为r a s t a p l p 经过c v n 后的特征参数,并加 入差分倒谱参数。 f e a t u r en l 耶b e r 图2 - 4l - r 选择方法与基于互信息的方法 通过基于互信息的特征选择算法后,系统的平均错误率下降了,在选择特 征达到1 8 维后系统的性能就比基线系统( 2 6 维特征) 有所提高,在选择特征 达到3 0 维以上后,性能比基线系统有很大提高,并且系统性能稳定。而l - r 选 择算法的稳定性不好,所选择的特征集合性能时好时坏,这是因为1 r 选择算法 没有考虑特征之间的相关性。 1 9 第三章用户自选密码的说话人认证系统 用户自定义密码( 用户定制密码) 的认证系统中,用户在注册时可以随意 使用自己喜欢的容易记忆的密码,这很大的增强了方便性和用户使用系统的兴 趣。但是这样也增大了系统建模的难度,由于系统对于用户密码内容未知,很 多现有技术难以直接运用。 图3 - 1 用户定制密码的i a i z , 系统 为了增加用户的自由度,以及密码的安全系数,在用户自定义密码的认证 系统中对于用户的语音密码的词汇集并没有限制,比如用户可以在所有汉字中 随意选取若干汉字构成自己的语音密码( 其实这里所使用的整句模型对于跨语种 的语音密码也是有效的) ,而且用户的语音密码内容往往不为系统所知,在这种 请况下要建立子词模型代价是很大的,在识别之前要对测试语音做解码,大词 汇量下的语音识别错误率还是很高的,这样就会影响整个系统的性能造成不利 的影响。即使用户在注册时通过网络输入的方法将语音密码内容告知了系统, 但是系统仍需要训练出目标用户的所有子词模型,这个工作量是很大的,而且 系统也很难得到足够的训练语音来训练用户的字词模型。所以在这种情况下使 用整句模型是一个好的选择,在后面的实验中可以发现,简单的整句模型可以 达到非常好的识别效果。在课题研究中分别研究了基于d t w ,h m m ,g m m 的整句模型用在说话人识别中的方法和关键技术。 3 1 基于d t w 技术的文本相关的说话人认证系统 3 1 1 动态时间弯折技术( d y n a m i ct i m ew a r p i n g ) 动态时间弯折技术( d y n a m i ct i m ew a r p i n g ) 是早期用于孤立词识别的一 种动态模板匹配方法,由于人类说话时语速的快慢是变化的,如何抓住语速变 化这一信息,将它表达出来,从而减小语速变化对语音识别或说话人识别的影 响是基于模板匹配的语音技术的关键,动态时间弯折技术就是一种很好的非线 2 0 圜0 3 - 2 动态时闻弯折算法 图 动态时问l 芎a 玎井蕊 2 1 每埘最 。 一酬啪 挣 聃嘶鼬 彝一蚬瑟焉 篙嚣水 篙嚣船 腼删郴脚帆肛 蝴粼触|耋 靴删胛蚴献 三蒜积e脚俐螺 掰一 做小 3 1 2d t w 技术的实现关键 将d t w 技术用于说话人认证系统可以有不同的实现方案,不同的实现方 案会对系统产生不同的影响,这些方面主要包括【l9 】:最佳路径的可能出现的区 域限制、最佳路径起始点与结束点的确定、局部路径选择时的不同备选路径形 状、局部路径选择时每条路径的不同的权重分配、全局累积距离的不同的归一 化方案、以及测试语音和参考模板的不对称性等。在建立系统时我们也根据实 验和应用目标选择了自己的实现方案。 首先是确定最佳弯折路径可能出现的区域以及路径的起始点和结束点。由 于在前段信号处理阶段我们对语音作了很好的端点检测和噪音切除工作,所以 在寻找最佳弯折路径时我们规定最佳弯折路径可能出现的区域是全平面,并且 路径起始点和结束点就是语音信号的起始帧和结束帧。这样虽然增大了最佳路 径的搜索范围,但是减少了为每句语音计算额外的限制参数的计算量,而且避 免了在计算这些额外参数时引入的错误。 第二步要确定的就是局部路径的形状,虽然理论上从( f ,) 点之前的任意点 都能到达此点,但是在实践中由于语音信号的连贯性,只有附近的点可能是它 的前驱节点,所以限制局部路径可以在不影响系统性能的情况下大大地减小计 算量。在d t w 算法的实现中主要使用的局部路径如图所示, ,_ _ 。p 。_ _ _ _ _ _ _ - _ _ _ 。_ - _ _ _ - _ i 。_ _ _ - 。_ _ _ i - _ _ _ - _ - 。1 。_ _ _ - 。_ - 。 。 。_ 。_ _ - _ _ _ - 。- 。r 。! 。_ _ _ 。- _ 。_ - _ _ _ _ - 。_ 。 :t y l ,c 1 i ;t y p e i i t y p e1 1 1 :;噼i v ;t y p e v 图3 - 3 局部路径形状与权值 其中第一种路径会使得对最佳路径的搜索是覆盖整个平面的。第一、三、 四,五种路径形状都是对称的,而第二种路径则对于横纵轴是非对称的。第三 和第四种路径形状在计算局部路径时需要累计两段距离。例如第四种局部路径 情况下,下一步最佳路径走向的选择就将根据以下公式计算得到: 2 2 ( 3 4 ) l , b d d o 0 + +1 k 一 一 u u d ) d 木 n 烈仉 + 卜 + d 珍芍广卜卜 刎一u 一 一 一 u o o d d d nm = o d 以下实验通过对不同冒充方式的实验证明第一种路径选择对于说话人认证系统 可以达到最好的效果,因为它是覆盖全平面的搜索。 表3 - 1 不同路径形状的性能 冒充者偷听到了用户语冒充者不知道语音冒充者录下用户的日 音密码内容密码内容常语音进行冒充 t y p ei 8 1 1 1 5 0 2 8 3 t y p ei i 1 0 4 5 2 4 7 3 7 0 t y p ei i i 1 1 6 9 2 6 5 3 7 8 t y p ei v 1 1 2 8 2 2 9 3 6 4 t y p ev 1 1 2 3 2 2 9 3 5 5 除了路径形状的不同外,由第三和第四种路径可以看到它们的形状完全相 同,只是每条路径的权重不同。第三种情况下三条路径有不同的权重,其中上 下两条路径的权重是2 ,而中间路径的权重是1 ,而在第四种路径中,三条路径 的权重相同了,只是将上下两条路径的权值1 平均分配到两段累计距离上去。 路径权值的分配也是影响d t w 最终路径选择的一个因素。权重分配的经验公 式【1 9 1 : w ( k ) = m i n ( i ( k ) 一i ( k 一1 ) ,( 尼) 一j ( k 一1 ) ) t y p e l ( 3 - 5 ) 形( 七) = m a x ( i ( k ) - i ( k 1 ) ,j f ( 七) - j ( k 一1 ) ) t y p e 2 ( 3 6 ) w ( k ) = f ( 七) 一i ( k 1 ) t y p e 3 ( 3 7 ) w ( k ) = f ( 尼) 一f ( 七一1 ) + ( 七) 一j ( k 一1 ) t y p e 4 ( 3 - 8 ) 其中f ( 七) 一i ( k 一1 ) 表示这条路径的起始点和结束点的横坐标之差, y ( k ) 一j ( k 1 ) 表示起始点与结束点的纵坐标之差。四种权重计算公式对于说话 人认证系统的性能影响是接近的。但是在实际中我们发现对于权重的最终的分 配常常是与它的几何特点相关的,比如路径相对比较“短”( 这里“短 实际 是指所跨越的语音帧数少)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论