(计算机应用技术专业论文)采用遗传算法的码本设计及说话人识别.pdf_第1页
(计算机应用技术专业论文)采用遗传算法的码本设计及说话人识别.pdf_第2页
(计算机应用技术专业论文)采用遗传算法的码本设计及说话人识别.pdf_第3页
(计算机应用技术专业论文)采用遗传算法的码本设计及说话人识别.pdf_第4页
(计算机应用技术专业论文)采用遗传算法的码本设计及说话人识别.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)采用遗传算法的码本设计及说话人识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 说话人识别技术作为生物认证技术的一种,是根据语音波形中反映说话人生理和行 为特征的语音参数自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便 性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普 及的安全验证方式。因此,研究一种识别率高、鲁棒性强的说话人识别方法是国内外众 多研究者努力的目标。本文的说话人识别系统,采用了矢量量化和遗传算法相结合的方 法,利用美尔倒谱系数及其扩展参数,选用欧式距离进行识别。 在特征提取中常用a m f c c 来分析各维参数的变化量,用a a m f c c 来表达各维参数 变化的加速度,论文引入一阶美尔倒谱系数的平方和及其差分,表示多维倒谱参数在某 一帧的总的变化量,按照这个思路,又添加了2 维新的特征参数,一个是二阶美尔倒谱 系数的平方和,一个是平方和的差分。通过实验证实,引入的新的特征参数对识别率有 所提高。 采用矢量量化与遗传算法相结合的方法,避免了经典的l b g 算法极易陷入局部最优 解的可能性,弥补了初始码本的选择对码本结果的影响的缺陷。为了防止遗传算法也陷 入局部最优解的可能,采取加大迭代代数、使用了选择部分最优个体,尝试用判断群体 中个体的相似度来改变变异率的方法,从一定程度上防止了所得的结果是局部最优解。 通过实验可以得知,采用遗传算法后,相比采用l b g 算法,识别效果有所提高。而 且,随着训练语音长度的增加,识别效果越好。 通过实验发现,识别效果并不是一直随着码本中心个数的增加而增加,而是达到一 定数目之后,识别效果开始变差。 关键词:遗传算法;矢量量化;说话人识别;美尔倒谱系数 塑三搂堡兰兰箜竺茎 an e wc o d e b o o kd e s i g nm e t h o db a s e do ng e n e t i ca l g o r i t h mf o r t e x t - i n d e p e n d e n ts p e a k e r i d e n t i f i c a t i o n a b s t r a c t s p e a k e rr e c o g n i t i o n a so n eo ft h eb i o m e t r i c st e c h n i q u e si st or e c o g n i z es p e a k e r si d e n t i t y f r o mi t sv o i c ew h i c hc o n t a i n sp h y s i o l o g i c a la n db e h a v i o r a lc h a r a c t e r i s t i c ss p e c i f i ct oe a c h i n d i v i d u a l s p e a k e rr e c o g n i t i o nh a sc a u g h tm a n ya t t e n t i o n sf o ri t sp a r t i c u l a r l ya d v a n t a g eo n c o n v e n i e n c e ,e c o n o m ya n dv e r a c i t ya n db e c o m ea l li m p o r t a n ta n dp o p u l a ra u t h e n t i c a t i o n t e c h n i q u ei nh u m a nl i f ea n dw o r k t h e r e f o r e am o r er o b u s tm e t h o df o rs p e a k e rr e c o g n i t i o n w i t hh i 曲a c e u r a e yo f r e c o g n i t i o nr a t ei st 1 1 ea i mf o rr e s e a r c h e r sa th o m ea n da b r o a d i nm a n y s p e a k e rr e c o g n i t i o n s ,p a p e rc o m b i n e sv qw i t hg a ,i tl l s 铭e u c l i dd i s t a n c et oi d e n f i 匆 a c c o r d i n gt om f c ca n di t se x t e n d e dp a r a m e t e r s i to f t e nu s e s m f c c t oa n a l y z ec h a n g eo fe v e r yd i m e n s i o np a r a m e t e ra n d 幽f c c t 0e x p l a i na c c e l e r a t i o ni nt h ef e a t u r ee x t r a c t i o n f r o mo l de x p e r i m e n t sa n dt h e o r i e s ,p a p e r i n t r o d u c e ss q u a r es u mo ff i r s t - o r d e rd e r i v a t i v em e l c e p s t r u mc o e f f i c i e n ta n dd i f f e r e n c ew h i c h e x p r e s st o t a lc h a n g eo fm a n y - d i m e n s i o nc e p s t r u mp a r a m e t e r si n s o m ef r a m e a l o n gt h a t m e t h o di ta p p e n d st w on e wf e a t u r ep a r a m e t e r st h a ta r es q u a r es u mo fs e c o n d - o r d e rd e r i v a t i v e m e l c e p s t r u mc o e f f i c i e n ta n di t sd i f f e r e n c e t h r o u g he x p e r i m e n t sv e r i f i e d ,n e wp a r a m e t e r s i n c r e a s e $ t h ei d e n t i f i c a t i o nr a t e p a p e ra d o p t st h ec o m b i n a t i o no fv qa n dg a t oa v o i dt h ep o s s i b i l i t yt h a tc l a s s i c a ll b g a l g o r i t h me a s i l yo b t a i nl o c a lo p t i m i z a t i o na n dm a k eu pl i m i t a t i o no fs e l e c t i o n o fi n i t i a l c o d e b o o kf o rf i n a lr e s u l t t op r e v e n tg af r o mg e t t i n gi n t ol o c a lo p t i m i z a t i o ns y s t e mn o to n l y i n c r e a s e si t e r a t i v et i m e s ,b u ta l s o1 1 8 eam e t h o dt h a ti sc o m b i n e db ys e l e c t i n gp a r to fo p t i m a l i n d i v i d u a l sa n dj u d g i n gs i m i l a r i t ye v e r yi n d i v i d u a li nt h ec o l o n yt oc h a n g ea b e r r a n c er a t e ,i t i ns o m ee x t e n tm a ya v o i do b t a i l l i n gs u b o p t i m i z a t i o n f r o me x p e r i m e n t s ,p a p e rk n o w st h a ta f t e ra d o p t i n gg ar e c o g n i t i o np e r f o r m a n c ei s i m p r o v e dc o m p a r i n gw i t hl b g a n dm o r el o n gt r a i n i n gs p e e c hl e n g t hi s ,b e t t e rr e c o g n i t i o n p e r f o r m a n c ei s , p a p e rf i n d st h a tr e c o g n i t i o nd o e sn o ta l w a y sp e r f o r m q a a e ew e l lw h i l e n u m b e ro f c o d c w o r d i si n c r e a s i n g w h e nt h en u m b e rr e a c h e s8 0 m e ,r e c o g n i t i o nb e g i n st op e r f o r m a n c e sb a d , k e yw o r d s :g a ( g e n e t i ca l g o r i t h m ) ;v q ( r e n o rq u a n t i z a t i o n ) ;s p e a k e ri d e n t i f i c a t i o n ; m f c c ( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 一i i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:堡i 2 隍日期:碰:zg 大连理工大学硕+ 研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名 导师签名 碰 一卫 丝一 大连理工大学硕士学位论文 1 绪论 通过语言传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语 言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要手段。因此, 语言信号是人们构成思想疏通和感情交流的最主要途径。现在,人类开始进入信息时代, 用现代手段研究语音处理技术,使人们更加有效地产生、传输、存储、获取和应用语音 信息,这对于促进社会发展具有十分重要的意义。 说话人识别是语音信号处理技术方向之一,是一种自动识别说话入的过程。说话人 识别和语音识别的区别在于,它不注意包含在语音信号中的文字符号以及语义内容信 息,而是着眼于包含在语音信号中的个人特征,提取说话人的这种个人特征,以达到识 别说话人的目的。随着信息科学技术的飞速发展,说话人识别越来越受到人们的重视, 并在相当广泛的领域内已经发挥出重要的作用。 1 1说话人识别研究的背景及意义 对于说话人识别的研究要追溯到上个2 0 世纪3 0 年代,早期的工作主要集中在人耳 听辨实验和探讨听音识别的可能性方面。在第二次世界大战期间,美国国防部向贝尔实 验室提出了识别说话人的课题,目的是根据电话窃听到的录音材料,判断说话人是哪位 德国将领,这对于分析德国战略部署具有重要意义。这项研究持续了三年多,直至二次 世界大战结束。并未达到预期目的,但却产生了语谱图描记技术,为语音的三维图表征 奠定了声纹分析技术的基础。这一研究经过4 0 年代到7 0 年代的逐渐积累过程,形成了 靠说话人噪音识别犯罪的声纹鉴定技术,形成了说话人识别的研究潮流。其问的工作主 要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于 说话人识别。 2 0 世纪6 0 年代至今,说话人识别的研究重点转向对各种声学参数的线性或非线性 处理以及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经 网络和多特征组合等技术【l 】。 今天,说话人识别技术已经关系到多学科的研究领域,而不同领域中的进步都对说 话人识别的发展做出了贡献【2 1 。说话人识别技术是集声学、语音学、语言学、计算机、 信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔。与图像识别技术相 比,说话人识别有着许多独特的优势:携带信息量大、处理响应快、无需专f i n 练、周 边设备简单、应用领域广阔、经济效益可观等。 采用遗传算法的码本设计及说话人识别 考虑到说话人识别技术广泛应用于信息高速公路、多媒体技术、办公自动化、现代 通信、智能系统、银行金融、医学工程、公安司法及机要保密等众多领域,受到了极大 的关注。 1 2 说话人识别研究现状 1 2 1 主要的应用领域 说话人识别研究中,除了研究用视觉判断声音频谱的线索外,在由听觉判断是谁的 声音时,研究了利用声音的各种特征问题。近几年来,由于计算机技术的飞速发展,说 话人识别方法的研究得到了迅速的发展。说话人识别作为具有语音识别与理解功能的智 能人机接口,是新一代计算机的重要组成部分,有着广泛的实际应用领域 3 】,其主要应 用领域包括如下几个方面: ( 1 ) 说话人核对 包括电话预约业务中的声音确认转账、汇款、余额通知、股票行情咨询,以及未来 可能出现的i n t e r n e t 信息服务中的声音身份确认;用特定人的声音实现机密场所的出入 人员检查;用工厂职工的口令实现职工签名管理等。 ( 2 ) 搜索罪犯 判断犯罪现场记录的声音是多个嫌疑犯中的哪一个人的声音,有时可能嫌疑犯中不 包含有真j 下的罪犯,此时常常需要将说话人辨认与确认结合起来。 ( 3 ) 医学应用 如使说话人识别系统响应患者的命令,从而实现对机器假肢的控制等。 ( 4 ) 军事领域的应用 说话人辨认系统用于战场的侦听,以辨认对方指挥人员,或是实时执行军事指挥员 或飞机驾驶的口述命令,只有有经验的操作人员才能进行高精度控制等。 1 2 2 技术的难点 说话人识别技术发展到今天虽然已经有几十年的历史,也取得了许多优秀的成果, 但是仍然存在着大量难点,直到今天为止还未达到令人满意的程度,尽管有些识别器已 经投放市场,并用于商业、军事、工业控制等领域,但基本上还停留在实验阶段。尤其 是如何在高噪声环境下提高识别率,减少误认率等方面有待进一步发展。当然在语音处 理的两领域,语音识别和说话入识别中,相对于语音识另o 来说,说话入识别更加困难( 4 】。 一个很简单的例子是在接昕电话时一般不会搞错通话内容,却经常不知或误判对方的身 份,这主要是由说话人特征提取问题所引起,归结为如下几个方面的原因: 一2 大连理工大学硕士学位论文 ( 1 ) 尚未找到简单可靠的说话人语音特征参数 语音信号中既包含了讲话内容的语义信息,又包含了说话人发声特征的个性信息, 是语音特征和说话人特征的混合体,到目前为止,还没有很好的方法将说话人的个体特 征从语音特征中分离出来,也没有找到简单的声学参数能够可靠地识别说话人。 ( 2 ) 语音信号的变异性 即使对同一说话人和同一文本,语音信号也有很大的变异性。说话人的语音特征不 是静态的、固定不变的。它具有时变特性,并常常与说话人所处的环境、情绪、健康状 况有密切关系,会随着时间的推移和年龄的变化而变化。另外传输语音的通信信道的时 变效应问题也是语音信号产生变异的重要方面。语音信号的变异性从本质上使说话人特 征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确定性 ( 3 ) 在理论上存在将有限特征空间进行无穷划分的问题 在汉语语音识别中,全体音节的集合较小,其数目仅几百个,而全体汉语说话人却 有近1 4 亿。对于由同一语音信号组成的特征空间,语音识别要将其划分为膨个子空闯, 肘为音节个数,而说话人识别要将其划分为个子空间,为说话人个数,由于可 能远大于m ,使得识别说话人要比识别所说内容复杂。在理论上存在将有限特征空间 进行无穷划分的问题。 此外,说话人识别的应用还受到伪装发音等问题的困扰。 尽管说话人识别有一定的难度,但语音中所包括的个性信息一般有两种,一种是由 声道长度、声带等器官的个人先天性差异产生的,另一种是由方言、语调等后天性说话 习惯产生的,而发音器官的个人先天性差异是难于模仿的【5 】。 1 3 说话人识别研究的内容 说话人识别和语音识别一样,都是通过对所接收到的语音信号进行处理,提取相应 的特征或建立相应的模型,然后据此做出判别。因为识别的目的不同,在处理方法上也 各有差别。一般语音识别的目的是为了提取语音信号包含的词语的共性信息,因而尽量 把不同人说话的差别归一化;说话人识别力求挖掘出包含在语音信号中的说话人的个性 因素,因此就要强调不同人之间的特征差异嘲。 1 3 1 说话人识别的系统结构 说话入识别系统一般由预处理、特征提取、建立模型、模式匹配、判决等部分组成, 其系统框图如图1 1 【”。 采用遗传算法的码本设计及说话人识别 图1 1 说话人识别系统框图 f i g 1 1f r a m e o f s p e a k e r r e c o g n l t i o ns y s t e m 预处理,包括归一化、去掉无声段和噪声等;特征提取,包括采样、量化、预加重、 加窗等;建立和应用说话人识别系统,分为两个阶段,即训练阶段和识别阶段。 在训练阶段,需要系统的每个使用者说出若干训练语句,系统据此建立每个使用者 的模板或模型参量参考集。 在识别阶段,将待识别人发出的语音中提出的参量与在训练过程中的模板或参考参 量集进行比较,并根据一定的模式分类算法得到判决结果。对于说话人辨认来说,所提 取的参量要与训练过程中每个人的参考参量加以比较,并把与它距离最近的那个参考参 量所对应的使用者辨认为说话人。对于说话人确认而言,则是将输入语音导出的参量与 其声占为某人的参考参量相比较,如果二者的距离小于规定的闽值,则给予确认,否则 给予拒绝5 1 。 总的来说,要实现说话入识别,应解决如下基本问题: ( 1 ) 语音信号的预处理和特征提取 特征提取就是提取能够有效表征说话人特征的参数。实际上现在采用的特征都是从 语音信号模型中得到的,这些特征既包含了说话人的语音特征,又包含说话人的个性特 征,互相交织在一起,以复杂的形式存在于语音参数中,目前还没有建立起准确分离和 提取这两种特征的技术。 目前,美尔倒谱系数作为特征参数,有很好的识别效果。因此,论文主要采用美尔 倒谱系数及其扩展参数作为特征项,通过实验结果对比,新添加的特征参数,提高了识 别率。 ( 2 ) 说话人模型的建立和模型参数的训练 模型的建立包括模型结构的表示和参数估计算法。模型训练要求系统能够识别说话 人,需要首先用说话人的语音对系统进行训练,并且在识别系统建立和识别系统扩展时, 都需要对模板进行训练。由于说话人的声音常随时期和年龄而变化,常常需要在说话人 一4 百一 而一茎 目憷d 入p 输一 爵 语 大连理工大学硕士学位论文 辨认或说话人证实结果是正确时,由测试音对己识别正确的说话人的模型进行自适应调 整和修正,从而构成自适应说话人识别系统。 在说话人识别系统中,采用l b g 算法训练模型已经可以获得很好的识别效果,但 是由于初始码本的选择对码本的结果有很大的影响,而且,l b g 算法有可能得到空胞腔, 这很大程度上降低了识别效果。因此,论文引入遗传算法,利用遗传算法的全局搜索最 优解的特性,可以获得一个比较好的码本,使得模型更加准确地表征说话人特征。 ( 3 ) 模式匹配 模式匹配的目的也就是进行识别。随着技术的发展,说话人识别的方法不断出现, 包括矢量量化,模板匹配,隐马尔可夫模型,高斯混合马尔可夫模型,人工神经网络等 方法。 ( 4 ) 判决策略 根据匹配结果判决说话人是否所声称的说话人,即说话人确认,或说话人到底是谁, 即说话人辨认。 巷 1 3 2 说话人识别类型分类 根据说话人识别是通过对说话人语音信号的分析和提取,确定说话人是否在所登记 的说话人的集合中,以及说话的人是谁的过程,可以将说话人识别分为说话人辨认和说 话人确认心j 。 ( 1 ) 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 说话人辨认是把待测的说话人的语音判定为属于多个参考说话人之中的某一个,是 多选一的问题。在这种应用中,通常不要求使用人提供个人姓名或个人编号,系统把说 话人的信号特征与计算机中预留下的众多人员的特征相比较,从而确定是谁的说话。 ( 2 ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) 说话人确认是根据待测说话人的语音,确定是否与所声称的参考说话人相符,这种 确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通常要求使用人提供个人 姓名或编号,系统验证说话人与声言人是否为同一人。这时系统把说话人信号特征与计 算机中预留下的声言为某人的特征相比较,从而做出判别,是接受还是拒绝。 用户在使用说话人识别系统时,需要向系统提供一段语音,根据发音材料,可分为 与文本有关和与文本无关两种 9 1 。 文本有关( t e x t - d e p e n d e n t ) 采用遗传算法的码本设计及说话人识别 与文本有关【1 0 l 的识别系统要求用户按照规定的内容发音,并根据特定的发音内容建 立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发音与规 定的内容不符合,则无法正确识别该用户。 文本无关( t e x t i n d e p e n d e n t ) 与文本无关【“】【1 2 】的识别系统则不规定说话人的发音内容,因而要建立精确的模型较 为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑待识别的说话人是否 在注册的说话人集合内,则说话人辨识分为开集( o p e n - s e t ) 辨识和闭集( c l o s e - s e t ) 辨识, 显而易见,闭集辨识的结果要好于开集辨识,但开集辨识与实际情况更为一致。 无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个发音是 现场发音还是录音回放。但文本提示的说话人识别系统可以有效地防止这种情况发生。 具体实现时,可采用随机或其它方法来生成提示文本,如随机的数字串,以使假冒者无 法事先录音。 1 3 3 说话人识别的模式匹配方法 目前针对各种特征而提出的模式匹配方法的研究越来越深入。介绍几种说话人识别 常用的方法: ( 1 ) 概率统计方法 语音中说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益、低阶 反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。其 优点是不用对特征参量在时域是进行归整,比较适合与文本无关的说话人识别。 ( 2 ) 动态时问规整方法( d t w ) 说话人信息不仅有稳定因素( 发声器官结构和发声习惯) ,而且有时变因素( 语速、 语调、重音和韵律) 。将识别模板与参考模板进行时间对比,按照某种距离测度得出两 模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整。 ( 3 ) 矢量量化方法( v q ) 由于每个说话人的语音特征序列在特征空间中都形成了它特定的特征聚类中心,在 矢量薰化中称这些聚类中心为说话人码本,所以用这些聚类中心作为说话人个性特征的 描述模型,识别时求出待测音特征与每个说话人特征聚类中心的距离,以最小距离作为 识别出说话人的准则。论文就采用这个方法进行模式匹配的。 1 3 4 说话人识别系统的性能评价 评价说话人识别系统的性能有多种指标,其中最重要的指标是识别结果的正确性。 而这个指标对说话人辨认和确认系统又有所差别。对说话人辨认系统而言,常用的是正 一6 大连理工大学硕士学位论文 确识别的概率,通常称作识别率,或错误识别的概率,通常称作错误率或误识率。对说 话人确认系统,不仅要考虑正确接收的概率( t a ) 或错误接收的概率( f a ) ,同时还要考 虑正确拒认率( t r ) 或错误拒认率( f r ) 。并且这两种指标是相互矛盾的。通过改变判决 门限可以调整f a 和f r 的相对大小。图1 2 给出了说话人确认的判决门限和错误概率的 关系。 门限的选取不是使两种错误概率都小,而是使一个小了另一个就会变大( 如a ,b 点) 。 门限的选取就视具体的应用情况而确定。比如在控制非常机密的场合,应使f a 尽可能 低,以避免非法进入者造成严重损失。面对大量使用者访问的公共数据库等情况,在缺 少辅助的确认手段来弥补的情况下,太高的拒识率会引起用户的不满,而错误的接收不 至于造成严重的损失,此时便可把f a 定得较高一些。而在图1 2 中的c 点,两种错误 概率相等,这时的性能完全可由两个错误概率中的任一个来确定,所以等错误概率也可 以作为评价确认系统的指标。 判决门限 图1 2 说话人确认的判决门限和错误概率的关系 f i g 1 2r e l a t i o n o f s p e a k c r v e r i f i c a t i 0 i l s j u d g e a n d e r r o r 咖b a b i h t y 对于说话人识别系统的评价,要综合考虑系统的实际应用要求,包括以下方面: ( 1 ) 训练样本数和训练速度 训练样本少能使新用户尽快完成登录工作,使用户乐于接收。甚至在有些场合,比 如犯罪现场,也许只能采集到一句或几句罪犯的声音,用来建立罪犯的声音模板。 ( 2 ) 识别响应速度 识别响应速度显然应是响应速度越快越好。 ( 3 ) 说话方式要求 7 一 采用遗传算法的码本设计及说话人识别 系统尽可能适应使用者的各种说话方式,包括语速变化、声音大小变化及发音内容 变化等。但这并不是一件容易的事,目前希望在保证系统识别性能的前提下,尽可能减 少对说话入方式的限制。 ( 4 ) 对环境的鲁棒性能 工程应用领域的系统应有良好的适应环境干扰的能力,包括噪声、信道畸变、线路 衰减及多人背景语音等。 ( 5 ) 识别人数 在有些系统中,比如语音实现对工厂职工的签名管理或电话语音确认的信息服务系 统,要求系统识别的说话人数较多【”】。 1 4 本文的主要工作 全篇介绍了构建一个说话人识别系统的各个部分的理论及实现方法。详细讨论了特 征提取部分和遗传算法的改进方法。 在m f c c 、a m f c c 、a 幽舒c 基础上,添加了一维的一阶倒谱系数的平方和,它 表示一阶变化量的总和。同理,又添加一维的二阶倒谱系数的平方和。并对这个两个平 方和求一阶差分。这4 维新添加的特征分量对识别率的影响将通过实验来给出结果。 采用的简单遗传算法中,改变选择操作的策略,将直接复制部分最优个体和轮盘赌 法结合,并在群体收敛条件上,添加群体的相似度和改变变异率的方法,这样做的目的 是为了遗传算法可以全局收敛。 一8 大连理工大学硕士学位论文 2 语音信号的分析方法 语音的时域分析和频域分析是语音分析的两种重要方法,并由此衍生出元音、清辅 音、浊辅音,基音、泛音,平均能量、平均幅度、短时过零率等等一系列语音参量。 2 1 语音信号数字化和采集 由于原始的语音信号是模拟量,要想对其进行处理就必须将原始模拟语音信号转换 为数字信号,转换必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数 字语音信号。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信 息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。 语音信号是随时间而变的一维信号,所占据的频率范围可达1 0 k h z 以上,但是对语 音清晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。c c i t t ( 国际电报电话咨 询委员会) 提出的数字电话g 7 1 1 建议,采样率为8 k h z ,只利用了3 4 k h z 以内的信号 分量。这样的采样率对语音清晰度是有损害的,但受损失的只有少数辅音,而语音信号 本身冗余是比较大的,少数辅音清晰度下降并不明显影响语句的可懂度,类似人们打电 话时所体验到的那样。通常模拟电话带宽就只有3 到4 k h z ,这一标准已为全世界所公 认。其它应用的带宽和采样率可以取得高一些。 在将语音信号进行数字化前,必须先进行防混叠滤波,滤除高于1 2 采样率的信号 成分或噪声。目前市面上的声卡对通过话筒输入的语音声波会经过防混叠滤波、a d 变 换、量化处理转换成离散的数字信号。这就相应的减少了工作量,把更多的时间和精力 花在后面的处理部分。 为了识别说话人的声音,首先要用话筒或其他设备将语音转换成电信号,再通过 a ,d 变换器将其转换为离散的数字化采样信号,从而存入计算机的内存中。在实际工作 中,可以利用w i n d o w s 自带的录音机录制语音文件,声卡可以完成语音波形的a d 转 换,获得w a v e 文件,为后续的处理储备原材料。 2 2 语音信号的时域处理方法 2 2 1 采样与量化 首先将模拟语音信号j ( f ) 以采样周期r 采样,将其离散化为j ( 功,采样周期的选取 应根据模拟语音信号的带宽( 依香农定理确定) ,以避免信号的频域混叠失真。在对离散 后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。 采_ j 遗传算法的码本设计及说话人识别 2 2 2 预加重处理 对于语音信号的频谱,通常是频率越高,谱值越小,在语音信号的频率提高两倍时, 其功率的幅度约下降6 d b ,因此,需对其进行高频增强。预加重部分也应采用6 d b o c t 来增强语音信号的高频部分。经预加重处理后的语音信号,其高频部分与中频部分 ( 卜2 k h z ) 的幅度相当。 硬件实现时,可用6 d b o e t ( 2 0 d b d e c ) 梯度的高通滤波器,其传递函数如式( 2 1 ) 所 示。 g ( j ) = 七羔 2 1 ) 软件实现时,数字滤波器的z 传递函数如式( 2 2 ) 所示。 ( z ) = 1 一a z - 1 ( 2 2 ) 其中a 为预加重系数,可取为1 或比1 稍小的值,一般取值为a = 0 9 6 - - 0 9 8 。 2 2 ,3 加窗处理 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程与发音器官的运动 密切相关,这种物理运动比声音振动速度要缓慢得多,因此语音信号常常可假设为短时 平稳的,即在1 0 - , - 3 0 m s 这样的时i 日j 段内,其频谱特性和某些物理特征参量可近似地看作 是不变的。这样,就可以采用平稳过程的分析处理方法来处理了。这种依赖时间处理的 基本手段,一般是用一个长度有限的窗序列杪( 蹦) 截取一段语音信号来进行分析,并让 此窗序列滑动,以便分析任意时刻附近的信号,其一般式如式( 2 3 ) 所示。 q ( 厅) = 玎瓤所) + 矿仰一优) 】 ( 2 3 ) 其中硼表示某种运算,“所) 为输入信号序列,式( 2 3 ) 是卷积形式,因此q 可以理 解为离散信号玎x ( m ) 】经过一个单位冲激响应 ( m ) 的f i r 低通滤波器产生的输出,如 图2 1 所示。由于窗函数一般取为使x ( m ) 中间大、两头小的光滑函数,这样的冲激响应 所对应的滤波器具有低通特性。其带宽和频率响应取决于窗函数的选择。 图2 1 短时分析原理的一般表示 f i g 2 i e x p r e s s i o no f s h o r t - t i m ea n a l y s tp r i n c i p l e 1 0 大连理: 大学硕士学位论文 i 1 0 珂l - 1 矩形窗函数:氓玎) = ( 2 4 ) l0其它 汉宁窗函数:“以) = 0 5 1 1 一c o s ( 2 ;m ( l - 1 ) ) 0 - n s l 一1 o 其它 ( 2 5 ) f0 5 4 0 4 6 c o s ( 2 n n ( l 1 ) ) o n 茎l _ l 汉明窗函数:取捍) = _ ( 2 。6 ) lo其它 在时域分析时,经常使用方窗。但在频域分析时,由于使用方窗时窗外数据为0 , 窗内数据突起,在窗边界处信号不连续,计算出的参数会不够准确:若用汉明窗,在窗 边界处信号平滑地衰减,没有使用方窗时的不连续现象。因此,在频域分析时经常使用 汉明窗。 在对语音信号进行分析时,需将语音信号划分为一个一个的短时段,每一短时段称 为一帧,用窗函数乘以语音信号就从语音信号中提取出含有个样本的语音信号波形。 为尽可能不丢失语音信号动态变化的信息,常采用滑动窗,即帧与帧之间有一定的重叠, 帧移量常取为帧长的一半。 2 3 语音信号的端点检测 找到语音信号的起止点,从而减小语音信号处理过程中的计算量,是众多语音信号 处理领域中一个基本而且重要的问题。端点作为语音分割的重要特征,在很大程度上影 响识别的性能。其实,在很高的信噪比的声学环境中,由于最低电平能量的语声能量也 超过背景噪声能量,因此只要作简单的能量测量就可鉴别出起止点,然而端点检测之所 以存在难度,主要是由于大多数实际情况并非如此。很多情况下,以弱摩擦音和弱爆破 音开头,还有送气与不送气的塞音和塞擦音,或以鼻音为结尾时,将它们与环境噪声分 辨出来是比较困难的,特别是在高噪声环境下,那就几乎是无法分辨。因此长期以来, 如何在噪声环境下设计一种高性能的端点检测算法是该领域研究者们一直关注的问题。 采用遗传算法的码本设计及说话人识别 一般认为,一种理想的端点检测算法应当具有以下几个特征:可靠性、鲁棒性、精确性、 自适应性、简单性、实时性和对噪声特征无需先验知谚 【1 5 1 。 近年来出现了很多种端点检测的方法,如:基于能频值检测方法、应用倒谱特征的 检测方法【4 】、基于l p c 美尔倒谱特征的检测方法、基于熵函数的语音端点检测方法等, 这些方法各有千秋,如基于能频值的检测方法在强噪声背景下的汉语语音端点检测中有 良好的结果,又如基于熵函数的语音端点检测方法用来判断语音的有声与无声段效果非 常好。因此,可以根据具体的情况选用不同的方法。本文选用的是传统的双门限端点检 测法。 2 3 1 短时能量和短时平均过零率 语音信号的两个重要参数短时能量和短时平均过零率,在语音信号端点检测中 起了非常重要的作用,传统的语音端点检测算法一双门限法,就是利用了这两个重要参 数来实现对语音端点的检测。 ( 1 ) 短时能量和短时平均幅度 s ( 栉) 的短时能量计算公式如式( 2 7 ) 所示。 一l e 。= j :( 厅) ( 2 7 ) = 0 s ( 咒) 的短时平均幅度计算公式如式( 2 8 ) 所示。 - 1 m 。= 慨( ,1 ) i ( 2 8 ) n = o 短时能量和短时平均幅度都是表示一段语音信号能量大小的参数,即都是反映信号 强度的参数,但其特性有所不同。 ( 2 ) 短时平均过零率 信号j ( ,1 ) 的短时平均过零率的定义如式( 2 9 ) 所示。 乙= 去 s g n s 。( m ) - s s n s 。( m - 1 ) i ( 2 9 ) 厶,”。 信号的过零率是其频率量的一种简单度量,窄带信号尤其如此,其中,当信号为单 一正弦波时,过零率为信号频率的两倍。对于采样率为e 、频率为最的正弦波数字信 号,平均每个样本的过零率为2 届f 。, 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性,就是用多带滤 波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的计算,即可粗 略地估计频谱特性。第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发 大连理工大学硕士学位论文 计算过零率容易受低频干扰,特别是5 0 h z 交流干扰的影响。解决这个问题的办法,一 个是做高通滤波器或带通滤波,减小随机噪声的影响。 2 3 2 双门限检测法 语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率等特征 参数,并采用双门限判定法来检测语音端点,即利用过零率检测清音,用短时能量检测 浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限,数 值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低 门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来 的自定义时间段内的语音超过低门限,意味着信号开始【1 6 】。 此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个 变量s m m s 表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点, 进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当i ;仃状态恢复到静音状态。 而如果过渡段中两个参数中的任一个超过高门限,即被认为迸入语音段。处于语音段时, 如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音, 继续扫描以后的语音数据,否则标一记结束端点。 基于短时能量和过零率的双门限检测方法存在以下一些问题。例如:在一些特殊情 况,如当语音段的丌始和末尾都是弱摩擦音时,象“四”字的读音的开始段的短时能量 就比较小,而以鼻音结尾的语音,其末端的短时能量也比较小,它们都容易与噪声混淆。 而清音的短时平均过零率最大,浊音和噪声次之,且浊音和噪声的短时平均过零率相当。 该方法是先算出背景噪声能量的统计特性,定出能量高低门限、短时过零率门限, 因为采集到的语音数据在前8 帧是背景噪音,所以可以根据i ; 8 帧的语音数据的平均短 时能量和平均过零率,来重新校对后续的含语音的数据能量和过零率,这样之后,得到 的短时能量和平均过零率可以近似的看成一个干净的语音数据了。利用通过统计算法得 到的能量门限来确定语音信号的初始起止点,然后根据过零率精确得出起止点。从第9 帧开始,假设语音是处于静音段,判断该帧的短时能量是否高于能量高门限,如果是, 则进入了语音段,记录语音度起始端点帧号,记录语音长度c 0 咖t 加l ,转而进入语音 段中判断。如果短时能量或者过零率高于低门限,则进入过渡段进行判断,记录语音长 度c o u n t 加1 。否则,语音仍然处于静音段。在语音段中,如果短时能量或者过零率高 于低门限,则说明语音继续,c o u n t 加l ,如果短时能量和过零率低于低门限且超过4 帧,则说明语音段结束,利用c o 眦t 数记录结束端点帧号。 采用遗传算法的码本设计及说话人识别 图2 2 展示了利用上述检测方法对语音“端点检测”的进行的端点查找,从图中可 以看出,在较干净的环境下,检测的效果还是很好的。 图2 2 端点检测示意圈 f i g 2 2e n d p o i n td e t e c t 1 4 大连理工大学硕士学位论文 3 语音信号的特征提取 特征提取是任何一个模式识别处理问题首先要解决的问题。说话人所发语音信号中 既包括了所发话音的特征,也包括了说话人的个性特征,是话音特征和说话人个性特征 的混合体,它们以及其复杂的形式交织在一起。说话人识别系统的特征提取是将语义内 容舍去而保留个人特征信息。声音中所包含的个人特征信息有两种:一种是声道长度、 声带等先天性发音器官的个人差别所产生的,是以共振峰频率的高低、带宽的大小、平 均基频、频谱基本形状的斜率等所表现的;另一种是由方言、语调等后天性讲话习惯产 生的,是以基频、共振峰频率的时间图案、单词的时间长等所表现的。两种特征要准确 分量并提取是困难的,多采用同时含有两者特征的特征参数。可见如何选取能更好地表 征说话人的特征参量,是说话人识别系统面临的一个基本问题。 在众多的参数中,线性预测系数是能够有效地表征语音的全极点模型参数。由它推 演出的多种参数,如部分相关系数、声道面积比函数、线谱对系数以及l p c 倒谱系数 等,都是可以应用的。当然还有一些鲁棒性参数,包括m e l 频率倒谱系数,以及经过信 道谱减或噪声谱减的倒谱等。 3 1 线性预测系数l p c 线性预测( “n e a r p r e d i c t i o nc o e f f i c i e i l t ,l p c ) 这一术语是维纳1 9 4 7 年首次提出的, 此后,线性预测技术应用于许多领域中。1 9 6 7 年,只本学者板仓( i t a k 撇) 等人最先将线 性预测技术直接应用到语音分析和合成中。目i ;i ,线性预测作为一种工具,几乎普遍地 应用于语音信号处理的各个方面,是最有效和最流行的语音分析技术之一,在各种语音 分析技术中,它是第一个真正得到时问应用的技术。线性预测技术产生至今,语音处理 又有许多突破,但这种技术目前仍然是非常重要的分析技术基础。 语音信号是一种典型的时变信号,然而如果把观察时间缩短到毫秒级,则可以得到 一系列近似稳定的信号。人的发音器官可以用声管模型进行模拟。由于发声器官不可以 毫无规律地快速变化,因此语音信号是准稳定的。全极点线性预测模型( l p c ) 可以对声 管模型进行比较好的描述,这里信号的激励源是由肺部气流冲击引起的,声带可以有周 期振动也可以不振动,分别对应浊音与清音,而每段声管则对应一个l p c 模型的极点。 3 1 1 线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论