




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE4一个具有身份鉴别功能的声纹识别系统设计摘要随着时代的发展和技术的进步,传统的利用个人所知道的信息作为身份确认的依据的方法,由于账号的逐渐增多,需要使用者记忆的密码数量也越来越多,并且密码本身容易被使用者遗忘等现实问题,给人们的日常生活带来了很多不便,主流地位面临着严峻的挑战。而利用人类生物学特性进行身份认证的技术正蓬勃发展,给人们的日常生活提供了新的可能性。因此一个可以基于声纹这种生物特征进行身份鉴别的程序设计就非常具有实际意义。本文设计了一个较为完善的具有身份鉴别功能的声纹识别系统,该系统能够实现针对单人的说话人识别。该系统选择高斯混合模型作为说话人语音识别模型,功能上设计为文本相关说话人识别,自建语音集,提取梅尔频率倒谱系数(MFCC)作为说话人语音特征参数对模型进行训练和测试,实现了对目标说话人进行身份鉴别的目的,为实际生活中的需要进行身份鉴别的场合提供了一种新的选择。测试结果表明,本系统利用声纹对说话人身份进行鉴别结果达到预期目的。关键词:高斯混合模型;声纹识别;梅尔频率倒谱系数目次TOC\o"1-2"\h\u1绪论 51.1课题背景和意义 51.2国内外研究现状 51.3课题内容安排 72基础理论与设计方案 82.1声纹识别介绍 82.2生理学依据 82.3声纹识别基本过程 92.4系统总体方案设计 103系统运行与设计 113.1语音集建立 113.2采样和量化 113.3语音预处理 113.4说话人特征提取 153.5GMM声纹模型 184功能实现 274.1软硬件环境 274.2语音识别测试 27结论 30参考文献 321绪论1.1课题背景和意义语音处理技术在最近几十年中不断地进步和发展,也因此语音识别使得逐渐在人们的生活中占有一席之地,它使人们的各项日常和生活变得更加方便和便利的同时,也逐渐代替了许多人工服务领域,使人们的生活中的许多事项从动手转变为动嘴[1],省时又省力。目前主流的身份确认系统仍旧使用预先设定的个人信息进行身份确认和鉴别,最常见的密码就属于这种身份确认系统。但随着网络技术的飞速发展和人们日常生活方式的变化,人们使用的账号也逐渐增多,需要使用者记忆的密码数量也越来越多,并且密码本身在使用过程中就很容易被使用者遗忘,生活中因忘记密码而进行身份确认的状况屡见不鲜,给人们的日常生活带来了很多麻烦,因此它的主流地位正面临严峻挑战。而利用人类生物学特性进行身份鉴别就可以省去预先设定个人信息或后续记忆密码的步骤,让人们的日常生活更加高效便捷[2]。人类生物学特性包含很多方面,最常见的也是最常使用的就是指纹,除此之外还有视网膜、声音、人脸等。与其他人类生物学特性相比,声纹非常容易产生和获得,是人类最自然的特征之一,同时由于遗传信息决定的每个人的生理特征不同,每个人的声音也各不相同,从而可以作为身份鉴别的依据对不同的人进行一个区分。相对于传统的身份确认系统,以声音为依据进行身份鉴别不需要特意去进行密码的记忆,从而让人们的日常生活变得更加轻松和开放,利用声纹进行身份鉴别在实际应用过程中对硬件的精度要求也并不高,成本低廉,相比较于其他的人类生物学特征,使用声音进行身份鉴别也更容易被用户所接受。因此本课题基于声纹识别的身份鉴定设计具有深刻的现实意义,同时也具有广阔的发展空间。1.2国内外研究现状声纹(Voiceprint)是语音特征的总称,它根据那些稳定、独特和可测量的特征来描述和识别说话者的声音和语音模型。语音特征是指从说话人的声音中提取的用以描述该说话人的声音的个性参数。近年来,以指纹、声纹、人脸和虹膜等生理特征识别为目标的生物识别技术得到迅速发展,并在许多领域得到应用,特别是在人类识别方面。它还被广泛应用于刑事侦查、犯罪追踪、国防监控、证券交易、银行交易、语音解锁等领域,具有很大的潜力[3]。语音识别,也可以称作说话人识别,它本质上可以说是一个分类问题,从身份确认的形式上来说,可以把它分为两类,一类是对说话人的确认,即某一段话是否是某个人所说的“是”或“否”的问题,另一类是对说话人的识别,即在多个说话人中最终确认说话人是哪个的“多选”问题[4]。语音识别需要解决的核心问题是提取采集的语音中的表征说话人身份的语音特征,利用该特征进行训练。然后处理待识别的语音信号,将其与模型集中的数据进行比较,并计算出一个分数从而对说话者的身份进行确认[5]。语音识别系统的组成部分可以简单的概括为三个部分:提取语音特征、模型构建、相似度判断,语音识别系统流程图如图1.1所示。图1.1语音识别系统流程图回顾声纹识别技术的发展经过,可以分为四个阶段。第一个阶段为上世纪四十至七十年代。这个阶段的代表人物为劳伦斯·科斯塔。“声纹”(Voiceprint)这一概念也在这一时期正式出现[6]。第二个阶段为上世纪四十年代至七十年代。在这个时期,声纹识别技术上升到一个新的阶段,这个阶段的研究大多将重点放在语音信号的特征参数上。探究如何提取特征参数,如何选择合适的特征参数是这一时期的研究重点。在S.Pruzansky的贡献下,声纹识别理论体系在这个时期初步建立起来,同时也出现了一大批声纹特征[4],如线性预测倒谱系数(LPC)、梅尔频率倒谱系数(MFCC)。这个时期研究的声纹特征在如今提取说话人特征,进行后续身份鉴别中仍发挥着至关重要的作用[7]。第三阶段为上世纪七十年代至九十年代。这一时期有关声纹识别模型的研究飞速发展,出现了许多模式匹配模型,如矢量量化技术(VQ)、动态时间规整(DTW)、隐马尔科夫模型(HMM)等模式匹配模型[8]。第四阶段为九十年代至今。经历了之前几个阶段的发展,此时声纹识别技术已经变得比较成熟,逐渐发展到实际应用方面,研究的重心转向如何提高声纹识别系统的可靠性和实用性问题。为解决这个问题,在这个阶段一方面需要寻找更能代表说话人特征的参数,另一方面也产生了新的模式匹配理论[9]。在语音处理技术方面,相较于国外,我国技术发展较晚,水平也比较落后,但在中科院的主持和领导下以及863计划的执行下得到了快速发展,基本与国外先进水平持平。但研究方向比较单一,大多偏向于语音识别方向[10]。近些年的说话人识别的研究方向更加多元化,但总体来说可以归纳为两个方向:一个方向为基于特定群体的嵌入式方向语音识别,此方向侧重于“与文本无关”;另一个方向则更为高级,注重于说话人所说的内容。目前在国内,声纹识别技术已经广泛应用到军事、国防、政府、金融等多个领域。因此本课题基于GMM声纹识别的身份鉴别设计,不仅具有重要的现实意义,也具有一定的研究价值。1.3课题内容安排本文的课题安排为:第一章为绪论,系统地介绍了本课题的研究背景,应用前景以及国内外研究现状,第二章为基础理论和设计方案,系统论证了声纹识别的依据和过程以及实现声纹识别身份鉴定的关键问题,并给出整体设计方案。第三章为系统运行和设计,对系统如何处理语音信号、如何提取特征参数、如何对模型进行训练和识别进行设计和论述。第四章为语音识别功能测试,测试设计的程序是否能够实现目标功能。2.基础理论与设计方案2.1声纹识别介绍声纹(Voiceprint)本质上是一种声波频谱,具有特定性和相对稳定性,包含着能够表征说话人个性信息的语音特征参数,每个人的声纹都是独一无二的,同时随着年龄的增长也能保持相对的稳定性,不会发生很大的变化,因此可以用它作为区分不同人的依据,来进行身份鉴别。声纹识别(VoiceprintRecognition,VPR),也称说话人识别(SpeakerRecognition),即利用人的生理学特征——声音,对说话人进行区分,从而实现身份鉴别的目的。声纹识别技术经常与语音识别技术搞混,这两种技术的区别在于它们的侧重点不同。语音识别技术的侧重点放在了语音的内容上,关心点在说了什么话有什么内容上;而声纹识别的侧重点放在了语音中包含的能够表征说话人身份的特征参数上,从结果上看并不关心究竟说了什么话,而是关心是谁说了这句话[11]。根据声纹识别的结果是否需要用户录制内容特定的语音文本,声纹识别可以被划分为两类:文本相关或文本无关。如果限定了用户的语音内容,用户的语音只能为一段由设定者提前设定好的文本,则将这种识别方法称之为文本相关说话人识别。这种识别方法排除了语音内容这个输入变量,而将变量仅仅限定为说话人,从而提高了整体的识别率[12]。本设计采取的就是这种声纹识别方法,从而提高了识别准确率。而若不对用户的语音内容进行限制,则输入的变量就并不单一,而是多变量输入。多变量的输入提高了对系统的要求,需要更为复杂的模型,但相比较于本文提及的文本相关的识别方法,文本无关的识别方法明显泛用度更高,使用者也有更高的自由度。2.2生理学依据人类语音的产生过程是一个非常复杂的过程,简单来说人体中负责管理语音的中枢和发声器官承担着使人类发声的作用,而发声的具体经过则可以简要地概括为下文描述的过程:在呼气和吸气的过程中肺部会产生气流,气流经过声门声道时会引起声带的震动,从而产生语音。在整个过程中,肺部相当于发声的信号源,喉部则承担了调制器的作用,声道和声道在声音的形成过程中起着决定性的作用[13]。语音产生的机理图如图2.1所示。图2.1语音产生机理图同样是声音,根据是否引起声带的共振也被分成两类,如果气流引起了声带的震动而发声,这类声音被称为浊音(voice)。而如果气流仅仅只是通过声带,而没有引起声带的震动而发出声音,这类声音则被归类于清音(unvoice)。决定声音中的个人特性从而区分不同的说话人的依据从生理学上来说,与声带的特性有关系,并且浊音具有一定的周期性[14]。所以浊音是语音是语音识别技术中主要使用的部分。清音本身因为并不经过声带振动产生,因此并不具有周期性,从频谱上看更接近于噪声,特点也与随机噪声非常接近,在语音识别技术中属于干扰部分。2.3声纹识别基本过程声纹识别实质上是一个分类问题,大致上可以划分成两个阶段:训练阶段和识别阶段,具体结构如图2.2所示。图2.2声纹识别系统结构图训练阶段的工作是利用采集到的语音数据,通过声纹识别相关的算法为语音数据对应的说话人建立特定的模型,模型的种类也有很多,如GMM模型,HMM模型等都是声纹识别常用的模型。这些建立起来的与说话人相关的模型被存放在声纹模型库中,将在识别阶段中使用。识别阶段的工作是按照一定的相似度规则或概率似然率,将从待识别的语音中提取的特征参数与训练阶段建立起来的模型参数进行对比,根据两者之间的距离大小或得分高低来判断对应哪个说话人模型,距离最小或者得分最高的为识别结果[11]。观察图2.2可以发现,如果想要利用声纹实现身份鉴别的目的,有两个关键性的问题需要解决:(1)语音信号的特征提取(2)说话人模型的建立。2.4系统总体方案设计本设计总体分成四个部分,第一部分是对语音进行预处理,第二部分是提取特征参数,第三部分是模型的训练,第四部分为识别阶段。首先输入语音信号,建立训练语音集;其次需要对输入的语音信号进行预处理,为后续的特征提取做准备;然后是特征提取,这部分的目的是提取出语音信号中能够区分不同说话人的语音特征,把处理过的语音特征保存在模板库中;最后将需要识别的语音提取出的语音参数与模板库里的语音匹配;最终得到识别结果。系统运行与设计3.1语音集建立本设计为文本相关说话人语音识别,受客观条件限制选择自建语音集,采集的语音信号为一段固定的数字,语音采集工具为安卓手机内置的录音APP。采集的文件格式为m4a。m4a是MPEG-4音频标准的文件的延展名,支持式设备多,也很容易获取,但缺点是文件较大。本设计采集了10人的说话人语音信号,性别比为1:1,将采集的这10人的语音作为训练语音集使用。采集需要识别的目标说话人的不同语速的语音作为测试语音集使用。3.2采样和量化从信号类型上来看,语音信号是用随时间变化的物理量所表达的信息,因而是模拟信号的一种,但从计算机的功能考虑,它能够处理的0跟1相关的数据,也就是数字信号。因此在对语音信号进行预加重、加窗、分帧、端点检测等一系列预处理之前,需要先对其数字化,即采样和量化。采样的作用是将采样的目的是将模拟信号转化为离散信号,量化则是将其转化为数字信号。根据奈奎斯特采样原理,即若频带宽度有限的,要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率,语音信号的频带约为300~3400HZ,采样频率至少要为6800Hz[15]。在实际采样中,采样频率fs取8K或11K。本设计中将采样频率设置为8K。由于本设计使用的语音信号都是基于手机麦克风和录音APP录制的,录音后直接得到语音文件,其格式为m4a,因此实际上采样和量化的工作已经完成了。3.3语音预处理语音预处理分为预加重、分帧和加窗、端点检测三个部分,它的目的是对读入的语音信号进行处理,为后续提取表征说话人身份信息的特征参数做准备。3.3.1预加重语音信号的高频区含有大量的表征说话人个体特征的信息,这也正是进行说话人身份鉴别所需要的关键信息。但由于人类特殊的发声生理结构导致频率在800Hz以上的语音信号会随着频率的升高而加快衰减。由于人类语音具有这样的特征,因此如果我们想要从语音信号中提取特征,必须要对语音信号的高频部分进行增强处理,即预加重处理。预加重的目的是提高高频部分,使信号的频谱变得平坦,并保持在从低频到高频的整个频段,能够以相同的信噪比寻求频谱。预加重是为了补偿语音信号中被发音系统抑制的高频部分,通过消除声带和嘴唇在发生时的影响,也是为了突出高频的共振峰。本设计采用软件实现方式完成预加重,通过软件设计一个一阶FIR高通数字滤波器,将语音信号通过该高通滤波器,从而实现预加重的目的。高通滤波器的传输函数如3-1所示:H(z)=1−z一般来说加重系数μ的取值为0.9~1.0,在本设计中μ取0.95。3.3.2分帧与加窗由于语音信号随时间的变化而变化,本身并不平稳并且容易受发声情形、周围环境、声道特点、系统因素等诸多要素的影响,为了对语音信号进行处理,需要对语音信号进行分帧处理。分帧指认为语音信号在极短的时间范围内保持平稳,利用特定的窗函数,对语音信号进行分段,每一段被认为是一个分析帧,简称一帧。这个极其短的时间范围通常为10~30ms。分帧的常见方法有两种,一种是连续分帧,一种是交叠分帧。连续分帧指将语音信号分成一定长度的帧,这种分帧方法帧与帧之间无重叠部分,而采用交叠分帧的方法,帧与帧之间有一定的重叠部分,重叠部分被称为帧移,其长度大约是一帧长度的1/3~1/2。语音信号交叠分帧的示意图如图3.1所示。本设计采用交叠分帧的方法对语音信号进行分帧处理。图3.1语音信号交叠分帧加窗指与窗函数相乘。若用x(n)表示初始的原始数字信号,用w(n)表示加窗时使用的窗函数,则加窗过程如式3-2所示: x(n)=x(n)∗w(n)在数字信号处理领域中常用的窗函数有矩形窗(RectangularWindow)、汉宁窗(HanningWindow)、汉明窗(HammingWindow):w(n)=1,0≤n≤N−10,n<0∥n>N−1图3.2矩形窗及其频谱w(n)=0.54−0.46cos[2πn/(N−1)],0≤n≤N−1图3.3汉明窗及其频谱w(n)=0.5[1−cos(2πn/(N−1))],0≤n≤N−1图3.4汉宁窗及其频谱以上三种窗函数中,矩形窗的旁瓣太高,易产生频谱泄露现象,所以该窗函数一般不建议使用。而汉明窗相对于其他窗函数的主瓣宽、旁瓣低,能量主要集中在主瓣,在三种窗函数中性能最佳,因此本设计中采用汉明窗函数对语音信号进行加窗处理。3.3.3端点检测从现实角度考虑,采集到的语音信号不可能全部都是有用信息,不可避免的会含有静音成分,若能找到静音段并剔除,只对有效声音段进行特征参数的提取,将有利于数据的处理。因此需要进行端点检测。端点检测的目的是找到语音信号中有效的部分,定位出一段语音的开始点与结束点,同时对于静音部分和噪声部分等影响语音有效部分提取的部分将其去除。由于语音信号为时变信号,并不是一直不变,且各个音之间的能量存在差异,因此可以利用短时能量对语音信号的个性与特点判断和研究。用En代表第n帧语音信号x(m)的短时能量,其计算公式如式3-6:En本设计中频率设置为16KHz,帧长设置为256,通过音量进行检测,确定语音信号的开头和结尾,同时剔除静音帧,短于0.05s的声音片段将被删除。3.4说话人特征提取实现说话人身份鉴别的关键点在于对说话人的语音信号提取能够表征其身份的、具有个体差异的特征参数,消除无用的干扰信息。因此选取什么样的特征参数、怎样提取特征参数是设计是关键问题。3.4.1特征参数的选取用来表征说话人个性信息的特征参数很多,由于存在如噪声信号的对特征参数的干扰、用来进行训练样本的语音数量的不确定性等问题,提取声纹识别系统特征参数的方法也有很多种,但从它们对特征参数提取的本质属性上来说,我们可以将其归为三类:(1)线性预测系数及其衍生。这类特征参数主要包含这几种常用特征参数:线性预测系数(LPC)、线性预测倒谱系数(LPCC)。(2)由语音频谱直接导出的参数。如共振峰、梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)。(3)混合参数。混合参数由上述的各种不同的特征参数组成,是表征说话人身份的特征矢量。特征参数本身对声纹识别系统影响非常大,甚至影响整个系统的性能,选取一个合适系统的特征参数可以提升整个声纹识别系统的识别率,而且可以增强系统的稳定性。随着声纹识别技术的发展和不断进步,目前声纹识别技术中主流的表征身份的声纹识别特征包括线性预测系数(LPC),线性预测倒谱系数(LPCC),梅尔频率倒谱系数(MFCC)。线性预测系数(LPC)将需要分析的语音信号设定为一个模型的输出,利用模型的各项参数对语音信号进行描述和分析。线性预测倒谱系数(LPCC)则是在线性预测系数(LPC)的基础上,分离丢弃信号生成过程中的激励信息。梅尔频率倒谱系数(MFCC)是基于人的耳朵的听觉原理的一种特征参数,相比较于上述两种参数,它的识别效果最好,应用也最广泛。大量的研究数据表明,与其他特征参数相比,MFCC参数能够更好地提高系统的识别性能。基于梅尔频率倒谱系数(MFCC)的优势,本设计选择梅尔频率倒谱系数(MFCC)作为特征参数。3.4.2MFCC特征参数的提取梅尔频率倒谱系数(MFCC)是一种基于Mel频率域的倒谱系数,可以与实际频率通过一定的运算进行转换,相互之间的转换关系如3-7所示:Mel(f)=2595lg(1+f/700)(3-7)MFCC参数的提取过程可以概括为如图3.6所示:图3.5MFCC参数提取MFCC参数提取过程如下:(1)语音信号s(n)经过预处理后,变为时域信号x(n)。将时域信号x(n)后补若干0以形成长为N(通常取N=512)的序列,再用离散傅里叶变换(DFT)或快速傅里叶变换(FFT),将这些时域信号转化为线性频谱X(k),变换公式为式3-8:X(k)=n=0N−1x(n)为了缩短运算时间,本设计选择快速傅里叶变换(FFT)。快速傅立叶变换(FFT)是离散傅立叶变换(DFT)的一种快速算法。该算法的基本思想是将一个长度为N的序列的DFT分解成较短的DFT来计算。对DFT算法分解的依据是WN(1)周期性:W(2)对称性:W(3)可约性:W由上述特性可得出:W利用WN(2)将得到的线性频谱X(k)通过梅尔(Mel)频率滤波器组,这样线性频谱就转换为Mel频谱,再对其取对数能量,得到对数频谱S(m)。梅尔(Mel)频率滤波器组是一组三角带通滤波器,0≤m≤M,M为滤波器的个数。这些滤波器具有三角形滤波特性,对应的中心频率为f(m),当m值增大时,f(m)的距离也增大,当m值减小时,f(m)之间的距离也减小,如图3.6所示。每个带通滤波器的传递函数如式3-9。本设计选择三角带通滤波器,数量M设定为20。Hm0(k<f(m−1))k−f(m−1)图3.6Mel频率滤波器组由于我们的耳朵对声音的认知不是线性的,这就需要经过对数运算使之变成人耳更好识别的非线性,从而提高声纹识别系统的鲁棒性。对Mel频谱取对数,进而由线性频谱X(k)到对数频谱S(m)的总传递函数为式3-10:Sm=ln通过这样的计算,我们就可以得到语音信号的重要特征,即每一帧的能量。(3)将S(m)经过离散余弦变换(DCT),即可以得到MFCC参数C(n),如式3-11所示:C(n)=m=13.5GMM声纹模型3.5.1模型选择声纹识别模型在声纹识别过程中起着非常重要的作用,提取的说话人特征参数需要使用恰当的模型来表征,从而使其具有足够的可信度,能够代表说话人。因此,模型的选择应从语音信号的类型、期望的性能、计算量及存储量等方面考虑。目前主流的声纹识别模型为以下几种:(1)概率统计方法由于可以将非常短一段时间中的语音信号看作稳定的,选用概率密度函数和均值、方差等相关的统计量这些特性,利用对语音信号拥有的稳定的特性如基音、共振频率等,通过数学分析进行分类判决,这种方式被称为概率统计方法。该模型体现了语音信号的各项统计信息,利用某种概率密度函数,通过描述语音信号特征在特征空间的分布情况,来表征说话人。该概率密度函数的一组参数作为语音模型。这种方法的优势在于不需要对特征参数进行时域上的规整,其中最具代表性的模型为隐马尔可夫模型(HMM)和高斯混合模型(GMM)。(2)动态时间规整方法(DTW)由于说话人的语音信号随时间不断变化,若利用语音信号的这种时变性,对比识别模型与参考模型的时间,从而根据一定的距离测量得出两模型间的相似程度,这种方法被称为动态时间规整方法(DTW)。但是在实际使用过程中利用DTW进行声纹识别也暴露出一些问题,如由于该方法识别依赖于端点检测的情形过多,却并不能有效利用语音信号中所包含的时序信息,从而导致计算量过大,识别时间较长。在实际使用过程中体验并不好。(3)人工神经网络方法(ANN)ANN与其他方法最大的不同在于,它是一种模拟生物特征的方法。ANN为并行分布系统,可以自组织、自学习,同时克服了传统人工智能的诸多不足之处,如在直觉处理、非结构化信息等方面,性能优秀。但在实际使用过程中依旧存在一定的问题,其训练样本的时间相比较于其他方法较长,并且随着样本数目的增加,不仅训练的时间会增加,并且训练的难度也随着增加。目前常用的神经网络有多层感知器(MLP)、径向基函数(RBF)网络、自组织映射(SOM)网络等。(4)支持向量机方法(SVM)除人工神经网络方法(ANN)外,还有一种新的机器学习方法,即支持向量机方法(SVN)。相较于其他方法,该方法在有关小样本的学习问题上有比较好的表现,它的基础是统计学习理论。(5)动态贝叶斯网络(DBN)动态贝叶斯网络(DBN)是在贝叶斯网络(BN)基础上的拓展。贝叶斯网络(BN)本身的优势在于在面对在多种控制因素下,事物存在有条件的依赖性时,能够很好地解决问题。它本质上是描述变量间连接概率的图形模式,非常适合描述不确定性和概率性的事物。但贝叶斯网络只能在静态系统中使用,而声纹识别系统为时变的动态系统,为了解决不能适用的问题,对贝叶斯网络扩展成动态贝叶斯网络(DBN)。动态贝叶斯网络将静态的网络结构与时间信息结合起来,将概率基础作为模型,从而使拓展后的动态贝叶斯网络可以处理时序数据。(6)融合方法融合方法是把以上分类方法与不同参数进行组合,这样可以使系统的性能有所提升。目前常用的有维数约简与识别方法结合以及识别方式的结合。维数约简与识别方法结合是局部PCA和GMM结合的声纹识别系统,局部PCA可以约简特征矢量的维数,减少了GMM模型的训练时间,提高了识别率。识别方式的结合主要是指SVM分类器与其他的识别方式结合,如与GMM结合的声纹识别系统,GMM可以处理连续信号,SVM比较适合分类,同时GMM的结果代表了同类样本的相似度,并且SVM的输出结果可以体现出异类样本间的差异,二者充分利用各自的优点,识别效果比较好。本设计对说话人身份的鉴别选定为文本相关的方式,并且受到条件的限制,无法大规模采集多人的语音信号。对比上述声纹识别的模型和方法,高斯混合模型(GMM)训练时间短,识别成功率高。因此本设计选择高斯混合模型(GMM)作为声纹识别的模型,对其进行训练。3.5.2理论依据GMM模型又被称为高斯混合模型,是一种概率统计模型。GMM模型之所以能够应用在声纹识别技术中,是因为我们认为不同的音素构成说话人的语音,而相同的音素可以被分类进一个组,因此就可以基于不同音素对从一系列语音帧提取的特征参数序列进行分类。而如果我们从概率分布的角度来看,说话人的特征参数在特征空间中的分布由表示不同音阶的特征向量的列的分布的集合构成,其中某一类特征向量间遵循相同的高斯分布[17]。其次,在统计学中,任意分布可以用若干高斯分布的线性组合来表示。因此,高斯混合模型可以在理论上描述各种声音特性的统计分布。基于GMM模型的声纹识别的基本原理是构建基于每个说话者的特征向量的分布来确定模型参数的GMM模型。由于表示说话人特征的特征向量的概率分布不同,GMM模型的参数也不同。高斯混合模型的本质是多维概率密度函数,一个具有M个混合成分的d维GMM,可以用M个高斯成员的加权和表示,如式3-12所示:P(x∣λ)=i=1Mω上式中,x为d维观测矢量;wi(i=1,2,⋯,M)为混合权值,满足i=1Mwi=1;pi(x;μ基于上述的描述,高斯混合模型(GMM)可以用图3.7表示[16]:图3.7高斯混合模型(GMM)通常用均值矢量、协方差矩阵、混合分量的权值来表示GMM,所以会得到一个GMM参数λ,如式3-14所示:λ={ωi,3.5.3模型训练算法GMM参数的训练通常采用最大似然估计的方法。若观察矢量序列X={xt,t=1,2,⋯,T}中各个观察矢量xt为独立不相关,参数λ的似然度为式L(λ∣X)=P(X∣λ)=t=1TP(xt训练的目的就是估计一个新的模型参数λ^,使得L(λ∣X)最大,即式3-16λ^=argmaxλL(λ∣X)=而GMM参数的估计基于最大似然准则,通过期望最大化算法(EM)迭代实现。其算法框图如图3.8所示。图3.8EM算法框图加入辅助函数Q(λ,λ')可以更清晰明确的表述EM算法。辅助函数Q(Q(λ,λ其中y={yt,t=1,2,⋯T},称之为隐状态号,如果xt由第i个高斯分量产生,则yQ(λ,λ定义了Q函数以后,EM算法的具体实现过程如下[17]:E-Step:求训练样本落在假定的隐状态yt=i的概率Pyt=ixM-Step:求Q(λ,λ')相对于ωi=1μi=t=1Σi=t=1利用上述EM算法估计GMM参数时,需要首先设定GMM的混合数M和模型的初始参数。利用EM算法估计GMM参数时必须确定GMM的混合数M和模型的初始参数。在声纹识别的系统的实际运行过程中,应该根据训练语音的长度确定M的取值。因为如果M的取值太大,那么在实际运行过程中会在系统中建立很多模型参数,同时也会造成训练和识别运算量的增加,使整体识别时间变长;如果M的取值太小,那么在运行过程中会出现无法准确表征说话人语音信息的情况,在为说话人建立模型之后,也会因此导致系统识别误差的出现。所以M的取值一般为16或32,而考虑到本设计的数据和运算量,在本次设计中M的取值为12。GMM参数的初始化方法的常用方法有两种,一种为随机抽取法,即从样本中随机抽取M个特征矢量,将其定义为GMM的均值μi(i=1,2,⋯,M)的初始值,同时相应的协方差矩阵本设计选择聚类选择法初始化GMM参数,采取K-均值聚类算法,该算法通过最小化各个点到中心点的距离的平方和来实现,流程图如图3.9。图3.9K-均值聚类算法流程图具体步骤为:(1)将样本划分成互补相交的k个子集,计算每个子集的均值m1,m2,⋯mk和Je,若第i个子集有NiJe=i=1k式3-21为误差准则,表示k个聚类中心m1,m2,⋯mk(2)随机抽取一个x,设x∈S如果Ni计算ρj如果存在某个t(t≠i)对全体的j,有ρt<ρi,则把x从重新计算mi,m如果连续迭代N次Je依照上述分析,训练模型在说话人模型建立之后进行,在GMM声纹识别基础之上建立,训练流程如图3.10所示。图3.10声纹识别训练流程图首先需要对语音信号进行预处理,预处理的基本内容包含有预加重、分帧加窗、端点检测,从而在预处理的基础上针对不同说话人的语音信号提取出相其对应的特征参数。预处理以及如何进行预处理已经在上文论述过,此处不再赘述。其次利用GMM将提取到的特征参数初始化,随后开始说话人GMM训练,在此需要注意在初始化过程中应将GMM的混合数设定为12。本设计为实现运行过程的持续循环进而达到收敛界限,引入EM算法对GMM参数进行预估,即为利用初始模型参数λ去估计一个新的模型参数λ^,进而使得式3-16成立。新的模型参数会成为下一次估计的初始模型参数,此过程持续循环到达到收敛界限,从而得到每一个说话人的GMM3.5.4身份鉴别算法如果事先假定一共存在S个说话人,与其相照应的GMM就是λ1,λ2,…,S^基于上述分析,那么基于GMM声纹识别说话人识别系统的运行结构框图如图3.11所示。图3.11说话人识别系统结构框图假设每个说话人出现的先验概率相等,即P(λkS^=arg在实际使用过程中,为了简化计算,通常对上式3-19两边分别取对数。假设在不同时间的观察矢量xt,(t=1,2,…,T)是独立提取的,那么依据对GMM的定义,说话人辨认的目标将变为计算式3-26:S^=其中高斯混合模型λk通过该算法,确定与识别语音对应的最大后验概率模型,推断出识别语音确定为测试语音集中的某位说话人,完成身份鉴定。功能实现该识别系统的整体功能流程为:1.系统开始后,读取训练语音集,进行对应的预处理、分帧、加窗、端点检测等预处理操作,等待使用者进行下一步操作。在这个阶段,系统输出还未经过处理和预处理过后的语音信号的频谱图像供使用者观察;2.进入特征参数提取部分,系统提取梅尔频率倒谱系数(MFCC)作为说话人特征参数,输出训练语音库中语音的12阶,26阶,39阶MFCC图像;3.进入训练部分,利用提取的MFCC对GMM模型进行训练;输出GMM模型参数及示意图4.进入身份鉴别部分,程序运行暂停,等待使用者选择需要识别的语音文件,瑞后系统会将该语音文件的特征参数MFCC与模型利用身份前文所述身份鉴别算法进行对比,然后输出辨识结果,确认该语音为测试语音库中的哪位说话人,完成身份验证。4.1软硬件环境本设计全部设计和测试均在个人计算机上完成,处理器为IntelCorei5,基于Windows10操作系统,语音数据利用手机麦克风和录音APP采集,编程和数据处理在matlabR2016a上完成,同时借助语音信号处理工具箱Voicebox中的一部分专用函数和工具完成相关设计。Voicebox不是matlabR2016a中自带的工具箱,需要自行下载安装。4.2语音识别测试运行程序,读入语音数据并对其进行预处理,程序输出预处理前语音波形与处理后音量图像供使用者观察。训练语音集中共有10个说话人语音数据,分别以“1”到“10”命名,性别比例为1:1,以训练语音库中说话人“3”为例,图像如图4.1所示。图4.1说话人“3”语音波形随后提取特征参数,依旧以训练语音库中说话人“3”为例,其13阶、26阶、39阶MFCC图像如图4.2所示,图中x轴为维数,y轴为帧数,z轴为MFCC参数。图4.2说话人“3”的特征参数MFCC使用提取的特征参数MFCC训练GMM模型,命命令行窗口显示模型训练似然概率变化。以训练语音库中说话人“3”为例,如下图4.3所示:图4.3说话人“3”GMM模型训练似然概率值所有高斯混合模型结束后,系统提示训练结束,让用户选择需要识别的说话人语音,选择的语音对应训练语音集中的说话人3。系统对待测语音与模型库匹配,命令行窗口提示用户等待10s,输出结果“说话人是3”,程序运行结束,达成预期目的。结论基于GMM的声纹识别是一种利用声音这一人的生物特性实现身份鉴别的技术,它能够利用声音就实现对人身份的确认,省去了使用者记忆密码的工作,能够给人们的生活带来便利。本文对声纹识别的原理、特征参数的选择和提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国塑料收缩膜项目投资计划书
- 中国微肥项目投资计划书
- 中国车用润滑油项目投资计划书
- 2025年中国木霉菌可湿性粉剂项目投资计划书
- 唐山市人民医院科室可持续发展考核
- 黑河市人民医院小儿心电图检查考核
- 大庆市人民医院罕见自身免疫病诊疗思路考核
- 鸡西市人民医院新生儿溶血病检测考核
- 长治市中医院风湿免疫科住院医师晋升主治医师考核
- 巴彦淖尔市人民医院消防安全与应急预案人事部分笔试
- 2025年化工分析工(高级)考试题库(含答案)
- 汽车4S店客户投诉培训
- 非遗文化傩戏面具2
- 【公开课课件】二年级下册写话《彩虹色的花》绘本写话
- 12345职能部门培训
- 房屋招租招标文件
- 北师大版五年级数学上册《第二单元》测试卷及答案
- 2024年华侨、港澳、台联考高考数学试卷(含答案)
- 2024年网络安全知识竞赛考试题库500题(含答案)
- 短视频与直播电商(全彩微课版) 教学大纲
- 消化道出血护理查房7
评论
0/150
提交评论