




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、桂林航天工业学院毕业设计 题目:基于语音识别的特征参数提取研究 专业:电子信息工程技术 姓名:黄莉珊 学号:201004520121 指导教师:潘丹青 20 13 年 4 月 1 日 毕 业 设 计( 论 文 )评 语指导教师评语 签字: 20 年 月 日评阅教师评语 签字: 20 年 月 日毕业设计(论文)答辩记录成绩及评语答辩提问记录 记录人: 20 年 月 日答辩委员会评语成 绩:主任签字: 20 年 月 日桂林航天工业学院电子工程系毕 业 设 计 任 务 书装 订 线专业:电子信息工程技术年级:2010级姓名黄莉珊学号201004520121指导教师(签名)毕业设计题目基于语音识别的特
2、征参数提取研究任务下达日期2012年 11月10 日设计提交期限2013年6月10日设计主要内容本毕业论文的主要内容首先是分析语音识别的基本原理及语音识别的方法;然后讨论了语音信号的预处理、端点检测及语音特征参数:Mel倒谱系数和LPC倒谱系数;最后针对MEL频率倒谱系数及LPC倒谱系数的提取进行研究,并对仿真结果进行分析。主要技术参数指标Mel倒谱系数和LPC倒谱系数的提取方法, 语音信号的预处理、端点检测方法的分析 ,Matlab仿真。成果提交形式将论文装订成册,提交全部毕业文档设计进度安排1、课题的准备阶段:(2012年11月-2013年12月)2、课题研究与系统开发阶段:(2013年1
3、月-2013年3月)3、撰写阶段(2013年4月-2013年5月)4、提交论文准备答辩阶段:(2013年5月2013年6月) 教研室意见 签名: 20 年 月 日 系主任意见签名: 20 年 月 日桂林航天工业学院电子工程系毕 业 设 计 开 题 报 告装 订 线姓名黄莉珊学号201004520121指导教师潘丹清毕业设计题目基于语音识别的特征参数提取研究同组设计目的意义语音信号处理是一门新兴的边缘学科,它是语音学和数字信号处理两个学科相结合的产物。它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步
4、也会促进这些领域的进步。作为高科技应用领域的研究热点,语音信号处理技术从理论的研究到实际应用已取得非常大的进步。对语音识别特征参数的提取与研究对语音信号处理技术的发展起着重要的作用,而语音信号处理技术的发展推动者社会进步的发展。方案论证利用马尔可夫模型方法(HMM)。隐马尔可夫模型是一种基于转移概率和输出概率的随机模型,最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符合序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概
5、率对应的模型进行判决。对于与文本无关的语音识别一般采用各态历经型HMM;对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。 时间安排1、课题的准备阶段:(2012年11月-2013年12月)2、课题研究与系统开发阶段:(2013年1月-2013年3月)3、撰写阶段(2013年4月-2013年5月)4、提交论文准备答辩阶段:(2013年5月2013年6月) 指导教师意见 签字: 年 月 日 审核小组意见 组长签字: 年 月 日摘 要语音识别就是让机器能够听懂人话,它是以语音为研究对象的,是语音信号处理的一个重要的研究方向。
6、随着计算机技术、多媒体技术、数字信号处理技术的发展,人们对语音识别技术的发展寄予了更高的期望. 语音识别拥有着可观的应用背景,同时作为一个交叉学科也具有深远的理论研究价值。论文首先在第一章介绍了语音识别发展历史及发展趋势,语音识别系统的原理组成以及语音特征参数的提取在语音识别中的作用。之后,本文对语音信号识别的一些基本理论及算法进行了一些研究和实验.首先在第二章对语音信号的处理及特征进行了介绍.论文在介绍分析了语音识别产生的数字模型和语音信号预处理问题之后,针对传统端点检测算法的不足,提出了一种基于短时平均能量的端点检测算法。论文论述了语音特征参数的提取需要满足的条件对线性预测进行了详细的分析
7、,通过做实验,对实验结果进行仿真.对MEL倒谱系数进行阐述,并对MFCC参数提取过程进行分析最后对实验结果进行仿真与分析。关键词:语音识别;特征提取;端点检测 ;倒谱系数AbstractThe speech recognition is one of the important research directions of speech signal processingThe study of speech recognition is to force machine to understand what the logical expressionSpeech recognition i
8、s very promising in applicationAs an interdisciplinary field,it is also theoretically very valuedThis thesis introduces some theories about speech recognition and also presents the results of some experiments of improving the speech recognition algorithms. In chapter 2 we describe the processing of
9、the speech signal and the feature extraction. Based on introduction and analysis of the speech recognition produce digital model and speech signal preprocessing after problems, aiming at the deficiency of the traditional endpoint detection algorithm, this paper puts forward a speech signal based on
10、short time average energy endpoint detection algorithm. This paper discusses the extraction of speech feature parameters need to meet the conditions on the linear prediction are analyzed in detail, and through the experiment, the result of the experiment simulation. For MEL cepstrum coefficient is e
11、xpounded, and the MFCC parameter extraction process to carry on the analysis to the experimental results in simulation and analysis.Keywords:speech recognition feature extraction endpoint detection MFCC目 录评语 答辩记录 毕业设计任务书 毕业设计开题报告 中英文摘要 V引言 11 绪论21.1语音识别发展历史及发展趋势21.2语音识别系统的原理组成31.3语音特征参数的提取在语音识别中的作用4
12、2 语音信号预处理5 2.1语音信号的预加重 6 2.2语音信号的采样与滤波 7 2.3语音信号的加窗与分帧8 2.4 语音端点检测9 2.4.1 语音信号短时平均能量10 2.4.2 语音信号短时平均过零率12 3 语音特征参数提取133.1线性预测倒谱系数LPCC143.1.1线性预测分析153.1.2 线性预测倒谱分析15 3.2 MEL倒谱系数MFCC16 3.2.1 MEL频率16 3.2.2MFCC参数提取17 3.2.3 实验仿真结果与分析184 结论20谢辞23参考文献24附录26引 言语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机
13、科学、模式识别和人工智能等学科联系紧密。语音信号处理技术的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促成这些学科的进步。语音信号处理的目的是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,如人工合成语音、辨识出讲话者、识别出讲话的内容等。语音合成技术、语音编码技术及语音识别技术作为语音信号处理的三个分支。语言作为人类最重要的交流工具,是人类获得信息的重要来源之一,让计算机能“听懂”人类的语言,也是人与计算机之间进行沟通最方便的形式之一。用语音来实现人与计算机之间的交互,主要包括三项技术,即语音识别、自然语言理解和语音合成。随着计算机处理能力的
14、迅速提高,语音识别技术得到了飞速发展。20世纪90年代,语音识别技术从实验室走向应用,今天,语音识别技术受到了国内外研究机构的广泛关注和高度重视,其应用也必将带来良好的社会和经济效益。1 绪论人类的语言在人们的生活中起着极其重要的作用,人与人之间的交流方式有很多种,但是70都是通过语音来有效的完成的。语音是人类相互之间进行交流时,使用最多、最自然、最基本的信息载体。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。1.1 语音识别发展历史及趋势语音识别,就是让计算机听得懂人说的话,并能做出
15、相应的处理,也是人机交互最重要的第一步。它是语音信号处理的一个重要研究方向,是模式识别的一个分支,它涉及到生理学、心理学、语言学、计算机科学、通信科学以及信号处理等诸多领域,甚至还涉及到人的体态语言。就语音识别技术而言,其基本任务是将输入语音转化为相应的文本或命令。语音识别的市场前景广泛,在一些应用领域中正迅速成为一个关键的具有竞争力的技术。例如在声控应用中,计算机识别输入的语音内容,并根内容来执行相应的动作,这包括声控 转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、医疗服务等等。语音识别也可用于将文字以口授的方式输入到计算机中,即广泛开展的听写机研究,如声控打字机等
16、。语音识别技术还可以用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言输入的语音翻译成另一种语言的语音输出,实现跨语言的交流。对说话人识别技术,近年来已经在安全加密、银行信息 查询服务等方面得到了很好的应用。此外,在公安机关破案和法庭取证方面也发挥着重要的作用。语音识别技术的研究开始于上世纪40年代末,起初发展很慢。到了上世纪50年代初,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统,也标志着语音识别技术的研究真正开始了。到了60年代,计算机应用更加的普遍,也推动了语音识别技术的发展,人们完成了几项对今后20年语音识别
17、发展产生重要影响的工作。到了70年代,语音识别领域取得了更大的突破在理论上,LP技术得到进一步发展,人们将在语音压缩领域取得了巨大成功的线性预测编码技术(LPC)引入了语音识别。动态时间归整技术(DTW)基本成熟,并且在语音识别领域得到了全面的应用。80年代,语音识别研究更加的深入,语音识别领域出现了里程碑式的成果。进入90年代,多媒体时代的到来,人们对智能化的需求越来越迫切,这就要求语音识别系统走出实验室走向市场。随着科技的发展和人们对语音识别理论的逐渐深入化的研究,理论体系的日趋成熟,随着数字信号处理技术的发展,在未来20年,语音识别技术将逐渐的进入工业、家电、通信、汽车电子、医疗以及各种
18、电子设备中。可以肯定地说,语音识别技术必将成为未来信息产业中的一项关键的技术。但是也不可否认,它还有很长的一段路需要走,要真正的商业化,还需要在多方面取得突破性的进展,还需要借助于其它相关学科的发展。1.2 语音识别系统原理的组成语音识别本质上是一种模式识别的过程,它主要包括语音信号预处理、特征提取、特征建模、测度估计、识别判决等几个功能模块。一个语音识别主要由学习和识别两个过程组成,学习阶段就是要采用语言的分析方法分析出某种识别方法所要求的语音特征参数,这些参数被存储起来作为模板。识别过程就是模式匹配的过程,它也是整个系统的核心,其作用是根据语音和不同的层面按照相应的准则求取待测语音特征参数
19、和语音信息与模式库中相应模板之间的测度,形成系最佳的识别输出。语音识别基本结构预处理特征提取模式匹配后处理语音模式库语音识别系统本质上是一种多维模式识别系统,基本结构如图1.1所示。 图1.1 1.预处理预处理包括预加重、反混叠滤波、模/数转换、自动增益控制等处理过程,用于去除声门激励、口鼻辐射、高于1/2采样频率的高频和噪声信号的影响,实现语音信号的数字化。在语音识别中,预处理还包括在声学参数分析之前正确选择识别基本的问题。2.特征提取经过预处理后的语音信号,要对其进行特征提取,即特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。3.语音模型库语音模
20、型库即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者的多次重复的语音参数,经过长时间的训练得到的。4.模式匹配将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到初步识别结果。根据模式识别方法的不同,用于语音识别系统时有统计模式识别法和句法模式识别法两类。(1) 统计模式识别法:建立在最大似然决策贝叶斯判决基础之上,大致的识别过程是:首先,提取语音的特征,并训练识别用的参数模板;然后,利用可以衡量未知模式和参考模式的似然度来测量函数;最后,选用一种最佳准则及专家知识作为识别决策,对识别候选者进行最后判决,得到最好的识别结果作为输出。(2)句法模式识别法:类似于文章中的
21、句法分析。它不仅应用于语音识别,还广泛的应用于手写文字及图像的识别上。5.后处理在大词汇量连续语音识别系统中,为了提高识别正确率需要使用语言模式,利用语言识别单位之间连接时的相互制约关系,采取统计方法与语法相结合的方法建立语言模型,达到限制识别器译码时的自由度,提高系统的性能。目前后处理在嵌入式语音系统中还很难使用。1.3 语音特征参数的提取在语音识别中的作用语音特征参数的提取是语音识别的一个重要步骤。所谓特征提取,即对不同的语音寻找其内在特征,由此来差别出未知语音,所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要,选择的标准应体现对异音字之间的距离尽可能大,而同音字之间的
22、距离应尽可能小。同时还要考虑特征参数的计算量,应在保持高识别率的情况下,尽可能减少特征以减小存储要求和利于实时实现。孤立词语音识别系统的特征提取一般需要解决两个问题,一个是从语音信号中提取(或测量)有的合适的特征参数;另一个是进行适当的数据压缩。而对于非特定人语音识别来讲,则希望特征参数尽可能多地反映主义信息,尽量减少说话人的个人信息。计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征参数,在此基础上才能建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语
23、音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板,求出识别结果。显然,这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。因此,语音的特征提取在语音识别处理中具有举足轻重的作用。语音的特征提取实质上是起降维的作用,用较少的维数来表示说话人的特征。常用的语音特征包括Pitch(基音)、Formant(共振峰)、LPCC(线性预测倒谱系数)、MFCC(Mel频率倒谱系数)。近几年,科学工作者在研究语音识别时,用的最多的特征提取方法就是基于线性预测倒谱系数方法。语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。在语音识别
24、中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语音特征参数来进行识别,而提取的特征必须满足:1特征参数应当反映语音的本质特征,对于非特定人语音识别,特征参数则应尽量不含有说话人的信息。2特征参数各分量之间的耦合应尽可能地小,以起到压缩数据的作用。3特征参数要计算方便,最好有高效的算法。语音特征参数可以是能量、基音频率、共振峰值等语音参数,目前在语音识别中较为常用的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。二者都是将语音从时域变换到倒谱域上,前者从人的发声模型角度出发,利用线性预测编码(LPC)技术求倒谱系数。后者则构造人的听觉模型,以语音通过该模型(滤波
25、器组)的输出为声学特征,直接通过离散傅利叶变换(DFT)进行变换。2 语音信号预处理在语音信号进行分析和处理之前,必须要对所采集的语音信号进行预处理。预处理阶段包括语音的采样、量化、反混叠滤波、预加重、加窗、及端点检测等。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8000以上按6dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。预加重可在A/D变换前,在反混叠滤波之后进行,也可在A/D变换之后进行。用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的,即: (2-1)式中,
26、值接近1,典型值为0.96。由于语音信号是非平稳过程,是时变的,但是人的发音器官的肌肉运动速度较慢,所以语音信号可以认为是局部平稳的,或短时平稳。因此,语音信号分析常分段或分帧来处理,一般每秒的帧数约为33-100,视实际情况而定,分帧既可以是连续的,也可用交叠分段的方法,在语音信号分析中常用“短时分析”表述。短时分析实际上是用一个窗截取信号。数字信号处理理论告诉我们,两个信号的时域相乘,在频域相卷积,如果采用矩形窗,则矩形窗频谱高频成分必将影响语音信号的高频部分,一般用高频分量幅度较小的窗型,以避免这些影响。对语音信号的各短段进行处理,实际上就是对各短段进行某种变换或施以某种运算。设该变换用
27、符号表示,它可以是线性或非线性的,可以是时不变的或者时变的,所有各段经处理后可以得到时间序列,用表示: (2-2)2.1语音信号的预加重预加重的目的是为了提高信号中的高频成分,语音信号的高频成分幅值比较低,为了提高高频分量的作用,有必要将其提升使得整个信号的频谱比较平坦。此外还能抑制随机噪声。其方法是将原始信号通过一个一阶FIR高通数字滤波器: (2-3)在时域内它可表示为 (0.9k1) (2-4)图2.1为k取0.98时所得高通滤波器的幅频特性和相频特性曲线。图2.2分别为预加重前和预加重后的一段浊音信号时域波形及频谱。从图中可以看出,预加重后的频谱在高频部分的幅度得至了提升。图2.1 预
28、加重滤波器的幅频特性和相频特性图2.2 预加重前后浊音信号及频谱2.2 语音信号的采样与滤波模拟语音信号是连续信号,无法被计算机处理,所以语音信号处理的第一步,就是要将模拟信号转换成数字信号。因此,必须经过取样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。根据Nyquist采样定理,当取样频率大于语音特征参数提取方法研究频率信号的两倍带宽时,取样过程中不会丢失信息,且从取样信号中可以精确地重构原始信号波形。通常 语音地频率范围大约是60-3400Hz左右,一般说来, 语音的采样率为8kHz(G711标淮),正常人语音的频率一般在40一4000Hz的范围内。成年男子的语音频率较低,
29、妇女和儿童的语音频率较高。就语音信号而言,浊音语音的频谱一般在4kHz以上便迅速下降,而清音语音信号的频谱在4kHz以上频段反而呈上升趋势,甚至超过了8kHz,以后仍然没有明显下降的趋势。因此为了精确表示语音信号,一般认为必须保留10kHz以下的所有频谱成分,这意味着采样频率应当等于或大于20kHz。但是在许多实际应用中并不需要采用这么高的取样频率,实验表明对语音清晰度和可懂度有明显影响的成分,最高频率约为5.7kHz。例如ITU(IntemationalTelecommunicationUnion国际电信联盟)G729中提出的语音编解码系统采样频率为8kHz,只利用3.4kHz以内的语音信号
30、分量,虽然这样的采样频率对语音清晰度是有损害的,但受损失的只是少数辅音,而语音信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为8kHz,10kHz或16kHz。考虑到高频噪声的存在,为了防止频率高于二分之一采样频率的高频噪声产生频谱混叠,通常语音信号在采样前要进行一次预滤波以滤掉高频噪声。预滤波还有一个目的是避免50Hz的电源干扰,因此预滤波要用一个带通滤波器,其截止频率由语音信号带宽决定,并且希望其带内波动和带外衰减特性尽可能好。在实际应用中,常常希望从一个输入信号中提取或增强所需要的频率分量,滤除或衰减某些不需要的频率分量,这个处理过程称
31、为信号的滤波。由于线性时不变系统的响应频谱等于系统激励信号频谱和系统频率响应的乘积,因此,只要适当选择系统的频率响应特性,就可以实现信号的滤波功能。在线性时不变系统中,滤波是一个重要的应用,这方面的例子有很多,例如,在音响设备中,音乐欣赏者可根据自己的爱好,通过均衡器来调节声音中高低频分量的相对大小。又如,在无线广播中,听众可根据自己的需要调节收音机上的电台调谐按钮,选择自己想要收听的电台。这些功能都是通过信号滤波来实现的。滤波同样可用于离散时间信号,在经济数据序列的分析中也常常使用离散时间滤波器。例如,在股票市场上,股票价格的长期变化和短期变化一般具有不同的意义,往往需要将它们分开来进行单独
32、的研究。这里,股票价格的长期变化相应于低频分量,它反映了较慢的变化规律;而短期变化则相应于高频分量,它反映了较快的变化行情。为了分别对长期变化和短期变化进行单独的研究,可以用离散时间滤波器来完成这一工作。此外,为了消除意外的随机波动(这些随机波动一般相应于高频分量),也可以用离散时间滤波器对数据序列进行平滑滤波。信号的滤波包含有许多方面,例如滤波器的设计和实现等,滤波的基本概念是直接在傅里叶变换的概念和性质的基础上建立起来的,因此,对滤波的讨论不仅介绍傅里叶变换的一个重要的应用领域,而且,这种讨论的本身也可加深对傅里叶变换的重要性及其性质的理解。2.3 语音信号的加窗与分帧 在对语音信号进行短
33、时分析的过程中,信号流的处理用分帧或分段来实现。一般每秒的帧数为33-100,视实际情况而定。分帧即可连续,也可采用交叠分段的方法。用可以移动的有限长度窗口进行加权的方法来实现。 通常我们采用一个长度有限的窗函数来截取语音信号形成分析帧,数学形式如式: (2-5) 语音信号常常可假定在10-20ms这样的时间段内,语音信号是平稳信号,其频谱特性和某些物理特征参量可近似地看作是不变的,这样,几乎所有语音信号处理的方法都是基于这个假定,并且我们可以将平稳过程的处理方法和理论引入到语音信号的短时处原始语音信号采样序列为X(m),移动窗,T是对语音信号的某种变换,该变换可以是线性的,也可以是非线性的。
34、例如T为时,相当于短时能量(抽样点仅为N个点);时,为短时平均过零率。 图2.3 汉明窗及其频谱由于人自身的发音器官的运动,语音信号是一种典型的非平稳信号,其特性是随时间变化的信号。由于发声器官的惯性运动,可以认为在一小段时间里(一般为10-30ms)语音信号近似不变,即语音信号具有适时平稳性。在语音信号处理方理中,将语音信号分成若干个短段,每一个短时的语音段称为一个分析帧,每个分析帧就好像是从一个具有固定特性的持续语音中截取出来的,对该分析帧进行处理就相当于对固定特性的持续语音进行处理,分析帧可以是连续的,也可以采用交叠分帧的方法。经过处理后将从原始语音序列产生一个新的依赖于时间的序列,被用
35、于描述语音信号的特征。通常用一个长度有限的窗函数来截取语音信号形成分析帧,窗函数w(n)将需处理区域之外的样点置零来获得当前的语音帧,理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣(即无频谱泄漏),但这种窗函数在实际工程中是无法实现的。常用的窗函数有Hamming窗。图2.3是汉明窗的时域波形及幅频特征。从图中可以看出,Hamming窗的旁瓣衰减较大,能够在较高的程度上反映适时信号的频率特性。2.4语音端点检测顾名思义,端点检测的目的就是为了去掉语音信号中的静音段,将有用信号的起点检测出来。为了达到这样的目的,主要要利用语音信号的两个参数。一个是语音信号的短时幅度,另一个是短时过零率。它们的定
36、义分别为:短时幅度 (2-6)其中n为一帧信号开始的时刻,N为一帧信号中的采样点数。短时过零率: (2-7)同样,n为一帧信号的开始时刻,N为一帧信号中的采样点数。有效的端点检测不仅能使处理时间减到最少,而且能排除无声段的噪声干扰,从而使处理质量得到保证。端点检测的困难在于无声段或者发音前后人为呼吸等产生的杂音,使得语音的端点比较模糊。一般来说,要对高信噪比情况下录制的语音鉴别端点是很容易的事,此时背景噪声的能量远远低于语音能量,因此仅凭能量特征就可以很好的确定语音的起点和终点。但是,实际的应用中很难达到这么高的信噪比,所以不能仅凭能量来判断,当端点处是弱摩擦音或弱爆破音,以及终点处是鼻音时,
37、此时的能量很弱,极易与背景噪声混淆,造成端点检测不精确,检测出来的语音就会不完整,影响识别的效果。为了解决这些问题,常常采用多种特征参数综合的方法来检测语音的始末点。 端点检测对于语音识别有着重要的意义。在孤立词识别中,确定单词语音信号的开始和终止可以减少非实时系统中的大量计算:连续语音识别中识别基元(字词、音节、声韵母)的切分,可用于语音数据库训练。实验统计数字表明,起始点(beginning point)和终点(endpoint)的偏离对语音识别最终准确性影响明显:30ms内的偏移对应精确度下降2,当超过90ms时,影响达到30。语音作为人类最自然、最直观的信息载体,它必将成为未来人机交互
38、界面的主要控制方式。而语音端点检测就是从一段原始语音信号中通过一定的技术手段检测出有用的语音成分进而进行其他语音信号处理。它是语音分析、语音合成和语音识别等语音信号处理中的最初始最基本的环节也是最重要的环节。在实际应用中,通常首先要对真正含有语音成分信号的起始点进行判定,如此收集到的真正语音数据可以大大减少后期处理的运算量和存储空间,并能更减少处理时间。在噪声环境下,端点检测的准确性直接影响语音识别率。2.4.1语音信号短时平均能量信号流的分帧是采取可移动的有限长度的窗口进行加权的方法实现。因此,我们可以定义以为标志的某帧语音信号的短时平均能量,如下式所示: (2-8) 对短时能量有如下两种解
39、释:(1)首先计算原始语音信号各个采样值的平方,然后通过一个激励响应为的滤波器,最后输出能量序列,这里中。(2)首先计算原始语音信号各个采样值的平方,然后用一个移动窗选取出一个一个的短时平方序列,并将各短段的平方值求和得到短时能量序列。 不同窗函数的选择将决定短时平均能量的性质。一般窗函数是中心对称的,用得比较多的是矩形窗和哈明窗。 选择的原则是:使得短时能量既能及时跟踪语音能量的缓变规律,同时又要对语音振幅一个基数周期周期内的瞬间变化有显著平滑的作用。 短时平均能量的主要用途是:1.可以区分清音段与浊音段,因为浊音时E。值比清音时大得多。2.可以用来区分声母与韵母的分界,无声与有声的分界,连
40、字的分界等。对于高信噪比的语音信号,E用来区分有无语音。此时,无语音信号的噪声能量很小,而有语音信号的E显著地增大到某一个数值,由此可区分语音信号的开始和终止点。3.作为一种超音段信息,用于语音识别中。 图2.4 不同窗长,矩形窗和汉明窗短时量图2.4为选取不同窗函数及不同窗长计算出来的语音信号的平均能量,从图中可以看出,窗长取32点时,所得的能量曲线不够平滑,窗长取128点时比较合适,曲线比较平滑,而且保留了细节变化。另外,对比128点的矩形窗与汉明窗的图形可以看出,汉明窗的输出曲线优于矩形窗,其主要原因是汉明窗主瓣较宽约大于矩形窗的一倍,但是它的旁瓣衰减较大,具有更平滑的低能特性,能够较好
41、地反映短时信号的频率特性。另外,从加128点汉明窗计算出的短时能量值与原始语音对照,可看出浊音对应的短时能量高,清音对应的短时能量低,无声语音的短时能量为零。2.4.2语音信号短时平均过零率信号的幅度值从正值到负值要经过零值,从负值到正值也要经过零值,称其为过零,统计信号在一秒钟内有几次过零,就称为过零率,这一秒钟就是一个单位时间(还可以有其他单位时间)。如果信号按段分割,就称为短时,把各段信号的过零率作统计平均年,就是短时平均过零率。语音信号X(n)的平均过零率: (2-9)式中,是符号函数短时平均过零率在语音信号分析中应用最多的是清/浊音判决。发浊音时身带振动,这个振动频率的声压波在声道中
42、共振,尽管有若干个共振峰,但其能量集中于低于3KHz的频率范围内;反之,发清音时,身带不振动,声道的某部分阻塞气流产生类白噪声,其能量集中于较高的频率范围。因此用过零率可以定量地分析清/浊音。图2.5 一句语音的短时平均能量及短时平均过零率短时过零率可应用于语音信号分析中。对于浊音语音,尽管声道有若干个共振峰,但是由于声门波引起了谱的高频跌落,所以其语音能量约集中于3kHz以下。而对于清音语音时,多数能量出现在较高频率上。高频率对应着高的平均过零率,低频率对应着低的平均过零率,那么可以认为浊音时具有较低的平均过零率,而清音时具有较高的平均过零率。利用短时平均过零率可以从背景噪声中找出语音信号,
43、可用于判断寂静无语音和有语音的起点和终点位置。在孤立词语音识别中,必须要在一连串连续语音信号中进行适当的分割,可以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置。另外,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零数识别较有效。短时平均过零率作为“频率”来理解,在处理多频率带通信号的“频率”特征方面有效。如果把语音信号用多通道带通滤波器分割,统计每个子带波形的短时平均过零率和短时平均能量,实质上就是对语音信号作频域分析。图2.5是一句语音的短时平均能量及短时平均过零率的仿真图,从图上可以看出,浊音信号的过零率低,清音信号的过零率高,噪声的过零率高,一般在语音
44、信号的清浊音判别时可采用短时平均能量与短时过零率结合来判断,以降低误判率。3 语音特征参数提取语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。在语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语音特征参数来进行识别,而提取的特征必须满足:1特征参数应当反映语音的本质特征,对于非特定人语音识别,特征参数则应尽量不含有说话人的信息。2特征参数各分量之间的耦合应尽可能地小,以起到压缩数据的作用。3特征参数要计算方便,最好有高效的算法。语音特征参数可以是能量、基音频率、共振峰值等语音参数,目前在语音识别中较为常用的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(
45、MFCC)。二者都是将语音从时域变换到倒谱域上,前者从人的发声模型角度出发,利用线性预测编码(LPC)技术求倒谱系数。后者则构造人的听觉模型,以语音通过该模型(滤波器组)的输出为声学特征,直接通过离散傅利叶变换(DFT)进行变换。 语音特征参数提取是在语音预处理和语音端点检测之后进行,语音特征的选择与提取是语音识别的一个重要环节。原始的语音信号是时域上的连续波形,含有大量的冗余信息。如果直接对其进行数据处理,既费时费力也会对识别率产负面影响。所以,提取出语音信号中最能体现语音特征的参数是有效提高语音识别率至关重要的一步。提取语音特征的目的就是去掉原始语音信号的冗余部分,把最能体现语音本质的特征
46、参数提取出来,并且突出那些对辨别语音有利的信息。此后的所有处理都是对语音特征参数的处理。 特征提取是几乎所有模式识别研究必须要面对的问题。人们早在上世纪40年度就提出了”visible speech”的概念,它指的是语谱图对语音信号的描述问题。因此语谱信息被作为语音特征参数较早的应用于语音识别,至今仍有人提取语谱信息作为语音特征。进入50年代,随着人们研究的深入,相继提出了幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等语音特征。随着识别技术的发展,人们发现时域中的特征参数的稳定性和区分能力都不是很好,于是开始利用频域参数作为语音信号的特征,比如频谱、共振峰、线性倒谱对等。
47、 总的来说,提取的语音特征参数要满足如下条件: (1)特征参数必须反映语音的本质特征,即特征参数必须是语音所包括的一般特性,对于非特定人的语音识别,特征参数中要尽可能的不包括说话人的特征信息。 (2)特征参数各个分量之间的耦合要尽可能的小,以起到压缩数据的作用。 当前,较为常用的特征参数包括线性预测分析频谱(LPC)、线性预测分析倒谱(LPCC)、Mel频率倒谱系数(MFCC)、对数倒频谱(LSF)、基频(Pitch)、共振峰(Formant)等。然而在这些特征参数中,LPCC参数缺点是对噪声影响敏感。由于语音信号的多变性,基频特征的提取存在许多困难。共振峰作为语音参数存在虚假峰值以及相邻共振
48、峰靠太近难以分辨而带来的不利影响等问题。综合考虑特征参数的鲁棒性和实际要求,目前最常用是基于人耳听觉的MFCC参数,它在有信道噪声和频谱失真的情况下具有较好的稳健性,是目前语音识别研究中最常用的特征参数,它运用了人耳听觉感知方面的研究成果,用于语音识别有非常不错的识别率。3.1 线性预测倒谱系数LPCC一个递归数字滤波器可以采取多种不同的结构实现,例如直接法、链接法和格形法等,相应地就有多种不同的滤波器参数,但它们所实现的滤波器都是等价的。线性预测分析法求得的是一个全极点的系统函数,形式上也是一个递归滤波器。在全极点语音产生模型假定下,这个滤波器被称为声道滤波器。也存在多种不同的参数表达方法,
49、这些参数一般可看作是由线性预测系数推演出来的,但它们各有不同的物理意义和特性。其中最常用的是线性预测倒谱系数LPCC,倒谱实际上是一种同态信号处理方法。语音信号分析过程中经常要用到一个重要的语音产生模型声道模型。声道模型是将人从喉到嘴唇这一段发音腔体用一系列截面积不同的均匀声管来模拟。根据声管的声学模型,利用物理学知识,我们可以计算出这段声管模型与信号处理中的全极点模型相类似。因此,我们可以应用信号处理中已有的算法对其进行处理。在这个语音产生的声道模型中,语音中的浊音部分可以认为是由一连串有规律的周期信号(此周期与浊音的基音周期相吻合)来激励不同形状的声道模型而产生;而清音部分则被认为是由一连
50、串无规律的白噪声信号激励声道模型而产生的。因此,若能准确地估计出声道的形状或模型参数,我们就有望用此模型参数作为语音信号的特征来完成语音信号的识别任务。数字信号处理中,可以用LPC(线性预测编码)的算法来估计出此全极点模型的参数。线性预测是最佳线性向前一步预测,语音信号线性预测的基本思想是:语音信号的每个取样值,可以用它过去若干个取样值的加权和(线性组合)来表示;各加权系数的确定原则是使预测误差的均方值最小。在语音识别系统中,利用同态处理方法,通过对LPC系数求离散傅立叶变换(DFT)后取对数,再求反变换DFT可得到线性预测倒谱系数LPCC1420。3.1.1线性预测分析 语音信号序列是一个随
51、机序列,其稳态系统函数为: (3-1)把模型成一个阶的AR过程序列。对于浊音,系统受冲激序列的激励,各种激励之间的间隔为音调周期;对于清音,则受白噪声序列激励,它可简单地由一个随机数发生器完成。 参考模型是现代谱估计的主要内容,经常采用的模型有三种:(1)自回归线(AR)模型是一个全极点的模型;(2)移动平均模型(MA)是一个全零点模型;(3)自回归线-移动平均模型(ARMA)是一个既有零点又有极点的模型。 从数字信号处理的知识可知,AR模型易反应频谱中的峰值,MA模型异反映频谱中的谷值,而ARMA模型可以同时反映两者。考虑到求解AR模型的正则方程是一组线性方程,而求解MA和ARMA的模型是非
52、线性方程,因此在实际处理中,应用比较广泛的是AR模型。又由于AR模型可以与基于级联无损声管的语音产生模型相联系,因此在语音处理中它被广泛采用的模型;而与相关的线性预测分析也是语音信号处理中普遍采用的核心技术之一。根据数字信号处理的知识可知,一个p阶的AR模型总是等效于一个p阶的线性预测器。因此目前提出的AR模型系数的求解,以及AR模型性能的讨论大都建立在线性预测理论基础上的。对语音信号进行线性预测分析的基本思想是:一个语音的采样能够用过去若干个语音采样的线性组合来逼近。通过使线性预测到的采样在最小均方误差意义上逼近实际语音采样,可以求取一组唯一的预测系数。这里的预测系数就是线性组合中所用的加权
53、系数。这种能够线性预测分析最早用于语音编码中,因此常被简称为LPC 3.1.2线性预测倒谱分析1947年,维纳首次提出了线性预测(Linear Prediction,LP)这一名词,并且在1967年,板仓等人将该技术应用在语音分析和合成中,开辟了语音识别技术的新思路。线性预测分析是从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,n时刻的信号可以用若干时刻的信号的线性组合来估计。由声学理论可知,除鼻音和摩擦音外,一般声道系统H(z)可用全极点模型来模拟: (3-2) 其中P为预测器阶数,G为非负实数,用于控制系统输出序列s(n)的幅度大小; A(z)称为逆滤波器,其物理意义是进行反向线性预测。线性预测分析的基本思想是:利用语音抽样点之间的相关性,一个语音的抽样能用过去若干个语音抽样的线性组合来逼近。在某个准则下,使实际语音抽样和线性预测之间的差值最小来确定一组预测系数。这个准则通常可以采用最小均方误差准则。那么,语音信号的线性预测是指:语音信号的每个抽样值,可以用它过去的若干个抽样值的加权和来表示;这个加权系数的确定原则就是使得预测误差的均方值最小。P阶线性预测就是根据信号
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 历史教师考试题及答案
- 理工英文考试题及答案
- 2025年中国女底坡跟数据监测报告
- 客房经理考试题及答案
- 焦炉调温工5S管理考核试卷及答案
- 课件时针分针的自我介绍
- 重金属物料焙烧工三级安全教育(公司级)考核试卷及答案
- 酒店实务考试题及答案
- 景区管理考试题及答案
- 课件文案编写
- JG/T 127-2007建筑门窗五金件滑撑
- 国防预算优化路径-洞察阐释
- 2025福建厦门水务集团限公司招聘易考易错模拟试题(共500题)试卷后附参考答案
- 污水排污协议书
- 饲料采购工作总结
- 新课标解读丨《义务教育道德与法治课程标准(2022年版)》解读课件
- 能源管理培训课件
- 江苏省苏州市2024-2025学年高一上学期期末调研英语试题(解析版)
- 体育赛事直播技术服务合同
- 护理礼仪(第3版) 课件 第四章 护士仪态礼仪
- 认识中国特色社会主义文化
评论
0/150
提交评论