（通信与信息系统专业论文）基于隐马尔科夫模型的语音识别技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：63 大小：1.68MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（通信与信息系统专业论文）基于隐马尔科夫模型的语音识别技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要语音识别是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器，这种机器能直接接受人的语音，理解人的意图，并做出相应的反应。语音识别以语音信号为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到语言学、计算机科学、信号处理以及生理学，心理学等诸多领域，甚至还涉及到人的体态语言，其最终目标是实现人与机器进行自然语言通信。语音识别具有广阔的应用前景，已经在听写机、电话查询系统、家电控制等诸多领域获得到了充分的应用。目前说话人识别领域主流的算法是基于隐马尔科夫模型( h i d d e nm a r k o v m o d e l ) 。隐马尔科夫模型用隐含状态对应声学各层相对稳定的发音单元，并通过状态的驻留，转移描述发音变化。为了研究方便，隐马尔科夫模型假设连续段长分布的时间是服从几何分布，但这与真实的分布规律并不相符。本课题试采用的基于段长分布的隐马尔科夫模型更准确的描述语音信号的时间相关性。本文以h t k ( h m mt o o l k i t ) 工具作为语音信号处理平台，建造一个简单的基于特定人的连续汉语语音识别系统。利用该系统分别对采用不同类型的特征参数的识别效果进行比较，通过实验方式找出最合适该汉语识别系统的模型参数设定。实验发现将汉语中的声母和韵母作为基本的声学单元来建立h m m 模型，将声母韵母状态数分别设为3 和5 ，输出观察值混合高斯维数为7 时，识别的准确率可以达到较好的效果，继续增加状态数和高斯维数后，识别结果没有明显提高而且使识别速度变慢。实验最后通过修改h t k 源代码实现基于段长分布的隐马尔科夫模型，结果表明，改进的隐马尔科夫模型在噪音环境下能获得更好的识别效果。关键词：语音识别，特征提取，隐马尔科夫模型，段长分布的隐马尔可夫模型 a b s t r a c t s p e e c hr e c o g n i t i o ni st h et e c h n i q u et h a tt h em a c h i n ec h a n g e st h es p e e c hs i g n a lo f h u m a nt ot h ec o r r e s p o n d i n gt e x to rc o m m a n db yr e c o g n i t i o na n du n d e r s t a n d i n g p r o c e s s t h ef u n d a m e n t a l i t yp u r p o s ei st od e s i g nt h em a c h i n ew i t hh e a r i n ga b i l i t y ，i t c a nd i r e c t l ya c c e p ta n du n d e r s t a n dh u m a n si n t e n t i o n , a n dm a k eo u tt h er e l e v a n t r e a c t i o n u s i n gs p e e c hs i g n a la sr e s e a r c ho b j e c t , s p e e c hr e c o g n i t i o ni sa ni m p o r t a n tr e s e a r c h d i r e c t i o no ft h es p e e c hs i g n a lp r o c e s s i n ga n di ti sa l le m b r a n c h m e n to fp a t t e r n r e c o g n i t i o n ，t o o i t i n v o l v e s l i n g u i s t i c s ，c o m p u t e rs c i e n c e ，s i g n a l sp r o c e s s i n g ， p h y s i o l o g ya n dp s y c h o l o g ye t c , a n de v e nr e l a t e st ob o d yl a n g u a g e t h ef i n a lg o a li st o r e a l i z et h en a t u r a lc o m m u n i c a t i o nb e t w e e nh u m a na n dm a c h i n e s p e e c hr e c o g n i t i o n h a saw i d ea p p l i c a t i o nf u t u r e i th a sm a d eaf u l la p p l i c a t i o ni nd i c t a t i o nm a c h i n e ， t e l e p h o n ei n q u i r ys y s t e ma n dh o m ea p p l i c a t i o nc o n t r o le t c h i d d e nm a r k o vm o d e li st h em a i n s t r e a ma l g o r i t h mi nt h ef i l e do fs p e a k e r r e c o g n i t i o n h i d d e nm a r k o vm o d e lu s e h i d d e ns t a t et oa s s o c i a t et h er e l a t i v e l ys t e a d y p r o n o u n c i n gu n i t ，a n dd e s c r i b et h ec h a n g eo fp r o n o u n c i n gb ys t a t es t a y i n go rt r a n s f e r f o rs i m p l yr e s e a r c h ，h m ma s s u m et h et i m eo fc o n t i n u o u ss t a t e ss t a y i n go b e y g e o m e t r yd i s t r i b u t i n g h o w e v e r , t h i si sn o ta l w a y st h et r u e t h i sp a p e ri n t r o d u c et h e d u r a t i o nd i s t r i b u t i o nb a s e dh m m ，i tc a nd e s c r i b et i m i n gc o r r e l a t i o no fs p e e c h s i g n a l i nt h i st h e s i s ，w es t u d yt ob u i l das i m p l es p e a k e r - d e p e n d e dl a r g e - v o c a b u l a r y c h i n e s es p o k e nw o r dr e c o g n i t i o ns y s t e mb a s e do nh t ka ss p e e c hp r o c e s sp l a t f o r m t h e nt h es y s t e mi su t i l i z e dt oc o m p a r er e c o g n i z e dr e s u l tb ya d o p t i n gd i f f e r e n tt y p e s o ff e a t u r ep a r a m e t e r s ，a n dt r yt of i n dt h eb e s ts u i to n e t h ea c c u r a c yr a t i n ga r r i v ea t p r e f e r a b l el e v e lw h e nu s ei n i t i a la n df i n a lm o d e la st h eb a s i cs p e e c hu n i tt ob u i l t h m mm o d e l ，a n ds e tt h es t a t en u m b e r3a n d5r e s p e c t i v e l y , a n do u t p u to b s e r v a t i o n m i x t u r eg a u s sd i m e n s i o ns e tt o7 t h ec o r r e c tr a t ed o e s n tr i s eo b v i o u s l ye v e ni fw e c o n t i n u ea d ds t a t en u m b e ra n dd i m e n s i o n ，b u to n l ys l o wd o w nt h er e c o g n i t i o ns p e e d a tl a s t ，t h e e x p e r i m e n t si m p l e m e n tt h ed u r a t i o nd i s t r i b u t i o nb a s e dh m mb y u m o d i f y i n gh t k $ o b r c 圮c o d ea n dr e s u l ts h o w si th a v eas i g n i f i c a n ti m p r o v e m e n to f a c c u r a c yr a t i n g k e y w o r d s ：s p e e c hr e c o g n i t i o n ，f e a t u r ee x t r a c t i o n ，h m m ，d d b h m m i l l 独创性声明本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所傲的任何贡献均已在论文中作了明确的说明并表示了谢意签名：鱼l 缸日期：麓妇。车i ! 关于论文使用授权的说明本人完全了解武汉理工大学有关保留、使用学位论文的规定，即学校有权保留、送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 日期：坐! ：兰! 武汉理1 = 大学硕士学位论文 1 1 引言第1 章绪论语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，也是人类进行思维的一种依托。众所周知，语音是人类进行相互通信和交流的最方便快捷的手段。语音的反应速度特别快，可以达到毫秒量级，没有严格的方向限制，可以在黑暗中传播。在高度发达的信息社会中用数字化的方法进行语音的传送、存储、识别、合成、增强，对于促进社会的发展具有十分重要的意义。让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。语音信号处理中的语音识别技术是一门涉及面很广的交叉学科，虽然从事这一领域研究的人员主要来自计算机和通信等学科，但是它与语音学、语言学、数理统计学以及神经生理学等学科，也有着非常密切的关系，甚至还涉及到人的体态语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。随着对语音识别认识的深入，人们对语音识别也提出了越来越高的要求。语音识别的最终目的就是象人与人之间谈话交流信息一样，实现人机自由对话，也就是赋予机器以听觉，使机器能听懂人的语言，辨明话音的内容或说话人，或者进一步使机器能够按照人的意志进行操作，把人类从繁重或危险的劳动解脱出来。伴随着计算机技术的发展，语音识别技术已成为信息产业领域的标志性的技术，在人机交互中逐渐进入我们的日常生活，并迅速发展成为“改变未来人类生活方式的”的关键技术之一。据预测，语音识别将成为继键盘和鼠标器之后，人机交互界面革命中的下一次飞跃【l j 。让机器接受人类的语言指令，是最简单的指令发布形式，因而研究人机交互的语音识别技术是人类迈向最终现代化的下一个台阶，市场潜力不言而喻。 1 2 语音识别发展概况和面i 临的难点在2 0 世纪4 0 年代末5 0 年代初，建立了一系列机器语音识别系统。早期的武汉理，t 大学硕士学位论文贝尔实验室的系统可以识别一个单独说话人说出的1 0 个数字中的任何一个数字。这个系统存储了不依赖于说话人的1 0 个模式，每个数字对应一个模式，每个模式代表数字中的头两个元音的共振峰。通过选择与输入存在最高相关系数的模式的方法，识别正确率达到了9 7 一- 9 8 。在2 0 世纪6 0 年代末和7 0 年代初，产生了一些重要的创新性研究成果。首先，出现了一系列的特征提取算法，包括高效的快速傅里叶变换( f a s tf o u r i e r t r a n s f o r m ，简称f f n ，倒谱处理在语音识别中的应用以及用于语音编码的l p c 的研究。其次，提出了一些处理语音匹配的方法。i t a k u r a 把动态规划的思想和 l p c 系数相结合，提出了动态时间规整( d y n a m i ct i m ew a r p i n g , 简称d t w ) 技术，并首先在语音编码中使用。在这个时期的第三项创新是隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l ，简称h m m ) 的兴起。由b a u m 等提出了h m m 模型，并把它应用于解决各种预测问题。随后由b a k e r 等将其应用于语音处理之中。在2 0 世纪8 0 年代，语音识别的研究进一步深入，显著标志是矢量量化技术 ( v e c t o rq u a n t i z a t i o n , 简陈v q1 ，隐马尔可夫模型和人工神经元网络在语音识别中的成功应用。1 9 8 7 年i b m 采用v q h m m 开发了一个具有2 0 0 0 词汇的特定人孤立字识别系统t a n g o r a - 2 0 ；1 9 8 8 年c m u 用同样方法建立了一个9 9 7 个词汇的非特定人连续语音识别系统s p h i n x 。同时，统计语言模型也开始应用到语音识别中。进入2 0 世纪9 0 年代之后，在各方面的推动下，语音识别技术获得了更深入而广泛的研究，并逐步从实验室走向市场。由于隐马尔可夫模型结构简洁之训练识别算法完善以及计算量小等优点，逐渐成为语音识别研究的主流。随着计算机的普及、通讯和网络技术的发展，信息时代已经来临，语音识别技术正日益显示出它的优越性和巨大的市场潜力。除了知名大学的研究机构( 麻省理工学院、卡耐基梅隆大学、约翰霍普金斯大学、剑桥大学等1 直在做基础研究和应用之外，许多国际著名的大公司也纷纷投以巨资加强这方面的研究和开发能力，如i b m 、贝尔实验室、p r a g o n b b n l h m i c r o s o f t 等。我国语音识别研究工作一直紧跟国际水平，国家也建立了各种语音研究计划，由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者，研究成果已达到相当高水平。因此，国内除了要加强理论研究外，更要加快从实验室演示系统到商品的转化。目前已 2 武汉理工大学硕士学位论文经取得了相当的进展。语音识别的发展走过了一条漫长的路，从孤立字识别到连续语音识别，从小词汇量到大词汇量，从朗诵式语音识别到口语语音识别、广播语音识别等，并开始融合自然语言理解技术，开创了多语种语音翻译，研究的领域越来越宽广和深入，研究的问题也越来越复杂。语音识别经过半个世界的研究历程，取得长足进步主要的影响因素包括：成功的用隐马尔可夫模型建立语音的声学模型；成功的用统计语言模型法建立简单但强大的语言模型；使用动态规划与裁剪技术结合的方法在一个大的解空间中进行搜索；使用庞大的语音和文本语料建立更加复杂和精确的声学和语言模型。必须看到语音识别是一项复杂的技术，语音识别技术要进入大规模实用，还要跨越很多障碍，目前面临的问题有所谓用户的独立性、自然的语言能力和新增的插入的能力。用户的独立性就是语音识别软件能够识别有不同嗓音和口音的用户，无需通过训练。新增的插入的能力是语音识别软件的另一个主要进步，它允许用户在系统提示时中断系统，但系统依然能知道用户的请求。这点对于实际的应用意义重大。因为人们在说话时，总是在自觉不自觉地思考，经常会打断语言的连续性，而插入一些补充性的语言。这样的语言，在语法上经常不正确，常规的语音识别系统很难处理这些语音。衡量一个语音识别系统成熟与否的四个重要参数是：机器对说话者的依赖程度( 是否能识别非特定人的话语) 、语音的类型( 能识别连续的语音还是断续的语音) 、话语输入格式( 发音人的话语是基于受限格式还是自由语言格式) 、系统词汇量的大小。所有这些都成为语音识别研究的主要内容。 1 3 本文研究目标本文的研究目标是以h m m 模型为基础，来建立一个噪音环境下的特定人汉语连续识别系统。并通过实际实验测试，找出合适的声学模型以及相关的模型参数设定。论文主要完成了以下几个方面的研究工作： 1 分析完整的语音识别系统的结构，比较目前常用的语音识别方法及各自优缺点。 2 分析并研究了语音特征提取的两种不同的方法。 3 武汉理工大学硕士学位论文 3 通过分析传统隐马尔科夫模型状态连续驻留时问的不合理性，提出了基于段长分布的隐马尔科夫模型，使其段长分布更符合实际发音情况。 4 研究了h t k 工具集建模方法，并建立了一个汉语语音识别系统。 5 通过识别实验检验各种模型参数的选择和优化方法对识别率的影响。 4 武汉理t 大学硕士学位论文第2 章语音识别的基本原理本章从系统角度分析了语音识别的模型构架和原理，同时对语音信号的预处理，特征提取做详细的阐述。 2 1 语音识别的系统结构我们可以将语音通信系统进行分层处理，然后分别针对每层进行相应的处理操作，从而实现对语音系统的模拟和识别。 2 1 1 语音通信的层次模型图2 - 1人类语音的通信过程人类语音通信过程如图2 - 1 ，人类产生理解语音的过程是按照层次逐步进行的，图2 - 1 左右部分分别代表了语音生成和识别的过程。人类的语音识别就是将语义信息从声波上“解码”的过程。我们可以将语音合成看作通信系统的发射机， 5 武汉理工大学硕士学位论文而语音识别系统相当于接收机。依此类推，可以仿照通信系统中的分层的概念，采用分层处理的方式来设计语音系统【2 1 ，如表2 - 1 为语音识别系统层次模型：表2 - 1 语音系统层次模型语义应用层分析语义，映射应用，由任务与法约束语言语句识别层口推断语句候选单元及可信度层词语识别层音字转换，推断词语单元，提供语句候选序列及可信度语音音节感知层声韵母或音素合并成音节单元，推断合理音节，提供候选序列及可信度层特征提取层提取声学特征矢量及特征矢量序列亩预处理层学定义语音格式，采样、滤波、分帧、加窗，预加重、提供语音帧序列层物理接口层声音进入系统的物理接口输入语音信号当然上述层次的划分并没有严格统一的标准定义，但有助于对语音识别模型的理解和系统设计。对于一个应用语音识别系统，包括的应用层次越多，结构越复杂，需要的专家知识也越多。 2 1 2 语音识别的原理语音识别首先是要根据识别系统的类型，选择一种合适的识别算法，再依据识别算法的要求，利用有关的语音信号处理方法提取相应的特征参数。在这以后，分两个阶段进行语音识别：第一个阶段是学习和训练，给出一组训练数据，这些训练数据常常都是经过精心选择的针对本识别系统应用的数据，再结合识别系统参数的初始值，对系统参数进行调整，使该系统更适合所提供的训练数据的识别，以提高系统的识别率，最后将这些经过训练的参数以标准方式存储起来，形成识别模板库；第二个阶段就是识别。将需要识别的语音信号的特征参数与训练过程中产生的模板作对比，在允许的误差范围内，测得与该语音信 6 武汉理_ 【大学硕士学位论文号距离最近的模板，然后根据模板的定义，通过查表就可以给出计算机的识别结果。显然得到的结果与特征的选择、语音模型的好坏、模板是否准备都有直接的关系。语音识别系统本质上是一种模式识别系统，它的基本结构如图2 2 所示，与常规模式识别系统一样，它包括特征提取、模式匹配、参考模式库3 个基本部分p j 。但事实上，因为语音识别所要处理的信息是结构非常复杂、内容极其丰富的人类语音信息，所以它的系统要比模式识别系统复杂的多。图2 2 语音识别系统的结构图图2 - 2 中的后处理单元，可能涉及句法分析、语音理解、语义网络以及语言模型等。它往往不是一个孤立的单元，而是与匹配计算单元、参考模式库融合在一起，构成一个逻辑关系复杂的系统整体。 2 2 语音信号的预处理语音信号预处理部分包括语音信号的电压放大、反混叠滤波、自动增益控制、模数变换、去除声门激励和口唇辐射的影响等。 1 话筒自适应和输入电平的设定输入语音信号的品质对语音识别性能的影响很大，因此，对话筒的耐噪声性能的要求很高。选择好的麦克风不仅能提高输入语音的质量，而且有助于提高整个系统的鲁棒性。同时，不同种类的话筒以及前端设备的声学特性不同，这会使输入语音产生变化。因此，为了保持识别性能的稳定，必须具备对话筒和前端设备性能的测定以及根据测试结果对输入语音的变形进行校正的功能。为了保持高精度的语音分析，模数变换的电平必须正确设定。同时，还要通过自动增益控制来自动地调整输入电平放大的倍数或者通过对于输入数据进行规整 7 武汉理工大学硕士学位论文处理来控制语音数据幅度的变化。 2 抗噪声环境噪声虽然可以通过高性能话筒的抗噪声特性加以抑制，但是不可能完全消除，话筒与嘴有一定的距离时，以及在汽车或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。这种噪声可以是平稳噪声，也可以是非平稳噪声，或者是来自环境的加性噪声，也可以是由输入和输出电路引起的乘法性噪声。对于平稳噪声，传统的谱相减降噪是有效的，对于非平稳噪声也可以通过两个话筒分别输入语音和噪声相互抵消来加以消除。 3 语音区间的端点检测端点检测的目的是从包含语音的一段信号中确定语音的起点和终点。有效的端点检测不仅能使处理时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的识别性能。传统的端点检测算法是将语音信号的短时过能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好，将会发生漏检和虚检的情况。为了克服传统端点检测算法的缺点，有很多改进的方法被提出来。例如，可以考虑采用基于相关性的语音端点检测算法等。 4 语音参数分析经过预处理后的语音信号，就要对其进行特征参数分析，其目的是抽取语音特征，以使在语音识别时类内距离尽量最小，类间距离尽量最大。特征参数提取是语音识别的关键问题，特征参数选择的好坏直接影响到语音识别的精度。识别参数可以选择下面的一种或几种的组合：平均能量、过零数和平均过零数、频谱、共振峰、倒谱、线性预测系数、偏自相关系数、声道形状的尺寸函数，以及音长、音高、声调等超声短信息函数等。另外，除了上述这些静态参数外，上述参数的时间变化也反映了语音特征的动态特性，作为动态参数也常常被用于语音识别中。提取的语音特征参数有时还要进行进一步的变换处理。 2 3 特征参数提取特征矢量的提取在语音识别中占有极其重要的地位，特征矢量提取得是否得当直接影响着语音识别率，因此必须给予足够的重视。特征矢量的提取是对原始的语音信号运用一定的数字信号处理技术进行适当的处理，从而得到一个矢量序列，这个矢量序列可以代表原始的语音信号所携带的信息，初步实现数据压缩。提取特征矢量的原则是：要尽可能保留那些对识别率有重要意义的特征信息，同时最大限度地摒弃那些对语音识别无用的冗余信息。 8 武汉理工大学硕士学位论文基本的特征参数主要有：能量、幅度、过零率、频谱、倒谱和功率谱等，另外考虑到其他因素的影响，还有许多基于基本参数的参数，如从听觉出发，用来表达语音的特征有：m e l 频率倒谱系数( m d s c a l e dc e p s t r u mc o e f f i c i e n t ，简称m f c c ) 、线性预测系数( 1 i n e a rp r e d i c t i o nc o e f f i c i e n t s ，简称l p c ) 等。 2 3 1 线性预测系数线性预测( l i n e a rp r e d i c t i o n ) 基本思想是由于语音信号样点之间存在相关性，所以可以用过去的样点值来预测现在或未来的样点值，即一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近，通过使实际语音信号抽样值和线性预测抽样值之间的误差在均方准则下达到最小值来求解预测系数，而这组预测系数就反映了语音信号的特征，故可以用这组语音特征参数进行语音识别或语音合成等。 1 线性预测的基本原理若一个随机过程用一个p 阶的全极点系统受白噪声激励产生的输出来模拟，设这个系统的传递函数为：日( z ) - s ( z ) v ( z ) - 1 一弩a k $ 。符 ( 2 - 1 ) 其中g 为增益常数，s 和荆分别为输出信号s m 和输入信号的z 变换，那么j 例和l l 例的关系可以表示为差分方程： s 0 ) 一罗a k s ( n 一七) + g u ( n ) 爿 ( 2 2 ) 观察上式，可以将与吼有关的部分理解为用信号的前p 个样本来预测当前样本，即定义预测器：；0 ) 一萝a k s ( n 一七) 筒佗3 1 由于预测系数吼在预测过程中看作常数，所以它是一种线性预测器，这种预测器最早用于语音编码，因此称为线性预测编码，该预测器的系统函数为：日o ) 一砉唯， 9 ( 2 4 ) 武汉理工大学硕十学位论文可见，如果信号5 例符合式( 2 1 ) 所描述的模型假定，那么用式( 2 3 ) 作为线性预测器对信号s 似的预测，其误差应为； e ( n ) = g u ( n ) ( 2 - s ) 但是，实际信号不是精确地符合这个假定，因此实际的预测误差应为： e i s 。) - e 。) _ s ) 一薹以s 如一七) ( 2 6 ) 上式表明预测误差序列是信号j 例通过一个具有如下系统函数产生的输出：爿s 。1 扣。比较上式与式( 2 - 1 ) 可知，预测误差滤波器彳仞是系统传递函数伪动的逆滤波器，即：彳( ，) 一叫( z ) ( 2 8 ) 由于给足的只硐信号s 例和一个未知的模型式( 2 1 ) ，要想这个模型尽可能精确地描述信号j m ，应使式( 2 - 6 ) 所得到的预测误差在某一短时的总能量尽可能小，并在此准则下求出最佳预测系数吒。为此定义短时平均预测误差能量： e - ( ) - k o ) 一岛o 汗。莩卜( ，) 一耋吼矗( ，一七) 】2 但。，其中( ，) 是在抽样点n 附近选择的个语音帧，即： ( j ) - s ( n + j ) ( 2 - m ) 式( 2 - 9 ) 中e 为最小时吼) 必定满足b e , - o o - l 2 ，p ) ，由此便得到以吼) o a ，为变量的线性方程组：吒吮一戎i = l 2 ，p 1 0 武汉理工大学硕十学位论文其中：丸( f ，七) 一毛( ，一f - 。( 卜k ) 7 佗1 2 ) 该线性方程组通常有唯一解，一旦解出其中的变量 a t ，最小预测误差能量便可由式( 2 1 ) 求得。也可以利用式( 2 - 1 2 ) ，将式( 2 - 2 ) 改写，得到一种最小预测误差能量计算公式：或- s 矧一弘艺( 办( ，- k ) “ 7 仁1 3 ) 一九( o ，o ) 一窆以丸( o 七) 屙由式( 2 6 ) 计算出的最小预测误差序列p o ) 称为预测残差序列。e 就是预测残差能量。对于增益因予g ，因为其在短时内为一个常数。根据式( 2 5 ) 和式( 2 3 ) ，有： 1 丘。小。2 驴 ( 2 1 4 ) 若所分析的信号s 例符合式( 2 - 1 ) 所定义的模型，那么输入信号u ( n ) 可以认为是一个单位方差的白噪声序列。如果只考虑s f h j 被一个短时窗截得的部分，那么输入信号也可以是一个单位脉冲序列d 例。在这种情况下，式( 2 - 1 3 ) 中得输入信号总能量都为1 ，于是由式( 2 1 4 ) 得： g - e “ 佗1 5 ) 事实上，语音信号可以近似认为由清音和浊音组成的信号，对于浊音，激励。忡j 是以基音周期重复的单位冲激；对于清音，p 0 ) 接近白噪声，所以上述模型的假定能获得较好的效果。 2 3 2m e l 频率倒谱系数 m e l 频率倒谱系数是将信号的频谱，首先在频域将频率轴变换为m e l 频率尺度，再变换到倒谱域得到的倒谱系数。所谓m e l 频率尺度，它的值大体上对应于实际频率的对数分布关系。m e l 频率与实际频率的对应关系如下： m e i ( ，) l2 5 9 5 1 。g ( 1 + ，7 0 0 ) ( 2 - 1 6 ) 实际频率，的单位是h z ，临界频率带宽随着频率的变化而变化，并与m e l 频 1 l 武汉理工大学硕士学位论文率的增长一致。在1 0 0 0 h z 以下，大致呈线性分布，带宽为1 0 0 i - i z 左右；在1 0 0 0 h z 以上呈对数增长。与普通实际频谱倒谱分析不同，m e l 频率倒谱系数的分析基于人耳的听觉特性。由于人耳特殊的非线性听觉特性，它对于不同频率的信号，其响应灵敏度是不同的，基本体现为对数关系。而m f c c 就是用来模仿人耳这种非线性的特性而产生的一种的语音参数。在实际应用中，m f c c 参数的计算流程可以用图2 - 3 表示。、离语预傅滤取散 m f c c 音加立波傅信斗加啼窗斗时 - - 1 - 对- - 1 立斗系号重变处数叶数换理变 7换图2 - 3m f c c 参数提取的流程图 1 预加重是通过一个高通滤波器，将经采样后的数字语音信号x ( n ) 通过一个高通滤波器( ( 1 l i g h p a s s f i l t e r ) ，日( z ) - 1 - a z ，0 9 a 1 0 ( 一般取0 9 5 左右) 。经过预加重后的信号为：i ( n ) - x ( n ) 一a x ( n 一1 ) 。由于发声过程中声带和嘴唇的效应，使得高频共振峰的振幅低于低频共振峰的振幅，因此进行预加重的目的就在于滤除低频干扰，消除声带和嘴唇的效应，将对于语音识别更为有用的高频部分的频谱进行提升。另外还可以起到消除直流漂移，抑制随机噪声和提升清音部分能量的效果。 2 加窗的部分是将一段语音信号分成数个若干段，然后针对每一段的信号进行特征参数的提取。由于加窗后视窗内的原始信号被保留，窗外的信号则被设为 o ，这可能会造成边缘信号处理的不连续，为了减少这种影响，一般会采用强调中间信号的视窗，如汉明窗( h a m m i n g w i n d o w ) 。设经过分帧之后的语音信号为s 佃) - o ，1 ，。一1 ，那么乘上汉明窗后就会变成 s 伽) 一s ( m ) w i ) ，其中，i ) 定义如下：，1 0 5 4 0 4 6 c o s f 丝1 ；0 栉s l 一1 州力。1 l - 1 ) 。【 u ；口伪盯w 卵 f 2 1 7 ) 3 滤波处理的部分是以一组m e l 频率的带通滤波器做加权和( w e i g h t i n gs u m ) 的处理，这组滤波器是由数个彼此相连的跨越的三角形滤波器构成。m e l 滤波的武汉理工大学硕+ 学位论文作用是利用同人耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑，如图2 4 所示。能量 ) e a c h b 砒d 图2 4 m e l 尺度三角形滤波器组在m e l 频率轴上配置l 个通道的三角滤波器组，l 的个数由信号的截止频率决定。每一个三角形滤波器中心频率c ( f ) 在m e l 频率轴上等间隔分配。设 d ( z ) 、c ( f ) 、i l ( f ) 分别是第f 个三角滤波器的下限、中心和上限频率，则相邻三角形滤波器之间的下限、中心和上限频率有如下关系成立： c ( 1 ) - h ( 1 - 1 ) - o ( 1 + 1 ) ( 2 - 1 8 ) 每个三角形滤波器的谱分量进行求和运算可以通过以下公式实现： y i ( f ) 篁k 旺) j 彤罐) ，f 。l ( 2 q 9 ) 嵋忙) 一口( f ) s ks c ( f ) c ( f ) ts h ( 1 ) ( 2 - 2 0 ) 其中形坼) 表示三角形滤波器函数。 4 对数操作0 0 9 ) 的用途至少两点，其一是压缩谱的动态范圃，其二是同态分析。离散余弦变换( d c r ) 主要用来对不同频段的频谱成份进行了解相关处理，以满足h m m 建模中各维特征向量之间统计独立的假设。 m l - l o g ( i m ，1 2 ) l - 1 工 ( 2 - 2 1 ) 对所有滤波器输出作对数运算，再进一步做离散余弦变换( d c t ) f l j 可得到 m f c c 系数砌) 。展帅s 雌) 誓劲 ( 小詈荟mc o s 肝壹斟、硼舭硼武汉理工大学硕士学位论文 m f c c 的第0 阶分量就是倒频谱的能量值。m f c c 的一阶差分和二阶差分系数包含了语音谱中的随时间变化的信息，而且生成动态参数的过程可以部分的消除背景噪声和信道失真造成的倒谱偏差，因此经常将它们和静态m f c c 一起作为语音识别系统的特征。随后可以看到本系统就使用的特征参数在0 阶静态分量的基础上加上了一阶，二阶差分回归系数共3 9 维的m f c c 系数。 2 4 主要的识别算法如图2 2 所示，特征提取后就需要进行模式匹配。首先通过学习算法，将训练语音的特征通过学习过程转换成声学模型。声学模型是语音识别系统中最底层的模型并且也是识别系统最关键的一部分。声学模型的作用是提供一种有效的方法计算语音的特征矢量系列与每个发音模板的距离，因为发音在每个时刻都受到其前后发音的影响，为了模仿自然连续语音中的协同发音的作用和鉴别这些协同发音，通常要使用复杂的声学模型，声学模型单元的大小( 字发音模型、半发音模型或音素模型) 对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。对大词汇量语音识别系统来讲，通常识别单元小，则计算量也小，所需的模型存储量也小，但带来的问题是对应语音段的定位和分割较困难，识别模型规则也变得更复杂。通常大的识别单元在模型中应包括协同发音( 指的是一个音受前后相邻的影响而发生变化，从发声机理上看就是人的发声器官从一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异1 ，这有利于提高系统的识别率。近几十年比较成功的识别方法有：动态时间规整( 删技术、隐马尔可夫模型( h m m ) ，人工神经网络( a n n ) 。 1 动态时间规整技术由于在训练或识别过程中，即使同一个人发同一个音时，不仅其持续时间长度会随机地改变，而且各音素的相对时长也是随机变化的。因此在匹配时如果只对特征向量系列进行线形时间规整，其中的音素就有可能对不准。算法的思想就是把未知量均匀地伸长或缩短，直到它与参考模式的长度一致时为止。在时间规整过程中，未知单词的时间轴要不均匀地扭曲或弯折，以便使其特征与模型特征对正，d t w 的具体实现方法是采用动态规划技术( d p ) ，方法简单有效，对小词表孤立词识别系统非常有效。但是没有一个有效用统计方法进行训练框 1 4 武汉理工大学硕士学位论文架，也不容易将语音模型的底层与顶层各种知识甬道算法中，在大词汇量连续语音的非特定人识别显得无能为力。 2 隐马尔可夫模型隐马尔科夫模型作为一种统计模型在最近3 0 年成功地实现了对诸如语音识别、生物序列分析等复杂问题的建模，并且在语音处理的各个领域获得广泛的应用，比如端点检测，语音增强，语音压缩及语音识别等等。它的出现使自然语音识别系统取得了实质性的突破。基于h m m 的建模现己成为语音识别的主流技术，目前大多数成功的连续语音识别系统都是采用这种方法。其在语音识别的成功运用主要由于解决了如何辨识具有不同参数短时平稳信号段及它们之间转化的问题。 h m m 是对语音信号的时间系列结构建立统计模型，将其看作一个数学上的双重随机过程，一个是m a r k o v 链，这是基本的随机过程，描述状态间的转移；另一个是描述状态和对应的观察值的概率分布。因为从模型外部只能看到观察值，而无法了解状态间的转移。因此称为隐马尔科夫模型。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个客观测的时变系列，是由大脑根据语法知识和言语需要( 不可观测的状态) 发出的音素的参数流。h m m 以合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性。 h m m 技术在语音识别中成功的应用，主要是它有较强的对时间序列结构建模能力，但h m m 仍有一定的局限性，主要表现在：一阶h m m 的假设难以直接用模型描述协同发音；h m m 需要对当前的状态序列分布作人为的假设；对低层次声学音素建模能力弱，使声学上相似词容易混淆。 3 人工神经网络 a n n 是采用大量的简单处理单元广泛地连接起来构成的一种复杂的信息处理网络，其中处理单元及其相互连接模式借鉴人脑神经元的结构及连接机制设计的。这种网络具有与人脑相似的学习记忆能力，知识概括和输入信息特征抽取能力。其本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性。基于人工神经网络语音识别系统具有很大的发展空间，但普遍存在训练，识别时问过长的缺点，目前还无法在实际应用取得很好的表现，同时许多学者正致力予利用神经网络同传统方法相互结合的语音识别系统的研究并取得一定进展。武汉理工大学硕士学位论文第3 章h m m 的改进方法 3 1 传统h m m 3 1 1h m m 基本概念隐马尔可夫模型是在马尔可夫链的基础之上发展起来的。由于实际问题比马尔可夫链模型所描述的更为复杂，观察到的事件并不是与状态一一对应，而是通过一组概率分布相联系，这样的模型就称为隐马尔可夫模型( h m m ) 。一个著名的说明h m m 概念的例子：球和缸实验，如图3 - 1 所示。缸葚图3 - 1 球和缸实验设有n 个缸，每个缸中装有很多彩色的球，球的颜色由一组概率分布描述。实验是这样进行的：根据某个初始概率分布，随机地选择n 个缸中的一个，例如第i 个缸，再根据这个缸中彩色球颜色的概率分布，随机地选择一个球，记下球的颜色，记为d 1 ，再把球放回缸中，又根据描述缸的转移概率分布，随机选择下一个缸，例如第j 个缸，再从缸中随机选一个球，记下球的颜色，记为d 2 ，这样一直进行下去。可以得到一个描述球的颜色的序列d ；d ，由于这是观察到的事件，因而称之为观察值序列。但缸与缸之间的转移以及每次选取的缸被隐藏起来了，并不能直接观察到。而且，从每个缸中选取球的颜色并不是与缸一一对应，而是由该缸中彩球颜色概率分布随机决定的。此外，每次选取哪个缸则由一组转移概率所决定。一个隐马尔可夫模型可以由下列参数描述【4 l ： n ：模型中马尔可夫链状态数目。记n 个状态为只，以，记t 时刻马尔可 1 6 武汉理【大学硕士学位论文夫链所处的状态为s ，显然墨岛，。球与缸的实验中的缸的总数就等于 n 。 m ；每个状态对应的可能的观察值数目。记m 个观察值为k ，记t 时刻观察到的观察值为q ，其中q k 。j 名。在球与缸的实验中，所选彩球的颜色，就是观察值。 p ：初始状态概率矢量，石1 0 h ，) ，其中嘎 p ( q l i b ) 。在球与缸实验中指开始时选取某个缸的概率。 a ：状态转移概率矩阵，a 一( a 0 ) ，其中a 日i p o 。“1 口f l s t1 q ) ，在球与缸实验中指描述每次在当前选取的缸的条件下选取下一个缸的概率。 b ；观察值概率矩阵，b = p 弦) 材，其中6 m - p ( d f 一圪l 墨- 口，) 。在球- q 缸实验中，b 。是第j 个缸中球的颜色k 出现的概率。观察值概率的分布决定模型是离散h m m 或者连续h m m 。对于离散模型b p 让) 。盯对应一矢量量化器码矢的概率矩阵；对于连续模型b b ，( 口) 是描述状态l 特征矢量分布的概率密度函数。在连续的通常将分布看作满足高斯分布：这样，一个h m m 就可以记为a - ( ，m ，而a ，b ) 或者简单记为a 1 西，4 研。 3 1 2h m m 要解决的三个问题用h

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于隐马尔科夫模型的语音识别技术研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于隐马尔科夫模型的语音识别技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档