(计算机应用技术专业论文)基于小词汇量孤立词语音识别系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于小词汇量孤立词语音识别系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于小词汇量孤立词语音识别系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于小词汇量孤立词语音识别系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于小词汇量孤立词语音识别系统的研究与设计.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于小词汇量孤立词语音识别系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音识别以语音信号为研究对象,是语音信号处理的一个重要研究方向,是模式识 别的一个重要分支。随着现代计算机技术的发展,计算机的使用越来越深入到人们的日 常生活中。人类与计算机进行交流时,最直接和方便的方式就是语言交流,所以语音识 别已成为现代计算机技术研究和发展的重要领域之一。 本文对语音识别系统进行了概要的阐述,并提出了一种小词汇量孤立词语音识别系 统的实现方法。论文首先对语音识别系统中涉及到的基本概念及原理进行了简单的分 析,之后分别针对语音识别系统中预处理阶段的端点检测算法、语音信号的特征提取算 法以及模式匹配和模型训练算法进行了深入的理论研究。采用“双门限”法实现语音端 点检测,在实验室环境下取得了较为理想的检测效果;系统地研究了语音识别系统各种 主要特征参数的提取方法,特别分析和研究了线性预测分析系数( l p c ) 和美尔频率倒 谱系数( m f c c ) 的提取方法;针对模式匹配和模型训练问题,本文采用了基于连续概 率密度隐马尔可夫模型( c d h m m ) 的语音识别模型。实验证明,在信噪比较低的实验 室环境下,该模型取得了良好的识别结果。 关键词:语音识别;端点检测;特征提取;h m m 模型 a b s t r a c t u s i n gs p e e c hs i g n a l a sr e s e a r c ho b j e c t ,s p e e c hr e c o g n i t i o ni sa l li m p o r t a n tr e s e a r c h d i r e c t i o no fs p e e c hs i g n a lp r o c e s s i n ga n di ti sa ne r n b r a n c h m e n to fp a t t e r nr e c o g n i t i o n w i t h t h ep r o g r e s so fm o d e mc o m p u t e rt e c h n o l o g y , t h ep e o p l eu s ec o m p u t e rm o r ea n dm o r o c o m m u n i c a t i n gt h r o u g hs p e e c hw i t hc o m p u t e ri s t h em o s tc o m f o r tw a n , s ot h es p e e c h r e c o g n i t i o nb e c o m ea l li m p o r t a n tr e s e a r c hf i e l do fm o d e mc o m p u t e rt e c h n o l o g y i nt h i sp a p e r , t h es p e e c hr e c o g n i t i o ns y s t e mf o rab a s i ci n t r o d u c t i o n ,a n dd i s c u s s e da b a s e do nt h es m a l li s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mt oa c h i e v e f i r s tw ea n a l y s es o m e b a s i cc o n c e p ta n dt h e o r ya b o u ts p e e c hr e c o g n i t i o ns y s t e m t h e na c c o r d i n gt ot h ea l g o r i t h m s o ft h ee n d p o i n td e t e c t i o nf o rp r e t r e a t m e n t ,f e a t u r ee x t r a c t i o no fs p e e c hr e c o g n i t i o n ,p a t t e m m a t c h i n ga n dm o d e lt r a i n i n g ,w eh a v ead e e ps t u d y o nt h e m u s i n gt h e d o u b l et h r e s h o l d l a ww ec a nc o m p l e t et h ee n d - p o i n td e t e c t i o no ft h ep r o n u n c i a t i o n ,a n do b t a i nt h em o r ei d e a l e x a m i n a t i o ne f f e c tu n d e rt h el a b o r a t o r ye n v i r o n m e n t d i s c u s st h em e t h o d so fe x t r a c t i n gt h e d i f f e r e n tm a i nc h a r a c t e r i s t i cp a r a m e t e r so fs p e e c hr e c o g n i t i o ns y s t e m a t i c a l l y , e s p e c i a l l y a n a l y z el p ca n dm f c cp a r a m e t e r so ft h ec h a r a c t e r i s t i cp a r a m e t e r s ,a i m i n gt h ep a t t e r n m a t c h i n ga n d t h em o d e lt r a i n i n gq u e s t i o n ,t h i sa r t i c l ep r o p o s et h es p e e c hr e c o g n i t i o nm o d e l b a s e do nt h ec d h m m t h ee x p e r i m e n tp r o v e dt h a tu n d e rt h es i g n a lt on o i s er a t i ol o w e r l a b o r a t o r ye n v i r o n m e n t ,t h i sm o d e lh a so b t a i n e dt h eg o o dr e c o g n i t i o nr e s u l t k e yw o r d s :s p e e c hr e c o g n i t i o n ;e n d p o i n td e t e c t i o n ;f e a t u r ee x t r a c t i o n ;h i d d e nm a r k o v m o d e l 论文独创性声明 本人声明:本人所呈交的学位论文是在导师的指导下,独立进行研究工 作所取得的成果。除论文中已经注明引用的内容外,对论文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何 未加明确注明的其他个人或集体已经公开发表的成果。 本声明的法律责任由本人承担。 论文作者躲么壤锋 p 夕年月弓日 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属学 校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权 利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成 果时,署名单位仍然为长安大学口 ( 保密的论文在解密后应遵守此规定) 论文作者签名: 辕弘砗 导师一邙爱 6 7 年乡月多日 1年6 月) 日 长安大学硕士学位论文 i i 引言 第一章绪论 语音是语言的声学表现,是人类交流最自然、最有效、最方便的手段,也是人类进行思 维的一种依托。人类开始进入信息化时代,用现代手段研究语音处理技术,使人们能更加有 效地产生、传输、存储和获取语音信息,例如,我们可以使用自动语音识别技术,把手写文 稿和手工打印文本变成自动听写操作;把人工查阅各种书面文字资料的操作变成口呼自动查 阅各种各样的数据库。这就是说,如果人们的听、说、读、写、查阅信息等都能采用先进的 手段高效地完成,这将使人们的才能得到更加充分的发挥。 语音信号处理中的语音识别技术是一门涉及面很广的交叉学科,虽然从事这一领域研究 的人员主要来自计算机和通信等学科,但是它与语音学、语言学、数理统计学以及神经生理 学等学科有着非常密切的关系,其最终目标是实现人与机器进行自然语言通信。众所周知, 语音是人类进行相互通信和交流的最方便快捷的手段。它反应速度特别快,可以达到毫秒量 级,没有严格的方向限制,可以在黑暗中传播。在高度发达的信息社会中,使用数字化的方 法进行语音的传送、存储、识别、合成、增强,对于促进社会的发展具有十分重要的意义。 计算机的高速发展既对语音识别技术提出了越来越高的要求( 如用语音输入替代键盘输 入以实现直接的人机对话) ,同时也为语音识别技术的进步提供了效率不断提高的软、硬件 实现手段。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下 获得满意的性能,或者说只能满足特定的场合。语音识别系统的性能大致取决于以下4 类因 素:1 识别词汇表的大小和语音的复杂性;2 语音信号的质量:3 单个说话人还是多个说话 人;4 硬件平台。语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术 的发展,不同语种之间的语音语音翻译也将成为语音研究的热点。近年来,随着世界科 技的蓬勃发展,诸如人工神经网络、模糊理论和小波信号处理等技术在语音处理技术的研究 当中得到了广泛的应用,进而促进了语音识别技术的进步。 1 2 语音识别系统的研究目的和意义 语音识别是以语音为研究对象,使计算机能够从人的语音信号中提取出最有用的信息, 从而确定语音信号的语言含义的过程。它是模式识别的一个分支,同生理学、心理学、语言 学、计算机科学以及数字信号处理、信息论等诸多学科紧密相连。语音识别具有广阔的应用 第一章绪论 前景。目前,语音识别已经在听写机、电话查询系统、家电控制等诸多领域得到了充分的应 用。 虽然语音识别系统在实验室环境下能够拥有比较高的识别率,但在语音识别技术从各个 不同的突破口进行应用和产业化过程中,有几个问题逐渐显现出来,成为研究的重点。首先 是方言或口音会降低语音识别率,对于汉语来说尤显突出。其次是背景噪声,人多的公共场 所巨大的噪音对于语音识别的影响自不用说,即使是实验室环境下,敲击键盘、甚至挪动麦 克风都会成为背景噪声。它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,造 成识别率的下降。在实际应用中,噪音是无法避免的。研究将要解决的问题就是如何把原始 语音从背景噪声中分离出来,这将会使识别系统具有很强的适应性。第三个就是“口语 问 题,语音识别技术的最终目的是要让用户在“人机对话 的时候,能够像进行“人人对话” 一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正 常的特点会给语义的分析和理解带来很大的困难。另外一点就是人的肢体语言和面部表情等 因素。人们在讲话时习惯用眼神、手势、面部表情等动作协助表达自己的思想。由于这种体 态语言的含义与个人习惯、文化背景、宗教信仰以及生存环境等因素有关,因此其信息提取 是非常困难的。 近十年来,语音识别的产品也逐渐多起来,例如m o t o r o l a 的语音拨号电话、i b m 的语 音听写机等。但是,现有的语音识别系统都存在一个共同的问题,即性能的稳定性。不同的 用户、不同的信道、不同的背景噪音环境等都对识别性能有很大的影响。最近1 0 多年来抗 噪音识别方法形成了高潮,被e i 收录的文章就有1 0 0 0 多篇。因此,提高语音识别系统的鲁 棒性,是目前及今后语音识别研究的一个重点。相信经过研究者的不断努力,在攻克语音识 别中的主要难题后,语音识别技术将对人类的生活方式产生深远的影响。 1 3 语音识别技术的发展史及研究现状 语音识别的研究工作可以追溯到2 0 世纪5 0 年代a t & t 贝尔实验室的a u d i y 系统,它 是第一个可以识别十个英文数字的语音识别系统。但是直到6 0 年代末7 0 年代初期,语音识 别才作为一个重要的课题展开工作,并且逐步取得实质性的进展。一方面是因为计算机产业 的迅速发展提出了使用要求,同时又提供了实现复杂算法的软、硬件平台;另一方面是因为 数字信号处理的理论和算法在这一时期取得了飞跃性的发展,如快速傅里业变换、倒谱计算、 线性预测算法、数字滤波器等。其中比较著名的是语音信号线性预测编码( l p c ) 技术的 提出,以及同本学者将动态规划的概念用于解决孤立词识别时说话速度不均匀的难题,提出 2 长安大学硕士学位论文 了著名的动态时间规整算法,简记为d t w ( d y n a m i ct i m ew a r p i n g ) 。这有效地解决了语音信 号的特征提取和不等长匹配问题。当词汇量较少以及各个词条不易于混淆时,d t w 算法取 得了很大的成功,从而自6 0 年代末期开始引起了语音识别的研究热潮。 早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇量、孤立词 识别系统。随着应用领域的扩大,小词汇量、特定人、孤立词等这些对语音识别的约束条 件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立 发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位 存在受上下文强烈影响的协同发音现象;第三,非特定人识别时,不同的人说相同的话相应 的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的 话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰,因此原有的模板匹配方 法已不再适用。 实验室语音识别的研究的巨大突破产生于2 0 世纪8 0 年代末:人们终于在实验室突破 了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中, 比较典型的是卡内基梅隆大学的s p h i n x 系统,它是第一个高性能的非特定人、大词汇量连 续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工神经网络 ( 砧蝌) 在语音识别中的成功应用。h m m 模型的广泛应用归功于a t & tb e l l 实验室r a b i n e x 等科学家的努力,他们把原本艰涩的h m m 纯数学模型工程化,从而为更多研究者了解和认 识,使统计方法成为语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地 从整体平均统计的角度来建立最佳的语音识别系统。在声学模型方面,以m a r k o v 链为基础 的语音序列建模方法h m m ( 隐m a r k o v 模型) 比较有效地解决了语音信号短时平稳、长时 时变的特性,并能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模 精度和灵活性。在语言方面上,通过统计真是大规模语料的词之间的出现概率,即n 元统 计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言 处理机制等也在语音识别中得到了应用。 2 0 世纪9 0 年代前期,许多著名的大公司诸如m m 、苹果、a t & t 和n t t 等都对语音 识别系统的实用化研究投入巨资。语音识别技术有一个很好的评估机制,那就是识别的准确 率,而这项指标在2 0 世纪9 0 年代中后期实验室研究中取得了很好的成绩。其中具有代表性 的系统有:m 公司推出的v i a v o i c e 、d r a g o ns y s t e m 公司的n a t u r a l l ys p e a k i n g 、n u a n c e 公 3 第一章绪论 司的n u a n c ev o i c ep l a t f o r m 语音平台、m i c r o s o f t 的w h i s p e r 、s u n 的v o i c e t o n e 等。其中i b m 公司于1 9 9 7 年开发出汉语v i av o i c e 语音识别系统,次年又开发出可以识别上海话、广东话 等地方口音的语音识别系统v i av o i c e 9 8 。它带有一个3 2 0 0 0 词的基本词汇表,可以扩展到 6 5 0 0 0 词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到9 5 。该系统 对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。 我国对于语音识别研究起步比较晚,开始于7 0 年代,经过三十余年的发展,近年来发 展很快。研究水平也从实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,以中国 科学院自动化研究所模式识别国家重点实验室为依托的中科模识,其汉语连续语音、非特定 人听写机系统的普通话系统的错误率可以控制在1 0 以内。我国语音识别技术的研究水平 已经基本上与国外同步,在汉语语音识别上还有自己的特点与优势,并达刭国际先进水平。 我国的中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学等科研机构都有实 验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科 院自动化研究所模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续 语音识别系统的识别精度达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。在有5 的 拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这 是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5 0 0 0 词邮包校核非特 定人连续语音识别系统的识别率已经达到9 8 7 3 ,并且可以识别普通话与四川话两种语言, 达到实用要求。 中科院自动化研究所及其所属模式科技( p a t t e k ) 公司2 0 0 2 年发布了他们共同推出的面 向不同计算机平台和应用的“天语 中文语音系列产品- p 抓e k a s r ,结束了中文语音识 别产品自1 9 9 8 年以来一直由国外公司垄断的历史。 1 4 本论文所要完成的主要工作 虽然语音识别理论和算法研究已经发展到一定的成熟程度,但是作为一名初次接触该学 科的研究者,本论文的研究工作还是定位于对语音识别理论概念的一个总体把握,目的是学 习语音识别的各个环节,作为一个研究方向知识的积累。在此基础上应用目前比较成熟的语 音识别模型h m m 实现孤立词识别,体会语音识别的整体流程。 本文所作的研究工作主要可以概括为以下几个方面i 1 、介绍语音识别系统中涉及到的基本概念及原理,分析一般的语音识别系统的结构及 4 长安大学硕十学位论文 所用到的各种理论技术,包括语音识别单元的选取、特征参数的提取、模式匹配等。另外对 语音识别系统的发展史及研究现状、分类方式等也进行了阐述。 2 、针对语音信号特征参数求解算法的复杂性以及本实验的需要,研究三种参数的提取 过程。一种是线性预测系数( l p c ) 的求解,一种是美尔频率倒谱参数( m f c c ) 的求解, 另一种是线性预测倒谱参数( l p c c ) 的求解。分析在采取不同的特征参数的情况下,对语 音识别系统最后的识别率的不同影响。通过仿真试验,分析得出将m f c c 作为特征参数, 得到了较好的结果。 3 、分析利用统计的方法来进行语音识别最常用的一个模型h m m 模型。该模型中 涉及到的三个基本问题,分别用三种算法来进行解决。建立了一个特定人、孤立词、小词汇 量的语音识别系统。 5 第二章语音识别系统的分析 第二章语音识别系统的分析 语音识别主要是指让机器听懂人说的话,就是说,在各种情况下,准确的识别出语 音的内容,从而根据其信息,执行人的各种意图。语音识另j j 技术是交叉学科,它涉及了 计算机科学、模式识别、通信技术、语言学、数理统计、信号处理、生物学、心理学等 多种学科。在工业、军事、交通、医学、民用诸多方面都有着广泛的应用。 若按照不同的角度来划分语音识别系统,则会得到不同的类别,一般情况下,可以 按以下几种方式进行分类: 从所要识别的单位来分有:孤立词识别、连接词识别、连续语音识别等。 从识别的词汇量来分有:小词汇( 1 0 5 0 个) 、中词汇( s 0 2 0 0 个) 、大词汇( 2 0 0 个以上) 等孤立词识别,这种语音识别的识别率一般是随着词汇量的增加而下降的。 以讲话人来区别分为:单个特定讲话人、多讲话人( 即有限的讲话人) 和与讲话者无关 ( 即无限讲话人) - - 种。其中,特定讲话人识别的识别率较高,而后两种方法实现起来难 度较大,但应用面广、通用性好,具有较高的研究价值和深远的社会意义。 本章从语音识别系统的基本原理出发,分析语音识别系统要解决的基本问题,以及 在当前语音系统研究阶段讨论的热点及难点。 2 1 语音识别的原理 语音识别首先是要根据识别系统的类型,选择一种合适的识别算法,再依据识别算 法的要求,利用有关的语音信号处理方法提取相应的特征参数,在这以后,分两个阶段 进行语音识别:第一个阶段是学习和训练,给出一组训练数据,这些训练数据常常都是经 过精心选择的针对本识别系统应用的数据,再结合识别系统参数的初始值,对系统参数 进行调整,使该系统更适合所提供的训练数据的识别,以提高系统的识别率,最后将这 些经过训练的参数以标准方式存储起来,形成识别库,或叫做模板;第二个阶段就是识别。 将需要识别的语音信号的特征参数与训练过程中产生的模板做对比,在允许的误差范围 内,测得与该语音信号距离最近的模板,输出该模板的识别结果。 如上面介绍的,大部分语音识别系统都采用的是模式匹配的原理,系统的一般结构 如图2 1 所示: 6 长安人学硕士学位论文 图2 1 语音识别系统总体结构框图 系统中包括预处理、特征提取、参考模型、模式匹配和后处理五大部分。预处理包 括增益控制、预滤波、a d 转换、预加重、加窗等操作。在分析处理之前必须把要分析 的部分从语音信号中找出来,这就是端点检测,它也是语音识别中讨论的热点问题之一; 特征参数提取指求取表示语音信号特征的参数,例如短时幅度、能量、过零率、自相关 函数、l p c 系数等:每个参考模式对应系统词汇表中每个识别单元的特征参数;模式匹配 指度量待识别词的特征构成的测试模式与系统所存储的每个参考模式之间的距离。 : 2 2 语音信号的预处理 为了使用数字信号处理的方法对语音信号进行处理和分析,就要将原始的语音信号 先进行一些常规的加工,这就是语音信号的预处理。由于预处理不是本文研究的重点内 容,但又是语音信号处理必不可少的步骤,所以下面只对语音信号预处理的主要步骤进 行简单的讨论。 2 2 1 增益控制、预滤波、a d 转换 增益控制是为了调整语音输入信号的幅度,使其接近a d 转换允许的最大幅度限 制,充分提高信噪比。滤波通常是为了排除工频干扰( 5 0 h z 或6 0 h z ) ,低通滤波器截止 频率小于等于采样频率的一半,以防止频域混叠同时消除高频噪声。模数转换是指模拟 信号到数字信号的转换。 2 2 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以上 跌落明显,所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频 部分的难求,为此要在预处理中进行预加重处理。预加重的目的是提刀高频部分,使信 号的频谱变得平坦。预加重部分用提升高频特性的数字滤波器实现,它一般是一阶数字 7 第二章语音识别系统的分析 滤波器: 日( z ) = 1 一, u z 一1 ( 2 1 ) 其中i l 为预加重系数,一般在0 9 l 之间,典型值取0 9 3 7 5 。图2 - 2 是语音片段预加重 前后的频域波形,从图中可以看出,相对于低频段,高频部分得到显著的提升,信号的 频谱也变得更加平坦。 2 2 3 加窗 原始信号幅度频谱 预加蘑后的幅度频谱 语音数据s ( n ) 要经过加窗处理,即用一定的窗函数w ( n ) 来乘s ( n ) ,从而形成加窗语 音信号q ( n ) ,就是通常所讲的一帧,如下式所示: 9 0 ) = s ( m ) w ( n m ) ( 2 2 ) 上式是卷积形势的,q ( n ) 可以理解为离散信号s ( n ) 经过一个单位冲激响应为 w ( n ) 的f i r 滤波器产生的输出。其带宽和频率相应取决于窗函数的选择。在语音信号处理中常用的 窗函数是矩形窗和海明窗,它们对应的滤波器都具有低通特性。矩形窗和海明窗的表达 式如下: 矩形窗定义为: “n ) = 1 , 0 各阶参数之间有良好的独立性。 特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。 1 9 第三章语音识别系统的设计与实现 一般将语音信号的特征向量分为两类:第一类为基于发声系统模型导出的特征参 数,如经线性预测编码( l p c ) 分析得到的线性预测系数及由它导出的其他特征参数; 第二类为基于听觉系统模型导出的特征参数,如m e l 频率倒谱参数( m c c ) 。 本文所进行的语音识别系统涉及到两类特征参数,一类是线性预测系数( l p c ) 及 线性预测倒谱系数( l p c c ) ;一类是m f c c 参数。 3 3 1 特征参数l p c 的提取 线性预测分析是应用得较广的特征参数提取技术,其核心是由信号的过去值预测其 将来值。线性预测的概念早在2 0 世纪4 0 年代就己被提出,然而将其应用于语音识别, 不仅希望利用其预测功能,而且要求它为我们提供一个非常好的声道模型,而这样的声 道模型对于理论研究和实际应用都是相当有用的。此外,声道模型的优良性能意味着预 测参数是语音识别的非常重要的信息来源。 假设一个随机过程用一个p 阶的全极点系统受白噪声激励产生的输出来模拟,设这 个系统的传递函数为: 一器= 爵g ( 3 - 3 ) i = 1 其中g 为增益常数,a i 为实数,p 为模型阶数,s ( z ) 和u ( z ) 分别为输出信号s ( n ) 和输入 信号u ( n ) 的z 变换,那么s ( n ) 和u ( n ) 的关系可以表示为差分方程: 矽 s ( 刀) = 窆a i s ( n - i ) + g u ( n ) i - - 1 ( 3 - 4 ) 我们可以把式( 3 4 ) 中与 a i 有关的部分理解为用信号的前p 个样本来预测当前样本,即 定义预测器: p s ( 刀) = 窆a i s ( n - i ) ( 3 - 5 ) i = 1 由于预测系数 籼) 在预测过程中看作常数,所以它是一种线性预测器,这种预测最早是 用于语音编码,因此人们常称为l p c ,即l i n e a rp r e d i c t i v ec o d i n g ,这个线性预测器的系统 函数为: 长安大学硕士学位论文 f ( z ) = i 罗- i 口* p z 一1 ( 3 6 ) 显然,如果信号s ( n ) 精哟地行合式( 3 - 3 ) 和式( 3 - 4 ) 所描述的模型1 岌足,那么用式( 3 - 5 ) 所示的线性预测信号s ( n ) 的预测误差应为: p ( ,z ) = g 木甜( ,z ) ( 3 7 ) 但是,实际信号未必精确地符合这个假定,因此实际的预测误差应为: p ( 刀) = s ( n ) - s ( 刀) = s ( ) 一窆a i s ( n - i ) ( 3 8 ) 一 p i = 1 一 此式表明预测误差序列是信号s ( n ) 通过一个具有如下系统函数的系统产生的输出: p 么( z ) = l 一a i z 一。 ( 3 9 ) 持1 7 比较式( 3 3 ) 和式( 3 9 ) 可知,预测误差滤波器a ( z ) 是系统h ( z ) 的逆滤波器,即: 彳( z ) = 雨g ( 3 - 1 0 ) 由于给定的只有信号s ( n ) 和一个参数未知的模型式( 3 3 ) ,要想使这个模型尽可能精确 地描述信号s ( n ) ,应该使式( 3 8 ) 所得的预测误差在某一短时的总能量尽可能小,并在 此准则下求出最佳预测系数 a j ) 。为此,定义短时平均预测均方误差为: = 私咖私矿确2 = 私矿量叩( 删】2 ( 3 - 其中s ( n ) 是在抽样点附近选择的一个语音段,使式( 3 1 1 ) 中e 1 1 达到最小值的 a i ) 必定 满足鲁_ o ( 汪1 2 ,枷由此便得到以 a i 为变量的线性方程组 p a , o ( k ,z ) = o ( k ,o )k = l ,2 ,p( 3 1 2 a ) i = 1 其中 第三章语音识别系统的设计与实现 o ( k ,f ) = y s ( n - k ) 宰s ( n - i ) ,z ( 3 1 2 b ) 这个线性方程组通常有唯一解,一旦解出其中的变量 a i ,最小预测误差能量便可由式 ( 3 1 1 ) 求得。也可以改写式( 3 一1 1 ) ,并利用式( 3 1 2 b ) 得到另外两种形式的最小预 测误差能量计算公式: 或写成 舍一= 丢s 2 ( 刀) 一i 曼= 1 二,荔s ( ,z ) 木s ( 刀一d ( 3 一1 3 ) 会。:一( o ,0 ) 一圭二,( o ,d i f f i l ( 3 1 4 ) 由式( 3 8 ) 计算出的最小预测误差序列e ( n ) 又称为预测残差序列。舍。就是预测残差能 量。增益因子g 的估算如下: g 在所考虑的短时内应该是一个常数。根据式( 3 7 ) 和式( 3 1 1 ) 有: 舍刀= 酽e 力u 2 ( 刀) ( 3 - 1 5 ) 假若所分析的信号s ( n ) 确实符合式( 3 3 ) 的模型,那么假设的输入信号u ( n ) 可以认为是 一个单位方差的白噪声序列。如果只考虑s ( n ) 被某一短时窗截得的部分,那么输入信号 也可以是一个单位的6 脉冲f i ( n ) 。在这两种情况下,式( 3 1 5 ) 中的输入信号总能量都 为l ,于是由式( 3 1 5 ) 得: i : g = e 刀 ( 3 1 6 ) 这样直接把残差能量当作增益的平方a 2 ,虽然只是近似的,却是很实用的,特别是当 模型式( 3 1 ) 的假定是充分考虑了语音产生过程的各种因素时。预测残差序列e ( n ) 将接近 于白噪声序列( 清音) 或6 脉冲串( 浊音) 时,用式( 3 1 6 ) 估算出的a 及最佳线性预测系数 铂 来重构原信号s ( n ) 可获得很好的效果。 要使模型的假定较好地符合语音产生模型,主要有两个因素要考虑:首先是模型的阶 长安大学硕七学位论文 数p 要与共振峰个数相吻合,其次是声门脉冲形状和口唇辐射影响的补偿。通常一对极 点对应一个共振峰,1 0 k h z 采样的语音信号通常有5 个共振峰,取p = 1 0 ,对于8 k h z 采样的语音信号可取p = 8 ,此外为了弥补鼻音中存在的零点以及其他因素引起的偏差, 通常在上述阶数的基础上再增加两个极点,即分别取1 = 1 2 和p = 1 0 。 对于考虑了上述两个因素的l p c 分析,其预测残差序列近似为白噪声,并且残差 能量也相当小,这表明由某一短时信号所得到的线性预测系数能较好地描述产生这一语 音段的声道特性。基于l p c 的语音识别、语音合成、语音编码和说话人识别的大量实 践证明:线性预测参数是语音信号特征表示的良好参数。 由于线性预测技术也可以理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论