(电工理论与新技术专业论文)基于hmm的孤立词语音识别系统的研究.pdf_第1页
(电工理论与新技术专业论文)基于hmm的孤立词语音识别系统的研究.pdf_第2页
(电工理论与新技术专业论文)基于hmm的孤立词语音识别系统的研究.pdf_第3页
(电工理论与新技术专业论文)基于hmm的孤立词语音识别系统的研究.pdf_第4页
(电工理论与新技术专业论文)基于hmm的孤立词语音识别系统的研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(电工理论与新技术专业论文)基于hmm的孤立词语音识别系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文a b s t r a c t a b s t r a c t s p e e c hr e c o g o n i t i o ni sak i n do ft e c h n o l o g yt h a ti su s i n gc o m p u t e rt o t r a n s f e rt h ev o i c es i g n a lt oa na s s o c i a t e dt e x to rc o m m a n db y i d e n t i f i c a t i o na n du n d e r s t a n d t h es p e e c hr e c o g n i t i o nt e c h n o l o g yt a k et h e p r o n u n c i a t i o ns i g n a lp r o c e s s i n ga st h er e s e a r c ho b j e c t , i n v o l v e st h e l i n g u i s t i c s ,t h ec o m p u t e rs c i e n c e ,t h es i g n a lp r o c e s s i n g , t h ep h y s i o l o g y , t h ep s y c h o l o g ya n ds oo nm a n yd o m a i n s ,i st h ep a t t e r nr e c o g n i t i o n i m p o r t a n tb r a n c h t h i st e c h n o l o g yh a st h ee x t r e m e l yb r o a da p p l i c a t i o n p r o s p e c t b u ta tp r e s e n ta p p l i e st h em o s ts u c c e s s f u ls p e e c hr e c o g n i t i o n s y s t e mm o s t l yi s b a s e do nh i d e sm a r k o vt ob ep o s s i b l et h eh u s b a n d m o d e lr e c o g n i t i o ns y s t e m ,t h e r e f o r et h o r o u g h l yu n d e r s t o o da n dg r a s p s h i d e sm a rt ob ep o s s i b l et h eh u s b a n dm o d e lt ob ee x t r e m e l ys i g n i f i c a n t t h ep a p e rm a i nr e s e a r c hs p e e c hr e c o g n “i o nb a s i cp r i n c i p l ea n dt h e d i f f e r e n tr e c o g n i t i o na l g o r i t h m ,a n de m p h a t i c a l l ys t u d yh i d d e nm a r k o v m o d e l ( h m m ) a n d b a s e do nt h i sm o d e ls p e e c hr e c o g n i t i o na l g o r i t h m a n dh a sc o n s t r u c t e do n ei nt h i sf o u n d a t i o nb a s e do nh i d d e nm a r k o vt h e m o d e l ( h m m ) s p e e c hr e c o g n i t i o ns y s t e m t h i s s y s t e mh a sc o m p l e t e dt h es p e e c hr e c o g n i t i o nm a i np r o c e s s , c o n t a i n st h ep r e t r e a t m e n t ,t h ev e r t e xe x a m i n a t i o n ,t h ec h a r a c t e r i s t i c p a r a m e t e re x t r a c t i o na n dt h ep a t t e r nm a t c h i n g p r e t r e a t e dm a i n l yu s e st h e p r e - e m p h a s i s ,t h ev e r t e xe x a m i n a t i o nu s e st h ed o u b l et h r e s h o l dm e t h o d , t h ec h a r a c t e r i s t i cp a r a m e t e re x t r a c t i o nh a su s e di st h el i n e a rp r e d i c t i o n a n a l y s i sm e t h o d ,s e l e c t e dh a sb e e nb e a u t i f u ly o u rc e p s t r u mc o e f f i c i e n t ( m f c c ) t ot a k et h em a i nc h a r a c t e r i s t i cp a r a m e t e r ,u s e dh i d d e nm a r k o v m o d e l ( h m m ) c o m p l e t e dc h i n e s ep r o n u n c i a t i o n ;t h et r a i n i n ga n dt h e r e c o g n i t i o n t h er e s u l ti n d i c a t e dt h a t ,t h i ss y s t e mr e c o g n i t i o nr a t e a c h i e v e d9 0 b a s i cm a ys a t i s f yt h e s y s t e mt h ed e s i g nr e q u e s t k e yw o r d s :h i d d e nm a r k o vm o d e ( h m m ) ,s p e e c hr e c o g n i t i o n ,l i n e a r p r e d i c t i o na n a l y s i s n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名: 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,在解除密级的情况下,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印 或其它手段保存学位论文;学校可根据国家或湖南省有关部门规定送 交学位论文。 作者签名:二塑牟当上归 硕士学位论文 第一章绪论 1 1 语音识别概述 1 1 1 语音识别研究的重要意义 第一章绪论 语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算 机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。 随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果 手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别 正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合 使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用己经成为一个具有 竞争性的新兴高技术产业。 语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器 操作等的声控技术起到重大的推进作用。语音识别技术在人机交互应用中,也已经 占到了越来越大的比例如基于电话的语音识别技术,使计算机直接为客户提供金 融、证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重 要一环。在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具 变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过 语音命令方便地从远端的数据库系统中查询与提取有关的信息。 因此可以预见,语音技术必将对工业、金融、商业、文化、教育等诸方面产生 革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点,一些主 要先进国家都把语音识别的研究列为国家级的研究项卧。 1 1 2 语音识别的发展现状 语音识别的研究工作大约开始于五十年代,当时a t & tb e l l 实验室实现了第 一个可识别十个英文数字的语音识别系统a l l d l y 系统1 2 1 。 六十年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了 动态规划p ) 和线性预测分析技术( l p ) ,而后者较好地解决了语音信号模型的问题, 对语音识别的发展产生了深远影响。 七十年代,语音识别领域取得了突破。在理论上,l p 技术得到进一步发展,动 态时间规整技术玎d 基本成熟,特别是提出了矢量量化( 、r q ) 和隐马尔可夫模型 ( 珊m ) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立语 音识别系统。 硕士学位论文第一章绪论 八十年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工 神经元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于a t t b e l l 实验室的r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模型工程 化,从而为更多研究者了解和认识。a n n 和h m m 模型建立的语音识别系统性能相 当。 进入九十年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向 实用。许多发达国家如美国、日本、韩国以及m m ,a p p l e ,a t & t ,n r r 等著名公司 都为语音识别系统的实用化开发投以巨资。 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实 验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家 组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平 已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国 际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化 研究所模式识别国家重点实验室。 由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数 码串连续语音识别系统,识别精度达到了9 4 ,8 ( 不定长数字串) 和9 6 8 ( 定长数字 串) 。在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这是目前国际上最好的识别结果之一,其性能已经接近实用水平。 研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到9 8 7 3 ,前三选 识别率达9 9 ,并且可以识别普通话与四川话两种方言,达到了实用要求1 3 1 。 1 2 语音识别技术的分类 计算机语音识别过程与人对语音识别处理过程基本上是一致的。语音识别系统 可以根据对输入语音的限制加以分类。 从说话者与识别系统的相关性分: ( 1 ) 特定人语音识别系统:仅考虑对于专人的话音进行识别,与讲话的语种没有关 系,什么语言都可以识别; c 2 ) 非特定人语音识别系统;识别的语音与人无关,通常要用大量不同人的语音数 据库对识别系统进行学习,识别的语言取决与采用训练语音库; ( 3 ) 多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人的语音 进行学习,通常可以识别三到五个人的语音。 从说话的方式分: ( 1 ) 孤立词语音识别系统:其输入系统要求输入每个词后要停顿; ( 2 ) 连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出现一些连 2 硕士学位论文第一章绪论 音现象: 、 ( 3 ) 连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连音和变 音。 从识别系统的词汇量大小分l : ( 1 ) 小词汇量语音识别系统,通常包括几十个词; ( 2 ) 中等词汇量语音识别系统,通常包括几百个词到上千个词。 ( 3 ) 大词汇量语音识别系统,通常包括几千到几万个词。这些不同的限制也决定 着语音识别系统难易程度。 1 3 语音识别的基本方法 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配 的方法以及利用人工神经网络的方法。 ( 1 ) 基于语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于 其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域 或时域特性来区分这样该方法分为两步实现: 第一步,分段和标号 把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。 然后根据相应声学特性对每个分段给出相近的语音标号 第二步,得到词序列 根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序 列,也可结合句子的文法和语义同时进行。 ( 2 ) 模板匹配的方法 , 模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中, 要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动 态时间规整( i ) t w ) 、隐马尔可夫( 舢) 理论、矢量量化( v q ) 技术。 1 动态时间规整( d t w ) 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别 的基础。所谓端点检测就是在语音信号中的各种段落( 如音素、音节、词素) 的始点 和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能 量、振幅和过零率。但效果往往不明显。6 0 年代日本学者i t a k u r a 提出了动态时间规 整算法( d w :d y n a m i ct i m ew a r p i n g ) 。算法的思想就是把未知量均匀的升长或缩短, 直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或 硕士学位论文 第一章绪论 弯折,以使其特征与模型特征对正。 2 隐马尔可夫法( h 咖) 隐马尔可夫法( h 姗) 是7 0 年代引入语音识别理论的,它的出现使得自然语音识 别系统取得了实质性的突破。删方法现已成为语音识别的主流技术,目前大多数 大词汇量、连续语音的非特定人语音识别系统都是基于删模型的。l 删是对语音信 号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用 具有有限状态数的m a r k o v 链来模拟语音信号统计特性变化的隐含的随机过程,另一 个是与m a r k o v 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出 来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程, 语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要( 不可观 测的状态) 发出的音素的参数流。可见h m m 合理地模仿了这一过程,很好地描述了语 音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型0 1 。 3 矢量量化( v 妨 矢量量化( v e c t o rq u a n t i z a t i o n ) 是一种重要的信号压缩方法。与舢相比,矢 量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k 个样点的每一帧,或有k 个参数的每一参数帧,构成k 维空间中的一个矢量,然后 对矢量进行量化。量化时,将k 维无限空间划分为m 个区域边界,然后将输入矢 量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量 化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失 真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量, 实现最大可能的平均信噪比。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么 由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码 书的平均量化失真,也就是说编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可 以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形 搜索的矢量量化和多级矢量量化”1 。 ( 3 ) 神经网络的方法 利用人工神经网络的方法是8 0 年代末期提出的一种新的语音识别方法。人工神 经网络( a n n ) 本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理, 具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入一输出 映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目 前仍处于实验探索阶段。 由于a n n 不能很好的描述语音信号的时间动态特性,所以常把a n n 与传统识别方 法结合,分别利用各自优点来进行语音识别。 4 硕士学位论文第一章绪论 1 4 本文的主要工作 虽然语音识别,特别孤立词语音识别在软件技术上已比较成熟。但用普通处理 器来实现语音识别的算法来说并不一定是最合适的。一方面,有些算法用普通处理 器来实现较为困难,有些甚至还要根据现有的处理器的硬件结构来修改算法。因此, 本文研究了一种基于隐马尔科夫的孤立词语音识别系统。 各章内容主要包括: 第一章:绪论,讲述语音识别的历史、分类,同时提出了当前所面临的问题及将 来的技术前景和应用。 第二章:概述语音识别的基本理论,重点介绍了特征参数的提取和模板匹配技 术。 , 第三章:这一章主要讲述了隐马尔科夫理论。介绍了隐马尔科夫模型的数学背景 和定义,训练和识别算法。 第四章:这一章主要进行实验仿真和结果分析。 第五章:总结与展望。 硕士学位论文第二章语音识别的基本原理 第二章语音识别的基本原理 2 1 语音信号的产生和感觉机理 2 1 1 语音信号产生的数学模型 语音是由于肺部的收缩压迫气流由支气管经过声门和声道引起音频振荡而产生 的。发音过程中声道各处的截面积取决于舌、唇、领以及小舌的位置。声道有三类 不同的激励方式,因而可以产生三类不同的声音:当气流通过声门时声带的张力刚好 使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声 道便产生浊音:如果声道中某处面积很小,气流高速冲过此处时而产生湍流,得到 一种类似噪声的激励,这种方式对应与摩擦音或清音;如果声道某处完个闭合建立 起气压,然后突然释放而产生的声一音就是爆破音。 根据语音信号的产生机理,可以模拟语音信号的发生系统如图2 一l 所示。这个 过程可以用一个时变线性系统来模拟,语音信号可以看作是激励信号u o ( n ) 激励一个 线性系统h ( z ) 而产生的输出,其中h ( z ) 是声道响应v ( z ) 与嘴唇辐射模型r ( z ) 相级 联而成,即: 月( z ) = 矿( z ) 月( z ) ( 2 - 1 ) 对于浊音来讲,我们还可以把声门脉冲的影响也归并到传递函数中,即: 胃( z ) = g ( z ) 矿( z ) r ( z ) ( 2 2 ) 基音周期 图2 - 1语音信号的产生模型 号 这时,浊音信号就可以看作是一个准周期性的脉冲串激励一个离散线性系统 h ( z ) 而产生的输出了。而清音信号是由一个自噪声序列激励一个线性系统而产生的 6 硕士学位论文第二章语音识别的基本原理 输出,而这个线性系统仅是由声道响应v ( z ) 与嘴唇辐射模型r ( z ) 相级联而成。 浊音信号的产生过程受声门脉冲形状g ( n ) 、声道响应v ( n ) 和嘴唇辐射影响r ( n ) 的共同作用,可以等效为一个线性系统,称为声道系统,即: ( 呻= g ( 玎) 1 ,( 帕,( 哟 ( 2 3 ) 相应的z 变换为( 2 2 ) 式而将激励信号看成是一个准周期性的6 脉冲串: 尸( 哟= 8 ( n + r n p ) ( 2 - 4 ) 那么浊音信号就是两者的卷积结果,如式2 5 所示: x ( 哟= ,( 一) 吃( 帕 = o + r n p ) ( 2 5 ) , 类似清音产生过程受声道响应v ( n ) 和嘴唇辐射影响r ( n ) 共同作用也可以等效为一 个线性系统: 鬼( 力= 1 ,( 功,( 帕 ( 2 - 6 ) 相应的z 变换为: 风( z ) = 矿五( :) ( 2 7 ) 假设激励信号u ( n ) 为白噪声序列则: 双帕= 伽) + “ 力 ( 2 8 ) 大量研究表明,语音信号的一个重要特点就是它的“短时性”,某些时段中它呈现出 随机噪声的特性,另一些短时段则呈现出周期信号的特征,其他一些时段是二者的 混合。这就是说语音信号的特征是随时间而变化的。由于人的声道形状及其变化规 律具有一定的惯性,因此在一段短时间间隔中,语音信号保持相对稳定一致的特征, 所以,对于语音信号的分析和处理就必须建立在“短时”的基础上。这段短时间一 般可取为5 - 5 0 m s 2 1 2 语音信号的感觉机理 耳是听觉系统的重要组成部分,由外耳、中耳和内耳三部分组成,外耳由耳翼、 外耳道和鼓膜组成,外耳对一定频率范围内的声音有共振作用,这会使声音得到 1 0 d b 左右的放大,外耳对声音的感知起着定位和放大的作用。另外,除外耳道的共 振放大声音外,头的衍射作用也会增加骨膜处的声压,使声音得到一定的放大。 中耳包括听小骨( 包括锤骨、砧骨和镫骨) 和咽鼓管。锤骨与鼓膜相接触,镫骨 则与内耳的前庭窗相接触。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻 抗匹配起来,在一定的声强范围内,听小骨对声音进行线性传递,而在特别强声时, 硕士学位论文 第二章语音识别的基本原理 听小骨进行非线性传递,对内耳起到保护的作用。 耳蜗是内耳的主要组成部分,是听觉的收纳器,把声音通过机械变换产生神经 发送信号。耳蜗是一根密闭的管子,内部充满了淋巴液。耳蜗由三个部分组成:鼓阶、 中阶和前庭阶。其中阶连接鼓阶和前庭阶,中阶的底膜称为基膜,基膜上是柯蒂氏 器宫,柯蒂氏器官是一个传感装置。 人耳有两个重要的特性,一是耳蜗对声音信号的时频分析特性,二是听觉掩蔽 效应。当声音经外耳传入中耳时,镫骨的运动引起耳蜗内淋巴液压强的变化,进而 引起行波沿基膜传播,不同频率的声音产生不同的行波,其峰值出现在基膜的不同 位置上。频率较低时,基膜振动的幅度峰值出现在基膜的顶部附近:相反,频率高时, 基膜振动的幅度峰值出现在基膜的基部附近。如果信号是一个多频率信号,则产生 的行波将沿着基膜在不同位置产生相应大的振幅。从这个意义上讲,耳蜗就像一个 频谱分析仪,将复杂的信号分解成各种频率分量。 2 2 语音识别的基本原理 目前大多数语音识别系统都采用了模式匹配原理。根据这个原理,未知语音的 模式要与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。 语音识别的步骤分为两步。第一步是根据识别系统的类型选择能够满足要求的 一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,这 些参数作为标准模式由机器存储起来,形成标准模式库,这个语音参数库称为“模 板”,这一过程称为“学习”或“训练”。第二步就是识别。 根据模式匹配原理构成的语音识别系统如图2 - 2 所示。 图2 - 2 语音识别的原理框图 语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识别 硕士学位论文第二章语音识别的基本原理 系统一样,包含有特征提取,模式匹配,参考模式库等三个基本单元。但是由于语音识 别系统所处理的信息是结构非常复杂,内容极其丰富的人类语言信息,因此,它的系 统结构比通常的模式识别系统要复杂得多闻。下面对其说明如下。 1 预处理 包括反混叠滤波、模数变换、自动增益控制、去除声门激励及口唇辐射的影响, 在语音识别中,预处理还包括在声学参数分析之前正确选择识别基本元的问题。 2 特征提取 经过预处理后的语音信号,就要对其进行特征参数分析。特征提取是指从语音 信号波形获得一组能够描述语音信号特征的参数的过程。特征提取也称为特征参数 提取,与之相关的内容是特征问的距离测度。 p 特征参数可以选择下面的某一种或几种:平均能量、过零数或平均过零数、 频谱、共振峰( 包括频率、带宽、幅度) 、倒谱、线性预测系数 3 距离测度 用于语音识别的距离测度有多种,如欧式距离及变形的距离,似然比测度。 4 参考模式库 即声学参数模板。它是用训练与聚类的方法,从单讲话或多讲话的多次重复的语 音参数,经过长时间的训练而聚类得到的 5 训练与识别方法 语音训练和识别的方法很多,如d t w 、v q 、f s v q 、带学习功能的矢量量化( l v q 2 ) 、 舢、模糊逻辑算法等,也可以混合使用上述各种方法。 测度估计是语音识别的核心。目前,已经研究过多种求取测试语音参数与模板之 间的测度的方法。比较经典的有三种:动态时间归整法( d 阿) ;隐马尔科夫模型法 ( 删) ;矢量量化方法( v q ) 。 6 专家知识库 用来存储各种语言学知识。知识库中要有词汇、语法、语义和常用词语搭配等知 识,知识库中的知识要便于修改和扩充。对于不同的语言有不同的语言学专家知识 库,对于汉语要有其特有的专家知识库 7 判决 对于输入信号计算而得的测度,根据,若干准则及专家知识,判决选出可能的结 果中最好的那个,由识别系统输出,这一过程就是判决。 9 硕士学位论文 第二章语音识别的基本原理 2 3 语音信号的预处理 2 3 1 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,信号的高频部分大约 在8 0 0 h z 以上按6 d b 倍频程跌落,即语音信号的频谱产生高频衰落现象。所以系统 得到语音信号频谱时,频率越高相应的成分越少,高频部分的频谱比低频部分的难 求,为抵消这种影响就进行预加重( p r e - e m p h a s i s ) 处理。预加重的目的是提升高频部 分,使信号的频谱变得平坦,保持在低频到高频整个频带中,能用同样的信噪比求 频谱,以便于频谱分析或声道参数分析。预加重一般是在语音信号数字化之后、参 数分析之前在计算机里用具有提升高频特性的预加重数字滤波器来实现,它一般是 一个一阶的数字滤波器 h = l a z 。1 ( 2 9 ) 口决定截止频率,此滤波器为单零点滤波器,呈高通特性。口为频域中的预加重因 子,控制预加重程度,口典型值为0 9 左右。图2 3 是口为0 9 时的频率特性。 语音信号特性是随时间变化的,但是在一个短时间范围内其特性基本保持不变, 因此可以将语音看作是一个准平稳过程,对语音的分析和处理都建立在短时分析的 基础上,将其分成一段一段来分析,其中每一段称为一帧,即对语音信号流采用分 帧或分段来处理。由于语音通常在1 0 m s 3 0 m s 之内是保持相对平稳的,因而帧长 一般取为1 0 m s 3 0 m s 。 图2 - 3 预加重滤波器频率特性 如图2 - 4 所示,经过了预加重之后,声音变得比较尖锐,音量也变小了。口值 越大对高频分量幅度的提升越大。 硕士学位论文第二章语音识别的基本原理 崩 尊 翟 赢抬语f :o 畸 一i t u 。一 : 甲7r 叮秒 图2 - 4 预加重效果 进行过预加重数字滤波处理后,接下来就是要进行加窗分帧处理。分帧的过程 实际上就是加窗的过程。分帧虽然可以用连续分段的方法,但一般要采用交叠分段 的方法,使帧与帧之问平滑过渡,保持其连续性前一帧与后一帧之间的距离称为 帧移。分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的 窗函数以帕乘以信号s 例。从而形成加窗语音信号品( 帕却似宰畎一) 。 在语音数字信号处理中常用的窗函数有矩形窗、汉明( h a m m i n g ) 窗和汉宁 f f i a n n i n g ) 窗,其定义分别为 ( 1 ) 矩形窗 吣) :t l , 黧“。1 ( 2 - l o ) 呦) - 。其他 ( 2 ) 汉明窗 似一) :。d 一4 5 s ( 2 r c n 犯一1 ) ) ,o s 一工一1 ( 2 - 1 1 ) l ;i ;g ( 2 a l 似一) 2 、 “ ( 3 ) 汉宁窗 以玎):牌8(2州鲫胛s(2-t 1 2 )呱玎) 2 o ,其他 1 2 ) 其中为窗长,这些窗函数都有低通特性。通过比较分析:矩形窗旁瓣太高,会产 生严重的泄漏现象,因此很少采用矩形窗;而汉明窗旁瓣最低,可有效地克服泄漏 现象,具有更平滑的低通特性,因此应用最广泛。另外若窗越长,它对信号的平均 作用越厉害,信号的频率分辨率越高,但是其时间分辨率也越低,因此要想反映出 快速时变信息,窗长应相对短一些。 硕士学位论文 第二章语音识别的基本原理 2 1 2 端点检测 对于采集到的语音信号,除了用户的语音信号以外,一般在头部和尾部还包含 静音段,而在现实环境中,静音段经常由于受到噪声的污染能量值不为零,导致系 统误判,性能降低。对语音信号进行端点检测,有利于降低系统运算量,提高系统 性能。尤其是在孤立词( 字) 语音识别系统中,需要正确判定每一个输入语音的起 点、终点。利用语音的时域参量短时参数m ( 短时幅度) 和z ( 短时过零率) 可以进行语音的端点检测。 首先可以考虑用信号的幅度作为特征,区分静音段和语音段。只要设定一个门 限,当信号的幅度超过该门限,就认为语音开始,幅度降低n f o 限以下就认为语音 结束。 语音信号的幅度用短时能量来描述。对于输入语音信号面o ,其中 为采样点, 设帧长为,帧移为坛对于第i 帧,第行个样本,它与原始语音信号的关系为: 薯( 功= 虹( f 一1 ) m + n 】( 2 1 3 ) 第i 帧语音信号的短时能量可以用下面几种算法得到: n e = i ( 聍) i ( 2 1 4 ) t = 1 p = e # ( 功 ( 2 - 1 5 ) j l r p ( f ) = l o g x 2 ( n ) ( 2 - 1 6 ) 1 - 1 它们分别表示绝对值的累加、平方的累加和对数能量,可任选其中一种。将语 音信号分帧后计算每帧的短时能量,再设定一个门限,就可以实现一个简单的端点 检测算法。但是这样的算法是不可靠的。人的语音分清音和浊音两种,浊音为声带 振动发出,对应的语音信号有幅度高、周期性明显的特点,而清音则不会有声带的 振动,只是靠空气在口腔中的摩擦、冲击或爆破而发声,其短时能量比较小。如声 母“s ”、“c ”等的幅度很低,会被基于能量的算法漏过去。声母“s ”、“c ”的幅度 往往更低,以至于有时候肉眼都难以与静音部分相辨别,因此基于能量的算法对这 些清音信号几乎无能为力。 短时能量p ( f ) 的主要用途为: ( 1 ) 可以区分清音段与浊音段,因为浊音时e ( 0 值比清音时大得多; c 2 ) 可以用来区分声母与韵母的分界,无声与有声的分界,连字( 指字之间无间 隙) 的分界等; 硕士学位论文 第二章语音识别的基本原理 ( 3 ) 作为一种超音段信息,用于语音识别中。 仔细观察可以发现,在静音段信号的波形变化相对比较缓慢,而在清音段,由 于口腔空气摩擦的效果,所造成波形在幅度上的变化比较剧烈,通常用一帧信号中 波形穿越零电平的次数来描述这种变化的剧烈程度,称为过零率。语音信号的短时 平均过零数定义为 乙= i s g n x ( m ) l - s g n x ( m - o w ( n - s ) = i s g n x ( m ) l - s g n x ( m - 1 ) l l w ( n - r n ) ( 2 1 7 ) 式中,s g n 是符号函数,即 ,s g n x ( n ) = ! :豸岛 g 砌, 而“行) 为窗口序列,设 , r1 “ 州: 素肥聒。1(2-19) i o ,其他 这里的窗口幅度为1 2 7 , 是对窗口范围内的过零数取平均的意思。因为在窗口内共 有个样本,而每个样本使用了2 次。当然,这里也可以不用直角窗,采用别的形 式的窗。在实际应用中,为了避免静音段的随机噪声产生过高的过零率,通常先设 定一个门限,当前后两个采样的符号不同,而且差值大于该门限的时候,就将过零 率的数值加1 e 、m 、z 都是随机参数,但是对于不同性质的语音它们具有不同的概率分布。浊 音的短时平均幅度最大而短时过零率最低,清音的短时平均幅度居中而短时过零率 最高,无声的短时平均幅度最低而短时过零率居中。这些条件概率函数都很接近于 正态分布虽然利用m 、z 参数可以进行语音清、浊音的简单分类,但是在实际的过 程中却往往需要将二者结合起来才能准确地判定语音的起始和终了位置经典的做 法是采用双门限法如图2 5 所示。 硕士学位论文 第二章语音识别的基本原理 图2 5 用双门限法判定语音起点终点示意图 首先,可根据浊语音情况下m 的概率函数p ( m v ) 确定一个阀值参数肘。,m 。值定 的比较高,当一帧输入信号的m 值超过m 。时,就可以十分肯定该帧信号不是无声, 而有相当大的可能是浊音。根据 靠可判定输入语音中的前后两个点两和兢, 藏一职之间肯定是语音段,但语音的精确起点、终点还要在之前和之后仔细查找, 如图中所示。为此再设置一个低阀值参数j l 毛,由最向前找,当m 由大到小减至肘, 时就可确定l 。类似于此,由或向后找,就可以确定m 。在m 一帆之间任能肯 定是语音段。然后,由 向前和2 向后继续用短时过零率z 进行搜索。为此,根据 无声情况下z 的均值,设置一个参数互,如果由面向前搜索时z 始终大于乏的3 倍, 则认为这些信号帧仍属于语音段,直至z 突然下降到低于3 互值,这时可以确定语音 的精确起点藏( 为了保证可靠,由m 点向前搜索最多不超过2 5 m s ) ,对于终点疵也 可以做类似处理。采取这一算法的原因在于,m 以前可能是一段清辅音( 例如 f 、 s j 等) ,它的能量相当弱,依靠能量不可能将它们与无声区分开,而它们的过零率 明显高于无声,因而能用这个参数来精确地判断两者的分割点,也就是语音的真正 起点。对于疵可做类似的讨论。 如果能够求出s 、u 、v 三种情况下m 和z 的条件联合概率密度函数p ( m z s ) 、p ( m 、z u ) 以及p ( m 、z v ) ,那么就可以采用统计学中的最大似然算法,根据一帧 信号的m 和z 值来判断它的s u v 类别。这就是计算如下的后验概率: p ( x m z 1 :p ( m , z x ) p ( x ) ( 2 2 0 ) e ( m ,z ) 其中x = s 或u 或v 。后验概率最大者作为判别结果。事实上,仅依靠m 和z 两 个参数还不够。如果选取更多的有效参数,例如相关系数等,可以得到更佳的分类 效果。 1 4 硕士学位论文第二章语音识别的基本原理 2 3 语音信号特征参数提取 原始语音信号不能直接用于模板训练和模式匹配,这是因为:( 1 ) 原始语音信 号数据量太大,系统的运算和存贮负担过重:( 2 ) 原始语音信号包含太多的随机因 素,极大的影响了系统的识别率。 语音识别系统进行模板训练和模式匹配的数据是从预处理后语音信号中提取的 特征参数。通过预处理和特征参数提取技术,一方面使得进行模板训练和模式匹配 的数据特征明显,提高了系统的识别率:另一方面进行了信息压缩,降低了系统的运 算量和存贮量。 特征参数提取就是从语音信号中提取( 或测量) 有代表性的、合适的特征参数, 同时进行适当的数据压缩。 时域参数的优点是计算量比较少,对于区别语音段和静音段及清浊音段比较 方便,效果也比较明显。但由于人耳对声音的频域特性比较敏感,时域参数不能恰 当地反映这种特性。 线性预测分析法是最有效的语音分析技术之一,它在语音识别、合成等方面都 得到了成功的应用。 线性预测分析所包括的基本概念是,一个语音抽样能够用过去若1 0 个语音抽样 的线性组合来逼近。通过使实际语音抽样和线性预测抽样之问差值的平方和( 在一个 有限间隔上) 达到最小值,能够决定唯一的一组预测器系数( 预测器系数是线性组合 中所用的加权系数) 。 l p c 倒谱系数其实是复倒谱。复倒谱是信号通过z 变换以后取对数,再求反z 变 换而得到的。线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数h ( z ) 反映了声道的频率响应和原始信号的谱包络,因此用1 9 h ( z ) 做反z 变换即可求出其 复倒谱系数该复倒谱系数是根据线性预测模型直接得到的,因此又称之为线性预 测倒谱系数( l p c c ) 。 基于线性预测分析的倒谱存在一种非常简单有效的递推求解方法。这就是,如果 给出线性预测系数,可用递推公式求出相应的倒谱系数。 2 3 1 线性预测分析的基本原理 假若一个随机过程用一个p 阶的全极点系统受白噪声激励产生的输出来模拟。 设该个系统的传递函数为: 硕士学位论文 第二章语音识别的基本原理 p ( z ) = a k z 。 ( 2 - 2 1 ) 其中g 为常数,s ( z ) 和u ( z ) 分别为输出信号s ( n ) 和输入信号u ( n ) 的z 变换,那 么s ( 1 3 ) 和u ( n ) 的关系可以以表示为差分方程: p s ( 以) = a :( n - k ) + g u ( n ) ( 2 2 2 ) k = l 我们可以把式( 2 2 2 ) 中与 唧) 有关的部分理解为有用信号的p 个样本来预测当 前样本,即定义预测器:这种线性预测最早是用于语音编码,因此人们常称l p c 。这 个线性预测器的系统函数为:、 p p ( z ) = a , z 。 ( 2 2 3 ) k = l 显然,如果信号s ( n ) 精确地符合式( 2 2 1 ) 和式( 2 2 2 ) 所描述的模型假定,那 么用式( 2 2 3 ) 所示的线性预测器预测信号s ( n ) 的预测误差“1 1 应为: “ ) = g 咏( 磅 ( 2 2 4 ) 但是,实际信号未必精确地符合这个假定,因此实际的预测误差应为: p p ( 功= s ( 疗) 一j ( 力= s ( 一) 一a :( n - k ) ( 2 2 5 ) k - 一- i 此式表明预测误差序列是信号s ( n ) 通过一个具有如下系统函数的系统产生的输出: p 4 ( z ) = 1 一q z ( 2 2 6 ) , 扣1 比较式( 2 2 1 ) 和( 2 - 2 6 ) 可以看见,预测误差滤波器a ( z ) 是系统h ( z ) 的逆滤波器,其 中h ( z ) 可以表示成: 日( z ) = g a ( z ) ( 2 - 2 7 ) 线性预测分析的基本问题是由语音信号直接决定一组预测器系数 口1 ) ,它的原 理是通过应用式( 2 2 7 ) 可以对语音谱的性质得到良好的估计。由于语音信号的时变 特性,预测器系数的估值必须在一短段语音信号中进行。基本的途径是求出一组预 测器系数使得在一短段语音波形中均方预测误差最小。所得到的参数就被认为是语 音产生模型中系统函数h ( z ) 的参数。 由于给定的只有信号s ( n ) 和一个参数未知的模型式( 2 2 1 ) ,要想使这个模型 尽可能精确地描述信号s ( n ) ,应该使式( 2 2 4 ) 所得的预测误差在某一短时的总能量 1 6 硕士学位论文 第二章语音识别的基本原理 尽可能小,并在此准则下求出最佳预测系数 q ) 。为此,定义短时平均预测误差能 量: , 。 e = 口2 。( m ) = b ( 埘) 一( 历) f ( 2 - 2 8 ) = i 最一q s 伽一七) i k = llk w l j 其中瓯咖) 是在抽样点n 附近选择的一个语音段即 最( 呐= s ( 栉+ 埘) ( 2 - 2 9 ) 式( 2 2 8 ) 的取值和范围暂且不定,但是因为我们希望开拓一种短时分析技术,所以取 和的间隔永远是有限的。也应注意,为了取平均,该式应该除以语音段的长度。然 而,这个常数和我们将要得到的线性方程组并不相干,因而可以略去使式( 2 2 8 ) 中 达到最小值的h 必定满足a e ,a 嘶= o o = l ,2 力,由此便得到以 以) 为变量的线 性方程: 瓯( m o 瓯= s ( m - o s , ( m - k ) ( 2 3 0 ) 一k f f i l 如果我们定义 m 。瓴d = s ( m - o o s ( m - k ) ( 2 3 1 ) 则式( 2 - 3 0 ) 可以更简洁地写成: 芝二吼圣。( f ,d = 圣o ,o , f = l ,2 ,”- p ( 2 3 2 ) l - i 用一种有效的方法求解这组包含p 个未知数的p 个方程,就可以得到在语音段 伽) 上使均方预测误差为最小的预测器系数“”。要使模型的假定较好地符合语音 产生模型,主要有两个因素要考虑:首先是模型的阶数p 要与共振峰个数相吻合,其 次是声门脉冲形状和唇辐射影响的补偿。通常一对极点对应一个共振峰,l o i d l z 采 样的语音信号通常有5 个共振峰,取p :1 0 ,此外,为了弥补鼻音中存在的零点以及 其他因素引起的偏差,通常在上述阶数的基础上再

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论