(信号与信息处理专业论文)基于hmm的汉语连续数字语音识别.pdf_第1页
(信号与信息处理专业论文)基于hmm的汉语连续数字语音识别.pdf_第2页
(信号与信息处理专业论文)基于hmm的汉语连续数字语音识别.pdf_第3页
(信号与信息处理专业论文)基于hmm的汉语连续数字语音识别.pdf_第4页
(信号与信息处理专业论文)基于hmm的汉语连续数字语音识别.pdf_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于h m m 的汉语连续数字语音识别摘要 摘要 连续数字语音识别在现实中具有广泛的应用前景。在互连网、通信、 军事、国防、人机交互等方面都有着重要的应用价值。 多年来,许多学者都致力于连续数字语音识别的研究。但是,同英语 连续数字语音识别情况相比,汉语连续数字语音识别的现状同实际应用的 要求还存在一定的差距。主要难点在于,首先汉语是单音节字,音节越少 语音间的混淆程度越高,存在一些容易混淆的数字对,如“2 ”和“8 ”,并 且汉语数字中还存在一些单元音数字,如“1 ”、“2 ”和“5 ”,这些数字的 连续发音序列( 如“5 5 ”) 的识别相当困难,识别过程中很容易引起数字“误 插入”和“误删除”。 为了得到一个高性能、低运算量的非特定人连续数字语音识别系统, 本文在识别算法中做了多种分析和改进,研究了结合韵律特征信息来提高 舢连续数字语音识别性能的算法。实验证明,该算法是有效的。 系统的各算法由v c 编程实现,其中包括语音信号的预处理、信号特征 参数的提取、h 删模型训练、连续数字的切割算法、识别算法、以及后处理 部分,并利用汉语的韵律信息来提高识别率。本文的研究采取渐进的方式, 在研究连续数字语音识别之前,先研究了孤立数字的语音识别;在研究基 于c h 删的语音识别之前,先研究了基于d h m m 的语音识别。 关键词:语音识别,汉语连续数字,h m m ,韵律特征信息 作者:张静亚 指导教师:俞一彪 基于h m m 的汉语连续数字语音识别 a b s t r a c t c o n n e c t e dd i g i ts p e e c hr e c o g n i t i o ni sac r u c i a lb r a n c ho fc o n t i n u o u ss p e e c h r e c o g n i t i o n i th a sa t t r a c t e d t h ea t t e n t i o no fm a n yr e s e a r c h e r sf o ral o n gt i m e , b e c a u s ei th a sw i d ea p p l i c a t i o n s ,s u c ha si n t e m e t ,c o m m u n i c a t i o n ,m i l i t a r y a f f a i r s ,h u m a n c o m p u t e rd i a l o g u es y s t e m ,e t c m a n d a r i nc o n n e c t e dd i g i ts p e e c hr e c o g n i t i o ni sm o r ed i f f i c u l tt h a ne n g l i s h d i g i tr e c o g n i t i o nb e c a u s eo fi t so w np r o n u n c i a t i o nc h a r a c t e r i s t i c t h eu l t i m a t eg o a lo ft h i st h e s i si st oi m p m v et h ec o n n e c t e dd i g i ts p e e c h r e c o g n i t i o np e r f o r m a n c eb a s e do nc h m m t o w a r d st h i sg o a l ,w ei n v e s t i g a t ea v a r i e t yo fw a y so fu t i l i z i n gp r o s o d i ci n f o r m a t i o n e x p e r i m e n t ss h o wt h a tt h e p r o p o s e da l g o r i t h m c a ni m p r o v et h ec o n n e c t e d d i g i ts p e e c hr e c o g n i t i o n p e r f o r m a n c e e a c hu n i to fas p e e c hr e c o g n i t i o ns y s t e mi ss t u d i e di nt h i st h e s i s ,w h i c h i n c l u d e st h ep r e p r o c e s s i n g ,t h ee x t r a c t i n go fa c o u s t i cf e a t u r e s ,m et r a i n i n go f h m m ,t h es e p a r a t i n ga n dr e c o g n i t i o no fc o n n e c t e ds p e e c hw i t h p r o s o d i c i n f o r m a t i o n ,e t c t h ea l la l g o r i t h m sa r er e a l i z e do nt h es o t t w a r ev c + + o nt h e o t h e rh a n d ,w ee x a m i n ei s o l a t e dd i g i t s p e e c hr e c o g n i t i o nb e f o r ei n v e s t i g a t e e o r m e e t e ds p e e c hr e c o g n i t i o n ,a n dw ea l s oe x a m i n es p e e c hr e c o g r d t i o nb a s e do n d h m mb e f o r ei n v e s t i g a t er e c o g n i t i o nb a s e do nc h m m k e y w o r d s :s p e e c hr e c o g n i t i o n ,m a n d 撕nc o n n e c t e dd i g i t ,h m m ,p r o s o d i c i n f o r m a t i o n w r i t t e nb y z h a n gj i n g y a s u p e r v i s e db yy uy i b i a o 基于h m m 的汉语连续数字语音识别 第一章引言 第一节语音识别概述 1 1 1 语音识别的意义 通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信 息的形式。如今,人类已进入了信息化时代,人与人之间的语音传递不再 只是面对面的方式,而是通过各种现代化的媒体在任何地点任何时间进行 语音信息交流,如电话、手机、网络以及卫星通信等等。因此,以语音方 式和计算机进行交流就越来越被人们所期待,人机之间进行语音交流已经 成为人机交互技术中的重要研究课题。 语音识别是研究使机器能准确的听出人的语音内容的问题,它常常被 认为是实现人机语音交互技术中关键的第一步,在计算机日益普及的今天, 愈发显现出其在i t 产业中的重要地位。让电脑听懂人的语言是人类自计算 机诞生以来梦寐以求的想法。直接对计算机发号施令,解放出我们的双手, 在任何状态下( 不只限于坐在那里敲键盘) 与计算机进行交互式操作是数字 化生存时代的效率体现和人性化工作方式的完美结合。微电子技术发展到 今天,计算机和电子通信设备日益微型化,未来的计算机将会微缩成腕上 的手表般大小,而如果仍采用键盘输入是不可能的,其他类似的控制仪器 或通信设备的键盘也将在微型化的潮流中遭到淘汰。由此,语音输入便成 为唯一的最佳选择。m i c r o s o f t 公司的总裁比尔盖茨对语音识别技术的前 景表示十分乐观,他大胆预测说:“我们将在这个十年中,克服语音识别技 术的障碍,下一代的操作系统以及应用程序的用户界面将摒弃键盘和鼠标, 代之以真正意义上的人机对话。p h i l i p s ,i b m ,i n t e l ,t o s h i b a 等诸多世 界著名公司以战略的眼光看到了语音识别技术在未来市场中所具有的巨大 潜力,投入巨资进行研究开发。 1 1 2 语音识别技术的发展历史 语音识别的研究工作大约开始于5 0 年代,当时a t & tb e l l 实验室实现 了第一个可识别十个英文数字的语音识别系统。 基于h m m 的汉语连续数字语音识别 第一章引言 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是 提出了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语 音信号产生模型的问题,对语音识别的发展产生了深远影响。 7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到进一步发 展,动态时间归正技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐马 尔可夫模型( h m m ) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的 特定人孤立语音识别系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人 工神经网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于 a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学 模型工程化,从而为更多研究者了解和认识。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验 室走向实用。许多发达国家如美国、日本、韩国以及i b m , a p p l e ,a t & t ,n t t 等著名公司都为语音识别系统的实用化开发研究投以巨资。 1 1 3 语音识别研究现状及难点 经过近五十年的发展,目前语音识别已经达到一个相对高的水平,并 正在从实验室研究中走出来,进入一个实用化的阶段。 小词汇表语音识别也具有广泛的应用价值。英语连续数字语音识别的 识别率己达到9 9 以上:而具有高混淆度的英语字母的识别率也达到了9 7 以上。同时为实现语音识别系统实用化的其他课题,如稳健语音识别 1 、 自适应语音识别 2 、语音确认 3 等也在九十年代以来获得了丰硕的成果。 在语音识别的应用方面,i b m 公司推出的v i a v o i c e 系统标志着非特定 人大词汇量连续语音识别的实用化:w i n d o w s9 5 平台上实现的汉语语音识别 系统v i a v o i c e 是面向非特定人的大词汇连续语音识别系统,其中增加了说 话人自适应功能,以提高系统的鲁棒性( 稳定性) ,使之更接近实用。同时, 该系统与其他公司的手写体文字识别软件捆绑,组成新的汉语输入方式, 这对那些恐惧中文键盘输入的使用者而言,无疑是一个福音。在小词表语 音识别领域中,各公司也纷纷推出了单片的语音识别系统,其中较为典型 基于h m m 的汉语连续数字语音识别 第一章引言 的是美国s e n s o r y 公司的语音识别芯片r s c x6 4 系列:各种电子产品上也 加入了语音识别的功能,如p h i l i p s 和三星的手机即加入了特定人人名识 别的功能。 国内的语音识别开始于七十年代从7 0 年代到8 0 年代中期,通过大量 吸收国外的理论技术进行识别实验研究和改进算法。8 0 年代以来,在理论 研究和实现技术上有较大的进展,缩小了与国际水平的差距。主要体现在 以下几个方面:1 ) 开展了汉语连接词、连续语音、中大词汇表、非特定人 的语音识别研究。2 ) 与汉语语音学密切结合,开展了汉语普通话音节识别、 四声识别、声母韵母识别。3 ) 对t m s 高速专用芯片系列进行开发利用,发 展了应用科学开发产品。国内开展语音识别比较早的机构有北京大学、中 科院声学所、中科院自动化所、清华大学等,先后被列为国家自然科学基 金重点项目、8 6 3 智能处理项目,并得到基金和社会的支持,取得了丰硕的 研究成果。 尽管语音识别的研究工作迄今已近5 0 年,但仍未有突破性进展,面临 着许多问题 4 6 : 1 语音识别系统适应性差。全世界有近百种官方语言,每种语言有多 达几十种方言,同种语言的不同方言在语音上相差悬殊,这样,随着语言 环境的改变,系统性能会变得很差。 2 在强噪声干扰环境下语音识别困难。由于语音数据大部分都是在接 近理想的条件下采集的,语音识别的编码方案在研制时都要在高保真设备 上录制语音,尤其要在无噪声环境下录音。然而当语音处理由实验室走向 实际应用时,环境噪声的存在所带来的问题就变得越来越重要。 3 体态语言难以识别。有人在讲话时习惯用眼神、手势、面部表情等 动作协助表达自己的思想。由于这种体态语言的含义与个人习惯、文化背 景、宗教信仰及生存地域等因素有关,其信息提取非常困难。 i 1 4 语音识别发展前景 语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种 意上说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。语 基于h m m 的汉语连续数字语音识别 音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的 发展,不同语种之间的语音一一语音翻译将成为语音研究的热点。自然语 音数据库的设计:语音特征的提取:利用语音料库进行声学模型训练的研究 适应说话人声学模型的研究:语音识别算法的研究:语言翻译和对话处理的 研究等成为语音技术的热点方向。语音识别研究的另一个发展方向是人体 语言与口语相结合的多媒体人机交互。目前这种采用声觉、视觉两种信息 融合进行识别的研究在全球范围内己经展开,成为语音识别研究的重要发 展方向和研究热点之一。 一位业界的资深人士对i t 产业发展的提出的八大预言之一即为:语音 成为新人机界面。语音识别技术的成熟使人机界面发生革命性突破,网络 时代用户需要更自然、更简单、更方便的以语音为中心点的人机界面。未 来五年里,真正实用的语音识别和音字转换技术将首次走出实验室,走进 千家万户的电器设备中。摩尔定律所预言的硬件产品奇迹般的更新速度使 计算机处理复杂运算的能力突飞猛进,也使体积庞大的语音库有机会栖身 于普通用户的硬盘或其他存储介质上;技术方面,新的语音统计算法日趋 成熟:市场需求方面,简化p d a 、移动电话和其他信息家电原本繁琐的操作 步骤的最佳途径便是通过语音技术。 另外,语音识别是- - i 1 交叉学科,语音识别技术关系到多学科的研究 领域,在不同领域上的进步都会促进语音识别的发展。( 1 ) 物理学( 声学) : 声音产生与传播原理、声电转换以及声音在房间回响等相关知识。( 2 ) 生 哩学:有关人的声道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的 吾言处理等。( 3 ) 统计学和模式识别理论:基于各种统计方法对模式进行 匹配,以及建立有关的统计模型,对语音特征参数进行估值和分类。( 4 ) 唐息理论和计算机科学:各种算法的研究、快速搜索查找匹配的方法。( 5 ) 看言学:有关人的语言产生、感觉方面的知识。( 7 ) 数字信号处理技术: 官号的时域分析、噪声消除、数字滤波、线性预测等方面的知识。( 8 ) 微 电子技术:超大规模集成电路( v l s i ) 技术的发展对语音识别的具体应用 占很大的影响,v l s i 使语音识别系统商品化成为可能。 基于h m m 的汉语连续数字语音识别第一章引言 第二节连续数字语音识别的研究价值 语音识别技术主要包括特征提取技术、模型训练技术及模式匹配准则 三个方面。此外,还涉及到语音识别单元的选取。语音识别系统根据不同 的准则可以分为孤立字连接字连续词,小词汇量大词汇量,特定人非 特定人识别系统,目前代表连续语音识别技术最高水平的是非特定人无限 词汇的连续语音识别系统。汉语数字语音识别,尤其是连续数字识别无论 在大词表语音识别系统还是在小词表识别系统中都具有重要的意义,因此 对它的研究具有很强的应用价值。 在汉语小词表语音识别任务中,数字语音识别是最具有实用价值的。 在众多场合的实用化都会给人们带来极大的便利: 1 语音拨号电话。在很多场合下,如司机开车、黑夜或盲人拨打电话 时,用手指拨电话号码是很不方便或不安全的,此时最自然的方式就是采 用语音拨号,这就需要高性能低成本的数字语音识别系统。 2 家电遥控。语音控制是以后家电遥控的一个必然发展方向,而家电 遥控中不可避免地会用到数字的识别,如电视机的频道、空调设定的温度、 洗衣机的定时等,所以数字语音识别将成为语音遥控家电的重要环节。 3 工业控制。利用语音进行工业控制可以避免复杂的控制面板,而工 业控制中需要大量的对数字的识别。同时在大词汇量语音识别中,数字语 音识别也有其重要的意义,这是因为汉语数字语音具有高度的混淆性,采 用普通的识别方法很难达到很好的识别性能,而语音中的数字往往具有重 要的意义,其识别错误的代价可能会高于其他语音识别的错误,这就需要 专门对数字语音的识别采用特殊的方法以提高其识别率。 另外,对汉语连续数字语音识别的研究也具有重要的理论意义。一方 面,完成对汉语连续数字语音识别可以促进其他词表的连续语音识别的研 究,其声学模型,搜索算法等都可以照搬到其他系统中:另一方面,研究如 何消除汉语数字语音的混淆性也可以对其他易混语音识别任务起到借鉴作 用。 基于h m m 的汉语连续数字语音识别第一章引言 第三节本文的研究内容和思路 目前,汉语连续数字语音识别率同实际应用的要求还存在一定的差距, 主要难点在于,首先汉语是单音节字,音节越少语音间的混淆程度越高, 存在一些容易混淆的数字对,如“2 ”和“8 ”,并且汉语数字中还存在一些 单元音数字,如“2 ”和“5 ”,这些数字的连续发音序列( 如“5 5 ”) 的识 别相当困难,识别过程中很容易引起数字“误插入”和“误删除”。提高汉 语连续数字语音识别率可以考虑从汉语自身的特点出发,汉语是一种有调 语音,汉语的韵律信息在汉语语音识别中有着重要的作用。 汉语的韵律信息主要表现在音节的时长分布、音高的变化、能量的变 化等几方面,其中的音高和音长( 也称为声调和持续时间信息) 为连续数 字语音识别提供了重要信息: 1 )持续时间信息:在语速相对平缓的前提下,无论说话人的声调如 何抑扬顿挫,基本的音节持续时间保持相对固定。在连续数字搜索过程中, 利用这样一个相对固定的持续时间信息,可以避免单元音数字( 如 “1 ( y i a 0 1 ) ”、“2 ( e r 4 ) ”和“5 ( w u 3 ) ”) 的连续发音序列( 如“5 5 ”) 的“误 插入”和“误删除”。 2 )声调信息:在十个数字中,“2 ( e r 4 ) ”和“8 ( b a l ) ”的误识率最 高,占到了总误识的3 0 以上,但是这个数字对具有明显不同的声调,因此 我们可以通过提取声调信息将它们区分开。 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 第二章语音信号分析 第一节语音学知识 在连续数字语音识别过程中,为了提高连续数字匹配搜索算法的有效 性以及数字的识别率,必须要将对数字语音的研究细化到语音学的层次上, 包括对各数字的音素和音节的特性和各数字的声调进行深入研究。 2 1 1 音素和音节 音素是语音信号的最基本组成单位,可分为浊音和清音两大类。 浊音通过喉部发声,发声时声带振动,声带振动的基本频率称为“基 音频率”,其倒数称为“基音周期”。 清音通过将口腔内有的空气释放出来而发声,发声时喉部封闭,由于 该气流通过一个狭窄通道时在口腔中形成流,因此具有明显的随机噪声的 特点。 音节是由音素结合而成的发声最小单位,一个音节由“元音”和“辅 音”构成。当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去 时,这些声腔完全开放,气流顺利通过,这种音称为元音。元音构成一个 音节的主干,无论从长度还是能量上看,元音在音节中都占主要部分。所 有元音都是浊音。发音时呼出的气流,由于通路的某一部分封闭起来或受 到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称 为辅音。辅音也有清浊之分。辅音出现在音节的前端或者后端或前后两端。 2 1 2 汉语的声调 汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具 有完全不同的意义,对应着不同的汉字。所以,在汉语的相互交谈中,不 但要凭借不同的元音和辅音来辨别这些字或词的意义,还需要从不同的声 调来区别它,也就是说声调有辨义作用。 汉语普通话的声调 7 有阴平、阳平、上声、去声等四种声调( 另外, 有时还包括“轻声”) ,这些基本的调型在语句中虽然受语法、语气的影响 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 而有所变动,但基本上不改变原有的模式一调型。 声调的变化就是浊音基音周期( 或基音频率) 的变化,各个韵母段中 基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。声调曲线 从一个韵母的起始端开始,到韵母的终止端结束。不同声调的声调曲线的 开始段称为弯头段,呈共同上升走向;末尾一段呈共同下降走向,称为降 尾段;而中间一段具有不同的特点,这一段称为调型段。一般来说,弯头 段和降尾段对声调的昕辨不起作用,起作用的是调型段。而一段语音,它 的起始和结尾处的波形幅度较小,要准确地测出这些地方的基音周期并不 容易,因此可将这两处的波形忽略,只测调型段这一部分波形的基音周期。 图2 一l 给出了单独说一个音节时的四种声调的典型曲线。 圈2 - 1声调的四种模式 第二节语音信号的采集与预处理 2 2 1 语音信号的预滤波、采样、a d 转换 预滤波的目的有两个:( 1 ) 抑制高频部分,以防止混叠干扰。( 2 ) 抑制 5 0 h z 的电源干扰。这样预滤波器必须是个带通滤波器,其上截频为矗为 3 4 0 0 h z ,下截频 为6 0 h z 。语音信号经过预滤波,然后按1 1 0 2 5 h z 采样率对 语音信号进行采样,就可以得到离散时域的语音信号,e h a d 变换器变换为 1 6 位二进制数字码。 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 2 2 2 语音高频分量的预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约 在8 0 0 h z 以上按6 d b 倍频跌落,所以求语音信号频谱时,频率越高响应的成 分越小,高频部分的频谱比低频部分难求,为此要在预处理中进行预加重。 在语音合成时再进行“去加重”处理,就可以恢复原来的语音。常用的预 加重因子为1 一 月( 1 ) r ( o ) 】z - ,。这里,月( m ) 是语音信号的自相关函数。通常对 于浊音, r ( 1 ) r ( o ) 】“1 ,而对于清音,该值可取得很小。本论文系统中预加 重因子取 r ( 1 ) r ( o ) _ 0 9 5 。 语音信号在某些短时段中呈现出随机噪声( 辅音) 的特性,在另外一 些短时段中呈现出周期信号( 元音) 的特征,其它一些是两者的混合。总 的来说,语音信号的特征是随时间而变化的。只有在一段短时间间隔中, 语音信号才保持相对稳定一致的特征,这段短时间一般可取为5 5 0 m s 。因 此,对于语音信号的分析和处理必须建立在“短时”的基础上,对语音信 号进行加窗分帧,计算短时能量,短时幅度,短时过零率等短时参数。本 论文中,帧长取2 3 m s ( 即在1 1 0 2 5 h z 采样率下,每帧2 5 6 个信号样值) 。对 已取出的一帧语音s ) 所进行的加窗处理,就是用一定的窗函数“一) 来乘 s ( 冗) ,从而形成加窗语音钆( n ) = s ( 功似n ) 。在语音信号数字处理中常用的窗 函数是方窗和哈明窗。由于方窗的旁瓣太高,会产生严重的泄漏现象,哈 明窗旁瓣较低,可以有效地克服泄漏现象,具有更平滑的低通特性,因此 采用哈明窗,表达式如下: 删= 吨s 犯删肛d 1 :笔。1 浯, 2 2 3 语音端点检测 语音的端点检测的准确性和可靠性,对系统识别率的提高起着重要的 作用,当系统收到一段包含语音的信号时系统需要对语音的端点进行定位, 丢弃语音前后多余的噪音段,将完整的语音交付下一级进行识别。如果语 音前后噪音保留过多,则会增加不同语音的共同成分,对识别产生干扰; 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 而如果语音部分被切割掉,则会造成语音信息的丢失,若丢失的恰是区分 语音的重要特征,则造成误识。正确确定语音端点也会减少系统的计算量 和存储量。 语音端点检测算法 8 - 9 主要是根据语音的一些特征参数,如能量、过 零率等完成端点检测本。论文采用能量、过零率以及能零积进行语音段起 点和终点的检测,从而完成端点检测。其原理图如图2 2 所示。 输 图2 2 端点检测原理图 短时能量、短时平均幅度和短时过零率都是随机参数,但是对于不同 性质的语音它们具有不同的概率分布。例如对于寂静背景噪声( 用s 表示) 、 清音( 用u 表示) 、浊音( 用v 表示) 三种情况,短时能量、短时平均幅度和 短时过零率具有不同的概率密度函数。图2 - 3 给出了短时平均幅度和短时过 零率在三种情况下条件概率密度函数示意图,其中短时平均幅度的最大值 已规格化为1 。 可以看到,在三种情况中浊音的短时平均幅度最大而短时过零率最低。 反之,清音的短时平均幅度居中而短时过零率最高。寂静背景噪声的短时 平均幅度最低而短时过零率居中。这些条件概率密度函数都很接近于正态 分布。能零积( 即过零率与短时能量的乘积) 是综合了能量和过零率两特 征的一种参数,实验证明,不管是浊音还是清音,其能零积都比寂静背景 噪声段能零积大得多,因此可以将其作为语音起始点的检测参数。基于上 述理论,本文以能量和零能积为特征,选取其门限进行语音起点和终点的 检测。 基于h m m 的汉语连续数字语音识别 厂、州岫一 m 跄 :验一 o,02 03 0 柏5 06 0弼9 0 1 0 0 z 图2 - 3 m 。和z 。在s 、u 、v 三种情况下条件概率密度函数示意图 本文端点检测的具体步骤为: ( 1 ) 对输入语音加方窗并且分帧; ( 2 ) 计算输入语音各帧的的能量e 、过零率z 。以及能量和过零率的积 e z ; ( 3 ) 计算输入语音的前1 0 帧背景噪声的平均能量f _ z w n 和平均能零积 e z a v n ; ( 4 ) 检测语音起点:从输入语音的第一帧开始,若从某帧开始连续5 帧 的能零积超过背景噪声平均能零积e z a v n 的3 倍大,则认为该帧是语音的起 始点; ( 5 ) 检测语音终点:从输入语音的最后一帧开始向前搜索,若从某帧开 始连续5 帧的能量大于背景噪声的平均能量f _ , 4 v n 的3 倍大,则认为该帧认 为是语音的终点。 图2 - 4 和图2 - 5 是用v c 编程实现的对连续数字语音端点检测的结果。 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 图2 _ 4 用v c 编程实现的连续数字语音“1 3 5 7 ”的端点检测 图2 5 用v c 编程实现的连续数字语音“4 2 0 5 ”的端点检测 2 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 第三节语音信号的时域分析 2 3 1 短时能量及短时平均幅度 设语音波形时域信号为x ( 卧加窗分帧处理后得到的第n 帧语音信号为 毛( m ) ,则x n ( m ) 满足下式: ( m ) = w ( m ) x ( n + m ) 0 m n 一1 ( 2 - 2 ) “m 1 :4 1 ”竖_ ! ! ( 2 _ 3 ) m m j 2 1 0 ,m :其他值 。 其中,n = 0 , t ,2 t ,并且n 为帧长,z 为帧移长度。 设第r l 帧语音信号( 州) 的短时能量用e 表示,则其计算公式如下: e 。= 2 ( m ) ( 2 4 ) 如图2 - 6 所示为语音“3 ( s a n ) ”时域波形图,如图2 7 所示为语音 “3 ( s a n ) ”短时能量图。 e 是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对 高电平非常敏感( 因为它计算时用的是信号的平方) 。为此,可采用另一个 度量语音信号幅度值变化的函数,即短时平均幅度函数m 。,它定义为: m 。= k ( 肌) i m = 0 ( 2 - 5 ) m 。也是一帧语音信号能量大小的表征,它与占。的区别在于计算时小取 样值和大取样值不会因取平方而造成较大差异,给应用带来一定好处。如 图2 8 所示为语音“3 ( s a n ) ”的短时平均幅度图。 短时能量和短时平均幅度函数的主要用途有:可以区分浊音段与清 音段,因为浊音时e 值比清音时大得多。可以用来区分声母与韵母的分 界,无声与有声的分界,连字( 指字与字之间无间隙) 的分界等。作为 一种超音段信息,用于语音识别中。 基于h m m 的汉语连续数字语音识别第二章语音信号分析 图2 - 6 语音“3 ( s a n ) ”的时域波形图 图2 - 7 语音“3 ( s a l l ) ”短时能量图 图2 8 语音“3 ( s a n ) ”的短时平均幅度图 2 3 2 短时平均过零率 短时过零率表示一帧语音中语音信号波形穿过横轴( 零电平) 的次数。 过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意 味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号 则称为过零,过零率就是样本改变符号的次数。 定义语音信号( m ) 的短时过零率z 。为: 基于h m m 的汉语连续数字语音识别 1 一l z 。= i s g n k ( m ) _ s g n x u ( m 1 ) i ( 2 6 ) - m = 0 式中,s g n 】是符号函数,即: j o ( 2 7 ) 并 0 图2 - 9 所示为语音“3 ( s a n ) ”的短时过零率图。 在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号 中包含有5 0 h z 的工频干扰或者a d 变换器的工作点有偏移( 这等效于输入 信号有直流偏移) ,往往会使计算的过零率参数很不准确。为了解决前一个 问题, d 变换器前的防混叠带通滤波器的低端截频应高于5 0 h z ,以有效 地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外,也可 以在软件上加以解决,这就是算出每一帧的直流分量并予以滤除。 对语音信号进行分析,发现发浊音时,尽管声道有若干个共振峰,但 由于声门波引起谱的高频跌落,所以其语音能量约集中在3 k h z 以下。而发 清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率,低 频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清 音时具有较高的过零率。当然,这种高低仅是相对而言,并没有精确的数 值关系。 利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断 寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要 在一连串的语音信号中进行适当分割,用以确定一个一个单词的语音信号, 即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。 图2 - 9 语音“3 ( s a n ) ”的短时过零率图 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 2 3 3 短时自相关函数和短时平均幅度差函数 语音信号沏) 的短时自相关函数r 。( 七) 的计算式如下: n l t r 。( j i ) = 乏:x 。( m ) z 。( ,”+ 1 ) ( o p + i l k = i - p 理论上,p 值越大谱估计越好,但计算量和存储量也随之增大,因此在 选择p 值时,首先应保证有足够的极点来模拟声道响应的谐振结构。一般 l o k h z 采样的语音信号取1 2 一1 4 ,但是p 增加到一定程度后,匹配误差减小 甚小,而且p 值大小还控制着信号谱的平滑度,所以取p 为1 2 。 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 2 5 2m f c c 特征参数提取方法 l p c 模型是基于发音模型建立的,这种参数没有充分利用人耳的听觉特 性。实际上,人耳的听觉特性是一个特殊的非线性系统,它响应不同频率 信号的灵敏度是不同的,基本上是一个对数关系。近年来,种能够比较 充分利用人耳这种特殊感知特性的参数得到了广泛的应用,且p m e l 倒谱参数 ( m e l s c a l e dc e p s t r u mc o e f f i c i e n t s ) ,简称m f c c 。 m f c c 可以比l p c c 更好的提高系统的识别特性。m f c c 参数是将语音的频 域从线性频标变换为m e l 频标,以符合人耳的听觉特性。m f c c 和线性频率的 转换关系是: m e l = 2 5 9 5 l g ( 1 + f 7 0 0 ) ( 2 1 4 ) m f c c 参数也是按帧计算。首先通过f f t 变换得到该帧信号的幅度谱 i x 。i ,转换为m e l 频率下的幅度谱,并在语音的频谱范围内设置l 个带通滤 波器: 彤( 七) ,= o , 1 ,三一1 ,k = 0 , 1 ,导一1 ( 2 1 5 ) z l 为滤波器的个数,由信号的截止频率决定,通常取2 4 :n 为一帧语音 信号的点数,为了计算f f t 变换的方便,通常取为2 5 6 滤波器在频域上为简 单的三角形,设其中心频率为c ,他们在m e l 轴上均匀分布。在线性频率上, 当z 较小时,相邻的c i 间隔很小,随着z 的增加,相邻的间隔逐渐拉开。此外, 在频率较低的区域,c t 和,之间有一段是线性的。带通滤波器的参数事先算 好,在计算m f c c 参数时直接使用。 标准m f c c 特征参数提取过程如图2 15 所示:首先对语音信号进行f f t 变 换到频域,通过m e l 尺度的滤波器阵列后,将滤波器输出进行离散余弦变换 ( d c t ) 。 斗j 三囤d 习d 习竺 图2 1 5 标准i f c c 特征提取示意图 基于h m m 的汉语连续数字语音识别 第二章语音信号分析 m f c c 的参数计算流程如下: ( 1 ) 假定已有一帧采样语音k ,f = 1 , 2 ,n ,n 为帧长,确定每一帧语音采 样序列的点数,实验中取n = 2 5 6 ,对“) ,t = 1 , 2 ,n 经过预加重处理,加 h a m m i n g 窗后作n 点f f t ,取模得到信号幅度谱慨( t ) i 。 ( 2 ) 将实际频率尺度转换为m e l 频率尺度: m e l ( f ) = 2 5 9 5 1 9 ( 1 + f 7 0 0 ) ( 2 1 6 ) 其中,实际频率厂的单位是h z 。 ( 3 ) 在整个m e l 轴配置l 个三角形滤波器,每个三角形滤波器的中心频率 c ( d 在m e l 频率轴上等间隔分配。设o ( d 、c ( o 、 ( ,) 分别是第z 个三角形滤 波器的下限、中心和上限频率,则相邻滤波器之间的下限中心和上限频率 有如图2 1 6 所示的如下关系成立: c ( o = h q 一1 ) = o q + 1 ) ,一1 z,+ l :么至受: c ( t 一1 ) h q 一1 ) h “) 0 “)c ( oc u 十1 ) 0 u - 4 - 1 ) ( 2 一1 7 ) ( 4 ) 根据语音信号幅度谱i j 。( 七) i 求每一个三角形滤波器的输出: m q ) = ( 七) 阻( 酬z = 1 ,2 ,l ( 2 1 8 ) 哪,_ 1 黧k - o ( 0 篡: ( 5 ) 对所有滤波器输出作对数运算,再进一步做离散余弦变换( d c t ) 即 c 畹( ,) = j 吾妻1 。g 研( 咖o s ( ,一争警】,f = 1 ,2 ,q ( 2 2 0 ) 其中,q 为m f c c 参数的阶数,本文取q = 1 2 。扣畹( f ) ) 郴,馏即为所求m f c c 参数。 基于h m m 的汉语连续数字语音识别第三章语音识别中应用的h m m 模型 第三章语音识别中应用的h m m 模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,简称为h m m ) 1 5 1 7 ,作 为语音信号的一种统计模型,如今在语音处理各个领域中获得了广泛的应 用。大约1 0 0 年前,数学家和工程师就已知道马尔可夫链了。但是,只在 近三十几年里,它才被用到语音信号处理中来,其主要在于当时缺乏一种 能使该模型参数与语音信号达到最佳匹配的有效方法。直到2 0 世纪6 0 年 代后期,才有人提出这种匹配方法,而有关它的理论基础,是在1 9 7 0 年前 后由b a u m 等人建立起来的,随后由c m u 的b a k e r 和i b m 的j e l i n e k 等人将 其应用到语音识别中。由于b e l l 实验室r a b i n e r 等人在2 0 世纪8 0 年代中 期对删的深入浅出的介绍,才逐渐使h m m 为世界各国从事语音信号处理 的研究人员所了解和熟悉,进而成为公认的一个研究热点。近几年来,隐 马尔可夫模型技术无论在理论上还是在实践上都有了许多进展。 第一节h m 的定义 h 埘是一个双重随机过程,一个随机过程描述状态的转移,另一个随 机过程描述状态和观察值之间的统计对应关系。它用概率统计的方法来描 述时变信号的过程。在该模型中,马尔可夫链中的一状态转移到另一状态 与否取决于该状态的统计特性( 或状态转移概率) ,而某一状态产生的观察 值也取决于该状态生成语音观察值的概率( 状态生成概率) 。这样,站在观 察者的角度,只能看到观察值,不像m a r k o v 链模型中的观察值和状态一一 对应,因此,不能直接看到状态,而只能通过一个随机过程感知状态的存 在及其特性。因而称为“隐”m a r k o v 链模型,即h 删。 隐马尔可夫模型既解决了用短时模型描述平稳段的信号,又解决了每 一个短时平稳段是如何转变到下一短时平稳段的问题。它利用概率及统计 学理论成功的解决了如何辨识具有不同参数的短时平稳的信号段以及如何 基于h m m 的汉语连续数字语音识j ;i 第三章语音识别中应用的h m m 模型 跟踪它们之间的转化等问题。由于语言的结构信息是多层次的,除了语音 特性外,还牵涉到音调,音长、能量等超音段信息以及语法、句法等高层 次语言结构的信息。而h 删既可以描述瞬变的( 随机过程) ,又可以描述动态 的( 随机过程的转移) 特性,所以它能够利用这些超音段和语言结构的信息。 对于语音识别用h 姗可以用下面五个模型参数来定义,即: m = s ,o ,a ,b ,靠 ( 3 一1 ) s :模型中状态的有限集合,即模型由几个状态组成。设有个状态, s = 碱f f = l h 2 一,) 。记t 时刻模型所处状态为_ ,显然( s ,s ,) 。 o :输出的观察值的集合,即每个状态对应的可能的观察值。对于离散 型h 嘲,观察值集合由7 个观察值o l ,o ,组成,记t 时刻观察到的 观察值为o 。,其中o te ( o i , - - - , o ,) 。 a :状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵, a 协翻 浯2 , 其中,是从状态s 到状态s ,转移时的转移概率,1 s f ,j ,且 确- 0 - a # s 1 ,= 1 。 b :输出观察值概率的集合。对于离散型嗍,b = 6 肿) ) ,其中6 雕) 是 在状态s ,时观察值符号k 的输出概率。根据b 可将h 姗分为连续型 和离散型舢等。 b j ( k ) = 1 ( 离散型h m m )( 3 3 ) e q ( 1 【) 出 ( 连续型h 姗)( 3 4 ) “:系统初始状态概率的集合,丌= 慨) ,啊表示初始状态是蜀的概率, 即3 曩= 尸【s l = s 。】, 1 i n ( 3 - 5 ) 一= 1 ( 3 6 ) 甚于h m m 的汉语连续数字语音识别第三章语音识别中应用的h m m 模型 这样,可以记一个h m m 为m = s ,o ,a ,b ,冗) ,为了便于表示,常用下面的 形式表示一个h m m ,即简写为m = a ,b ,丌) 。所以形象地说,h m m 可分为两部 分,一个是m a r k o v 链,由靠、a 描述,产生的输出为状态序列。另一个是 一个随机过程,由b 描述,产生的输出为观察值序列,7 为观察值时间长度。 第二节各种形式的h 删模型 h 僦还有许多种结构类型,并且有不同的分类方法。可以结合不同的实 际需要,选择不同类型的h m m 。 一 按照h m m 的状态转移概率矩阵( a 参数) 分类 1 历经型或遍历型删( e r g o d i ch 蛐) 严格的讲,所谓的遍历模型就是经过有限步的转移后,系统能达到任 何一个状态。即系统从一个状态允许转移到任何一个状态,如图3 1 ( a ) 所 示。在某些应用系统中,常遇到的是一步遍历模型,即经过一步跳转,系 统可达到任何一个状态。这样的h m m 的状态转移矩阵中的每一个元素均为 大于零的数,没有零元素。显然,各态历经型h 删不符合时间顺序的要求, 因为它可以回到以前到过的状态,所以只能用于不要求时间顺序的语音信 号处理,如:与文本无关的说话人识别等。 2 从左到右型h m m ( l e f t t o r i g h t 舢) 所谓的从左到右模型,就是指随着时间的增加,状态的转移只能是从 左到右进行或停留在原来的状态,而不能出现返回到前状态的情况,即从 编号高的状态( 如第n 状态) 到编号低的状态( 如第n - 1 或n - 2 等状态) 眺转的情况( 这实际上是一个时序的问题,因为按照时序顺序,总是从编 号低的状态向标号高的状态转移) ,如图3 一l ( b ) 所示。因此,其状态转移矩 阵

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论