(计算机应用技术专业论文)语音识别系统关键技术研究.pdf_第1页
(计算机应用技术专业论文)语音识别系统关键技术研究.pdf_第2页
(计算机应用技术专业论文)语音识别系统关键技术研究.pdf_第3页
(计算机应用技术专业论文)语音识别系统关键技术研究.pdf_第4页
(计算机应用技术专业论文)语音识别系统关键技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)语音识别系统关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 论文根据语音识别的一般流程,主要针对语音识别系统的关键技术进行探讨: ( 1 )首先对语音信号的预处理和特征提取问题进行讨论。分析了当前最常用 的两种特征参数,m f c c 和l p c c ,在此基础上对语音识别系统预处理 和特征提取作了一些改进,并给出相应的实验验证。 ( 2 )研究了一系列的语音识别算法:d t w 、h m m 和a n n 。在深入研究每 种算法的基础上,提出了许多改进和优化。d t w 算法主要针对减小运 算量和存储空问方面进行优化:h m m 模型的初始化采用非平均分段的 方法提高系统性能;将神经网络用于语音识别时做了一些修正改进。通 过实验验证,这些方法效果良好。 ( 3 ) 论文最后针对不同方法,对语音识别的各个环节进行仿真,实现了一个 语音识别演示系统,软件系统界面友好、操作方便。 关键字:语音识别语音特征提取语音识别算法 a b s tr a c t a c c o r d i n gt oc o m m o n l ys t e p so fs p e e c hr e c o g n i t i o n ,t h ek e ym e t h o d so fs p e e c h r e c o g n i t i o ni sd i s c u s s e d : a ) f i r s t l y , p r e p r o c e s s i n g a n df e a t u r ee x t r a c t i o ni n s p e e c hr e c o g n i t i o n i s s t u d i e d w es t u d i e dt w oi m p o r t a n ts p e e c ha n a l y s i sm e t h o d sa n de x t r a c t e d t w o k e y f e a t u r e sf o rs p e e c hr e c o g n i t i o n :m f c ca n dl p c c o nt h eb a s eo f t h er e s e a r c hw e i m p r o v e t h ea l g o r i t h ma n d e x p e r i m e n t w i t hn e wm e t h o d b ) s e c o n d l y ,as e r i a lo fs p e e c hr e c o g n i t i o nm e t h o d s ,d t w , h m m a n da n n , i sa n a l y s i s e dd e e p l y m u c hi m p r o v e m e n ta n do p t i m i z a t i o ni sp u tf o r w a r d d t w a l g o r i t h m i s o p t i m i z e d i n m e m o r ys i z e a n d o p e r a t i o na m o u n t ; i n i t i a l i z a t i o no fh m m a d o p t si n e q u a l i t ys e g m e n t ;a n nm u s t b em o d i f i e d b e f o r ea p p l y i n gt os p e e c hr e c o g n i t i o ns y s t e m t h e s em e t h o d sh a v ea g o o d e f f e c tb y e x p e r i m e n t c ) w e s i m u l a t et h ed i f f e r e n tm e t h o d sa n de v e r yp a r t s as p e e c hr e c o g n i t i o n s y s t e mi sr e a l i z e dw i mf r i e n d l yi n t e r f a c ea n d c o n v e n i e n c eo p e r a t i o n k e y w o r d s : s p e e c hr e c o g n i t i o n f e a t u r ee x t r a c t i o no f s p e e c hs p e e c hr e c o g n i t i o na l g o r i t h m 创新性声明 y 5 8 3 3 7 9 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以注明和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名 埠 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其他复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名 导师签名 日期: d 卅坼护 日期:丛! 竺! ! :2 , 第一章绪论 第一章绪论 1 。1 研究课题的提出 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段, 也是人类思维的一种依托。与机器进行语音交流,让机器明白你说什么,这是人 们长期以来梦寐以求的事情。 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。语音识别有两种含意,第一种是将口述语言逐字逐句地转换为 相应的书面语言( 即文字) ,第二种则是对口述语言所包含的要求或询问作出正确 地响应,而不拘泥于将所有词正确转换为书面文字。作为专门的研究领域,语音 识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息 论、计算机科学等众多学科紧密相连。 语音识别技术萌芽于5 0 年代机器翻译研究时期,但真正取得实质性进展,并 将其作为一个重要的课题开展研究则是在6 0 年代末7 0 年代初。这一方面是因为 计算机的计算能力有了迅速的提高,能够提供实现复杂算法的软、硬件环境;另 一方面,数字信号处理理论和算法在当时有了蓬勃发展,从而自6 0 年代末开始引 起了语音识别的研究热潮。 6 0 年代中,语音识别系统的构成基本上都是用硬件实现的滤波组提取频谱特 征,用计算机进行匹配计算和判决。由于当时计算机技术和信息处理技术的限制, 这十年来中没有取得令人鼓舞的突破性进展。7 0 年代美国国防部实施a r p a 计划, 这个历时五年的庞大计划在语言理解、语言统计模型等方面积累了一些经验。这 个时期对语音处理技术的长足进步产生决定性影响的还有另外三项研究成果:动 态规划技术用于语音识别,使语音识别研究在匹配算法方面开辟了新思路:i i t a h l r a 提出的线性预测残差原理成功地用于语音识别,后来又用于语音编码。从此,线 性预测技术在语音处理的多个方面获得巨大成功。特别是研究出多种线性预测参 数形式和多种谱距离测度,对语音识别和语音编码研究的发展起了重要作用;矢 量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而 且很快推广到其他许多领域。8 0 年代新一代智能计算枫的研制,以及模式识别、 自然语言理解等技术的成熟,为语音识别技术的突破打下了基础。9 0 年代一些基 于非特定人连续语音识别的语音识别技术产品开始走出实验室,进入市场,较有 影响的是d r a g o n 系统公司的n a t u r a l l y s p e a k i n g ( 该产品获得了1 9 9 7 年技术卓越 奖) 、卡内基梅隆大学( c m u ) 研制成功s p h i n x 系统,i b m 的v i a v o i c e 、m i c r o s o n 2 语音识别系统关键技术研究 的v o i c e e x p r e s s 等卧【”。 因为汉语的一些特性( 同音字较多等) ,汉语的语音识别技术难度相对而言更 大一些。我国语音识别研究的起步比先进国家晚一点,但近年来发展很快,成果 突出,研究水平也从实验室逐步走向实用。1 9 8 7 年开始执行国家8 6 3 计划后,国 家8 6 3 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。其中 具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国 家重点实验室,中科院声学所以及台湾的电脑与通讯工业研究所在这方面也取得 了一定的成果。 尽管语音技术的研究工作迄今已5 0 多年,也有很大的进展。但是研究出一台 昕懂任何人、任何内容的机器,从技术的实现上还有很大的距离。系统的识别速 度、系统词汇量的大小、机器对说话者的依赖程度、语音的类型等等问题都达不 到实际需要。我们不能否认许多著名公司研究开发的语音识别成果具有划时代意 义,影响深远。以i b m 推出的v i a v o i c e 为例,它为语音识别技术在汉字输入方面 的实际应用开辟了新的道路,但是v i a v o i c e 在国内还远远没有普及,这都是由语 音议别自身的特点决定的。 语音识别本身的难度相当大。识别系统中的特征提取就是一个很难彻底解决的 难题;语音识别中匹配算法的研究,尽管人们已进行了大量的探索,作出了许多 卓有成效的创造,取得了重要进展,可是至今仍不能说这方面的研究可以打上句 号。因此有必要对语音特征参数提取方法、语音识别算法作进一步研究。本文将 针对这些问题展开深入讨论。 1 2 语音识别系统结构 1 2l 语音识别系统的设计方略和步骤 由于对语音识别的需要来自不同的领域和部门,因此对语音识别系统应具有的 性能和指标提出了差异极大的要求,语音识别系统要根据一定的指标、要求设计。 为此本节讨论了系统设计过程中要考虑的各种因素、语音识别系统的基本结构以 及系统的设计方略和步骤。 语音识别系统的设计要考虑到服务对象、词表大小、工作环境、发音方式等许 多因素,下面我们逐一讨论这些因素对语音识别系统结构设计和识别方法研究的 影响。 ( 1 ) 服务对象。语音识别系统根据服务对象的不同分为特定人识别系统和非特 定人识别系统,一个特定人的语音识别系统中每一个使用者都必须建立自 己专用的参考模式库,而非特定人识别系统事先将许多人的语音样本训练 好,使用者无论是否参加过训练都可以共用一套参考模式。两者的系统结 第一章绪论 构、参数选择、识别方法都可能有很大差别,后者在技术上的难度也远比 前者大。总之,服务对象是决定语音识别系统设计方案的重要影响因素。 ( 2 ) 词汇表的大小。每个语音识别系统都有一个词汇表,它只可以识别词汇表 中的词,随着词汇量的增大,词间的相似性增加,分辨会更困难,而且系 统的存储开销和搜索运算开销也会增加,所以词表的大小影响识别策略的 选择。 ( 3 ) 发音方式。发音方式可以分为孤立词发音和连续语音发音,孤立词发音容 易进行端点检测,识别系统在结构上简单的多。连续语音发音很难确定词 的声学边界,语音单位相连时相互影响会出现很大变异,。识别系统在结构 上相当复杂。 ( 4 ) 语音的质量。通常在实验室环境下工作良好的识别器在含有噪声的环境下 性能会明显下降,因此必须明确一个系统的使用场合。 ( 5 ) 工作性质。对于听写机来说要求将口述语言正确无误地转换为书面文字。 而在问询、查询系统中,用户在说话中常带有一些不必要的添加话语,这 时系统需作关键字检出,对用户的要求作出正确响应。在一些特定任务的 语音识别中,我们可以总结出语法规则,而大多数情况下,用语法规则涵 盖所有可能的情况几乎是不可能的。工作性质的不同决定了语音识别系统 的不同。 语音识别系统的原理框图如图1 1 。 输 图1 1语音识别原理框图 可以看出语音识别系统实质上是一种模式识别系统,与常规模式识别系统一样 包括有特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如图1 | 2 所示。语音识别的步骤分为三步。第一步是根据识别系统的类型选择一种识别方 法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,这些参数作 为标准模式由机器存储起来,形成参考模式库。第二步是语音识别的核心,采用 选择的语音识别方法进行模式匹配。语音识别核心部分又分别表现为模型的建立、 训练和识别三个部分。第三步,语音识别可以进行后处理,后处理通常是一个音 萝 厂l厂l j 4 语音识别系统关键技术研究 字转换过程,还有可能包括更高层次的词法、句法和文法处理,另外也有可能作 为某个具体的任务语法的输入。 输入语音 + 图1 2 语音识别系统的基本结构 根据语音识别系统的基本结构,同时考虑影响语音识别系统结构的各种因素, 拟出语音识别系统的设计方略,包括: ( 1 ) 拟定系统的主题框架,如包括特征提取、子音段分割、动态时间规整算法 和判决策略。 ( 2 ) 确定主框架中子框架的具体内容,这一部分要进行大量的实验比较工作, 分析得出每一个子框架采用哪种方法系统性能最优,如语音特征参数有许 多种,这一步的工作就是要选择出对这个系统来说性能最优的特征参数。 ( 3 ) 第二步所拟定的方案可能并非最终满意的方案,而只是从有关实验结果中 看出某些选择宣作方案的主题。除此之外,我们还可以对整体方案增加措 施,如可以进行二级识别或组合多种特征参数,进一步补充完善各部分内 容。 根据系统的总体考虑及设计过程的拟定,就可以进行软硬件的开发,实现一个 性能良好、满足要求的语音识别系统。 1 2 2 语音识别关键技术 语音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、 语音技术单元选取【4 】。本文主要讨论语音识别算法及语音特征参数提取。 特征参数提取 进行特征参数提取前,先要对语音信号进行采样和预处理,预处理一般包括分 帧处理、预加重、和加窗处理几个部分。 ( 1 ) 语音信号采样和量化 由模数转换器以合适的采样率对模拟的声学信号进行采样,再以一定的量化精 度进行量化,得到计算机能够处理的数字语音信号。为了防止混叠效应,采样频 率必须满足奈奎斯特定理,常用的采样频率有8 k h z 、l1 k h z 、1 6 k h z 。 ( 2 ) 短时平稳假设和分帧处理 第一章绪论 5 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官 的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多。因此语音 信号常常可假定为短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频谱特性和某 些物理特性参量可近似地看作是不变的,我们可以采用平稳过程的分析处理方法 来处理。即将语音信号进行分帧操作,将语音信号分成每2 0 3 0 毫秒一段,相邻 两帧之间有1 3 到2 3 的重叠。由于采样频率的差异,帧长和帧移所对应的实际采 样点数也是不同的。对于8 k h z 采样频率,3 0 毫秒的帧长对应2 4 0 个点,记为n , 而l o 毫秒的帧移对应为8 0 点,记为m 。 对于第i 帧,第n 个样本,它与原始语音信号的关系为: x ,( 力= x ( f 一1 ) m + 啦 ( 1 - 1 ) ( 3 ) 预加重和加窗处理 对于语音信号的频谱,通常是频率越高幅值越小,在语音信号的频率增加两倍 时,其功率谱的幅度下降6 d b ,因此必须对高频进行加重处理,一般是将语音信号 通过一个一阶高通滤波器,即为预加重滤波器。 为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的g i b b s 效应,用的最多的三种窗函数是矩形窗、汉明窗和汉宁窗。 由于语音信号数据量巨大,为了减小数据量,必须进行特征提取。目前比较有 效的识别特征有m e l 频率倒谱系数( m f c c ) ,m f c c 参数符合人耳的听觉特性, 而且在有信道噪声和频谱失真情况下表现比较稳健。另外由线性预测系数( l p c ) 导出的倒谱系数也是一种常用的语音识别参数。还可以用一阶差分系数和二阶差 分系数近似描述语音信号的帧间相关性,反映语音信号的动态特征。动态特征和 静态特征互相补充,提高系统的识别性能。有关语音特征参数提取的详细内容在 第二章中讨论。 语音识别算法 语音识别核心部分的作用是实现参数化的语音特征矢量到语音文字符号的映 射,一般包括模型训练和模式匹配技术。模型训练是指按照一定的准则,从大量 已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则, 使未知模式与模型库中的某一个模型获得最佳匹配【5 l 。 ( 1 ) 模板训练方法 语音识别常用算法有基于动态模板匹配技术的d t w 模型,基于聚类理论的矢 量量化( v q ) 模型,基于随机过程理论的h m m 模型,基于神经网络的训练和识 别算法等。 无论采用何种模型和算法,都有一个模型的训练问题。因为从本质上讲,语音 6 语音识别系统关键技术研究 识别过程就是一个模板匹配的过程,模板训练的好坏直接关系到语音识别系统识 别率的高低。为了得到一个好的模板,往往需要有大量的原始语音数据来训练这 个语音模型。因此首先要建立起一个具有代表性的语音数据库,利用语音数据库 中的数据来训练模板。训练过程不断调整模板参数,进行参数重估,使系统的性 能不断向最佳状态逼近。 ( 2 ) 模板匹配方法 要建立一个语音识别系统不仅要提取最能反映语音特征的参数,而且还要有一 个好的语音识别模型和算法。语音识别是根据模式匹配原则,计算未知语音模式 与语音模板库中的每一个模板的距离测度,从而得到最佳的匹配模式。下面介绍 几种主流的模型训练和模板匹配方法。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决 了语音信号特征参数序列时间对准问题,将一个复杂全局最优化问题化为许多局 部最优化问题一步一步地进行决策,在孤立词语音识别系统中可以获得良好性能。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) 是一种用参数表示的, 用于描述随机过程统计特性的概率模型。它由相互关联的两个随机过程共同描述 信号的统计特性,其中一个是隐蔽的具有有限状态的m a r k o v 链,另一个是与 m a r k o v 链的每一状态相关联的观察矢量的随即过程,隐蔽m a r k o v 链的特征要靠 可观测到的信号特征揭示。h m m 目前是最为成功的一种连续语音识别模型和算 法,不断有人对它进行各种改良和发展,增强h m m 模型的鲁棒性。 人工神经网络在语音识别中的应用是现在研究的又热点。尽管统计模型在语 音识别中占有主导地位,但神经网络的独特优点及其强大的分类能力和输入输出 映射能力在语音识别领域很有吸引力。目前神经网络的研究虽然还不成熟,但在 语音识别的某些方面已经显示了威力。a n n 本质上是一个自适应非线性性动力学 系统,模拟了人类神经元活动的原理,可以将a n n 与传统的语音识别方法有机结 合起来,从而提高整个模型的鲁棒性。 1 3 论文的研究重点和组织 尽管语音识别技术到目前为止,已取得很大发展,出现了较为成功的产品,然 而这些产品远远不能达到令人满意的程度。本文在前人研究的基础上,主要针对 语音识别系统的关键技术进行了探讨。语音信号特征提取方面,分析了当前最常 用的两种特征参数,m e l 频率倒谱系数( m f c c ) 和线性预测倒谱系数。研究了一 系列的语音识别算法,主要有d t w ( d y n a m i c t i m e w a r p i n g ) 、h m m ( h i d d e n m a r k o v m o d e l ) 和a n n ,用软件实现了这些算法的仿真。并提出许多改进和优化,将a n n 与传统的语音识别方法有机结合起来,从而提高整个模型的鲁棒性。通过实验验 第一章绪论 7 证,取得良好效果。 论文内容的安排如下: 第一章绪论介绍了研究课题的背景和语音识别的系统结构。 第二章在阐述听觉系统和发音系统数字模型的基础上,讨论了语音信号分析方 法,对语音特征提取进行研究。在此基础上对语音识别系统预处理和特征提取作 了一些改进,并给出相应的实验验证。 第三章通过对孤立词语音识别算法d t w 的研究,主要针对放宽端点限制和减 小存储空间,讨论了几种改进方法。用d t w 算法实现了语音控制媒体播放系统的 指令识别,对改进以后的d t w 算法也进行了仿真实验,并对实验结果进行分析。 第四章介绍了隐马尔可夫模型的基本知识,结合孤立此语音识别问题深入阐述 了h m m 的识别和训练算法。对h m m 在实际应用中的问题进行深入研究,对h m m 初始化模型问题进行改进,用实验验证了h m m 语音识别算法。 第五章介绍了人工神经网络的概念,深入讨论了b p 神经网络及其训练算法。 将b p 神经网络用于语音识别,并对其做了一些修正改进,实现了一个简单的神经 网络语音识别系统。 第六章是对本课题的一个总结,讨论了论文中存在的问题,并对语音识别今后 研究工作进行了展望。 8语音识别系统关键技术研究 第二章语音信号分析与特征提取 语音信号可以从时域、频域进行分析研究。语音信号的时域分析方法主要有短 时能量、幅度、过零率和相关函数等。而短时傅立叶分析法可以从频域完善地解 决许多语音信号处理问题,使信号的一些特性变得更明显。本章将在介绍人类发 声和听觉系统结构机理以及语音分析的基础上,讨论两个重要的语音特征参数一 m e l 倒谱系数和l p c 倒谱系数。另外还对语音预处理和特征参数提取做了一些改 进,并给出相应地实验验证。 2 1 基于发音模型的语音特征 2 1 1 发音系统及其模型表征 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音 频振荡而产生的。发音过程中声道各处的截面积取决于舌、唇、颌以及小舌的位 置。声道有三类不同的激励方式,因而可以产生三类不同的声音:当气流通过声 门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲, 这些空气脉冲激励声道便产生浊音;如果声道中某处面积很小,气流高速冲过此 处时而产生湍流,得到一种类似噪声的激励,这种方式对应与摩擦音或清音;如 果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。 根据语音信号的产生机理,可以模拟语音信号的发生系统。这个过程可以用一 个时变线性系统来模拟,综合考虑声门激励、声道和嘴唇辐射影响季导到图2 1 所示 语音产生的离散系统模型。这样,语音信号可看作是激励信号激励一个线性系统 图2 1 语音产生模型 h ( z ) n 产生的输出,其中h ( z ) 是声道响应v ( z ) 与嘴唇辐射模型r ( z ) 相级联而成, h ( z ) = v ( z ) r ( z ) ;对于浊音来说,就可以看作是由一个准周期的6 脉冲串激励一 4 n 散线性系统h ( z ) = g ( z ) v ( z ) r ( z ) 而产生的输出了【3 】。 第二章语音信号分析与特征提取 9 1 声道模型 人的发音器官可以用若干段不同截面积前后连接的声管进行模拟,这就是声管 模型。在语音信号的某一短时间内,声道可表示为形状稳定的管道,因此可以对 语音信号进行短时平稳分析。声道模型v ( z ) 给出了离散时域的声道传输函数,是 把实际声道作为一个声管模型加以研究,可以认为它是一个全极点函数,用公式 ( 2 1 ) 表示为: 1 y ( z ) = i 二一 口o = l ,口t r ( 2 - 1 ) 】一口i z 。 k = 1 它是将截面积连续变化的声管近似为p 段短声管的串连,每段短声管的截面积 保持不变,p 称为这个全极点滤波器的阶数。p 值取得越大,模型的传输函数与声 道实际传输函数的吻合程度越高。 2 辐射影响 嘴屠辐射作用可以用一个一阶差分方程近似描述: r(z)=鼬(1-z-1)(2-2) 根据语音信号分析得知,嘴唇辐射影响引起的输出信号高频提升作用大约有每倍 频6 d b 2 l 。 3 激励信号 激励源分为浊音和清音两个分支,按照浊音清音开关所处的位置决定产生的 语音是浊音还是清音。浊音是一个周期为n o 的冲激序列,n o 与基音频率f 。和语 音信号的采样频率f s 有关,并且有n o = f s f o 。清音的激励信号相当于一个随机发 生器产生的信号,其均值为0 ,幅度具有正态概率分布,系数a 和a u 的作用分 别是调节浊音信号和清音信号的幅度。 2 1 2 语音信号线性预测倒谱系数 线性预测介绍 语音信号的线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若 干个语音抽样的线性组合来逼近,通过使实际语音抽样和线性预测抽样之间差值 的平方和达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测系 数。 对于全极点模型 日( z ) = 生一 ( 2 l 一唧z “ 1 0 语音识别系统关键技术研究 输出j ( ”) 和输入“( ) 2 _ f 日q 的关系可以用式( 2 - - 4 ) 差分方程来表示,其中g u ( n ) 是 一个归一化冲激响应及其增益系数的乘积。 s ( h ) = d i s ( n k ) + g u ( n ) ( 2 4 ) = l 如果采样点n 输出s ( n ) 可以用前面p 个样本的线性组合来表示,这就是一个线 性预测器,其中,q ,口,口。为常数,称为线性预测系数: f ( 门) a i s ( 胛一1 ) + 口2 j ( 珂一2 ) + + a p s ( n p ) ( 2 - 5 ) 线性预测的基本问题是由语音信号直接决定一组预测器系数,使预测误差在最 小均方误差准则下最小。全极点线性预测模型可以对声管模型进行很好的描述, 每段声管对应一个l p c 模型的极点。要使模型的假定较好地符合语音产生模型, 模型的阶数p 要与共振峰的个数相吻合,通常一对极点对应一个共振峰。1 0 k h z 采样的语音信号通常有5 个共振峰,取p = 1 0 ,此外为了弥补鼻音中存在的零极 点以及其他因素引起的偏差,通常在上述阶数的基础上再增加两个极点。 线性预测方程组的推导及求解 实际信号和预测信号之间误差为 p e ( 胛) = s ( 九) 一f ( ) = s ( n ) - 吼j ( 一i ) ( 2 - 6 ) ;l 要使这个模型尽可能地描述s ( n ) ,应该使式( 2 6 ) 所得的预测误差在某一短时 的总能量尽可能最小,并在此准则下求出最佳预测系数 吼 。为使短时平均预测 误差能量e 达到最小值,必须使 a k ) 满足: ( k = 1 ,2 ,p ) ( 2 - 7 ) e 。= e 。2 ( 聊) = i s 。( 玳) 一瓦( m ) 】2 ( 2 8 ) ( 其中矗) 是在抽样点n 附近选择的一个语音段s 。) = j 0 + 埘) ) 可以得到如下线性方程组: 如( 蹦b 。( 胁一七) = 艺a l j 。( 坍一七) j 。( m - 1 ) ( 1 k p ) mi = 1 0 = 堡魄 中其 第二章语音信号分析与特征提取 用矩阵形式可以表示如下 一 m s 。一2 s 。一 。, :, q 吃 一。 一: 莓 一,莓,z 善 一,ib 1i ;焉一,m mjl ,j【_ ( 2 9 ) 这是一个包含p 个未知数的p 个方程,可以得到每一短时语音的线性预测系数 ( 嘶) 。线性预测方程组有多种解法,自相关法由于计算效率较高且比较稳定,使 用比较多。 用n 点长的短时窗截取语音信号,其短时自相关函数为: r 。( i ) = 晶( 弦。( 肌+ ) m - o 那么 n 一1 一( 1 一,) b ( 七一,) = 屯( 搬) 屯沏+ 七一,) m = o 所以式( 2 9 ) 可以表示为: 岛硒趣扯1 月l硒m 吗川 昂1 玛一1 1 岛曲凰 l 两 - _ 焉 本文采用d u r b i n 算法解自相关方程组,详细内容参考文献【2 1 。 语音信号的同态处理 ( 2 1 0 ) 语音信号的产生是准周期脉冲或随机噪声与声道冲激响应的卷积,如果利用解 卷的方法将系统的单位响应与激励信号分开,我们就可以描述语音的频谱包络。 语音同态处理方法是一种非线性方法,它能将两个通过卷积合成的信号分开,得 到语音信号的倒谱参数。倒谱参数比较彻底地去掉语音产生过程中的激励信息, 反映声道响应,在语音识别应用中获得良好的效果。 求解语音信号线性预测倒谱参数的过程如图2 , 2 。 1 2 晶 “ 。 1 2 语音识别系统关键技术研究 图2 2 线性预测倒谱参数求懈 如果己知l p c 系数 a k ,可以用下述递推公式求相应的倒谱系数【3 2 2 基于听觉模型的语音特征 2 2 1 听觉系统模型 对于语音信号特征不仅要从发声模型考虑,而且也要对其感知过程进行研究。 由于听觉系统的复杂性,有些性能的模拟是不可能实现的,所有我们只讨论听觉 系统的几个关键特性。 1 人的听觉系统对于声波频率高低的感觉与实际频率的高低不成线性关系, 它响应不同频率信号的灵敏度是不同的,基本上是一个对数关系。 2 掩蔽效应。掩蔽效应是使一个声音a 能感知的阈值因另一个声音b 的出现 而提高的现象。掩蔽效应的生理依据是频率群,频率群的划分相应于基底 膜分成许多很小底部分,每一部分对应一个频率群,掩蔽效应就发生在这 些部分内。在2 0 1 6 0 0 0 h z 范围内的频率可以分成2 4 个频率群。 因此在进行声学测量时,频率刻度常常取为非线性刻度。在语音声学方面,常 用的非线性频率刻度有三种:对数刻度、k o e n i n g 刻度和m e l 刻度。m e l 刻度是最 合理的频率刻度,它是根据主观音高均匀划分的,它和线性频率的转换关系为: , l “= 2 5 9 5l o g t o ( 1 + 熹) ( 2 - 1 2 ) ,u u 可以在语音的频谱范围内设置若干个带通滤波器来进行转换, 日,( n ) ,m = o ,1 ,m 一1 ,盯= o ,l ,2 一l , “ m 为滤波器的个数,通常取2 4 ,与临界带的个数一样;n 为一帧语音信号的点数。 滤波器在频域上为简单的三角形,其中心频率厶在m e l 频率轴上是均匀分布的。 例如:设计一个带通滤波器组,包含2 4 个滤波器,语音信号帧长取为2 5 6 个点, 语音信号的采样频率为1 0 k h z ,则m e l 尺度滤波器组如图2 3 。 嚣 第二章语音信号分析与特征提取 闰2 _ 3 m e l 尺厦滤波器组 2 2 2 语音信号m e l 频率倒谱系数 m e l 频率倒谱系数充分利用人耳的听觉特性,首先在频域将频率轴变换为m e l 频率刻度,再变换到倒谱域得到倒谱系数。m f c c 参数的计算过程 6 】: ( 1 ) 对语音信号进行预加重,确定每一帧语音采样序列的长度。 ( 2 ) 对每一帧语音信号经过离散f f t 变换得到其频谱。 ( 3 ) 再求频谱幅度的平方,得到能量谱。 ( 4 ) 将能量谱通过一组m e l 尺度的三角形滤波器组。 ( 5 ) 每个滤波器的输出取对数。 ( 6 ) 进行离散余弦变换即得到m f c c 。 具体流程可以用框图2 4 表示为: 图2 4 m f c c 计算过程 2 _ 3 语音预处理和特征提取部分及其改进实验 2 _ 3 1 语音信号预处理和端点检测 语音信号特征提取前通过一个预加重滤波器1 0 9 7 z 。,它的目的在于滤除低 频干扰,尤其是5 0 h z 或6 0 h z 的工频干扰,将对于语音识别更为有用的高频部分 进行提升,还可以起到消除直流漂移、抑制随机噪声和提升语音清音部分能量的 效果。这个过程可以用公式( 2 1 4 ) 表示。 y ( ”) = x ( ”) 一o 9 7 x ( n 1 )( 2 1 4 ) 根据语音信号的短时平稳性,可以对它进行分帧操作,为防止泄漏( g i b b s ) 现象,可以加窗处理,用的最多的三种窗函数是矩形窗、汉明窗和汉宁窗,汉明 窗可以有效地克服泄漏现象,具有更平滑的低通特性,因此应用最为广泛。汉明 旦至童塑型垒竺差堡垫查堑塑一一 窗的定义为: 州= r m 4 6 5 宅篓箍耽肛卜肛1 c z - 语音的端点检测就是确定语音的起点和终点,端点检测的正确与否对语音识别 的性能有很大的影响,特别是对端点检测比较敏感的语音识别算法。汉语语音因 为声母都是清声母,还有送气与不送气的塞音和塞擦音,它们与环境噪声难以分 辨。 人的语音分为清音和浊音两种,浊音为声带振动发出,对应的语音信号有幅度 高、周期性明显的特点,所以可以利用短时能量来检测浊音。而清音则不会有声 带的振动,只是靠空气在口腔中的摩擦、冲击或爆破而发声,其短时能量比较小, 但清音与静音段相比波形在幅度上的变化比较剧烈,因此采用过零率来检铡清音。 语音信号的端点检测采用平均能量与过零率相乘的方法来判断。 双门限端点检测算法 双门限端点检测法进行语音信号端点检测时,先要分别为短时能量和过零率确 定两个门限。高门限被超过基本可以确定语音的起始端点,低门限用于确定语音 真正的端点。低门限被超过未必就是语音的起始端点,也有可能是短时的噪声。 当高门限已经确定语音起始端点,再返回去利用低门限确定语音的真正起始点, 语音结束点的判别方法类似。有时噪声的能量也相当大,可能超过高门限,但是 噪声一般持续时间比较短,可以用持续时间来决定是噪声还是语音。图2 。5 是用短 时能量的双门限确定语音的起始端点。 e n e r g y e h e l t 窗长动态改变的语音端点检测技术 图2 5 双门限端点检测 t 2 根据语音信号的短时平稳性,可以采用平稳过程的分析方法进行处理,语音端 点检测首先也要进行分帧处理,然后依次判断每一帧是否为语音的端点。如果帧 笙三童堕童堕量坌堑兰鳖笙堡垦 ! 三 长比较大,计算量比较小,进行端点检测时速度比较快,但是这样端点检测的误 差容易增加。端点检测时采用较小的窗长,计算量增加,语音识别的速度会降低”“。 如果我们采用一种方法,在语音静音段时,采用较长的窗;在语音和静音的过 渡段时采用较小的窗,可以确切判断语音的起始点;一旦确定语音的起点,就改 用常规窗长,因为汉语音节末尾都是浊音,只用短时能量就可以较好地判断一个 词语的末点。本文将这种窗长动态变化的端点检测方法和经典的双门限端点检测 算法有机结合起来,既可以提高语音识别速度,又可以精确检测语音的端点。这 种思想的流程可以表示为图2 6 7 1 。 实验及结果分析 图2 6 窗长动态改变 在实验部分,分别采用双门限端点检测算法和窗长动态改变的端点检测技术, 而且将两者结合起来,对两者的性能进行了比较,并给出了实验结果,实验表明 窗长动态改变的端点检测算法能够比较精确的检测语音的端点。 实验一: 双门限端点检测实验采用短时能量和过零率相乘的方法来判断,在开始语音信 号端点检测前,先要分别为短时能量和过零率确定两个门限。门限值的选择对语 音端点检测的影响比较大,本实验的门限值都是通过大量实验得到的经验值。对 门限的计算还可以采用较低能量门限是取背景噪音平均能量的2 倍,较高能量门 限是取多帧语音数据的平均能量。在静音段,如果能量或过零率超越了低门限, 就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不 能确信是否进入语音段,只要两个参数的数值都回落到低门限以下,就将当前状 态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限,就可 以确信进入语音段。语音段如果持续时间比较短,没有达到一定的时长则可以确 定是噪音,继续扫描以后的语音数据,否则就可以标记一段语音。 实验采用2 0 0 组数据,汉语音节末尾检测相对容易,而语音的起点检测就比较 困难,声母与环境噪声很难区别。为了使算法具有普遍性,我们选择的语音样本 覆盖汉语语音的所有声母,包括塞音、擦音、塞擦音、鼻音、边音和通音。包含 1 6 语音识别系统关键技术研究 汉语音节的四种声调:阴平、阳平、上声和去声,另外语音声调还有轻声。 语音数据的采样频率1 1 0 2 5 h z ,帧长取2 4 0 个点,在双门限端点检测算法这个 实验中窗长固定,帧移8 0 个点,大概为7 毫秒。最短语音长度2 0 个点,对应时 间大概为1 4 0 毫秒。短时能量的两个门限分别为1 0 和2 ,短时过零率的两个门限 分别为1 0 和5 。实验中绘制出语音的波形图、过零率和短时能量,并标出了语音 开始端点和结束端点。图2 7 给出了汉语语音七的端点检测。 实验二 图27 语音七的端点检测 在第二个实验中将前面介绍的两种算法结合起来,所采用的数据与实验一相 同,也是2 0 0 组数据,采样频率为1 1 0 2 5 h z 。最短语音长度取2 0 个点。窗长动态 改变,在静音段使用大窗长;一旦进入过渡段,即短时能量超过较低门限或短时 过零率超过较低门限,为了精确检测语音端点,则从这一帧开始对语音数据采用 较小窗长,本实验使用8 0 个点的较小窗,帧移4 0 。一旦进入语音段,即短时能量 超过较高门限,则从这一帧以后恢复为常规窗长。实验中所采用的窗及其短时能 量和短时过零率见表2 1 。 表2 1 参数表 较大窗较小窗常规窗 窗长 4 0 08 02 4 0 帧移 1 6 0 , 4 08 0 , 短时能量较高门限1 6 、 3 ,41 0 短时能量较低门限 3 50 6 72 过零率较高门限 1 63 41 0 过零率较低门限 81 75 第二章语音信号分析与特征提取 1 7 采用实验二的算法进行端点检测,精确度要比实验一高很多( 通过人眼观察) 。 特别是在检测语音的起始端点中有很大的优势。尽管语音端点检测的标准还不是 很客观,大量的实验表明它不失为一种很好的方法。图2 , 8 给出了汉语语音a 的阴 平的端点检测,可以看出实验二比较精确地检测出语音的起始端点。 图2 8a 的端点检测 利用实验一中的2 0 0 组数据,对双门限端点检测算法和窗长动态改变的端点检 测技术的性能进行比较。实验中使用的语音数据见( 表2 2 ) ,其中后面的十组数 据是来自不同人的两遍发音。其中有5 组数据( x 号标出) 用两种算法的误差都 比较大,有9 组数据( 号标出) 用算法二端点检测的精确度不如算法一,其余 数据的端点检测算法二效果明显优于算法。两种算法效果都不太好的语音大部 分为上声,这有可能是语音最短时限确定的不太合理。对于声母为塞音b ,边音l 等采用算法二效果也不是太理想,这有待于进一步改进。不过可以证明这种思路 值得考虑。 2 3 2 语音信号特征提取的实现 具体为语音提取特征参数时,要分帧进行处理。在为每一帧计算出线性预测倒 谱系数( l p c c ) 或m e l 频率倒谱参数( m f c c ) 后,可以进行倒谱提升,即对倒谱 系数进行加权。加权系数的变化是由d n 大,再由大到小,加权的短时窗是一个 升正弦函数。倒谱提升窗口的表达式为: wn = 1 + 晏s i n ( 兰三) ,1 sp ( 2 1 6 ) z口 p 为每帧语音参数的阶数,w 。就是每帧p 个参数要乘以的权系数。 标准的倒谱参数只反映语音参数的静态特性,认为不同帧间的语音是不相关 的,实际上由于发音的物理条件限制,不同帧问语音一定是相关的,变化是连续 8 语音识别系统关键技术研究 的,可以用一阶差分系数和二阶差分系数来近似描述语音信号的帧间相关性。这 样就可以利用差分倒谱参数来反映语音的动态特征,动态特征和静态特征互补, 能很大程度提高系统的识别性能。 r 时刻孽亍的侄! 冀望c 。:( 。,则c 。( ,) = 垦誉堕是语音的动态倒谱特征。 m f c c 一阶差分参数的计算公式为: d :坠:12(2-17) ( ) = 堡。上f _ ( i2 ) i 实际运算中,将m f c c 和各阶差分参数合并为一个矢量,作为一帧语音信号的参 数。 本文在p c 机上实现了对语音m f c c 和l p c c 特征参数的提取,在此不再叙述。 m f c c 参数充分利用人耳的听觉特性,已经证明是一种用于语音识别的很好的参 数,在以后几章的识别算法中都提取语音的m e l 频率倒谱系数。 第二章语音信号分析与特征提取 表2 , 2 语音数据表 语音声_ f j l 8算法算法 语音声调算法算法语音声调算法算法语音声调算法 算法 一一一 一 一 一 一 一 一 b e n g 四c h l b 1c h l b lc h l四 四b jc h i 凹 轻 b l四 c h o n g b i a n c h o n g四 b i a n t h o n gs h e n g b i a n四 t h o n g 四 s h e n g 四 b i a o d o n gs h e n g x b i a o d o n g s h e n g 四 b i a o四 d o n g 四t i a n 四b i et i a n a n g b i e t i a n a n g b i e 四 t i a n四 a n g 四b i e四凫】 b i n 诧】 b i n四兜l b i n g佬i四四 四 b i n gg o u b a b i n g四 g o u b ab o g o u 四 b ab o h e 四 b a四 b a b a y a h b a轻b o 四h e四 y o n b a lb o轻 j l 仰 y o n b a lb u j l a n xx b alxxb u j t a n四四 b a i四b u k a oz h u b a i轻b a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论