已阅读5页,还剩70页未读, 继续免费阅读
(人机与环境工程专业论文)基于单片机语音识别系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业人学硕士学位论文 a b s t r a c t s p e e c hr e c o g n i t i o ni sa ni m p o r tm e a n so fm a n m a c h i n ec o m m u n i c a t i o n s y s t e m a ne m b e d d e dr e c o g n i t i o ns y s t e mb a s e do nt h eh i d d e nm a r k o v m o d e l ( h m m ) t h e o r yi sd e v e l o p e dw i t ha v rr i s cm c ua r c h i t e c t u r es y s t e m i nt h i sw o r k t h er e s u l to fas e r i e so fe x p e r i m e n t ss h o w st h a tt h em o d e l a p p l i e dt ot h i ss y s t e mp e r f o r m e dv e r yw e l l c o u l ds u c c e s s f u l l yr e c o g n i z es m a l l a m o u n to fi s o l a t e dw o r d so fc e r t a i ns p e a k e r sw i t hc o n s i d e r a b l e h i g h r e c o g n i t i o ne f f i c i e n c y i nt h i st h e s i s ,w ef i r s t l yg i v eab r i e fi n t r o d u c t i o no ft h es p e e c hr e c o g n i t i o n p r o c e s s e sa n di t sr e a l i z a t i o nm e t h o d ,e s p e c i a l l yo ft h eb a s i ct h e o r y ,t o p o l o g y s t r u c t u r e sa n da l g o r i t h m so fh i d d e nm a r k o vm o d e l t h er e a l i z a t i o nm e t h o do f t h i ss y s t e mw a sd e t e r m i n e db yc o m p u t e rs i m u l a t i o na n dt h e o r ya n a l y s i s o n t h eb a s i so ft h ea b o v ew o r k ,t h eh a r d w a r ea n ds o f t w a r eo ft h es y s t e mw e r e d e s i g n e da n dt e s t e d i na d d i t i o n as e r i e so fe x p e r i m e n t sw e r ec a r r i e do u to n t h i ss y s t e mt or e c o g n i z ei s o l a t e dn u m e r i c a l w o r d sa n dp h r a s e so fc e r t a i n s p e a k e ri nd i f f e r e n te n v i r o n m e n t s t h er e s u l t si n d i c a t e t h a tt h i ss p e e c h r e c o g n i t i o ns y s t e mh a sh i g h l yr e c o g n i t i o ne f f i c i e n c yw i t hl o wc o s t k e y w o r d s :s p e e c hr e c o g n i t i o n h m me m b e d d e ds y s t e mr i s cm c u i i - 西北工业大学硕士学位论文 第一章前言 人机通信是指人和机器之间进行信息交流,使得机器能够按照人的指示来 执行任务,并能反馈人们需要的信息。传统的人机通信是通过键盘、按钮和显 示器等设备来实现的。 实现人机自然语音对话,对于方便人们生活,提高工作效率具有重要的意 义。而实现人机自然语音对话的核心技术就是语音信号处理。 1 1 语音信号处理意义 人类社会愈来愈显示出信息社会的特点。不但在人与人之问,而且在人与 机器之间每时每刻都需要进行大量的信息交流。语音不仅是人和人之间进行信 息交流最直接、最方便和最有效的工具,而且也是人和机器之间进行通信的一 种重要手段。人机自然语音对话意味着计算机具有语音输入和输出的功能,即 计算机具有“听觉”,能“听懂”人类的口头语言,这就是语音识别的功能;计 算机还能够“说话”,“说出”人能听懂的语言,这就是语音合成功能。无论是 人与入之间还是入与机器之间的语音通信,语音信号处理都有其特别的意义【1 1 。 语音信号处理是用数字信号处理技术对语音信号进行处理,处理的目的是 用得到的某些参数进行高效传输、存贮、语音增强、语音合成和语音识别川。 语音信号处理是一门新兴的交叉学科,是在多门学科基础上发展起来的综 合性技术。它涉及到数字信号处理、模式识别、语言学、生理学、心理学及认 知科学和人工智能等多门学科领域i l “。 语音信号处理主要研究内容包括了语音的合成与分析、语音识别及语音增 强等内容 卜4 】。在过去的几十年里。这一领域已经取得了大量的研究成果,对社 会生活产生了深刻的影响。如:( 1 ) 1 9 3 0 年由h o m e rd u d l e y 发明的有声编码器, 减低了语音信号传输所需的频宽。这使得所有的数字电话工厂降低了数据语音 系统的位比率因而可以继续使用低成本的端子。( 2 ) 计算机的有声响应系统, 基本上全部是数字化,使用者通过键盘输入问题信息到计算机,再由计算机以 人可以听懂的声音“回答”【“。( 3 ) 说话者验证技术,该技术是在一堆可能类似 西北t 业大学硕士学位论文 的说话者中,验证说话者的身份。这种技术可以应用到控制和限制领域。( 4 ) 语 音辨认系统在语音操作打字机及语音计算机网络的应用。( 5 ) 残疾辅助功能。例 如可以通过语音器材使盲人,有机会“读”到想要的数据;通过感测帮助,做 视觉显示,使聋人有机会“昕”到别人的讲话。( 6 ) 信号品质的加强,通过去除 环境噪声、预加权等方式改进话音的品质。可以使潜水者在氦氧混合的水气中, 仍能存储说话的记录 4 - 7 1 。 1 2 语音识别概述 语音识别( s p e e c hr e c o g n i t i o n ) 最基本的定义是“系统能听懂人说的语句 或命令,而进行相应的动作”【l q j 。也就是说,配置有“语音识别”软、硬件 的系统,能把人发出的语音命令信号通过转换装置输入系统内部、j 以数位方 式存储,然后通过识别算法程序将录入的语音命令样本与模扳库中! :漠板进行 对比。对比工作完成后,系统就会输出一个它认为最“缘”州模板,由此可以 知道人所发布的命令,进而执行此命令。 语音识别系统根据不同的要求可分为以下f i 峡: 根据对说话人说话方式可以分为:( 1 ) 么立字( 词) 语音识别系统,( 2 ) 连接 字语音识别系统,( 3 ) 连续语音识别系筑。根据对说话人的依赖程度可以分为: ( 1 ) 特定人语音识别系统,( 2 ) 非特定人语音识别系统。根据词汇量大小,可以 分为:( 1 ) 小词汇量语音识另f 系统,( 2 ) 中等词汇量语音识别系统,( 3 ) 大词汇量 语音识别系统,( 4 ) 无限卅汇量语音识别系统【卜刀。不同的语音识别系统,虽然 具体实现细节有所不q ,但所采用的基本技术相似。 一个典型语音识别系统的系统结构如图1 1 所示。 语音识别技术内容主要包括识别单元选取、预处理、特征参数提取、模式 匹配准则、模板训练技术等内容1 】1 3 。 两北工业大学硕士学位论文 s d ,s i 1 识别单元的选取 训练 图1 1 语音识别系统的结构图 剿朦 库整个单ii 词或语素il ”“ 识别决策 i n 巡 识别单元选择是语音识别的第一步。语音识别单元有孤立字( 词) 、音节 和音素三种,具体选择哪一种,要根据识别系统的具体要求决定。 孤立字( 词) 单元广泛应用于中、小词汇量语音识别系统,但不适合大词 汇量语音识别系统,原因在于模板库庞大,模板训练任务繁重,模板匹配算法 复杂,难以满足实时性要求,识别效果也不理想。音节单元多用于汉语语音识 别系统。因为汉语是单音节结构的语言,而英语是多音节,汉语虽然有大约1 3 0 0 个音节,但若不考虑声调,约有4 0 8 个无调音节,数量相对较少【3 ”。因此,对 于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本上是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识 别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有2 2 个) 和韵母( 共有2 8 个) 构成1 3 。】,且声、韵母的声学特性相差很大。实际应用中, 常根据后续韵母的不同进一步细化声母而构成细化声母,这样虽然增加了模型 数目,但提高了易混淆音素的区分能力。由于协同发音的影响,音素单元不稳 定,所以如何获得稳定的音素单元,还有待研究【l 7 j 。 辽一 一 、o 一 西北工业大学硕士学位论文 2 特征参数提取技术 语音信号中含有丰富的信息,特征提取就是提取出对语音识别有用的信息 【卜”,通过对语音信号的分析处理,去除对语音识别无关紧要的冗余信息,获得 影响识别结果的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能 多的反映语义信息,尽量减少说话人的个人信息( 对特定人语音识别来讲,则 相反) 。从信息论角度讲,这是信息压缩的过程。 3 建模技术 建模技术包括模板训练和模式匹配。建模技术是一个基本的和重要的问题, 主要有以下几方面的理由: 1 ) 语音信号模型是从理论上描述语音信号处理系统的基础,利用语音信号 处理系统对语音信号模型进行处理便可以得到所希望的输出; 2 ) 有了语音信号模型就能够不需要语音信号源而了解信号源的许多性质; 3 ) 最重要的一个理由就是利用语音信号模型可以很好的实现许多重要系 统,包括语音识别系统。 模板训练过程( 学习过程) 是指按照一定的准则,从大量的训练数据中获 取表征该模板本质特征的模型参数:而模式匹配则是根据一定的准则,在模板 库选出与未知模式最佳匹配的模板【l l 【1 。 1 3 语音识别技术的发展和现状 根据资料 4 7 的介绍,语音识别的最早尝试是在2 0 世纪5 0 年代,当时 一些研究人员开始研究有关语音的问题,并创建了语音学的基础。1 9 5 2 年,贝 尔实验室的d a v i s 、b i d d u l p h 和b a l a s h e k 建立了一套针对单独发音的孤立数 字识别系统。这套系统完全依赖于对每个元音段数字信号谱共鸣的测量。到了 1 9 5 6 年,在r c a 实验室里,o l s o n 和b e l a r 识别了单独发音的1 0 个清晰的音 节,使识别l o 个单音节词成为可能。这个系统主要还是依赖元音段的谱测量。 1 9 5 9 年在英国一所综合大学的学院里,f r y 和d e n e s 建立了一套音素识别系 统,用来识别4 个元音和9 个响亮的音节。在这个识别系统中,他们使用了谱 西北工业大学硕上学位论文 分析和模式识别。这个时期的研究刚刚起步,因此也是相对孤立的。 到了6 0 年代,3 个关键研究项目的提出,对其后语音识别的研究和发展起 了非常重要的作用。第一个就是r c a 实验室的m a r t i n 和他的同事就语音的时 域不均一性提出了实际的解决办法。第二个是前苏联v i n t s y u k 提出使用动态方 法来实现时问和一组语音信号的对准,尽管该方法没有对连接词形成完整的算 法,它仍然非常有意义。第三个是r e d d y 在连续语音识别领域对音素的动态轨 迹研究取得较大的进展。 在7 0 年代,语音识别的研究取得了一系列的巨大成果。首先是孤立词识 别已经变成基础研究里可用的技术了。另一个里程碑是i b m 在大词汇表自动语 音命令领域的研究获得了极大的成功。最后一个是在a t & t 的贝尔实验室,研究 人员开始做一系列的针对非特定人语音识别系统的实验,目的是在电信方面应 用。 在8 0 年代,语音识别成为语音信号处理领域最活跃的课题之一,语音研 究技术从基于模式匹配向统计模型方法转变,尤其是隐马尔可夫模型( p s i ) 方 法关于它的基本方法和具体实现得到大家的密切关注,而且隐马尔可夫模型 一直被认为是经典的处理方法之一。 到了8 0 年代末期,人工神经网络开始应用于语音识别,由于该方法在世 界范围内受到了目益广泛的重视,所以取得了长足的进步,成为当今高科投领 域中方兴未艾的研究热点 7 l o 进入9 0 年代,随着多媒体时代的来临,迫切需要语音识别系统从实验室 走向实用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、n t t 等 著名公司都为语音识别系统的实用化开发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平。国家也很重视,并把大词汇量 语音识别的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单 位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。 美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,进行汉语语 音识别的研究【6 j 。 根据资料 1 】、【2 】、 4 】、【6 】和 7 】的介绍,目前,语音识别的研究受到广泛 关注,在理论上和实验室条件下达到了比较高的水平,但是实现从实验室演示 两北工业人学硕士学位论文 系统到实用系统还有一定的工作量。具体主要表现在: 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下 训l 练的语音识别系统只能在这种环境下应用,否则系统性能将急剧下降;另外 一个问题是系统对用户的锚芸输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,例如声音 变高,语速变慢,音调及共振峰变化等等,这就是所谓的l o m b a r d 效应,必须 寻找新的信号分析处理方法。 语言学、生理学、心理学方面已有不少的研究成果,但如何把这些知识量 化、建模并用于语音识别,还有一定的工作量。 对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机埋等 方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个 艰难的过程。 为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基 于最大互关信息准则( m m i ) 和最小区别信息准则( m d i ) 的区另t j i t l 练和“矫正” 训练;应用人耳对语音信号的感知特点,分析提取特征参数,应用人工神经元 网络等等,所有这些努力都取得了一定的成绩。 不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心 理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的”7 l 。 1 4 本文研究内容及章节安排 1 本文研究内容和意义 1 ) 本文研究的意义 目前,语音识别在理论上和实验室条件下达到了比较高的水平【卜7 1 。但是 几乎所有语音识别算法都是基于p c 机或更大型计算机的 6 1 。在系统硬件的选用 方面,大多采用高速d s p 结合p c 机或更大型计算机,由于费用、功耗和体积等 方面的原因,使得这样的系统应用场合受到限制,很难进入实用化。 嵌入式系统是以计算机技术为基础,面向用户,面向产品,面向应用的软、 硬件可裁减的系统。在费用、功耗和体积等方面有着计算机系统无法比拟的优 西北工业 学硕士学位论义 点吲。 人们对于语音识别在生活中应用的需求越来越迫切,因而从实验室演示系 统向实用系统转化的问题越来越重要 6 1 。将现有的和比较成熟的语音识别方法 和嵌入式技术结合起来,开发嵌入式语音识别系统,对于推动语音识别技术进 入实用化有着比较重要的意义。 2 ) 本文研究的内容 本文研究内容是基于a v rr i s c 结构的单片机,采用隐马尔可夫模型( h 唧) 理论和方法,进行特定人、小词汇量和孤立词的嵌入式语音识别系统开发。 本文分析和讨论了语音识别技术中的预处理技术、特征参数提取技术和隐 马尔可夫模型理论及方法,确定了具体的实现方案。 进行了系统设计和调试,包括:系统硬件设计、系统软件开发和系统调试。 系统硬件设计包括:方案设计、功能子系统设计、电路图设计和p c b 板设 计。 系统软件开发包括:存贮系统的驱动程序与外部控制系统的中断程序等系 统底层程序和算法软件的开发。 系统调试包括系统硬件调试和整个系统的调试。 2 章节安排 第一章是本文的前言部分,介绍了语音识别技术及其发展的历史、现状、 内容和实现环节。最后介绍了本文工作的意义、内容和章节安排。 第二章介绍语音识别技术中的预处理和特征参数提取技术。预处理主要包 括:抗混滤波、预加权滤波和端点检测,分析和讨论了这几个环节的作用及其 实现方法:分析和讨论了特征参数技术中的线性预测系数( l p c ) 和线性预测系数 倒谱理论,并介绍了适合数据流的算法。 第三章介绍了隐马尔可夫模型的基本概念、基本参数、三个基本问题和拓 扑结构类型等基本理论,分析和讨论解决三个基本问题的工程算法:( 1 ) 前向一 后向算法,( 2 ) v i t e r b i 算法,( 3 ) b a u m - - w e l c h 算法。 第四章进行了系统实现的具体环节设计,主要包括:识别单元选取、抗混 滤波器和预加权滤波设计、端点检测方法设计、l p c 阶数确定、h m m 类型确定和 西北工业大学硕士学位论文 状态数选择。 第五章从软、硬件两个方面简要的介绍了系统结构。硬件方面主要介绍了 从m c u 的选型和各个功当于系统的设计:软件方面主要介绍了驱动程序、中断 程序等底层程序的程序框瞄,算法程序( 预加权、l p c 及其倒谱系数提取、模板 训练和模式匹配等) 的流程示意图。 第六章介绍了系统的实验情况。主要介绍了实验方案设计和实验结果,并 对实验结果进行了分析。 第七章总结了本文的工作,并对今后工作提出了建议。 西北工业大学硕士学位论文 第二章预处理和特征参数提取 原始语音信 j 不能直接用于模板训练和模式匹配,这是因为;其一、原始 语音信号数据量太大,系统的运算和存贮负担过重;其二、原始语音信号包含 太多的随机因素,极大的影响了系统的识别率。 语音识别系统进行模板训练和模式匹配的数据是从预处理后语音信号中提 取的特征参数。通过预处理和特征参数提取技术,一方面使得进行模板训练和 模式匹配的数据特征明显,提高了系统的识别率:另一方面进行了信息压缩, 降低了系统的运算量和存贮量 ”。本章分析和讨论了语音信号的预处理和特征 参数提取的常用技术。 2 1 语音信号预处理 在语音识别系统里,对原始语音信号进行预处理是必要的,这样可以保证 系统获得一个比较理想的处理对象i “。语音信号的预处理主要包括:抗混滤波、 预加权滤波及端点检测等内容【j 】 4 1 。 1 抗混滤波与预加权滤波 研究表明,从保证一定可识别的角度考虑,只需保留3 5 k h z 以下的语音信 号 1 1 1 4 j 。为了去除环境的宽带随机噪声在语音信号的叠加,在系统的前端需要进 行抗混滤波,将此范围内的语音信号频谱分量提出,然后对其进行采样,得到 离散的时域语音信号。 根据取样定理,如果模拟信号的频谱带宽是有限的( 例如,不包含高于 的 频率成分) ,那么用等于或高于z 届的取样频率进行取样,则所得到的信号能 够很好的代表原模拟信号,或者说能够由取样信号恢复出原始信号。实际应用 中,系统一般选择8 k h z 的取样频率【1 1 j 。但是由于语音信号本身包含着4 k h z 以 上频率成分。既使语音信号的频谱能量主要集中在低频段,由于环境的宽带随 机噪声叠加,结果使得在取样之前,语音信号总包含着4 k h z 以上的频率成分。 西北工业大学硕士学位论文 因此,为了防止混叠失真和噪声干扰,必须在取样前通过一个低通滤波器进行 滤波【ij 。这就是抗混滤波或去伪滤波。 语音从嘴唇辐射会有6 d b o e t 的衰减,这意味着频率每增加一倍语音信号 功率减少l 4 ,或信号幅度减小1 1 6 【i 】。为了弥补这一损失,在系统需要有进行 预加权滤波。预加权滤波可以在采样前通过模拟滤波器实现,也可以在采样后 通过数字滤波器来实现【i 】。 2 端点检测 端点检测的目的就是从输入信号中分离出我们真正需要的语音信号。语音 识别的一个关键问题就是语音端点检测的精度,采用多高的精度能为系统提供 “最好”的语音模式。“最好”是指这个语音模式能带来最高的识别率。通过 文献 9 中的一个非特定人的语音识别实验说明端点检测的精度对识别率的影 响。先用手工进行端点检测,达到的识别率为9 3 ;然后在待识别语音段不变 的情况下,将端点向前( 起点处) 向后( 终点处) 移动,结果当端点与原来相 差+ 6 0 m s ( 4 帧) 时,识别率下降了3 。随着端点的进一步偏差,识别率有又 不同程度的下降,当端点相差1 5 0 m s 时,识别率下降了近3 0 。这说明了端点 检测的重要性。 在环境噪声和系统输入噪声比较小,以至能够保证系统的输入信噪比较高 ( 即使最低电平的语音能量也比噪声能量要高) 的情况下,只要计算输入信号 的短时能量就能把语音段和噪声背景区别开来。 另外,因为语音中的清音和弱摩擦音、弱爆破音或鼻音等音素的短时平均 过零率比背景噪声的平均过零率高出好几倍,所以也可以利用语音段的短时平 均过零率进行端点检测【l 】。 下面分别介绍端点检测方法中的短时平均幅度和短时平均过零率。 1 1 短时平均幅度 短时能量端点检测法中需要计算语音信号的短时能量,由于短时能量的计 算涉及到平方运算,而平方运算势必扩大了幅值不等的任何相邻取样值之问的 幅度差别,这就给窗的宽度选择带来了困难,因为必须较宽的窗才能对取样间 塑! ! 三些查兰翌主兰竺笙苎 的平方幅度起伏有较好的平滑效果,然而这样又可能导致短时能量反映不出语 音能量的时变特点。而用短时平均幅度来表示语音能量,在定程度上可以克 服这个弊端。 短时平均幅度定义如下: 或 m o = i x ( m ) o j ( n - m ) i ( 2 i ) = i x ( m ) l h ( n m ) 式中,h ( n m ) = f w ( n m ) ( 2 2 ) 即用移动窗h ( n m ) 选取出一段语音信号取样值,然后计算该段取样值的 绝对值之和除以窗长,得至0 该段语音信号取样值的平均幅度。或者,用移动平 均窗h ( n m ) 选取出语音信号取样绝对值序列中的一段,然后求和再除以窗长, 也能够得到短时平均幅度。 通常所采用的移动窗为:矩形窗和汉明窗,它们定义分别为: 矩形窗: ) = 锯 汉明窗: 巍眷1 亿。, 啪斗5 4 。0 4 6 警2 刚一巍眷1 眨a , 由于不同语音信号的基音频率是不相同的,例如,男性声音基音频率在5 0 2 5 0 h z 范围内,女性声音基音频率一般在1 0 0 1 5 0 h z 范围内,故为了兼顾男 声和女声的最高和最低基音频率,并能准确的描述语音能量自身的实际变化规 律,通常将窗宽选为1 0 2 0 m s 9 1 。 语音信号是不平稳随机过程,其特性是随时间变化的,但是这种变化是很 缓慢的。基于此,就可以将语音信号分成一些相继的短段进行处理。短时平均 些垫三兰竺查兰堡兰三兰些堡兰 幅度的包络可以按帧频率进行取样。以短时平均幅度为特征的起止点算法:根 据发音刚开始前己知为“静”态的连续数帧内的数据( 帧长为l o m s ) ,计算能 量阀值t t l ( 低能量阀值) 及i t u ( 高能量阀值) 。 背景噤音单词1 背景噪音 背秉噪音单词2 背景嗡音 图2 。l 平均幅值端点检测示意图 由此可以进行起止点判别( 以起点判别为例) :先根据仃z 、仃u 确定 个初始起点如n - 强图2 1 所示单词1 的a 点) ,把它定为最先升到平均幅度 的帧,但随着时间的后移,帧幅度在升到i t u 之前又下降到i t l 之下,则n 。不 作为初始起点,而改成下个升到i t l 的点为n - ,以此类推,直到取得真正 的初始起点。 2 ) 短时平均过零率 当离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现 象,单位时间过零的次数叫做“过零率”( 。】【4 】【7 l 【们。如果离散语音信号的包络是 窄带信号,那么利用过零率可以比较准确地度量该窄带信号的频率:在宽带信 号的情况下,过零率只能粗略地反映信号的频谱特性。 语音信号不仅是宽带信号,而且还是时变信号,它的频谱特性是随时间变 化的,故短时平均过零率实际上是描述时变频谱的一种最简单的方法。 西北工业大学硕士学位论文 短时平均过零率的计算方法是:首先用一个移动窗w ( n m ) 选取出位于h 时刻的语音段,然后计算出该语音段的过零总数,并除以该短时段的长度( 即窗 的宽度) 。设采用矩形窗,窗的宽度为n ,这时,短时平均过零率可用下式计 算: 式中 乙= 去塞俐咖) 砌训】_ s g n 【砌_ 1 ) 国( n - m + 1 ) 】 = 去耋慨n 瞰m ) _ s g n 砌删砌训 ( 2 - 5 ) ,、f 1 国( 肌) = 1 0 f 1 s g n x ( m ) - - 4 0 i l 0 m 茎n l 其余n 值 x ( r n ) 0 x ( 肌) = 0 x ( m ) i z c t 条件的最后帧号上【4 】o 西北工业大学硕上学位论文 2 2 语音信号特征参数提取 任何识别器的输入数抓都包含了有关信息和无关信息。特征参数提取就是 尽可能的摒弃无关信目、 ii 以严密而合理的形式来描述有关信息的过程。语音 信号中既包含反。- o 沿含义的稳定信息,又包含反映说话人个人特征( 如身体、 心情等) 的不稳定信息。在语音识别系统中,选取特征参数时尽量反映前一种 信息,减少后一种信息的影响。语音信号常用的特征参数包括:时域参数如: 短时平均能量或幅度;频域参数如:线性预测系数反其倒谱、清浊音标志、基 因频率、短时傅立叶变化、共振峰等【i 4 】。 特征参数提取就是从语音信号中提取( 或测量) 有代表性皇勺、合适的特征 参数,同时进行适当的数据压缩i l 】。 时域参数的优点是计算量比较少,对于区别语音段和静音段及清浊音段比 较方便,效果也比较明显。但由于人耳对声音的频域特性比较敏感,时域参数 不能恰当地反映这种特征【1 1 。 线性预测分析技术是目前应用广泛的特征参数提取技术,线性预测系数 ( l p c ) 倒谱特征矢量反映了语音全极点模型平滑谱的对数幅值,不但计算简便而 且用于语音识别时效果很好,许多成功的应用系统都是基于l p c 倒谱技术进行 特征参数提取【1 1 。 1 线性预测基本原理 线性预测又叫线性预测分析,是应用较广的特征参数提取技术,其核心是 由信号的过去值预测其将来值。线性预测的概念早在上世纪4 0 年代就已经提出 ,将其应用于语音识别,不仅希望利用其预测功能,而且要求它为我们提供 一个非常好的声道模型,而这样的声道模型对于理论研究和实际应用都是相当 有用的。此外,声道模型的优良性能不仅意味着线性预测是语音编码的特别合 适的编码方法,而且意味着预测系数是语音识别的非常重要的信息来源。 p 阶线性预测,是根据信号过去p 个取样值 x ( n 一1 ) ,x ( n 一2 ) ,x ( n p ) ) 的加权和来预测信号当前取样值x ( n ) 。设预测值用量( n ) 来表示,则有; i ( ,1 ) = 一口一x ( n f ) ( 2 7 ) 西北工业大学硕士学位论文 上式中,加权系数用口硝表示,称为预测系数。 预测误差为: e ( 疗) = x ( n ) 一圣( 行) = 2 g p l x ( 一? )a p 。= 1 ( 2 8 ) l = 0 在最小均方误差意义上,这种预测是最佳的。这就是说,预测系数应按最小均 方准则来确定,即: p = e e 2 ( 门) 】;m i n( 2 9 ) 以上三式( 2 7 2 9 ) 便是线性预测定义的数学描述。 为了根据式( 2 9 ) 所表述的最小均方准则决定线性预测系数,对8 关于a p t 求导数,并令所得结果等于零,即: 喜:2 e g ( ,z ) 掣】:o o p i印| 由( 2 8 ) 式可得: _ o = _ e ( 一n ) :z ( 刀一,) o a p l 把上式带入( 2 1 0 ) 可得: e f e ( n ) x ( n f 1 1 = 0 l = l , 2 , - - , p( 2 1 0 ) z = l ,z - ,p( 2 11 ) l = l , 2 , - - , p ( 2 1 2 ) 这是线性预测中的一个重要结果,称为正交方程。它表明,预测误差与信 号过去的p 个取样值是正交的。 2 格形法 格形法是求线性预测系数的一种比较简便的方法,绕过了自相关法的自相 关系数的计算【1 0 1 ,而直接由语音信号求线性预测系数c l p i 。它与处理信号流的 方式更相似,即一个接一个地对样本进行处理。首先,对一个样本“= 7 ) 进行预 测,然后反复采用逐次最佳线性预测法,递归地预测出第卢个样本值。 图2 2 为格形法的结构图,这种方法的命名就是据此而来的。从左到右, 逐一地计算前向预测误差p ( 7 和后向预测误差,i = 1 ,2 ,p 。计算反射 西北工业大学硕士学位论义 系数缸来连接前向和后向分支,最右端的输出p ,) 为最终的预测误差。 ( 月)e ( p 一1 1 ( 珂) 一 图2 2 线性预测的格形法示意图 第i 个反射系数是第i 一1 个前向和后向预测误差的函数 2 妙1 ( 功( n - 0 仁豇丽n = 0 丽 眨 妙1 ( 纠2 + ( 疗一1 ) 2 恤。训 第i 阶的前向和后向预测误差用第i l 阶的结果计算: p ( ) = e o - o ( 以) 一幺6 卜1 ( ,l 一1 ) 6 。( ,? ) = b o - 1 ) ( 刀) 一置已卜1 ( ,2 1 ) 最后,计算中间值亏1 ,再通过巧。求出预测系数q ,方法如下 口j 。= k , a = 口? 。1 一k , a , 芝- j l - j 口。z 叶 ( 2 2 i ) ( 2 2 2 ) 其中,a 1 a 2 ,a 。是p 阶l p c 预测系数,将上式代入( 2 2 1 ) 式,由于x ( z ) 代 表声道响应,其极点均在z 平面的单位圆内,故可将上式代入式( 2 2 1 ) 后两 侧同时对z 。求导,得: 即得 方b 亿 k a k 。 盟了一= n c ( n ) z p-一 1 一吼- z 。” ( 2 2 4 ) 将上式等号左侧的分母移到右侧,并令两侧的z 。同幂项的系数相等,可得 如下的递推公式: 西i l i 业大学颅上学位论文 c ( d = a 1 月一l c ( ”) = ( 卜告) 唧c ( n - k ) + a 。 l p c 倒谱计算步骤: ( 1 ) 初始化,f ( 1 ) = a i 。 ( 2 ) 根据( 2 2 5 ) 式计算c ( n ) ( 2 p ) 。 ( 3 ) 如果i s p ,跳转到步骤( 2 ) 。 ( 1 p ) ( 2 2 5 ) 西北工业大学硕士学位论文 第三章隐马尔可夫模型( h m m ) 语音识别中用来进行模板训练和模式匹配的技术主要有动态时间规整技术 ( d t w ) 、隐马尔可夫模型( h m m ) 和人工神经元网络( a 1 、n ) 川一【3 】。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划( d p ) 技术 成功的解决了语音信号特征参数序列比较过程中时长不等的难题,在孤立词语 音识别中获得了良好的效果”“。但因其识别过程计算量比较大,不适合实时语 音识别系统。目前已被h m m 模型和a n n 替代。 h m m 理论是一种基于转移概率和传输概率的随机模型,是当前语音识别 系统的主流识别算法1 1 】。它是一个离散时域有限状态自动机,h m m 的内部状 态外界不可见,外界只能看到各个时刻的输出值。对于语音识别系统,输出值 通常就是从各个帧的声学特征参数计算而得到的。用h m m 刻画语音信号的声 学特征需作两个假设:一是内部状态的转移只与上一状态有关,二是输出值只 与当前状态( 或当前的状态转移) 有关,这两个假设大大降低了模型的复杂度。 a n n 在语音识别中的应用是现在研究的又一热点川1 6 l f ,1 11 。a n n 本质上是一个 自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、 对比、推理和概括能力m 。这些能力是h m m 不具备的,但a n n 又不具有h m m 的动 态时间归正性能1 1 1 。 本章介绍h m m 的基本理论及其算法。 3 1h m m 的基本理论 隐马尔可夫模型( t h eh i d d e nm a r k o vm o d e l ,h m m ) 是一种统计信号模型。 无论它的理论还是它在语音处理中的应用都不是新的。有关它的基本理论早在 2 0 世纪6 0 年代末7 0 年代初就已提出并加以研究;它在语音处理中的应用和实 现研究工作,在2 0 世纪7 0 年代就已开展了起来川1 。然而,对它的理论的广 泛、深入了解和发展是在上个世纪末【1 2 1 。 西北丁业大学硕匕学位沦文 1 h m m 的基本概念 h m m 是在m a r k o v 链基础上发展起来的。由于实际问题比m a r k o v 链模型 所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率 分布相联系,这样的模型就称为h m m 。它是个双重随机过程,其中之一是 m a r k o v 链,这是基本随机过程,它描述状态的转移。另一个随机过程描述状态 和观测值之间的统计对应关系。这样,站在观察者的角度。只能看到观察值, 不像m a r k o v 链模型中观察值和状态一一对应,因此不能直接看到状态,而是通 过一个随机过程去感知状态的存在及其特性。因而称之为“隐”m a r k o v 模型, 即h m m 。现在来看一个著名的说明h m m 概念的例子球和缸( b a l la n du r n ) 试验( 如图3 1 所示) 【l 】【1 。 设有n 个缸,每个缸中装有很多彩色的球,球的颜色由一组概率分布描述。 试验过程:根据某个初始概率分布,在n 个缸中随机的选取一个缸,从中随机 缸1 p ( 红) = b l ( 1 l p 雀) = b 1 1 2 ) p ( 绿l = b t ( 3 ) p ( 黄) = b 1 ( 4 ) 缸2 p e 红) = b 2 ( 1 ) p r l 对= b 2 ( 2 ) p 绿) = b 2 ( 3 ) p l 黄) = b 2 ( 4 ) 缸n p i g ) = b t u r m p ( 蓝) = b u ( 2 ) p 佯动= b r 口俘 p 黄) = b n ( 4 ) p 髂) 2b l l p 滞) = 0 2 ( n ) p i 锄= b n ( n ) 0 = 绿,绿,蓝红,红,黄,黄 图3 1 球和缸的试验示意图 取出一个球,记录球的颜色o l ,并把球放回原来的缸中。然后按照某个转移概 率分布( 与当前缸相联系) 选择一个新缸,从中随机取出一个球,记录球的颜色 0 2 ,并把球放回原来的缸中。如此重复下去就得到一个描述球的颜色的序列 0 i ,0 2 ,0 3 ,0 4 ,o n 。 西北工业大学硕士学位论文 2h m m 的基本参数 一个h m m 由一,数描述: 1 ) n 一模型q 6 m a r k o v 链状态的数目。记n 个状态为丑,一,s 。,记,时刻 m a r k o v 链所处的状态为q ,显然q ,e ( s i , e * s 。) 。在球与缸的试验中缸就相当于 状态。一般来说,状态之间是相互联系的。 2 ) m 一每个状态可能输出的观察值的数目。记m 个观察值为 v ,v :,e t 时刻观察到的观察值为o t ,其中0 t ( h - k ) ;在缸与球的试 验中球的颜色,就是观察值。 3 ) 万一初始状态概率矢量。石= ( 而,一,“) ,其中 万;= p ( q l = s ) l 曼i n ( 3 1 ) 在球与缸的试验中指的是开始时选取某个缸的概率。 4 ) a 一状态转移概率矩阵。a = ( 口“) 。,其中 = p ( q l + l = 5 ,l q ,= s ,) 1 - i ,j s ( 3 2 ) 在球与缸的试验中指每次在当前选取的缸的条件下选取下一个缸的概率。 5 ) 口一观察值概率矩阵,b = ( b 雎) x f ,其中 = p ( d ,= i q ,= s j ) 1 s ,n ,1 - k m( 3 3 ) 在球与缸的试验中指的是在第,个缸中取得颜色为k 的球的概率。 6 ) t 一观测值序列的长度。h m m 产生的观察值序列表示为 o = d ,0 2 , - - , o ,) ,其r 长度以时钟周期为单位。 一个h m m 可以记为: 五= ( n ,m ,r ,a ,b )( 3 4 ) 或简写为: 五= ( 万,a ,b )( 3 5 ) 更形象地说,h m m 可分为两部分,一个是m a r k o v 链,由参数7 ,a 描述,产 西北工业大学硕士学位论文 生的输出为状态序列,另一个是一个随机过程,由b 描述,产生的输出为观察值 序列,如图4 2 所示。t 为观察值时间长度。 :! 篓二皆随警鼯 l! ! :生!l 状态序列 l 助 i 观察值序列。 图3 2h m m 组成示意图 3h m m 的三个基本问题 要将h m m 应用于实际,必须解决以下三个基本关键问题1 1 【”】: 1 ) 已知观察值序列o = o i ,0 2 ,o r ) 和模型五= ( a ,b ,万) ,如何有效地计 算在给定模型z 条件下产生观测序列d 的( 条件) 概率p ( oj 五) ? 2 ) 已知观察值序列o = o i ,0 2 ,o r ) 和模型z = ( a ,b ,石) ,如何选择相应 的在某种意义上最佳的( 能最好地解释观察值序列的) 状态序列? 3 ) 如何调整模型参数( a ,b ,7 t ) 以使条件概率p ( oi 最大? 第1 个问题是评估问题,即己知模型和一个观察序列,如何计算由该模型产 生出该序列的概率:第2 个问题是找出模型中隐藏的部分,即找出“正确的”状 态序列:第3 问题是使模型参数最优化,即调整参数,使模型能更好地描述给定 的观察值序列。 对于语音识别系统来说,第一个任务就是要建立模板库,这是用求解第3 个 问题来完成的,即用训练序列调整模型参数,使之最佳,得到每个词的模型。 为了进一步调整词的模型,需要求解问题2 ,即把词的训练序列分成段,每一段 对应一个状态,然后研究每个状态中产生观察值的谱矢量的性质。这样作的目 的是对模型进行细调( 改变状态数) ,在第四章详细讨论了本文介绍的语音识别 系统关于状态数的选择。一旦模板库形成后,便可利用这些模型进行语音识别, 这个任务是由求解问题l 来完成的。 西北工业大学硕士学位论文 4 h m m 的拓扑结构类型 1 ) 遍历型( 连接型) h m m ,模型的每个状态可以由其他状态到达,它的每个 状态转移系数都是正的,图3 3 j 5 k :示的是一个n = 5 状态的遍历型h m m 的例子i l i l l l , 图3 35 状态遍历性t t m m 其状态转移矩阵表示为: 爿= q 1a 1 2a 1 3 吒la 2 2 a 3 la 3 2a 3 3 a 4 iq 2 以3 a s l吼2 龟3 q 4q 5 a 2 4 如5 口3 4a 3 5 q 4a 4 5 a 5 4c 1 5 5 ( 3 6 ) 2 ) 左一右h m m ,其状态转移只能从左到右而不能反过来,这个模型很适合 于那些性质随着时间变化的信号。它具有如下的特性】: a 状态只能从低下标向高下标转移( 即由左至右转移) ,因而状态转移 概率: 口。= 0j i + a ( 3 9 ) d 最后停留在唯一的终止状态( 第n 个状态) ,再也不能从终止状态转移出 西北 二业大学硕士学位论文 c i n n = 1 a n t = 0 ( 3 1 0 ) 图3 4 示出了一个5 阶的左一右h m m 的例子,它的转移矩阵 a = q lq 2 0 q 2 oo oo 0o d 1 3 2 1 4 7 1 5 ( 1 2 3d 2 4 口2 5 q a 3 4a 3 s 0 a 4 4 吼5 00 q 5 a &a ti b 2 b 3 ( )k , 图3 45 状态左一右h 砌 左一右h m m 很适合语音信号随时间变化的特性,一般规定= 2 。 3 2h m m 的算法 ) ( 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 球阀制造工艺培训教案
- 2025福建三明市人才培训中心招聘专业技术人员1人考试笔试备考题库及答案解析
- 园林工程绿植养护实施方案
- 影视行业编剧聘用合同示范文本
- 2025年通化县公益性岗位招聘(92人)笔试考试参考试题及答案解析
- 2026湖北黄冈中学(含黄冈中学实验学校)专项招聘教师16人笔试考试参考题库及答案解析
- 2025考古文博学院招聘劳动合同制工作人员1人考试笔试备考题库及答案解析
- 2025年甘肃省酒泉市瓜州县沙河回族乡卫生院招聘检验人员考试笔试备考题库及答案解析
- 2025辽宁锦州建设(集团)有限公司招聘5人考试笔试备考题库及答案解析
- 车间班组长管理能力提升培训资料
- 2026年广东省第一次普通高中学业水平合格性考试数学仿真模拟卷01(全解全析)
- 第三单元单元学习任务《文学短评》课件2025-2026学年统编版高中语文必修上册
- 核设施退役施工方案
- 成人手术后疼痛评估与护理TCNAS39─2023
- 注意缺陷多动障碍儿童社交技能培养方案
- 市政管道高压水射流清淤施工方案
- 江苏省苏州市阳光调研2025-2026学年高一上学期期中考试化学试题(含答案)
- 建筑施工安全生产管理方案
- 肝癌实施监测预防策略
- 餐饮主管的述职报告
- 对越自卫反击战课件
评论
0/150
提交评论