(物理电子学专业论文)用于控制的汉语小词表语音识别算法的研究和应用.pdf_第1页
(物理电子学专业论文)用于控制的汉语小词表语音识别算法的研究和应用.pdf_第2页
(物理电子学专业论文)用于控制的汉语小词表语音识别算法的研究和应用.pdf_第3页
(物理电子学专业论文)用于控制的汉语小词表语音识别算法的研究和应用.pdf_第4页
(物理电子学专业论文)用于控制的汉语小词表语音识别算法的研究和应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(物理电子学专业论文)用于控制的汉语小词表语音识别算法的研究和应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理i :人学硕十研究生学位论文 用于控制的汉语小词表语音识别算法的研究和应用 摘要 当前,语音识别技术在飞速的发展,识别程度也在不断的 提高。语音识别的稳健性,识别系统的可移植性,识别系统对 环境、说话人、麦克风的自适应性成为衡量一个系统好坏的重 要指标,一个完整的语音识别系统要经历以下过程,预处理,语 音特征提取,语音模型建立,语音训练识别,然后回放播出或用 语音进行控制。、 本文介绍了语音信号处理的基本理论,回顾了国内外语音 识别发展历史。详细阐述了动态时间归整算法和马尔可夫模型 的基本理论,并研究了它们应用到特定人汉语小词汇表识别中 的方法。 采用动态时间归整模型形成的经典语音识别算法常用在特 定人小词汇量语音识别系统中,本文提出了具有鲁棒性的两级 端点检测语音识别技术,在语音信号采集时,对数据进行提取并 压缩后形成模板,根据过零率,短时能量和匹配标号分类。采用 t 太原理i :人学硕十研究生学位论文 了多模板匹配算法识别。还研究了特定人汉语小词汇表语音识 别的隐马尔可夫模型的基本原理,给出了隐马尔可夫算法应用 到孤立词语音识别中的一系列概率统计公式,训练参数最小估 计,同时还给出用于语音训练的b a u m w e l c h 和v i t e r b i 算法。 依据h m m 的运行过程中出现的问题,提出解决的方法。在提出 的新的模型中,为了取的有效的解决办法和取得最佳关键路径, 我们对前向和后向算法进行了优化。经过校正,对特定人汉语 小词汇表语音识别算法进行实验,结果显示改进后的语音识别 方法同传统的语音识别方法相比识别性能更好。 相对于h m m 算法,d w t 算法对特定人识别要更好。更适 合应用到消费类市场产品中,实验用1 8 个字的汉语小词汇量系 统进行了测试,识别成功率大于9 0 。 采用5 1 内核单片机,用较少的存储空间和计算空间实现语 音数据处理,不需要额外的器件。 关键词d w t ,m 办压,语音识别算法,单片机 太原理i :人学硕十研究生学位论文 t h er e s e a r c ha n da p p l i c a t l 0 n s o fc h i n e s es m a l lv o c a b u l a r i e s r e c o g n i t i o nf o rc o n t r o l l i n g a b s t r a c t c u r r e n t l ys p e e c hr e c o g n i t i o nt e c h n i q u e si sd e v e l o p e dr a p i d l y , t h ed e g r e eo fr e c o g n i t i o ni sc o n t i n u o u s l yi m p r o v e d t h er o b u s to f s p e e c hr e c o g n i t i o n ,t h ef l e x i b i l i t yp l a n ta n dt h es y s t e ma d a p t a t i o n o fe n v i r o n m e n t ,s p e a k e r , m i c r o p h o n e ,b e c o m ei m p o r t a n tp a r a m e t e r s t om e a s u r ef ls y s t e mg o o do rn o t c o m p l e t es p e e c hr e c o g n i t i o nm u s t d of o l l o w i n g p r o c e s s e s t h e ya r ep r e p r o c e s s i n g ,c h a r a c t e r i s t i c s e l e c t i n g ,m o d e lb u i l d i n g ,s p e e c ht r a i n i n g ,m a t c h i n g ,r e p l a y i n ga n d c o n t r o l l i n g t h i sp a p e ri n t r o d u c e sb a s i ct h e o r i e so f v o i c es i g n a lp r o c e s s i n g 太原理i :人学硕十研究生学位论文 a n de x p o u n d st h ed e v e l o p m e n th i s t o r yo fs p e e c hr e c o g n i t i o n t h e t h e o r i e so f d y n a m i ct i m ew a r p i n ga n dh i d d e nm a r k o vm o d e l sa r e r e v i e w e da n ds t u d i e dt h e w a yt h e y a r eu s e di n r e c o g n i z i n g d e p e n d e n tc h i n e s es m a l lv o c a b u l a r i e ss p e e c h t h ed t w ( d y n a m i ct i m ew a r p i n g ) m o d e l ,w h i c hi st y p i c a l l y a l g o r i t h m ,i so f t e nu s e di nd e p e n d e n ts m a l lv o c a b u l a r i e ss p e e c h r e c o g n i t i o ns y s t e m s i n t h i s p a p e r , t w o i n n o v a t i v e e n d p o i n t p r o c e s s i n g t e c h n i q u e s f o rn o i s er o b u s t s p e e c hr e c o g n i t i o n a r e p r e s e n t e da n dt e m p l a t e sa r em a d ea f t e rp e r f o r m i n gd a t as e l e c t i o n s a n dc o m p r e s s i o n s t h ei n p u tp a r e mo b t a i n e dd u r i n gr u nt i m ei s c l a s s i f i e da c c o r d i n gt ot h ez e r oc r o s s i n gr a t e t h es h o r t t i m ee n e r g y a n dt h en u m b e ro fm a t c h i n ge l e m e n t s m a n yl e v e l e n d p o i n t d e t e c t i o n sa r e a d o p t e di nt h es y s t e m t h ep a p e rd e s c r i b e st h eg e n e r a lp r i n c i p l eo fh i d d e nm a r k o v m o d e lf o rs m a l lv o c a b u l a r i e ss p e e c hr e c o g n i t i o n ,a n da l s og i v e sa s e r i e so ff o r m u l a se s t i m a t i n gp a r a m e t e r si nt h et r a i n i n go fn i a r k o v m o d e lf o ri s o l a t e dw o r d ,b a s e du p o nt h ed i s c u s s i o no fb a u m w e l c h i v 太原理i :人学硕十研究生学位论文 a l g o r i t h ma n dv i t e r b ia l g o r i t h m i na c c o r d a n c ew i t ht h ep r o b l e m si n t h ei m p l e m e n t a t i o no fh m m ,t h em e t h o d so fs o l u t i o na r ep r o p o s e d w ee x t e n dt h ed e r i v a t i o no ft h ef o r w a r d ,b a c k w a r da n dv i t e r b i a l g o r i t h m sf o rh m m ,i no r d e rt oo b t a i ne f f i c i e n ts o l u t i o n sf o rt h e p r o b l e m so fr e c o g n i t i o na n do p t i m a l p a t ha l i g n m e n ti nt h en e w p r o p o s e dm o d e l t h e r e s u l to fad e p e n d e n t s p e e c hr e c o g n i t i o n e x p e r i m e n t s h o w st h a tt h e p r o p o s e d m e t h o da c h i e v e s h i g h e r r e c o g n i t i o np e r f o r m a n c ei nc o m p a r i s o nt oc o n v e n t i o n a lm e t h o d s c o m p a r e d w i t har e a l t i m eh v i m - - b a s e di s o l a t e dw o r d r e c o g n i t i o ns y s t e m ,d t wi sw e l li m p l e m e n t e dt od e p e n d e n ts p e e c h r e c o g n i t i o n ,f i r e d t o a p p l yt h e m a r k e t p r o d u c t i o n as y s t e m e v a l u a t i o nu s i n gav o c a b u l a r yo f2 0w o r d ss h o w sas u c c e s sr a t eo f m o r et h a n9 0 t h er e c o g n i t i o ns y s t e m ,b a s e do na51 s i n g l ec h i pt oo p e r a t ei n r e a l - t i m ea sw e l la sw i t ht h el o w e s tp o s s i b l ec o m p u t a t i o n a la n d m e m o r yc o s t s ,d o e sn o tr e q u i r ee x t e r n a lc o m p o n e n t s t e s t ss h o w t h a tt h ea l g o r i t h mh a dm u c hb e r e rp e r f o r m a n c et h a nt h eg e n e r a l l y v 太原理i :人学硕十研究生学位论文 a d o p t e da l g o r i t h m k e yw o r d s :h m m ,d w t , a l g o r i t h m ,s i n g l ec h i p v i 太原理i :人学硕十研究生学位论文 1 1 引言 第一章绪论 语音的出现是人类发展的一个非常重要的标志,人与人通过语言交 流,可以交换信息,交流感情。它对社会发展,科技进步起到了极其重要 的作用。多少年来,人们一直在梦想着一种全新的通过语言进行人与物, 人与机的信息交流。随着科学技术特别是电子技术的发展,这种愿望 有了实现的可能。从上个世纪以来,许许多多的科研院所,大专院校投入 大量精力,致力于这方面的研究,在某些方面取得了一定的进展,作为模 式识别的一个分支语音识别,正阻它巨大的生命力向前发展着。特别 是做为控制器的语音识别的产品更是有无限的前景,语音识别产品一般由 四个部分组成。第一部分为模数转换部分,其输入端接收输入的语音信号, 并将其转化成数字芯片可处理的数字采集信号,在输出端将解码后的语音 数字信号转换为音频模拟信号,通过扬声器放声。第二部分为语音识别部 分,它的作用是对输入的数字语音词条信号进行分析,识别出词条信号所 代表的命令,一般由d s p 完成。第三部分语音提示和语音回放部分,它一 般也是在d s p 中完成的,其核心是对语音信号进行数字压缩编码和解码, 目的是提示用户操作并对识别语音的响应,完成人机的语音交互。第四部 分是系统控制部分,它将语音识别结果转换成相应的控制信号,并将其输 出转换成物理层操作,完成具体功能,语音识别与系统控制的有机结合来 完成声控交互的功能。 太原理i :人学硕十研究生学位论文 1 2 语音识别发展历史 1 2 1 国外语音识别发展的历史 语音识别是机器通过识别和理解过程把语音信号转变为相应的文本 文件或命令的高技术。语音识别研究得发生、发展和演变进展的过程,及 不同时期的研究重点,重大成就以至学术思潮。从年代上划分,大体上可 分为三个阶段。”1 第一阶段,1 9 7 6 年以前,在语音识别研究的初期,采取了两条基本策 略。一条是分解难点,对机器构成的识别系统进行研究,另一条策略就是 返回头研究人类听辨自然语的机理和语音学的有关知识。p j 语音识别技术 采用“模板匹配”方式,由“训练”和“识别”两步组成。在“训练”时,由话者 按字表规定的字说一遍,计算机提取有关参数存于机内作为“样本”,在“识 别”时,计算机对待识别的字提取同样的参数并与事先存储的样本一一比 较,取其距离最小者做为识别结果输出。这一阶段,解决了大量的基本技 术,诸如:端点检测,幅度规整和时间规整,参数提取以及匹配比较,识 别判决等,其中属突破性技术成就,对后期研究又有较大影响者,有以下 三项: l 、动态时间弯折这是在匹配过程中使参考样本与测试样本中的相应 部分在时间上对齐的技术,借助于动态规划和选择恰当的规整函数,可以 使参考样本和测试样本得到最好的匹配,可使识别率有大幅度得提高。 2 、线性预测技术,其基本概念是一个语音抽样与线性预测抽样间的 “平方和”最小,即可唯一地确定组预测参数。 3 、隐马尔可夫模型,在模式匹配法中,“参考样本”是由事先存储起来 2 太原理i :人学硕十研究生学位论文 的“模式”本身充任的,而h m m 则是把这一参考样本”用一个数字模型来 表示,实质上是一种概率运算。待识的语音与这一数学模型相比较。主要 是在孤立字、特定人和小字表的限制条件下进行的语音识别。 第二阶段,1 9 7 1 年到1 9 8 7 年连续语音识别系统开始研制,使用自 然语言与机器进行交互式问答数据检索管理系统,语音控制系统等相继 开发。系统的共同特点一是一反过去那种”孤特小“的限制,几乎无例外地 设计成连续语音识别系统,甚至考虑到扩展为语言理解系统的可能。在由 孤立字识别转为”连续“语音识别时,过去积累起来的经验大部分用不上。 其主要的困难在于连续发音时的协同发音的影响和根据上下文而产生的 发音变化,使句中的各个单字难以切分,因而采用“分析和描述”技术,而 不象孤立字识别是一种“分类技术”。即在识别过程中,先识别出某种基元, 若干基元含并为较大的单元,以此类推逐级合并,最后得到句子识别的结 果。“1 研究项目因价格昂贵,设备庞大复杂,成效甚微。而未再进行下去。 从技术成就方面看,在此阶段有两点需要提及和补充: l 、提出“知识源”的概念,人在听辨自然语过程中使用其先验知识。当 听到一句话的前面部分内容后,就会形成一个“下面将是什么”的估计或猜 想,把这一机理推广应用于机器识别,就会得出结论,欲使枧器能像人一 样昕辨语言,必先把若干“知识源”赋予机器,机器利用这些知识源建立起 一个“下面将是什么”的假设,然后再检验这一假设是否为真,即可得到识 别结果。 2 、v q ( 矢量量化) 技术早在五十年代的声码器研究中就已提出,直至 七十年代末才有人引入语音识别中。矢量量化技术就是把语音信号由原来 的一组参数表示,转化为一组编号,在存储器中存储,恢复时只需按此编 3 太原理i :人学硕十研究生学位论文 j 从码术中找出相应的码字参数,直接复原或进行反变换即j 碍到时域信 l l 溉竹约内存,又可远距离传输且不会损失过多信息最= 讹i 阶段,1 9 8 5 以后,最近血六年来,非特定人夫7 ,袭迎接语啬以别 r 刖t 孵要研究目标是识别由1 0 ,0 0 0 个单字构成的符种1 、定人连续语 旨戈时或接近人类正常对话速度,还包括若干个辅助课题王要有:收 集涪爵数据供研究、评价系统时使用,专用硬件的丌发标准语音数掘库 的建、2 管理以及系统评价标准、手段、方法等。jn :王甲论方札浯音识别的 技术研究又出现了一些新动向。 1 、神经元网络模型( a n n ) 的出现,五十年代未,f r o s e n :o a t t 提出 了种感知器模型,由一个输入层,一个输出层和若干个隐含层组成。每 一层义包含若干细胞,某层中的每个细胞都由权值连杆接到下层的每一 细胞。神经网络是以分布存贮和并行协同处理方式执行指令。 2 、应用小波技术对信号进行准确的分析、诊断、编码,压缩和量化、 快速传递或存储,精确重构。现在,对性质随时涮稳定不变的信号,处理 的理想工具仍然是傅里叶分析,但在实际应用中,绝大多数信号是非稳定 的,小波分析j 下是适用于非稳定信号而产生的处理工具。 1 22 汉语的特点及语音识别的发展 汉语的单字发音与英语的单词情况不同。汉语语音只有4 0 0 个左右音 节,加上声调,最多只有1 2 0 0 多个不同的发音。在近几年国内的大词汇 量连续汉语语音识别中,采用声母、韵母以及变声来作为识别肇元。” 我国语音识别研究的起步要比先进国家晚一点,但是进步很快,成果 突出。无限词汇的汉语听写机研制首先由清华大学、中国科学院声学所于 4 太原理i :人学硕十研究生学位论文 1 9 8 8 年取得突破,紧接着西安电子科技大学也研制成功。四达公司等单位 于9 0 年代初推向实际应用的信心。但是,这一时期的汉语语音识别产品 系统基本上都是基于特定人孤立音节识别技术的。由于汉语音节种类较 少,结构很规则,便于以音节识别为基础实现无限词汇识别,因而很快获 得了可与国际先进水平相比拟的成果。但是,孤立音节识别系统只能个 字一个字地读入,断断续续的,识别率低,这样语音识别产品不能为广大 用户乐意接受。在国家“8 6 3 ”计划支持下,近几年来清华大学和中国科学院 自动化所等单位研制的听写机原理样机,不仅包含有一个很大的多音节词 表,而且能用于非特定人连续语句读入,用起来就方便得多了。目前正在 考虑改进性能、开发产品。近几年来,汉语语音识别受到了前所未有的重 视,国外有多个公司投资巨款,猛攻汉语语音识别产品研制,国家“8 6 3 ” 计划最近几年也加大了这一研究的投资强度,并组织了定期的测试评比活 动。显然,当前仍是语音识别研究的黄金时期,做出真正好用的语音识别 产品为期不远。“” 1 3 本论文所做的工作 l 、分析和比较先行的特定人语音识别算法,根据识别性能,提出用于 控制的小词汇量语音识别的优化算法,减少了算法运算空间。 2 、从提高识别率入手,提高端点检测能力,分析语音识别的几个过程, 并采用多级端点检测来识别 3 、训练与识别时,采用多模板算法 4 、用d w t 算法和h m m 算法对特定人语音识别的各种指标进行测试, 对比研究 5 太原理i :人学硕十研究生学位论文 5 、测试不同的l p c c 阶数v i i i - 音江 卅什能和彳;同的l p c c 午d h m m 参数f 语音识别性能进最优方案 6 、没计相关电路,采用单片机进彳,系统删试 本文的总体结构 第章:绪沦 上 l 第二章:语音信号处理基本理论、算法以及在语音识别中的作川i 第三章:对d t w 算法在语音第四章:h m m 摔法在语音识 识别中作用的研究别中的作剐的研究 l 多上上 第五章:_ 【 j 于控制的语音识别系统的设计和l 开发 土 第六章:结论和展望 图卜l 论文的内容 f i g1 1 t h ec o n t e n to ft h e p a p e r 6 太原理i :人学硕十研究生学位论文 2 1 概述 第二章语音信号识别的原理 通过对人类发声的物理过程进行研究,建立起声管模型及其数学表达 方式,这种从发音的生理机构与过程来着手建立的语音信号的处理的理论 和实践发展己相当成熟,但还没有研究出一个象人一样的昕力系统。现在 正进行的另一类研究是侧重于听觉生理器官与听觉心理对语音的感知理 解的声学理论,但还没有大的进展。成熟的理论对语音进行编码,压缩, 传输,识别,合成,播放。 2 2 语音信号的重要参数 语音首先要用话筒或其它设备将语音转化成电信号,再通过a d 转换 器使之成为离散的数字信号,存储到存储器中,在需要时再从存储器中提 取进行处理。 人的语音基本上由两类组成。一类是清音,在发音时声带不振动,类 似于宽带噪声源的输出气流高速冲过某处收缩的声道而产生湍流得到的 音;另一类是浊音,是当气流通过声门时使声带发生振动而产生的准周期 脉冲激励声道得到的音,有较强的周期性。由于人在说话中,清音与浊音 交替出现,并且每种音通常只延续很短的一段时间,因此,从波形上语音 信号表现出很强的“时变特性”。一般情况下,分析语音的稳态段时,信 号取5 m s 1 0 m s ,分析清音或过渡音时,信号取5 m s 左右。浊音取1 0 m s 。 7 太原理i :人学硕十研究生学位论文 因此语音信号具有一些重要的短时参数特征。 lli i 厂 r 图2 - 1 汉语“关闭”一词的语音数字信号蹬 f i g 2 - lc h i n e s e “ u r no f r v o i c ed i g i ts i g n a lp i c t u r e l 、窗函数:设s w ( n ) 是一段加窗后的语音信号,g - 语音y g n ns ( ”) , s 。( 月) 的非零区间为o n 1 。窗函数可采用方窗或哈明窗 方窗: w = : 畦裂 沼t , 哈明窗函数: 砸) :p 4 6 c o s ( 是) 。娜( 2 - 2 ) 1 0 。 把语音分成一帧帧相对平稳的时域段,以便研究。有时用方窗,有时用 太原理i :人学硕十研究生学位论文 哈明窗。此外,还有混合窗。 2 、短时频谱 短时频谱是语音信号的一个短时特征,可以用下列公式计算: = 奈e x p ) 一j 簪 ) ( 2 3 )s 。( i ) = ( ”)一等础)( 2 3 ) 月= 0 “一l 1 胛 也就是说s 。( 七) = s 。( h ) e x p ( 一,等础) 短时功率谱。如下图表示的是一段 n - o j 浊音与一段清音的波形及其短时功率谱。 6 】 赫!i i - i , 黼蠡 罩 攀妒 。lt t : 图2 - 3 短时谱估计图 f i g 2 3s h o r t - t i m es p e c t r u me s t i m a t i o n _ _ 壶 底a赉翦一辫。盛盎 蚶 疆、 女; ;i妊辨q 蛙 v 图2 - 4 信号的自相关函数 f i g 2 - 4a u t o c o r r e l a t i o nf u n c t i o n 9 太原理i :人学硕十研究生学位论文 3 、短时自斗| 关函数 s 。,( n ) f h j 白耕l 天函数尺甜( t ) 称为s ( n ) 短时自相关函数,可以用p 式汁钳 zn 一卜】 r 。( ,) = j ,i n ) s 。( + ,) = 5 。( ”) s 小+ f ) 一t n = o 5 例的短时能量计算公式如下 、一1 = s ,j ( n ) ( ! 一4 ) ( 2 - 5 ) 5 、短时平均幅度 一1 s 俐的短时平均幅度计算公式如下:m 。= s 。( ”) 1 短时能量和短时 平均幅度都是表示一段语音信号能量大小的参数。 6 、短时过零率 s ( n ) 的短时过零率表示一段语音信号中语音信号波形与横轴相交的次 数。可以用下式计算: 1n 一1 z 。= 去 is g n s 。卜s g n s 。( n - 1 ) i ( 2 6 ) l n 一0 ( 2 - 7 ) 通常情况下,由于清音段信号随机性较强颓频穿过零点,所以短时 过零率较高。而在浊音段,信号短时过零率要低一些。由于清音和浊音的 1 0 太原理i :人学硕十研究生学位论文 过零率明显不同,因此,可以用过零率柬作为识别清音和浊音的特征。除 此之外,短时能量、短时平均幅度和自相关函数中也都包含有清音和浊音 的判别信息。 7 、倒谱 倒谱是一段语音信号的一组重要参数,先计算s 。( ) 的离散傅立叶变 换,然后对离散傅立叶变换的模取对数,最后再做傅立叶反变换,这样得 到的c ( n ) 被称做是“倒频谱”或“倒谱”。 m ) = m ( 删= 薹砌) e x p ( 一j 等础) = 薹砌) e x p ( _ 吾啪( 2 8 ) c j = 胁 | 柳动| 】( 2 - 9 ) 如州删= 专薹c e 文,和) p 图2 - 5 语音信号y ( n ) 倒谱图图2 - 6 语音信号y ( n ) f i g 2 - 5s p e e c hs i g n a l “n ) c e p s t r u m f i g 2 6s p e e c hs i g n a l 8 、线性预测编码参数 考虑语音信号序列s ( n ) ,假设某时刻n 之前的p 个语音信号值 1 1 太原理i :人学硕十研究生学位论文 s ( n 1 ) ,s ( n 一2 ) s ( n p ) ,已知,但时刻n 的语音信号值s ( n ) 未知虹采用自口p 个已知信号值的某种线性组合预测s ( n ) 的值。则预测值可以表示为 p s 0 0 = 一g ,s ( n - i ) 1 ) j = 1 其中“,都是实数,称作预测系数。预测值与真值之例的预测误差可以用下 式计算 , = 5 例一j ( 月) 。s ( n ) + 搿s ( n f ) ( 2 1 2 ) f = 1 9 、共振峰识别: 人的声道管的谐振频率称为共振峰频率,简称为共振峰。它与发音器 官的确切位置有很大的关系,即共振峰和声道的形状与大小有关。各韵母 音色上的差异可用前三个共振峰( f l 、丘、f 3 ) 来表示。f l 主要分布在 2 9 0 1 0 0 0 h z 范围内,f 2 分布在5 0 0 2 5 0 0 h z 范围内,而f 3 分布在2 5 4 k h z 范围内。d i 5 】【7 l 2 3 语音识别的原理 语音识别是要通过对说话人语音信号的分析和提取,自动确定说话人 是否在所登记的说话人的集合中,以及说话的人是谁的过程。它包括: l 、预处理 预处理包括反混叠滤波、模数变换、自动增益控制、去除声门激励 及口唇辐射的影响,正确选择识别基元。 2 、特征提取 特征提取是指从语音信号波形获得一组能够描述语音信号特征的参 】2 太原理i :人学硕十研究生学位论文 数的过程。 3 、距离测度 用于测试待测语音序列与语音模板序列相差的距离,如欧氏距离及其 变形的距离、似然比测度,加权了超音段信息的识别测试,此外,还有隐 马尔可夫模型之间的距离测度,主观感知的距离测度等。 4 、参考模式库 即声学参数模板,它是用训练与聚类的方法,从单讲话或多讲话者的 多次重复的语音参数,经过长时间的训练而聚类得到的。 5 、训练与识别方法 语音训练和识别的方法很多,如d w t 、v o 、f s v q 带学习功能的矢量量 化,h m m 、t d n n 、也可以混合使用上述算法。测度估计是语音识别的核心。 6 、专家知识库 用来存储各种语言学知识。知识库中要的词汇、语法、句法、语义和 常用词语搭配等知识,如汉语声调变调规则、音长分布规则、构词规则、 语法规则、语义规则等。 7 、判决 对于输入信号计算而得的测度,根据若干准则及专家知识,判决选出 可能的结果中最好的那个,由识别系统输出。这一过程就是判决。 语音识别与语言学及人工智能有很大关系。有一种观点认为,语音识 别的重大进展可能并不来自对信号的分析和计算机运算方面的进一步研 究;而是来自对语言感知、语言产生、语音学、语言学和心理学的研究。 要使语音识别系统能够接近人的能力,必须了解全部言语过程。“”“ 1 3 太原理i :人学硕十研究生学位论文 第三章动态时间规整算法 3 1 动态时间规整技术 动念时间规正即d t w 技术是把时阳j 舰正和距离测试计算结合起来的 一种非线性规正技术。设在学习过程中得到某字音的特征向量序列c ,在 辩识过程中得到某待识别字音特征向量序列d 定义c 和d 问的贴近度为 t ( c ,d ) 1 、设时间规正函数为y = “) ,其中m 表示输入模扳特征矢量序列 的矢量序号坍 1 , 2 ,m ) ,n 表示参考模板特征矢量序列的矢量序号, 月 1 , 2 ,n ) 时间规正函数把输入模板的时间轴m 非线性地映射到参考 模板的时间轴1 1 上。 2 、定义t ( m ,w ( 肌) ) 是第m 帧输入矢量和第n 帧参考矢量的贴近度, 1 m s m ,l ”n 。可取,( m ,月) = r 卅。,或f ( 搬,n ) = t w 。2 等,其中。是第 m 帧输入矢量和第r l 帧参考矢量间的欧氏距离。k 是一惩罚系数,t ( m ,n ) 表示了第m 帧输入矢量和第n 帧参考矢量间的贴近程度,t ( m ,疗) 越小表 明第l b 帧输入矢量越接近第n 帧参考矢量 3 、约定一“匹配规则”,约定:若吒 c n 匹配,则叱+ 。只能与c 。或 e 两者之一匹配,这里厶+ ,只能与e 匹配是指,( m + 1 ,国的值是有限的,而 1 4 太原理i :人学硕十研究生学位论文 t ( m + 1 ,k ) 的值为0 0 ( k n , 1 兰k n ) 4 、在“匹配规则”约束下,两模板的所有可能的匹配方式中,累计贴 近度最小值就是t ( c ,d ) ,该最小值所对应的规正函数出( m ) m = 1 , 2 , - - - , m , 为最佳匹配,即r ( c , d ) 2 誉“萎( m ,w ( ) ) m 令最佳匹配时7 ( c ,d ) ;,其中r ,表示第f 帧输入矢量和参考矢量累计 f - l 最佳匹配帧的贴近度,设在学习过程中已得多个字音的参考模板 c ,c2 ,c “,每一个参考模板c 为口的最佳匹配,即若 r ( c ,d ) = 。m ;i n 。t ( c 。,d ) ,则认为d 是字音c 2 ( 1 k h ) a “ 模 扳 时 间 序 列 -悃m m 罪 线性时问规整 1 。? 二 。 ,;幺、 ,¥ 动态时间规整寻优空问 7 纱7 输入时问序列 图3 - 1 动态时间规整法 f i g 3 1 d w tm a t c h i n gf o ri s l o t e dw o r d 1 5 太原理i :人学硕十研究生学位论文 3 2 动态时间规整算法的应用 3 2 1 洲t 中的线性预测系数 线性预测( l i n e a r p r e d i c t i o n ) 这一术语是维纳1 9 4 7 年首次提出的。此 后,线性预测应用于许多领域中。线性预测分析的基本原理是将被分析的 信号用一个模型来表示,即将信号看作是某一个模型的输出。这样,就可 以用模型参数来描述信号。 线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若干 个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间 差值的平方和达到最小值,即进行最小均方误差的逼近,能够决定唯一的 一组预测系数。这里的预测系数就是线性组合中所用的加权系数。在估计 基本的语音参数,( 如共振峰、谱、声道面积函数) ,以及用低速率传输或 储存语音等方面,线性预测是一种主要的技术。它能够极为精确地估计语 音参数,用很少的参数有效而又f 确地表现语音波形及其频谱的性质,而 且计算效率高,在应用上灵活方便。 将线性预测分析方法应用于语音信号处理,不仅利用了其预测功能, 而且提供了一个非常好的声道模型。这样的声道模型对理论研究和实际应 用都是相当有用的。因此,线性预测的基本原理和语音信号数字模型密切 相关。声道模型的优良性能意味着线性预测不仅是语音编码中特别合适的 编码方法,而且预测系数也是语音识别的非常重要的信息来源。l p c 技术 用于语音编码时,利用模型参数可以有效地降低传输码率,应用于语音识剐 时,将l p c 参数形成模板存储,可提高识别率和减少计算时间。此外,利 1 6 太原理i :人学硕十研究生学位论文 用l p c 技术可以进行语音合成。 在线性预测中提出多种参数形式,在频谱特性度量方面发展了多种与 人类听觉有密切联系的谱失真测度,对语音识别和语音编码研究的发展起 了重要作用。 3 22 语音识别中的d w t 算法 在6 0 年代中期,i t a k u r a 将动态规划算法用于解决语音识别中语速多 变的难题,提出了著名的动态时间规整算法( d t w ) ,用d t w 技术实现时间 规整算法,当词汇表较小,各个词条不易混淆时,d t w 为解决这一问题提 供了一条有效的途径。用d t w 技术实现时间规整是一种非常有力的措施, 是效果最好的一种非线性时间规整模式匹配算法。 按照模式匹配识别语音分两个阶段。在训练阶段,将词汇表中每个词 的特征向量提取出来,作为标准模式存入模式库中。在识别阶段,将输入 语音的特征向量依次与模式库中的各个标准模式进行比较,计算距离测 度,将距离测度最小的标准模式所对应的词汇输出。显然,如果只是机械 地将输入特征向量与标准特征向量的元素一一进行对比,说话人语速不一 致的问题将会给正确识别带来困难。 动态时闽规整是将时间规整和距离测度结合起来的一种非线性规整技 术。如设测试语音参数共有n 帧矢量,而参考模板共有m 帧矢量,且n m ,则动态时间规整就是寻找一个时间规整函数j - = w ( i ) ,它将测试矢量 的时间轴i 非线性地映射到模板的时间轴j 上,并使该函数w 满足 d = m i n d t ( o ,r ( w ( f ) ) 】 1 7 太原理i :人学硕十研究生学位论文 式中,d 【f ( n r o t ( f ) ) 】是第i 帧测试矢量r ( i ) 和第,帧模板矢量r ( j ) 之i l 】j 的 距离测度,d 则是处于最优时问规整情况下两矢量之间的匹配跆任。 在d t w 中,未知单词的时间轴要不均匀地扭曲或弯折,以便使镇特 征与模板特征对币。在规整过程中,输入的是两个时间函数,典型的有幅 度、共振峰或l p c 系数。如图3 2 所示,设a 、b 是要进行匹配的时问函 数,b 为模板,a 为被测试的语音,它们表示在两个坐标轴上,弯曲的对 角线表示它们之阳j 的映射关系。 jl 夕。 、:。一 , 孽 ,一一一 语音匹配情况 ;。 矿v n 7 a 为i 个样本的待识语音 臣3 - 2 语音识剐中的d w t 算法 f i g 3 2d w ta l g o r i t h mi ns p e e c hr e c o g n i t i o n 通常动态规划算法是从过程的最后阶段开始,即最优决策是逆序的决 策过程。进行时间规整时,对于每一个f 值都要考虑沿纵轴方向可以达到i 的当前值的所有可能的点,由路径限制可减少这些可能的点,而得到几种 可能的先前点,对于每一个新的可能点按式找出最佳先前点,得到此点的 1 8 太原理l i 人学硕十研究生学位论文 代价,随着过程的进行,路径要分又,并且分叉的可能性也不断增大,不 断重复这一过程,得到从( m ) 到( i , i ) 点的最佳路径。标准模板库中存放 每个词的特征向量,特征可以是共振峰频率,也可以是l p c 系数。标准模 板要在识别之前通过训练建立起来。在特定人的场合,一个词只需用户说 一遍即可。但多说几遍可以使一个词有多个标准模板,更好地适应语音的 变化以提高识别率。在非特定人的场合,主要依靠多模板的作用,即每个 词用多个用户的语音进行训练,每个用户的语音构成一个模板。但模板太 多会造成存储和搜索的困难,为此可以采用聚类的方法,将若干相似的模 板合并,用一个模板来代替。 这种方法是利用最小距离准则逐站进行最优动态规划,即将待识别音 与某模板间差别的问题视为对该模板而言的一个最优路径选择问题,字音 的起始点相应于路径的起始点。按最优路径起点至终点的距离即为待识音 与模板音问的距离。待识音与模板音间的距离最小即判为该模板相应的字 音。从上面的过程可以看出,动态规划存在下列问题: l 、运算量大,e h 于要找出最佳匹配点因此要考虑多种可能的情况。 虽然路径限制减少了运算量,但运算量仍然很大,因而使识别速度减慢。 这在大词汇量的识别中是一个严重缺点。 2 、识别系统性能过分依赖于端点检测。端点检测的精度随着不同音 素而有所不同,有些音素的端点检测精度较低,由此影响识别率的提高。 3 、没有充分利用语音信号的时序动态信息。现已提出多种方法来克 服这缺点。尽管如此,d t w 算法仍是一种有效的时间规整和语音测度计 算的方法,在孤立字特定人语音识别上占优势。 1 9 太原理i :人学硕十研究生学位论文 第四章h m m 基本理论在语音识别算法中的应用 4 1 引言 隐马尔可夫模型是用参数表示的、用于描述随机过程统计特性的概率 模型,它是由马尔可夫链演变而来的。它可能是一维的观察值序列或编码 符号序列,也可以是多维的矢量序列。h m m 的基本理论在7 0 年代中开展 起柬,它在语音处理中得到成功应用,还是最近一二十年的事。将此模型 用来描述语音信号的产生是8 0 年代语音信号数字处理技术的一项重大进 展,用此解决语音识别问题已取得了很大的成果。其基本理论和各种实用 算法是现代语音识剐的重要基石。” 4 2 隐马尔可夫模型 隐马尔可夫模型描述的是类重要的随机过程,它的直观解释是:在 已知系统目前的状态的条件下,“将来”与“过去”无关。这种过程也称 为无记忆的单随机过程。假设这种单随机过程的取值( 状态) 是离散的,则 又可以将它称作无记忆的离散随机过程。相对马尔可夫过程,人们又提出 了一种状态及其行为都为不可测的双随机过程。从外界来看,这种过程的 状态是随机且不可见的,而行为是可见而不可测的,因此,这种双随机过 程也称为隐马尔可夫模型。通常,h h m 对应的状态也被假设为离散的且 其演变也是无记忆的,因而,也被称为无记忆的离散双随机过程。 “” 2 0 太原理i :人学硕十研究生学位论文 4 2 1 隐马尔可夫模型的定义 定义1 :对于观察序列为o = o i o :a ,它当然是一种随机序列。一个 有n 个状态( s ,s :,s 。) 的h m m 是由三元参数组五= ( 7 c ,a ,b ) 表示的, 用于描述一种随机序列的统计特性的概率模型,其中 l 、万= 一,万:,口。】为初始分布,用于描述观察序列0 在f = 1 时 z ;= p ( q 。= s 。) f - l ,2 ,、n刻所处状态q 。属于模型中各状态的概率 分布,即:它当然满足: 矾= l ( 4 1 ) 2 、a = 口。if ,- ,= l ,2 , 为状态转移概率矩阵,这里只考虑一阶 h m m ,当前所处状态g ,只与前一时刻所处状态g ,有关,即: a 口= p ( q ,= 5 ,i g ,- l = 5 。,g ,_ 22 “) = p ( q ,= s ,i = s ,) ( 4 2 ) 它满足: 口,= 1 ( 4 - 3 ) j ;1 3 、口为观察序列。中任一观察在各状态的观察概率空间中的分布。 这个分布有离散型和连续型蕊类,分另q 相应于离散h m m 和连续h m m , 其分布分别为:1 ) ,在离散h m m 情况下,观察序列为符号序列,b 为一 概率矩阵 2 l 太原理j :人学硕士研究生学位论文 b = b ( 女) ,- ,= 1 , 2 ,n ;k = 1 , 2 ,m 它满足: b j ( k ) = 1 ( 4 4 ) 其中m 为编码符号集中符号的总数,在用矢量量化编码时,m 就是码书 太小j 为状态序号。2 ) 、在连续h m m 情况下,观察序列为矢量量化序 列,b 就是个d 维的概率密度函数的集合 b 2 b ,( d ) ,= 1 ,2 ,n ) 其中o 为观察矢量空间中的任一矢量,每一个密度函数都满足归一的条 件,即: f 6 p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论