(控制理论与控制工程专业论文)语音识别在指控中心应用中的几点研究.pdf_第1页
(控制理论与控制工程专业论文)语音识别在指控中心应用中的几点研究.pdf_第2页
(控制理论与控制工程专业论文)语音识别在指控中心应用中的几点研究.pdf_第3页
(控制理论与控制工程专业论文)语音识别在指控中心应用中的几点研究.pdf_第4页
(控制理论与控制工程专业论文)语音识别在指控中心应用中的几点研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 y3 9 8 1 7 3 本文所作的工作有:首先建立了中等词表的连续语音识别系统, 从合作者统计数据中抽取2 0 0 最常用的军用汉字作为词表建立了基于 l p c 倒谱特征、h m m 模型和v i t e r b i 算法的连续语音识别系统。通 过对语音识别算法的改进,识别率可达8 5 以上。其次基于指控系 统的特殊要求,提出一种新的基于听觉模型的特征,并建立包容性更 强的广义模型,给出广义模型的训练和识别算法,并建立一个数字识 别识别系统,实验语音识别率1 0 0 ,并对广义模型的状态数作了实 验研究,得到最佳状态数宜取5 1 0 的结论。并指出了本识别算法和 d t w 的关系。 关键字:连续语音识别,听觉模型,广义模型,隐马尔可夫模型 南京理工大学硕士论文 i a b s t r a c t w h a th a sb e e nd o n ei nt h i sd i s s e r t a t i o nc a nb es u m m e du pa sf o l l o w i n g s : f i r s t l yac o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e mo f am o d e r a t er a n g eo fw o r d v o c a b u l a r y 屯o oc h i n e s ew o r d s w h i c ha r ei nt h em o s tc o m m o n u s ec h o s e n o u tf r o mt h es t a t i s t i c sd a t a b a s em a d e b ym yc o l l a b o r a t o r , i se s t a b l i s h e d b a s e d o nh m mm o d e l 、l p c c e p t r u m f e a t u r ea n dv r e r h ia l g o r i t h m b yi m p r o v i n gt h e a l g o r i t h m s ,w eh a sr e a c h e dt h el e v e lb e l o w1 5 o f e r r o rr a t e s e c o n d l yi n v i e wo ft h e s p e c i a lr e q u i r e m e n to ft h ec o m m a n d & c o n t r o lc e n t e r , w ep u t f o r w o r dan e wf e a t u r ef o u n d e do nt h ea u d i t o r yr e p r e s e n t a t i o n , a n de s t a b l i s ha m o r e c o m p r e h e n s i v em o d e l - - g e n e r a lm o d e l ( g m ) ,c o r r e s p o n d i n g l y ,w ep r e s e n t t h et r a i n i n ga n dt h er e c o g n i t i o na l g r i t h m so fg mm o d e lo nw h i c hw ee s t a b i s ha n u m e r i cr e c o g n i t i o ns y s t e m w eg e tar i g h tr a t eo f1 0 0 t or e c o g n i z et e n g r o u p o fn u m e r i ce x p e r i m e n t a ls o u n d s m o r e o v e l w ed os o m er e s e a r c hf o rs e l e c t i o n a n d a n a l y s i so f g m s t a t e - n u m b e rb ye x p e r i m e n t s ,c o n c l u d e5t o1 0s t a t e si st h e m o r es u i t a b l es e l e c t i o nf o re a c hw o r d a tl a s tw ei n d i c a t et h er e l a t i o nb e t w e e n t h eg m r e c o g n i t i o na l g r i t h m sa n dt h ed t w k e y w o r d :c o n t i n u o u s s p e e c hr e c o g n i t i o n , a u d i t o r ym o d e l ,h i d d e nm a r k o v m o d e l ,g e n e r a lm o d e l 南京理工大学硕士论文 1 绪论 1 1 前言 第一章绪论 随着计算机技术的飞速发展,电脑已经走入家庭,给人类带来了无穷的便 捷,与此同时,人们对计算机的智能化要求也越来越高,当然最突出的需求体 现在人机接口上。如果能实现人机之间的直接对话,让机器理解人的语言,并 根据其信息执行人的各种意图,无疑是人机智能接口最简洁有效的方式,因此 语音识别作为一门极具吸引力的学科应运而生。 自动语音识另l j ( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 主要是指机器在各种情 况下有效的理解、识别语音和其他声音,并对其信息作出相应的反应。自动语 音识别的最终实现有其固有的优越性,高效直观。语音识别在光线不足、危险 环境以及难以手工操作的场合,显得更为重要。但这门学科涉及到语音学、语 言学、心理学、数理统计、人工智能、信息论和计算机等诸多学科领域,是一 门广泛交叉的系统学科,目前的技术水平离语音识别的最终目标相去甚远,人 机之间的语音交流远不如人与人之间对话那样自然、方便。我们今天在这一领 域的研究和开拓,就是要使语音识别技术不断的趋于完善,更好的为我们服务。 1 2 语音识别的发展和现状 机器语音识别的研究由来己久,早在四个世纪以前,人类已经开始了这方 面的探索。但真正的语音识别研究是5 0 年代才开始的,1 9 5 2 年b e l l 实验室的 d a v i s 等人仿真人的听觉模型,提取语音的第一、第二共振峰的特征,并据此 特征进行识别,识别率高达9 7 以上。1 9 5 8 年d u d l e y 等人开始用1 0 个带通 滤波器组的方法提取语音谱特征,并采用将数字分为若干语音单元的方法实现 了1 0 个数字的识别。 南京理工大学硕士论文 1 绪论 到了6 0 年代,随着计算机技术和数字信号处理技术的兴起,新的、有效 的数字算法层出不穷,对语音识别的研究起到了巨大的促进作用。1 9 6 0 年d e n e s 和m a t h e w s 第一次提出了时间规正的概念,并取得了很好的效果;1 9 6 3 年, b o g e r t 等提出了倒谱算法( c e p s t r u m ) ;1 9 6 5 年,c o o l y 和t u k e y 提出了快速傅立 叶变换( f a s tf o u r i e rt r a n s f o r mf f t ) ;1 9 6 8 年, o p p e n h e i m 把倒谱特征应用 于语音信号处理,并由此建立了同态处理技术。这些成果为语音识别技术的进 一步发展提供了可能。和5 0 年代相比,6 0 年代人们在语音识别领域前进了一 大步,但有效的语音模型和算法的欠缺,使得语音识别的研究仍处于实验室阶 段。 到了7 0 年代,语音识别领域发生了三件大事,极大地推进了语音识别技 术的发展。首先,1 9 7 1 年s a k o e 和c h i b a 等人提出了动态规划( d y n a m i c p r o g r a m m i n g ,即d p ) 方法来匹配两个音长不等的语音特征模式,把语音的特征 序列在时间轴上进行线性或非线性规正,从而形成了动态时间规正( d y n a m i c t i m ew a r p i n g ,d t w ) 算法。其次语音全极点模型的建立是线性预测编码( l i n e a r p r e d i c t i v ec o d i n g ,l p c ) 技术引入语音识别系统中,l p c 表征了语音信号的产 生模型,而l p c 系数则形成了有效的语音特征参数。最后值得一提是美国a r i a 计划,其中的c a r n e g i e - m e l l o nu n i v e r s i t y 的h a r p y 系统效果能理解1 0 0 0 个单 词组成的1 0 0 0 0 个句子,识别率9 6 ,极大地推动了语音识别技术实用化热 潮,使语音识别开始走出实验室。 8 0 年代,语音识别研究的各个环节都有了很大发展。矢量量化技术( v q ) 、 隐马尔可夫模型( 印v d ) 和人工神经网络等理论被相继应用于语音识别研究, 语音模型进一步细化,方法进一步多样化。h m m 理论在7 0 年代由b a u m 等 人建立起来,随后由c m u 的b a k e r 和m m 的j e l i n e k 等人将其应用到语音识 别中,8 0 年代初,由于b e l l 实验室的r a b i n e r 等人对h m i v l 模型深入浅出的 介绍,使i - i n i v i 开始为从事语音处理的研究人员理解和熟悉,进而成为语音识 别的研究热点,导致了m 皿讧模型从离散模型到半连续模型到连续模型一步步 的发展,应用范围也从单字到孤立词到连续语音一步步的扩大,并且这种模型 的精细化工作仍在继续。在这期间,以m m f 统计方法为基本框架的识别系统 层出不穷。虽然其中尚有不少缺陷有待改进,但语音识别所取得的成果仍是以 南京理工大学硕士论文2 1 绪论 前任何一个时期所无法比拟的。比较优秀的、具有代表性的有:1 9 8 7 年,i b m 用v q h m m 技术开发的2 0 0 0 词、特定人、孤立词识别系统弘n g o r a , 识别率为近9 4 5 ;1 9 8 8 年,c m u 实现的s p h i n x 系统,能识别9 9 7 个单词 组成4 2 0 0 个句子,采用非特定人、连续语音识别策略,识别率为9 4 7 。 进入9 0 年代以后,小波变换等新的理论和工具在语音识别中的应用,使 得语音识别产品的市场进一步得以开拓。d r a g o n 公司、m m 公司和k u r z w e i l l 公司早已推出孤立词的语音识别产品。1 9 9 7 年9 月,m m 公司在人民大会堂 发布了多年的研究成果中文连续语音识别产品v i a v o i c e ,从而推出了其语 音识别产品的第8 种语言版本,而且其平均识别率达9 0 。另外m i c r o s o f t 、 s u n 、i b m 、 n o v e l l 、p h i l i p s 、t i 等大公司也积极地投入到这项研究中并 分别取得了可喜的成果。 我国的语音识别研究从5 0 年代开始的,到了7 0 年代已作了许多语音识别 的基础性研究。国内语音识别研究水平由最初的十个数字的识别发展到目前 的连续语音的识别。1 9 7 8 年中国科学院声学所的语音识别研究小组用带通滤 波器组参数为特征设计了r t s r s ( 0 1 ) 实时语音识别系统。8 0 年代中期开始, 国内很多研究所和大学投入到汉语语音识别系统的基本理论、数学模型和算 法、实时系统的研究中,并取得了一系列的成果。十多年来,我国语音识别 研究工作在加紧追赶国外的研究步伐,在某些领域结合汉语的特点还有自己 的独创,由于有汉语普通话声韵构词的方式、声调辩义的特点,因而在声韵 分割、音调识别等方面的研究已处于世界领先水平。应用领域,已有识别系 统投入商用,1 9 9 9 年中国科技大学推出非特定人、大词表的连续语音识别系 统,基本上代表了国内语音识别研究的最高水平,标志着我国商用语音识别 系统的成熟。 1 3 语音识别系统的分类 不同的系统要求,语音识别系统的设计和实现方法也不尽相同。但大体上 可以有以下划分: 1 孤立语音和连续语音识别系统 1 绪论 自然的语音,只有句尾或是文字需要加标点的地方必须间断,其他地方可 以连续不断的发音。但较早的语音识别系统基本上都是以单字或单词为识别单 位的孤立词识别系统。而连续语音识别指的是对说话人日常自然语音的识别方 式。虽然近年来连续语音识别技术已经趋于成熟,况且它适于最自然的说话方 式,也将成为语音识别系统的主流。但其系统复杂度很大,对语音的建模需考 虑语音层、语法层等诸多因素,系统成本很高,所以它并不总是最切合实际的 方法。对于一些语音识别系统,可能要求说话者以单字、单词或者短语为发音 单位,如在一个利用语音进行命令控制的系统中,命令词组非常简单、固定, 利用孤立词的识别方式就可能非常合适,使系统更便于使用。 2 大词表和小词表语音识别系统 每个语音识别系统都必须有一个自己的词汇表,系统只能识别表中词条, 可以想象,词汇量越大,系统困惑度越大,识别越困难。而且,词表越大,计 算量也越大,对系统要求也就越高。 3 特定人和非特定人语音识别系统 这是根据服务对象范围而分的。特定人系统是指系统在使用之前必须由用 户输入大量的发音数据并对其进行训练。非特定人系统则试图达到在系统构建 以后,用户无须事先输入过多的训练数据,即可使用的目的。语音信号的可变 性很大,不同的人说话的时候,即使是同一音节,如果对其进行仔细的分析, 会发现存在相当大的差异。要使一个语音识别系统能够识别非特定人的语音, 困难是很大的。这样的识别系统要能从大量的不同人的发音样本中学习到非特 定人语音的发音速度、语音强度、发音方式等基本特征,并寻找归纳其相似性 作为识别时的标准。因为这个学习和训练的过程相当复杂,所有的语音样本也 要预先采集,所以必须在系统生成之前完成,并把有关的信息存入系统的数据 库中,以供真正识别时用。识别时不断修正参数数据。 1 4 本文的主要工作 本文的内容是以作者参与国防基金课题“语音识别在指控中心的研究与应 用”的研究过程中所作的一部分工作为背景的。主要工作包括对现有连续语音 识别算法和常用特征量的改进,对导师提出的一种新的特征和一种包容性更强 的模型进行研究。 建立了中等词表的连续语音识别系统。从合作者统计数据中抽取2 0 0 最常用的军用汉字,作为词表建立了基于l p c 倒谱特征、h m m 模型 的连续语音识别系统。通过对语音识别算法的改进,识别率可达8 5 以上。 基于指控系统的特殊要求,提出一种新的基于听觉模型的特征,并建 立包容性更强的广义模型,给出广义模型的训练和识别算法。通过2 4 个滤波器组输出,微分提升高频分量,整流、积分、分帧、归一化处 理,从而生成了新特征。对1 0 个数字进行识别1 0 0 个音识别率1 0 0 0 , 4 。 并对广义模型的状态数作了研究实验,得到最佳状态数为5 1 0 个。 并指出了本文所用的广义模型识别算法和d t w 的关系。 1 5 本文的内容安排 第一章介绍了语音识别的兴起原因、发展史,以及语音识别系统的分类和 应用范围和本文所作的工作及内容安排; 第二章分析介绍了语音识别系统的基本组成结构,还有后面常用算法中的 理论基础动态规划; 第三章主要讨论语音信号特征提取的相关理论及算法。先简单概括了比较 传统的线性预测系数特征和倒谱特征的提取,后面详细介绍的是基于听觉模型 的特征提取。 第四章介绍了最普遍的语音识别方法d t w 和h m m 。h m m 包括训练模 板和识别算法。后面介绍的是基于h m m 统一框架下的连续语音识别( v i t e r b i 算法) 。 第五章介绍了广义模型的概念以及训练和识别算法。 第六章介绍了本文所实现的实验系统。 结束语总结全文。 南京理工大学硕士论文 、 2 语音识别概述和相关的预备知识 2 1 概述 第二章语音识别概述和相关的预备知识 语音识别的基本过程如图2 1 所示。由图可知,其基本过程包括:语音拾 取,特征提取,模板训练和语音识别判决。下面对每一部分作简要说明。 时 图2 i ( 1 ) 语音拾取 语音拾取包括采样和端点检测。采样是指语音信号被声卡采集进来,将语 音信号模数转换将其数字化。端点检测是指从语音信号中确定出语音的起点和 终点,是预处理中的一个重要环节,端点检测的常用算法是能量和过零率相结 合的端点检测法,本文采用能量端点检测法。 ( 2 ) 特征提取 在语音识别中,合理地选择特征是一个很关键的问题。好的特征能很好地 反映语音所携带的区别于别的语音的有用信息,摈弃无关的信息。目前,实践 上证明有效的特征有线形预测系数特征( l p c ) ,倒谱特征,还有下面章节介 绍的新的基于听觉模型的特征。 ( 3 ) 模板训练和语音识别判决 模板训练和语音识别判决分为两步:第一步是训练,即选择一种识别方法, 用训练与聚类的方法得到该字的语音参数,作为该字的参考模板予以存储,在 识别系统中应存储所有该系统需识别字的参考模板,形成参考模板库。第二步 南京理工大学硕士论文6 2 语音识别概述和相关的预备知识 是识别,将待识别样本与参考模板库中的各字的参考模板分别作比较,以相似 程度最大者( 指标函数值最小者) 判为所识别字。本文本章采用的是识别方法 是隐马尔克夫模型( h m m ) 和广义模型( g m ) 。 在最后这个环节上,我们一般情况下有三种方法: 其一,把训练语音特征提取的结果直接作为模板存储,在识别时,输入语 音信号经* i ja l 练时相同的特征提取部分得到待识别字的特征向量序列,将此序 列和存储的各模板分别比较( 即按规定的距离或计分的定义求出对各模板的距 离和计分) ,以距离( 或计分) 最小者即判为该字。在求距离过程中应考虑到 训练模板时,发同一字( 或词) 的各瞬时速率可能有一定的差别,故在时域上 作比较计算待识别信号和模板信号时,应该应用时域内的弹性匹配概念,本方 法即是d t w 。 图2 2 其二,每个字的模板并不是特征向量时间序列的方式来存储的,而是以态 图的形式来存储。见图2 2 ,图中口f ,o = 1 3 ,= 1 3 ) 为由i 到j 态的转移概 率,b j ( f = 1 3 ) 为i 态输出各特征的概率。各a 。、玩是在学习过程中根据各训 练语音特征序列估算出来的。准则是对给定的所有训练序列,由始态( 现为1 态) 到终态( 现为3 态) 得到的输出概率之和最大。 a u 及各觑都是定值时, 对于每一训练样可得到一输出概率,求此概率的方法可用最优路由问题中的最 优路由求法及在此最优路由情况下的计分求法( 即v i t e r b i 算法) 。此时学习的目 的即是求出各态图模型中的、6 ,。在识别时,令待识别样也通过每个字的态 图模型,按v i t e r b i 算法得到输出概率( 即本法的计分) 。以计分最大的态图相 应的字为所判别字。由于某字的各训练特征序列总起来包括了该字各种发音速 率的变化的状况( 体现于模型中等参数的值) ,故与d t w 有异曲同工的效 果。此类方法称为隐m a r k o v 模型,即h m m 。 南京理工大学硕士论文7 2 语音识别概述和相关的预备知识 第三类方法是解决语音动态时间匹配的方法是将语音特征序列用适当的方 法分成n 段,对每一段的特征子序列求出平均值( 平均位置) ,得到n 各特征 矢量作为模板来存储。在识别时,根据一定的规则( 类似与第二种方法的转移 概率) 进行匹配,以一定的距离( 如欧氏距离) 为指标,以距离最小者作为所 识别字。本方法即是本文所提到的广义模型的识别算法。后面将有详细的介绍。 2 。2 动态规划原理 鉴于后面的很多算法都涉及到动态规划原理,这里作一个简单的介绍; 动态规划是一个最优化方法。它把一个n 阶段决策问题化为n 个单阶段 的决策问题,即化为逐一决策的n 个子问题,以使计算简化。 2 2 1 动态规划的基本概念 1 阶段 在动态规划中,把所给问题的过程恰当地分为若干个相互联系的阶段,以 便于求解,过程不同,阶段就可能不同。描述阶段的变量称为阶段变量。在多 数情况下,包括本文所涉及的情况,阶段变量是离散的。用k 表示。 2 状态 状态表示每一阶段开始所面临的客观状况。过程的状态通常可以用一个或 一组变数来表示,称为状态变量。常用k 来表示第k 阶段的某一状态。般 状态是离散的。当过程按所有可能不同的方式发展时,过程各段的状态变量将 在某一确定范围内取值。状态变量取值的集合称为状态集合。况且我们要求状 态要有无后效性的性质,即如果给定某一阶段的状态,则在这阶段以后过程 的发展不受本阶段以前状态的影响,所有各阶段确定以后,整个过程也就确定 了。 3 决策 一个阶段的状态确定以后,从该状态演变到下一阶段某状态的一种选择称 为决策。在许多问题中,决策可以自然而然表示为一个数或一组数。不同的决 南京理工大学硕士论文8 ! 煎童塑型壁塑塑茎塑坠垫塑 策对应不同的数值。描述决策的变量称为决策变量。因状态满足无后效性,故 在每个阶段选择决策时只需考虑当前的状态而无需考虑过程的历史。在第k 阶 段用u h ( h ) 表示处于状态h 时的决策变量,决策变量限制的范围称为允许决 策集合。 4 策略 由每阶段的决策甜;( t ) o = 1 , 2 ,以) 组成的决策函数序列称为全过程策略,简 称策略,用p 来表示,即 p ( x 1 ) = “l ( x 1 ) ,u 2 ( x 2 ) ,矗。( x 。) ) 也可以说,策略是在任意阶段作出决策的决策规则的集合,它仅与阶段和这 阶段的过程有关。 从k 阶段开始到终点的过程称为原过程的后部子过程,其决策函数序列 ( 瓴) ,z ,。( 赡+ 。) ,j , 。) ) 称为k 子过程策略,简称子策略,用p a x o 表示, 即 p i ( x ) = 甜i ( x i ) , “l ( x “) ,j l 。( x 。) ) 对于每一个实际的多阶段决策过程,可供选取的决策有一定的范围限制, 这个范围称为允许策略集合。允许策略集合中达到最优效果的决策称为最优策 略。 5 状态转移和历程 给定第k 阶段状态变量也的值以后,如果这一阶段的决策变量一经确定, 第k + l 阶段的状态变量靠+ 。也就完全确定,即矗。的值随矗和的值的变化而 变化,可以把这一关系看成( x t ,) 与h + 。的确定的对应关系,用 x t c 。= t k ( x j , ,) 表示。这是从k 到k + 1 阶段的状态转移规律,称为状态转移 方程。从开始到结束的总段数称为历程,在离散情况下,根据历程将多阶段决 策过程分为:定期多阶段决策过程和不定期多阶段决策过程。 5 指标函数 用来衡量所实现过程优劣的一种数量指标,称为指标函数。在确定性过程 中,设过程有0 阶段开始,由任一k 阶段开始( k = 1 2 ) 的过程是原过程的 后部子过程。这时,指标函数v 是定义在原过程和所有后部子过程上确定的 数量函数,即对任个k ,v a x i ,j c k + l , 甜,) 是定义在 k ,x ,甜。,) 南京理工大学硕士论文9 2 语音识别概述和相关的预备知识 上的函数。要构成动态规划模型,这个函数需满足下面的递推关系: 圪( ,x ”) = v 0 【。,+ 1 ( y 。砧“1 ) 】 实际问题中很多指标函数都满足这个性质。 常见的指标函数有: ( 1 ) 过程和它的任一子过程的指标是它所包括的个阶段指标之和或之积, n - i 即:以( k ,) = v ,( x ,”,) = t 这里,v ,( x ,甜j ) 表示第j 阶段的指标,这时 k ( x t ,) = v i ( x t ,”) + 圪+ l ( x i “,) ; ( 2 ) 过程和它的任一子过程的指标是它所包含的各阶段的指标的乘积, 即:v 。( x k ,) = n v 廖,) i = k 这时:圪 。) = 吨 。,”。) + ,0 。,) ( 3 ) 过程和它的任一子过程的指标是它所包含的各阶段的指标的最小值, 即:圪 一) = 虹r r 。f i n 一。 v j ( x j ,”瑚= m i f l 咋( x t ,) ,圪“( t 一) ) 从上面的叙述可以看出,在初始状态给定时,指标函数是策略确定的函数 指标函数的最优值称为最优值函数,用l ( x 。) 表示: 兀( k ) = o p t 圪( 以,) u j 其中o p t 表示取最优。 2 2 2 动态规划的基本方程 在解决实际问题时,必须建立动态规划模型( d p ) 。建立d p 模型时,必 须做到: 1 将过程进行恰当的分段; 2 正确选择能描述过程的状态变量; 3 确定决策变量及每个阶段的允许决策集合仇( ) ; 南京理工大学硕士论文 1 0 2 语音识别概述和相关的预备知识 4 写出状态转移方程:k + 。= t a x 。,札) ; 5 根据题意写出指标函数圪,它应满足: 1 ) 是定义在全过程及所有后部子过程上的能量函数: 2 ) 满足递推关系 k ( x k ,h + 1 甜,) = p t k x k ,甜 ,圪+ l ( h + 1 ,, ,) 】 3 ) j ! k ( x k ,u 。,k + 。) 对于其变量圪+ 严格单调。通常取指标函数为: n - i 圪= v ,o ,甜,) ,= i 其中v ,( x ,) 表示第j 段的指标,它显然可以满足上面三个性质。递 推关系可以写成 圪= 咋( ,) + 圪。 如果初始状态给定且过程的策略也确定,则指标函数是初始状态和策略的 函数,记为【h ,仇( 靠) 】。所以上面的递推关系可以写成 以【,p 。( 以) 】= u ( x k , ) + 以。【。p 。( 靠+ 。) 】 而子策略n ( 吒) 可以写成由。o 。) 和p 。( x 。) 组成。即; p ( x ) = t ( x ) ,p + l ( x t + 1 ) ) 如果用成( ) 表示初始状态为后部子过程所有子策略中的最优子策略,则 最优值函数为 五( 矗) = 以k ,p , 7 ( 以) 】= o p t k k ,既( ) 】 而 o p t 圪【x ,p i ( x t ) 】= o p t 【v i ( x f ,”t ) + f 1 ( x + 1 ,p t + 1 ( x i + 1 ) ) 】 h 。a + 1 。o p t v 女( x k , ) + 叩f 以“】 吨, + lj机 但0 。( 以+ 。) = o p t v k + 1 ,所以d p 的基本方程为 p t + l 兀( ) = o p t 【v ( h ,”) + ,0 1 ( x t “) 】,k = 0 , 1 ,2 , 一1 ; h e 巩( x j ) 边界条件:工( ) = 0 ; ! 至童望型壁塑塑羞堕堡鱼垫望 这个方程的成立是根据最优化原理而得到的,即整个过程的最优策略具有 这样的性质:无论过去的状态和决策如何,对前面所形成的状态而言,余下 的诸决策必须构成最优策略。 2 3 小结 本章从总体上概述了语音识别系统的组成,并对各部分作了简单的介绍, 还简要描述了现在常用的语音识别方法。鉴于后面诸如v i t e r b i 算法、广义模 型的训练及识别算法等都涉及到动态规划理论,为保证本文的完整性,在这 里也作了简单的介绍。 南京理工大学硕士论文 第三章特征提取 3 1 线性预测特征( l p c ) 和倒谱特征 语音信号的特征提取应注意有效性。具体体现在:对于异音字,相应特征 向量间的距离应该较大;对于同音字,相应的特征向量之间的距离应该较小。 同时为保证有较高的识别率,所选特征各字彼此间的相关性应小。 3 1 1 线性预测系数( l p c ) 特征 线性预测分析简称l p c 分析,是目前进行语音信号分析最有效的分析技 术之一。它的重要性在于:提供了一组简洁的语音信号模型参数,这组参数 较精确地表征了语音信号的频谱幅度,而分析它们所需的运算量并不大。应用 这种模型参数可以降低编码语音信号时的数码率。将l p c 参数形成模板储存, 在语音识别中也能提高识别率和减少计算时间。此外,这种参数还可用于语音 合成。 l p c 为用线性预测法分析语音时得到的有关语音邻近值间某种相关特性的 参数组。此方法基于如下的基本概念,即一语音采样值能用过去的若干语音样 值的线形组合来近似估计。按在一所分析帧内实际的各语音样值与各预测得到 的样值之间的差值的平方和最小准则,可以决定唯一的一组预测系数,即l p c 系数。 设( x ( n ) ) 为语音时间序列,第n 个语音样值可用前p 个语音样值来预测, 即x ( n ) 的预测值为: p 譬 ) = 一a ;x ( - 0 ( 3 1 1 1 ) i = 1 其中: ( 滓l p ) 为预测系数。 南京理工大学硕士论文 预测误差为; p e q ) = x 0 ) 一叠0 ) = 口j x 0 一f ) ( 3 1 1 2 ) t = o 其中:a 产l 为固定常数。一帧内各时刻误差的平方和表示为e ,若语音帧内有 n 个样点,则 一l p rp- i 2 e = fx ( 功+ q x ( ”一f ) i ( 3 1 - 1 3 ) n = 0li = 1j 令a e :0 ,( i :1 p ) ,得 p z a , 硎f 一力= r ( j ) , j = 1 p ( 3 1 1 4 ) i = o 其中:r 旬) 垒x 0 ) x 0 + ) 称为语音短时自相关系数。 解方程组( 3 1 1 4 ) 可得氐( i = 1 p ) ,具体算法可采用d u r b i n 递推算法 ( 1 ) 给定预测器阶数p ; ( 2 ) 计算尺( j ) = x 伽) 加,+ ,) ,= 0 , 1 只 ( 3 ) 计算) - 一只( o ) ; ( 4 ) 邵= k 1 ; ( 5 ) 计算字= 【1 一暖m ) 2 1 r ( o ) ; ( 6 ) 令m = 2 ; m - i r ( m ) + ”1 1 r 巾一m b ( 7 ) 计算k ”= 一 ( 8 ) a ? = k ”; ( 9 ) 计算a ,= a ,_ 1 + 足”在嚣”,i = l ,2 ,m - l , ( 1 0 ) 计算= 【1 一僻_ ) 2 e 。1 ; 南京理工大学硕士论文 3 特征提取 ( 1 1 ) m p ? 若回答为是,则令n a = m + 1 ,转入( 7 ) 继续进行; 若回答为否,则停止运行并输出研”,龟“罐? ) 作为最后结果。 选择l p c 模型阶数p 的一般原则是:首先保证有足够多的极点来模型声 道响应的谐振结构,在1 0 k h z 取样率下,一般要求阶数p 值约为1 2 到1 4 ; 其次,虽然p 增加时预测误差总是趋于下降,但当p 值达到1 2 到1 4 时,误 差变化基本趋于平缓。所以模型阶数p 一般趋为1 2 到1 4 。 分析帧长度n 的选取原则是:由于计算量与n 成正比,所以n 应该尽量 小;但是,由于估计谱的精度随n 的增加而提高,而且为了减少激励源的影 响,n 不宜选得太小。一般n 取2 到3 个基音周期长度比较合理。 3 1 2 倒谱特征 由于l p c 型每帧特征中的各元实际上同时受该帧时段内发音的声道频率 响应和激励信号源两者的同时影响,未予分离,所以会导致所发同一音的致 性降低,影响识别率。为了克服上述缺点,注意到信号是由激励源与声道频谱 相卷积的结果,建立了倒谱特征,利用了将信号作适当同态滤波可分离其相卷 积成分的性质而将两者分离。此种滤波的关键是先将卷积处理化为乘积,随之 作对数处理使之化为可分离的相加成分。 辑) 图3 1 信号同态滤波 把一帧中的语音信号x ( n ) _ j ( n ) ( n ) 处理为其倒谱c ( n ) 的过程如图3 1 所示。 图中的i ( r i ) 表示语音信号的音源分量,h ( n ) 表示其声道分量( 声道冲激响应) 。 语音信号的倒谱具有如下性质: 1 倒谱的低时部分对应于语音信号的声道分量,且随1 ,n 的趋势衰减, 故用维数不多的倒谱分量( 指c o i ) ( n = l ,, i n - ) 中只取前面的一部分) 便足以表征 3 特征提取 语音的声道分量。 2 倒谱的高时部分对应于语音信号的音源激励分量。当激励源为周期性 脉冲时,倒谱的对应分量仍为等间隔的冲激脉冲串。倒谱可分为l p c 倒谱、f f t 倒谱等,l p c 倒谱和f f t 倒谱求出的频谱包络相当接近,但前者比后者更好 地重现谱的峰值。此外,前者运算量小,计算量仅是后者的一半。所以我们一 般采用l p c 倒谱。 l p c 系数可以用来估计语音信号的倒谱,通常称l p c 倒谱。下面简要介 绍l p c 倒谱。 由l p c 系数讲) 厅箩构成一个f i r 数字滤波器j ( ( z ) : j 即( :) = 研9 彳1 ( 3 i 2 1 ) 其中:毹n = i 。它的单位取样响应九) 为: 九o ) = l 占( 哟+ 研即艿( 撑一圳u 伽) ( 3 1 2 2 ) 吃o ) = z 一8 n ( j ( 一( z ) ) 】 ( 3 1 2 3 ) 设近似每一帧语音的实际声道函数的全极点模型传递函数h ( z ) 为: 甘( 2 ) 2 南 ( 3 - 1 2 4 ) 它的单位取样响应h ( n ) 为: ) = o ,疗 0 协) :一圭耐n - i ) + 荆雕o ( 3 - 1 2 5 ) h ( n ) 复倒谱为: 氟功一z 。1 卜南) j ( 3 他s ) 所以可得: ( 功= 一h a 0 )( 3 1 2 7 ) 由于觅伽) 为因果最小相位序列( j ( o ) 的根且全部在单位圆内) ,所以可 采用由九伽) 求觅( 玎) 的递推算法: 南京理工大学硕士论文 3 特征提取 觅伪) = o ,疗 0 茏0 ) = l n ( 九( 功) ,抒= 0 ( 3 1 28 ) 怕) = 篇一荟n - 1 m 蚋等。 由于此递推计算可以无穷尽地计算,所以必须给定最大递推次数l ,也就是只 求出觅( n ) 的前l 个值。在语音信号处理中,若p = 1 2 ,l 值一般设在1 4 - 2 0 之 间。l 值设置很大些可以使觅q ) ,n _ l l 这组特征矢量保存更多的信息,但是 随着l 的增大,高n 值的觅0 ) 将变的很小,实际上没有什么作用。 由讲a 7 求觅( 1 ) 觅) 的递推算法为: ( 1 )设置递推次数l ; ( 2 ) 令吃0 ) = i n ( 九( o ) ) = 0 , 九( 疗) = a , = 1 p , 和) = 篙州1 ) ; ( 3 )令i f 2 : ( 4 ) 计算:觅伪) = a ,一( ,刀) 觅u 弦2 ( 3 1 2 9 ) ( 5 ) n 0 时,才能对 中心听觉神经元产生作用: y 4 ,f ( f ) = m a x ( y ( f ) ,o ) ,i = l 2 i 中心听觉神经元不能很快随时间调整,因此可用一短时积分器积分,即: y ”( f ) = i ,( r ) d r ,i 2 1 ,2 ,i 其中:t 是积分长度,取一帧。 在特征提取中,可通过调整对不同频率信号的增益来模仿人耳对各个频率 单音的不同敏感程度的听觉效果。由于在各个层次中分布增益调整与最终层次 上总的增益调整对后面的识别而言是等效的,故有: y “( f ) = 向y s , i ( f ) ,i = l 2 i 这样便求得了听觉模型特征矢量儿,( f ) ,i = l 一2 i 。 ( 2 ) 仿人耳听觉模型特征 根据上面讲的听觉系统对语音信号的处理,我们可以简化其中的一些步骤, 用机器来仿真,可得到基于听觉模型的特征。参见图3 4 。实际上图3 4 所示的 特征是b p f g ( 带通滤波器组) 特征的一种。一般b p f g 特征的中心频率及带 宽的分配如果仿人耳功能作规定时称为“临界频率划分”,我们简化了听觉系 统的频率分布状况,认为在整个频宽内我们认为沿基底膜时成对数分布的。本 书中采用2 4 道带通滤波器,其中心频率见表3 1 。 南京理工大学硕士论文 2 0 h ! 堕墅塾h 鏊蘸j h 基熊2 鲤h ! ! 嶝 逦匦暨围西理攀酬 一;i 。_ ,= = f l 再丽丽难堙两,侄丽两= = 图3 4 带通滤波器( b p f g ) 特征 编号 频率f l 。,频率f l 。, 中心频率 频率最。频率& 。 o1 8 31 8 91 9 62 0 42 1 2 12 1 22 1 92 2 72 3 62 4 5 22 4 52 5 42 6 42 7 42 8 4 32 8 42 9 53 0 63 1 73 3 0 43 3 03 4 23 5 5 3 6 83 8 2 53 8 2 3 9 74 1 l4 2 74 4 3 64 4 34 6 04 7 74 9 55 1 4 75 1 45 3 3 5 5 35 7 45 9 6 85 9 6 6 1 86 4 l6 6 66 9 1 96 9 17 1 6 7 4 37 7 28 0 1 1 08 0 18 3 18 6 28 9 5 9 2 8 1 19 2 9 9 6 31 0 0 01 0 3 71 0 7 6 1 21 0 7 6l l l 71 1 5 91 2 0 3 1 2 4 8 1 31 2 4 81 2 9 51 3 4 4 1 3 9 41 4 4 7 1 41 4 4 71 5 0 11 5 5 81 6 1 7 1 6 6 7 1 51 6 7 81 7 4 l1 8 0 61 8 7 4 1 9 4 5 1 61 9 4 52 0 1 82 0 9 4 2 1 7 32 2 5 5 1 72 2 5 52 3 4 02 4 2 8 2 5 1 92 6 1 4 1 82 6 4 2 2 7 1 32 8 1 52 9 2 13 0 3 l 1 93 0 3 l 3 1 4 53 2 6 43 3 8 73 5 1 4 2 03 5 1 53 6 4 73 7 8 4 3 9 2 64 0 7 5 2 14 0 7 4 4 2 2 84 3 8 74 5 5 24 7 2 4 2 24 7 2 84 9 0 25 0 8 6 5 2 7 85 4 7 7 2 35 4 4 75 6 8 35 8 9 7 6 1 2 06 3 5 0 表3 1 表中频率氏”、频率轧s 、频率舯、频率。分别是上边界o 7 幅值频率、上 边界o5 幅值频率、下边界0 7 幅值频率、下边界0 5 幅值频率。 其中各带通滤波器的0 3 幅值频率是相邻滤波器的中心频率。 南京理工大学硕士论文2 1 3 特征提取 在作特征提取之前,我们要对滤波输出作微分、整流、积分和归一化处理, 最后得到基于听觉模型的特征。下面的第二节将介绍具体细节。 3 2 2 基于听觉模型的特征的提取 下面是整体框图( 图3 5 ) 图3 5 ( 1 ) 滤波器的设计 我们简要介绍一下b u t t e r w o n h 滤波器的设计 根据上面的幅频特性我们计算得到应选择1 2 阶的低通和高通滤波器。 低通滤波器传递函数为: e 0 ) = ! ! 堑坐 密p 嗡卜警扣树) 是上o 7 截止频率。 高通滤波器传递函数仅仅将低通滤波器传函的分子换为矿,将换为下0 7 截止频率即可,为 驰卜驴可毫珂丽“卸1 2 3 。 为下0 7 截止频率。 将相应高通滤波器和低通滤波器的串联,即得所设计的带通滤波器。 实际上,上面系统是输入为语音信号,输出为每个滤波器的滤波输出。 系统输入是离散的采样语音信号,我们用曲线拟合的方法来连续化语音信 南京理工大学硕士论文 ! 壁堡塑坚 号,以便处理: ,( 功= ( x 一墨2 ) ( x x 。一i ) ( x x ,) o 一十1 ) 求解上面的高阶微分方程得龙格库塔法,但首先要将高阶微分方程化为 一阶微分方程组,也就是上面式子中的分母乘积中的每一项。 设二阶微分方程的初值问题为: j y ”= f ( t ,y ,y ( 3 2 2 1 ) 【y ( t o ) = y o ,y ( t o ) = y o 若令少= :,y ( f 。) = y 。= z 。,则原二阶微分方程( 3 2 2 1 ) 变成一阶微分方 程组 p = f ( t , y ,z ) ,z ( t o ) = z o 【) ,l _ :,y ( t o ) = y o 利用一阶微分方程的龙格库塔法, ( 3 2 2 2 ) 对于式( 3 2 2 2 ) 有四阶龙格库塔公式: k ,= f ( t ,y l ,毛) k 2 = ,( + h 2 ,y f + h - :f 2 ,z f + 1 ,k 2 ) 蜀= f ( t ,+ 崛_ ) ,一+ ,2 + h 2 k i , z f + ,i 足2 ,2 )( 3 抛3 ) k 4 = f ( t ,+ 矗,y f + h z f + 2 k 2 2 ,z f + h k 3 ) :。l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论