




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)基于sapi引擎的语音交互方法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
沈阳工业大学硕+ 学位论文 摘要 语音交互以语音识别和语音合成为基础,语音识别是将音频信息转换成文本或者其 它形式的计算机能够处理的信息的技术。语音合成是将文本文件转换成语音信息。经过 国内外多年的研究探索,出现了许多语音识别的方法,其中比较成功的并具代表性的有 模式匹配法;统计概率模型的识别方法( 其主要代表是隐马尔可夫模型) ;人工神经网 络方法。其中隐马尔可夫模型成为大词汇量连续语音识别的主导方法。 本文从语音识别系统的系统框架出发,重点探讨研究了基于隐马尔可夫模型的语音 识别的实现方法。包括语音声学分析( 预处理,特征提取等) ,声学h m m 模型的建立 和识别过程。重点讨论声学h i v l i v l 模型的基本建模方法以及模型参数的训练重估方法。 语音是最符合人类自然习惯的一种通信交互方式。随着语音交互技术的发展,它 在人机接口和多媒体方面的应用也越来越普遍了。在计算机的运算速度和存储能力迅速 提高之后,输入输出的人机界面变得越来越重要,人机接口是当前计算机领域的热门课 题之一。而语言是人类用来交流最自然、最有效的手段,也是众多载体中具有最大信息 量的信号,具有最高的智能水平。一旦计算机具备了这种语言功能,其智能程度与应用 价值将大大增加。因为在这种人机交互中使用的是最自然的语占方式来存储和处理信 息,是人机交互的一次革命。总之语音识别技术将给人们带来一个轻松的接口方式,它 同其它技术的结合还可以构成专门的应用,比如全自动电话系统,同声会议翻译系统, 智能多媒体语言教学系统等。其中具有代表性的是m i c m s o f t 公司推出m s - a g e n t 。 本文在对基于隐马尔可夫模型的语音识别技术进行了分析研究之后,应用m s a g e n t 设计出了语音识别系统与用户进行语言交流的人机接口。把该语音交互分成两个 部分,一个是语音输入,即“听”的功能,一个是语音输出,即“说”的功能。实现这 两个功能的分别是语音输入识别引擎和m s a g e n t 的文本朗读t e x t t o s p e e c h 引擎。这 两个引擎使m s a g e n t 有了语音按钮,使m s a g e n t 能回答复杂的对话、记录声音和文 本。正是m s a g e n t 能听会说会唱,使m s a g e n t 在p c 机上实现了强大的人机交互的功 能。 沈阳j :业大学硕+ 学位论文 语音交互具有广阔的应用前景,因此即使语音识别技术目前尚未完全成熟,很多 领域也积极的将它引入,掌握语音识别程序的基本开发方法有助于更好的运用这一技 术。 关键词:隐马尔可夫模型,语音识别技术,人机交互,m s - a g e n t 2 沈阳,【:业大学硕士学位论文 r e s e a r c ha n d i m p l e m e n t a t i o n o fs a p i e n g i n e b a s e do hs p e e c h i n t e r a c t i o n a b s t r a c t s p e e c hr e c o g n i t i o n i sak i n do f t e c h n o l o g yt h a tc o n v e r ts p e e c hi n f o m m t i o nt ot e x to ro t h e r i n f o r m a t i o nw h i c hc o m p u t e rc a nd e a lw i t l l i ta p p e a r sl o t so fm e t h o d so fs p e e c hr e c o g n i t i o n d u r i n gy e a r so fe x p l o r a t i o na n d r e s e a r c hi nt h i sa r e a , i n c l u d i n gs t a t i s t i c sp r o b a b i l i t ym o d e l t h e t y p i c a lm e t h o d i sh i d d e nm a r k o v m o d e l ,a r t i f i c i a ln e u r a ln e t w o r k , t h i sp a p e rs t a r t sw i t ht h es t r u c t u r eo ft h es p e e c hr e c o g n i t i o n ,d i s c u s s e sm e t h o do fs p e e c h r e c o g n i t i o nt e c h n o l o g yb a s e d o nh i d d e nm a r k o vm o d e l ,i n c l u d i n gs p e e c ha c o u s t i ca n a l y z i n g , a c o u s t i cm o d e l i n ga n dr e c o g n i t i o ns 订a t e g y s p e e c h i st h em o s ts u i t a b l ec o m m u n i c a t i o nw a yt oh u m a n w i t ht h ed e v e l o p m e n to fs p e e c h r e c o g n i t i o nt e c h n o l o g y ,i t i s b e i n gu s e dw i d e l y i nt h eh u m a n - c o m p u t e ri n t e r f a c ea n di n m u l t i m e d i aa p p l i c a t i o na r e a l s 。t h ei n p u ta n do u t p u ti n t e r f a c eb e c o m e sm o r ea n dm o r ei m p o r t a n t a f t e rt h ee n h a n c e m e n to fc o m p u t e r sc a l c u l a t o rs p e e da n ds t o r a g ec a p a c i t y t h ei n t e r f a c eo f h u m a n - c o m p u t e ri sb e i n g af o c u so nc o m p u t e rr e s e a r c h ,b e c a u s et h es p e e c hh a st h ea b u n d a n t i n f o r m a t i o n ,i tc o n t a i n s m a n k i n d s i n t e l l i g e n c e a n di t st h em o s tn o r m a lw a yi nh u m a n s e v e r y d a yc o m m u n i c a t i o n 。o n c et h ec o m p u t e r h a st h i sp e r f o r m a n c e i tc a nb ea p p l i e di ne v e r y a c t i v i t i e so fh u m a n ss o c i e t y ,i tc a nc h a n g et h ew o r l d i naw o r d ,s p e e c hr e c o g n i t i o ni sa c o m f o r t a b l ei n t e r a c t i o nb e t w e e nh u m a na n d m a c h i n e i tc a l lb ec o m b i n e dw i t ho t h e r t e c h n o l o g y t ob eu s e di nm a n yd o m a i n s ,s u c ha s a u t o m a t i c t e l e p h o n es y s t e m ,s y n c h r o n o u sm e e t i n g t r a n s l a t i o ns y s t e m ,i n t e l l i g e n tm u l t i m e d i al a n g u a g et e a c h i n gs y s t e m t h em i c r o s o f t sm s - a g e n ti s t h em o s t p o p u l a r o f a l l t h i s p a p e r d e v i s e da ns p e e c hi n t e r f a c eo f h u m a n c o m p u t e ru s i n gm s - a g e n ta f t e rr e s e a r c ho f t h es p e e c hr e c o g n i t i o nt e c h n o l o g yb a s e do nh i d d e nm a r k o v t h ei n t e r f a c eo f h u m a n - c o m p u t e r d i v i d et h es y s t e mi n t ot w op a r t s , o n ei ss p e e c hi n p u t t h a ti sh e a r i n g ,t h eo t h e ri ss p e e c ho u t p u t t h a ti ss p e a k i n g t h o s ef u n c t i o n sa r eb a s e do i ls p e e c hr e c o g n i t i o ne n g i n ea n dt e x t - t o 。s p e e c h e n g i n e t h o s ee n g i n e s m a k et h em s - a g e n th a v et h ef i m c t i o no f s p e a k i n ga n dh e a t i n ga n dn l f l k e t h ep ch a v eg r e a tc o m m u n i c a t i o nc a p a b i l i t yb e t w e e n t h em a n k i n da n dp c 3 沈阳_ 丁业大学硕十学位论文 s p e e c hr e c o g n i t i o nt e c l m o l o g y h a sa b r i g h tf u t u r e ,t h o u g ht h i st e c h n o l o g y h a sl o t so f w o r k t om o d i f ya n d i m p r o v e i th a sa l r e a d yb e i n g u s e di nm a n ya r e a s t om a s t e rt h ea p p r o a c ho f t h e s p e e c hr e c o g n i t i o nd e v e l o p m e n t i so f b e n e f i tt oa p p l yt h i st e c h n o l o g y k e y w o r d s :h i d d e n m a r k o vm o d e l ,s p e e c hr e c o g n i t i o nt e c h n o l o g y ,h u m a n - c o m p u t e r i n t e r f a c e ,m s - a g p n t 4 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 沈阳工业大学或其他教育机构的学位或证书所使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表 示了谢意。 签名: 关于论文使用授权的说明 本人完全了解沈阳工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 签名: ( 保密的论文在解密后应遵循此规定) 沈阡l1 :业大学硕士学位论文 1 绪论 1 1 语音交互研究的意义 语音交互包括语音识别和语音合成,人机语音交互以语音识别为基础,语音识别是 机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术。作为一个 专门的研究领域,语音识别又是- - 1 7 交叉学科,它与声学、语音学、语言学、人工智 能、数字信号处理理论、信息理论、模式识别理论、最优化理论、计算机科学等众多学 科紧密相连1 2 。语音识别经过四十多年的发展,已经显示出巨大的应用前景,高性能的 语音识别系统相继问世【1 1 3 一t 。 语音识别的一个基本应用就是语音打字机,即用口述代替键盘,实现向计算机输入 文字,它具有自然、快速、不需用手。不受地点限制等优点。它的实现会给办公自动化 带未革命性的变化,可以使排字工人从繁重的劳动中解脱出来。在英语语音识别系统 中,i b m 和d r a g o n 公司等的产品最为成功。 实际上,语音交互技术不仅能用于计算机的人机交互,而且在许多领域都有广阔的 应用前景。在一些场合,当手脚己被占用或光线不足无法进行操作时,就需要用语音发 出命令。例如,驾驶员在高速行驶的汽车内电话拨号,或飞行员需要在坐舱内发出必要 的命令等,都需要语音识别系统,当然语音识别器也会给失明者或其他残疾者带来很大 的帮助i ”。 人类相互交流的最大障碍是语言,把语音交互技术和机器翻译结合起来,就能做到 不同国家、不同民族的语言互通。在广播语音识别中,可以用语音识别系统将广播、电 视等媒体的播音员的语音直接以文字形式记录下来,为将来实现广播实时翻译打下基 础,i b m 和d r a s o n 公司就曾对中央电视台新闻联播的播音进行了竞赛性的测试。另 外,语音交互技术有望实现两种语言之间的直接国际通话,即通过“语音识别一机器翻 译一语音合成”将一种语言直接转化为另一种语言。 随着信息产业和互联网的快速发展,对语音识别系统的需求也更加迫切。比如在声 讯服务中,实时查询股票交易、航班动态、车站票务动态等。用传统的声讯技术根本不 可能实现,只有用语音交互技术才能实现这些海量信息的动态查询。另外,虚拟现实技 沈阳t 业人学硕七学位论文 术是今后发展的热点。t a l k i n g h e a d 技术能够把语音、图像、动画与互联网技术相结 合,造就虚拟现实的新一代多媒体。总之,语音交互技术大大降低了人们迈进信息时代 的门槛,并开辟了许多新的信息服务及应用领域,它f 在形成一个新兴的产业。正因为 如此,世界各国不仅把语音交互技术列入了高技术研究计划,而且作为新世纪信息产业 的重要竞争市场。 1 2 语音交互研究的历史和现状 语音交互技术的研究可以追溯到二十世纪五十年代初,在五十年代,b e l l 实验室 开发了一个特定人的孤立数字语音识别系统 6 1 :r a g 实验室识别了特定人的十个单音节 词中所包含的不同音节【7 j ;m i t 的l i n c o l n 实验室开发了针对十个元音的非特定人语音 识别系。这些识别系统都是针对孤立语音,都是基于模式匹配器和滤波器组提供的谐信 息的嘲,并且由于理论技术水平不够,都未取得明显的成功。 在六十年代初,日本的东京无线电研究实验室、京都大学和n e c 实验室都制作了 能够进行语音识别的专用硬件,对语音识别领域进行了开拓性的研究工作1 9 1 0 1 1 】。而在 世界范围内,有关语音识别的三个关键项目的启动,对以后语音识别的研究和发展产生 了深远的影响。它们是:1 ) r c a 实验室的m a r t i n 为解决语音事件时间尺度的非均匀 性,以便能可靠地检测到语音的起始点和终止点,提出了一组基本的时间归一化方法, 有效地减小了识别结果的可变性【旺l ;2 ) 前苏联的v i n t s y u k 提出了使用动态规划方法, 对组语音在时间上进行校准,它包含了动态时间伸缩的概念;3 ) c a r n e g i em e l l o n 大学的r e d d y 通过对音素的动态跟踪,对连续语音识别方法做了开创性的研究工作, 并促成了一项后来获得巨大成功的连续语音研究计划。 在七十年代,语音识别的研究取得了许多重大的具有里程碑意义的成果。首先,语 音识别己经成为可用的技术;模式识别、动念规划技术也开始在语音识别系统中得到应 用;低比特率编码中取得成功的线性预测编码( l p c ) 方法被用来作为语音的谱特征参 数,并沿用至今。最具意义的是i b m 公司开始了有关大词汇量语音识别的长期的、庞 大的研究计划,b e l l 实验室也开始进行了系列旨在完成真正非特定人的识别系统的实 验,这些项目都持续了十多年的时间,并获得了极具价值的研究成果。 沈l i e t j 5 业大学硕士学位论文 最后,有必要介绍的是美国国防部发起的一个大规模的研究计划d 越冲a 计划 ”】,旨在提高用于完成数据库管理任务的1 0 0 0 词范围内的连续语音识别的识别率。美 国有不少著名的大学和研究机构都参与了此计划,并做出了卓越的贡献,如开发了大词 汇量、非特定人、连续语音识别系统s p h i n x 的c a r n e g i em e l l o n 大学【1 3 1 4 1 1 5 、。6 1 , 开发了连续语音识别系统b y b l o s 的b b n 公司”,还有m ,i t 的l i n c o l n 实验室 1 1 8 1 ,s r i 研究院,b e l l 实验室等。由于有了d a r p a 计划,在八十年代的这十年中大词 汇量的连续语音识别系统有了长足的进展。 近年来,语音识别系统的研究己经丌拓到新的领域,那就是口语语言系统。它集语 音识别技术、自然语言处理和人机交互技术于一体,能够识别说话人所说的字,解释字 序列,并根据实际应用给出其意义,给用户以正确的反馈。它的潜在应用领域从简单的 信息检索( 交通状况、航班信息) ,到复杂的交互式任务计划和推理( 交通路线、旅游 计划) ,直至能够支持多语言和多媒体界面,其目的是使人类在不经过特别训练的情况 下,以最自然、最常用的交流方式与计算机对话,并能适用于新用户群。目前,i b m 、 d r a g o n 、p h i l i p s 等公司都已提供其产品, a t & b e l l 实验室的系统能通过电话接收用 户的即席讲话,甚至通过电话接听e m a i l ,而m i t 实验室近几十年来都在研究这类对 话系统,现在可以通过电话或i n t e m e t 对其进行访问查询,它几乎能实时回答英语、西 班牙语和汉语的提问,就象两个人对话一样快。 1 3 隐马尔可夫模型 在大词汇量连续语音识别领域,现在普遍研究使用的是基于隐马尔可夫模型 ( h v i m h i d d e nm a r k o vm o d e l ) ,它是在m a r k o v 链的基础之上发展起来的【1 92 0 1 。 m a r k o v 链是m a r k o v 随机过程的特殊情况,即m a r k o v 链是状态和时间参数都离散的 m a r k o v 过程。实际中,m a r k o v 链的每一状态可以对应于一个可观测到的物理事件。 由于实际问题比m a r k o v 链模型所描述的更为复杂,观察到的时间并不是与状态一 一对应,而是通过一组概率分布相联系,这样的模型就称为h m m 。它是一个双重随机 过程,其中之一是m a r k o v 链,这是基于随机过程,它描述状态的转移。另一个随机过 程描述状态和观察值之间的统计对应关系。这样,站在观察者的角度,只能看到观察 值,通过一个随即过程去感知状态的存在及其特性。因而称之为“隐”m a r k o v 模型。 沈f f le 业大学硕士学位论文 隐马尔可夫模型能成功运用在连续语音识别中。因为隐马尔可夫模型特有的双重随 机性能可以描述语音信号的短时平稳性和总体非平稳性,同时又提供了套完整的训练 和解码算法,非常易于实现。在连续语音识别上h m m 的优点在于可以把单个基元的 h m m 级联成为一个大的句子级的h m m ,从而可以按照和基本h m m 相同的方式进行 描述;另一方面它可以和高层的语言知识即统计语言模型( s l m ) 无缝的结合起来,使 得整个连续语音识别过程可以用一个统一的概率统计模型表示出来,得到一个整体的解 决方案,因而h m m 在连续语音识别上获得了空前的成功,可以说,h m m 方法的引入 是语音识别技术在短短几十年里就和产生了实质性突破的主要原因。 由图1 1 可以看出,h m m 很适合于表示连续特征串,可以把一个个小的h m m 组成一个大的h m m ,图中每个模型有若干个状态组成。如果把整段特征矢量串看作一 个h m m ,则可以把每一个模型看作个大h m m 的状态。 图1 1 对应一段特征矢量串的h m m 结构图 一个h m m a = ( 厅,a ,b ) 由以下的特征描述 ( 1 ) m a r k o v 链的状态数目n ( 2 ) 每个状态能对应的特征数目m ( 3 ) 马尔可夫过程 爿;( ) ,口。- = p q ,+ ,= s ,iq ,= s ,f ,n j ( 1 1 ) ( 4 ) 输出概率函数 b = = - ( b j t ) b j ( o t ) ,b j ( o t ) = p o , i q ,= s j j ( 1 2 ) 沈刖_ j i 业大学硕十学位论文 h m m 的输出概率函数分为离散函数和连续函数。离散输出函数一般用矢量量化 ( v q ) 函数模拟,而连续函数一般用混合高斯函数( g m m ) 模拟。 ( 5 ) 状态初始值 - r t - ,= p q ,= s ,】i n ( 1 3 ) 应用h m m 到实际问题中,有三个基本的问题要解决: ( 1 ) 已知观察值特征值序列0 = 0 ,0 2 ,p 和模型参数 ,如何有效地计算出 e ( o l ) ,即这个模型生成此特征的概率。这个问题也叫做评估( e v a l u a t i o n ) 问题。 ( 2 ) 已知观察值特征值序列o = 0 ,0 2 ,q 和模型参数五,在最佳的意义上确定 一个状态序列的问题。在这里,“最佳”是指e ( o 五) 最大。这个问题也叫做解码 ( d e c o d i n g ) 问题。 ( 3 ) h m m 参数如何估计,即训练问题,如何调整模型参数,使e ( o l a ) 最大化。 前两个问题比较容易解决,而且都有了经典的算法1 9 1 。 从8 0 年代中期开始,随着b e l l 实验室r a b i n e r 等人对h m m 在语音识别中应用的 深入浅出的介绍f i 】,在语音处理领域得到了广泛的应用,现在在说话人识别也有了一些 成功的运用口1 2 2 1 。 沈阳工业大学硕士学位论文 2 基于h m m 模型的连续语音识别系统 语音识别系统可以根据任务的复杂程度分为孤立词识别、连接词识别和连续语音识 别。语音识别系统还可以依据词汇量的大小来进一步划分。识别的词汇量越大,研究和 实现的难度就越大。这些系统可以是基于特定人的,也可以是非特定人的。目前语音谚 别的研究大多集中在大词汇量连续语音识别的范畴、翊。 本章讨论和研究连续语音识别系统的系统框架和实现方法。包括语音声学分析( 预 处理,特征提取等) ,声学h m m 模型的建立和识别过程。本文重点介绍声学h m m 模 型的基本建模方法以及模型参数的训练重估方法1 2 5 j 。 2 1 系统框架 近1 0 年间,连续语音识别已经从实验室走向了市场。它们所采用的系统结构大致 相同。语音识别系统的系统框架如图2 1 所示。 图2 1 连续语音识别系统框架 从上图可以看出一个典型的连续语音识别系统要经过训练和识别两个部分。 训练就是h m m 建模的过程。根据一定的参数重估算法,不断调整模型参数,得到 鲁棒性较好的模型。通过对基本模型的改进和优化,提高模型的精确度,以到达较好的 沈阳工业人学硕。f - 学位论文 识别效果。识别就是根据已经建立好的h m m 模型库、词典和语法构成的识别网络,使 用某种搜索算法搜索最佳匹配的过程。 2 。2 声学分析 所谓语音声学分析,是对语音信号进行声学信号处理,例如去噪,预处理,分帧, 加窗,特征提取等。最终得到处理的结果是语音信号的特征向量,或者说是编码后的语 音数据。语音信号的声学分析是为隐马尔可夫模型的建模和训练做准备。 2 2 1 语料库 语料库( c o r p u s ) 是大量语音数据组成的数据库,对这些语音数据进行声学分析 后,用其进行h m m 建模工作。语料库对于h m m 模型和整个识别器的性能有着极其重 要的作用。好的语料库要经过精心的设计。对于连续语音识别系统,尤其是大词汇量连 续语音识别系统,需要有充足的语音训练数据进行h m m 训练,这样得到的h m m 模型 才是可靠的。这需要大型语音语料库。 现在研究单位用得比较多的是t i m i t 声学语音学连续语音语料库。t i m i t 语料库 是为声学语音学研究、自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 系统的构 建和评估提供语音数据的英语语料库。它由来自美国8 个主要方言区的6 3 0 个人的语音 数据组成。每个说话人朗读1 0 旬经过精心设计的语音句子,共计6 3 0 0 个英语语音文 件。其中,训练用的句子4 6 2 0 个,测试用的句子1 6 8 0 个。t i m i t 语料库包含每个句子 的单词级和音素级的抄本( t r a n s c r i p t i o n ) ,即句子中每个词或音素的时间边界。 t i m i t 语音数据采用1 6 位,1 6 k h z 采样率,单声道存储。语音数据存储格式为 n i s t 格式,所有数据存储在一张光盘上。语料库由麻省理工学院( m - i t ) 、s r i 和德 州仪器公司( t i ) 共同设计。最终光盘制作由美国国家标准协会( n i s ) 承担。 t i m i t 语料库对于语音识别系统的研究是比较适合的,而且许多已有的语音识别研 究系统经常采用这个语料库。其他常用的语料库还有w s j ( w o r l ds t r e e tj o u m a ls p e e c h c o r p u s ) 等。但是对于真正大词汇量连续语音识别系统的开发需要有更充足的更大的语 料库。例如,i b m 公司的v i a v o i c e 语料库。 2 2 2 语音预处理和特征提取 一 些堕:! :些叁竺堡主堂堡堡皇 在得至u 语料库后,接下来的工作就是进行语音信号处理即声学分析,最终得到以帧 为单位的语音信号的特征向量【j 9 孤拥。 ( 1 ) 预处理。无论采用何种特征向量的提取方式,语音信号首先要经过预处理。语音 信号是不平稳随机过程,而将语音信号进行短时处理,即将语音信号分割成相对小的时 间段,这样就可以近似将小段语音信号看成是平稳的随机过程。因此,本系统中,对语 音信号进行分帧处理,帧长15 m s 。 首先可以去除语音信号的直流( d c ) 分量。这个直流分量是在录音过程中,进行 a d 转换时产生的。然后对语音信号进行预加重处理,通过如下的一阶差分公式进行 s ,= s n ks h 其中,岛 ”= ,) 为帧内的采样信号。变量k 为预加重因子。通常取值范围为 0 1 时 刻,前向变量计算为: f 0 rq = 1 口:神o 口魁,u 一) + 口j u 一,( f ) 。: 。砌。,、,括。 2 6 啪归p ( f ) 拶+ 芝i = 烈h 州q ) ( t - 1 ) a 冲1 0 f ) 旺, a ;9 o ) = l 口f 们( f ) 口妒+ 口j 们。一1 ) 口; 扩1 1 6 p ( o r ) ( 2 7 ) il n a 一1 武( 移= 口p t ) aq 。) 对于后向变量。初始情况f t 时刻为 f 1 删丁2 掣舸) 嘴? 矿q = q 0 t h e r w 曲8 屏9 ( 丁) = 哦卢器( r ) n q i p ( r ) = 口6 夕( d ,) 户( r ) 对于时刻t = 二:兰! 竺兰! 三竺二 l 否 重估所有h m m 模型参数 i 赢= 纛 否 ih m m ,新参数 图2 5 嵌入式训练流程图 1 7 一 沈阳上业人学硕士学位论文 2 4 识别 识别工作就是在给定h m m 模型库的情况下【3 l i ,利用语法和词典建立的词网络,根据 一定的搜索策略在该网络中找到一个最佳的路径。搜索策略有很多种,是一个较大的研 究领域。 2 4 1 语言模型 在识别过程中,如果考虑所有可能的词序列,搜索空间会变的很大,搜索效率会很 低。通过语法,可以排除某些不期望的词序列,从而达到提高搜索效率的目的口”。 语法又可以称为语言模型( l a n g u a g em o d e l ,l m ) 。假设w 是一个给定的句子,它 是q 个词组成的序列:w = w ,w 2 ,w 0 。语言模型就是要考虑在给定词序列 啊“1 = w ,w k 一。的情况下,出现的概率。一个简单而且有效的方式是n 元文法( n g r a m ) 。即假设的出现只和前面出现的n 一1 1 个词有关。也就是说: n 元文法可以写成如下形式 p ( i 彬“1 ) = p ( w k | 咧譬。) ( 2 1 6 ) p 。 w ;n p w ( 2 1 7 ) p n w 可以对语料库中的抄本进行统计获得。但是n 值过大,考虑起来比较复杂。 因此常取n = 2 或n = 3 ,n = 4 。如果n = 2 ,称为二元文法。依此类推。 没有任何限制的语法叫做自由文法则( n o - - g r a m r o e r ) 。在这种语法下,任何词可 以和任何词相邻。 2 4 2 字典 沈阳工业人学硕十学位论文 字典( d i c t i o n a r y 或l e x j o n ) 用来记录每个单词发音。简单说,就是某个词的是 由哪些音素模型组成的。字典中的条目按字母升序排列。允许单词具有不同的发音。图 2 6 所示的就是本文所使用的字典片段。 图2 6 字典的片段 字典用来在识别过程中扩展识别网络。 2 4 3 识别网络 识别实际上就是搜索问题。搜索问题可以分为两类,即深度搜索和广度搜索。常见 的深度搜索有堆搜索和胁搜索。本系统研究的识别网络使用的是一种广度搜索策略, 叫做v i t e r b i 搜索。它的基本思想在前一章已经介绍。由于大词汇量系统的识别网路 非常复杂,所以必须引入剪枝( p r u n i n g ) 策略。 为了更好的理解识别网络,我们可以想像识剐网络就是一棵树、捌。如图2 7 a 所 示。树的根节点( 标记为s t a r t ) 与每个可能作为句子开始词的词节点相连,每个词又 和与它可能相连的词相连;依此类推。可以清楚的看出,如果将网络这样扩展下去的 话,网络结构会十分复杂。第二步工作是通过词典,将每个词替换为音素模型。如果这 个词有多种发音,列出不同的音素模型。如图2 7 b 所示。最后,根据上下文,合并相 同的音素模型。如图2 7 c 所示。这样一个网络就建好了。 沈i j i e 业大学硕士学位论文 a ) 网络树 b ) 音素模型 , 一 一多 赢 、, c ) 合并后的音素模型 图2 7 识别网络 2 0 - , 一 一 一荔赫 、=一, 沈阳工业人学硕士学位论文 识别工作就是在这个网络中找出一个最佳的路径口”。在v i t e r b i 搜索的基础上,主 要采用令牌传递算法( t o k e np a s s i n ga l g o r i t h m ) 。每个令牌记录的是令牌所经过路 径的模型状态转移概率、词转移概率和语言模型概率之和。最终令牌分值最大的就是最 可能的识别结果。这个基础的令牌算法可以找到最佳的路径,但是需要花费大量的时间 和空间。因此引入剪枝( p r u n i n g ) 策略。在令牌传递过程中,设定一个闽值( b e a m w i d t h ) ,如果令牌记录的概率分数低于这个阈值,则该令牌不再向下传递,而直接丢 弃。这个算法叫做g i t e r b ib e a m s e a r c h 。 2 4 4 说话人适应 对于非特定人大同汇量连续语音识别( l g c s r 系统,训练基本m 射模型需要人量的 不同说话人的语音数据。系统使用了t i m i t 语料库中的4 6 2 0 个句于进行训练。对于一 个大词汇量系统来说,还是远远不够的。当一个新用户要使用这个系统时,识别时的搜 索过程用的是上而建立的h m m 模型,因此识别率显然不会很好,因此,为了提高系统性 能,可以使用少量的用户语音数据进行说话人适应。 系统所使用的适应策略是这样的:根据语法规则,随机产生2 0 个适应用的句子; 用户通过计算机的麦克风记录这些语音数据;然后使用某种适应算法调整删模型参 数。 2 5 对于删模型的改进 上面部分介绍了一个连续语音识别系统的基本框架,重点分析了基本声学h ( 单音素模型m o n o p h o n e ) 建模的方法和过程。但是,仅仅使用单音素模型的识别效果 是不理想的。因此,考虑使用更多的更复杂的模型,以期得到更好的识别结果。本章要 考虑的主要问题就是对j - g n 模型的改进和优化,例如建立上下文相关的删、高斯混合 分量的增加、模型状态的捆绑等。由于篇幅所限,这里只介绍上下文相关模型对于后两 者制作简单说明。 2 5 1 上下文相关模型 上一节所做的工作是建立单音素h m m ( m o n o p h o n e ) 。只有单音索模型是远远不 够的,识别结果也是不理想的。主要原因是没有考虑到模型所处的上下文,一个音素的 沈阳l :业大学硕十学位论文 发音会由于上下文音素的不同而产生不同的发音。我们在说话时,往往在某些音还没有 充分发出时,就转入下一个音,即俗称连音问题。要解决这个问题,就是要建立上下文 相关的h m m ( c o n t e x td e p e n d e n th m m ) 1 3 3 。 ( 1 ) 上下文变化( c o n t e x t u a lv a r i a t i o n ) 。为了使基于h m m 模型的语音识别系统达 到理想的识别效果,我们就要考虑如何精确的表示h m m 模型,修改和优化模型结构,以 发挥h m m 模型的优点,尽量避免它的缺陷。也就是说,如何选择语音信号参数化( 特征 提取) 得方法和模型的结构,如何精确的估计高斯状态概率分布。现有的特征提取的方 法己经相当成熟,我们只有着手如何精确的建立h m m 模型的问题。影响模型精确性的主 要因素来自上下文的变化。广义上说,上下文变化可以分为两类。 1 ) 阶段效果( s e s s i o ne f f e c t ) 主要是指由于说话人的不同和语音环境的不同而 产生的对模型的影响。语音环境问题可以通过降低背景噪声和使用单一的话筒 来解决:说话人的影晌主要来自性别、年龄、口音、说话方式和心情等。说话 人不同的影响可以通过说话人适应算法来加以缓解。这些影响在一定时间段内 是不变的,因此称为阶段效果。 2 ) 局部效果( l o c a le f f e c t ) 主要考虑在一段连续语音内的发音变化。大多数的 发音变化集中在协同发音( c o a r t i c u l a t i o n ) 方面。 一个语音音素的实际发音受到它前后发音的影响。这种影响叫做协同发音。例如, 某些音还没有发到位就转入下一发音。对于听众来说,不会有什么问题,但是对于要求 音素模型稳定的语音识别器来说,这个问题成为影响识别效果的重要音素。通过分析可 以看出,一个音素在特定的音素上下文的声学特征比较稳定,而在不同的上下文中,表 现出不同的特点。例如图2 8 是一个说话人朗读的英语句于“w e w e r ea w a yw i t h w i l l i a mi ns e aw o r l d ”的语谱图。音索w 在不同的上下文中的语谱特性是不同的, 但在相同的上下文( 三音素上下文) 中表现相似。例如划线的w 。 如果语音识别系统在建模过程中充分考虑到协同发音的话,会在很大程度上改善识 别效果。建立上下文相关的模型就可以解决协同发音这个问题。 沈阳1 :业大学硕士学位论文 图2 8 音素w 在不同上f 文中的语谱表示 ( 2 ) 上下文相关音素模型。一种能够捕捉协同发音的方法是建立上下文相关音素 模型( c o n t e x td e p e n d e n tp h o n e t i cm o d e l ) 。通常我们可以考虑某个音素前面n 个上 文音素和后面n 个下文音索。但是m 和n 越大,模型复杂度越大,模型数目越多。而且 音素间发音的相互影响也会随着m 、n 的增大而减小。一种简单并且有效的方法是只考 虑每个音素的前一个和后一个音素,建立三音素模型( t r i p h o n e ) 。我们可以用符号 “矿b + c ”来表示。b 表示扩展前的单音素模型:a 为该模型的上文,即前面一个音素; c 为后文,即后面一个音素。例如,对于单词s t e a k ,可以由 s t e a k = s i lste yks i l 扩展为: s t e a k = s i ls + ts t + e yt - e y + ke y ks i l 需要注意的是,词边界可以使用双音素模型( b i p h o n e ) 。例如,s + t 。它实际上可 以看作三音素模型的变种( 由s i l s + t 而来) 。 一个英语句子是由若干单词组成的,因此个句子可以扩展成一个音素序列。那么 在引入三音素模型的同时,如何处理词边界昵? 这里有两种解决方案。 1 )只考虑词内部的上下文相关。词与词之间的三音素扩展是被禁止的。例如: s t e a ka n dc h i p s = s i1s + ts t + e yt e y + ke y ka c + na c n + dn - dc h + i hc h i h + p i h - p + sp - ss i l 沈阳工业大学硕士学位论文 2 )考虑跨词间的上下文相关。允许词与词之间的扩展。 s t e a ka n dc h i p s = s i ls + ts t + e yt - e y + ke y k + a ck - a c + na c n + dn d + c hdc h + i h c h i h + pi h - p + sp - ss i l 本文研究的语音识别系统只考虑词内部的上下文关系。这样考虑是因为: 1 ) 只考虑词内产生的不同上下文的数目要大大少于考虑词间上下文的数目。这样,大 多数的上下文关系会出现在训练集罩。为“不可见”上下文( 通过词典扩展出的上 下文,并且这种上下文没有出现在训练集中) 建模就显得不那么重要了。 2 1 只考虑词内的上下文会降低识别器的复杂度。如果考虑词间上下文,在识别过程 中,每个词的首个音素和末尾音素依赖于前一个词和后一个词。这时会增加搜索算 法的复杂度,使搜索效率大大降低。 ( 3 ) 三音素模型的产生和训练。三音素模型( t r i p h o n e ) 可以通过上面介绍的扩 展的方法产生,而模型的初始参数可以通过简单克隆单音素的模型参数产生。 利用训练数据的音素级的抄本,只考虑词内上下文,将4 3 个单音素模型扩展成 9 3 5 5 个不同的三音素模型。每个三音素h 哪的参数直接拷贝其基类音素的h 参数。 例如,模型a b + c 的初始参数拷贝单音素模型b 的参数。这样,得到9 3 5 5 个三音素 m 眦模型的初始参数。 在初始t r i p h o n e 删建立之后,利用和训练m o n o p h o n eh m m 相同的嵌入式训练 算法,进行模型训练,以达到期望的收敛值为止。由于模型数量的急剧增加,训练的 时间也随之增加。 2 5 2 增加混合分量 本文采用的只是单一的使用高斯密度函数的混合分量。单一的高斯函数,往往不 能精确的表达模型的特征。因此,我们需要增加混合分量( 密度函数) 的个数n 如图 2 9 所示。这就需要采用一种叫做混合分量分裂( m i x t u r es p l i t t i n g ) 的方法。每次 增加1 个或者2 个混合分量,然后使用本章介绍的嵌入式训练算法进行训练。多次重 复上述操作,直至识别率不再提高为止。 沈刚1 :业大学硕士学何论文 图2 9 增加混合分量 2 5 3 参数捆绑 为了达到较好的识别效果,我们需要在模型的复杂度( 模型参数的不同级别、参数 的数量等) 和利用有限的语音训练数据较为精确的估计模型之间寻求一种平衡。因为随 着模型数目和复杂度的增加,就需要有足够多的训练数据来充分估计各种参数。只通过 有限几个训练数据而估计具有很好鲁棒性是不现实的。通过统计得知,在训
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年产200万个PET塑料瓶建设项目实施方案
- 新疆乌鲁木齐市实验学校2023-2024学年高三上学期1月月考数学含解析
- 风电运维安全培训内容课件
- 炎黄职业技术学院《人力资源开发与管理C》2023-2024学年第二学期期末试卷
- 上饶幼儿师范高等专科学校《小学语文课程与教学一》2023-2024学年第二学期期末试卷
- 无锡科技职业学院《地理信息系统》2023-2024学年第二学期期末试卷
- 苏州百年职业学院《外报外刊选读与翻译》2023-2024学年第二学期期末试卷
- 连云港职业技术学院《中学美术学科教学论》2023-2024学年第二学期期末试卷
- 金陵科技学院《电子设计自动化技术》2023-2024学年第二学期期末试卷
- 湖南科技学院《室内空间测绘与制图》2023-2024学年第二学期期末试卷
- 中国的国际话语权
- 第04章 CIE标准色度系统
- JGJ120-2012建筑基坑支护技术规程-20220807013156
- 共同办展会合作协议书范文范本
- 2024年秋新冀教版英语三年级上册 unit 3 lesson 3 教学课件
- 工业园区保洁合同
- 2024年网络安全知识竞赛考试题库500题(含答案)
- 电子商务专业建设与发展规划
- 隐蔽工程验收记录(填充墙)
- 2024-2030年中国预付卡和礼品卡行业市场发展趋势与前景展望战略分析报告
- NBT-10779-2021空气源热泵集中供暖工程设计规范
评论
0/150
提交评论