




已阅读5页,还剩66页未读, 继续免费阅读
(模式识别与智能系统专业论文)嵌入式系统非特定人孤立词语音识别技术的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音识别技术经过几十年的探索和研究,已经取得了一系列突破性 的进展,一些成熟的技术正逐渐应用于实际生活中。近年来,消费类电 子产品迅速发展,语音作为一种方便的人机交互手段,在上述产品中有 着广泛的应用前景。嵌入式系统中的非特定人孤立词语音识别技术已经 称为目前研究的热点之一。 本文主要研究了高性能的,低消耗的非特定人孤立词语音识别算法, 并探索了实际系统中常遇到的几个问题的解决方法。概括起来有以下几 个方面: 1 提出了一种新的基于声学基元建模、整词匹配的语音识别算法。 研究了该算法在采用不同的特征参数,不同的模型参数设置条件下的性 能和对系统资源的消耗,并研究了段长信息在该算法中的应用。 2 研究了孤立词识别系统中的说话人自适应技术,探讨了两类常用 的自适应算法,并针对嵌入式系统中的孤立词识别问题提出了s a t d 算 法。 3 研究了孤立词识别系统中的集外词检测技术,介绍了一些主流的 算法,比较了在非特定人和特定人条件下集外词检测技术的差异,针对 我们的系统选取了几种有效的技术。 4 研究了孤立词识别系统在嵌入式平台的实现问题,介绍了d s p 语 音识别模块的硬件结构和软件模块设计方法,评估了采用新的算法的非 特定人孤立词语音识别系统的各项性能指标。 关键词:语音识别,自适应,集外词检测,嵌入式系统 a b s t r a c t s p e e c hr e c o g n i t i o nt e c h n o l o g yh a sa c h i e v e ds i g n i f i c a n tp r o g r e s sw i t hm a n y r e s e a r c h e r se n o r m o u se f f o r t si nt h ep a s tt e n so fy e a r s ,i nc u r r e n t y e a r s e l e c t r o n i c p r o d u c t s h a v e d e v e l o p e dr a p i d l y ,a n d s p e e c hr e c o g n i t i o n t e c h n o l o g yh a sg r e a ta p p l i c a t i o np o t e n t i a la so n eo fc o n v e n i e n ti n t e r a c t i v e m e a n so fh u m a na n d m a c h i n e s p e a k e ri n d e p e n d e n t i s o l a t e dw o r d r e c o g n i t i o nf o re m b e d d e ds y s t e m sh a sb e c o m i n go n eo fh o t s p o t so fc u r r e n t r e s e a r c h i nt h ep a p e rw ef o c u so u rr e s e a r c ho nh i g hp e r f o r m a n c ea n dl o wc o n s u m e s p e a k e ri n d e p e n d e n ti s o l a t e dw o r dr e c o g n i t i o na l g o r i t h mw ea l s od i s c u s s s e v e r a lq u e s t i o n si np r a c t i c a lr e c o g n i t i o ns y s t e m t h e r ea r es e v e r a lp o i n t si n m y w o r k : 1 d e v e l o p an e w s p e a k e ri n d e p e n d e n ti s o l a t e dw o r dr e c o g n i t i o na l g o r i t h m b a s e do nb a s i ca c o u s t i cu n i tm o d e l m ga n dw h o l ew o r d m a t c h i n g s t u d y t h e p e r f o r m a n c e a n dc o n s u m eo ft h e a l g o r i t h m i nd i f f e r e n tf e a t u r e p a r a m e t e r sa n dm o d e lp a r a m e t e r s w ea l s or e s e a r c ht h ea p p l i c a t i o no f d u r a t i o ni n f o r m a t i o ni ns p e e c h r e c o g n i t i o n 2 r e s e a r c hs p e a k e ra d a p t a t i o nt e c h n o l o g yi ni s o l a t e dw o r dr e c o g n i t i o n , d i s c u s st w ok i n do fc o m m o na d a p t a t i o na l g o r i t h m sa n dd e v e l o pan e w s a t d a l g o r i t h m f o ro i l yi s o l a t e dw o r d r e c o g n i z e rf o re m b e d d e ds y s t e m 3 b e c a u s et h ee x i s t e n c eo fo o vw o r d sm a k e sb a de f f e c t o nt h e p e r f o r m a n c eo fs p e e c hr e c o g n i z e r , w es t u d yo o vr e j e c f i o na p p r o a c h e s w ec o m p a r et h ed i f f e r e n c eo fo o vr e j e c t i o n a p p r o a c h e s o fs p e a k e r d e p e n d e n t a n ds p e a k e r i n d e p e n d e n ts y s t e m w ef i n a l l y s e l e c ts o m e e f f e c t i v ea p p r o a c h e sf o ro u r r e c o g n i z e r 4 r e a l i z eo u rs p e a k e r i n d e p e n d e n ti s o l a t e dw o r dr e c o g n i t i o na l g o r i t h mo n d s p p l a t f o r m i n t r o d u c et h eh a r d w a r es t r u c t u r ea n ds o f t w a r em o d u l e d e s i g no ft h ed s ps y s t e m w ea l s oe v a l u a t et h ew h o l ep e r f o r m a n c eo f t h er e c o g n i z e r u s i n g n e w a l g o r i t h m k e y w o r d s :s p e e c hr e c o g n i t i o n ,s p e a k e ra d a p t a t i o n ,o o vs p o t t i n g , e m b e d d e d s y s t e m 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示t t i , j _ 意。 签名一垒盘 日期: 垃6 叠z 垒竺 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院 自动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 查遴导师签名 疹睬日期:丝厘! 么! l 引言 第一章引言 作为人类进行信息、情感交流最自然和最方便的形式,自然语言和 语音通信一直是一种理想的人机通信方式。随着信息社会的不断发展, 更为智能化、人性化的人机交流也对自然语言和语音通信提出了迫切需 要。而要实现理想的人机语音通信,语音识别就是首先需要解决,也是 极难于解决的问题 1 2 。本章将主要介绍语音识别技术的发展和现状, 当前主要的难点和所面临的挑战,以及它将来的发展方向。 1 1 语音识别技术概述 多年以来,计算机的主要用户是专业技术人员。人与计算机交互的 主要方式是以键盘和鼠标等传统计算机输入方法,通过复杂的命令集和 形式化计算机语言来完成的。然而随着时代的发展,计算机越来越广泛 地渗透到人类社会的各个领域。从办公室到商场,从公共场所到家庭, 计算机无处不在。这种变化带来的一个直接结果就是计算机用户不再只 是专业技术人员。面对大量的非专业用户,更加友好更加方便的计算机 界面成为一个迫切的需求。人们需要以一种更加自然的方式与计算机交 流。自然语言是人类之间彼此交流的最直接最广泛的方式。人类百分之 七十以上的信息是通过自然语言来传递的。因此自然语言毫无疑问成为 新一代人机通信方式的首选。人们需要计算机能听,能读,能说,能思 维推理。语音识别技术无疑是实现这一目的的先决条件。语音通信不但 是人与计算机最直接的交流方式,在某种程度上也是最简洁的交互方式。 随着计算机硬件技术的发展,计算机的体积越来越小,由台式机发展到 便携式笔记本电脑、掌上电脑( p a l m p c ) 、乃至最近刚刚出现的穿戴式电 脑等等。显然笨重的键盘不再适合这种发展潮流。而语音输入技术则可 以使人们彻底抛弃键盘成为可能。另外,在一些特殊的场合,如黑暗中, 或者人的双手忙于其它事情时,如汽车飞机驾驶等,语音交互则几乎是 人们可以做到的唯一的人机交互方式。 目前语音识别技术的应用主要集中在以下三个方面: 第一个方面是语音输入。即人类将信息通过语音输入计算机。这类 技术的代表是大词汇的听写系统。据有关统计资料表明,一个熟练打字 壁垒墓墨堕i e 堑塞里塞塑量童塑型堇丕塑盟塞皇堕旦 员利用键盘打字的速度为平均每分钟6 0 字,而人类正常说话速度为每分 钟1 5 0 2 0 0 字左右。也就是说,如果实现语音输入,人类将信息输入计 算机的速度将提高2 3 倍。此外,对以汉语为母语的用户来说,语音输 入技术更是必不可少。原因在于汉语不是一种以字母为基础的语言,汉 语的基本单元是汉字,而常用汉字的数量多达上万个。因此,面向拼音 语言设计的键盘显然不适合汉语使用。虽然人们开发了许多汉语输入方 法,如全拼,双拼,五笔字等,但这些方法对普通用户来说,需要专门 学习,显然还是极不方便。汉语语音听写系统恰恰能够解决这个问题。 目前,人们已经开发出较为成熟的适用于办公室环境的汉语语音听写系 统,如i b m 的v i a v o i c e 、中科院自动化所的f l y i n gt a l k 、以及清华大 学的e a s yt a l k 等等。此外,通过与其他软件的紧密结合,语音输入技 术可以扩展到如财务、法律、医药等专用领域的应用和完成对通用数据 库的数据录入、查询、校对等。 语音技术应用的第二方面是人机交互和对话。与语音输入技术不同 的是人机交互技术不仅要求计算机能够记录人发出的信息,而且还要对 这些信息加以理解,并产生相应的动作或反馈必要的信息,满足人们的 要求。这种应用最成功的范例是以电话为媒体的语音查询系统,例如, 已经投入运营的欧洲铁路查询系统等。在国内,中科院自动化所成功地 开发了国内第一个面向旅游信息咨询的人机对话系统l o d e s t a r 。 语音技术的第三个重要应用领域是计算机辅助完成的人与人之间的 通信。这种应用的典型代表就是语音翻译技术。两个或多个说不同语言 的人通过计算机进行交流就是这种技术的美好前景。当然,语音翻译需 要集成语音识别、机器翻译、语音合成等多项技术,其难度是非常大的。 目前,我们离领域不受限的通用口语翻译系统还有一段较长的距离。 1 2 语音识别技术的发展和现状 在二十世纪五十年代,就开始了语音识别的研究工作。当时大多采 用共振峰分析方法 1 1 1 2 ,由于计算机还不像现在这么普及,一般是 用专用硬件实现语音识别。1 9 5 2 年,贝尔实验室的d a v i s 等人实现了特 定人的孤立数字识别,其识别方法是根据语音第一、二共振峰位置提取 若干特征,用模拟电路实现未知语音模式与参考语音模式之间的互相关 运算 9 :1 9 5 9 年,麻省理工学院的f o r g e 首次采用数字计算机构造了 引言 非特定人的( s i ) 英文元音( 在特定语境下) 的识别器。这标志着计算 机语音识别时代的开始。 在六十年代,研究人员比较深入地研究了语音信号的产生机理和内 在特征、人类的听觉生理和心理等问题。前苏联的科学家v i n t s y u k 提出 使用动态规划( d p ) 的方法在时间上将语音对齐,这实际上就是后来大 行其道的动态时间规整( d t w ) 的基本思想。另一项具有深远意义的工作 是c m u 的 e d d y 对连续语音识别的尝试,他的工作为后来c m u 建立世界 领先的连续语音识别技术打下了基础。 七十年代语音识别的发展有几项重要进展。首先是基于动态规划的 动态时间规整( d t w ) 在语音识别领域得到了全面应用,彻底解决了困扰人 们多年的非线性时间对准问题 1 3 。其次是线性预测技术应用到语音识 别中并用来提取特征参数,对语音识别的发展产生了重大影响。另外, l i n d a b u z o g r a y 等人首次解决了矢量量化码书生成的方法;并将矢量 量化技术用于语音编码取得成功,从此矢量量化技术不仅在语音识别、 语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许 多领域。a t & t 贝尔实验室在构造说话人无关( s i ) 的语音识别系统方面 进行了一系列试验,提出了大量复杂的聚类方法,用来研究不同说话人 群的分类模式,他们的工作成果后来为人们广泛地采用。来自i b m 的 b a k e r 和j e l i n e k 等人开创了应用统计方法解决语音识别的问题 1 0 , b a u 和b a k e r 分别研究了隐马尔可夫模型理论在语音识别中的应用。在 美国国防部a r p a ( a d v a n c e d e s e a r c hp r o j e c t sa g e n c y ) 计划支持下, 研究人员开发出了h a p p y 、h e a r s a y i i 铮吾静:踢0 系统。 到了八十年代,语音识别的研究进一步深入,显著标志是矢量量化 技术( v e c t o rq u a n t i z a t i o i l ) 、隐马尔可夫模型和人工神经元网络在语 音识别中的成功应用 3 4 。1 9 8 7 年i b m 采用v q h m m 开发了一个具有 2 0 0 0 词汇的特定人孤立字识别系统t a n g o r a - 2 0 ;1 9 8 8 年c m u 用同样方 法建立了个9 9 7 个词汇的非特定人连续语音识别系统s p h i n x 5 。同 时,统计语言模型也开始应用到语音识别中 6 7 。 进入九十年代之后,在各方面的推动下,语音识别技术获得了更深 入而广泛的研究,并逐步从实验室走向市场。由于隐马尔可夫模型结构 简洁、训练识别算法完善以及计算量小等优点,逐渐成为语音识别研究 一壁立墨堑韭壁塞厶亟塞塑量童塑型羹查笪婴塞皇查舅 的主流。随着计算机的普及、通讯和网络技术的发展,信息时代已经来 临,语音识别技术正日益显示出它的优越性和巨大的市场潜力。除了知 名大学的研究机构( 麻省理工学院、卡耐基梅隆大学、约翰霍普金 斯大学、剑桥大学等) 一直在做基础研究和应用之外,许多国际著名的 大公司电纷纷投以巨资加强这方面的研究和开发能力,如i b m 、贝尔实 验室、d r a g o n 、b b n 、l h 、m i c r o s o f t 等。 汉语语音识别相对来说起步较晚,但在国家8 6 3 高科技计划、中科 院八五攻关计划以及国家9 7 3 计划的大力支持下,国内的一批科研院所 ( 如中科院自动化所、声学所,清华大学,北京大学等) 进行了汉语大 词汇量连续语音识别的研究,取得了许多研究成果,使得汉语语音识别 得到快速发展。例如,经过多年的努力,中科院自动所的汉语大词汇量 连续语音识别系统的性能已经达到国际水平,与i b m 和m i c r o s o f t 等知 名公司的产品性能接近,而且在语音识别技术产品化上也迈出了一大步, 开发出了拥有自主知识产权的语音识别产品。鉴于汉语语音识别产品市 场前景广阔,许多知名大公司都在中国设立研究中心进行这方面的研发, 如i b m 、m i c r o s o f t 、i n t e l 等 8 。 语音识别的发展走过了一条漫长的路,从孤立字识别到连续语音识 别,从小词汇量到大词汇量,从朗诵式语音识别到口语语音识别、广播 语音识别等,并开始融合自然语言理解技术,开创了多语种语音翻译, 研究的领域越来越宽广和深入,研究的问题也越来越复杂。 1 3 语音识别面临的挑战 经过近5 0 年的研究和发展,语音识别技术取得了重大进展,汉语语 音识别技术也取得了长足的进步,开发出了些相对成功的应用系统。 但是目前语音识别技术和人们的期望还有很大的距离,其实现远比人们 当初想象的困难。主要表现在以下几个方面: l 。语音信号的多变性、动态性和瞬时性:不同发音人、不同发音 环境导致语音信号的变化;即使是同一发音人发同一个音,也 会因当时的生理和心理情况而有所不同;句子语调、重音的变 化及连续语音中协同发音、丢音、吃音现象都会影响语音信号。 人们目前还没有找到一种不受或少受这些音素影响的稳定的语 引言 音特征参数。语音信号随时间变化的动态特性和瞬时性用孤立 的分析方法或常规的平稳过程都难以准确描述。 2 语言建模的不完善性:从声学识别结果到语言序列输出需要具 有极强的语言分析和组织能力的语言模型。要建立这样的模型, 就需要对语言有透彻的分析和了解。而目前无论是基于规则还 是基于统计的语言分析方法都不足以建立精确高效的语言模 型。 3 对说话人发音的限制性:目前的非特定人识别系统要求说话 人的普通话要相当标准,略带地方口音时识别率就会有比 较大的下降。另外非特定人的识别还不仅仅是口音问题,更 重要的是生理差异带来的发音特征差异及不同的心理精神 状态带来的发音变化,都可能影响到识别的效果。这些因 素都极大地限制了语音识别技术的应用范围。 1 9 9 2 年,美国科学基金会( n a t i o n a ls e i e n c ef o u n d a t i o n ) 发起 举行了一次研讨会,专门讨论有关语言技术所面临的挑战。其中关于语 音识别技术面临的主要挑战有 1 : i 鲁棒性( r o b u s t n e s s ) :目前的语音识别系统在训练与测试条件 致的情况下,其识别率很高,但如果测试与训练的声学环境 和通道特性不同时,系统的性能就会严重下降。 2 可移植性( p o r t a b i l i t y ) :目前的系统在移植到新的领域时性 能往往明显下降,为恢复性能,往往需要在新的领域重新做大 量的训练工作,需要大量的时间和开销。可移植性就是指在新 的应用领域迅速开发出识别系统的能力。 3 自适应( a d a p t a t i o n ) :系统如何根据环境的变化,自动调整其 参数以提高系统在新环境下的性能。 4 语言模型( l a n g u a g em o d e l i n g ) :目前,语音识别系统主要利 用统计语言模型来减小搜索空间和解决声学识别结果的歧义问 题。但随着词表的增加,更多的约束信息显得越来越重要,因 此,如何在统计语言模型的基础上结合句法和语义信息也是一 个难题。 一 堂蕉墨堕j e 赞童塑童塑重童塑型燕查盟塑塞量堕旦 5 可信度度量( c o n f i d e n c em e a s u r i n g ) :当前的识别系统主要是 根据候选词得分的高低来判断识别结果。而分数的高低只能说 明一个候选比另一个候选好或者坏,但无法说明某个候选是不 是正确的识别结果,因此如何估计识别结果的可信度在许多应 用场合是非常必要的。 6 集外词( o u t o f v o c a b u l a r yw o r d s ) :目前的语音识别系统总 有词表的限制。但在实际应用中,用户无法确切地知道哪些词 是集内词,哪些词是集外词,因此不可避免地使用一些不在系 统词表中的词,这就要求系统本身具有检测和处理集外词的能 力。 7 口语问题( s p o n t a n e o u s ) :一个能够实用的识别系统必须能够 处理各种各样的口语现象,例如:重复、停顿,以及其它大量 不符合语法习惯的语言现象。这个领域还有大量的工作需要做。 8 韵律信息( p r o s o d y ) 的利用:韵律信息指的是说话之中的重音、 语调等超音段信息。许多实验表明,入的听觉从说话的韵律中 获取了很多重要信息。但目前的语音识别系统却忽视了韵律信 息。因此,如何在语音识别中结合韵律信息还有待于更进一步 的研究。 正是由于语音识别技术存在的上述问题,使得语音识别技术在一定 程度上还不能满足各种用户提出的各种不同的要求。这种状况严重影响 该技术的推广和在各种领域内的渗透,是目前语音识别面临的重大挑战。 1 4 嵌入式语音识别中的问题 过去人们研究语音识别的目标主要集中在大词汇量、非特定人、连 续语音识别( l v c s r ) 上,把p c 作为系统实现和评测的平台。然而从目前 的情况看,尽管对l v c s r 的研究取得了重大的突破,基于l v c s r 的系统 在实验室环境下取得了良好的效果,但是其实际系统的推广并不成功。 主要原因是由于前述语音识别技术中面临的主要问题并没有得到很好的 解决,并且l v c s r 词汇量过大,导致系统对应用环境、说话方式等还有 很大的限制。 近年来,随着移动通信的迅速发展、p d a 和智能家居等应用的兴起, 人们发现语音作为一种方便的人机交互手段,在上述领域中的应用有着 巨大的潜力。因此许多国内外的研究者把开发重点转移到面向消费类电 子的嵌入式语音识别中来,并且为了降低成本和提高使用的方便性,已 经开始对语音芯片的研究和设计工作。 在工业控制、智能家居、汽车电子、智能玩具及p d a 等领域中,人 机语音交互主要是孤立的命令词。因此研究嵌入式系统中高性能的孤立 词语音识别算法具有重要的实际意义,这已经成为当前各大科研机构、 公司研究的热点之一。在这一应用的实现过程中,还有许多问题亟待解 决: 1语音识别技术中的普遍问题依然存在,如稳定的语音特征参数 的选取,对说话人发音的限制性等。 2 建模方法和识别算法的选取和优化。以往许多成功的建模和识 别算法都是基于p c 平台的,有些算法对于计算和存储资源都很 有限的嵌入式系统来说是无法实现的。因此必须在保证识别效 果的基础上研究对资源消耗小的建模和识别算法。 3 高效的自适应算法。非特定人语音识别系统往往要求说话人的 普通话比较标准,而实际中消费类电子产品的使用者一般是某 个特定人,所以在非特定人系统快速实现说话人自适应对提高 系统性能具有重要意义。 4 有效的集外词检测算法。实际应用中系统是开放的,因此不可 避免地要引入关门,呼吸,咳嗽声和无关命令等集外词,不具 有检测和处理这些集外词的能力的系统是无法正常使用的。 1 5 论文的内容和组织 本文研究的对象是嵌入式系统中孤立词语音识别技术,研究的重点 是探寻对资源消耗小的有效的建模和识别算法。本文的内容安排如下: 在第二章中,首先对主流的孤立词识别算法做了一个简单介绍,进 而提出了一种新的基于声学基元建模、整词匹配的语音识别算法。并研 究了该算法在采用不同的特征参数,不同的模型参数设置条件下的性能 壁蔓丕堑i ! 蹙重堡塞旦量童堡型堇垄盟盟窒量些旦 和对系统资源的消耗,最后研究了段长信息在该算法中的应用。 在第三章中,主要研究孤立词识别系统中的自适应技术,首先介绍 并评价了一些主流算法,然后针对嵌入式系统中的孤立词识别问题改进 了两种不同的自适应算法,并通过一系列实验测试了采用自适应技术后 识别系统的性能。 在第四章中,主要研究了孤立词识别系统中的集外词检测技术,首 先介绍了一些主流的算法,并比较了在非特定人和特定人条件下集外词 检测技术的差异,进而针对我们的系统选取了几种有效的技术,最后通 过实验测试了改进后系统的性能。 在第五章中,主要研究了孤立词识别系统在嵌入式平台的实现问题, 首先介绍了基于d s p 的孤立词识别系统的硬件结构,然后研究了识别算 法在系统实现中的软件模块设计,最后评估了完整的孤立词语音识别模 块的各项性能指标。 在第六章中,主要是对论文所做的工作进行总结,并对今后的研究 工作提出一些自己的目标和展望。 釜三里垫皇型堕童塑型堇查塑婴窭 第二章孤立词语音识别技术的研究 尽管大词汇量连续语音识别代表了当今语音识别技术的最高水平, 但是中小词汇量语音识别的研究仍然具有非常重要的意义。尤其是在语 音识别技术实用化、产品化方面,由于中小词汇量语音识别难度相对较 小,技术比较成熟可靠,因而具有非常广阔的应用前景。首先,在某些 场合下,比如电话语音拨号、系统语音导航等,中小词汇量语音识别系 统就足以应付,没有必要大材小用,使用大词汇量语音识别系统。其次, 在计算无所不在的未来社会,可以想象大多数的计算设备都将具有语音 交互接口。大词汇量连续语音识别在绝大多数的低端设备上( 比如嵌入 式设备、p a l m p c 、移动电话等) 是难以运转的,而中小词汇量语音识别 对计算资源的需求要小得多,必定会大有用武之地。另外,从语音识别 发展的历史来看,许多语音识别技术都是在中小词汇量语音识别系统中 孕育、成熟并逐渐过渡到大词汇量语音识别系统中的。反过来,大词汇 量语音识别技术也可以在中小词汇量语音识别系统中得到检验和完善。 2 1 语音识别算法综述 当前语音识别的主流方法是基于隐马尔可夫模型( 删和统计语言 模型( & 肋的统计识别方法。其基本原理如下: 将待识语音记做s ,经过语音前端处理后得到一个对应的语音特征序 列0 ,记做0 = o 。,o :,d ,) ,s 对应的句子可以看作是由许多词组成的 一个词串,记做= w 。,w :,w 。( w ,v , 1 i 行) 。语音识别器的任务就 是根据已知的语音特征序列0 ,求出最可能的词串妒。用形式化的表述 就是寻找满足以下表达式的旷,使得 矿= a r g m a x p ( w 1 0 1 ( 2 1 ) w 其中p ( w l o ) 表示在特征序列o = o 。,0 :,o , 已知的前提下,s 对应 的词序列为w = w ,w :,w n 的概率。根据b a y e s 公式,可以将( 2 1 ) 的右 半部改写为如下形式: 尸r w l 0 1 :p ( w ) p ( o i w ) ( 2 2 ) p ( o ) 其中p ( 0 1 w ) 表示在给定词串w 的前提下,语音特征序列。出现的条 嵌入式系统非特定人孤立词语音识别技术的研究与应用 件概率:p ( w ) 表示词串w 独立于语音特征序列的先验概率;p ( o ) 表示 出现语音特征序列0 的概率,可以表示为: 尸( o ) = e ( w ) p ( o 【) ( 2 3 ) w 在进行语音识别时,0 是已知并确定的,根据式子( 2 1 ) ( 2 3 ) , 识别器的目标就是要找到满足下式的词串旷,使得: w = a r g m a x p ( ol ) p ( 矿) ( 2 4 ) 由( 2 4 ) 可以看出,在统计语音识别过程中需要估计三种参数。一个是需 要从语音信号s 中提取出声学特征参数o ,通常是由语音处理前端完成 的;另一个是计算声学概率p ( o l 矿) ,由声学模型完成;第三个是计算 语言概率p ( 渺) ,由统计语言模型完成。语音处理前端、声学模型和语言 模型三者共同作用于旷的搜索解码过程中,构成了统计语音识别系统的 基本框图( 见图2 1 ) 。 2 1 1 前端处理 图2 1 语音识别系统框图 识蜘蝽黎 语音前端处理的作用就是对语音信号进行采样、a d 转换、特征提取 等处理,得到后续识别过程所需的语音特征序列。 语音信号所占频率范围达1 0 k h z 以上,但是对语音清晰度和可懂度有 明显影响的成分,其最高频率约为5 7 k h z 1 5 。语音识别中用到的语音主 要来自于低于8 k h z 的频谱分量,因此利用一个带通滤波器,可以将此频谱 范围内的语音信号提取出来,然后用8 k h z 或1 6 k h z 的采样率对语音信号进 行采样,得到所需的数字信号。 苤三童堡皇型堕量望型垫查曲堑塑 在提取语音特征参数之前,首先要对语音信号进行预加重。由于声门 脉冲形状和口唇辐射的影响,语音频谱呈现高频衰落的现象,能量大多集 中于低频带。通过预加重进行高频提升,可使语音频谱趋于平缓,有利于 后续识别。通常的做法是使用一个简单的一阶有限冲击响应( 脚滤波器。 语音信号是一种非平稳的随机信号,但是由于人的发音器官的物理运 动过程相对于声波振动来讲要缓慢得多,所以我们可以把语音信号看作是 短时( 1 0 5 0 m s ) 平稳的 1 4 儿1 5 。在此情况下,我们可以利用短时傅立叶 分析等稳态分析方法对语音信号进行频谱分析。所以通常把语音信号分成 跃度为2 0 3 0 m s ,步长为1 0 1 5 m s 的相互重叠的帧。 为了避免在频域分析中产生泄露现象,通常要对各帧语音信号进行加 窗处理。常用的窗函数有汉明( h a m m i n g ) 窗和汉宁窗( h a r m i n g ) 。 语音信号中携带有许多有用的信息,这些信息对于识别起决定性的作 用。特征提取就是把能很好描述这些信息的某种参数从语音信号中提取出 来,用以后续的识别过程。特征的选择对识别效果至关重要,选取的标准 应体现对异音字特征间的距离尽可能大,而各同音字间的距离尽可能小。 同时,还要考虑特征参数的计算量,应在保持高识别率的情况下,尽可能 减少特征维数,以利于减小存储要求和实时实现。语音时域的特征参数包 括短时过零率、短时能量、基音周期等,短时过零率和帧能量参数是语音 信号起始点检测的重要参数,基音周期可用于清、浊音判决。反映短时谱 包络的特征参数是语音识别中采用的主要特征参数,其主要包括:带通滤 波器组的频谱参数,线性预测系数( l p c ) 1 7 1 8 ,线性预测倒谱系数 ( l p c c ) 1 9 ,感知线性预测( p l p ) 2 0 和m e l 频率倒谱系数( m f c c ) 2 1 等。 其中m f c c 的鲁棒性最好,因此应用比较广泛,特征提取框图如图2 2 所示。 图2 2m f c c 特征参数的提取过程 m f c c 参数提取过程中,m e l 滤波的作用是利用同人耳听觉特性相似的 三角滤波器组对语音信号的幅度平方谱进行平滑。对数( 1 0 9 ) 操作的用途 璧塞墨堑j e 鳖室厶亟宴塑造童塑型基查笪型窭皇堕旦 主要有两点,一是压缩谱的动态范围,二是同态分析。离散余弦变换( o c t ) 主要用来对不同频段的频谱成分进行解相关处理,以满足 删建模中各维 特征向量之间统计独立的假设。倒谱均值相减( c m s ) 1 6 的作用是降低系 统对通道特性变化的敏感程度,从而提高系统的鲁棒性。 2 1 2 声学模型 我们回到公式( 2 4 ) ,另一个值p ( o i 1 也是识别器必须确定的,它 表示当说话人说这个词串时,观测到的语音数据为。的概率。由于对 每一对可能的d 和,我们都必须知道p ( ol 矿) 的值,这对较大词汇量 非特定人的语音识别来说显然是难以计算的。在这里,我们引入声学模 型来解决这问题。 声学模型 的建模单元一般都是发音的基元,如音节、声韵母、音 素等,但必须满足一点,就是任何可能的词串矿,都必须由旯的子集所 表示。比如说,用汉语中4 0 9 个无调音节作为建模单元的话,当渺为“中 华人民共和国时,兄就是“z h o n gh u ar e nm i ng o n gh eg u o ”。由此 可见,p ( o 矽) 实际上就变成p ( o f 五) 。由于五的模型数较少,问题就变 得可解了。 由于语音信号本身具有时变的动态特性,为了在声学模型上很好地 反映这一特性,r a b i n e r 等人引入了由b a u m 在1 9 7 2 年首先提出的隐马 尔可夫模型( h m m ) ,并对h m m 在语音识别中的应用进行了大量的研究,使 得基于h m m 的语音识别技术不断走向成熟。另外也由于h m m 本身对语音 信号的时变性有很强的建模能力,从8 0 年代以来,h m m 己成为声学模型 的主流。为节约篇幅, m m 模型的原理,三大问题的求解此处省略,有 兴趣的读者请看考文献 2 。 h m m 虽然在语言识别领域应用中获得了很大成功,但是它本身还存 在很大的局限,主要表现在三个方面:一是描述状态驻留的能力差;二 是帧间不相关的假设;三是以短时帧为基础的特征提取的限制。人们为 了消除这些局限性,提出了各种各样的改进和新的模型。m a r io s t e n d o r f 等人在对各种随机模型进行总结归纳的基础上提出了分段模型 3 2 。另 外神经网络已经被应用于语音识别中 3 3 ,但目前为止,还没有一种神 经网络语音识别性能可与h m m 语音识别系统性能相比,其主要缺点是不 容易解决时间对齐问题。目前比较成功的神经网络语音识别系统主要针 第二章孤立词语音识别技术的研究 对小词表识别任务。 2 1 3 语言模型 在语音识别过程中,语言模型所担负的功能是计算词串的先验概 率p ( ) 。语言模型通常可以分为两大类:基于知识的语言模型和统计语 言模型。目前在大词汇量语音识别系统中使用比较成功的是统计语言模 型。由于本文研究的对象是嵌入式系统中的孤立词识别问题,其识别算法 中很少用到语言模型,所以对这部分的介绍一笔带过。 2 1 4 解码器 语音信号经过前端处理求得特征参数后,解码过程就是利用声学模 型、语言模型知识,找到发音与此特征参数具有最高似然度的词串。这在 实质上是一个模式匹配的问题。对于固定的小词表来说,往往采用d p 算法 直接计算待识语言特征序列和词表中所有模型的匹配得分,把得分最高的 模型对应的词作为识别结果。对于大词汇量连续语音识别,的空间是 十分巨大的,我们不可能用直接匹配的方法,而必须采用搜索策略。搜索 过程可以利用的知识包括声学知识、语音学知识、语言学知识以及语法语 义知识。这些知识从下至上组成一个三层框架,框架的底层是声学层,其 上是语音层,最上是语言层 3 4 。在基于h m m 的系统中,声学层由删的状 态构成,空间中的每个点表示一个h 姗的状态,状态间的连接受删拓扑结 构的约束;语音层由 l m m 模型串构成,空间中的每个点表示一个h m m 模型, 模型间的连接受发音词典的约束;语言层由词典中的词组成,空间中的每 个点表示个词,词之间的连接受语言知识的约束。每一层都是一个有权 的有限状态网络( f s n ) ,节点的连接方式和弧的权重都是由知识提供的。 层与层之间相互作用,上层对下层起到语法约束作用,下层是上层的深层 表示。 语音解码就是在这样的层次框架中完成:语言信号经特征提取后得到 语音特征序列,首先被送入声学层进行匹配,匹配结果为h 状态序列, 然后根据语音层知识的指导,将h 状态序列转化为h m m 模型串,最后在语 言学知识的约束下搜索得到句子。 对于一个搜索问题,基本的求解策略主要分为两大类:宽度优先搜索 和深度优先搜索。具体到语音识别中的搜索,时间异步的堆栈搜索和a + 搜 墼式系统非特定人孤立词语音识别技术的研究与应用 索是常用的深度优先搜索 2 4 。因搜索问题不是本文研究的重点,在此 不做更深入的探讨。 2 2 主流孤立词识别算法 近年来非特定人孤立词语音识别技术( i w r ) 取得了巨大的发展,识别 率达到9 9 以上,而且由于其算法可以在单片机、d s p 等嵌入式系统中 实现,是目前最接近实际应用的语音识别技术。它在智能家居系统、车 载系统以及掌上电脑等领域中有着广泛的应用前景。 目前在非特定人i w r 系统中普遍采用的算法按照解码器的不同主要 分为三种:第一种是采用d t w 算法进行模式匹配的方法 2 5 ;第一种是 采用h m m 算法整词建模,整词匹配的方法;第三种是基于声韵母建模和 词树搜索的方法。 2 2 1 采用d t w 算法进行模式匹配的方法 2 2 1 1d w 算法基本原理 该方法的基本原理是:在训l 练阶段,用户将词汇表中的每一个词依 次说一遍,并且将其特征矢量序列作为模板( t e m p l a t e ) 存入模板库中; 在识别阶段,将输入语音的特征矢量序列依次与模板库中的每一个模板 进行似然度比较,将相似度最高者作为识别结果输出。为了得到好的识 别效果,说话者在训练和识别阶段的说话速度应当一致,但是这很难做 到。因此需要采用d t w 算法克服说话速度不均匀造成的时间伸缩变换这 一困难。 将已存入模板库的各个词条称为参考模式,个参考模式可表示为 忸( 1 ) ,r ( 2 ) ,r ( m ) ,r ( m ) 。m 为训l 练语音帧的时序标号,m = 1 为起 点语音帧,肌= 肘为终点语音帧,因此m 为该模式包含的语音帧总数, 尺f 矾1 为第m 帧的语音特征矢量。所要识别的一个输入词条语音称为测试 模式,可表示为仁( 1 ) ,r ( 2 ) ,r ( ”) ,7 _ ( ) ,”为测试语音帧标号,模 式中共包含帧语音,v ( n ) 为第一帧的特征矢量。参考模式和测试模式 采用相同的特征矢量、帧长、帧窗形以及帧移。 假设测试和参考模式分别用r 和r 表示,为了比较它们的相似度, 可以计算他们之间的失真d ( n ,m ) ,失真越小相似度越高。为了计算这 1 4 一失真,应从f 和r 中各个对应帧之间的失真算起。设n 和m 分别是丁和 尺中任意选择的帧号,d ( n ,m ) 表示这两帧特征矢量之间的失真。如果我 们枚举从( 1 ,1 ) 到( ,m ) 的所有可能累计失真得分,从中找到最小值,那 么从( 1 , 1 ) 到( n ,m ) 的路径个数将是指数级的。我们可以事先规定好匹配 路径,比如采用线性扩张映射方法使参考模式和测试模式的帧数相同, 然后按照n = m = 1 ,h = m = n 的路径计算失真得分。该方法的缺点是 由于语音中各个段落在不同情况下的持续时间会产生或长或短的变化, 造成识别效果不可能是最佳的。为了达到最佳效果,可以采取动态时间 弯折( d t w ) 的方法。d t w 是采用动态规划技术( d p ) 将一个复杂的全局最优 化问题转化为许多局部最优化问题一步一步地进行决策,这样可以减少 很多不可能的规划路径。d t w 的过程图如图2 3 所示。 d t w 算法的递推公式为:d ( n ,m ) = m一,女) + ,m ) , i n d ( n 1 d ( k x 当系统用于特定人时,只需用户在训练阶段将词汇表中所有词条说 一一遍并存入模板库即可。如果要将系统推广到非特定人情况,则应将很 多用户的模板都存入模板库,也就是说每一个词条都有很多套模板。在 识别时,将输入语音与一个词条的各模板分别进行比较,以最小的失真 作为输入语音与该词条之间的失真。如果用以训练的用户数很大以得到 较好的识别效果,那么需存的样本数量太多,使得存储和搜索都有困难。 为此可以采用聚类的方法将若干相似的模型合在一起用一个模板代替。 图2 3d t w 的过程图 2 2 1 2d i w 算法的优缺点 1 ) r r w 算法的优点是既简单又有效,对于小词汇量孤立词识别系统十 分适用。但是它没有一个有效的用统计方法进行训练的框架,也不容易 一 塑墓墨筮i e 壁塞厶塑童塑重童塑型量查笪型塞量查旦 将底层和顶层的各种知识用到识别算法中,因此在解决较大词表、非特 定人语音识别问题时较之h m m 相形见绌。 2 2 2 采用h m m 算法整词建模、整词识别的方法 2 2 2 1 算法基本流程 假定识别系统的词汇表共包括矿个词条,那么在训练阶段需要很多 个说话人分别将这些词条说一遍并存入数据库中。利用这些训练数据可 以为每个词条建立一套h 参数丑,“= 1 v 。如果采用离散h ,则 五,= a 。,a ,b 。) ,如果采用连续 删,则五= 执l ,一,兄。 ,上是为h 删 设置的状态数,其中五。,= 口,a 。, c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论