(电路与系统专业论文)汉语小词汇量非特定人关键词检出算法研究.pdf_第1页
(电路与系统专业论文)汉语小词汇量非特定人关键词检出算法研究.pdf_第2页
(电路与系统专业论文)汉语小词汇量非特定人关键词检出算法研究.pdf_第3页
(电路与系统专业论文)汉语小词汇量非特定人关键词检出算法研究.pdf_第4页
(电路与系统专业论文)汉语小词汇量非特定人关键词检出算法研究.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 关键词检出是语音识别研究中的一个重要领域,其目的是从连续语音中检测 出并确认给定的若干个特定关键词。跟关键词检出相比,目前连续语音识别有资 源耗费大,速度慢,抗噪能力不强等缺点,这是连续语音识别短期内难以突破的 问题所在。而关键词检出允许在嘈杂的环境中使用,因此在当前技术水平下,许 多应用领域不适合连续语音识别,而要求关键词检出,这一课题的研究如能取得 突破性进展,则将大大有助于拓宽语音识别系统的应用领域。 由于本论文在关键词检出方面的研究刚刚起步,且非特定人大词汇量关键词 检出系统需要建立词典,涉及到很多语言学知识,并且需要大型语料库,因此本 论文主要研究了汉语小词汇量非特定人关键词检出算法,结合汉语语音的特点, 提出了一种新的关键词检出算法:在语音信号预处理阶段,首先对信号进行小波 变换,然后引入t e a g e r 能量算子,将连续语音信号切分成音节;选用m e l 倒谱 系数( m f c c ) 作为语音信号的特征参数;采用连续隐马尔可夫模型对关键词和非 关键词建模;在搜索识别阶段,以词( 双音节) 为搜索单位,采用v i t e r b i 算法 进行词内解码,大大减少了搜索空间,提高了搜索效率,降低了算法复杂度;在 关键词确认阶段,采用似然比检验的值作为置信度,实现了无语法限制的基于识 别一确认两级结构的关键词检出。 本文用m a t l a b7 0 软件作为编程和测试平台,用a d o b ea u d i t i o n l 5 在实验室 环境下录制语音信号,建立小型语料库进行离线训练和在线识别。实验结果表明, 本论文提出的算法具有有效性及可行性,适用于汉语非特定人小词汇量关键词检 出系统。 关键词:关键词检出;连续隐马尔可夫模型( c h m m ) ;t e a g e r 能量算子;m f c c 系数;小波变换 a b s t r a c t k e v w o r ds p o t t i n gi sa l li m p o r t a n ta r e ai ns p e e c hr e c o g n i t i o n i t so b j e c t l v e 1 st o i d e n t i f ya n dv e r i f ya f e ws p e c i f i e dk e y - w o r d si nc o n t i n u o u ss p e e c h c o m p a n n gw l t h k e v w o r ds p o t t i n g ,c o n t i n u o u ss p e e c hr e c o g n i t i o nn e e d sm o r e r e s o u r c e sa i l d 1 t s p i o c e s ss p e e di ss l o w e r ,a n di t sm o r ev u l n e r a b l et o n o i s e s oi nt h ea r to fs t a t e , c o n t i n u o u ss p e e c hr e c o g n i t i o ni s n o ts u i t a b l ei nm a n ya p p l i c a t i o n sa n dk e y w o r d s p o t t i n gi sp r e f e r r e d i fw eg r e a t l ya d v a n c et h i st e c h n o l o g y , i tw i l lb eag r e a th e l p t o e x p a n ds p e e c hr e c o g n i t i o na p p l i c a t i o n s s i n c et h er e s e 锄c ho nk e y w o r ds p o t t i n go ft h el a b h a sj u s ts t a r t e d ,t h ef o u n d a t i o n o fl a r g ev o c a b u l a r yk e y w o r ds p o t t i n gs y s t e mn e e d s t oc r e a t ed i c t i o n a r yw h i c n r e q u i r e sal o to fl i n g u i s t i ck n o w l e d g ea n d a l s on e e d sab i gs p e e c hd a t a b a s e ,t h ep 印e r m a i n l vs t u d i e ss i n a l lv o c a b u l a r ys p e a k e r - i n d e p e n d e n tc h i n e s ek e y w o r ds p o t t i n g i n v i e wo ft h ec h a r a c t e r i s t i co fc h i n e s es p e e c h ,an e wk e y w o r ds p o t t i n ga l g o r i t h m i s p r o p o s e d i nt h ep r e p r o c e s s i n gp a r t ,c o n t i n u o u ss p e e c hs i g n a lw i l lb e d i v i d e di n t 0 s v l l a b l e st h r o u g hw a v e l e tt r a n s f o r ma n dt e a g e re n e r g yo p e r a t o r i nf e a t u r ee x 们c t l o n , t h em f c cp a r a m e t e r sa r ec h o s e n c o n t i n u o u sh i d d e nm a r k o vm o d e l ( c h m m ) i s u s e dt ob u i l da 0 0 u 妣m o d e l t h ed e c o d i n gp r o c e s si nc h m m i sb a s e do nv i t e r b l a 1g o tit h m a n de v e r yt w oa d j a c e n ts y l l a b l e s w i l lb es e a r c h e dt o g e t h e rm t h e r e c o g n i t i o np r o c e s s t h i sm e t h o dh a ss e v e r a la d v a n t a g e s i tc a ni m p r o v et h e s e a r c h e f f i c i e n c y r e d u c et h es e a r c hs p a c ea n d t h ea l g o r i t h mc o m p l e x i t y l i k e l i h o o dr a t i ot e s t i sc h o s e ni nk e y w o r dv e r i f i c a t i o n a l lo fa b o v e a c h i e v et h es m a l lv o c a b u l a 巧 s p e a k e r i n d e p e n d e n tc h i n e s ek e y w o r d s p o t t i n g s p e e c hs i g n a l sw e r eg o ti n l a b o r a t o r y t h er e s u h s o ft r a i n i n ga n dt e s t l n g c o n f i r m e dt h ef e a s i b i l i t ya n dv a l i d i t yo ft h em e t h o di nt h i sd i s s e r t a t i o n ,a n d i tw i l l p l a y 姐i m p o r t a n tr o l ei ns m a l lv o c a b u l a r ys p e a k e r - i n d e p e n d e n tc h i n e s ek e y w o r d s p o t t i n g k e yw o r d s :k e y w o r ds p o t t i n g ;c o n t i n u o u sh i d d e nm a r k o v m o d e l ( c h m m ) ;t e a g e r e n e r g yo p e r a t o r ;m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) ;w | a v e l e t t r a n s f o r m i i 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位敝储躲独 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:整 e l 期:礁盟:量:圣z 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日期: 电话: 邮编: 东北师范大学硕士学位论文 1 1 语音识别概述 第一章绪论 语言是人类最重要的交流工具,它自然方便,准确高效。语音是语言的声学 表现形式,是获得信息的重要来源之一。语音信号处理是语音学与数字信号处理 技术相结合的交叉学科,它以语音为研究对象,涉及心理学、生理学、认知科学、 语言学、计算机科学、人工智能和模式识别等多项研究领域。语音信号处理的研 究方向有很多,包括语音编码、语音合成、语音识别和音频水印等。 让计算机能“听懂人类的语言,是人与计算机之间进行沟通的最方便的形 式之一,也是科学工作者一直追求的目标。语音识别( s p e e c hr e c o g n i t i o n ) 是 机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其 根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理 解人的意图,并做出相应的反应。从技术上看,它属于多维模式识别和智能接口 的范畴。语音识别技术可广泛应用在信息处理、通信与电子系统、自动控制等领 域,近年来,还出现了一些新的应用方向,如语音信息检索,发音学习技术等。 语音识别按照不同的规则,有不同的分类方法: ( 1 ) 按词汇量大小分。每个语音识别系统都有一个词汇表,系统只能识别词汇 表中所包含的词条。通常按词汇量可分为小词汇量( 1 0 - - 一1 0 0 个词) 、中词汇量 ( 1 0 0 - - 5 0 0 个词) 和大词汇量( 5 0 0 个词以上) 。一般情况下,语音识别的识别 率会随着词汇量的增加而下降。 ( 2 ) 按发音方式分。语音识别可以分为孤立词( i s o l a t e dw o r d ) 识别、连接词 ( c o n n e c t e dw o r d ) 识别、连续语音( c o n t i n u o u ss p e e c h ) 识别以及关键词检 出( k e y w o r ds p o t t i n g ) 等。在孤立词识别中,机器只是识别一个个孤立的音节、 词或短语等,并给出具体识别结果;连续语音识别中,机器识别连续自然的书面 朗读形式的语音;而连接词识别中,发音方式介于孤立词和连续语音之间,它表 面上看像连续语音发音,但能明显的感觉到音与音之间有停顿。这时通常可以采 用孤立词识别的技术进行串接来实现;关键词检出,通常用于说话人以类似自由 交谈方式的发音,这种发音称为自发( s p o n t a n e o u s ) 发音方式,在这种发音方 式下,存在着各种各样影响发音不流畅的因素,如犹豫、停顿、更正等,并且说 东北师范大学硕士学位论文 话人发音中存在着大量不是识别词表中的词,判断理解说话人的意思,只从其中 一些关键的部分就可以做出决定,因此只需要进行其中的关键词识别。 ( 3 ) 按说话人分。可分为特定说话人( s p e a k e r d e p e n d e n t ) 和非特定说话人 ( s p e a k e r i n d e p e n d e n t ) 两种。前者只能识别固定某个人的声音。其他人要想 使用该系统,必须事先输入大量的语音数据,对系统进行训练;而对后者,机器 能识别任意人的发音。由于语音信号的可变性很大,这种系统要能从大量的不同 人( 通常3 0 4 0 人) 的发音样本中学习到非特定人的发音速度、语音强度强度、 发音方式等基本特征,并归纳出其相似性作为识别的标准。 ( 4 ) 从语音识别的方法分。有模板匹配法、随机模型法和概率语法分析法。这 些方法都属于统计模式识别方法。其识别过程大致如下:首先提取语音信号的特 征构建参考模板,然后用一个可以衡量未知模式和参考模板之间似然度的测度函 数,选用一种最佳准则和专家知识做出识别决策,给出识别结果。其中模板匹配 法是将测试语音与参考模板的参数一一进行比较与匹配,判决的依据是失真测度 最小准则。随机模型法是一种使用隐马尔可夫模型( h m m ) 来对似然函数进行估 计与判决,从而得到相应的识别结果的方法。由于隐马尔可夫模型具有状态函数, 所以这个方法可以利用语音频谱的内在变化( 如说话速度、不同说话人特性等) 和它们的相关性。概率语法分析法适用于大范围的连续语音识别。它可以利用连 续语音中的语法约束知识来对似然函数进行估计和判决,也就是自然语言理解。 其中,语法可以用参数形式来表示,也可以用非参数形式来表示。 除此之外,说话人识别、语种识别、语音情感识别也属于语音识别的范畴。 说话人识别瞳1 是指通过对说话人语音信号的分析处理,自动确认说话人是否在所 记录的话者集合中,并进一步确认说话人是谁。说话人识别技术与语音识别技术 在实现方法上有很多相似指出,都是在提取原始语音信号中某些特征参数的基础 上,建立相应的参考模板或模型,然后按照一定的判决规则进行识别。但是两者 识别的目的不同,在处理策略上存在着实质性的差异。在语音识别中,特别是对 非特定人语音识别,为了提取语音信号中所包含的语义信息,应尽可能的将不同 说话人的差异归一化;而说话人识别技术则恰恰相反,力求通过将语音信号中的 语义信息平均化,挖掘出包含在语音信号中的说话人的个性因素,强调不同人之 间的特征差异。语种识别( 1 a n g u a g ei d e n t i f i c a t i o n ) 1 是通过分析处理一个 语音片段来判别其所属语言的种类。由于世界上的不同语种间有着多种区别性特 征,如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语义网格 等,所以在自动语种识别中有多种可以利用的特征。语音情感识别h 3 是指对包含 在语音信号中的情感音素进行分析,在经过预处理和特征提取以后,根据训练和 识别的不同,分别进行不同的处理:训练时产生表征不同情感的模板;识别时, 包含待识情感的语音与情感模板库中的各个模板进行比较,从而确定相应的情感 2 东北师范大学硕士学位论文 类型。 语音识别中,最简单的是特定人、小词汇量、孤立词的语音识别,最复杂最 难解决的是非特定人、大词汇量、连续语音识别。无论是哪一种语音识别,当今 采用的主流算法仍然是隐马尔可夫模型方法。不过近年来,基于神经网络、支持 向量机、遗传算法等语音识别技术方兴未艾。 语音识别本质上是模式识别的过程,由训练和识别两个过程所组成。训练是 指用一定数量的样本( 训练集或学习集) 进行分类器的设计。识别是指用所设计的 分类器对待识别的样本进行分类决策。语音识别系统本质上是一种模式识别系 统。它的基本框图如图1 - 1 所示: 识别 识别结果 图1 - 1 语音识别的原理框图 一个语音识别系统与常规的模式识别系统一样,包含有特征提取,模式匹配 和参考模式库等三个基本单元。但是由于语音识别系统所处理的信息是结构非常 复杂、内容极其丰富的人类语言信息,因此它的系统结构比通常的模式识别系统 要复杂很多。 目前,语音识别热点的研究技术有:鲁棒性语音识别、说话人自适应技术、 大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自 适应语言模型以及深层次的自然语言的理解等等。 1 2 关键词检出 一般我们所讲的语音识别技术主要是指说话者只讲词表以内的词,即说话者 所说的所有的词都是系统已知的。如果话语中还包括许多其它的词,以及各种非 话语的咳嗽声、呼吸声、关门声、音乐声、多人共语声以及背景噪声,采用语音 识别技术把需要的词汇从包含它的连续语句中提取出来,这种技术则称为关键词 3 东北师范大学硕士学位论文 检出( k e y w o r ds p o t t i n g ,简称为k w s ) 瞄3 ,关键词检出也被称为关键词识别 ( k e y w o r dr e c o g n i t i o n ,简称为k w r ) 。 最近的研究经验表明,要设计一个覆盖实际应用中所有词汇的语音识别系统 几乎是不可能的哺1 ,因此如何从连续的语音信号中识别出少量关键词的研究是非 常有前景的。相对于大词汇量的识别系统,关键词检测系统既精确,计算量又小, 而且对于实际的语音数据有较大的弹性n 1 。目前,关键词检出技术具有非常广泛 的应用领域哺1 : 首先,k w s 技术可以应用于智能大楼,智能家居系统中。利用语音控制家居 系统,即将家庭内的各种信息通信设备包括保安系统,电话,电脑,家电,视听 系统等实现语音的智能控制。 k w s 技术还可以应用于电话接听,在一些信用卡认证,代替接线员转接等类 型的任务中,机器只要根据少量的关键词,就可以判断出要执行的任务。例如利 用姓名拨号的自动总机,就是使用小词表的k w s 技术。 在各种人机对话的口语识别系统中,通过采用k w s 技术,不但可以使系统忽 略停顿、支吾、思考语、含糊不清等口语现象,允许自然的说话方式。而且只需 识别若干关键词,并依据上下文和领域知识,就可以实现对语音内容的理解。 还有应用于语音信箱的消息分类( m e s s a g ec l a s s i f i c a t i o n ) 。当接收到语音 消息时,通过对其关键词的检索与识别,把它们按关键词的性质分f - j 另u 类。 国防监听是另一个重要应用。由于出于国家安全的考虑要对电话网络进行监 听,这要耗费大量的人力和时间;而且,由于人的精力是有限的,有时也会把极 其重要的内容忽略掉。但关键词识别器可以日夜监控电话网络,一旦发现有某些 关键词出现,及时预警、跟踪目标。这可以节省人力,同时高性能的k w s 可以做 到真正密切监控。 1 3 关键词检出与连续语音识别的关系 首先,关键词检出的任务是在连续的话语中识别出给定的词,因而它首先是 一种连续语音识别( c o n t i n u o u ss p e e c hr e c o g n i t i o n ,c s r ) :但它又不要求把 整个的语音流全部识别出来,因此可以说关键词检出是连续语音识别的一个分 支。其次,对发音人的要求又不可能像对连续语音识别发音人那么高,因此关键 词检出又不同一于连续语音识别。考虑如下五个方面的差别,k w r 与c s r 有时又 被当作两个不同的问题来处理1 : ( 1 ) 模型的训练问题:c s r 模型往往要经过已知的不同发音人( 尤其是可以包括使 用者在内) 的大量数据进行训练,而k w r 则不大可能将被识别对象的模型进行 4 东北师范大学硕士学位论文 大量的训练。 ( 2 ) 词汇表问题:c s r 要求每个待识别的词( 或单元) 必须是一个有限词表中的一 个,它的词汇表是封闭式的:而k w r 允许输入的语音包含关键词词表外的任何 词,它的词表是开放式的。 ( 3 ) 语法或词法问题:c s r 要求输入语音中的词序列受限于一个有限状态语法网 络,也就是说它要求输入严格符合它所假定的一组句式模型:而k w r 则无此要 求,它不需要输入符合某种旬式模型。 ( 4 ) 发音人的态度:对一个c s r 系统,发音人能够意识到自己正在与机器进行交 流,希望所说的话能够被机器正确识别,故而他们一般持合作的态度,也能够 根据系统的提示重新发音;但在k w r 系统中,说话人常常是毫无准备的,多数 情况是处于自然会话的发音方式,也不太可能重复不太清楚的语句。 ( 5 ) 环境:c s r 系统由于用户的配合往往在比较安静的环境中使用,而k w r 则可能 遇到噪音大的环境。由于这些差异,c s r 的错误率用百分之几衡量,而k w r 的 ( 误警和漏识) 错误率,则要高出一个数量级,常常用百分之十几来衡量。 1 4 关键词检出的研究进展和现状 1 4 1 关键词检出发展史 关键词检出的研究始于7 0 年代,1 9 7 3 年,b r i d l e n 们的文章揭开了关键词检 出研究的序幕,但那时只是称“给定词的检测:c h r i s t i a n s e n 的文章中有了“关 键词 的叫法,他利用信号的l p c 表示对连续语音中的关键词进行检测。 但真正的关键词检出研究应该说是8 0 年代。美国i t t c ( 国际电话电报公司) 国防通讯部的h i g g i n s 和w o h l f o r d 用模版连接的方法实现了k w s ,并提出了补 白( f i l l e r ) 模版的概念。此后的a t & t 的b e l l 实验室w i l p o n 等实现了一个基于 h m m 的5 个电话用语的,可以实用的k w s ,标志着k w s 研究的崛起。美国b b n 系 统和技术公司的r o h l i c e k 妇等也研究了非特定人k w s 的连续h m m 建模问题,同 时给出了k w s 系统的评价标准。 到了9 0 年代,m i t 的l i n c o l n 实验室,d r a g o n 系统公司,以及日本的t o s h i b a 公司等,也相继报告了他们的研究成果。进入二十一世纪初,美国哈佛大学计算 机学院也对关键词检出相关技术进行了研究。a u d i oc o d e s 公司在2 0 0 4 年9 月 生产了一个实时关键词检测产品w o r d a l e r t ,它是结合a i - l o g i x ss m a r t w o r k s 和自然语音对话建立的语音识别模版的产品,这种产品主要应用在电话语音记录 和语音监听中的质量安全确认中,大大节省了公司的时间和金钱。 5 东北师范大学硕士学位论文 国内对关键词检测的研究相对国外来说不是很多。近几年来,通过借鉴国外 的相关技术,我国在这方面也取得了一定的成绩。清华大学智能技术与系统国家 重点实验室,上海交大计算机学院,台湾c h e n g k u n g 大学计算机科学与信息工程 学院等在关键词检出方面也有了一定的研究成果。得意关键词检出器的推出就是 一个典型,它成就了得意接线员和得意导航员产品的问世,极大的满足了用户的 需求。 1 4 2 关键词检出主要技术 早期的关键词检出技术从语音识别方法而来,采用基于动态时间弯折 ( d y n a m i ct i m ew a r p i n g ,d t w ) 的方法。d t w 采用动态规划技术( d y n a m i c p r o g r a m m i n g ) 将一个复杂的全局最优化问题化为许多局部最优化问题一步一步 进行决策。d t w 是效果最好的一种非线性时间对准模板匹配算法,它是语音识别 中一种很成功的匹配算法。该方法的主要优点就是实现简单,但是对于连续语音 的情况则显出其局限性,比如在识别上下文发音连读等情况下识别性能大大下 降。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 2 3 在8 0 年代成功的应用于语 音识别技术,基于h 姗的关键词检出技术n 3 1 也有了很大进展,该方法以h m m 模 型为基本建模模型,运用统计学习理论对发音的基本音素如音标、音节等建立对 应的声学模型,统计学习各个音素之间的概率转移关系再结合语言或者语义分析 进行内容的识别。这种方法能够有效解决语音的协同发音问题,达到较好的识别 效果,目前绝大多数系统都采用此种方法。 9 0 年代以后在基于h m m 的技术基础上,关键词检出技术研究重点转为结合 其他模式识别方法,进行性能提高和方法改进,以及改进搜索识别算法提高速度 u 钔等。首先如基于人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) n 朝的方法, 该方法用人工神经网络对语音流进行模拟,通过人工神经网络对语音进行识别, 在关键词识别中,其主要用来配合h m m 以达到较高的性能。其次如基于支持向 量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) n 明的方法,这些方法都是对h m m 方法的补 充,目前还处于研究状态,并无稳定的系统出现。 1 5 关键词检出系统的性能评价 针对关键词检出,美国的国家安全局( n s a ,n a t i o n a ls e c u r i t ya g e n c y ) 曾 提出了一个时序协议:若x 是假设关键词而y 是正确的( 即实际的) 关键词,如果 6 东北9 币范大学硕士学位论文 x 的中间帧落在y 的边界之内,则称x 的时序是可解的。a t & t 的b e l l 实验室根 据这个协议,做了如下的定义: ( 1 ) 如果x 的时序是可接受的并且x 等于y ,则x 是识别正确的: ( 2 ) 如果x 的时序是可接受的并且x 不等于y ,则x 是识别错误: ( 3 ) 其他所有情况下,称x 是一个虚警( f a l s ea l a r m ) 且称y 被漏识( am i s s ) 。 依据这个协议,衡量一个关键词检测系统优劣程度的指标有两项:第一项称 为优度指数f o m ( f i g u r eo fm e r i t ) 或检出率( d e t e c t i o nr a t e ) ,它的定义是正 确确认的关键词数量与所测语音中总关键词数的百分比值。第二项称为虚警率 f a r ( f a l s ea l a r mr a t e ) ,它一般用平均每个关键词在一小时内被虚报了多少次 来衡量,记做f a h k w 。这两项指标是相互矛盾的,其中一项要求的提高即意味 着另一项将降低。 为了综合评价一个系统,可以将f o m 以及f a r 这两项指标画在同一个直角坐 标系中,其中f o m 为纵座标值,f a r 为横座标值,前者相对于后者的变化形成一 条曲线r o c ( r e c e i v e ro p e r a t i n gc u r v e ) ,。一个识别系统的两项指标可选在r o c 的任何一个点上,此点称为操作点( o p e r a t i o np o i n t ) 在大部分的应用中系统的 f a r 的值都应该选在o - i o f a h k w 范围内。对于一个关键词检出系统,显然在f a r 较低,同时f o m 较高的时候系统性能更好,二者不能只看某一个方面。 1 6 关键词检出的技术难点【1 7 】 目前关键词检出系统需要解决的问题很多,主要有以下几个方面: ( 1 ) 垃圾模型的选取 因为待识别语音中非关键词分布广泛且均匀,识别系统无法对其进行预测。 在这种情况下,若用于训练的非关键词语音不够广泛、细致,则会大大影响识别 系统的性能。一般以静音、噪声和非关键词语音建立与关键词结构相同的模板。 非关键词语音还可以进一步细分建立更多的垃圾模板。 ( 2 ) 说话人无关 从目前的研究来看,说话人无关可以用说话人分类技术初步解决,但目前还 没有根本的解决办法。大多数系统使用说话人自适应技术来提高系统对新说话人 的识别难确率。 ( 3 ) 系统的稳健性 当前的语音识别系统在实验室环境下均有比较理想的效果,但是系统性能受 噪声影响太大。故和提高识别系统对环境的稳健性问题,是系统能否进入实用化 的关键,同样也是难点。 7 东北师范大学硕士学位论文 ( 4 ) 词汇量的增加 当词汇量增大时,其结果是训练和识别的复杂度都大大的增加。训练部分需 要建立很多模板,则要求非常大量的训练数据,否则无法得到稳健的参数估计值。 ( 5 ) 识别单元的选取 识别单元选取的越小,声学层的识别速度越快,但是同时语法层的复杂程度 会增加。如何在这样的矛盾中寻求平衡,也是难点之一。 1 7 本论文的主要工作和论文的结构安排 由于本论文在关键词检出方面的研究刚刚起步,且非特定人大词汇量关键词 检出系统需要建立词典,涉及到很多语言学知识,并且需要大型语音库,因此本 论文主要研究了非特定人小词汇量关键词检出算法,在大量查阅国内外文献资料 的基础上,结合汉语语音的特点,提出了一种新的关键词检出算法:在语音信号 预处理阶段,首先对信号进行小波变换,然后引入t e a g e r 能量算子,将连续语 音信号切分成音节;选用m e l 倒谱系数( m f c c ) 作为语音信号的特征参数:采用 连续隐马尔可夫模型对关键词和非关键词建模;在搜索识别阶段,以词( s r 音节) 为搜索单位,采用v i t e r b i 算法进行词内解码,大大减少了搜索空间,提高了搜 索效率,降低了算法复杂度;在关键词确认阶段,采用似然比检验的值来计算置 信度,实现了无语法限制的基于识别一确认两级结构的关键词检出。 经过试验,本论文提出的算法在非特定人小词汇量关键词检出系统中优势明 显,性能良好。 本论文共分五章,其中包括本章的绪论部分。整个内容结构安排如下: 第一章简单介绍了语音识别的基本原理及分类,关键词检出技术的历史和发展 状态,关键词检出系统的性能评价以及技术难点。 第二章分析关键词检出技术的基本原理。 第三章介绍t e a g e r 能量算子的理论及应用,以及如何实现用t e a g e r 能量算子 对语音信号的切分。 第四章提出基于t e a g e r 能量算子和c h m m 的关键词检出算法。 第五章实验及结果分析。 第六章总结与展望,对论文的所有工作进行总结,并对进一步的研究提出几点 建议。 东北师范大学硕士学位论文 第二章关键词检出系统框架及原理 2 1 关键词检出系统框架 关键词检出系统的设计框架与通常的语音识别系统相似,主要分为以下几个 部分: 在预处理模块,首先对输入的模拟信号进行采样、量化、数字滤波等数字化 处理将模拟信号转化为数字信号,然后对数字信号进行加窗、分帧,得到语音的 帧序列;在特征提取部分,对语音信号提取反映其特点的某些参数来代表语音。 在此之后分为离线训练阶段和在线识别阶段:在训练部分,将用特征参数形式表 示的语音信号进行相应的处理,获得表示识别基本单元共性特点的标准数据,以 此构成参考模型,将所有能识别的基本单元的参考模型结合在一起形成模型库; 在识别模块,将待识别语音经特征提取后,根据某种算法与模型库中各个模型进 行比较,判断语音序列中关键词是否出现和出现的位置,需要的话,还将对其使 用某种判别算法进行确认。图2 - 1 是整个关键词检出系统的框架图n 副,在后面各 节将对各个部分进行详细介绍。 :在线识别: 图2 - 1 关键词检出系统基本框架 9 东北师范大学硕士学位论文 2 2 预处理 预处理模块的工作首先是对模拟信号进行采样和量化等数字化处理,再从这 段数字信号中提取有效的语音流,而得到语音帧的序列。 2 2 1 采样与量化 如果需要处理的语音数据是模拟信号,则它是时间和幅度都连续变化的一维 模拟信号,要想在计算机中对它进行处理,就要先进行采样和量化n 引,将它变成 时间和幅度都离散的数字信号。 采样是把模拟信号在时间域上进行等间隔取样。根据采样定理,当采样频率 大于信号最高频率的两倍时,在采样过程中就不会丢失信息。在实际的语音信号 处理中,采样频率一般为8 k h z l o k h z 。为了实现更高质量的语音识别系统,可 将采样频率扩展为1 5 k h z 2 0 k h z 之间。本文实验中所使用的语音数据其采样频 率为8 k h z 。 采样后的信号在时间域上是离散的形式,但在幅度上还保持着连续的特点, 所以要进行量化。量化的目的是将信号波形的幅度值离散化。一个量化器就是将 整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用 同一个幅度值表示,这个幅度值称为量化值。本文实验所使用的语音数据的量化 标准是脉冲编码调制。 经过采样和量化过程后,一般还要对语音信号进行一些预加重。由于语音信 号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8 0 0 h z 以上按着 6 d b 倍频程跌落,为此要在预处理中进行预加重。其目的就是提升高频部分,使 信号的频谱变得平坦,便于进行频谱分析或声道参数的分析。本文采用具有6 d b 倍频程提升高频特性的预加重数字滤波器实现,预加重滤波器形式如下: h ( z ) = l - a z - 1( 2 1 ) 其中a 为预加重系数,一般取值在0 9 4 - - - 0 9 7 之间,本文取0 9 7 。 2 2 2 加窗分帧 人在发音时,发音器官的运动导致语音信号的特性是随时间而变化的,所以 它是一个非稳态过程。但是相比于声波振动的速度,发音器官的运动就显得非常 缓慢了,所以通常假设语音信号在l o m s 3 0 m s 短时间内是平稳的,几乎所有的 1 0 东北师范大学硕士学位论文 语音信号处理方法都是基于这个假设。 为了得到短时的语音信号,要对语音信号进行加窗操作,加窗的目的是将语 音信号分为一个一个的短时段,每个时段称为一帧,窗函数平滑地在语音信号上 滑动,将语音信号分成帧的序列。分帧可以连续,也可以采用交叠分段的方法, 交叠部分称为帧移,一般为窗长的一半或一部分。设原始信号为s ( f 1 ) ,加窗运 算定义为: s 。( 刀) = s ( m ) w ( n - m ) ( 2 2 ) 在加窗的时候,不同的窗口选择将影响到语音信号分析的结果。在选择窗函 数时,一般有两个问题要考虑,一个是窗的形状,即窗函数的形式;另一个是窗 长,窗长过大不能充分反映信号波形变化的细节,窗长过小则不能得到平滑的短 时信息,通常选择1 0 0 - - 2 0 0 个采样点是比较合适的。另外,窗函数的主瓣宽度 要窄,以获得较陡的过渡带:相对于主瓣宽度,旁瓣要尽可能小,使能量尽量集 中在主瓣中。这样可以抑制频谱的泄漏。 常用窗函数啪3 有以下几种: ( 1 ) 矩形窗 似) :j 1 眶略- 1 (2-3n)圳jo lz, 0o t h e r s ( 2 ) 汉明窗 w ( n ) = o 5 4 也4 6 c 薯口舢肛d m 篡。1 ( 2 - 4 ) 矩形窗平滑效果好,但主瓣宽度小,旁瓣宽度大,泄漏现象严重。本文选用 的是汉明窗。可以有效地克服泄漏现象。窗长为2 0 m s ,帧移为l o m s 。 2 3 特征提取 经过预处理之后,接下来就要进行特征提取。特征提取部分用来解决语音信 号的特征表示问题,能否选择有效的特征为建模和识别提供数据,直接影响到识 别的性能。对于特征参数的提取可以从以下三个方面进行考虑:1 ) 提取的特征 参数能有效地代表语音特征,包括声道特征和听觉特征,并且具有很好的区分性; 2 ) 各阶参数之间要有良好的独立性,选择的标准应体现对异音字特征间的距离 尽可能大,而各同音字间的距离尽可能小;3 ) 应在保持高识别率的情况下,尽 可能减少特征维数,特征参数要计算方便,以便于减少存储要求和保证语音识别 东北9 币范大学硕士学位论文 的实时实现。 语音信号特征主要分为时域特征和频域特征两大类,时域特征有短时平均能 量,短时平均过零率,短时自相关系数,基频和共振峰等;频域特征主要有线性 预测分析( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 和基于l p c 的倒谱l p c c ,基于听觉 特性的m e l 频率倒谱系数( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 等。在 关键词检出中主要用l p c c 和m f c c 参数作为特征。l p c c 是一种纯数学的线性预 测模型,它的优点在于计算量小,易于实现,缺点在于抗噪性能差,在对于汉语 识别的时候对辅音识别较差;m f c c 参数是将人耳的听觉感知特性和语音的产生 机制相结合,在噪声环境下表现出更强的顽健性,在非特定人语音识别方面有利 于减小因说话人不同的差异可能带来的影响,其性能及其鲁棒性较好,目前在语 音识别系统中得到了更广泛的应用。本文采用的是m f c c 参数作为特征。 m f c c 是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上 是等带宽的。这是因为人类在对约1 0 0 0 h z 以上的声音频率范围的感知不遵循线 性关系,而是遵循在对数频率坐标上的近似线性关系。m e l 频率瞳可以用公式 ( 2 5 ) 表示如下: m e lf r e q u e n c y = 2 5 9 5 l o g ( 1 + f 7 0 0 ) ( 2 5 ) 对频率轴的不均匀划分是m f c c 特征区别于其他普通倒谱特征的最重要的特 点。将频率按照式( 2 - 5 ) 变换到m e l 域后,m e l 带通滤波器组的中心频率是按照 m e l 频率刻度均匀排列的。 m f c c 特征提取的计算步骤如下乜副: ( 1 ) 将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅立叶变换得到其 频谱; ( 2 ) 求出频谱平方,即能量谱,并用 1 个m e l 带通滤波器进行滤波,由于每一个 频带中分量的作用在人耳中是叠加的,因此将每个滤波频带内的能量进行叠 加,这时第k 个滤波器输出功率谱x ( k ) ; ( 3 ) 将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余 弦变换,得到l 个m f c c 系数,如下式( 2 - 6 ) 所示。l 一般取1 2 - - 1 6 个左右; 旦 g = l o g x ( k ) c o s z ( k 一0 5 ) n m 】,z = 1 , 2 ,l ( 2 6 ) k = l ( 4 ) 这种直接得到的m f c c 特征作为静态特征,将这种静态特征做一阶和二阶差 分,得到相应的动态特征。 1 2 东北师范大学硕士学位论文 2 4 声学建模 对于声学模型的选择要从复杂度和性能两个方面综合考虑:首先要选择合适 的识别基元,然后选择一个比较好的方法把不同的识别基元在特征空间中划分开 来,目前应用最为广泛的就是隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 。最 后要对模型进行训练,形成模型库。 2 4 1 语音的声学基础及汉语语音基础1 2 3 l 语音的产生是一个复杂的生理过程。简单的说,是由肺部收缩,压迫气流由 支气管经过声门和声道引起音频振荡而产生。声道由口腔、鼻腔和咽组成。从喉 系统过来的嗓音或嗓音气流,通过这些腔体的调节,可以产生出不同的音素。发 音系统可以产生三类基本的声音:浊音、清音( 或摩擦音) 和爆破音。浊音( 如元音) 是由于声带颤动而产生的语音。浊音声带振动的基频称为基音频率。清音或摩擦 音( 如辅音s ,s h ,f 等) 是声道的某些部分关闭,空气以足够的速度通过紧缩处 引起湍流而产生的。爆破音( 如塞音p ,t ,k 等) 是声道完全闭塞,空气压力在闭 塞部位后面增加,然后突然打开闭塞部位而产生的。 汉语发音不同于英语发音,汉语是单音节结构的语言。一个音节就是汉语一 个字的发音,多个音节就构成了词。汉语的每个音节由声母、韵母和声调组成。 一个音节开始的辅音是声母,声母后边部分是韵母,全音节的音高变化是声调, 或称字调。 汉语声母共有2 2 个,其中包括零声母,韵母共有3 8 个,这2 2 个声母、3 8 个韵母和声调构成了1 3 0 0 多个有调音节和4 0 0 多个无调音节,另加还有三个单 独由辅音构成的音节m 、l l 和n g 。按音素分类,汉语辅音共有2 2 个,单元音1 3 个,复元音1 3 个,复鼻尾音1 6 个。 2 4 2 识别单元的选取 语音识别单元的选择在语音识别,尤其是关键词检出中是非常重要的环节。 识别单元的选择3 应该基于如下两个原n - 具有灵活性,用它可以组成其它的语 音或语法单位;具有稳定性,它应该在不同的语音环境和语言环境中相对稳定。 灵活性希望基元尽可能地小,如音素;而稳定性则希望基元尽可能地大,如词甚 至词组。然而基元的选择还需考虑搜索时间和模型存储开销。 汉语的关键词检出必须考虑汉语的特点。汉语音节的结构是比较典型的声韵 1 3 东j t - 0 f f i 范大学硕士学位论文 结构,可以采用句子、词、音节( 字) 、声韵母( 半音节) 、音素中的任何一个作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论