




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)面向语音检索的汉语关键词识别技术研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 关键词识别是语音识别研究中的一个重要领域,其目的是从连续语音中检测 并确认给定的若干个特定关键词。跟关键词识别相比,目前连续语音识别有资源 耗费大,速度慢,抗噪能力不强等缺点,这是连续语音识别短期内难以突破的问 题所在。而关键词识别允许在嘈杂的环境中使用,凶此在当前技术水平下,许多 应用领域不适合连续语音识别,而要求关键词识别,这一课题的研究如能取得突 破性进展,则将大大有助于拓宽语音识别系统的应用领域,而信息检索显然是一 个有很好应用前景的领域。 本文主要内容是关键词t _ 别技术及语音检索系统研究与实现,提供了一个性 能优良的关键词识别引擎,通过系统测试,在正确率为8 2 1 的情况下召回率达 到8 8 4 。并在此引擎基础上开发了面向特定网站的语音检索系统s a s 和基于 p 2 p 架构的语音检索平台。对关键词识别的一些方法做了改进,以获取良好的关 键词识别j 下确率和较低的虚报指数,本文的工作主要集中在以下几个方面: 第一,基于概率统计语言模型的识别网络构建,对汉字的音节,通过概率统 计语言模型建模方法,从汉字的音节( 包括声母和韵母) 层次构建了一个有音节 间概率转移关系的b i g r a m 语法模型,并将此模型转化为特定的识别网络,以声 母和韵母模型作为关键词识别的填充模型,以声母一韵母组成的复合h m m 作为 关键词模型加入到该识别网络,在此识别网络的基础上进行关键词的识别。 第二,基于汉语音节的识别基元和三音予填充模型( h m m ) 训练,对汉语 识别基元建立了对应的h m m 模型,对关键词识别的填充模型进行了训练和建 模,把考虑到上下文影响的音素三音子模型作为填充模型。 第三,提出并实现了基于音节对齐的识别结果二次验证后处理方法,对于第 一次关键词识别的结果,在这个结果的基础上通过建立对应的关键词识别网络进 行音节对齐,进行后处理验证以确认识别结果,能够一定程度的降低虚报指数。 第四,关键词识别引擎实现,以及面向特定网站的语音检索系统和基于p 2 p 架构的语音检索平台实现。本文从系统设计到实现,提供了一个高扩展性、较强 实用性和高性能的关键词识别引擎,它是针对汉语大词汇量关键词语音检索应用 而开发的。并实现了一个面向特定网站的语音检索系统和一个基于p 2 p 架构的语 音检索平台,能够检索包含指定汉语关键词的音频文件,支持r a p 3 ,r m ,w a v - , e e 音频格式,实验表明通过使用以上的方法,系统能够获得良好的性能。 本文得到以下基金资助:国家自然科学基金6 0 2 7 3 0 5 9 、浙江省自然科学基 金青年科技人才培养专项基金r c 0 1 0 5 8 、浙江省自然科学基金m 6 0 3 2 2 9 、博士 点专项基金2 0 0 2 0 3 3 5 0 2 5 。 关键词:关键词识别,特征提取,h m m ,检索系统,二次验证后处理 a b s t r a c t k e y w o r ds p o t t i n gi s a ni m p o r t a n ta r e ai ns p e e c hr e c o g n i t i o ni t s o b j e c t i v ei st o i d e n t i f ya n dv e r i f yaf e ws p e c i f i e dk e y w o r d si nc o n t i n u o u ss p e e c h c o m p a r i n gw i t h k e y w o r ds p o t t i n g ,c o n t i n u o u ss p e e c hr e c o g n i t i o nn e e dm o r er e s o u r c e sa n di t sp r o c e s s s p e e di ss l o w e r , a n di t s m o r ev u l n e r a b l et on o i s e s oi nt h ea r to fs t a t e ,c o n t i n u o u s s p e e c hr e c o g n i t i o n i sn o ts u i t a b l ei nm a n ya p p l i c a t i o n sa n dk e y w o r d s p o t t i n g j s p r e f e r r e d i fw eg r e a t l ya d v a n c et h i st e c h n o l o g y , i tw i l l b eag r e a th e l pt oe x p a n d s p e e c hr e c o g n i t i o na p p l i c a t i o n s a p p a r e n t l yi n f o r m a t i o ni n d e x i n gi s a v e r yg o o d a p p l i c a t i o n t h i sp a p e ri sm a i n l yf o c u so nt h es y s t e md e v e l o p m e n ti nk e y w o r d s p o t t i n ga n d i n d e x i n g i tp r o v i d e da ne x c e l l e n tk e y w o r ds p o t t i n ge n g i n ea n d ak e y w o r di n d e x i n g s y s t e mi nt h ei n t e m e t i td e v e l o p e ds o m en e wm e t h o d sa n da l g o r i t h m si nk e y w o r d s p o t t i n gt oa c h i e v eah i g hd e t e c t i o nr a t ea n da l o wf a l s ea l a r m t h em a i nw o r ki sa s f o l 】o w s : 1 t h ec o n s t r u c t i o no f r e c o g n i t i o nn e t w o r kf o rr e c o g n i t i o ne n g i n eb a s e do ns t a t i s t i c a l l a n g u a g em o d e l w et r a i n e dab i g r a mm o d e lw i t l lc h i n e s es y l l a b l ea s 也eb a s e p h o n e m eu s i n g t b es p e e c hd a t a b a s et r a n s c r i p t i o n s t h e nw et r a n s l a t et h eb i g r a mt o t h er e c o g n i t i o nn e t w o r kw i t hf i l l e rm o d e l sa n dk e y w o r dm o d e l s t h ek e y w o r d m o d e l i sc o m p o s t e df r o ms y l l a b l em o d e l t h ek e y w o r d r e c o g n i t i o ni sb a s e do n t h e r e c o g n i t i o nn e t w o r k 2 t h et r a i n i n go ft h es y l l a b l er e c o g n i t i o ne l e m e n ta n dt h et r i p h o n em o d e l i ti s o p t i m i z e dw i t hc h i n e s er e c o g n i t i o ne l e m e n ts e l e c t i o n s w h i c hg r e a t l ye n h a n c et h e d i f r e r e n t i a 【b e t w e e nr e c o g n i t i o n e l e m e n t s ,t r i p h o n em o d e l i su s e d a sf i l l e rm o d e l 3t h ep a p e rp r o v i d e dap o s tp r o c e s sm e t h o db a s e do ns y l l a b l e a l i g n i n g w 油t h e f i r s ts p o t t i n gr e s u l t s ,i ta l i g n st h er e c o g n i z e dk e y w o r di nt h en e w s y l l a b l en e t w o r k , w h i c hi sc o n s t r u c t e db yt h ek e y w o r d ,t ov e r i f yt h er e s u l t s , 4 t h ed e v e l o p m e n to fa u d i oi n d e x i n gs y s t e mn a m e ds a s i tc a r lf i n dt h ea u d i of i l e s w h i c hc o n t a i nt h ep r o n u n c i a t i o no f s p e c i f i e dk e y w o r d so n 也es p e c i f i e dw e b s i t e t h er a p 3 ,1 t f la n dw a vf i l ef o t r e a t sa r ea c c e p t a b l e i ti sal a r g ev o c a b u l a r yc h i n e s e k e y w o r ds p o t t i n ga n di n d e x i n gs y s t e mw i t h a r ta c c e p t a b l e p e r f o r m a n c e t h i sw o r ki s s u p p o r t e db y n a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o i 2o f p r ,c h i n a ( 6 0 2 7 3 0 5 9 ) ,z h e j i a n gp r o v i n c i a ln a t u r a ls c i e n c ef o u n d a t i o nf o ry o u n g s c i e n t i s to f p r c h i n a ( r c 0 10 5 8 ) z h e j i a n gp r o v i n c i a ln a t u r a is c i e n c ef o u n d a t i o n ( m 6 0 3 2 2 9 ) a n dn a t i o n a ld o c t o r a ls u b i e c tf o u n d a t i o nf 2 0 0 2 0 3 3 5 0 2 5 ) k e y w o r d s :k e y w o r ds p o t t i n g ,f e a t u r ee x t r a c t i o n ,h m m ,i n d e x i n gs y s t e m ,s e c o n d l y v e r i f y i n gp o s t p r o c e s s 2 第一一章引言 第一章引言 1 1 关键词识别与语音检索概述 关键词识别f 1 】就是在连续的无限制的自然语音流中识别出给定的关键词。它 包括两个方面的基本内容,一个是关键词检出( k e y w o r ds p o r i n g ,k w s ) ,一个 是关键词确认。关键词检出是鉴别语音包含哪几个预先输入的关键词,是一个多 元判决问题。而关键词确认则回答是还是不是包含这个关键词,是一个两元判决 问题,本文所有的关键词识别即是指关键词检出。关键词识别不要求把整个的语 音全部识别出来,因此可以说关键词识别是连续语音识别( c o n t i n u o u ss p e e c h r e c o g n i t i o n ,c s r ) 的一个分支,因此二者在技术上很多是相通的。 语音检索利用语音处理技术对语音进行内容分析分类,在此基础上对语音进 行检索,可以根据语音包含的内容也可以根据语音的说话人进行检索。其实现方 式主要有以下几种 2 】: ( 1 ) 利用大词汇语音识别技术进行检索 这种方法是利用自动语音识别( a s r ) 技术把语音转换为文本,从而可以采用文 本检索方法进行检索。 f 2 ) 基于子词单元进行检索 当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变 差,尤其当一些专业词汇( 如人名、地点) 不在系统词库中时。一种变通的方法是 利用子词( s u b w o r a ) 索引单元,当执行查询时,用户的查询首先被分解为子词单 元,然后将这些单元的特征与库中预先计算好的特征进行匹配。 f 3 ) 基于识别关键词进行检索 在无约束的语音中自动检测词或短语,即关键词识别,利用该技术,识别或标 记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通 过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。 ( 4 ) 基于说话人的辨认进行分割 这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它 在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割 录音,并建立录音索引。 基于关键词识别进行检索是语音检索的一个方面,本文对大词汇量的汉语关 键词识别在语音检索的应用进行了研究探讨,它在语音的特定内容检索中占有重 要位置,由于目前语音识别技术其鲁棒性和实用性方面的限制,利用连续语音识 别建立大词汇量,任意关键词的识别器并不能达到理想的结果,无法很好的满足 浯音检索方面的应用要求。而关键词识别相对可靠的技术,在语音检索的应用中 有望取得重大突破,因此本文对关键词识别技术及其在语音检索中的应用进行了 研究尝试。 第一章引言 1 2 关键词识别研究的发展与现状 一、算法进展: 早期的关键词识别技术从语音识别方法而来,采用基于模板的方法 3 4 】,以 d t w ( d y n a m i ct i m ew a r p i n g ) 4 2 模板作为识别器。d t w 采用动态规划技术 ( d y n a m i cp r o g r a m m i n g ) 将一个复杂的全局最优化问题化为许多局部最优化问 题步一步进行决策。d t w 是效果最好的一种非线性时间对准模扳匹配算法, 它是语音识别中一种很成功的匹配算法。该方法的主要优点就是实现简单,但是 剥吁连续语音的情况则显出其局限性,比如在识别上下文发音连读等情况下识别 一| 生能大大f 降。 8 0 年代隐马尔可夫模型( h m m ) 成功应用于语音识别技术,基于h m m 的 关键词识别技术也有了很大进展 5 】 6 】,该方法以h m m 模型为基本建模模型, 运用统计学习理论对发音的基本音素如音标、音节等建立对应的声学模型,统计 学习各个音素之间的概率转移关系再结合语言或者语义分析进行内容的识别。这 种方法能够有效解决语音的协同发音问题,达到较好的识别效果,目前绝大多数 系统都采用此种方法。 9 0 年代以后在基于h m m 的技术基础上,关键词识别技术研究重点是结合其 他模式识别方法,进行性能提高和方法改进,及改进搜索识别算法提高速度等。 如基于人工神经网络的方法 7 8 ,该方法用人工神经网络对语音流进行模拟, 通过人工神经网络对语音进行识别,在关键词识别中,其主要用来配合h m m 以 达到较高的性能。如基于支持向量机的方法 9 ,这些方法都是对h m m 方法的 补充,目前还处于研究状态,并无稳定的系统出现。关键词识别随着技术的发展, 在算法方面有了很多的改进,最新的进展有使用韵律特征f 1 0 ,结合中文特点 1 1 1 3 ,改进语言模型 1 4 1 5 ,拒识集外词o o v ( o mo f v o c a b u l a r y ) 1 6 等方面。 :二、现有语音检索系统 在现有的语音检索系统中,很多都是利用语音识别技术,但是早期的系统在 词汇、语音限制方面比较强,在实际应用中往往有很多限制,下面列举国外几个 有代表性的系统: 1 e t h zb r o a d c a s t n e w s r e t r i e v a l 1 7 h t t p :w w w i n f e t h z c h e t h ( s w i s sf e d e r a li n s t i t u d eo f t e c h n o l o g y ) 该系统通过语音识别的方法,基于h m m 模型,但它只能是特定人的。该系 统可以采取自然语言查询,通过文本口语,系统把这些发音通过词典映射为音素 描述,然后跟每个语音文档计算获取状态值( r e t r i e v a ls t a t u sv a l u e ) 来检索。也 可以通过输入文本关键词进行检索,然后输出一个检索的列表,如文件名和起止 时间。 2 c a m b r i d g ev i d e om a i lr e t r i e v a l ( v m r l9 9 6 ) 18 1 剑桥大学工程系 h t t p :s v r - w w w e n g c a m a c u k r e s e a r c h p r o j e c t s v m r 系统用3 5 个预选定的关键词做检索,在一个很好的关键词识别器下,识别 率接近9 0 。该系统也是基于h m m 关键词识别技术,用h t kt o o l 对这1 5 个人 建立特定说话人的整词模型和单音子填充模型,h m m 为3 状态模型。 4 第一章引言 3 s p e e c h b o t 搜索引擎 1 9 c o m p a qh p l a b h 蛐:s p e e c h b o t r e s e a r c h c o m p a q c o r n 蚴h p l h p c o t r d r e s e a r c h c r l p r o j e c t s l a r g e s c a l e h t m l s p e e c h b o t 是一个基于内容检索的音频视频搜索引擎,语音识别器是建立在 c m u 的s p h i n x 3 2 0 】语音识别系统的基础上的,它将音频转为标注 ( t r a n s c r i p t i o n ) ,在这个基础上进行关键词的检索,能够将包含特定主题和内容 的音频视频文件搜索出来,主要是广播新闻。该系统即使在t r a n s c r i p t i o n 不是很 准确的情况下,仍然能够得到比较好的查询性能( 7 7 5 ) 。 国内汉语关键词识别起步较晚,这主要是国内在8 0 年代刁+ 开始语音识别技 术的研究,关键词识别技术的发展离不开语音识别技术。9 0 年代国内在大词汇 量汉语关键词识别上的研究才大大兴起,中科院、清华大学 2 1 、浙江大学 2 2 】、 南京大学等在这个领域都进行了深入研究,表现突出。由于在这个时期本国经济 的发展,世界各国对汉语也越来越重视,很多国外公司在汉语的语音识别和关键 词识别上都进行了大量的投入,并取得了较大的进展。 综上所列系统,e t h z 和s p e e c h b o t 的音频关键词识别技术基本是基于语音 识别技术的,v m r 是基于关键词检出的,而系统v m r 存在较大的局限性就是 它们都是在预定的几个有限的关键词上进行开发的,只能识别几个有限的关键词 并且是基于特定人的。而s p e e c h b o t 虽然可以输入任意的关键词,但是它是完全 依赖于语音识别技术的,把语音转化成文本,再对文本进行检索,它的性能也并 不理想。那么尝试用关键词识别技术又该如何解决这个问题? 显然在实际应用 下,我们对事先要检索的关键词并不是确定的,而且要求是跟说话人无关的,在 这样的系统上,要求该系统自g 够识剐出用户输入的任何关键词,至少必须包括大 部分常用的关键词,因此它必须是大词汇量的或者词汇无关的。本文实现的系统 就是考虑到这样的需求而开发实现的,它是面向汉语大词汇量的非特定人的,国 内在这个方面的系统实现目前并不多见2 1 1 ,更多的是对汉语语音识别的研究及 基于内容的多媒体检索方面的研究 2 2 1 。 1 3 性能评价指标 衡量一个关键词识别系统优劣的指标是召回率或者叫做识别率( d e t e c t i o n r a t e ) 、虚报指数( f a l s ea l a r m ) 和正确率,召回率为正确识别出的关键词与实际 关键词总数之比;虚报指数是指每个小时关键词被虚报的次数,即误报;正确率 是正确识别的关键词总数与实际识别出的关键词总数之比。这里的正确识别的定 义如下:设x 是识别结果,y 是正确的关键词,如果x 的中间帧在y 的两个边界 之j 刨,则称时间上是可接受的,即识别正确。其他情况,称x 是虚报,y 称漏报。 识别正确的关键词数占总关键词数的百分比,记为p d ;每小时每个关键词的虚 报指数。记为f a k w 1 1 r 。大多数系统采用r o c ( r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c ) 曲线来描述正确率和虚报指数之间的关系。一般来说召回率越高,虚报指数也越 大,而正确率降低。随应用的不同,需要达到的指标也不同。对于电话服务系统 而占,用户往往提供一个包含关键词的句子,等待系统作出正确反应,用户的态 度是合作的,但对正确率要求较高。在侦听系统中,对象可能最多是多个人的对 话,往往是不合作的,但如果一个关键词出现了,一般会多次出现,系统有多次 识别的机会,对正确的识别要求也就没那么高。在电话服务系统中,识别错误将 第一章引言 导致错误的操作。在侦听系统中,发现关键词后需要人来验证,一般没有太坏的 影响。虚报则是两类系统都不希望的,对电话服务系统而言,它将导致错误的服 务,但对侦听而言,则浪费了人力。 1 4 意义与应用 利用关键词识别技术实现特定内容的语音检索相对采用连续语音识别技术 实现来说,有很多的优点。首先关键词识别技术是一种连续语音识别,但它又不 要求把整个的语音流全部识别出来,因此可以节省许多计算资源,可以构建相列 简单稳定的应用系统。其次关键词识别对发音人的要求不可能象对连续语音识别 发音人那么高,对输入语音的限制上,语音识别的限制较强,要求安静的环境, 较好的信道,以取得较高质量的语音,并且可以要求用户自己添加新词。但在噪 音环境中,性能显著下降。而关键词识别允许在嘈杂的环境中使用,可以通过诸 如电话线等质量较差的信道,要求系统能自动判断哪些是词汇表中没有的词 o o v ( o u t o f v o c a b u l a r y ,简称o o v ) 。 同时关键词识别有着广泛的应用领域,一个重要的应用是国防监听。在出于 国家安全的考虑对电话网络进行监听时,要耗费大量的人力和时间;再者,由于 人的精力是有限的,有时也会把极其重的内容忽略掉。但关键词识别器( k w s , k e y w o r ds p o t c e r 或k w r ,k e y w o r dr e c o g n i z e r ) 可以日夜监控着电话网络,一旦发 现有某些关键词出现,及时预警、跟踪目标。这可以节省人力,同时高性能的 k w s 可以做到真正密切监控。另外一个重要的应用是语音信箱的消息分类 ( m e s s a g ec l a s s i f i c a t i o n ) 。当接收到语音消息时,通过对其关键词的检索与识别, 把它们按关键词的性质分门别类,这其实是一种基于主题识别或主题确认的问 题。 按内容检索( c o n t e n t a d d r e s s e d ) 是关键词识别又一重要应用。随着计算机硬 件和多媒体技术飞速发展,信息的存储将采取越来越自然的方式,比如以声音和 图象的形式存储,但所需要的代价是存储量大和检索缓慢。在硬件成本日益降低 的前提下,存储量问题很容易得到解决;但人工检索却是一个令人头痛的问题。 关键词识别技术可以解决音频资源的这一问题,我们可以列出自己所关心领域的 一组关键词,k w s 就可以把所有相关的存储语音都调出来。如果关键词的输入 再由检索者以语音命令的形式给出,那么语音信息的按内容检索就能够以完全自 然的方式进行,这个应用在数字图书馆和数字媒体检索中将有重大意义。 几乎可以说,在所有语音识别的应用中都会用到关键词识别中的一些技术。 比如先识别出关键词,再根据语法或词法进行其他语音的识别,最终达到自然语 言理解;又如通过某些关键词识别中的预处理和后处理技术,提高语音识别的鲁 棒性。因此开发一个有实际应用价值的语音关键词检索系统是很有意义的工作, 能够大大方便音频信息的管理,提高效率。 因此综上所述,利用关键词识别技术实现语音特定内容的检索是一个非常有 研究价值和现实意义的工作。而构建面向网络的音频资源检索系统和资源共享平 台在当前网络多媒体信息高速增长的情况下是很有意义的。本文实现的语音检索 系统s a s 和基于p 2 p 的语音检索平台正是从个应用出发而开发的。 第一章引言 1 5 工作重点和论文结构 本论文研究并实现了一个大词汇量汉语连续语音关键词识别引擎,并在此引 擎基础卜开发了相应的语音检索应用系统,工作重点主要有以下几个方面: 1 ) 基于概率统计语言模型的识别网络构建; 2 ) 基于汉语音节的识别基元模和三音子填充模型( h m m ) 训练; 3 ) 基于音节对齐的识别结果二次验证后处理方法; 4 ) 语音关键词识别引擎设计和实现; 本文组织结构安排如下: 第一章阐述了关键词识别技术的来源和发展,及语音检索的应用背景与现有 系统,初步提出了本文的研究内容和工作重点。 第二章介绍了基于h m m 的关键词识别技术和关键词识别策略方法。阐述了 基于h m m 的关键词识别技术基础,统计语言模型原理及其在关键词识别中的应 用,重点介绍了n g r a m 模型对于关键词识别系统性能提升的作用。 第三章是汉语关键词识别技术研究与改进,提出并采用二次验证后处理和修 改识别网络,提高系统性能,并针对大量检索数据进行了算法测试和性能评估。 第四章介绍了语音关键词识别引擎设计和实现,提供了一个高扩展性,高性 能的关键词识别引擎。 第五章介绍了本关键词识别引擎的应用案例,提供了一个完整的语音检索系 统和个基于p 2 p 架构的语音检索平台。 第六章为总结和展望。 第二章基于h m m 的关键词识别技术 第二章基于h m m 的关键词识别技术 2 1 关键词识别 图2 1 关键词识别流程 关键词识别,即k e y w o r ds p o t t i n g ( k w s ) ,建立一个k w s 系统,主要分两 个部分,一个是离线学习,即模型训练,一个是在线识别。如图2 1 ,一般需 要以下几个基本模块:特征提取,建立声学模型( a c o u s t i cm o d e l ) 并进行训练,搜 索和识别,结合语言模型来提高性能。语言模型部分是可选的。对于特征提取模 块,传统的倒谱特征的技术已经成熟,包括美尔倒谱系数( m f c c ) 特征,线性 预测系数( l p c c ) 特征,目前较新的特征是韵律( p r o s o d i c ) 特征,p l p 特征;其 它几个模块,尤其是搜索和识别,与c s r 有较大差异,很多k w s 的文献在这方 面做了改进,本文将用较多篇幅介绍。语言模型本身可作为一个研究领域,但它 在c s r 和k w s 中都有广泛的应用,并且很多k w s 的研究者用它来提高识别率; 近年来,还有些研究者根据各种场合对k w s 的不同要求,致力于改进或应用新 的语占模型,以提高识别率。 声学模型的训练主要是采用h m m ,毫无疑问,对于一个优秀的关键词识别 器,大量的充分的语料用来训练学习是必须的,包括声学模型和语言模型的训练。 在此基础上才能对未知语音进行关键词识别,达到良好的识别性能。 2 2 特征提取 特征提取是对语音按照一定声学模型提取声学特性的过程,对于关键词识别 和语音识别的特征提取,一方面应该尽可能的滤除与语音识别无关的信息,如说 话人的特性、说话方式、背景噪声和信道畸变等。另一方面,特征提取应该尽量 强调对音素差异有较大贡献的信息。显然,特征提取应在尽可能的表征原有的语 音数据的基础上,压缩所占用的数据空间。 声学特征主要有基频( p i t c h ) 、共振峰( f o r m a n t ) ,线性预测系统( l p c ) ,m e l 第二章基于h m m 的关键1 刘识别技术 刻度傅立叶倒谱系数( m f c c ) 等。用于语音识别和关键词识别的特征主要使用 l p c c ( l p c 的变种) 和m f c c 特征 2 3 1 。 对于元音来说,l p c c 是有效的,但是对于帧过零率比较高的辅音、鼻音和 一些爆破音而言,传递函数用简单的全极点模型具有相当的不确定性,从而降低 了识别率。正像拉宾那f 1 4 】所指出的,使用零极点模型有助于更好的表征辅音的 语音信息。 m f c c 则是另外一种声音特征,它利用了用于度量人类因语音频率变化引起 的音高变化的m e l 刻度。人耳对低频的敏感度比高频强。由m e 刻度得到的频 谱精确的模拟了人耳的听觉特性。 2 3 汉语音素模型 关键词模型的好坏对关键词识别性能有重要作用,其模型的好坏直接影响着 识别结果,在大词汇量语音识别和关键词识别中,由于词汇量巨大,如果以h m m 表示一个字或者w o r d ,则要占用很大的空间,而且对于识别速度的影响也是巨 大的,所以一般以音素或者音节模型来表示。关键词模型就是用其组成音索的音 素模型复合组成一个大的h m m 模型来表示关键词模型,从本质上看,它依然是 一个h m m 模型。 1 识别基元选择 语音识别基元的选择在语音识别尤其是连续语音识别中是重要的环节。识别 基元的选择应该基于如下两个原则 2 1 】: 1 ) 具有灵活性,用它可以组成其他的语音或语法单位; 2 ) 具有稳定性,它应该在不同的语音环境和语言环境中相对稳定。 灵活性希望基元尽可能地小,如音素;丽稳定性则希望基元尽可能地大,如 词甚至词组。然而基元的选择还需考虑搜索时间和模型存储开销。汉语的语音识 别和关键词识别必须考虑汉语的特点。汉语是一个音节性强的语言,一个汉字对 应一个音节,而且音节的结构是比较典型的声韵( 1 只i n i t i a l f i n a l ) 结构,声母和韵母 又可以分为更细的音素。所以国内外在汉语识别基元的选择上一般选取音节。 2 汉语音节 汉语是音节性强语言,一个汉字对应一个音节,而且大部分音节具有确定的 语言含义。汉语是声调语言,每个音节都可能有四种不同的声调( 单词层面上有 五种) 。但有些音节是独调的,如剖、谬;有些只有两种声调,如说、硕、缩、 锁等。汉语音节的结构是典型的c v ( c o n s o n a n t v o w e l ) 结构,其中c 是包括零 声母在内的声母所对应的辅音,v 为韵母对应的元音。2 2 个声母、3 8 个韵母和 声调构成了1 3 0 0 个有调音节和4 0 0 多个无调音节。 【b 播 p 泼 m 几摸f 亡佛d 力得 【古特 nj 昵 1 为勒 g ( 鸽 k 丐蝌 h 厂喝 j h 鸡q 七xt 西z h 生蜘 c hj 吃s h 尸狮r 日日z - p 字c 专刺 5 厶丝 帮一章罐f h m m 的关键词识别技术 韵母表y u 仰l i s t ij 农 a o 幺袄u a 爿丫蛙u a i 爿巧歪u e n g 爿上翁 1 1 屋o t l 曩藕n nl jj 1 云 l a nj 弓烟 e n e 上d - - 灯 ou 鱼e nl 1 摁u eu 亡月 i a ol 幺腰 u a n g 尢汗 ay 啊a n 耳安 u o 爿芒窝l n 1 上鹰1 0 u ( i u ll 曩邮 。芒喔 i a 】丫呀a d 尢昂u a n 弓弯 u e i ( u i ) ) ( 、围 e 亡鹅记1 亡叶e i 弋b ,杯 i a n gf 尢央 u e r ( u n ) ) ( 1 温 a l 斫挨 i nfb 印 n a n u 弓冤l o n g u 上雍 o n g ( ) ( l ) 1 - - 舵 补充说明 l “蜘、吃、狮、日、字、刺、丝”等七个字的音节韵母用i ,即:蜘、吃、丝、日、字、刺、 丝等字拼作z h i ,c h i ,s h i ,r i ,z i ,c i ,s i 。 1 韵母儿写成e r ,用作韵尾的时候写成r 。例如:“儿童”拼作e r t o n g ,“花儿”拼作h u a r 。 2 韵母世单用的时候写成e 。 3 i 行的韵母前面没有声母的时候写成y i ( 衣) ,y a ( 呀) y e ( 叶) ,y a o ( 腰) y o u ( 邮) ,y a h ( 烟) ,y i n ( 印) ,y a n g ( 央) ,y i n g ( 鹰) ,y o n g ( 雍) 。 u 行的韵母前面没有声母的时候,写成w u ( 屋) ,w a ( 蛙) ,w o ( 窝) ,w a i ( 歪) , w e i ( n i ) w a l l ( 弯) ,w e n ( 温) w a n g ( 汪) ,w e n g ( 翁) 。 i i 行上的韵母,前面没有声母的时候,写成y u ( 迁) ,y u e ( 月) ,y u a n ( 冤) ,y u n ( 云) : i i 的两点省略。n 行上的韵母跟声母j ,q ,x 拼的时候,写成j u ( 居) tq u ( 区) ,x t l ( 虚) ,n 上的两点也省略:但是跟声母n ,1 拼的时候,仍然写成n u ( 女) ,m ( 吕) 。 4 i o u ,u e i ,u e n 前面加声母的时候写成m ,u i u n ,例如n i u ( 牛) ,g u i ( 归) ,l u n ( 论) 。 5 声调符号分为阴平“_ 1 1 、阳平“,”、上声“。”、去声“、”。声调符号标在音节的主要母音上, 轻声不标。例如:妈m g ( 阴平) 、麻m a ( 阳平) 、马m ( 上声) 、骂m a ( 去声) 、 吗n l a ( 轻声) 。 a ,o e 开头的音节连接在其他音节后面的时候,如果音节的界限发生混淆,用隔音符号( ) 隔开,例如:p i a o ( 皮袄) 。 汉语的声母( i n i t i a l ) 有2 1 个( b ,p ,r n ,d ,t ,n ,l ;g ,k ,h 江q ,x ;z h ,c h ,s h ,ez ,c , s ) ,韵母( f i n a l ) 有3 5 个( a ,a i ,a l l ,a n g ,a o ,e ,e i ,e r l ,e r t g ,o ,o n g ,o l l ,i ,i a ,i a n ,i a n g ,i a o , i e ,i n ,i n g ,l o n g ,i o u ,u ,h a ,u a i ,h a l l ,u a n g ,u e i ,u e n ,u e n g ,u o ,v ,v a n ,v e ,v i i ,其中n 简 记作v ) ; 声母除4 个有一定的元音特性的浊音声母( 浊鼻音m ,1 7 _ ;浊边音l ,浊擦音r ) 外,大部分为清辅音,汉语没有复合辅音声母。韵母分为单元音韵母、双元音韵 母和三元音韵母。在构成一个汉语音节时声韵母之间的组合是有一定规则的。 以声韵母作为基元时,一般要进行声韵切分。而且,由于不同的声母和不同 的韵母在连接时可能会发生音变,因此往往把声母和韵母进一步细化,从而有更 多的上下文相关的声母和韵母,即后面提到的三音子模型。 声韵母作为基元具有一定的灵活性,数量不多。但声韵切分往往很困难,有 时甚至很难找到一个切点,不管是人工切分还是机器切分都如此,因此,其稳定 性不是太好。 3 汉语的基本音素 汉语的基本音素可分为辅音音素和元音音素 1 ) 辅音和元音基本音素 1 0 第二章基于h m m 的关键词识别技术 汉语设有复合辅音,这是汉语辅音的一大特点,汉语辅音音素与汉语声母相 对应( 零声母除外、,共2 1 个。汉语的元音音素分为单元音、复合元音和复合鼻 元音三种音素,作为基本元音音素,汉语共有19 个。本文直接以声母和韵母作 为基本音素进行建模。 2 ) 上下文相关音素- - - 二) z 音素( d i p h o n e ) 和三元音索( t r i p h o n e ) 在以音素作为基本识别基元的识别器中,由于| 力,同发音的缘故,使得这些音 素的稳定性很差。为此,人们仿英语识别器的做法,进行了二元音素( d i p h o n e ) 和三元音素( t r i p h o n e ) 的建模1 。所谓d i p h o n e ,就是考虑某个音素时,不仅考虑 它本身,而是按照它与左边相接或右边相接的音素进行分类,从而得到更加细致 的音素建模。与d i p h o n e 不同的是,t r i p h o n e 同时考虑左边和右边的音素。由于 d i p h o n e 和t r i 。p h o n e 的概念充分考虑了上下文相关信息,因此这样的建模具有很 大程度的鲁棒性。但唯一的缺点是,虽然有些搭配不存在,但这些d i p h o n e 和 t r i p h o n e 的个数却是比较可观的。比如按4 0 个汉语音素看,d i p h o n e 和t r i p h o n e 的个数的数量级分别是4 0 2 = 1 6 0 0 和4 0 n 3 = 6 4 0 0 0 。 2 4 隐马尔可夫模型( h m m ) 在语音识别和关键词识别随机模型中,最适合处理的是h m m 。语音特征都 是随着时间的变化而变化的,如果将这种特征的变化过程用状态闻的转移来描 述,则构成了语音的隐马尔可夫模型 2 4 。 为描述语音信号随时间的变化的特性,采用“状态”的概念,语音特征的变化 表现为从一个状态到另一个状态的转移。即使是同一说话人同一发音的不同次发 音,这种变化也只是统计地确定的,表现为: 1 ) 特征从一个状态到另一个状态只是依一定的概率转移; 2 ) 处于某一状态时只是依一定的概率或概率密度获得语音特征x 。 因此,有以下的h m m : 1 ) 状态总数,记为n 2 ) 从状态i 到状态j 的转移概率,记为。这样,h m m 中状态之间的转移 可用n + n 矩阵a = 表示,称为状态转移矩阵。 3 ) 在状态j 时特征矢量为x 的概率密度,记为b j ( z ) 。当然有 l ,0 ( x ) 出= 1 ( = l “2 ,) ( 2 - 6 ) 其中r 一是p 维特征矢量的特征空间。 4 ) 特征进入到h m m 的状态i 的初始概率,记为1 1 ,z = o r ,z :,一,z 。) 7 称为初 始概率矢量。当然有 n 一= l ( 2 7 ) i = l 为处理上的一致性,常将各个不同状态时的概率密度函数形式取为一致,这时, 各个状态时的概率密度函数可由一组6 小,的参数b 唯一确定。 第二章基于h m m 的关蚀涮识别技术 上述的h m m 称为连续h m m 。当用向量量化( v q ) 方法对特征进行矢量量化 后,特征矢量只能取为码本中的有限个码字,这时无状态j 时特征的概率密度可 言,只有状态j 时特征为码本中的第k 个码字的概率,记为b m ,当然有 ( 2 8 ) 相应的h m m 称为离散h m m 模型。参数b 为一个n * k 的矩阵( 其中k 为 码本大小) ,b = 【“ 。 因此一个n 状态h m m 可由一组参数z ,a ,b 表示,记为z = ( f ,a ,b ) 。一个典 型的3 状态连续h m m 模型如图2 - - 2 ,其中的节点表示状态,有向边表示状态 间的转移。 一 图2 - 2 一个3 状态的h m m 当能由训练和待识别语音的语音特征或其他音节分段、音韵知识和特征鉴别 知识得知每个特征所属的音节时,可将音节视为“状态”,并应用上面的模型进行 语音分析,这时,模型中的状态概念明确,即是物理量“音节”。但当音节颇难划 分或想免去划分音节的复杂计算,但仍采用这一模型,就会出现模型中的“状态” 并不对应与物理量“音节”的情况。这时应该建立这样的概念,一个状态对应于特 征空间中的所有特征,只是对同一特征,不同状态给出这一特征的概率或概率密 度不同。由于h m m 模型是一个统计模型,对于同一特征序列,可能会对应于许 多种状态序列,特征序列与状态序列之间的对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公司及项目部安全培训考试试题附答案【完整版】
- 2025年绿色环保建材研发中心建设与绿色建筑市场推广策略
- 防疫安全教育培训
- 双减背景下语文作业的资源整合研究心得体会
- 2025年中医药现代化进程在芬兰市场的拓展机遇与挑战报告
- 2025年直播电商主播与品牌合作模式研究报告
- 2025年矿山无人作业技术智能化矿山设备智能化产业政策实施报告
- 水利工程施工进度计划与工期保障措施
- 医疗机构造价咨询的保密措施
- 苏教版六年级上册科学教学计划
- 5吨龙门吊安装与拆除专项施工方案
- PKPM桁架、支架、排架建模设计
- 汛期巡视检查记录
- 新版现代西班牙语第三册课后答案
- (高职)东财出版社-人际沟通实训教程PPT课件ppt课件(完整版)
- 港口机械液压与液力传动整套课件汇总完整版电子教案(全)
- 广东开放大学商务英语专业(专科)综合实践报告0
- 肾移植术后的护理查房供参考
- GB∕T 18998.2-2022 工业用氯化聚氯乙烯(PVC-C)管道系统 第2部分:管材
- 心肺复苏后的亚低温治疗
- 武汉市农村土地承包经营权转包出租合同
评论
0/150
提交评论