已阅读5页,还剩57页未读, 继续免费阅读
(信号与信息处理专业论文)连续语音中的关键词识别技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮u 学院坝l 。研究生学位论上 摘要 随着语音识别技术的f 1 益成熟和越来越广阔的应用前景,在一段语音当中实 现对某些关键词的检测和确认已经成为近年来一项备受关注的热点技术。由于关 键词识别技术所具有的灵活性,它可以被应用于互联网上的语音数据实时检索, 让电话用户用更加自然的蜕话方式代替按键操作完成电话的转接和其它智能业 务,以及国防安全上的代替人 :实现监听监控任务,等等。其中对连续语音中的 关键词识别以其广阔的应用日d 景成为目自u 研究的焦点。 本文研究了连续语音当中的,小词汇量非特定说话人的关键词识别技术,介 绍了关键词识别的发展历史和研究动念,并就语音识别的两大基础技术:动态时 川规讵( d t w ) 技术和隐马尔可夫模型( h m m ) 实现了关键词识别并分析了其 可能改进的途径。本文的主要工作有:1 ) 对基于d t w 的关键词识别系统进行 了仿真实现,并在对原有系统进行分析的基础上提出了基于置信函数分的改进识 别方案,实验证明该方案对系统性能的提高有很大的助益;2 ) 通过引入补白 ( f i l l e r ) 模型的方法,实现了基于h m m 的关键词识别系统,并对f i l l e r 模型的 个数与系统识别效果的天系作了比较:3 ) 针对h m m 系统识别结果中误报率偏 高的缺点,提出了d t w 与h m m 结合的两步 = 别方案,通过d t w 的预判和在 h m m 的确认中增加反词( a n t i w o r d ) 模型,大大降低了系统的误报率,改进了 h m m 系统的性能。 在文市的术尾,作行就关键词识别的前景进行了展迥,并提m 了陔系统可以 继续研究和改进的方面。 关键词:关键词识别( k w r ) :动态时| 日j 规诈( d t w ) :隐马尔可夫模型( h m m ) 南京| | 1 | j l b 学院顺h 卅究生学位论史 a b s t r a c t a st h er e s e a r c ho fs p e e c hr e c o g n i t i o ng o i n gf u r t h e ri n t oa p p l i c a t i o n ,t h e t e c h n o l o g yo fd e t e c t i n ga n dv e r i f y i n gs o m es p e c i a lw o r d si nas e n t e n c eo rap a r a g r a p h t h a tb eg i v e nh a sd r a w nm o r ea n dm o r ee x p e r t sa t t e n t i o n 一一w h i c hi sc a l l e d t e c h n o l o g y o f k e y w o r dr e c o g n i t i o n ( k w r ) o rk e y w o r ds p o t t i n g ( k w s ) t h i s t e c h n o l o g yc a nb eu s e di nm u c ha p p l i c a t i o n sf l e x i b l y , s u c ha st h er e a l t i m es e a r c ho f a u d i od a t ai ni n t e m e t ,m a k i n go p e r a t o ra s s i s t e dc a l li nw o r d sb yc u s t o m e r , a u t o m a t i c m o n i t o rf o rg o v e r n m e n t a la n dm i l i t a r ya f f a i r s ,e t c i na l la s p e c t so ft h i st e c h n o l o g yt h e k e y w o r dr e c o g n i t i o ni nc o n t i n u o u ss p e e c hi sm o s tc o n c e m e d t h i sp a p e ri n v e s t i g a t e st h el e c h n o l o g ,7t h ek e y w o r dr e c o g n i t i o ni nc o n t i n u o u s s p e e c ho fs m a l lv o c a b u l a r y ,s p e a k e r _ i n d e p e n d e n t a tf i r s tt h eh i s t o r ya n dt h ec u r r e n t s t a t eo fk e y w o r dr e c o g n i t i o na r ei n t r o d u c e d t h e nw ei n v e s t i g a t et h et w od o m i n a t i n g t r e n di ns p e e c hr e c o g n i t i o n :d y n a m i ct i m ew a r p i n g ( d t w ) a n dh i d d e nm a r k o v m o d e l ( h m m ) a p p l yt h e mt ok e y w o r dr e c o g n i t i o n ,a n ds e e kt h em e t h o dt oi m p r o v e p e r f o r m a n c e ,a tl a s t at w o s t e ps y s t e mt h a tc o m b i n ed t w w i t hh m m w a si n v e n t e d t h er e s u l to ft h ee x p e r i m e n tp r o v e dt h ec o m b i n a t i o no ft w om e t h o dc o u l di m p r o v e p e r f o r m a n c eo fs y s t e mm u c h k e y w o r d s :k e y w o r dr e c o g n i t i o n ( k w r ) k e y w o r ds p o t t i n g ( k w s ) , d y n a m i ct i m ew a r p i n g ( d t w ) ,h i d d e nm a r k o vm o d e l ( h m m ) 南京邮也学院硕i :研究生学位论文 文中的图表目录 图1 1f o m 图例 图2 1 发音器官图 图23 模板匹配法一 图2 4 动念时间规正( d t w ) 示意 图2 5 端点检测原理示意图 图2 6d t w 的路径约束 图2 7 两个不同的置信函数 图2 8 识别率与误报率关系曲线 图3 1 几类常用的h m m 模型 图3 2h m m 识别系统结构 图3 3 求倒谱过程 图3 , 4 人耳的听觉特性曲线 图3 5m e l 标度滤波器组 图3 6m e l 倒谱提取过程 图3 7 训练模型结构 表3 1f i l l e r 模型的数目与识别率及误报率的关系 图4 1h m m 识别的话语模型 图4 2 两步识别中的话语模型 v 8 1 0 1 5 一1 6 1 8 2 0 2 5 2 7 3 0 ,4 0 4 l 一4 2 4 2 4 2 4 7 4 7 4 9 ,5 0 南京邮电学院学位论文独创性声明 y7 6 5 0 1 2 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期: 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:擞导师签名:监日期: 南京邮f 乜学院倾l 岍究生学位论史 第一章绪论 关键词识别( k w r ,k e y w o r dr e c o g n i t i o n ) ,又称关键词检出( k w s ,k e y w o r d s p o t t i n g ) 或者词检出( w s ,w o r ds p o t t i n g ) ,就是在连续的、无限制的话语中识别出 一组给定的词即关键词,而忽略话语中除关键词以外的其它词和各种非话音 包括呼吸、咳嗽声,音乐声,背景噪声,等等川【2 】o 关键词识别是语音识别 的一个分支,它与连续语音识另f j ( c s r ,c o n t i n u o u ss p e e c hr e c o g n i t i o n ) 的不同之处 是:连续语音识别要求对话语中的所有话音内容都作出识别,而关键词识别则只 要求识别出话语中所包含的关踺词的内容即可,与连续语音识别相比,关键词识 男l j ( 以下箍称k w r ) 的要求更为灵活,它的应用也相当广泛。 1 1 关键词识别的应用背景 现代科学技术史告诉我们,任何技术产生的背后一定有某些需要的推动 k w r 也不例外,我们先来看一个例子。 1 1 1 关键词识别技术的产生 如何在拨盘式电话( d i a l e d u pt e l e p h o n e ) 线路上应用语音识别系统,这曾经是 八十年代语音识别领域非常感兴趣的一个问题。经过数年的研究,语音识别技术 已经从识别小词汇量、孤立发音的识别系统发展到中等词汇量、连续语音的识别 系统。其中美i 蛋a t & t 的b e l l 实验室设计了一个在电话线路上应用的智能转接 系统,他们用五个特定的单词代表五种不同的电话:c o l l e c t ( ac o l l e c tc a l l ) 代表对 方付费,c a l l i n g - c a r d ( ac a l l i n gc a r dc a l l ) 代表电话卡付费,p e r s o n ( ap e r s o n t o p e r s o n c a l l ) 代表个人用户之i _ 日j 的呼叫,t h i r d - n u m b e r ( a b i l l t o t h i r d p a r t yc a l l ) 代表第三方 付费,以及o p e r a t o r ( g e tt h eo p e r a t o r ) 代表找接线员。在假定待识别的话语中只含 有关键词语音和背景噪声的条件下,该系统的识别率可以达至t j 9 9 t 3 1 。 于是在c a l i f o r n i a 的h a y w a r d ,a t & t 的b e l l 实验室进行了一个大规模的非特 定人孤立词语音识别实验i 刖在电话中用提示语音告诉用户用孤立发音的方式说 出这五个单词中的一个,但是实验结果与他们设想的相去甚远。他们在追查原因 l 南束懈i 也学院钡i :蛾究生学位论史 的时候发现,在实际的情况中,只有8 2 的用户说了五个单词中的一个,其中只 有不到6 5 的用户能够按照提示使用孤立发音,大约2 0 的发音夹杂有词表外发 音和诸如气流声等非语音发音,比如“a h ,1 w a n t t o m a k e ac o l l e c tc a l lp l e a s e ”。 他们起初的识别算法没有考虑这样的问题,因此a t & t 的b e l l 实验室将原先的 对输入话语的假定“背景噪声+ 关键词+ 背景噪声”改为假定用户所说的一句话 是“背景信号( 噪音,音乐声等) + 其它语音+ 一个关键词+ 其它语音+ 背景信号” 来进行识别,采用新的识别算法即k w r 算法,k w r 识别系统的使用,使话语中 的关键词识别率成功的达到了9 7 1 。 1 1 2 关键词识别技术的应用 k w r 有非常广阔的应用前景。像上文提到的在电话接听中的应用就是一个 方面。可以设想在电话的一些智能业务( 比如电话卡和智能查询服务) 中,用语 音代替电话按键输入将会让用户的使用更加方便快捷:另一个重要的应用是国防 监听。纯粹人工的监听要耗费大量的人力和时间:而且由于人的注意力不可能长 时间高度集中,有时也会把极其重要的内容忽略掉。但关键词识别器( k w s k e y w o r ds p o t t e r 或k w r k e y w o r dr e c o g n i z e r ) 可以代替人3 2 - - 十四小时不问断的 实时监听。不但可以节省人力,而且可以做到真丁f 密切监控;k w r 还可以用于 自然发音方式的语音录入,用户在使用语音录入的过程中,总会不经意的夹杂一 些词汇表以外的词和非话音( 如鼻音,咂嘴的声音等等) ,在这种情况下,系统 可以把词汇表内的词作为关键词,把其它的词和非话语作为非关键词加以拒绝, 以提高系统的实用性;还有按内容检索语音数据也是关键词识别又一重要应用。 随着计算机硬件和多媒体技术飞速发展,信息的存储将采取越来越自然的方式, 比如以声音和图象的形式存储,但所付上的代价是巨大的存储量和缓慢的检索速 度。在硬件成本闩益降低的前提下,存储量问题很容易得到解决:但人工检索却 是一个令人头痛的问题。关键词识别技术可以解决这一问题。如果关键词的输入 再由检索者以语音命令的形式给出,那么语音信息的按内容检索就能够以完全自 然的方式进行例。 k w r 的应用远不止这些。几乎可以说,在所有语音识别的应用中都会用到 关键词识别中的一些技术。比如先识别出关键词,再根据语法或词法进行其他语 2 南京邮电学院坝 j 研究生学位论文 音的识别最终达到自然语言理解:又如通过某些关键词识别中的预处理和后处 理技术,提高语音识别的顽健性。 1 1 3 关键词识别的国内外发展动态 在国外,关键词识别的研究始于7 0 年代。1 9 7 3 年,b r i d l e 6 j 揭开了关键词 识别研究的序幕,但那时只是称“给定词”的识别:直到c h r i s t i a n s e n 等人【7 j 才 f 式确定了“关键词”的叫法,他利用信号的l p c ( 线性预测编码1 表示对连续语 音中的关键词进行检测和定位,没有使用语法或词法信息,对小词汇量词表取得 了很好的效果。但真j 下的关键词识别研究应该说是在8 0 年代。m y e r s 等人【8 】利 用基于d t w 的局部最小算法对关键词识别和连接词识别进行了研究,但没有系 统的实现:美国i t t ( 国际电话电报公司) 国防通讯部的h i g g i n s - 与w o h l f o r d l 9 用模 板连接的方法实现了k w s ,并提出了补i 刍( f i l l e r ) 模板( 浚模板由词表外词的语音 训练而得) 的概念,结果表明:如果词表的显式知识没有那么重要的话,则使用 补白模板就很重要。此后a t & t 的b e l l 实验室w i l p o n 和他的同事们f 4 】实现了 一个基于h m m 的5 个电话用语的、可以实用的k w r ,标志着k w r 研究的崛 起。美国b b n 系统和技术公司的r o h l i c e k 和他的同事们也研究了非特定人 k w r 的连续h m m 建模问题,同时给出了k w r 系统的性能评价基准。到9 0 年 代,m i t 的l i n c o l n 实验室1 l ,c m u 的计算机科学学院f 1 2 】,d r a g o n 系统公司1 1 3 1 , 以及同本的t o s h i b a 公司1 1 4 l 和i b m 公司等,也相继报告了他们的研究成果。 关键词i = 别的研究在国外已经进行多年,丁f 在进入高潮,而在国内的研究则 刚刚起步m 1 1 1 6 1 其中文献【1 5 】【1 6 】提出了一个基于音节的汉语无限制语音流 的关键词识别系统,采用了独特统计拒识方法。文献【1 7 】采用了类似音子网格 ( p h o n el a t t i c e ) 的方法,利用i j i 二选识别结果进行拒识取得一定的效果。文献 1 8 】 的报道了垃圾模型在拒识中的应用,这是国内见诸文献的第一家。在应用方面, 9 0 年代以来,中科院声学所、自动化所及北京大学等也开始纷纷关注关键词识别 技术的研究和实用化,2 0 0 2 年,北京得意公司与清华大学智能技术与系统实验室 联合研究开放的说话人无关、任意词表的关键词识别技术已经应用在电话的接听 e 。 3 南京邮f 也学院烦i :研究生学位论文 1 2 关键词识别的与连续语音识别的关系 首先,关键词识别的任务是在连续的话语中识别出给定的词,因而它首先是 一种连续语音识别;但它又不要求把整个的语音流全部识别出来,因此可以说关 键词识别是连续语音识别的一个分支。其次,对发音人的要求又不可能像对连续 语音识别发音人那么高,因此关键词识别又不同于连续语音识别。考虑如下五个 方面的差别,k w r 与c s r 有时又被当作两个不同的问题来处理1 9 】【9 】: 1 ) 模型的训练问题:c s r 模型往往要经过已知的不同发音人( 尤其是可以包 括使用者在内) 的大量数据进行训练 i j k w r 则不大可能让被识别对象对其模 型进行大量的训练。 2 ) 词汇表问题:c s r 要求每个待识别的词( 或单元) 必须是一个有限词表中 的一个,它的词汇表是封闭式的;而k w r 允许输入的语音包含关键词词表外的 任何词,它的词表是丌放式的。 3 ) 语法或词法问题:c s r 要求输入语音中的词序列受限于一个有限状态语 法网络,也就是说它要求输入严格符合它所假定的一组句式模型;而k w r 则无此 要求,它不需要输入符合某种句式模型。 4 ) 发音人的态度:对一个c s r 系统,发音人能够意识到自己诈在与机器进 行交流,希望所说的话能够被机器一确识别,故而他们一般持合作的态度,也能 够根据系统的提示重新发音;但在k w r 系统中,说话人常常是毫无准备的,多 数情况是处于自然会话的发音方式,也不太可能重复不太清楚的语句。 5 ) 上不境:c s r 系统由于用户的配合往往在比较安静的环境中使用,而k w r 则可能遇到噪音大的环境。 由于这些差异,c s r 的错误率用百分之几衡量,而k w r 的( 误警和漏识) 错误率,则要高出个数量级,常常用百分之十几来衡量。 1 3 关键词识别的主要方案 关键词识别的主要方案分为两大类,一类是基于d t w ( d y n a m i ct u n e w a r p i n g 动态时间规j 下) 算法的一类是基于h m m ( h i d d e nm a r k o vm o d e l ) 模 型的。早期的研究工作多是基于d t w 的,而后期的主要热点则集中于h m m 模 4 南京邮,u 学院硕卜研究生学位论义 型上,另外,将神经网络与d t w 或者h m m 结合起来的k w r 也是一个较新的 研究方向。但就总体方案而言,d t w 和h m m 仍是k w r 方案的两大分支,关 于d t w 和h m m 的方案在以下各章节将有详细介绍,在这旱只是简单回溯一下 各自的研究成果。 1 3 1 基于d 1 、的k w r 在基于d t w 算法的系统中,例如 7 1 c h r i s t i a n s e n 和r u s h f o r t h 设计了一个最 早的的d t w 关键词检出系统,他们只使用l p c 系数作为唯一的语音参数,使 用最小预测残差准则作多模板匹配,该方案取十个数字和四个词作为关键词。在 实验室环境中他们对同一个说话人的语音进行实验,系统的识别率达到了9 9 , 而对于不同的说话人实验的结果则要差许多。m y e r s 等人【8 】比较了基于d t w 的 两种匹配算法:限定变动范围的算法和追求局部最小距离的算法,证实在某些简 单的性能比较中证明后者的效果略胜一筹,并依据局部最小距离算法设计了一个 关键词检出系统。然而这个系统未被应用在任何实际的应用中,因此它的效果也 就不得而知。另外h i g g i n s 与w o h l f o r d l 9 1 设计了一个基于d t w 的关键词检出系 统它是由c s r ( c o n n e c ts p e e c hr e c o g n i t i o n 连接词识别) 系统改进而来的说话 人自适应系统,在这个系统中,作者引入了f i l l e r ( 填料模型,也称补白模型) 模型的概率,用于描述话语中的非关键词语音、非语音和背景声。f i l l e r 的产生 有两个束源,一是话语中常常出现的某些英文中的连接词,二是使用一些手动标 注的相当于音节长度的非关键词语音聚类得到。实验表明f i l l e r 模型的个数和 持续时长对识别的效果有明显的影响。这样一个在d t w 算法中被提出的f i l l e r 模型的概念后来也被应用在基于h m m 的关键词检出系统中,成为关键词检出系 统一个主流的设计。基于d t w 算法可以达到的效果,我们可以在b o s s e m e y e r 等人的实验中看到,他们1 2 0 1 设计了一种从每个可能的开始帧对关键词模型进行 匹配,并用模型的长度作为惩罚信号的方案他们的系统对含有额外语音和关键 词的数据的识别率是9 0 ,而对于只含有关键词的数据的识别率达到了9 7 1 。 1 3 2 基于h m m 的k w r 关键词议别的另一类是基于h m m 的研究,第一个将h m m 应用于关键词检 5 南京邮l b 学院硕i :研究生学位论史 出的系统是w i l p o n 等人【4 1 设计的一个小词汇量的关键词识别系统,在系统的输 入中不含句法或语法的约束。在该系统中w i l p o n 等人使用了和c h r i s t i a n s e n 等p 】 相似的方法,也就是让一个窗函数沿着输入的语音信号滑动,与训练好的模板进 行匹配,这样一个系统达到了与b o s s e m e y e r 2 0 1 的实验结果相当的效果。接下束 w i l p o n 和r a b i n e r 【2 i 】又提出了种在完全没有端点检测的情况下仍然保证较高的 识别率的系统,在该方案中他们把输入信号看作是背景声音和词表中的词的组 合,并对它们分别建立模型,但是这个方案的缺点是不允许有词汇表之外的语音 输入。于是,在此方案的基础上,w i l p o n 和r a b i n e r 建立了一个或多个h m m , 也就是g a r b a g e ( 垃圾) 模型| 2 副,束代表词表之外的语音输入,他们采用了三种 训练方式:l ,在拥有的数据标注了关键词和特定的非关键词的时候,对关键词 和特定的非关键词( 也包括噪声和非语音) 分别建立模型,当垃圾模型的个数从 1 个增加到1 3 个的时候,识别率随之提高,但垃圾模型的个数增加到3 个以后 性能的提高就不太显著,在性能最好时关键词识别率可以达到9 4 8 ( 嵌在语句 中的关键词) 和9 9 1 ( 孤立发音的关键词) 。2 、训练数据中只标注了关键词和 非关键词( 不知道其内容) ,这时垃圾模型用非关键词类聚产生,关键词识别率 也分别达到了9 4 2 ( 嵌入发音) 和9 9 2 ( 孤立发音) 。3 、训练数据没有任何 标注,只知道每个语句中关键词的内容,这时使用的是全自动的方法训练,关键 词的模型用孤立词发音产生,而垃圾模型用随机语音产生。然后用分段k 平均 算法对含有关键词和冗余语音的数据进行迭代训练直至系统收敛,关键词识别率 可以达到9 4 5 ( 嵌入发音) 和9 9 4 ( 孤立发音) 。这样一个系统仍然是小词 汇量的识别,基于h m m 的大词汇量的系统,有e n g f o n gh u a n g 等人【2 3 l 设计的 针对姓名的连续语音关键词检出系统,其中的垃圾模型是他们根据百家姓的分类 精心设计的,为了解决大词汇量带来的庞大的计算量的问题,他们采用了将汉字 音节按照不同的次音节分类的方法缩小了模板的范围并在树搜索中使用了修正 的a 搜索算法,以达到更有效的减少运算量的目的。这篇文献的作者提出了减 少运算量以达到实时处理的要求,而对于识别率却没有提及。而同样是针对汉语 的大词汇量的关键词实时检出,b o r e nb a i l 等人1 2 4 l 根据汉语的的发音特征,采 用h m m 和多相网络结合的方法实现的系统中,他们达到了9 5 7 9 的识别率, 所需的时间仅仅是输入语音时间长度的1 2 倍。 6 南京| | | j l u 学院埘! i 。f l j | _ 宄生学位论_ 盘: 另外从k w r 应用角度考虑,可以将k w r 技术分为两大类:一类是针对特 定任务的k w r ,这类系统的关键词是基于其具体任务而事先定好的,其实现的 思路大多是基于补白模型的( f i l l e rm o d e l ,或者称垃圾模型,g a r b a g em o d e l ) ,这 类方法的关键是如何选取合适的补白模型,使补白模型和关键词模型之间的空间 距离尽量拉大;另一类是针对非特定任务的k w r ,系统的关键词随任务的不同 而改变,因此模型也需要重新训练。这类系统的实现常常是基于的较小的识别单 元,如音素( p h o n e m e ) 或音节和半音节的( 前者常见于英语的识别,后者则常用 于汉语) ,这类方法的关键是如何选择好识别的基本单元,使得k w r 与c s r 问 题尽量接近,以易于实现词表无关( v i n d ,v o c a b u l a r yi n d e p e n d e n t ) 任务,其难点 在于识另u 基元的选择和根据词法语法规则对搜索路径进行剪枝的问题l i ”。 1 4k w r 的性雒评价 美国的国家安全局( n s a ,n a t i o n a ls e c u r i t y a g e n c y ) t 曾提出了一个时序协议: 若x 是假设关键词( h i g g i n s 9 1 称之为假想命中( p u t a t i v eh i t ) ) 而y 是f 确的( 即实 际的) 关键词,如果x 的中间帧落在y 的边界之内,则称x 的时序是可接收的。 a t & t 的b e l l 实验室根据这个协议,做了如下的定义1 25 : 1 如果x 的时序是可接受的并且x 等于y ,则x 是识别f 确的; 2 如果x 的时序是可接受的并且x 不等于y ,则x 是识别错误的: 3 其他所有情况下,称x 是一个误警( f a l s ea l a r m ) 且称y 被漏识( am i s s ) 。 定义识别f 确率( a c c u r a c yr a t e ) 为萨确识别的关键词数占关键词总数的百分 比,通常称为检测正确率,简汜为d p 。定义误警率( f a l s ea l a r mr a t e ) 为每小时每 个关键词的误警数,简记为f a k w h r 或f a k w h r 。 然而系统的性能并非仅通过上面的参数孤立地加以评价。事实上,后处理中 的拒识( r e j e c t i o n ) 也是一个评价参数。在一定的误警率下,拒识率与正确率中有 一个折衷的问题拒识越多,虽然误识会越少,但证识率也就降低。而拒识率、 讵识率以及误识率均是在一定的误警率前提下讨论的( 这称为系统的一个操作 点) ,r o c ( r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c ) i t l 线可以很好地描述它们之间的关系 【m l 。r o c 曲线是关键词的检测币确率d p 与误警率f 猷k w h r 之问的关系曲线, 显而易见该曲线是一条单调不降的阶梯型曲线。b b n 系统和技术公司的 7 南京邮电学院硕士研究生学位论文 r o h l i e e k 1 0 】等人把系统的质量因数( f o m ,f i g u r eo fm c r i t ) 定义为某一特定的误警 率范围内( 通常为0 - 1 0f a k w - h r ) r o c 曲线的平均值,即在某一特定的误警事箍围 内的平均关键词检测正确率。这一性能评价标准被大多数关键词识别研究者彦愀 同和接受。虽然后来m a r c u s 提出了更复杂的评价方法2 酏,但基本的思路与上面 的f o m 定义一样。 1 ,5 论文工作 图1 1f o m 图例 本文在接下来的两章里分别对基于d t w 的k w r 和基于h m m 的k w r 的 模型作了详细介绍和实验仿真,并分别在其某些参数的选取上提出了作者的改 进,在第四章研究了d t w 和h m m 结合的k w r 系统,该系统的性能较前二者 有明显改善,在本文的最后一章对k w r 的性能作了总结,并对尚待研究的方向 作了展望。 8 第二章基于d t i n 的关键词识别系统 在基于d t w 的关键词识别中,c h r i s t i a n s e n 等人1 7 1 设计了一个单单基于d t w 的识别系统,并没有使用任何语法或词法信息,他们利用信- 号的l p c ( 线性预测 编码1 表示对连续语音中的关键词进行检测和定位,文章称该方法对4 个词和1 0 个 数字的词表取得了很好的效果。c h r i s t i a n s e n 的系统引起了我们很大的兴趣,我们 对他提出的方法进行了研究并在此基础上作了改进。在介绍本文的工作之前,先 要分别介绍一下语音的线性预测分析和d t w 技术。 2 1 语音信号的线性预测分析 线性预测( l i n e a r p r e d i c t i o n ) 技术是由维纳在1 9 4 7 年首次提出,由r 本的板 仓等人在1 9 6 7 年首先应用于语音分析和语音合成中,经过数十年的研究,线性预 测技术已经成为相当成熟的一项技术,广泛应用于语音的分析、编码、识别和合 成中,可以说,近二十年中语音处理技术的飞速发展与线性预测技术的应用是分 不丌的。 2 1 1 语音信号的短时平稳特性 语音信号从信号处理的角度看来,是个时变的、非平稳的随机过程,因此, 不能用通常用于处理平稳信号的信号处理技术进行分析处理。但是语音信号虽 然具有时变信号的特性,但是它在一个较短的时问范围内,其基本特性相对保持 不变( 一般认为在l o m s 3 0 m s 的时间段内语音信号的特性基本不变) ,可以认 为是一个准平稳过程,可以用处理平稳信号的方法进行分析这就是语音信号 的短时平稳特性。因此我们可以将语音信号分成一小段一小段每一段称为一 帧( 时长l o m s 3 0 m s ) ,对每一帧分析其特征参数,这就是语音信号的“短时平 稳分析技术”短时平稳分析也是贯穿整个语音信号分析全过程的一个核- i i , 处理 思想【2 。 为了更加详细的理解语音的短时平稳特性,我们需要了解语音信号的产生过 9 南京邮l u 学院顺i :研究生学位论文 程,也就是语音的发声模型。 2 1 2 语音的发声模型 图2 1 是人的从头部到肺部的纵切面图。图中发音器官为:1 上下唇、2 上 下齿、3 齿龈、4 硬颚、5 软颚、6 _ ,j 、舌、7 舌尖、8 舌面、9 舌根、1 0 明头、1 1 会厌软骨、1 2 声带、1 3 喉头、1 4 气管、15 食道、1 6 口腔、1 7 畀腔。 图2 1 发音器官图 发音时,肺( 在气管之下,图2 1 中未标出) 中的气流向上经过气管到达喉, 喉上的声带在呼出的气流压力作用下振动,形成一连串脉动气流即声门波,声门 波经过由咽腔、鼻腔和口腔组成的声道,从口和鼻腔辐射出去,就形成语音。 由上述语音产生机理的分析可以将语音生成系统分成三个部分【2 7 j :声带 以下为“声门子系统”,负责产生激励振动,是“激励子系统”;从声门到嘴唇的 呼气通道为“声道子系统”;语音从嘴唇辐射出去,所以嘴唇以外称为“辐射子 系统”。图22 给出语音信号产生的离散时域模型。 1 0 南京邮i u 学院硕i :研究生学位论殳 基音辨# 删埘艄 揣 一前材魁 一鸯萼 , 黜u 舻锉懈叫q q 声i 蘑参数 + 声道髓4 封( z ) + 赫b 语音 辐时b g 涞( 0 南簪漩掣:辐自十b 郾 图2 2 语音信号产生的离散时域模型 该模型由激励模型、声道模型和辐射模型三个部分组成。激励模型分为浊音 激励和清音激励来讨论。在产生浊音时激励信号由一个周期脉冲发生器产生, 在产生清音时,激励信号由一个随机噪声发生器产生。辐射模型是一阶类高通滤 波器。在实际分析信号时,由于语音高频部分信号强度远小于低频,常采用“预 加重”技术来减少后续处理过程中噪声对高频的影响,预加重滤波器是一个一阶 高通滤波器,而这个一阶高通滤波器正好反映了辐射模型的功能。声道部分的数 学模型,目前有两种较常用的建模方法,一种是“声管模型”,另一种是“共振 峰模型”。无论何种模型,对声道参数的计算都是语音信号短时分析的重点:从 物理意义上说,不同的声道参数代表各个发音器官不同的位最,由于发音器官( 如 舌、唇、声带等) 的位置是缓慢变化的,因此声道的模型参数在一帧内可以视为 基本不变的,由每一帧的特征参数组成的特征参数序列就代表了整个语音的特 征,这也是语音的短时分析的依掘。 2 1 3 语音信号的线性预测分析 1 ) 线性预测分析的基本原理 线性预测( l p c ) 分析的基本思想是【2 l :基于语音样点之间存在的相关性, 用过去的样点值预测现在或将来的样点值,即一个语音的抽样值s ) ,可以用过 去的若干个语音的抽样值s ( n - 1 ) ,s ( n - 2 ) ,。“打一p ) 的线性组合来逼近。设 l l 堕室塑皇兰堕翌主堑塑皇堂垡笙塞 : 预测样点值;( 以) 为: ;( n ) = 预测误差占( 九) 为: ( 阼) :。( 。) 一;( 一) :s ( 甩) 一艺a ,s o f ) ( 2 1 ) ( 2 2 ) 通过某个最小误差准则使预测误差占( 弹) 达到最小,可以决定唯一的一组线性 预测系数口,( i = 1 ,2 ,p ) 。 由此,我们可以得到: 则 s ( ,1 ) :s ( n ) + 宝q s 一f ) ,( f - l ,2 ,p ) f t i ( 2 3 ) 我们再将语音( 短时) 模型的声道和辐射模型简化成一个全极点模型n ( z ) , 酢) 5 粥5 0 1 - - z 二a i z - i5 南 ( 2 4 ) 其中p 是模型阶数,a j 是模型各阶系数:g 是声道滤波器增益a ( z ) 骼作逆 滤波器,传输函数为: 特- 一和k 鬻 ( 2 5 ) 语音抽样s ( n ) 和激励信号g o ) 之间的关系可以用t n 的差分方程来表示 p j ( 竹) = ( 月) + 4 f s ( n f ) ( i = 1 ,2 ,p ) ( 2 6 ) 对于浊音,激励已( 以) 近似为以基音周期重复的单位冲激:对于清音,e o o 近 似为自噪声。把这个公式与线性预测分析的公式联系起来,不难看出当线性颓 测选取合适的阶数p ,使其等于声道模型日( = ) 的阶数时,其预测系数q 即是模 南京邮电学院钡i :研究生学位论文 型的参数a ,而预测误差s ( 胛) 即是模型的激励信号e ( n ) ( 设g = 1 ) 。 对于线性预测分析而言,要使模型的假定较好的符合语音的发生模型,主要 得考虑两个因素,首先是选取合适的阶数p ,使模型的阶数与语音模型的实际阶 数相接近,其次是考虑被简化的辐射模型的影响,对于前一个问题,全极点模型 的阶数要与共振峰( 所谓共振峰,是指声道发声的共振频率关于共振和共振峰, 详见文献 2 1 p 1 5 ) 的个数相吻合,一对极点对应一个共振峰,通常p 的取值在8 1 2 之i b j 。关于辐射模型的对语音的影响,总的趋势是是语音信号的频谱产生高 频衰弱,为了抵消这种影口向,我们通常在线性预测之前对语音信号采取预加重处 理,用一个一阶f i r 滤波器1 一篮。进行高频提升,预加重系数a 一般取0 9 5 。 考虑了上述两个因素,我们可以用这样一个全极点模型来逼近实际的发声模 型的,在某种合理的最小误差准则下,通过使预测误差占( n ) 最小,我们就可以求 取模型线性预测系数。 2 ) 线性预测系数的求取 线性预测系数的求取中,我们通常使用的是最小均方误差( m m s e ) 准则, 定义短时平均预测误差: r e e :( ”) = 州s ( h ) 一。,s ( n - j ) l ! ( 2 7 ) j l 对a ,求偏导,并令其为零,有: e ”) 一芝口,5 ( 一川s ( n 一) = 0 j _ l ,、, ( 2 8 ) ,2 l 上式表明采用最佳预测系数时,预测误差占( 门) 与过去的语音样点f 交。 记 中。( f ,j ) 为: 中。( f ,) = e s 。( 脚一i ) s 。( 肌一,) ) 则有:口,中。( ,_ ,) = 巾( f ,o ) ,i = l ,p l l 1 3 ( 2 9 ) ( 2 1 0 ) 南京邮i u 学院坝i 研究生学位论史 上式称为l p c f 则方程,如果找到一种有效的方法求解这组包含p 个未知 数的p 个方程,就可以得到在语音段s 。上使均方预测误差为最小的预测系数 口,j ,j = l ,户。 利用式( 2 5 ) 和( 2 - - 6 ) ,最小均方预测误差可以表示成: e 。= e 出( h ) r - 口,s ( n h ( n - 肼 ( 2 一i i ) i = i 或e 。= 中。( o ,o ) 一芝口,巾。( o ) ( 2 1 2 ) t = l 语音信号具有短时平稳性,在一个短时段( 一般2 0 m s 左右) 上可以认为是 平稳的。一般可分帧求取语音序列的l p c 系数。对于式( 2 - - 1 0 ) 的l p c f 则 方程,已有了一些高效的递推算法求解。其中主要有杜宾( d u r b i n ) 递推算法、 格型算( l a t t i c e ) 法和舒尔( s c h u r ) 递推算法。下面给出本文采用的杜宾算法 的计算步骤,详细推导过程可以参考文献 1 。 给定预测器阶数p ( 1 ) 计算r ( ) = s 。( + j ) s 。( ) ,f _ 0 , 1 ,p 其中5 。是加窗语音序列 月;0 ( 2 ) 计算k “1 = 一r ( 1 1 r ( 0 ) ( 3 ) 计算d = 足 ( 4 ) 计算:= 1 一掣 2 】r ( o ) ( 5 ) 令m = 2 ( 6 ) 计算k t ,= _ r ( m ) + m - i 口j ”叫r ( i f 一卅i ) 】? 山 ( 7 ) 口? = k ( 8 ) 疗j ”1 = 日j ”_ 1 十k 口州i m - ” , i = 1 , 2 一,( ,”一1 ) ( 9 ) 计算吕- 【l 一 k ”1 2 】 判断m p ? 若是,则令m = m + 1 ,转入( 7 ) 继续运行。若否,则停止运 1 4 南京邮f u 学院顾【:研究生学位论史 行并输出t i l l ) d ,口作为计算结果,即线性预测系数口。,:,a ,这样一组 线性预测系数,代表了这一个帧语音的短时平稳特征。 2 2d t v v 语音识别技术 d t w ( d y n a m i c t i m ew a r p i n g 动念时间规正) 技术是模板匹配法的一种忙】, 如图2 3 所示,一个语音识别系统可以分为训练和识别两个阶段。假定在一个关 键词识别系统中,需要识别某一个词汇表中的词,在训练阶段,我们可以对词汇 表中的每一个词的语音提取特征参数,并且采用聚类或者其它方法,从其特征参 数矢量产生一个或多个模板( t e m p l a t e ) ,作为该词的模板存入模板库;在识别 阶段,将输入语音的特征矢量序列与模板库中的每个模板进行相似度比较,将相 似度最高者作为识别结果直接输出,这就是模板匹配法。 o 一语卉输入 识刚 邛毪 站粜箱i o 图2 3 模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高沸点溶剂行业创新研发报告
- 2026-2030中国家用表面清洁剂市场营销渠道及前景趋势预判研究报告
- 非遗传承人发展路径研究论文
- 学业成就表现学习动机预测论文
- 建筑门窗培训考试试题及答案
- 广东省回弹法模拟考试试题及答案
- 一级钢琴乐理模拟考试试题及答案
- 2026年推拿按摩中级考试试题及答案
- 2026年大数据技术在金融行业的应用报告及未来五年市场潜力报告
- 房地产税房价市场模拟论文
- 2026海南省海洋与渔业科学院招聘事业编制人员4人(第1号)笔试参考试题及答案详解
- 2026入伍军检面试题目及答案
- 2026学年甘肃省陇南市三年级数学期末深度自测实战演练题(附答案)详细答案和解析
- 2026浙江省杭州市萧山区区长电话受理中心招聘重点基础提升(共500题)附带答案详解
- 《昆虫记》全阅读测试题及答案
- 2026年兰石化企业考核笔综合提升练习题及答案详解(考点梳理)
- 2026年人教版初一政治(道德与法治)下学期期末考试试卷及答案(共七套)
- 2024年7天连锁酒店员工手册
- 2026年湖北省黄冈市八年级地理生物会考真题试卷(+答案)
- 循环流化床锅炉(CFB炉)设计计算大纲
- 舞蹈类创新创业
评论
0/150
提交评论