(模式识别与智能系统专业论文)基于语音识别的电话语音系统中关键技术的研究.pdf_第1页
(模式识别与智能系统专业论文)基于语音识别的电话语音系统中关键技术的研究.pdf_第2页
(模式识别与智能系统专业论文)基于语音识别的电话语音系统中关键技术的研究.pdf_第3页
(模式识别与智能系统专业论文)基于语音识别的电话语音系统中关键技术的研究.pdf_第4页
(模式识别与智能系统专业论文)基于语音识别的电话语音系统中关键技术的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(模式识别与智能系统专业论文)基于语音识别的电话语音系统中关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于语音识别的电话语音系统中关键技术的研究 摘要 本文以开发自动电话语音转接系统为背景,阐述了在其开发过程中 遇到的一些技术问题,在系统构建,电话语音库的建立,语言模型生 成等方面进行了研究。 该系统以非特定人,特定内容孤立词识别引擎为核心,可以自动完 成外线电话的自动转接。目前该系统已经在北邮模式识别实验室得到 使用。该系统主要由系统控制软件和语音识别引擎组成,具有较好的 操作性和可扩展性。随着语音识别引擎性能的提高,人机对话管理的 进一步完善,该应用平台可以完成诸如信息查询,信息导航等多种功 能。 根据实验室现有条件,利用8 6 3 中文桌面语音库,使用电话语音卡、 声卡、麦克风等硬件设备,构建了一个电话语音库采集系统,并应用 该系统研制了一个用于电话系统的语音库。该语音库对于电话系统中 的声学模型训练起到了重要作用。 为了生成统计语言模型,本文还研制了一个规模达6 0 0 m ,分类详 细的语料库。在生成语言模型前,对采集的文本语料进行了比较细致 的处理,提高了语言模型的精度。同时为了解决数据稀疏问题,对各 种数据平滑算法进行了分析对比,最终选择线性数据平滑算法用于本 研究。 关键词:语音识别,隐马尔可夫模型,电话语音库,语言模型,数 据平滑 s t u d yo nk e yt e c h n i l o g i e so fas p e e c h r e c o g n i t i o ns y s t e mf o ra u t o m p 汀i c t e l e p h o n eo p e r a t o rs c e n a r i o a b s t r a c t t h i sp a p e ri sm a i n l yf o c u s e do n r e s o l v i n gs o m e t e c h n i c a ld i f f i c u l t i e s i n d e v e l o p i n g a s p e e c hr e c o g n i t i o ns y s t e mf o r a u t o m a t i ct e l e p h o n e o p e r a t o r s c e n a r i o ih a v ed o n es o m er e s e a r c hi n i m p l e m e n t i n g t h e s y s t e m ,c r e a t i n gat e l e p h o n es p e e c hv o i c ed a t ac o r p u sa n das t a t i s t i c a l l a n g u a g em o d e l t h i ss y s t e mi sap r a c t i c a lu s eo fa ni n d e p e n d e n tp e r s o n 、d e p e n d e n t c o n t e n ti s o l a t e dw o r d r e c o g n i z ee n g i n e ,i th a st h ef u n c t i o no fa u t o m a t i c t e l e p h o n eo p e r a t o r n o w i th a sw o r k e di no u rl a b t h es y s t e mm a i n l y c o m p o s e so fs y s t e mc o n t r o ls o f t w a r ea n ds p e e c hr e c o g n i z ee n g i n e i ti s e a s y t o r n a n i p u l a t e a n d e x p a n s e t h e s y s t e m s f u n c t i o n w i t ht h e i m p r o v i n gp e r f o r m a n c e o f s p e e c hr e c o g n i z ee n g i n e a n d d i a l o g m a n a g e m e n tt h es y s t e mp l a t f o n nc o u l dh a v em a n yo t h e rf u n c t i o n ss u c h a si n f o r m a t i o nq u e r y ,i n f o r m a t i o nn a v i g a t i o ne t c a c c o r d i n g t oc u r r e n tc o n d i t i o no fo u r l a b ,u s i n gt h es p e e c hc a r 、s o u n d c a r d 、m i c r o p h o n ee t ch a r d w a r e ,ih a v ed e v e l o p e dat e l e p h o n es p e e c h d a t ac o l l e c t i o n s y s t e m t oc o n v e r t8 6 3c h i n e s ew i n d o w s p e e c h v o i c e c o r p u st os p e c i a lt e l e p h o n es p e e c hv o i c ec o r p u sw h i c hw o u l du s i n gi n t r a i n i n gt h ea c o u s t i cm o d e lo f c o n t i n u o u ss p e e c hr e c o g n i z ee n g i n e t ot r a i nas t a t i s t i c a ll a n g u a g em o d e lih a v ec o n s t i t u t e dat e x tc o r p u s w h i c hh a sal a r g es c a l et e x td a t aa n dt h ed a t ai sa r r a n g e dt oc l e a r c a t e g o ) y b e f o r e t r a i n i n gih a v ed o n eal o to fp r o c e s s i n gw o r k o nt e x td a t ai no r d e r t oc r e a t eam o r e p r e c i s el a n g u a g e m o d e l f o r r e s o l v i n g t h ed a t a s p a r s e n e s sp r o b l e mi h a v eu s e ds e v e r a ld a t as r n o o t h m e t h o d f i n a l l y l h a v ec o m p a r e dt h ee f f e c to ft h ed i f f e r e n td a t as m o o t hm e t h o d k e yw o r d s s p e e c hr e c o g n i t i o n ,h m m ,t e l e p h o n es p e e c h v o i c ec o r p u s ,l a n g u a g e m o d e l ,d a t as m o o t h 独创性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材判。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:爿基邀 日期: 吐;。z 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保尉和使用学位论文的觇定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此觇定) 保密沦文注释;本学位沦文属于保密在一年解密后适用本授权书。非保密沦 文注释:本学位论文不属于保密范围,适用本授权书。 本学位论文不属于保密范围适用本授权书。 本人签名:煎塾 同期:堕:圭1 2 导师签名 幺 哥 | = | 期: 翌! ! :l l 慕十语音识别的l u i i t , 语酱系统中关键技术的研究 1 1 引言 第一章概述 语音不仅是人类之间进行信息交流最自然、最有效、最方便的丁具。而目也 是人与机器之间进行通信的重要工具。语音技术作为常用人机交互方法,具有极 大的优势和便利。只要有机器存在的地方,就有语音技术应用的潜在可能。 语音识剐是语音技术的一个重要分支。语音识别是指利用电子计算机等设备 对语音信号进辨识,以获取语音信号的含义,它涉及模式识别、数字信号处理、 信息与通信理论、人工智能、形式语言和自动机、语音学、语言学、生理学、心 理学等多门学科,是一门综合性的学科。语音识别的研究目标是让机器“听懂” 人类的语言。听懂可以具有两种具体含义:第一种是将口述语言逐字逐句地 转化成为相应的书面文字;第二种是对口述语言。中所包含的要求或者询问做出正 确的响应,而并不拘泥于所有词诈确地转换为书面文字。 语音识别技术在工业、军事、交通、医学、通信、民用诸方面特别是信息处 理、通信与电子系统自动控制等领域都有着广泛的应用。当今语音识别产品在人 机交互应用种已经占到越来越大的比例,在许多领域有着广泛的应用前景。近几 十年来语音识别的研究开发工作逐渐开展,并取得初步成果 2 。尤其最近一- - 2 2 十年,各国都进行了大量研究,美国、r 本、欧洲居领先地位。国内研究相对起 步较晚,己取得不少成果。 1 2 语音识别的研究历史 语音识别的历史可以上溯到上个世纪五十年代初期。我们可以大致将语音识 别近六十年的发展历史划分为4 个时期: 1 ,初始发展期 关于语音识别的第一篇论文是1 9 5 2 年美国贝尔实验室d a v i s 等人利川0 i 振 峰特征识别孤立数字的研究论文。随后,1 9 5 6 年美国的r c a 实验室的o l s o n 等 人进行了单音节识别系统的研究。1 9 5 9 年,美国m i tl i n c o l n 实验室的r o r g i e 挞于语音识别的电话语音系统中关键挫术的研究 和f o r g i e 首次采用数字计算机识别英文的元音和以摩擦音丌头的孤立词,在研究 中,他们第一次使用了统计语法信息来辅助语音识别【3 。这标志着计算机语音 识别时代的丌始。 2 基础突破期 在六、七十年代,一系列旱程碑式的基础性突破为语音识别的发展奠定了基 础。在语音学方面,瑞典通信工程师f a n t 发表了著名的博士论文语音产生的 声学理论;人们还对人的听觉生理和心理进行了研究,提出了临界频带理论: 在信号处理方面,线性预测编码( l i n e a r p r e d i c t i o nc o d i n g ,l p c ) 技术在7 0 年代被 日本学者i t a k u r a 成功地应用于语音识别 4 ,成为迄今为止最为有效的语音特征 参数之一:前苏联科学家v i n t s y u k 在6 0 年代将动态规划应用与模式识别,成为 语音识别方法的重要基础:而日本学者s a k o e 和c h i b a 提出动态时削伸缩 ( d y n a m i ct i m ew a r p i n g ,d t w ) 算法 5 】,成为第一种通用的语音识别算法,在特 定人语音识别中获得了广泛的应用。 早期的语音识别系统都是按照简单的模板匹配原理工作的特定人、小词汇 表、孤立词识别系统。d t w 算法克服了晚话人速度不均匀造成的时间伸缩变化 的影响,使系统的性能有了显著的提高。但是对于更高要求的语音识别系统这种 简单的机制则有些力不胜任,例如词汇表的扩大,孤立词语音识别转向连续语音 识别无法像孤立词识别那样以词作为基本识别单元。如果采用音节或者音素作为 识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希单所选的 识别单元的数量尽可能少,另一方面,希望所选的识别单元在不同的上下文中变 化越小越好,而识别单元数量的减小,会使这一要求难以实现。另外一个困难是 连续发音时的各个音素以及音节之间的边界不能像孤立词那样可以明确划定。此 外,发音人不特定的语音识别( 非特定人语音识别) 还存在更大的困难。这是由于 不同人说同一个音素或音节时,声学特征有很大的差异。这使得语音识别,特别 是非特定人、大词汇表、连续语音识别成为一项非常困难的研究课题。 3 综合发展期 八十年代以后,语音识别的任务丌始出特定人孤立词语音识别转向非特定人 连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模型方法。浚期| 1 e i j 最重要的成果是隐马尔科夫模型( h m m ) 在语音识别中的应用。在此期| 日j ,美国 国防部的d a r p a 计划对语音识别研究起到了巨大的推动作用。参加d a r p a 计 划评测的各研究机构都推出了各种的识别系统,如c a r n e g i e m e l l o n 大学的著名 的s p h i n x l a l 系统,b b n 公司的b y b l o s l s 系统等。b e l l 实验室以r a b i n e r 为首的小组则对英语数字串英语识别作了大量的研究,成为小词表语音识别的典 范。八十年代末期由c m u 推出的s p h i n x 系统 6 ,率先突破了语音识别中非特 d 熬干语聋识劓的t 乜话语音系统中关键技术的研究 定人、连续语音、大词汇量三大难题,被世界公认为语音议别技术发展中的一个 罩程碑。同一时期,人工神经网络也成为了新兴的语音识别方法。 4 成熟发展期 九十年代以来,语音识别技术取得了快速发展越来越多的科研和商业机构 介入研究,投入大量物力和人力随着语音识别各方面问题的逐个解决语音识 别中最困难的非特定人、大词汇量、连续语音识别已经达到了较高的性能。各研 究机构推出的识别系统包括:i b m 公司的v i a v o i c e 系统,m i c r o s o f t 的w h i s p e r 系统等。还有剑桥大学开发h m m 工具包h t k 7 1 ,已经成为研究人员研究语音 识别的重要工具。 汉语语音识剐起步虽晚,僵发展很快。目前,国内扶事语音识尉研究的单位 超过了几十个:如中科院自动化所、中科院声学所、清华大学、北京大学、一h 海 交通大学、哈尔滨工业大学、北京邮电大学等。它们结合汉语语音学和语言学的 特点,在基础理论、模型和实用系统等方面作了大量的工作,取得了较好的成果。 台湾在汉语语音识别方面的研究也具有较高水平,其中以l i n s h a nl e e 教授主持 的研究小组最为出色,它们研制成功了一个实时汉语语音听写机一g o l d e n m a n d a r i n 。在我国的“八五”计划和“8 6 3 ”计划中,汉语语音识别的研究得到 了大力支持,强有力地推动了汉语语音识别研究的发展。 1 3 语音识别的发展前景 尽管语音识别的研究工作取得了一定的进展,但是目日口的技术水平比超人类 的听觉识别能力还是相距甚远f 8 1 。另外大多数的系统都只适合于识别“干净” 的语音,当他们应用于噪声环境中,性能大大降低。大量实验表明,大多数现有 的非特定人语音识别系统,如果使用不同于训练时所使用的麦克j x l 和不同于训练 时所处的外部环境时,即便在安静地办公室内测试性能都会严重下降。而对于 电话语音信号。汽车、工厂内、室外环境或战场上的语音信号柬说,现有的语音 识别系统的性能更差 9 】。产生上述现象的主要原因在于语音信号在受到各种实 际影响后而表现出的多变性,包括音素可变性,声学可变性,【;乇话人本身的可变 性,说话人之间的可变性等等。因此还需要在以下几个方面进行深入研究: 1 自然口语语音识别 以i b m 的v i a v o i c e 为代表的“朗读”式语音识别技术已经取得了令人满意 的效果。但是在实际的使用环境中,更多、更自然的人机交互方式是“自然口语” 语音,例如:各种信息查询服务系统、自动翻译系统。“自然口语”语音有如下 特点:( 1 ) 语法规则灵活多变( f l e x i b i l i t y ) :( 2 ) 其中包含大量非语音现象,如:语 堪十语奇识别的i u 谓语奇系统中关键技术的研究 音插入、犹豫、咳嗽、咂嘴等;( 3 ) 同语音受背景声学环境、上下文语境( c o n t e x t ) 、 说话人1 2 1 音等因素的影q 向两产生“发音变形”( p r o n u t l e i a t i o n v a r t a b i t i t y ) 。因此, 口语语音识别的关键技术在于:( 1 ) 为非语音现象和发音变形建立相应的声学模 型:( 2 ) 建立描述口语内在随机性的语法网络或统计语耋模型。 2 使用更好的方法去除电话和周围环境噪音等影响 在实际应用中。语音识别系统往往是在比较复杂的声学环境下使用,即存在 各种背景噪声和由说话人、语音通道、说话方式等导致的语音变形,此时其性能 显著下降,因此提高系统的鲁棒性是语音识别实用化的关键技术。目i 常用的技 术有:采用具有抗噪特性的特征、麦克风阵列、语音增强和针对噪声的模型补偿 或自适应等。虽然这些方法都取得了明显的效果,但还有进一步提高的余地,因 此还需要寻找更好的方法去除环境噪声等的影响。 3 支持多种语言的语音识g 技术 目前的语音识别技术在语音模型和语言模型等方面部是非常依赖具体语言 的。随着越来越多的语音识别应用投放到市场上开发支持多种语言 ( m u l t i 1 i n g u i s t i c ) 的语音识别技术也显得非常重要,因为每当丌发一种新的应用服 务都需要对若于种语言进行大量的修改将是十分昂贵和耗时的。 4 有关人性因索( h u m a nf a c t o r s ) 的研究 在语音识别产品中还应当考虑一些人性因素,例如友好的界面设计、易用性、 智能的提示响应以及错误恢复等,合理的加入人性因素可以提高语音识别系统的 友好性和灵活性,缩小实验室应用和实际应用之间的性能差距。 5 实用化的研究 语音识别研究的目的就是面向实用化的。大词汇量语音识别系统目前主要是 基于p c 机系统的,如i b m 的v i a v o i c e 系统。以后如何将其在低成本计算机系 统,如掌上电脑等,或脱机系统上实现是一个应用研究的热点。小词汇量语音识 别都是在脱机系统,如数字信号处理芯片( d i g i t a ls i g n a lp r o c e s s o r , d s p ) 上实现 的,随着d s p 的性能的飞速提高,语音识别系统的识别率、速度以及任务的复 杂性都会有显著的提高;另外,由于通用d s p 的成本较高,语音识别专用芯片 的研制将是降低语音识别系统成本、普及语音识别应用范围的重要途径。 1 4 主要研究内容与取得成果 现在语音识别已经在许多领域旱丌始应用,例如语音听写机、声控旅号、银 行或证券的查询等等。一项技术只有在实际中得至l i 应用6 + 能体现它钓价值,葡时 在实践中发现的问题反过来也能促进该项技术的发展。语音识别技术虽然还没有 皋十语音识别的i u 诉语音系统中关键技术的研究 完全成熟,在应用中还存在各种问题,但一些特定领域的应用已经获得成功,提 高了人们工作和学习的效率。从目前的发展情况看。在电话领域应用语音识别技 术是一个非常好的突破口,目前c t i 技术取得了很大发展,建立了大量呼d q 中 心,信息查询中心。这些系统基本使用语音进行交互,采用系统提示加用户按键 输入的方式完全可以让用户以语音作为输入在后台用语音识别引擎进行识别, 由系统给出反馈。在很多情况下,这样的交互方式更加自然效率也较高。基于 以上考虑,本研究初步搭建了一个语音识别技术应用平台,将语音识别技术应用 到电话转接系统中,提高外线用户转接的效率,并减少人工操作。 围绕此应用平台,本文主要完成了以下几方面工作: 1 以非特定人、特定内容孤立词语音识别引擎为核心,以语音卡,小交换机、 服务器等硬件设备为基础。搭建了一个具有语音识别功能,能够完成自动转接的 电话总机系统。该系统的流程控制和语音识别引擎相互独立,具有很强的扩展性。 随着语音识别引擎性能的提高,交互流程的更加人性化。浚系统不仅仅能完成外 线电话自动转接功能,还可满足用户通过语音对多种信息的查询。目前转接系统 已在北京邮电大学模式识别实验室得到应用。 2 ,以8 6 3 中文桌面语音数据库为基础,通过转录方法研制了一个连续电话牵带 语音数据库。该数据库数据量大,语音数据有完整的文本信启、标注,并记录了随 话人和录制过程的多项参数。建立该电话语音数据库,可以训练连续语音识别引 擎的声学模型参数,提高电话语音识别系统的识别率,使系统更加具有实用性。 为今后利用连续语音识别引擎替换现有的孤立词识别引擎提供了条件。 3 ,生成了个用于语音识别的统计语言模型。围绕生成语言模型的任务,研制 了一个具有规模为6 0 0 m ,分类比较详细的语料庳陔语料库的规模还在不断扩 大。对语料库的文本进行了细致的处理,去除了原始语料中标点,阿拉伯数字 英文等非中文字符对语言模型的影响,提高了语言模型的精度,在生成统计语言+ 模型时,为解决数据稀疏问题,比较了多种数据平滑方法,最后选用线性平滑算 法提高语言模型质量。 1 5 论文结构和内容 全文共分为六章: 第一章概述语音识别技术,回顾语音识别研究的历史、现状和发展f j h 景,简 要介绍本课题的研究内容和结果。 第二章概述语音识别的基本原理。介绍了语音识别系统的分类和各个组成部 分。重点介绍了目前在语音识别系统中得到普遍应用的隐马尔可夫模型的基本原 理。及其在语音识别系统中的应用。 基于语音识别的f 也话语脊系统中关键技术的州究 第三章论述基于语音识别的电话自动总机系统。提出系统的功能体系结构, 设计系统的工作流程,对系统的功能模块进行描述,同时讨论系统存在的不足以 及实用化中存在的问题。 第四章介绍电话语音数据库的研制过程。首先明确电话语音库的作用,然后 介绍其一般建立方法,最后给出本研究的研制方案。 第五章概要介绍语言模型在语音识别系统中的作用语言模型的基本原理, 语料库的建立,最后详细描述统计语言模型的生成过程。 第六章对本文进行总结与展望。 提于语音识别的l 乜一语啬_ 系统中关键技术的研究 第二章语音识别系统原理 语音识别系统本质是一种模式识别系统。因此,它的基本结构如图2 一l 所示, 与常规模式识别系统一样包括有特征提取、模式匹配、参考模式库等三个基本单 元。 图2 i 语音识别系统的基本结构 但是,由于语音识别系统所处理的信息是结构非常复杂、内容极其丰富的人 类语言信息,因此,它的系统结构比通常的模式识别系统要复杂得多。语音以别 研究存在无穷无尽的困难,就是上面所蜕的三个基本单元电包含着非常深广的内 涵。例如识别系统中的特征提取就是一个很难彻底解决的难题;又如语音识别中 匹配算法的研究,尽管人们已进行了三十多年的大量探索,做出了许多卓有成效 的创造,取得了重要进展,可是至今仍不能说这方面的研究可以打上句号了。图 2 1 中的后处理单元,可能涉及到句法分析、语音理解、语意网络、语言模型等 等。它往往不是那么一个孤立单元,而是与匹配计算单元、参考模式库等混杂在 一起,构成一个逻辑关系复杂的系统整体 1 0 1 。语音识别系统的设计还要考虑到 服务对象、词表大小、工作环境、发音方式、任务性质等许多音素,这使得语音 识别的研究对象更加广阔。 2 1 语音识别系统的分类和构成 端十语音识男的l 也薛语肾系统中关键技术的列f 究 2 1 1 语音识别系统的分类 一个语音识别系统,根据服务对象、词汇量大小、工作环境、发音方式、任 务性质等诸多因素的不同可以分为以下几类: 1 按发音方式分类 按发音方式语音识别系统可分为孤立词语音识别系统、连接词语音识别系统 和连续语音识别系统。孤立词语音识别系统指人在发音时,以单个词的发音方式 向语音识别系统输入语音,词与词之阃要有足够的时间蚓隙,以便系统能够检测 到始末点。采用这种方式的语音识别系统已经有了较为成熟的算法,实现起来较 为容易。连接词语音识别系统指以词或词组为发音单位向系统输入语音。与孤立 词发音相比,这种发音方式比较自然,且输入效率也比较高。中小词汇量连接词 语音识别系统的识别率目前可以做得很高,并达到了实用水平。连续语音识别系 统指在输入语音时,完全按照人的最自然的说话方式输入。这种系统是最方便的 输入系统,但是,实现起来也是最复杂和最困难的。 2 按应用对象分类 按应用对象语音识别系统可分为特定人和非特定人识别系统。特定人的语音 识别系统,对于每一个使用者都必须建立专用的参考模板库。非特定人语音识别 的原则是事先用许多人( 通常3 0 - 4 0 人) 的语音样本训练系统,使用者无论是否参 加过采样训练都可以共用一套参考模援,使用该系统进行语音识剐。这两类系统 的应用对象大不相同,为了达到良好的识别效果,其系统结构、特征参数选择、 识别方法都可能奄极大的差剐。对于非特定人的语音识鄹系统来说,由于要考虑 各种复杂因素,实现起来要比特定人的语音识别系统困难得多。 3 ,按识别词汇量的大小分类 按词汇量的大小可分为小词汇量识别系统、中等词汇量识别系统、大词汇量 识别系统和无限词汇量识别系统。随着词汇数目的增加,潜在的词问梢似- 洼会增 加,系统的搜索运算开销及存储开销相应增加,识别系统的难度一般也会增加。 当系统所能识别的词汇量越大时,实现起来就越困难【】目前代表连续语音识别 技术最高水平的语音识别系统是非特定人无限词汇的连续语音识别系统。 2 2 2 语音识别系统的构成 一个典型的连续语音识别系统包括如图2 ,2 所示部分 o 语 慕十语背识别的l u 研语苦系统中关键挫术的研究 幽2 - 2 连续语音识圳系统框幽 预处理主要包括对原始语音信号的滤波、预加重、分帧和加窗等环节,还可 以包括一些附加的处理,如语音增强、噪声抵消、端点检测等。在噪音比较大的 环境下,成功的预处理方案可以很大的提高系统的性能,有很多科研单位在语音 噪声消除,端点检测算法上做了很多工作。 语音信号的特征选择与提耿( f e a t u r ee x t r a c t i o n ) 是语音识别的一个重要环节, 其目的是抽取语音特征,特征参数选择的好坏直接影响到语音识别的精度。特征 提取解决了时域连续语音信号的数字转换,特征选择的目的是选择合适的特征参 数组,使特征提取尽可能的不要受不同浇话人、口音变化、和背景噪声的影响。 又具有足够的区分性,以使在语音识别时类内距离尽量小,类间距离尽量大,使 识别单元做出最有效的模式划分。语音信号的特征可以是时域上的基音周期 f p i t c h ) ,也可以是频域上的共振f l 嗥( f o r m a n t ) 、傅单叶频谱。此外,倒谱( c e p s t r a l ) 也是一种常用的语音特征系数,有基于线性预测码的倒谱( l i n e a rp r e d i c t i v e c o d i n gc o e 茂c i e n t s ,l p c c ) 。也有基于m e l 频率弯折的倒璐f m ej f r e q u e n c y c e p s t r u mc o e f f i c i e n t s ,m f c c ) 。基于听觉模型的感知线性预测( p e r c e p t u a l l i n e a r p r e d i c t i o n ,p l p ) ,也是一个新的研究方向。 声学模型( a c o u s t i cm o d e l ) 是识别系统的底层模型,是语音识别系统中关键的 一部分,其最终目的就是为每个声学单元建立一套声学模型参数。声学模型的设 计与语言发音特点密切相关。它的主要功能是从语音声学特征角度出发对以别对 象建立的模型,常用的有基于概率统计模型的方法其中最具代表性也是目i u 最 通用的就是隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 和基于人工神经网络 ( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 的方法。在汉语语音识系统中,应根据汉语发音 的特点,着重研究声学单元的选择与训练问题。 语言模型( l a n g u a g em o d e l ) 是对词法、语法、语义等高层次知识建立的模型。 可以是语言中一些规则或者语法结构,也可以是表现字或词上下文之i aj 的统计模 型。以此获得对语音单元的f 确识别和通常理解。 声学模型和语言模型都是在建立系统的初期,对大量的语音库、语言库数掘 基于语聋识别的i u 话语崔;= 系统中关链技术的研究 进行聚类分析、i ) l i 练得到的结果,并存储在系统中。训l 练数据的大小,处理的精 细程度,处理所用的方法对生成的模型有直接的影响。在第四章中将介绍建立电 话语音库的方法,在第五章将介绍语言模型的生成过程。 识别就是把待识别语音特征序列与各个参考模板( 声学模型或语言模型) 逐 一进行比较,搜索出与其最为“相似”的那个模板,就是识别结果这个过程就 称为“识别”。 训练模块的功能是在系统的实用过程中,利用己知类别的数据的信息,对原 有的声学模型和语言模型做出适当的调整与修正,以便能适应新的使用环境与原 有设计当中存在的差异,进一步提高系统的实际应用性能。 目前研究语音识别主要有三种方法:声学语音学方法、人工智能方法、模式 识别方法。经过大量研究和实践,基于模式识别的方法占据了主流,其性能也最 好 1 2 。就像大多数模式识别系统一样,基于模式识别的语音识别系统有两个步 骤:语音模式的训练和通过模式匹配来识别。“训练”阶段的任务是建立识别基 本单元的声学模型以及进行文法分析的语言模型等。“识别”阶段选择能够满足 要求的一种识别方法,采用语音分析方法提取出这种识别方法所要求的语音特征 参数,按照一定的准则和测度与系统模型进行比较,通过判决逻辑得出识别结果。 基于模式识别的方法有一个很大的优点:语音所携带的“信启、”通过训练阶段而 储存在系统之中了,它几乎是“盲”的。因为我们不需要语音学家来标定哪卜一段 语音是什么,起始边界在哪里,发音特征是什么样的。而完全是由系统通过大量 的实际语音数据训练而“学习”获得的 1 3 】。目前在语音识别系统中用的最为普 遍的就是隐马尔可夫模型,下面就介绍一下隐马尔可夫模型的基本原理。本研究 的语音识别引擎也是基于隐马尔可夫模型。 2 2 隐马尔可夫模型的基本原理 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) ,是一种典型的统计信 号处理方法。其基本思想早在2 0 世纪4 0 年代就有了,ce s h a n n o n 虎他那篇著 名的论文一通信的数学理论中就已经开始使用h m m 来建模英语文本信源 1 4 。随后g i l b e r t 等人又将其用在信道建模上,逐渐的推丌了h m m 在信息与通 信工程中的应用。但是早期的h m m 都是比较简单的离散模型,而且使用的状念 数也很少,计算量问题不明显。然而当问题变得复杂的时候,特别是状态数比较 多的情况,早期的计算方法就不可行了。随后,在1 9 7 0 年6 u 后由统计学家b a u m 等人巧妙的建立了一套算法解决了h m m 中的计算问题 1 5 】。使h m m 成为一个 恭于语音识别的电话语者系统中关键技术的 辨究 实用的模型。 2 2 1 隐马尔可夫模型的定义 设有一个马尔可夫过程,它有n 个状态丁个时刻,某个时刻,只能处于这个 状念中的莱一个状念,那么任意时刻t 所处的状念q ,就取决于仞始概率分抑 7 r ,( 式2 - 1 ) 和状念转移概率日,( 式2 2 ) 。 万,= p ( q i = f ) ,i = i ( 2 一1 ) 矗。= p ( q ,= , 擘,一i = f ) ,i = l ,j = l ,f = l r( 2 2 ) 另外,在任意时刻f 所处的状态g ,是隐藏在系统内部的,不为外界所见,外 界只能得到系统在该状态下的一个观测值0 ,而观测值0 ;是由状念q ,决定的,其 概率表示为: b 。( o ,) = p ( o ,l 吼= ) 、j = l n ,f _ 1 7 1( 2 3 ) 可见,这是一个双重的随机过程,其中之一是马尔可夫过程。它描述状念的 转移,另一个随机过程描述状态和观测值之i 刨的统计对应关系。对外界束 5 皂,不 能直接看到状态,而是通过个随机过程去感知状态的存在及其特性,i 习此称之 为“隐”马尔可夫过程。我们用符号五= ( 爿,b ,刀) 来描述一个具有个状态的 h m m ,其中a = 口口) 。表示状态转移概率矩阵,b = 氓( o ,) ) 。表示观测值概率 矩阵,即输出概率矩阵,万= ( 丌, 为初始状态分布。 图2 3 给出一个h m m 的示意图【7 。图2 3 中。上半部分给出一个具有6 个 状念的马尔可夫过程。每个圆圈表示一个状念,大圆圈c ! | j ;状态2 5 表示中间状态, 小圆圈即状态l 和状态6 分别表示入口状态和出口状念,从圆圈到圆圈的有向弧 表示状态间的转移概率o 。出口状念没有状态转移概率。图2 3 下半部分描述状 态和观测值之问的统计对应关系。在每个中间状态,由所处状念和观测矢量确定 其输出概率b ,( 0 ,) 。入口和出口状态与中i s j 状态不同,是种虚j 状态,它f i 仪没 有输出橛率,而且也不占有实际的时刻,即对于时刻,如果处于入口状念,则 在时间上对应于t a t 时亥,如果处于出口状态,则对应于f 十岔,& 表示段 表示非常短的时延。 早十语音识另黼l u 衍语音系统中关鼬技术的究 a 2 2a 3 3a 4 4a 5 5 口 ( ) 2 口 。3 图2 - 3h m m 示意图 口 b 2 口 ( ) 5 口 ( 6 为了便于理解,我们给出h m m 对语音信号产生的建模思想。语音是由人的 发音器官产生的。在说话的时候,声门处的气流冲击声带产生振动然后通过声 道的调制变成声音。声道的变化决定了语音信号的非平稳随机特性。声道的下 时刻的状况可以看成仅与当前状况有关,与以前的历史无关。因此,可以用一个 一阶马尔可夫过程来描述语音信号。对于观察者来说,只能观测到语音信号的状 态输出而无法直接观测到马尔可夫过程的内部状态序列以及其转移过程。h m m 用两个相互关联的随机过程来共同描述语音信号的统计特性。这两个随机过程一 个是隐蔽的( 不可观测到的) 具有有限状态的马氏链:另一个是与马氏链的每个状 态相关联的随机过程( 可观测到的) ,它束描述观测矢量。隐蔽的马氏链的统计特 性只能通过可观测到的语音信号特征来揭示。这样,语音信号在某个短的时间段 的频谱特征由对应的观测矢量的随机过程来描述,而浯音信号随叫渊的变化则由 隐蔽的马氏链的转移概率来描述。 n u 吼 o e怒 崦阳 璀干语啬识别的i u 衍语音系统中关键控术的研究 2 2 2 隐马尔可夫模型的三个基本问题 将h m m 应用于语音识别中,需要解决三个基本问题 1 2 。下面以连续h m m 为例子描述并绘出具体算法,采用带有入口和出口状念的左至右状态转移模型。 如图2 3 所示。 1 估值问题( e v a l u a t i o n p r o b l e m ) 。对于给定的观测序列0 = ( 口。,0 一d 7 ) 和模型 五= ( a ,b ,f ) ,计算出模型五产生观测序列0 的概率p ( o i 旯) 。常使用前向或后向 算法。 前向算法: 定义前向概率为: 口。( _ ,) = p ( o 。0 2 0 j ,x ,= j i 五) rt = l 7 1 ,j = l n ( 2 - 4 ) 初始化 f 1 j = 1 u 卜k 钆( 刚l ( 序 递归 q ( - ,) 一 口。( i ) a i j 西,( 。,) ,2 s t t ,2 - ,1 j = 2 终止 一in 唧,( ) = p ( o , 0 2 q x = 哪) = q ( 响。 e ( o f 兄) = 口,( n ) 后向算法: 首先定义后向概率: 一( i ) = p ( o 。,0 o f 。lx ,= f ,五) 初始化: ( 2 5 ) ( 2 6 ) ( 2 7 ) ( 2 8 ) ( 2 9 ) t ( i ) = 口m 1 i n( 2 - 1 0 ) m : i i : 归 0 止 粕 耻 燕十语寄识别- u 珥语肯系统中关耻技术的t o u t : 屈( i ) = 矾,b ,( 。1 ) ,( j ) p ( o i ) = 届( 1 ) ( 2 1 2 】 ( 2 1 3 ) 其中是状态数- m 是高斯混合分量个数r 是观测矢量个数( 一个观测序u 中 的) ,o 代表一个观测序列,o ,为在时刻,的观测矢量,口,是从状态f 到状念的 转移概率 2 译码问题( d e c o d i n g p r o b l e m ) a 对于给定的观测序列0 = ( 。l ,0 0 7 ) 和模型 = ( 爿,b ,f ) ,求模型五对应于观测序列0 的最佳状态序列g + = g j ,“,即寻 找使p ( oj 五) 达到最大时,o 所对应的状态序列。一般采用v i t e r b i 算法f 1 6 j 求解。 为了在计算机上实现方便,般用对数概率形式表示。算法示意图如图抄1 所示。 v i t e r b i 算法 定义函数4 ( 叭4 ( f ) = 1 ,1 2 a x 。p x ,x 2 ,z + z = f ,q ,q ,p 五 。它表 1 1 一1 j l 示在时刻f 状态f 1 = ,部分观测序列( q ,0 :,9 ) 的局部最佳得分。 初始化: 舢,也h 魏) ,。篡 b ,( ,) = q 递归: 5 i ( j ) = m 。a 。x 。 - 6 , 一。( f ) + i 。g a , 1 + i 。9 6 ,( 0 ,) ( 2 - l5 ) ( ) 2 a r g 粤? ”l 点一i ( 叶l o g a t , j ,1 ,s 7 ,1 , n( 2 - 1 6 1 1 i ( 一 一 , 结束: p ( o i 五) = 占7 ( ) = m x 8 7 ( f ) + l o g a “】 ( 2 1 7 ) x ;= 阶( ,) = a r g m a x , 5 ,( f ) + l o g a , ( 2 - 1 8 ) 回溯: ? = 虻+ ( 疋,) ,ls ,( t ( 2 1 9 ) 6 捧十语音识别的1 u 斫语青系统中关键拙术的研究 s t a t e 图2 - 4v i t e r b i 算法示意图 3 学习问题( l e a r n i n g p r o b l e m ) 。对于给定的观测序列o = ( 0 1 0 2 ,o ) ,如何修 正模型参数 ,使得模型a 产生观测序列o 的概率p ( o ja ) 最大。一般采用 b a u m - w e l c h 算法1 1 5 】。b a u m w e l c h 算法是依据最大似然( m l ) 准则调整h m m 的 模型参数,使得最后得到的模型参数对于训练数据的产生概率最大,解决了 h m m 的训练问题。 b a u m - w e i c h 算法: 定义孛( j ,) 雨l 以( i ) f ,( ) = f ( i ) = p ( y ,= i ,。= i q f tr ) , ) :竺堕z 刍坠l 塑:业 p ( o l ) 孵扣棚= 榴 一( 扣她j ) = 粼 则转移矩阵a 的重估公式如下 口口= z 2 4 , + ( f ,j ) 口j ( i ) a i j b ,( o j + i ) 鼢( ,) 上生j 三! 一= 生兰型一 n7 :一j ,y , 枷) 口j ( o f f ( f ) ( 2 - 2 0 ) 6 s 4 3 2 举卡语葺识黑h 的i 址话语酱系统中关键技术的研究 其中,p ,= p ( o ”i 五) ,1 i n ,1 , a ,= 去喜m 舢) ,l 小 ( 2 2 1 ) ( 2 - 2 2 ) 口翮群( f k = 专一,l i n ( 2 2 3 ) 啪) 屈( f ) i , z 】,r 蚓 定义0 ( ) 表示第,个观测序列中,在b , - t 亥0r ,状念的占有概军( p r o b a b i l i t yo f s l a t eo c c u p a t i o n ) :e ( ,m ) 表示第r 个观测序列中,在时刻f ,状态,的第啪个高 斯混合分量的占有概率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论