（模式识别与智能系统专业论文）广播语音的自动标注系统.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：71 大小：2.75MB 积分：0 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

（模式识别与智能系统专业论文）广播语音的自动标注系统.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

创新性声明舢f i j | j i f i i i | f i f i i j i j j j 川删 y 17 5 8 5 4 9 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。量本人签名：么鸳：里釜日期： 2 垒：主：! z 关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文不属于保密范围，适用本授权书。本人签名：彳绷导师签名：莓日期： 2 。户。五，7 日期：切州7 广播语音的自动标注系统摘要近年来，随着计算机技术、网络技术和通讯技术的快速发展，人们可方便快捷地获得图像、视频、音频等多媒体文件，全球多媒体数据出现爆炸式的增长，其中音频信息占有十分重要的地位。如何对海量级的多媒体资源进行有效的索引和信息检索成为当前一个研究热点，一种基于内容的音频检索方法对当今的大词汇量语音识别系统提出了更高的要求。在众多多媒体数据中，广播新闻是被大多数的多媒体研究课题重视的代表性音频数据，因为广播语音包含静音，音乐，说话人语音和噪音背景等音频要素。要提高广播语音识别的性能以及鲁棒性，需要大规模精确标注的语料库。众所周知，为大规模语音语料库添加标注需要大量人力、物力，而由于广播语音识别的性能还不够高，现阶段的标注工作还只能通过人工手动来完成。如何自动完成语音音频的文本标注是降低语音识别系统成本的重要方向。在这一背景下，本文研究搭建一个广播语音的自动标注系统。由于多数情况下，广播语音的音频文件和其相应的文本可在互联网找到，所以，本文的研究重点不再是单纯的识别问题，而是如果完成给定的已知文本与音频的对齐。本文提出了一种基于语音识别和动态规划找锚点( 可信对齐区域) 的递归对齐算法，这个算法可简单描述为：首先对连续音频进行语音识别得到识别文本，然后再对识别文本与已知文本进行文本内容的匹配对齐，通过文本匹配找到可信任的对齐区域( 称作“锚点) ，利用锚点将音频和已知文本分成己对齐部分及未对齐部分，然后对未对齐部分重复上述递归过程。本文中，根据标注语料的目的、已知文本可能含错、部分音频质量太差等现实因素提出三大改进：第一，以句子为单位完成音频与文本的对齐，为方便之后的人工修订；第二，采用d t w 的动态规划算法找对齐锚点，利用d t w 的容错性能降低错误文本对整个标注系统的影响；第三，对于音频质量特别差，以至于找不到对齐锚点的部分，本文采用声学模型自适应的算法来提高语音语音检测以系统的搭建内容层三层 9 8 9 的句之后人工修文还研究了在广播新闻学模型自适 a na u t o 讼t i cl a b e l i n gs y s t e mf o r b r o a d c a s tn e w s a b s t r a c t a sm ed e v e l o p m e n to ft h ec o m p u t e rt e c h n o l o g y , n e t w o r kt e c h n o l o g ya n d c o m m u n i c a t i o nt e c h n o l o g y , l a r g ea m o u n t so fa u d i oa n dv i d e oc o n t e n th a v eb e c o m e a v a i l a b l eo v e rt h ei n t e r n e t m i n i n gt h e s ed a t as o u r c e s ，e i t h e rt of a c i l i t a t et h e i rs e a r c h v i aa u d i oi n d e x i n ge n g i n e sh a sb e c o m ea ni n t e r e s t i n ga r e ao f r e s e a r c h ，w h i c hn e e d s a l a r g ev o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e mw i t hi m p r o v e dp e r f o r m a n c e a s at y p i c a l m u l t i m e d i ad a t a b r o a d c a s tn e w si sm o s t l yr e s e a r c h e db ys p e e c hr e s e a r c h e r s l a r g ea m o u n t ss p e e c hw i t hq u a l i t yl a b e l i n gt r a n s c r i p t sa r ei n d i s p e n s a b l ef o r t r a i n i n ga c o u s t i cm o d e li na u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) ，a n dt y p i c a l l yt h e t r a n s c r i p t sa r eg e n e r a t e db yh u m a n h o w e v e r , t o d a y sr e c o g n i t i o ns y s t e m sa r et r a i n e d o nh u n d r e d so re v e nt h o u s a n d so fh o u r so fs p e e c h ，a n dt h ec o n t i n u o u si n c r e a s e i nt h e s i z eo fr e c o g n i t i o nt r a i n i n gc o r p o r am a ym a k eq u a l i t yl a b e l i n go ft r a i n i n gd a t a p r o h i b i t i v e l ye x p e n s i v e w i t ht h el u c k yt h a ta u d i od a t aa n dt h e i rc o r r e s p o n d i n gt r a n s c r i p t sa r ea v a i l a b l e o nt h ei n t e r n e ti nm a n yc a s e s i no t h e rw o r d s ，t h ep r o b l e mi sn o tt or e c o g n i z ew o r d s f r o mt h ea u d i ob u tt oa l i g nt h eg i v e nt e x tw i t ht h ea u d i o t h i sp a p e ra d d r e s s e st h e p r o b l e mo fa l i g n i n gl o n gs p e e c hr e c o r d i n g st ot h e i rt r a n s c r i p t s w e p r o v i d ea r e c u r s i v et e c h n i q u eb a s e do i ls p e e c hr e c o g n i t i o na n dd y n a m i c p r o g r a m m i n g t h ea l g o r i t h mc a nb es i m p l yd e s c r i b e da s ：ar e e u r s i v es p e e c h r e c o g n i t i o np r o b l e mw i t hag r a d u a l l yr e s t r i c t i n gd i c t i o n a r y a n dl a n g u a g em o d e l e x t r a c t e df r o mc o r r e s p o n d i n gt r a n s c r i p t t h ea p p r o a c hi sb a s e do nt h ed i s c o v e r yo f i s l a n d so fc o n f i d e n c e ( c a l l e da n c h o r ) f o u n dv i ad y n a m i cp r o g r a m m i n g t oa l i g nt h e c o r r e c tt r a n s c r i p tw i t hh y p o t h e s i z e dw o r d sf r o ms p e e c hr e c o g n i t i o n t h et r a n s c r i p t s 昭m e n ta n dt h ea u d i os e g m e n ta r ep a r t i t i o n e di n t oa l i g n e da n d u n a l i g n e ds e g m e n t s a c c o r d i n gt ot h ea n c h o r s t h e s es t e p sa r er e p e a t e df o ra n y u n a l i g n e ds e 圈m e n t su n t i la t e r m i n a t i o nc o n d i t i o ni sr e a c h e d 。i nt h i sp a p e rw e h a v ei m p r o v e dt h er e c u r s i v e a p p r o a c ht od e a lw i t hb r o a d c a s tn e w si nt h r e ep r i m a r yd i f f e r e n c e s f i r s t ，o u ra p p r o a c h e x p l i c i t l ys e a r c h e si nt h eu n i to fs e n t e n c ew h i c hi se a s i e rf o rm a n u a le m e n d i n g s e c o n d , o u ra p p r o a c hu s e st h ed y n a m i cp r o g r a m m i n g t e c h n i q u eo fd y n a m i ct i m e w a r p i n g ( d t w ) t oa l i g nt h ec o r r e c tt r a n s c r i p tw i t hh y p o t h e s i st e x t ，f o rt h et 0 1 e r a n c e t oai b we r r o r sc a na v o i ds o m ee r r o r si nt r a n s c r i p t s m a k i n ga l i g n m e n tf a i l e d t h i r d ， t b rt h es e g m e n tt h a tc a n n o tf o u n da na n c h o r , w e u s et h ea c o u s t i cm o d e lr e e s t i m a t i o n t e c h n i q u er a t h e rt h a nc h a n g i n gt h et h r e s h o l do fd p i nr e c u r s i v e ，i tf a c e st h ef a c tt h a t s o m es e g m e n ti nn e w sb r o a d c a s ta u d i oi st o op o o rt or e c o g n i z e i nt h i sp a p e rw eb u i l da na u t o m a t i c l a b e l i n gs y s t e mf o rb r o a d c a s tn e w s ，b a s e do n t h er e c u r s l v ea l i g n m e n ta l g o r i t h ma n ds p e e c h s e g m e n t a t i o n ，i n c l u d i n gv o i c ea c t i v i t y d e t e c t i o n ，d i s c r i m i n a t i o no fs p e e c ha n dm u s i c ，s p e a k e rs e g m e n t a t i o n i tc o m p l e t e st h e a u t o m a t l cl a b e l i n go nt h r e e a s p e c t s ，s u c ha sc o n t e n tc o n t r a c t ，s p e a k e ra n d s p e e c h c o n t e n t t h ec o m p l e t e n e s sr a t i oi s8 9 2 a n d9 8 9 o f t h es e n t e n c e sa r e o f f b v1 e s s t h a n1s e c o n df r o mt h er e a lt a g s t h es y s t e mc a ns a v ea l a r g e 锄o u n to fh u m 锄l a b o r c o n s u m i n g t oi m p r o v et h ep e r f o r m a n c eo f l a b e l i n gs y s t e m ，t h i sp a p e rs t u d i e dt h e t e c h n o l o g yo fs p e e c hs e g m e n t a t i o na n de x p e r i m e n t e di nb r o a d c a s tn e 、sa u d i o k e y w o r d s ：a u t o m a t i c l a b e l i n g , s p e e c h s e g m e n t a t i o n ，a c o u s t i cr e e s t i m a t i o n a l i g n m e n t ，d y n a m i cp r o g r a m m i n g ，s p e e c h 北京邮电人学硕二l 论文广播语音的j 动标注系统目录第1 章绪论1 1 1语音识别与广播语音识别的发展背景1 1 2广播语音自动标注的研究意义2 1 3自动标注的研究现状2 1 4广播语音自动词汇标注的新的研究思路3 1 5论文研究内容3 1 6论文结构安排4 第2 章语音识别基础理论5 。2 1连续语音识别的基本框架。5 2 2特征提取5 2 3声学模型6 2 3 1 声学模型建模6 2 3 2 声学模型自适应：7 2 4语言模型8 2 4 1 基于规则的语言模型8 2 4 2 基于统计的语言模型9 2 5解码1 0 2 5 1 帧同步维特比束搜索1 1 2 5 2 堆栈译码算法17 第3 章动态规划1 8 3 1动态规划简介18 3 1 1 动态规划原理1 8 3 1 2 动态规划的适用条件1 9 3 1 3 动态规划步骤1 9 3 2动态时间规整算法( d t l | i ) 1 9 第4 章音频分割2 2 4 1音频分割简介2 2 4 2音频分割的方法2 2 i 北京邮电人学硕? i ：论文广播语音的自动标滓系统 4 3端点检测2 3 4 3 1 简介及研究现状2 3 4 3 2 特征提取2 3 4 3 3 算法研究2 5 4 3 4 实验结果及分析2 7 4 4语音检测2 9 4 4 1 简介及研究现状2 9 4 4 2 特征提取3 0 4 4 3s v m 分类器3 1 4 4 4 实验结果及分析一3 1 4 5说话人分割3 2 4 5 1 简介及研究现状3 2 4 5 2 算法研究3 3 4 5 3 实验结果及分析3 6 第5 章广播语音自动标注系统：3 8 ， 5 一自动标注系统描述3 8 5 2系统框架3 8 5 3音频预处理3 8 5 4文本处理3 8 5 5递归语音识别算法3 9 5 5 1 维特比强制对齐的方法3 9 5 5 2 递归算法描述3 9 5 5 3 递归算法的优势4 2 5 6动态时间规整( d t w ) 算法4 3 5 7锚点选择策略4 4 5 7 1 锚点选择策略4 4 5 7 2 锚点选择算法4 5 5 8 说话人分割4 6 第6 章自动标注系统实验结果4 8 6 1实验数据4 8 i i ! ! 室唑! 垒叁兰堡：! 兰文广播语音的自动标注系统 6 2 实验结果4 8 6 2 1 自动标注完成度4 8 6 2 2 自动标注精确度5 0 第7 章总结与展望5 2 7 1 工作总结5 2 7 2 今后工作展望5 3 i l l 广播语音的自动标注系统 i v 北京邮l 乜人学硕一l ：论文广播语音的自动标注系统第1 章绪论 1 1 语音识别与广播语音识别的发展背景语音识别( s p e e c hr e c o g n i t i o n ) 技术作为人机交互的关键技术，是以语音为研究对象，将语音用机器翻译成文字，涉及到语言学、声学、生理学、心理学、信息学、数字信号处理理论、模式识别理论和计算机等学科。语音识别的最终目标是实现人和机器之间的自然语言通信。语音识别的研究工作始于2 0 世纪5 0 年代，至今已经走过了5 0 多年的发展历程。从上世界8 0 年代初以来，语音识别技术经历了从孤立词、小词汇量、特定人到大词汇量、非特定人、自然口语识别的发展过程。到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于9 8 ，对特定人语音识别系统的识别精度就更高。当前大词汇量连续语音识别系统的主要问题在于适应性较差，尤其是对环境和特定说话人的依赖性较强，记载某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降。 “ 广播语音识别技术的研究是当前大词汇量连续语音研究的一个热点问题，它集中体现了环境的复杂性。在广播电视新闻节目中，包含了大量的不同声学和语言特征的信号段，在段与段之间的语音既有忽然猛烈过渡的，也有平缓过渡的，信号的质量既有播音室的高保真信号，也有经过电话或者其他含噪声通道传送的有限带宽信号，还有嘈杂环境下的语音，或是在音乐背景下的语音以及纯声音信号。除此之外，仅对语音信号而言，说话的中音也是形形色色，由新闻播音员，脱口秀主持人、地方口音浓重的普通百姓、语音不地道的外国发音者。面对这样复杂的变化多端的信号，在实验室里用纯净语音训练出来的单一声学模型，显然是不能完成识别任务的川。在国际上，广播语音识别系统的研究起源于美国国防部高级研究计划署 ( d a r p a ，d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 所资助的人类语言系统 ( h u m a nl a n g u a g es y s t e m ) 项目中的语音技术部分。d a r p a 将这个计划分成很多项目，由多家研究机构和高校来完成”其中参与口语识别与理解方面项目的研究机构或大学有b b n 、c m u 、m r r 、科学应用公司( s a i c ) 等。美国国家标准与技术研究所( n i s t ，n a t i o n a li n s t i t u t eo f s t a n d a r da n d t e c h n o l o g y ) 每年都要举行一次广播电视新闻记录检索系统的技术的性能评测，这个语音技术评测基本上代表了当今世界广播语音技术的最高发展水平。从 l 北京邮l u 大学硕l ：论文广播语音的自动标注系统 i 9 9 5 年开始第一次评测到1 + 9 9 9 年，在条件背景下语音识别的准确率已经达到了 8 3 左右。但从2 0 0 0 年开始，n i s t 就没有再举行大规模的广播语音的评测【2 】。对于汉语广播语音识别的研究，除了参加d a r p a 评测的几家单位外，台湾的一些研究机构也进行了一些研究，但没有一个可以和上述研究机构进行对比的结果。在国内，广播语音识别的研究工作开展的比较晚，还没有比较成熟的广播语音识别系统。 1 2 广播语音自动标注的研究意义与国际上同益成熟的广播语音识别的研究相比，国内相关的研究机构在这方面开展的研究相对滞后。这其中一个主要原因就在于广播新闻语料库的匮乏。高质量的语料库是大规模语音研究不可缺少的部分，它是语音识别系统中建立有效的声学模型和语言模型的必要条件。近年来，随着计算机和互联网等信息技术的快速发展，人们可方便快捷地获得广播新闻、电影、电视节目和其它类型的多媒体文件，全球多媒体数据出现爆炸式的增长。然而，对海量级的多媒体资源进行有效的索引和信息检索并非易事。由于互联网的丌发应用使得基于文本的检索技术日趋成熟，对于多媒体检索，人们很容易想到先将音频信号转换成文字信息，然后再利用文本检索技术。这就是基于内容的音频多媒体检索方法的基本思路【3 】：准确无误地将音频信号转换成文本是基于内容的多媒体检索的研究重点，其本质是需要得到音频数据的标注文本。这其中，广播新闻是被大多数的多媒体研究课题重视的代表性音频数据。然而众所周知，为大规模语音语料库添加标注是一项需要投入大量人力、物力资源的任务。由于现有的广播语音识别系统无法实现语音语料库的自动标注，因此标注的工作往往只能通过人工手动来完成。如今，发展得越来越精确细致的语音识别系统常常需要数百甚至数千小时的标注语料。自动完成语音音频的文本标注是降低语音识别系统成本的重要方向。 1 3 自动标注的研究现状为了克服手工标注大型语音语料库存在的难题，人们开发出了许多可对语音语料库自动添加标注的方法。通常是利用自动语音识别系统( a u t o m a t i cs p e e c h r e c o g n i t i o n ，a s r ) 来生成词汇标注和音标标注【4 】【5 】。对于新闻广播的标准朗读语音来说，目前的a s r 系统已经能够达到超过9 0 的词汇识别准确率【6 】【7 】和8 0 左右的音素识别准确率，但这样的应用还远未达到令人满意的程度。自动生成的词汇标注和音标标注中散布着比例相当大的错误成 2 北京邮i 乜人学顾j j 论文广播语音的自动标注系统分，还需要由人类标注者逐个词、逐个音标地仔细检查和校对，以保证标注的可用性。因此，目前的自动语音识别系统应用并没有真正解决手工标注枯燥乏味、费时费力的问题一个严重的问题是目前技术水平的a s r 系统要求用户发音清晰、语速稳定，而且发音和语法都必须是正确的。然而在现场新闻报道当中，往往存在大量的不正规的语音，比如随意的发音、不完整的词汇、语音中的停顿、迟疑，以及不时出现的语速变化等等。这些语音现象的存在使得自然口语语音的自动标注变得十分困难。自然口语语音的识别率，特别是词汇的识别率是比较低的( 一般低于8 0 ) 【8 】【9 】【l o 】。难上加难的是，很多时候真实的广播语音中还包括噪音、音乐、方言、口头语甚至是几个说话人同时在发言，这对语音识别来说是个大挑战。 1 4 广播语音自动词汇标注的新的研究思路各种研究无一例外地表明，单纯地由a s r 系统生成的自然口语语音的词汇和音标标注集合无法被用作可靠的语料库来建立语言模型和声学模型。幸运的是，在许多情况下，广播语音的音频文件和其相应的文本可在互联网找到。换句话说，这个问题不再是单纯的识别语音音频，而是将给定的已知文本与音频进行对齐。在如何将音频与文本对齐的课题方向已有大量研究。一个简单的思路是利用维特比强制对齐直接完成音频与对应文本的对齐，但这通常只适用于干净的语音 1 1 1 。另一个困难是，对于较长语音段，强制对齐需要很长的时间且准确率下降。如果将音频做预分割， m o r e n o 等人提出一个新颖的想法【l 2 1 ，把音频与文本强制对齐的问题转变成对音频进行递归的语音识别的问题，在递归过程中利用已知文本生成的逐步限制的字典和语言模型来提高语音识别的准确率。该方法核心是找到可信任的对齐区域( 称作“锚点”) 。通过动态规则的技术，来完成已知文本与识别结果文本的对齐，找到满足一定公共长度的锚点。每一次递归过程中，音频和已知文本已被锚点分成了已对齐部分及未对齐部分。对未对齐部分重复上述递归过程，直至达到终止条件。本论文也将引用这一思路来完成广播语音的词汇标注。 1 5 论文研究内容该课题背景是以“广播语音的主动学习为研究方向的国家自然基金项目。该课题研究的广播语音自动标注系统是建立大型广播语音语料库的辅助工具。需 3 系统 4 史及包括音自分割和实北京邮i 【1 人学硕一l ：论义广播语音的自动标沣系统第2 章语音识别基础理论本章简要介绍采用h m m 为基础的连续语音识别技术的理论基础知识，主要包括：声学模型、语言模型、解码原理等。特别是针对本文搭建广播语音自动标注系统所需的模块和技术，介绍了声学模型自适应，语言模型以及维特比强制对齐的知识。 2 1 连续语音识别的基本框架。语音识别系统是一般由声学特征提取、从语音数据提取声学特征并输入到解码器，准则条件下解码输出识别结果。声学模型、语言模型和解码器组成，利用声学模型和语言模型，在m a p 2 2 特征提取图2 - 1大词汇量连续语音识别系统基本框架【1 3 】特征的选择与提取是模式识别的重要环节，对声音信号进行描述是语音识别的首要问题，也是影响语音识别准确率的主要因素。声学特征是由音频信号转化而来，能够反映源信号某种特性的信息。对于不同的研究目的与应用方向，可选取最具针对性的信息作为特征最佳刻画目标问题，以达到突显主要矛盾、削减侧面影响的目的。语音的声学特征主要包括【1 4 】【1 5 】：线性预测参数l p c 、感知线性预测系数p l p 和m f c c 参数等。l p c 预测系数已经广泛应用于语音信号处理领域，它能够提供一个很好的声道模型及模型参数估计方法，利用以前的信号数据去预测当前的信号值。l p c 系数一般采用d u r b i n 或l e v i n s o n 迭代算法求解维纳霍夫方程获得。北京邮电人学硕i j 论文广播语爵的自动标注系统 p l p 提取感知线性预测倒谱系数，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。很多研究表明，在环境匹配不是很好的情况下，p l p 的性能稍好一点。m f c c 参数比l p c 倒谱系数更符合人耳的听觉特性，它充分利用人耳在听觉上对频率感应具有非线性的特点，对各带通滤波器组频率带宽内所有的信号幅度作加权和后作对数处理，经d c t 变换后得到 m f c c 系数，滤波器组可选择三角形状或正弦形状，在m f c c 静态特征系数基础上，计算动态特性的各阶差分系数，组成的多维语音特征矢量可以进一步提高语音识别的准确性，m f c c 特征参数已经在现有的语音识别系统得到了广泛的应用。从目前的应用来看，在广播语音、朗读式语音中，m f c c 特征应用较多。在电话语音、会议语音等应用场合，p l p 特征应用较多。而在语音合成和说话人识别等情况下，l p c 特征应用较广。在环境噪声比较强的情况下，特征提取模块通常还带有噪声补偿功能，降低噪声对语音识别效果的影响。通常的噪声补偿方法有谱减法、对数谱域补偿法( 如 v t s ) 和自适应维纳滤波方法( a w f ) 等，这些方法基本的原理都是先对背景噪声进行估计，然后在对数谱域或倒谱域对带噪语音信号进行补偿，从而使得语音信号( 或者特征) 得到增强，提高噪声环境下的识别率。 2 3 声学模型 2 3 1 声学模型建模声学模型是语音识别系统中最为关键的一部分。声学模型的目标是提供一种有效的方法，计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。大部分语音识别系统声学模型都基于h m m 1 6 】。h m m 之所以能够成功，是因为它是一个双重随机模型，很好地描述了语音信号整体上的非平稳性和局部的平稳性。隐马尔可夫模型的状态和模型的输出不是一一对应，状态不为外界所见，即状态是隐含的，而输出序列是外界可以看到的。h m m 是双重的随机过程：首先是基本随机过程，是m a r k o v 链，由转移矩阵a 来描述；进一步，在某个状态下的输出是随机取值，是输出与状态联系( 按概率) 的过程。 h m m 可以用五个模型参数表示a = ( s ，o ，ab ，丁【) ，其中s 为模型状态的有限集合；o 为输出观测序列的集合；a 为状态转移概率的集合；b 为输出概率的集合；1 【为系统初始状态概率的集合。一旦确定模型状态数和观测序列，h m m 可简写成人= 价，b ，丌) 表示。 6 北京邮电人学硕士论文广播语音的自动标注系统 s i g n a l a c o u s t i c v e c t o r y = s e o u e n t u ”y 2y 3 y 4 ” 图2 - 2 隐马尔可夫模型如图2 - 1 所示，该h m m 有3 个发射状态和两个哑状态( 引入状态和引出状态) ，它们之间的转移关系由图中带箭头弧线表示，箭头方向指明状态的转移方向，a 和b 分别表示转移概率和发射状态的观测概率。其中转移概率是常数，观测概率反映了观测矢量的输出概率分布。引入状态和引出状态不产生观测矢量，它们主要用于不同h m m 之间的连接。只要合并不同h m m 之间的引入状态和引出状态，就可以得到任意长度的音素序列或词序列的组合模型。于是对于每一帧特征矢量，组合h m m 都会以一定的转移概率改变状态，而当前状态又以其观测概率产生这一帧特征矢量。这样我们就可以计算某音素序列或词序列产生给定特征矢量的概率了。 2 3 2 声学模型自适应声学模型参数自适应的目的就是从“尽可能少的自适应数据中，提取出与当前说话人相关的信息，对已有的初始声学模型参数进行调整，尽量消除当前说话人与初始模型之间的模型差异，从而得到说话人自适应模型1 1 7 】。由于模型参数自适应方法是从模型调整的角度来解决模型不匹配问题，因此，它也可以被看作是一种模型重估和训练问题。模型参数自适应问题可以从两个角度来看待：首先，模型参数自适应问题是一个“重新”训练过程。所谓的“重新训练，也就是说，自适应的条件之一是 7 北京邮i 【i 人学硕l ：论文广播语音的自动标注系统存在一个得到了充分训练的初始模型。因此，如何从初始模型中提取出有用的信息并将之应用到自适应过程中，就成为了自适应过程中需要解决的问题。其次，模型参数自适应问题是一个“稀疏训练问题。所谓的“稀疏”，是指通常的自适应环境下，可以得到的训练数据是十分有限的，导致了通常采用的模型训练策略和手段不再适用。因此，研究新的模型训练方法就成为了自适应方法的核心问题。此外，训练数据的稀疏将导致相当多的模型无法得到对应的自适应数据。 m a p 算法和m l l r 算法都是基于模型层说话人自适应中的经典算法。m a p 有很好的渐进性，可以充分利用语音数据的细节信息。它通过b a y e s 理论给出了结合先验知识和白适应数据的最优解。由于在训练过程中结合了先验信息，避免了自适应数据估计的错误，当自适应数据不断增加时，自适应效果将稳步提高。但是m a p 算法收敛速度慢，只能对有观测数据的模型自适应，无法处理没有观测值的模型。m l l r 方法是通过一些线性变换来对初始模型进行自适应的这种方法的优点是比较简单，而且自适应速度比较快。即使自适应数据量不足，m l l r 方法也可以获得较理想的效果。由于m l l r 自由参数少，很难对每个模型精细描述，而且比较难以引入先验知识。 2 4 语言模型在连续语音识别中，语言的知识也是重要的知识资源。对于大词汇量连续语音识别任务，存在着大量的容易混淆的候选序列，它们往往很难从声学特征上进行区分，并且候选空间非常大，只用声学模型难以进行可靠判断。通过引入语言内在的规律可以对候选词序列进行有效的决策，并且可以减少搜索的空间，提高搜索效率。语言模型主要用来描述自然语言的统计和结构方面的内在规律。语言模型的好坏，直接影响语音识别的性能。语言模型可分成两类：一类是基于规则的，另一类是基于统计的。有限状态语法和n g r a m 语言模型都用来描述语言知识信息，两者区别在于前者是通过专家总结出来的规则，而后者是从训练数据中统计出来的【1 4 】【1 8 】。 2 4 1 基于规则的语言模型最基本的形式语言理论是乔氏理论( c h o m s k yf o r m a ll a n g u a g e t h e o r y ) t 1 9 1 。在乔氏理论中，语法是如下定义的： g = ( v ，t ，p js ) 2 1 其中，v 是变量的有限集，包含了所有的非终止符；t 是终止符的有限集，p 北京邮i 乜人学颂l ：论文广播语音的自动标滓系统是规则集，s 是初始变量。传统的规则型语言模型是人工编制的语言学文法，文法规则来源于语言学家掌握的语言学知识和领域知识。对于一个输入的文字串，计算机借助于文法规则，可以推导出该文字串的语法结构，从而可以判断出该文字串是否符合文法。这种语言模型一般仅能分析特定领域内的句子，无法处理大规模真实文本。近年来，计算语言学家正在研究基于语料库的文法推导方法，该方法可以从语料库的自然语言文本中抽取自然语言的规则文法。它把文法推导看作是一个搜索过程，而搜索空问则由一组候选文法组成。它从一个初始的文法出发，根据一个文法的评价函数，使用一组文法修改舰则，不断地对文法进行修改，直至生成一个使文法的评价函数值最优的文法。文法评价函数一般既与文法对训练语料库的符合程度相关，也与文法自身的规模相关。文法推导一般可以分为两种：基于语料库多级加工的文法推导和基于原始语料库的文法推导。前者在经过词性标注或句法分析的语料库上直接抽取规则，并估计相应的概率，这种方法属于有指导的文法推导，一般被称作文法抽取，难度较小；后者直接在原始语料库上进行文法推导，它首先对语言单位自动分类，并发现固定的短语结构，然后才能为之建立相应的规则，估计规则的概率，这种方法属于无指导的文法推导，通常被称作文法训练，难度较大。无论是最初的语言学家人工构造的文法模型，还是计算语言学家研究出的自动推导的文法模型，规则语言模型所依赖的反映语言本质结构的语法规则，虽然能在更本质的层次上解释语言的内在结构，但是，这种语言模型所必须依赖的任何语法规则系统，与自然语言相比都显得有些简单和生硬。因此，形式语言很难描述自然语言的全部特征。而且，在人们日常对话中，不符合语法的语句比比皆是，这就使得形式语言很难不加改进地应用到实际的自然语言处理系统中。因此基于统计的语言模型逐渐成为自然语言理解的主流技术。但是，我们应该注意到，虽然文法推导生成的随机文法目前在模型性能上还无法与统计模型相比( 如，基于词的n g r a m 模型) ，但是由于它集成了文法规则和统计技术的双重特点，与单纯的统计模型或单纯的文法模型相比，无疑具有更大的潜力。 2 4 2 基于统计的语言模型基于统计的语言模型需要利用对大量语料进行深层加工处理，得到隐含其中的语言知识。对于词序列w = w l ，w ，z ，w r n ) ，其输出特定词序列的概率可以表示为【2 0 1 p ( v 呀) = p ( v 吒) p ( w z w 1 ) p ( v w 一1 ) 2 - 2 9 北京邮i u 人学硕1 j 论文广播语音的自动标注系统要得到所有可能出现的词序列的概率是很难实现，因此语音识别系统常采用 n g r a m 语言模型，因此上式变为 p ( v 岬) = 兀2 ：1p r w 1 at k - i ，+ 1 ) 2 3 n - g r a m 语言模型最常用的是i - g r a m 、2 - g r a m 和3 - g r a m 。 n g r a m 语言模型最常用的是1 - g r a m 、2 - g r a m 和3 - g r a m 。要得到好的语言模型【1 2 】，必须解决数据稀疏性和对训练语料的强依赖性。数据稀疏性是由所收集的语料库规模不大，覆盖领域不广所造成的，解决的方法就是针对不同的应用领域收集大量的语料，组成规模非常大的语料库，另外可对训练好的语言模型进行平滑处理。对训练语料的强依赖性是针对这个环境下训练得到语言模型一旦应用其它领域，系统识别性能会急剧下降，解决的方法就是采用自适应的方法，利用一部分领域内语料做自适应。语言模型由词典文件同声学模型联系起来。词典文件一般包括词表定义和发音列表，而语言模型则描述了这些词之间的内在关系。他们三者的关系可由下图表示【2 i 】： 2 5 解码语言一词典例。从词典文件中获得发音列表：声学一撇图2 - 3 发音字典同语言模型和声学模型的关系在大词表连续语音识别中，基本的识别算法是v i t e r b i 算法和a 术算法，但在具体的算法实现过程中，为了提高系统的实用性，国内外的研究者对搜索过程进行了各种各样的简化处理，从不同的角度提出了各种各样的搜索策略，使搜索的夏杂度和系统的性能达到一定的平衡。根据语音识别系统对不同先验知识源的利用方式，可以把搜索策略分为一遍搜索和多遍搜索策略两种【2 2 1 。一遍搜索策略倾向于将所有可能的知识源全部集成在一起，只对输入的语音序列进行一次处理，完成所有的搜索步骤，直接给出最优的搜索结果，而使用的知识源越多，搜索的计算代价越大，因此一遍搜索中很难应用到比较夏杂的声学模型和语言模型，但它比较适合构建实时系统。 1 0 北京邮i u 人学硕i j 论文广播语占的自动标注系统多遍搜索的基本思想是：将各种知识源( 声学模型和语言模型) 由简单到复杂逐渐加入到搜索过程中，每一遍搜索只使用一部分知识，

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）广播语音的自动标注系统.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）广播语音的自动标注系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档