已阅读5页,还剩66页未读, 继续免费阅读
(模式识别与智能系统专业论文)广播语音的自动标注系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
创新性声明 舢f i j | j i f i i i | f i f i i j i j j j 川删 y 17 5 8 5 4 9 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 量 本人签名:么鸳:里釜 日期: 2 垒:主:! z 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名:彳绷 导师签名:莓 日期: 2 。户。五,7 日期:切州7 广播语音的自动标注系统 摘要 近年来,随着计算机技术、网络技术和通讯技术的快速发展,人 们可方便快捷地获得图像、视频、音频等多媒体文件,全球多媒体数 据出现爆炸式的增长,其中音频信息占有十分重要的地位。如何对海 量级的多媒体资源进行有效的索引和信息检索成为当前一个研究热 点,一种基于内容的音频检索方法对当今的大词汇量语音识别系统提 出了更高的要求。 在众多多媒体数据中,广播新闻是被大多数的多媒体研究课题重 视的代表性音频数据,因为广播语音包含静音,音乐,说话人语音和 噪音背景等音频要素。要提高广播语音识别的性能以及鲁棒性,需要 大规模精确标注的语料库。众所周知,为大规模语音语料库添加标注 需要大量人力、物力,而由于广播语音识别的性能还不够高,现阶段 的标注工作还只能通过人工手动来完成。如何自动完成语音音频的文 本标注是降低语音识别系统成本的重要方向。 在这一背景下,本文研究搭建一个广播语音的自动标注系统。由 于多数情况下,广播语音的音频文件和其相应的文本可在互联网找到, 所以,本文的研究重点不再是单纯的识别问题,而是如果完成给定的 已知文本与音频的对齐。 本文提出了一种基于语音识别和动态规划找锚点( 可信对齐区域) 的递归对齐算法,这个算法可简单描述为:首先对连续音频进行语音 识别得到识别文本,然后再对识别文本与已知文本进行文本内容的匹 配对齐,通过文本匹配找到可信任的对齐区域( 称作“锚点) ,利 用锚点将音频和已知文本分成己对齐部分及未对齐部分,然后对未对 齐部分重复上述递归过程。本文中,根据标注语料的目的、已知文本 可能含错、部分音频质量太差等现实因素提出三大改进:第一,以句 子为单位完成音频与文本的对齐,为方便之后的人工修订;第二,采 用d t w 的动态规划算法找对齐锚点,利用d t w 的容错性能降低错 误文本对整个标注系统的影响;第三,对于音频质量特别差,以至于 找不到对齐锚点的部分,本文采用声学模型自适应的算法来提高语音 语音检测以 系统的搭建 内容层三层 9 8 9 的句 之后人工修 文还研究了 在广播新闻 学模型自适 a na u t o 讼t i cl a b e l i n gs y s t e mf o r b r o a d c a s tn e w s a b s t r a c t a sm ed e v e l o p m e n to ft h ec o m p u t e rt e c h n o l o g y , n e t w o r kt e c h n o l o g ya n d c o m m u n i c a t i o nt e c h n o l o g y , l a r g ea m o u n t so fa u d i oa n dv i d e oc o n t e n th a v eb e c o m e a v a i l a b l eo v e rt h ei n t e r n e t m i n i n gt h e s ed a t as o u r c e s ,e i t h e rt of a c i l i t a t et h e i rs e a r c h v i aa u d i oi n d e x i n ge n g i n e sh a sb e c o m ea ni n t e r e s t i n ga r e ao f r e s e a r c h ,w h i c hn e e d s a l a r g ev o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e mw i t hi m p r o v e dp e r f o r m a n c e a s at y p i c a l m u l t i m e d i ad a t a b r o a d c a s tn e w si sm o s t l yr e s e a r c h e db ys p e e c hr e s e a r c h e r s l a r g ea m o u n t ss p e e c hw i t hq u a l i t yl a b e l i n gt r a n s c r i p t sa r ei n d i s p e n s a b l ef o r t r a i n i n ga c o u s t i cm o d e li na u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) ,a n dt y p i c a l l yt h e t r a n s c r i p t sa r eg e n e r a t e db yh u m a n h o w e v e r , t o d a y sr e c o g n i t i o ns y s t e m sa r et r a i n e d o nh u n d r e d so re v e nt h o u s a n d so fh o u r so fs p e e c h ,a n dt h ec o n t i n u o u si n c r e a s e i nt h e s i z eo fr e c o g n i t i o nt r a i n i n gc o r p o r am a ym a k eq u a l i t yl a b e l i n go ft r a i n i n gd a t a p r o h i b i t i v e l ye x p e n s i v e w i t ht h el u c k yt h a ta u d i od a t aa n dt h e i rc o r r e s p o n d i n gt r a n s c r i p t sa r ea v a i l a b l e o nt h ei n t e r n e ti nm a n yc a s e s i no t h e rw o r d s ,t h ep r o b l e mi sn o tt or e c o g n i z ew o r d s f r o mt h ea u d i ob u tt oa l i g nt h eg i v e nt e x tw i t ht h ea u d i o t h i sp a p e ra d d r e s s e st h e p r o b l e mo fa l i g n i n gl o n gs p e e c hr e c o r d i n g st ot h e i rt r a n s c r i p t s w e p r o v i d ea r e c u r s i v et e c h n i q u eb a s e do i ls p e e c hr e c o g n i t i o na n dd y n a m i c p r o g r a m m i n g t h ea l g o r i t h mc a nb es i m p l yd e s c r i b e da s :ar e e u r s i v es p e e c h r e c o g n i t i o np r o b l e mw i t hag r a d u a l l yr e s t r i c t i n gd i c t i o n a r y a n dl a n g u a g em o d e l e x t r a c t e df r o mc o r r e s p o n d i n gt r a n s c r i p t t h ea p p r o a c hi sb a s e do nt h ed i s c o v e r yo f i s l a n d so fc o n f i d e n c e ( c a l l e da n c h o r ) f o u n dv i ad y n a m i cp r o g r a m m i n g t oa l i g nt h e c o r r e c tt r a n s c r i p tw i t hh y p o t h e s i z e dw o r d sf r o ms p e e c hr e c o g n i t i o n t h et r a n s c r i p t s 昭m e n ta n dt h ea u d i os e g m e n ta r ep a r t i t i o n e di n t oa l i g n e da n d u n a l i g n e ds e g m e n t s a c c o r d i n gt ot h ea n c h o r s t h e s es t e p sa r er e p e a t e df o ra n y u n a l i g n e ds e 圈m e n t su n t i la t e r m i n a t i o nc o n d i t i o ni sr e a c h e d 。i nt h i sp a p e rw e h a v ei m p r o v e dt h er e c u r s i v e a p p r o a c ht od e a lw i t hb r o a d c a s tn e w si nt h r e ep r i m a r yd i f f e r e n c e s f i r s t ,o u ra p p r o a c h e x p l i c i t l ys e a r c h e si nt h eu n i to fs e n t e n c ew h i c hi se a s i e rf o rm a n u a le m e n d i n g s e c o n d , o u ra p p r o a c hu s e st h ed y n a m i cp r o g r a m m i n g t e c h n i q u eo fd y n a m i ct i m e w a r p i n g ( d t w ) t oa l i g nt h ec o r r e c tt r a n s c r i p tw i t hh y p o t h e s i st e x t ,f o rt h et 0 1 e r a n c e t oai b we r r o r sc a na v o i ds o m ee r r o r si nt r a n s c r i p t s m a k i n ga l i g n m e n tf a i l e d t h i r d , t b rt h es e g m e n tt h a tc a n n o tf o u n da na n c h o r , w e u s et h ea c o u s t i cm o d e lr e e s t i m a t i o n t e c h n i q u er a t h e rt h a nc h a n g i n gt h et h r e s h o l do fd p i nr e c u r s i v e ,i tf a c e st h ef a c tt h a t s o m es e g m e n ti nn e w sb r o a d c a s ta u d i oi st o op o o rt or e c o g n i z e i nt h i sp a p e rw eb u i l da na u t o m a t i c l a b e l i n gs y s t e mf o rb r o a d c a s tn e w s ,b a s e do n t h er e c u r s l v ea l i g n m e n ta l g o r i t h ma n ds p e e c h s e g m e n t a t i o n ,i n c l u d i n gv o i c ea c t i v i t y d e t e c t i o n ,d i s c r i m i n a t i o no fs p e e c ha n dm u s i c ,s p e a k e rs e g m e n t a t i o n i tc o m p l e t e st h e a u t o m a t l cl a b e l i n go nt h r e e a s p e c t s ,s u c ha sc o n t e n tc o n t r a c t ,s p e a k e ra n d s p e e c h c o n t e n t t h ec o m p l e t e n e s sr a t i oi s8 9 2 a n d9 8 9 o f t h es e n t e n c e sa r e o f f b v1 e s s t h a n1s e c o n df r o mt h er e a lt a g s t h es y s t e mc a ns a v ea l a r g e 锄o u n to fh u m 锄l a b o r c o n s u m i n g t oi m p r o v et h ep e r f o r m a n c eo f l a b e l i n gs y s t e m ,t h i sp a p e rs t u d i e dt h e t e c h n o l o g yo fs p e e c hs e g m e n t a t i o na n de x p e r i m e n t e di nb r o a d c a s tn e 、sa u d i o k e y w o r d s :a u t o m a t i c l a b e l i n g , s p e e c h s e g m e n t a t i o n ,a c o u s t i cr e e s t i m a t i o n a l i g n m e n t ,d y n a m i cp r o g r a m m i n g ,s p e e c h 北京邮电人学硕二l 论文广播语音的j 动标注系统 目录 第1 章绪论1 1 1语音识别与广播语音识别的发展背景1 1 2广播语音自动标注的研究意义2 1 3自动标注的研究现状2 1 4广播语音自动词汇标注的新的研究思路3 1 5论文研究内容3 1 6论文结构安排4 第2 章语音识别基础理论5 。2 1连续语音识别的基本框架。5 2 2特征提取5 2 3声学模型6 2 3 1 声学模型建模6 2 3 2 声学模型自适应:7 2 4语言模型8 2 4 1 基于规则的语言模型8 2 4 2 基于统计的语言模型9 2 5解码1 0 2 5 1 帧同步维特比束搜索1 1 2 5 2 堆栈译码算法17 第3 章动态规划1 8 3 1动态规划简介18 3 1 1 动态规划原理1 8 3 1 2 动态规划的适用条件1 9 3 1 3 动态规划步骤1 9 3 2动态时间规整算法( d t l | i ) 1 9 第4 章音频分割2 2 4 1音频分割简介2 2 4 2音频分割的方法2 2 i 北京邮电人学硕? i :论文 广播语音的自动标滓系统 4 3端点检测2 3 4 3 1 简介及研究现状2 3 4 3 2 特征提取2 3 4 3 3 算法研究2 5 4 3 4 实验结果及分析2 7 4 4语音检测2 9 4 4 1 简介及研究现状2 9 4 4 2 特征提取3 0 4 4 3s v m 分类器3 1 4 4 4 实验结果及分析一3 1 4 5说话人分割3 2 4 5 1 简介及研究现状3 2 4 5 2 算法研究3 3 4 5 3 实验结果及分析3 6 第5 章广播语音自动标注系统:3 8 , 5 一 自动标注系统描述3 8 5 2系统框架3 8 5 3音频预处理3 8 5 4文本处理3 8 5 5递归语音识别算法3 9 5 5 1 维特比强制对齐的方法3 9 5 5 2 递归算法描述3 9 5 5 3 递归算法的优势4 2 5 6动态时间规整( d t w ) 算法4 3 5 7锚点选择策略4 4 5 7 1 锚点选择策略4 4 5 7 2 锚点选择算法4 5 5 8 说话人分割4 6 第6 章自动标注系统实验结果4 8 6 1实验数据4 8 i i ! ! 室唑! 垒叁兰堡:! 兰文 广播语音的自动标注系统 6 2 实验结果4 8 6 2 1 自动标注完成度4 8 6 2 2 自动标注精确度5 0 第7 章总结与展望5 2 7 1 工作总结5 2 7 2 今后工作展望5 3 i l l 广播语音的自动标注系统 i v 北京邮l 乜人学硕一l :论文 广播语音的自动标注系统 第1 章绪论 1 1 语音识别与广播语音识别的发展背景 语音识别( s p e e c hr e c o g n i t i o n ) 技术作为人机交互的关键技术,是以语音为 研究对象,将语音用机器翻译成文字,涉及到语言学、声学、生理学、心理学、 信息学、数字信号处理理论、模式识别理论和计算机等学科。语音识别的最终目 标是实现人和机器之间的自然语言通信。 语音识别的研究工作始于2 0 世纪5 0 年代,至今已经走过了5 0 多年的发展 历程。从上世界8 0 年代初以来,语音识别技术经历了从孤立词、小词汇量、特 定人到大词汇量、非特定人、自然口语识别的发展过程。到今天,特别是中小词 汇量非特定人语音识别系统识别精度已经大于9 8 ,对特定人语音识别系统的识 别精度就更高。 当前大词汇量连续语音识别系统的主要问题在于适应性较差,尤其是对环境 和特定说话人的依赖性较强,记载某种环境下采集到的语音训练系统只能在这种 环境下应用,否则系统性能将急剧下降。 “ 广播语音识别技术的研究是当前大词汇量连续语音研究的一个热点问题,它 集中体现了环境的复杂性。在广播电视新闻节目中,包含了大量的不同声学和语 言特征的信号段,在段与段之间的语音既有忽然猛烈过渡的,也有平缓过渡的, 信号的质量既有播音室的高保真信号,也有经过电话或者其他含噪声通道传送的 有限带宽信号,还有嘈杂环境下的语音,或是在音乐背景下的语音以及纯声音信 号。除此之外,仅对语音信号而言,说话的中音也是形形色色,由新闻播音员, 脱口秀主持人、地方口音浓重的普通百姓、语音不地道的外国发音者。面对这样 复杂的变化多端的信号,在实验室里用纯净语音训练出来的单一声学模型,显然 是不能完成识别任务的川。 在国际上,广播语音识别系统的研究起源于美国国防部高级研究计划署 ( d a r p a ,d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 所资助的人类语言系统 ( h u m a nl a n g u a g es y s t e m ) 项目中的语音技术部分。d a r p a 将这个计划分成很 多项目,由多家研究机构和高校来完成”其中参与口语识别与理解方面项目的研 究机构或大学有b b n 、c m u 、m r r 、科学应用公司( s a i c ) 等。 美国国家标准与技术研究所( n i s t ,n a t i o n a li n s t i t u t eo f s t a n d a r da n d t e c h n o l o g y ) 每年都要举行一次广播电视新闻记录检索系统的技术的性能评测, 这个语音技术评测基本上代表了当今世界广播语音技术的最高发展水平。从 l 北京邮l u 大学硕l :论文广播语音的自动标注系统 i 9 9 5 年开始第一次评测到1 + 9 9 9 年,在条件背景下语音识别的准确率已经达到了 8 3 左右。但从2 0 0 0 年开始,n i s t 就没有再举行大规模的广播语音的评测【2 】。 对于汉语广播语音识别的研究,除了参加d a r p a 评测的几家单位外,台湾 的一些研究机构也进行了一些研究,但没有一个可以和上述研究机构进行对比的 结果。在国内,广播语音识别的研究工作开展的比较晚,还没有比较成熟的广播 语音识别系统。 1 2 广播语音自动标注的研究意义 与国际上同益成熟的广播语音识别的研究相比,国内相关的研究机构在这方 面开展的研究相对滞后。这其中一个主要原因就在于广播新闻语料库的匮乏。高 质量的语料库是大规模语音研究不可缺少的部分,它是语音识别系统中建立有效 的声学模型和语言模型的必要条件。 近年来,随着计算机和互联网等信息技术的快速发展,人们可方便快捷地获 得广播新闻、电影、电视节目和其它类型的多媒体文件,全球多媒体数据出现爆 炸式的增长。然而,对海量级的多媒体资源进行有效的索引和信息检索并非易事。 由于互联网的丌发应用使得基于文本的检索技术日趋成熟,对于多媒体检索,人 们很容易想到先将音频信号转换成文字信息,然后再利用文本检索技术。这就是 基于内容的音频多媒体检索方法的基本思路【3 】:准确无误地将音频信号转换成 文本是基于内容的多媒体检索的研究重点,其本质是需要得到音频数据的标注文 本。这其中,广播新闻是被大多数的多媒体研究课题重视的代表性音频数据。 然而众所周知,为大规模语音语料库添加标注是一项需要投入大量人力、物 力资源的任务。由于现有的广播语音识别系统无法实现语音语料库的自动标注, 因此标注的工作往往只能通过人工手动来完成。如今,发展得越来越精确细致的 语音识别系统常常需要数百甚至数千小时的标注语料。自动完成语音音频的文本 标注是降低语音识别系统成本的重要方向。 1 3 自动标注的研究现状 为了克服手工标注大型语音语料库存在的难题,人们开发出了许多可对语音 语料库自动添加标注的方法。通常是利用自动语音识别系统( a u t o m a t i cs p e e c h r e c o g n i t i o n ,a s r ) 来生成词汇标注和音标标注【4 】【5 】。 对于新闻广播的标准朗读语音来说,目前的a s r 系统已经能够达到超过9 0 的词汇识别准确率【6 】【7 】和8 0 左右的音素识别准确率,但这样的应用还远未达到 令人满意的程度。自动生成的词汇标注和音标标注中散布着比例相当大的错误成 2 北京邮i 乜人学顾j j 论文广播语音的自动标注系统 分,还需要由人类标注者逐个词、逐个音标地仔细检查和校对,以保证标注的可 用性。因此,目前的自动语音识别系统应用并没有真正解决手工标注枯燥乏味、 费时费力的问题一个严重的问题是目前技术水平的a s r 系统要求用户发音清晰、 语速稳定,而且发音和语法都必须是正确的。然而在现场新闻报道当中,往往存 在大量的不正规的语音,比如随意的发音、不完整的词汇、语音中的停顿、迟疑, 以及不时出现的语速变化等等。这些语音现象的存在使得自然口语语音的自动标 注变得十分困难。自然口语语音的识别率,特别是词汇的识别率是比较低的( 一 般低于8 0 ) 【8 】【9 】【l o 】。难上加难的是,很多时候真实的广播语音中还包括噪音、 音乐、方言、口头语甚至是几个说话人同时在发言,这对语音识别来说是个大挑 战。 1 4 广播语音自动词汇标注的新的研究思路 各种研究无一例外地表明,单纯地由a s r 系统生成的自然口语语音的词汇 和音标标注集合无法被用作可靠的语料库来建立语言模型和声学模型。 幸运的是,在许多情况下,广播语音的音频文件和其相应的文本可在互联网 找到。换句话说,这个问题不再是单纯的识别语音音频,而是将给定的已知文本 与音频进行对齐。 在如何将音频与文本对齐的课题方向已有大量研究。一个简单的思路是利用 维特比强制对齐直接完成音频与对应文本的对齐,但这通常只适用于干净的语音 1 1 1 。另一个困难是,对于较长语音段,强制对齐需要很长的时间且准确率下降。 如果将音频做预分割, m o r e n o 等人提出一个新颖的想法【l 2 1 ,把音频与文本强制对齐的问题转变成 对音频进行递归的语音识别的问题,在递归过程中利用已知文本生成的逐步限制 的字典和语言模型来提高语音识别的准确率。该方法核心是找到可信任的对齐区 域( 称作“锚点”) 。通过动态规则的技术,来完成已知文本与识别结果文本的对 齐,找到满足一定公共长度的锚点。每一次递归过程中,音频和已知文本已被锚 点分成了已对齐部分及未对齐部分。对未对齐部分重复上述递归过程,直至达到 终止条件。 本论文也将引用这一思路来完成广播语音的词汇标注。 1 5 论文研究内容 该课题背景是以“广播语音的主动学习 为研究方向的国家自然基金项目。 该课题研究的广播语音自动标注系统是建立大型广播语音语料库的辅助工具。需 3 系统 4 史及 包括 音自 分割 和实 北京邮i 【1 人学硕一l :论义广播语音的自动标沣系统 第2 章语音识别基础理论 本章简要介绍采用h m m 为基础的连续语音识别技术的理论基础知识,主要 包括:声学模型、语言模型、解码原理等。特别是针对本文搭建广播语音自动标 注系统所需的模块和技术,介绍了声学模型自适应,语言模型以及维特比强制对 齐的知识。 2 1 连续语音识别的基本框架。 语音识别系统是一般由声学特征提取、 从语音数据提取声学特征并输入到解码器, 准则条件下解码输出识别结果。 声学模型、语言模型和解码器组成, 利用声学模型和语言模型,在m a p 2 2 特征提取 图2 - 1大词汇量连续语音识别系统基本框架【1 3 】 特征的选择与提取是模式识别的重要环节,对声音信号进行描述是语音识别 的首要问题,也是影响语音识别准确率的主要因素。声学特征是由音频信号转化 而来,能够反映源信号某种特性的信息。对于不同的研究目的与应用方向,可选 取最具针对性的信息作为特征最佳刻画目标问题,以达到突显主要矛盾、削减侧 面影响的目的。 语音的声学特征主要包括【1 4 】【1 5 】:线性预测参数l p c 、感知线性预测系数p l p 和m f c c 参数等。l p c 预测系数已经广泛应用于语音信号处理领域,它能够提 供一个很好的声道模型及模型参数估计方法,利用以前的信号数据去预测当前的 信号值。l p c 系数一般采用d u r b i n 或l e v i n s o n 迭代算法求解维纳霍夫方程获得。 北京邮电人学硕i j 论文广播语爵的自动标注系统 p l p 提取感知线性预测倒谱系数,在一定程度上模拟了人耳对语音的处理特点, 应用了人耳听觉感知方面的一些研究成果。很多研究表明,在环境匹配不是很好 的情况下,p l p 的性能稍好一点。m f c c 参数比l p c 倒谱系数更符合人耳的听 觉特性,它充分利用人耳在听觉上对频率感应具有非线性的特点,对各带通滤波 器组频率带宽内所有的信号幅度作加权和后作对数处理,经d c t 变换后得到 m f c c 系数,滤波器组可选择三角形状或正弦形状,在m f c c 静态特征系数基 础上,计算动态特性的各阶差分系数,组成的多维语音特征矢量可以进一步提高 语音识别的准确性,m f c c 特征参数已经在现有的语音识别系统得到了广泛的应 用。 从目前的应用来看,在广播语音、朗读式语音中,m f c c 特征应用较多。在 电话语音、会议语音等应用场合,p l p 特征应用较多。而在语音合成和说话人识 别等情况下,l p c 特征应用较广。 在环境噪声比较强的情况下,特征提取模块通常还带有噪声补偿功能,降低 噪声对语音识别效果的影响。通常的噪声补偿方法有谱减法、对数谱域补偿法( 如 v t s ) 和自适应维纳滤波方法( a w f ) 等,这些方法基本的原理都是先对背景噪 声进行估计,然后在对数谱域或倒谱域对带噪语音信号进行补偿,从而使得语音 信号( 或者特征) 得到增强,提高噪声环境下的识别率。 2 3 声学模型 2 3 1 声学模型建模 声学模型是语音识别系统中最为关键的一部分。声学模型的目标是提供一种 有效的方法,计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的 设计和语言发音特点密切相关。 大部分语音识别系统声学模型都基于h m m 1 6 】。h m m 之所以能够成功,是 因为它是一个双重随机模型,很好地描述了语音信号整体上的非平稳性和局部的 平稳性。隐马尔可夫模型的状态和模型的输出不是一一对应,状态不为外界所见, 即状态是隐含的,而输出序列是外界可以看到的。h m m 是双重的随机过程:首 先是基本随机过程,是m a r k o v 链,由转移矩阵a 来描述;进一步,在某个状态下 的输出是随机取值,是输出与状态联系( 按概率) 的过程。 h m m 可以用五个模型参数表示a = ( s ,o ,ab ,丁【) ,其中s 为模型状态的有 限集合;o 为输出观测序列的集合;a 为状态转移概率的集合;b 为输出概率的 集合;1 【为系统初始状态概率的集合。一旦确定模型状态数和观测序列,h m m 可简写成人= 价,b ,丌) 表示。 6 北京邮电人学硕士论文广播语音的自动标注系统 s i g n a l a c o u s t i c v e c t o r y = s e o u e n t u ”y 2y 3 y 4 ” 图2 - 2 隐马尔可夫模型 如图2 - 1 所示,该h m m 有3 个发射状态和两个哑状态( 引入状态和引出状 态) ,它们之间的转移关系由图中带箭头弧线表示,箭头方向指明状态的转移方 向,a 和b 分别表示转移概率和发射状态的观测概率。其中转移概率是常数,观测 概率反映了观测矢量的输出概率分布。引入状态和引出状态不产生观测矢量,它 们主要用于不同h m m 之间的连接。只要合并不同h m m 之间的引入状态和引出状 态,就可以得到任意长度的音素序列或词序列的组合模型。于是对于每一帧特征 矢量,组合h m m 都会以一定的转移概率改变状态,而当前状态又以其观测概率 产生这一帧特征矢量。这样我们就可以计算某音素序列或词序列产生给定特征矢 量的概率了。 2 3 2 声学模型自适应 声学模型参数自适应的目的就是从“尽可能少 的自适应数据中,提取出与 当前说话人相关的信息,对已有的初始声学模型参数进行调整,尽量消除当前说 话人与初始模型之间的模型差异,从而得到说话人自适应模型1 1 7 】。由于模型参 数自适应方法是从模型调整的角度来解决模型不匹配问题,因此,它也可以被看 作是一种模型重估和训练问题。 模型参数自适应问题可以从两个角度来看待:首先,模型参数自适应问题是 一个“重新”训练过程。所谓的“重新 训练,也就是说,自适应的条件之一是 7 北京邮i 【i 人学硕l :论文广播语音的自动标注系统 存在一个得到了充分训练的初始模型。因此,如何从初始模型中提取出有用的信 息并将之应用到自适应过程中,就成为了自适应过程中需要解决的问题。其次, 模型参数自适应问题是一个“稀疏 训练问题。所谓的“稀疏”,是指通常的自 适应环境下,可以得到的训练数据是十分有限的,导致了通常采用的模型训练策 略和手段不再适用。因此,研究新的模型训练方法就成为了自适应方法的核心问 题。此外,训练数据的稀疏将导致相当多的模型无法得到对应的自适应数据。 m a p 算法和m l l r 算法都是基于模型层说话人自适应中的经典算法。m a p 有很好的渐进性,可以充分利用语音数据的细节信息。它通过b a y e s 理论给出了 结合先验知识和白适应数据的最优解。由于在训练过程中结合了先验信息,避免 了自适应数据估计的错误,当自适应数据不断增加时,自适应效果将稳步提高。 但是m a p 算法收敛速度慢,只能对有观测数据的模型自适应,无法处理没有观 测值的模型。m l l r 方法是通过一些线性变换来对初始模型进行自适应的这种 方法的优点是比较简单,而且自适应速度比较快。即使自适应数据量不足,m l l r 方法也可以获得较理想的效果。由于m l l r 自由参数少,很难对每个模型精细 描述,而且比较难以引入先验知识。 2 4 语言模型 在连续语音识别中,语言的知识也是重要的知识资源。对于大词汇量连续语 音识别任务,存在着大量的容易混淆的候选序列,它们往往很难从声学特征上进 行区分,并且候选空间非常大,只用声学模型难以进行可靠判断。通过引入语言 内在的规律可以对候选词序列进行有效的决策,并且可以减少搜索的空间,提高 搜索效率。语言模型主要用来描述自然语言的统计和结构方面的内在规律。语言 模型的好坏,直接影响语音识别的性能。语言模型可分成两类:一类是基于规则 的,另一类是基于统计的。有限状态语法和n g r a m 语言模型都用来描述语言知 识信息,两者区别在于前者是通过专家总结出来的规则,而后者是从训练数据中 统计出来的【1 4 】【1 8 】。 2 4 1 基于规则的语言模型 最基本的形式语言理论是乔氏理论( c h o m s k yf o r m a ll a n g u a g e t h e o r y ) t 1 9 1 。在乔 氏理论中,语法是如下定义的: g = ( v ,t ,p js ) 2 1 其中,v 是变量的有限集,包含了所有的非终止符;t 是终止符的有限集,p 北京邮i 乜人学颂l :论文广播语音的自动标滓系统 是规则集,s 是初始变量。 传统的规则型语言模型是人工编制的语言学文法,文法规则来源于语言学家 掌握的语言学知识和领域知识。对于一个输入的文字串,计算机借助于文法规则, 可以推导出该文字串的语法结构,从而可以判断出该文字串是否符合文法。这种 语言模型一般仅能分析特定领域内的句子,无法处理大规模真实文本。 近年来,计算语言学家正在研究基于语料库的文法推导方法,该方法可以从 语料库的自然语言文本中抽取自然语言的规则文法。它把文法推导看作是一个搜 索过程,而搜索空问则由一组候选文法组成。它从一个初始的文法出发,根据一 个文法的评价函数,使用一组文法修改舰则,不断地对文法进行修改,直至生成 一个使文法的评价函数值最优的文法。文法评价函数一般既与文法对训练语料库 的符合程度相关,也与文法自身的规模相关。 文法推导一般可以分为两种:基于语料库多级加工的文法推导和基于原始语 料库的文法推导。前者在经过词性标注或句法分析的语料库上直接抽取规则,并 估计相应的概率,这种方法属于有指导的文法推导,一般被称作文法抽取,难度 较小;后者直接在原始语料库上进行文法推导,它首先对语言单位自动分类,并 发现固定的短语结构,然后才能为之建立相应的规则,估计规则的概率,这种方 法属于无指导的文法推导,通常被称作文法训练,难度较大。 无论是最初的语言学家人工构造的文法模型,还是计算语言学家研究出的自 动推导的文法模型,规则语言模型所依赖的反映语言本质结构的语法规则,虽然 能在更本质的层次上解释语言的内在结构,但是,这种语言模型所必须依赖的任 何语法规则系统,与自然语言相比都显得有些简单和生硬。因此,形式语言很难 描述自然语言的全部特征。而且,在人们日常对话中,不符合语法的语句比比皆 是,这就使得形式语言很难不加改进地应用到实际的自然语言处理系统中。因此 基于统计的语言模型逐渐成为自然语言理解的主流技术。但是,我们应该注意到, 虽然文法推导生成的随机文法目前在模型性能上还无法与统计模型相比( 如,基 于词的n g r a m 模型) ,但是由于它集成了文法规则和统计技术的双重特点,与单 纯的统计模型或单纯的文法模型相比,无疑具有更大的潜力。 2 4 2 基于统计的语言模型 基于统计的语言模型需要利用对大量语料进行深层加工处理,得到隐含其中 的语言知识。对于词序列w = w l ,w ,z ,w r n ) ,其输出特定词序列的概率可以 表示为【2 0 1 p ( v 呀) = p ( v 吒) p ( w z w 1 ) p ( v w 一1 ) 2 - 2 9 北京邮i u 人学硕1 j 论文 广播语音的自动标注系统 要得到所有可能出现的词序列的概率是很难实现,因此语音识别系统常采用 n g r a m 语言模型,因此上式变为 p ( v 岬) = 兀2 :1p r w 1 at k - i ,+ 1 ) 2 3 n - g r a m 语言模型最常用的是i - g r a m 、2 - g r a m 和3 - g r a m 。 n g r a m 语言模型最常用的是1 - g r a m 、2 - g r a m 和3 - g r a m 。要得到好的语言模 型【1 2 】,必须解决数据稀疏性和对训练语料的强依赖性。数据稀疏性是由所收集 的语料库规模不大,覆盖领域不广所造成的,解决的方法就是针对不同的应用领 域收集大量的语料,组成规模非常大的语料库,另外可对训练好的语言模型进行 平滑处理。对训练语料的强依赖性是针对这个环境下训练得到语言模型一旦应用 其它领域,系统识别性能会急剧下降,解决的方法就是采用自适应的方法,利用 一部分领域内语料做自适应。 语言模型由词典文件同声学模型联系起来。词典文件一般包括词表定义和发 音列表,而语言模型则描述了这些词之间的内在关系。他们三者的关系可由下图 表示【2 i 】: 2 5 解码 语言一 词典 例 。 从词典文件中获得发音列表: 声学一撇 图2 - 3 发音字典同语言模型和声学模型的关系 在大词表连续语音识别中,基本的识别算法是v i t e r b i 算法和a 术算法,但在 具体的算法实现过程中,为了提高系统的实用性,国内外的研究者对搜索过程进 行了各种各样的简化处理,从不同的角度提出了各种各样的搜索策略,使搜索的 夏杂度和系统的性能达到一定的平衡。 根据语音识别系统对不同先验知识源的利用方式,可以把搜索策略分为一遍 搜索和多遍搜索策略两种【2 2 1 。 一遍搜索策略倾向于将所有可能的知识源全部集成在一起,只对输入的语音 序列进行一次处理,完成所有的搜索步骤,直接给出最优的搜索结果,而使用的 知识源越多,搜索的计算代价越大,因此一遍搜索中很难应用到比较夏杂的声学 模型和语言模型,但它比较适合构建实时系统。 1 0 北京邮i u 人学硕i j 论文广播语占的自动标注系统 多遍搜索的基本思想是:将各种知识源( 声学模型和语言模型) 由简单到复 杂逐渐加入到搜索过程中,每一遍搜索只使用一部分知识,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中生情绪日记心理说课稿
- 幼儿园自我保护2025说课稿
- 2026年散步说课稿说明模板
- 7.5 GPU:从游戏到人工智能说课稿2025年小学信息技术(信息科技)小学版(2024)人工智能通识(清华大学版)
- 5.4 对数函数说课稿-2025-2026学年中职数学基础模块 下册高教版(2021·十四五)
- 2026年外研英语说课稿与反思
- 欣赏 《糖果仙子舞曲》说课稿2025学年小学音乐花城版五年级下册-花城版
- 初中情绪认知教设计2025
- 2026年教师数字素养与资源开发能力提升
- Unit 3 Special Clothes说课稿2025学年高中英语重庆大学版2019必修第三册-重大版2019
- 14.1《法治与改革相互促进》教案 2025-2026学年统编版道德与法治八年级下册
- 2026及未来5-10年改性PPS工程塑料项目投资价值市场数据分析报告
- 2026年企业主要负责人和安全管理人员安全培训题库及答案
- 2026年上海市虹口区社区工作者招聘考试备考试题及答案解析
- T/CAPE 10108-2024设备设施报废管理指南
- 华南理工大学《工程热力学》2023-2024学年第一学期期末试卷
- T-NBHTA 004-2024 热处理企业环境保护技术规范
- 08 西北地区(课件)-备战2025高考地理之中国地理主题探究式复习
- 2024年广西南宁市小升初数学试卷(含答案)
- 大学语文全套教学课件
- 《矿物岩石学教学课件》1-2 矿物学
评论
0/150
提交评论