已阅读5页,还剩68页未读, 继续免费阅读
(计算机软件与理论专业论文)语音库自动构建技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音库自动构建技术的研究 学位论文完成日期:丝丝:丝:丛 指导狮粹;拯坐 答辩委员会成员签字: 。喑 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 注;翅逡查墓丝噩墨挂别直咽丝! 奎拦亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:膨 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名声歙学 导师替 锅 签字日期:和年月日签字日期:砷年月6 日 ,y、 本文得到国家自然科学基金项目( n o 6 0 6 0 2 0 1 7 ,2 0 0 7 1 - 2 0 0 9 1 2 ) 和山东省 优秀中青年科学家科研奖励基金( 2 0 0 8 b s 0 1 0 0 3 ,2 0 0 8 1 2 2 0 1 0 1 2 ) 资助。 语音库自动构建技术的研究1 摘要 随着语音合成技术的进步,语音合成系统开始走向大规模应用的时代。特别 是随着可训练语音合成技术( t r a i n a b l ey r s ) 合成效果的逐步改善,以及该技术适 用于嵌入式低存储空间的特点,极大地推动了语音合成技术的产业化发展。同时, 语音合成系统对构建语音合成系统的语音库也提出了更高的要求,特别是在多样 化语音合成方面的需求,如口音上的差异,使得语音合成系统经常需要重新构建。 但是,传统的语音库构建方法,也就是人工构建方法,存在周期长、一致性差、 耗费资源等缺点,并且基于该语音库的合成系统合成的语音表现力差。 在这种背景下,一种能够在短时间内且极少人工干预下通过自动训练的方式 构建语音合成系统语音库,能够满足多样化语音合成需求的技术,有着很高的理 论研究及使用价值。对此,本论文在基于h m m 的可训练语音合成系统的语音库 自动构建方面,包括技术框架构建、关键技术以及相关技术应用,进行了深入而 系统的研究,本论文具体的研究工作和研究成果如下: 首先提出了一个基于音频分类算法的语音探测技术去除带有音乐的音频文 件,保留纯话语音频。该音频分类算法融合了高斯混合模型( g m m ) 和时长可变 隐马尔科夫模型( v d h m m ) 。该算法,首先通过高斯混合模型分类音频的每一帧, 然后通过时长可变隐马尔科夫模型的v i t e r b i 算法根据似然值最大化准则将已分 类帧组合成段,完成音频分类。 其次,提出了一个句子自动切分算法。在该算法中,首先通过基于隐马尔科 夫模型的无监督的方法训练音素隐马尔科夫模型,并通过强制对齐 ( f o r c e d a l i g n m e n t ) 技术将篇幅的音素序列和篇幅文本对齐;然后根据句子结束符 号( 如句号、问号、感叹号等) 来切分句子:最后通过一个检查机制,来判断该句 子结束符号是否正确,进而获得被正确切分的句子。 第三,提出了一个改进的句子切分算法。该方法能得到更高的句子切分准确 率,获得更多的正确切分句子。该改进算法基于一个迭代过程,过程如下:1 ) 根据正确的句子结束符号切分篇幅语音获得段落语音和句子语音,利用该结果训 1 本文得到国家自然科学基金项目( n o 6 0 6 0 2 0 1 7 ,2 0 0 7 1 - 2 0 0 9 1 2 ) 和山东省优秀中青年科学家科研奖励 基金( 2 0 0 8 b s 0 1 0 0 3 。2 0 0 8 1 2 - 2 0 1 0 1 2 ) 资助。 练更为精确的音素隐马尔科夫模型;2 ) 然后通过强制对齐技术将该段落语音和 句子语音的音素序列和文本对齐;3 ) 根据正确的句子结束符切分该段落语音和 句子语音。循环1 3 ,直到没有更多的段落和句子数目被切分出来。 此外,提出了在限定文本条件下的语料库自动构建方法。在该方法中,首先 是使用改进的o k a p i 公式来计算句子分数;然后反复地选择分值较高的句子替换 语料库句子中分值较低的语料库句子直到语料库句子分数小于某一阈值;最后基 于语料库句子,构建可训练语音合成系统的语音库。 实验表明我们提出的技术方法能在基本无人工干预下快速、自动地构建应用 于t r a i n a b l e ,丌s 的语音库。 关键词:语音合成语音库句子切分音频分类 s t u d yo na u t o m a t icc o n s t r u c tio no fs p e e c hd a t a b a s e 2 a b s t r a c t w i t ht h ed e v e l o p m e n to fs p e e c hs y n t h e s i st e c h n o l o g y , s p e e c hs y n t h e s i ss y s t e m b e g i n st ol a r g e s c a l ea p p l i c a t i o n e s p e c i a l l y , w i t ht h eg r a d u a li m p r o v e m e n to ft h e q u a l i t yo fs y n t h e s i ss p e e c ht r a i n e db yt r a i n a b l et t s ,a n dt h ec h a r a c t e r i s t i c so fl o w s t o r a g es p a c eo ft r a i n a b l et t s ,w h i c hi se s p e c i a l l ys u i t a b l ef o re m b e d d e ds p e e c h s y n t h e s i s ,t h e i n d u s t r i a l d e v e l o p m e n to ft h es p e e c hs y n t h e s i ss y s t e mi sg r e a t l y p r o m o t e d i nt h i sb a c k g r o u n d ,t h es p e e c hd a t a b a s eo fs p e e c hs y n t h e s i ss y s t e mh a s b e e np u tf o r w a r dh i g h e rr e q u i r e m e n t s ,p a r t i c u l a r l yi nt h ed i v e r s i f i e da p p l i c a t i o no ft h e s p e e c hs y n t h e s i s i nt h ec o n t e x to fd i f f e r e n ta p p l i c a t i o n ,s u c ha s ,t h ed i f f e r e n ta c c e n t o fd i f f e r e n tr e g i o n ,s p e e c hs y n t h e s i ss y s t e m so f t e nn e e dt ob er e c o n s t r u c t i o n t h e t r a d i t i o n a lc o n s t r u c t i o nm e t h o du s e dt oc o n s t r u c tt h es p e e c hd a t a b a s eo ft h es p e e c h s y n t h e s i ss y s t e mi sa r t i f i c i a l ,w h i c hh a sm a n ys h o r t c o m i n g s ,s u c ha s ,al o n g c o n s t r u c t i o nc y c l e ,u n s a t i s f a c t o r yc o n s i s t e n c y , a n dr e s o u r c e s c o n s u m i n g ,a n dt h e v o i c eb u i l df r o ms u c hs p e e c hd a t a b a s ei sl a c ko f e x p r e s s i v e n e s s b a s e do ns u c hb a c k g r o u n d ,i ti sa h i g h e ra c a d e m i cv a l u ea n du s i n gv a l u et os t u d y o nt h ec o n s t r u c t i o no ft h es p e e c hd a t a b a s e ,w h i c hi st r a i n e da u t o m a t i c a l l yi nas h o r t t i m e 、 r i mm i n i m u mm a n u a li n t e r v e n t i o na n dm e e t st h er e q u i r e m e n to ft h ed i v e r s i e d s p e e c hs y n t h e s i s t h e r e f o r e ,t h i st h e s i ss t u d i e st h et o p i co f t h ea u t o m a t i cc o n s t r u c t i o n o fs p e e c hd a t a b a s ef o rh m m b a s e dt r a i n a b l es p e e c hs y n t h e s i ss y s t e md e e p l ya n d s y s t e m a t i c a l l y , i n c l u d i n gt h ef r a m e w o r ko fc o n s t r u c t i o n ,t h ek e yt e c h n o l o g ya n dt h e r e l a t e da p p l i c a t i o n t h ed e t a i l e dr e s e a r c hw o r k sa n dr e s u l t sa l ea sf o l l o w s : ( 1 ) p r o p o s e dam u s i cd e t e c t i o nm e t h o db a s e do na u d i oc l a s s i f i c a t i o na l g o r i t h mw h i c h i su s e dt or e m o v ea u d i of i l e sw i t hm u s i c ,a n dr e s e r v ep u r es p e e c ha u d i o t h e a u d i oc l a s s i f i c a t i o na l g o r i t h mb a s e do ng a u s s i a nm i x t u r em o d e l ( g m m ) a n d v a r i a b l ed u r a t i o nh i d d e nm a r k o vm o d e l ( v d h m m ) f i r s t l y , t h ea l g o r i t h m c l a s s i f i e se a c hf r a m eo fa u d i ot h r o u g ht h eg a u s s i a nm i x t u r em o d e l ,a n dt h e n 2t h i st h e s i si s s u p p o r t e db yn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fc h i n a ( n o 6 0 6 0 2 0 17 ,2 0 0 7 i 2 0 0 9 12 ) a n d r e s e a r c ha w a r df o u n d a t i o no fs h a n d o n gp r o v i n c ef o rm i d d l e a g e da n dy o u n gs c i e n t i s t s ( n o 2 0 0 8 b s 0 1 0 0 3 , 2 0 0 8 1 2 - 2 0 1 0 1 2 ) i i i c o m b i n e st h ec l a s s i f i e df r a m ei n t oas e c t i o nb a s e do nt h em a x i m u ml i k e l i h o o d v a l u ec r i t e r i at h r o u g nt h ev i t e r b ia l g o r i t h mo fv a r i a b l ed u r a t i o nh i d d e nm a r k o v m o d e l ( 2 ) p r o p o s e da l la u t o m a t i cs e n t e n c es e g m e n t a t i o na l g o r i t h m f i r s t l y , t h ea l g o r i t h m t r a i n sp h o n e m eh i d d e nm a r k o vm o d e lt h r o u g hf l a t - s t a r ta p p r o a c hb a s e do nh m m s e c o n d l y , i ta l i g n sp h o n e m es e q u e n c e sw i t ht h et e x tt h r o u g hf o r c e d a l i g n m e n t t e c h n o l o g y t h i r d l y , i ts e g m e n t st h em u l t i p a r a g r a p hi n t os e n t e n c e sd e p e n d i n go n t h et e r m i n a t o ro ft h es e n t e n c e ,s u c ha s ,f u l ls t o pm a r k ,q u e s t i o nm a r k ,e x c l a m a t i o n m a r k ,e t c f i n a l l y , i tj u d g e st h ec o r r e c t n e s so f t h et e r m i n a t o rt h r o u g ht h ec h e c k i n g m e c h a n i s m ,a n dt h e nt h ec o r r e c ts e n t e n c e sa r eo b t a i n e d ( 3 ) p r o p o s e da ni m p r o v e da l g o r i t h mo ns e n t e n c es e g m e n t a t i o n ,w h i c hh a sah i g h e r a c c u r a c yo fs e n t e n c es e g m e n t a t i o na n dg e t sm o r e c o r r e c ts e n t e n c e s t h ei m p r o v e d a l g o r i t h mi sb a s e do na ni t e r a t i v ep r o c e s s t h ea l g o r i t h mc o n t a i n s :1 ) s e g m e n t i n g m u l t i - p a r a g r a p hs p e e c hi n t op a r a g r a p hs p e e c ha n ds e n t e n c es p e e c hd e p e n d i n go n t h ec o r r e c tt e r m i n a t o ro ft h es e n t e n c e ,2 ) t r a i n i n gm o r ea c c u r a t ep h o n e m eh m m s u s i n gr e s u l ts u b - p a r a g r a p h sa n ds e n t e n c e s ,a n da l i g n i n gp h o n e m es e q u e n c e sw i t h t h et e x to ft h er e s u l ts u b p a r a g r a p h sa n ds e n t e n c e st h r o u g ht h ef o r c e d a l i g n m e n t t e c h n o l o g y , 3 ) s e g m e n t i n gt h i sp a r a g r a p hs p e e c ha n ds e n t e n c es p e e c hd e p e n d i n g o nt h ec o r r e c tt e r m i n a t o r a n dd o1 - 3r e p e a t e d l y , u n t i ln om o r es u b p a r a g r a p h s a n ds e n t e n c e si sc u to u t ( 4 ) p r o p o s e dam e t h o do fc o r p u sc o n s t r u c t i o nu n d e rl i m i t e dt e x tw h i c hi sb a s e do n o k a p if o r m u l a e x p e r i m e n t ss h o wt h a t o u rm e t h o d sc o u l dc o n s t r u c ts p e e c hc o r p u sf r o m b r o a d c a s tr e p o r ti nas h o r t t i m ew i t hm i n i m u mm a n u a li n t e r v e n t i o n k e yw o r d s :s p e e c hs y n t h e s i s ;s p e e c hd a t a b a s e ;s e n t e n c es e g m e n t a t i o n ;a u d i o c l a s s i f i c a t i o n i v 目录 1 引言1 1 1 研究背景和意义1 1 2 语音合成概述2 1 3 用于语音合成的语音库构建3 1 4 本论文的组织4 2 隐马尔科夫模型6 2 1h 嗄 嗄简介6 2 1 1h m m 的定义6 2 1 2h m m 的基本问题8 2 2m n 嗄基本算法8 2 2 1 前向一后向算法8 2 2 2v i t e r b i 算法。l o 2 2 3b a u m - w e l c h 算法。1 1 2 3h t k 工具包:1 l 2 4 小结1 2 3 基于删的语音合成技术和语音库自动构建技术1 3 3 1 基于h m m 的语音合成技术1 3 3 1 1 基于嗍的t r a i n a b l et t s 。1 3 3 1 2h t s 语音合成系统参数模型1 4 3 1 3h t s 语音合成系统训练端算法1 5 3 1 4h t s 语音合成系统合成端算法。1 6 3 2 语音库自动构建1 7 3 3 基于h m m 的音段自动切分19 3 3 1 基于h m m 的音段自动切分1 9 3 3 2h t k 工具音段自动切分。2 0 3 4 小结2 2 4 基于g 删和v d h m m 融合的音频分类2 3 4 1 高斯混合模型:2 3 4 1 1 模型描述2 4 v 4 1 2 模型训练2 4 4 1 3 高斯混合模型分类法则2 5 4 2 时长可变隐马尔科夫模型2 6 4 3 音频分类算法2 7 4 3 1 音频分类算法原理一2 7 4 3 2 特征参数抽取南2 8 4 3 3 归一化对数似然值;3 0 4 3 4 嵌入g m m 的v d h m mv i t e r b i 算法3 1 4 4 音频分类实验3 3 4 5 爿、结3 4 5 句子自动切分技术3 5 5 1 句子自动切分3 6 5 1 1 句子自动切分原理3 6 5 1 2 检查机制3 6 5 2 改进的句子自动切分算法3 7 5 3 句子自动切分实验3 8 5 4 小结3 9 6 限定文本语料库自动构建4 1 6 1 语料库构建原理4 l 6 2 语料库构建方法4 4 6 2 1 语音单元影响4 5 6 2 2 语料的来源4 6 6 2 3 文本选择4 6 6 3 限定文本语料库自动构建4 7 6 3 限定文本语料库自动构建实验4 9 6 4 ,j 、结5 0 7 总结和展望5 l 7 1 全文工作总结5 l 7 2 展望5 2 7 2 1 语音库自动构建中存在的问题5 2 7 2 2 未来工作安排5 2 参考文献5 3 v i 致谢5 7 个人简历一5 8 发表的论文。5 8 科研成果5 8 v i l 语音库自动构建技术的研究 1 引言 1 1 研究背景和意义 语音是人类活动中最重要和最简单的交流工具。随着信息时代的到来,计算 机也已经成为人类日常活动中不可或缺的工具。因此,用户对以智能语音技术为 基础的人机交互界面的需求也在不断增加。语音识别、语音合成及自然语言理解 为基础的智能语音技术是世界公认的一个难度很大、极富挑战性的高技术领域。 大量的研究人员在智能语音技术领域取得了大量的研究成果。 近年来,语音识别、语音合成技术发展很快,尤其是语音合成在技术和应用 方面都取得了很大进展。随着电子计算机的运算和存储能力的飞速发展,语音合 成技术由早期的基于规则的参数合成,到基于小样本的拼接调整合成,再到基于 大语料库的拼接合成,并逐渐发展为现在比较流行的基于隐马尔科夫模型( h m m ) 的可训练语音合成( t r a i n a b l et t s ) 。基于隐马尔科夫模型的可训练语音合成具 有低存储空间的优点,只需要1 - 2 m 左右的空间存放模型以及所需的参数【l 】,特 别适合在嵌入式设备中应用;与此同时,基于h m m 语音合成系统合成语音的自 然度和音质都得到了明显的改善,在一定程度上达到了人们的应用需求,从而促 进了语音合成在片机上的大规模应用。目前,语音合成技术己经在自动应答呼叫 中心( 包括金融、电信和政府等) 、电话信息查询( 包括天气、交通和旅游等) 、汽 车导航、电子邮件阅读、娱乐以及教育方面等方面得到广泛的应用。总而言之, 可训练语音合成技术正在影响着现代社会的方方面面。 语音库建设是构建语音合成系统的一个重要环节;语音库的质量对于语音合 成系统合成语音的音质有着重要的影响。并且由于应用领域和应用地域的不同, 训练基于h m m 语音合成系统的语音库经常需要重新建设。而构建语音库的传统 方法存在构建周期长、耗费资源大、标注一致性差等缺点,难以满足当前用户对 语音合成多样化应用的需求。 因此,本文重点研究了应用于可训练语音合成系统的语音库的自动构建技 术,这一技术对于推动语音合成系统的大规模应用有着重要意义。 语音库自动构建技术的研究 1 2 语音合成概述 语音合成的最早研究【2 】【3 】可以追溯到1 7 7 9 年,k r a t z e n s t e i n 用风箱模拟人的 肺、簧片模拟声带、以皮革制成的共振腔模拟声道,通过改变共振腔的形状,合 成出一些不同的元音。 进入2 0 世纪,由于电子器件的出现,语音合成技术发展飞速。1 9 3 9 年,贝 尔实验室h d u d l y e 利用共振峰原理制作出一个电子合成器 4 1 。1 9 6 0 年,g f n a t 在【5 】中系统地阐述了语音产生的理论,极大地推动了语音合成技术的进步。到2 0 世纪8 0 年代末,基于基音同步叠加的语音合成算法p s o l a ( p i t c hs y n c h r o n o u s o v e r l a pa d d ) 被提出 6 】,该方法的基本思想是根据输入的文本信息,从预先录制 和标注好的语音库中挑选合适的单元,进行少量的调整( 或者不进行调整) ,然后 拼接得到最终的合成语音。由于最终的合成单元都是直接从音库中复制过来的, 其最大的优势就是在于保持了原始发音人的音质。随着9 0 年代电子计算机的运 算和存储能力的迅猛发展,该方法逐渐发展为基于大语料库的单元挑选和拼接合 成方法。 而到2 0 世纪末,伴随着语音合成技术的应用,用户对语音合成效果也提出 了更高的要求,尤其是多样化语音合成方面的需求。对此,可训练的语音合成方 法( t r a i n a b l et t s ) 粼r 7 - 9 1 ,该方法的基本思想是基于统计建模和机器学习的方 法,根据一定的语音数据进行训练并快速构建合成系统。由于这种方法可以在不 需要人工干预的情况下,快速、自动的构建合成系统,而且对于不同发音人、不 同发音风格、甚至不同语种的依赖性非常小,非常符合多样化语音合成方面的需 求,因此逐渐得到研究人员的认可和重视,并在实际应用中发挥作用。 语音合成,概括地讲,就是可以让计算机象人一样将要表达的信息“说”出来的 技术,是一门典型的交叉学科f 1 0 1 2 】。它涉及到声学、语音学、语言学、语义学、 信息论、信号处理、计算机、模式识别、机器学习、人工智能、心理学以及人类 的大脑神经活动等众多学科的理论和技术。 从思想上来说,语音合成系统主要由文本分析和语音生成两个部分,图1 1 显示了一个完整的语音合成系统框图。首先在语言层、语法层和语义层上对文本 进行分析,得到文本的韵律信息( 包括基频、时长等韵律特征) ;然后根据生成的 韵律特征,利用合成器生成或者从语音库中挑选单元来生成语音。 2 语音库自动构建技术的研究 键盘卜 文本分析语音生成 r 光电扫描h 文本卜一语言规则h 言语码一连接规则h 合成语音 l jl jl j l i 数据库卜_ 一文本语音基元 图1 。l 语音合成技术基本框图 语音库在语音合成的语音生成阶段起着至关重要的作用,在可训练语音合成 系统中,语音合成器由语音库训练而成。那么,语音库的好坏就直接影响着合成 器的性能。 1 3 用于语音合成的语音库构建 传统的语音库构建方法【1 3 】【1 4 】框图如图1 2 所示。首先,从一个大的文本库中, 根据最大化语音基元( 如单音素、双音素、三音素、音节等) 覆盖率原则选取文本 库中一定量的句子作为语料库;其次,对语料库中的句子录音,获得句子语音集 合;最后对句子语音进行标注、校对,完成语音库的构建。j j 蘑翁 园 图1 2 语音合成语音库构建基本框图 传统的语音库构建方法在录音和标注阶段需要人工参与,存在以下不足。一 方面,由于需要人工参与标注,标注的主观性强、缺乏一致性,那么就需要多名 专家对同一语音同时标注,然后进行校对。其次,研究表明平均每一小时语音, 需要花费1 5 4 5 小时的时间标注,这就导致语音库的构建周期非常长,阻碍了多 样化语音合成的快速应用。另一方面,文本句子的选择只考虑对语音基元覆盖率, 忽略了上下文的内在信息。 多段语音比孤立的句子包含了更多的韵律和上下文信息,可以用来合成更加 有表现力的声音。一个典型的多段语音,例如新闻播报,并不仅仅是句子的简单 语音库自动构建技术的研究 组合。新闻播报的文本由句子和段落组成,它们之间隐含的内在关系会影响人们 对该文本的发音【1 5 】b 6 。例如,众所周知,存在于句子中和孤立存在的同一个词 在发音和韵律方面都有着显著地不同。b 7 - 2 1 】的工作说明了类似的情况,即存在 于段落中的和孤立存在的同一个句子在发音和韵律方面也是不同的。多段落文本 与发音相关的上下文内在信息有:词的突出程度、发音风格、语速变化、随文本 语义和角色变化的情感等等。 鉴于以上背景,本文研究了从多段语音形式的新闻播报中自动构建语音库的 方法,并且能在极小人工干预下、在较短时间内构建语音合成语音库。本文首先 分析了广播语音的特点,并在此基础上提出一个应用于可训练语音合成系统的语 音库自动构建框架,并在该框架下从广播语音中构建了一个语音库。 1 4 本论文的组织 本论文的后继章节组织如下: 第二章隐马尔科夫模型 首先回顾了h m m 的基本概念原理和h m m 的基本问题,简单介绍了h m m 的基本算法,然后简单介绍了h t kt 具包。 第三章基于h m m 语音合成技术和语音库自动构建技术 首先介绍了基于h m m 的t r a i n a b l et t s ,然后分析传统语音库自动构建技术 及其缺点,随后引入了本文所研究的语音库自动构建技术,最后介绍了其中一个 比较成熟的关键技术,即音段自动切分技术。 第四章基于g m m 和v d h m m 融合的音频分类 首先回顾了高斯混合模型( g m m ,g a u s s i a nm i x t u r em o d e l ) ,以及时长可变隐 马尔科夫模型( v d h m m ,v a r i a b l ed u r a t i o nh i d d e nm a r k o vm o d e l ) ,并提出了基于 g m m 和v d h m m 相融合的音频分类方法,实验表明该方法有着较高的音频分 类准确率和召回率。 第五章句子自动切分技术 首先,提出了一个无标注句子自动切分算法。在该算法中,首先通过基于隐 马尔科夫模型的f l a t - s t a r t 方法训练音素隐马尔科夫模型,并通过强制对齐 ( f o r c e d a l i g n m e n t ) 技术将篇幅的音素序列和篇幅文本对齐;然后根据句子结束符 号( 如句号、问好、感叹号等) 来切分句子;最后通过检查机制,来判断该句子结 4 语音库自动构建技术的研究 束符号是否正确,进而获得被正确切分的句子。 然后,提出了一个改进的句子切分算法,得到更为准确的句子切分准确率, 并且获得更多的正确切分句子。该改进算法是一个迭代过程,根据正确的句子结 束符号切分篇幅语音获得段落语音和句子语音,并利用该结果训练更为精确的音 素隐马尔科夫模型,再通过强制对齐技术将该段落语音及句子语音和文本的音素 序列对齐,根据正确的句子结束符切分该段落语音和句子语音。依此往复,直到 没有更多的段落和句子被切分出来。 最后,实验表明改进后的方法较前一方法有更高的句子切分准确率和正确句 子的召回率。 第六章限定文本语料库自动构建 首先回顾了语料库构建的数学原理;然后分析了在大文本语料库构建的方 法;最后我们提出了限定文本的语料库自动构建方法。该方法是基于改进的o k a p i 公式,实验表明我们的方法有着较高的双音素覆盖率。 第七章结论和展望 首先总结了本文提出的语音库建设框架及其技术方法;然后讨论了该语音库 构建方法存在的不足之处,并展望了未来工作。 语音库自动构建技术的研究 2 隐马尔科夫模型 隐马尔科夫模型( h m m ) 在语音信号处理中的应用己经有三十多年了,尤其 是在语音识别领域,己经有非常成熟的应用。而本文的研究重点是将其应用在语 音库自动构建中,包括音频分类和句子自动切分。下面我们介绍h m m 的基本概 念和原理,以及它在语音合成中的建模参数和应用,并通过在音段自动切分中的 应用对它进行深入了解,为后面音频分类和句子自动切分的技术改进奠定一定的 基础。 早在6 0 年代末,b a u m 就提出了隐马尔可夫模型( m n 压) 【2 2 1 2 3 1 ,但是因为它只 是被发表在相关的数学杂志上,一般情况下,工程方面的人员很少接触这些杂志, 并且它给出的都是数学上的描述,没有给出在信号处理上的相关应用的范例,所 以直到8 0 年代,h m m 才被用来描述语音信号的产生。h m m 提供了一种基于训练 数据的概率而自动构造识别系统的技术,被广泛的用于语音识别和合成的各个领 域,成为语音信号处理技术上的一项重大进展,并在语音识别和合成的应用中取 得了很大的成果。 2 1 1h m m 的定义 隐马尔可夫模型( h m m ) 是被广泛使用的一种描述随机过程中变量序列信 息的统计学习方法,h m m 是一种有限状态机,它发出一系列可观察的时间序列。 一方面,该有限状态机的每一个状态转换都有一个对应的概率分布,该概率分布 表示某一状态转换的概率值;另一方面,在每一个时刻t ,每一个状态都会以一 定的概率产生一个观察值。因此,h m m 很明显是一个随机概率模型。 假设一个h m m 有n 个状态,它的状态转换概率分布 口 0 输出概率分 布 b i ( o 。) ) 兰。,初始状态概率分布为 乃) 墨,一般我们用三元组 五= 【k 圪- l , b j ( o 。) ,7 ,挂】表示。 下面我们给出一个h m m 结构的例子,如图2 1 中是一个三个状态的遍历模 型,在这个模型中,每一个状态都可以通过一步跳转到达其他状态;在图2 2 中 6 语音库自动构建技术的研究 的模型中,随着时间的变化,状态从左往右跳转或者保持不变,它可以模拟连续 变化的信号,一般用这个模型模拟语音信号。 以1 1 a l t 图2 1 a 3 3 奶3 ( 嘞 b t 慨境c o t ) 秘( 嘶) 图2 2 假如状态序列已经确定,状态序列为q = q 。,q :,q ,q r ,那么一个观察值 向量序列d = o 。,d :,o ,d r 的联合概率是由状态转换概率和状态输出概率的 乘积计算得出的,公式表示为: 7 p ( o ,qi 旯) = 兀c l q l _ l q l b 吼( d ,) t ;l 7 语音库自动构建技术的研究 其中a q o q 。表示万吼。对于h m m 中观察值向量序列的输出概率的总和是由所有可 能状态序列的边缘概率计算得出的,公式表示为: p ( oi 见) = a t t a 2 1 2h m m 的基本问题 式( 2 2 ) h m m 主要有三大基本问题【2 4 】: 1 ) 给定一个输出序列和模型,该模型可能创建的序列的概率是什么? 可以通 过前向后向算法进行求解。 2 ) 给定一个输出序列以及模型,什么状态序列可以最可能创建输出序列, v i t e r b i 算法可以解决此问题。 3 ) 给定一个输出序列和拓扑结构的情况下,怎样调整模型的参数,包括状态 转移以及输出的概率分布,能使模型创建的输出序列具有最大概率。在实际的 h m m 训练中,e m 算法和b u a m w e l c h 算法( 最大似然准则) 是最常用的两个算法。 2 2h m m 基本算法 2 2 1 前向后向算法 这个算法是用来计算给定一个观察值序列d = o ,d :,o ,d r 以及一个模型 五= 【托- l , b j ( 。) 墨。,切,) 】时,由模型产生出o 的概率p ( o a ) 。 1 ) 前向算法 定义前向变量为: 口,( i ) = p ( o i ,0 2 , - - o ,q 。= 谚2 ) 1 ,t式( 2 3 ) 那么,有 a ) 初始化 口l ( f ) = 万f b t ( 0 1 ) l r t 式( 2 4 ) b ) 递归 t x t + i ( j ) = 口盯】6 ,( d ,+ 1 ) 1 f t 一1 ,1 n式( 2 - 5 ) 口l 8 、, d k g 6 g 叮 口 t兀纠 语音库自动构建技术的研究 c ) 终结 e ( o x ) = 坼( f ) 2 ) 后向算法 与前向算法类似,定义后向变量为: 式( 2 6 ) n i f i t ( i ) = a o b j ( o f + 1 ) 屈+ l ( 歹) t = t 一1 ,丁一2 ,11 f n 式( 2 7 ) i f f i l 那么,有 a ) 初始化 屏( f ) = l 1 f t b ) 递归 属o ) = p ( d 卜l ,d 卜2 ,0 7 ,q ,= 幺4 ) 1 f t l c ) 终结 n 尸( d 五) = i l l ( i ) j = l 式( 2 8 ) 式( 2 9 ) 式( 2 1 0 ) 该算法是一个典型的格型结构,如图2 3 所示。在该图中,x 轴和y 轴分别 表示观察向量和一个h m m 模型的状态。在这个格型结构中,无论观察向量序列 是什么,所有可能的状态序列都出现在格子中。在前向算法中,在t = l 时刻,我 们需要计算值qo ) ,lsi n 。时刻净2 ,3 ,t ,我们只需要计算值 ( ) ,1 j n 。这里我们只需计算n 个t 1 的口h ( i ) ,1 i n ,因为格型结 构中格子节点只与前一时刻的格子节点有关。前向后向算法的算法复杂度为 2 丁。 9 语音库自动构建技术的研究 状;蠡s n 3 2 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 术后腹痛应对:无痛人流护理中的异常疼痛处理
- 咨询服务 格式合同
- 奉化出租吊塔合同
- 楼梯栏杆加工承揽合同
- 熟食半成品 配送合同
- 中堂生鲜蔬菜配送合同
- 2025年中药方剂学方剂服法考点解析冲刺试卷
- 流行病学自考试题及答案
- 2022年黑河市嫩江县(中小学、幼儿园)教师招聘试题及答案
- 乡镇治理党课
- 安全检查验收制度(六篇)
- 高中学生学籍表模板(范本)
- 膳食营养指导和疾病预防(卢世琰)课件
- 办公楼建筑能源管理平台技术方案书
- 河南省铭玮昊化工科技有限公司年产1000吨溴硝醇、100吨磺酰胺、200吨叔丁酯项目环境影响报告书
- 灭火器检查记录表模板实用文档
- 《赢利 未来10年的经营能力》读书笔记PPT模板思维导图下载
- 2023年成都交子金融控股集团有限公司招聘考试备考题库及答案解析
- YS/T 337-2009硫精矿
- 《语言学纲要》文字1课件
- 英语关联词汇总大全
评论
0/150
提交评论