(计算机应用技术专业论文)方言口音普通话语音自动切分算法研究.pdf_第1页
(计算机应用技术专业论文)方言口音普通话语音自动切分算法研究.pdf_第2页
(计算机应用技术专业论文)方言口音普通话语音自动切分算法研究.pdf_第3页
(计算机应用技术专业论文)方言口音普通话语音自动切分算法研究.pdf_第4页
(计算机应用技术专业论文)方言口音普通话语音自动切分算法研究.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文研究方言口音普通话语音自动切分算法,主要服务于方言口音普通话语音库建 设。近年来,随着语音学研究转向口音化、口语化的自然语音,方言普通话语音库已经成 为国内语音库建设的一个热点。音段切分与标注是语音库建设中最费时费力的环节,通过 提高语音自动切分算法准确率,可以有效地提高方言普通话语音库的建设效率。 本文对当前语音自动切分算法进行了比较系统的研究,在此基础上,作者做了以下工 作: 1 提出语音自动切分中的方言口音建模方案 方言口音建模是本研究的关键,其作用是利用方言口音语音数据调整系统参数或结 构,使其体现方言口音特征。本文全面比较了方言口音建模中的字典自适应技术和声学 模型自适应技术的各种实现方法,提出采用数据驱动的多发音字典构建技术、以及 s u r f a c e - f o r m 标注监督下m a p 声学模型自适应的方言口音建模方案。 2 提出方言口音普通话语音自动切分框架 方言口音语音自动切分是一个较新的研究课题,当前尚无研究人员提出有效的算法 解决它本文提出一个方言口音普通话语音自动切分框架,在通用语音自动切分系统的 基础上,通过在标注转换模块引入多发音字典,在v i t e r b i 自动对齐模块引入基于多语音 学标注序列的自动对齐算法,以及在模型训练过程中引入声学模型自适应技术,将标准 普通话语音切分系统改造成方言普通话语音自动切分系统,有效提高了切分准确率。同 时,本文提出渐进式语音库音段切分策略。可以有效提高语音语音库建设效率。 3 上海方言普通话语音自动切分实验 本文以8 6 3 上海方言普通话语音库为研究对象,通过一系列实验验证了上述方言口音 建模方案以及方言口音普通话语音自动切分框架的可行性。实验结果显示,采用 s u r f a c e - f o r m 标注监督下的m a p 声学模型自适应与多发音字典相结合的方言口音建模技术 时,可以将边界偏差小于2 0 m s 的切分正确率提高3 9 、平均边界偏差减d , 8 1 m s ,当进一 步采用带音段时间信息的s u r f a c e - f o r m 标注监督下的m a p 自适应时,两个指标改善幅度分别 是5 1 与9 3 m s 。 关键词:语音自动切分、隐马尔科夫模型、方言口音建模 tzf。 r e s e a r c ho nr o b u s t a u t o m a t i cs e g m e n t a t i o no f d i a l e c t a ls p e e c h d us h o n s h u a n ( c o m p u t e r a p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yq i a ny u e l i a n g t h i sp a p e rc o n c e n t r a t e so nr o b u s ta u t o m a t i cs p e e c hs e g m e n t a t i o no fd i a l e c t a ls p e e c h , w h i c hi se s s e n t i a lf o rb u i l d i n gd i a l e c t a ls p e e c hc o r p u s b e c a m es p e e c hs e g m e n t i n ga n d l a b e l i n ga r et h em o s tt i m e - c o n s u m i n gs t e p si ne s t a b l i s h m e n to fs p e e c hc o r p u s ,b yi n t r o d u c i n g a u t o m a t i cs p e e c hs e g m e n t a t i o na l g o r i t h m ,w ec a ni m p r o v et h ee f f i c i e n c yo fb u i l d i n gd i a l e c t a l s p e e c hc o r p u sn o t a b l y w ec a r r i e do u ts y s t e m a t i cs t u d yo nc u r r e n ta u t o m a t i cs p e e c hs e g m e n t a t i o na l g o r i t h m s b a s e do l lt h i s , t h ef o l l o w i n ga s p c c t so f w o r ka r ed o n e : 1 d i a l e c t a ls p e e c hm o d e l i n ga n di t sa p p l i c a t i o ni na u t o m a t i cs p e e c hs e g m e n t a t i o n t h er o l eo fd i a l e c t a ls p e e c hm o d e l i n gi st oa d j u s tm o d e lp a r a m e t e r sa n ds t r u c t u r eo f a u t o m a t i cs p e e c hs e g m e n t a t i o ns y s t e m st om a k es u r et h a tt h es y s t e mc a n b eu s e di nd i a l e c t a l c i r c u m s t a n c e s i nt h i sp a p e r , w ec o m p a r e dt w oc l a s s i c a la c o u s t i cm o d e la d a p t a t i o nm e t h o d s : m a x i m u map o s t e r i o r i ( m a r ) a n dm a x i m u ml i k e l i h o o dl i n e a rr e a c t i o n ( m u 且) ,w h i c h m a yb es u p e r v i s e db yb a s e f o r m o rs u r f a c e f o r mp h o n e t i cl a b e l s f i n a l l yw ep r o p o s e da d i a l e c t a l s p e e c hm o d e l i n g s c h e m ew h i c hc o m b i n e dm u l t i p r o n u n c i a t i o nl e x i c o n a n d s u r f a c e - f o r ml a b e l ss u p e r v i s e dm a pa c o u s t i ca d a p t a t i o n 2 a r o b u s t f r a m e w o r k f o r a u t o m a t i cs p e e c h s e g m e n t a t i o n o f d i a l e c t a ls p e e c h b e c a u s ea u t o m a t i cs e g m e n t a t i o no fd i a l e c t a ls p e e c hi san e wr e s e a r c hi s s u e , c u r r e n t l y t h e r ea r en o te f f e c t i v ea l g o r i t h m sp r o p o s e db yr e s e a r c h e r s w e r et h ef i r s to n ew h op r o p o s e da f r a m e w o r kt od e a lw i t ht h i sp r o b l e m t h i sf r a m e w o r k 啪i m p r o v et h ec o r r e c t i o nr a t eo f d i a l e c t a ls p e e c hs e g m e n t a t i o nb y1 0 3 s h a h i g h a id i a l e c t a lm a n d a r i ns p e e c hs e g m e n t a t i o ne x p e r i m e n t s w ec a r r i e do u ts e v e r a ls e g m e n t i n ge x p e r i m e n t sb a s e do i ls p e e c hf r o ms h a n g h a id i a l e c t a l m a n d a r i ns p e e c hc o l p u s , a n dt h er e s u l t sa r er e p o r t e di nt h i sp a p e r k e y w o r d s :a u t o m a t i cs p e e c hs e g m e n t a t i o n , h i d d e nm a r k o vm o d e l ,d i a l e c t a ls p e e c h m o d e l i n g m t-llll【,-ig, 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者签名:t 也鸯镌导师签名:彳苌澎掘日期:州年,月7 日 m瀚|f 111 ,童鼍! ; 1 研究的背景及意义 第一章引言 本文研究方言口音普通话语音自动切分算法,致力于提高方言口音普通话语音库的 建设效率。语音自动切分是指由计算机自动将语音信号分割成一系列音段,每个音段对 应特定语音学单元。方言口音普通话是指,受说话人母语背景的影响,介于标准普通话 和方言之间的普通话。具体而言,本文以8 6 3 四大方言普通话语音库【6 l 为样本,通过研 究上海方言口音普通话语音自动切分技术,提出一个通用的方言口音语音自动切分框架。 1 1 1 方言口音语音库建设 基于语音库的统计分析方法是当前语音学研究的主流方法,语音库不仅服务于语音 识别、语音合成等应用技术,也服务于语音韵律学、语音技术评测等基础研究。因此, 语音库的建设与共享成为众多机构的研究热点。如美国的l d c ( l i n g u i s t i cd a t a c o n s o r t i u m ) ,建设了满足不同应用需求的语音库,并定义了一套完整的数据采集格式和 标注规范p ;欧洲的e l r a ( e u r o p e a nl a n g u a g er e s o u r c e s a s s o c i a t i o n ) 的语音库s p e e c h d a t 和s p e e c hd a t ( m ) 汇集了二十多个欧洲语种和方言语音数据1 4 l ;中国的中文语言资源 联盟( c h i n e s e l d c ) 专注于建设中文信息处理领域国际水平的、通用的汉语语言语音资 源库,目前已经汇集了大批服务于语音识别、语音合成、以及语音技术评测等的中文语 音资源1 5 1 ,其中部分语音库来自国家高科技研究规划( 8 6 3 ) 支持的“中文平台总体技术 研究与基础数据库建设”与“中文平台评价技术研究与基础数据库建设”两个项目。国 际组织c o c o s d a 则致力于协调全球语音语言资源建设和语音技术评测方面的工作,服 务于当前以及未来语音技术的发展以及相关评测闭在这些机构的推动下,国内外众多 语音库建设成功,并在研究人员中得到很好的共享 随着应用需求的变化和技术的发展,语音库的建设已经由传统的朗读语体标准发音 转向口音化和口语化语音。建设口音化的语音库,是由于方言口音现象在各语系中普遍 存在,并对语音识别系统性能等有很大影响,所以有必要采集方言口音语音,对其进行 深入研究。汉语语系中方言口音现象尤为突出:虽然普通话是我国的官方语言,通过教 育、广播,以及电视等渠道向全国范围推广,但是,由于我国幅员辽阔,各地共有八个 方言区,分别是北方方言区、吴语、粤语、闽南语、客家话、赣语、徽语以及晋语,这 些方言区又可以进一步细分为4 0 个子方言斟明。各方言语种虽然分享相同的汉字,但 是发音却千差万别。 基于上述原因,方言口音普通话语音库成为国内近年语音库建设的热点,目前已建 成的有社科院语言所主持建设的8 6 3 四大方言普通话语音库f 6 l ,中科院自动化所主持建 中国科学院硕士学位论文方言口音普通话语音自动切分算法研究 设的北方口音语音库以及南方口音语音库嘲,以及微软亚洲研究院建设的四种口音( 北 京,上海,广东,台湾) 普通话语音库等。 1 1 2 语音库建设中的音段切分 语音库的设计与实现是一个复杂的系统工程,工作量大,建设周期长。社科院语言 所祖漪清1 1 瞻出8 6 3 语音识别数据库的建设流程如图1 所示。 _ e w 一7 4 尉等 一语音数据 卜一刚黧 下 l 语音敦据库管理 l 语言学,浯音学l l |删 1 1 l 图1 - 18 6 3 语音识别语音库建设流程 在上述流程中,语音切分( s e g m e n t a t i o n ) 是至关重要的一个环节。语音切分是指根 据语音标注序列,将语音信号切分成时序相邻的一系列与语音学标注单元( 如音素,音 节等) 相应的音段,并将相应的时问信息添加到标注文件里。 经过切分与标注的语音库能更好的服务于语音学研究,这是因为:首先,切分精确 的音段是语音合成系统( r i s ) 的基础;其次,音素级别的切分是语音韵律学研究的起 点;最后,有研究表明,利用精确切分好的数据训练语音识别系统的声学模型,有助于 提高系统识别性划7 】。总之,语音切分与标注可以大大提高语音库的可用性。 传统上,语音切分是由人工完成的,需要经过培训的技术人员根据听音读谱来切分 音段,这一工作不但费时费力,而且由于人的间接性,容易造成切分结果的不一致。语 音切分与标注常常成为语音库建设中最耗费人力物力的环节。所以,开发语音自动切分 算法,由计算机自动完成语音的分段,成为提高语音库建设效率的关键。 1 1 3 方言口音语音自动切分的研究意义 结合上述背景,方言口音语音自动切分算法研究在技术与应用两个方面都有重要的 现实意义。 从技术角度,现有语音自动切分技术用于切分方言语音时,系统性能会会急剧下降。 例如,当前边界偏差小于l o m s 的自动切分准确率大致水平在4 0 以上l b l ,而当我们用 现有系统切分方言语音数据时,这一准确率仅为2 4 7 。所以,这一技术有较大的改进 r#f:、tf 第一章引言 空间 从应用角度,我国方言类型众多,对每种方言口音普通话的研究必然要求建设相应 的语音库。开发适用于方言口音普通话的语音自动切分算法,有利于提高方言口音普通 话语音库的建设效率,以及语音库的可用性,从而促进方言普通话相关研究的开展。 1 2 相关领域的研究进展 方言口音语音自动切分算法是一个较新的交叉研究课题,除新西兰r a d b o u d 大学 e r i cs a n d e r s 等 s l 之外,尚未见到其他人专门针对这一课题开展研究。与其相关的研究包 括两个方面:标准语音的自动切分算法、以及语音识别研究中的方言口音建模技术接 下来首先介绍两个领域的进展情况,然后提出研究中尚待解决的问题。 1 2 1 语音自动切分算法 面向语音库建设的语音自动切分算法研究开始于上个世纪七十年代。伴随着语音学研 究技术水平的发展,切分对象经历了三个阶段,早期是孤立词、小词汇量语音,上个世纪 八十年代中期以来是安静语境大词汇量连续语音,当前正成为研究热点的是自然场景口音 口语化语音。 当前比较成熟的语音自动切分算法适用于安静语境标准语音的切分,根据技术特点, 可将其分为三类,第一类算法由语音自动识别( a s r ,a u t o m a t i cs p e e c hr e c o g n i t i o n ) 系统 改造而成1 1 1 t q 1 2 二2 3 1 ,主要是把识别中的语言模型限定为已知的句子,包括基于h m m ( h i d d e n m a r k o v m o d e l ) 的语音自动切分算法与基于d t w ( d y n a m i c t i m e w r a p p i n g ) 的 语音自动对齐算法;第二类算法基于边界检测技术【1 卯1 1 ,采用类似图像处理中边缘检测的 方法,首先从语音信号提取时域分辨率高的声学特征,然后利用这些特征参数在时域上的 变化特点,确定音段边界点;第三类是复合式自动切分算法1 2 2 1 1 2 2 9 1 3 0 1 ,综合采用前两种算 法中的一些关键技术来提高切分精度。 上述算法中应用最为广泛的是基于h m m 的语音自动切分算法,对于标准发音安静语 境下的语音,采用说话入无关h m m ( s i h m m ) ,边界误差在2 0 m s 之内的切分准确率最高 已达到9 0 左右,采用说话人相关h m m ( s d h m m ) 时这一准确率最高达到9 6 1 1 3 l 。 很明显基于s d h m m 的切分结果优于基于s i h m m 的切分结果,但建立s d h m m 需 要特定说话人大量语音作为训练数据,否则切分效果改善有限。文献【1 4 】利用说话人自适应 技术部分解决了这一难题,采用最大似然线性回归( m l j r ) 以及最大后验( m a p ) 技术 建立说话人自适应h m m ( s a h m m ) ,有效的提高了系统对说话人变化的鲁棒性。 国内研究语音自动切分多数面向合成语音库,处理的对象为安静语境下的标准发 音。对自然口语现象、方言口音现象、以及噪音语境等语音识别语音库切分中存在的问 题,较少有人开展相关研究。主要研究单位有中国科技大学1 1 4 1 、微软亚洲研究院p 7 l 、 同济大学、以及台湾清华大学1 2 4 喀 墙争 3 中国科学院硕士学位论文方言口音普通话语音自动切分算法研究 1 2 2 方言口音建模技术 方言口音建模是指,在语音研究中针对方言口音现象,调整系统参数或者拓扑结构, 使得系统反映方言口音特点。本文采用的方言口音建模技术主要借鉴方言口音语音识别 研究中的一些成果。 方言普通话语音识别研究中采用两种技术来进行口音建模,分别是声学模型自适应 ( a c o u s t i c a d a p t a t i o n ) 1 3 1 1 1 3 + - 3 s ! 和字典自适应( l e x i c o n a d a p t a t i o n ) p 2 - 3 3 ) l :m ) ,其中字典自 适应主要在音韵学层次处理方言群体的变化,而声学模型自适应技术可以在声学层面体 现特定说话人的发音速度及风格。 声学模型自适应常采用最大似然线性回归( m u 承,m a x i m u ml i k e l i h o o dl i n e a r r e g r e s s i o n ) 方法和最大后验( m a p ,m a x i m u map o s t e r i o r i ) 方法。m l l r 是一种基于 。变换的方法,可以通过少量的自适应语音获得较好效果,但是该方法不满足对说话人相 关模型的渐进性;m a p 方法通过引入先验知识来求最大的后验概率,它在理论上可以 很好地满足对说话人相关模型的渐进性,但是需要较多的语音数据,自适应速度较慢p 叼。 字典自适应的基本思想是,把方言口音普通话里发生音变的语音学单元的替代者作 为候选发音也加入到标准字典里,构成能够反映这种方言口音的发音变化特征的新字典 1 3 3 1 。字典自适应方法有包括基于知识和基于统计两种,描述发音变化也可以在不同级别, 如词、音节,以及音素等t “。 与国外相比,国内在方言口音语音识别方面的研究相对滞后。然而随着方言口音现 象得到更多的关注,越来越多的研究机构开始投入相关研究。主要有清华大学、中科院 自动化所、中科院声学所、以及微软亚洲研究院,相关研究工作涵盖方言口音普通话的 声学自适应i t o l l 3 1 l i “蚓以及字典自适应【1 0 1 1 3 2 - 3 3 u 3 7 1 。 1 2 3 尚待解决的问题 在文献f 8 l 中,e r i c s a n d e r s 等人提出荷兰语方言口音语音自动切分算法的两个难题, 对应到汉语中分别为:一、方言口音普通话中的声韵母单元既包括标准普通话声韵母, 也包括方言特有声韵母,以及由于方言口音造成标准普通话声韵母的变异,需要构建一 个声韵母集合作为h m m 建模单元;二、由于缺少足够带标注语音数据,在训练声学模 型h m m 时,方言特有的声韵母单元以及标准普通话声韵母变异单元面临数据稀疏问题。 一方面,当前语音自动切分算法研究主要面向标准普通话或者轻微口音,采用 s d h m m 重估以及鲋删m 自适应技术等措施仅能体现单个人的发音特点,无法体现同 一方言区说话入在音韵学以及发音方式方面的内聚性。另方面,方言口音语音识别技 术中的声学模型自适应以及字典自适应技术比较全面的解决了方言口音建模的问题,但 是语音识别与语音切分还是有所区别的,语音识别技术侧重于音段的辨识,而语音切分 技术侧重于音段边晃的检测。所以,需要调整方言口音语音识别技术中的声学自适应以 及字典自适应方法,使其适用于方言口音语音自动切分 4 1 ; 1 i i 第一章引言 总之,虽然相关领域的研究已经取得较大进展,但是对方言口音语音自动算法的研 究还比较欠缺,尚无可行的方言口音语音自动切分框架用于方言口音语音库的切分与标 注。 1 3 论文工作 本文的主要研究内容是:针对方言口音普通话语音库建设,提出方言口音普通话语 音自动切分系统框架;改造方言口音语音自动识别技术中的声学自适应以及字典自适应 方法,使其适用于语音自动切分;最后,以8 6 3 上海方言普通话语音库为研究样本,通 过一系列实验检验上述切分框架以及方言口音建模技术的可行性。具体内容如下: ( 1 ) 方言口音语音自动切分系统框架 以基于h m m 的语音自动切分系统为基础,结合方言口音建模方法与说话人自适应 方法,实现方言口音语音库的高效、精确切分。 ( 2 ) 语音自动切分中的方言口音建模 方言口音建模技术包括声学自适应以及字典自适应,其中声学自适应技术本文选择 m a p 方法,在采用有监督自适应时,用于指导自适应训练的又可采用表层形式 ( s u r f a c e - f o r m ) 声韵母标注或者基层形式( b a s e f o r m ) 声韵母标注。字典自适应采用文 献1 1 0 1 提出的基于统计的方法,得到标准普通话声韵母映射规则以及方言普通话声韵母映 射规则。本文提出了语音自动切分中字典自适应技术与声学自适应技术相结合的方言口 音建模方案。 ( 3 ) 上海方言普通话语音库自动切分实验 本文选用上海方言普通话语音库作为实验对象,通过一系列自动切分实验来验证本 文所提出方言口音语音自动切分框架的可行性,以及研究s u r f a c e f o r m 声韵母标注监督 下与b a s e - f o r m 声韵母标注监督下m a p 自适应技术的选择对切分性能的影响。 1 4 论文结构安排 本文内容安排如下: 第一章概括介绍本文的研究背景、当前研究现状、以及本文的主要研究工作。 第二章全面介绍常见语音自动切分算法,重点介绍了基于h m m 的语音自动切分 系统框架,并简单介绍评价语音自动切分算法性能的常用指标; 第三章介绍适用于语音自动切分的方言口音建模方法,包括声学模型自适应以及 字典自适应; 第四章提出方言口音语音自动切分系统框架,详细介绍此框架各个部分,并论证 此框架的可行性; 第五章介绍相关实验方案并分析实验结果: 第六章总结本文并做出展望 o i - 5 第二章语音自动切分算法 2 1 本章引论 语音库在语音学研究中发挥着重要的作用,是语音识别、语音合成、韵律学、以及 语音技术评测等研究的重要依托。为了满足上述需求,语音库中部分或全部语音需要进 行音段的切分与标注。下图表明了语音“张云诗”的波形图、语谱图、音段切分、以及 语音学注释序列等信息之间的关联: a _ j 叭 ;m ! 1 1 ; 。m , 警熙添黎 , , 一 l i 4 “ m i +_ 井 田i ; “ y t 1 : 端。# 蕊一。“m 脯艄躲8 静童蛐j 糊* 4 # * 啉* _ “酏埘k 女m s # 女池轧a 一一k “& 罐蠲 图2 1 语音音段切分结果图示 上图中,语音信号被切分成一系列相邻的音段,每个音段对应于一个语音学单元( 汉 语中常用音节,声韵母等) 这一工作最初由人工完成,不但费时费力,而且易于出错, 这使得音段切分成为语音库建设中的瓶颈环节。指导计算机自动完成语音切分工作的算 法,称为语音自动切分算法。通过实现语音自动切分,可以大大提高语音库的建设效率 本章2 2 节介绍了语音自动切分算法性能的两种评价指标;2 3 节对当前主流语音自 动切分算法进行分类,比较全面地介绍常用语音自动切分算法的技术特点,特别是重点 介绍了本文所提出系统的基础基于t t m m 的语音自动切分算法;2 4 节为本章小结。 2 2 语音自动切分算法的性畿评价指标 评价各类自动切分算法性能的指标有间接与直接两类1 1 捌间接指标指,将语音自 7 i, 中国科学院硕士学位论文- 方言口音普通话语音自动切分算法研究 动切分的结果用于识别或合成系统,利用识别或合成的结果衡量算法性能;直接指标一 般指通过比较自动切分结果与人工切分结果而得到的一些参数,如平均边界偏差,边界 偏差小于特定值的百分比等。间接指标从语音切分结果的应用效果角度来评估算法性能, 体现了算法的最终目的,但是由于需要基于切分结果进行语音合成或者语音识别模型训 练,所以评估代价较大;而直接指标则较为直接,易于计算。间接指标与直接指标有一 定互补性。 接下来我们介绍两种直接指标的计算方法:平均边界偏差、边界偏差小于m 的准确 率。 , 首先定义边界偏差( b d ,b o u n d a r yd e v i a t i o n ) t 酣。l t i 一一t 。l ( 2 - i ) 。一+ 其中l 一指语音学注释序列中第i 个单元由人工切分得到的音段末端时间信息,一” t 。是由自动切分得到的相应值。 1 平均边界偏差( a b d ,a v e r a g eb o u n d a r yd e v i a t i o n ) 计算方法: t b d 。蓍( 茗t ) 7 善n i 协2 ) 其中1 埘指多个语音文件自动切分结果的平均偏差,n 指文件个数,n i 指第i 个文件 中的切分单元总数。 2 边界偏差小于m 的准确率( c r ,c o r r e c t i o nr a t i o ) c r - 善n u m 。,薹n n m ( 2 - 3 ) 其中n 为文件总数,h u m 。为第i 个文件中边界偏差小于m 的切分单元总数,n n n l 为第i 个文件中切分单元总数 2 3 语音自动切分算法的分类及主要方法 根据不同的标准,语音自动切分算法可以有不同的分类方法。我们在第一章提到, 根据技术特点,语音自动切分算法可以分为三类:基于a s r 系统的算法、基于边界检测 技术的算法、以及复合式算法。此外,根据语音学注释是否已知,又可以分为有监督语 音自动切分分与无监督语音自动切分,语音库建设中常用到的是语音学注释已知的有监 督切分,但是近年来有人尝试利用无监督语音自动切分技术和音段聚类技术进行语音自 动标注,从而为新建语音库的语音标注以及切分工作提供有用的帮助l 搏堋 接下来主要依据技术特点,介绍各类语音自动切分算法中有代表性的算法。 8 第二章语音自动切分算法 2 3 1 基于a s r ( 语音自动识别) 系统的语音自动切分算法 此类算法由a s r 系统改造而成,主要是把a s r 中的语言模型限定为给定的句子。 常用的方法有: 动态时间规整( d t w ) 1 2 2 1 1 2 3 l 隐马尔科夫模型( h m m ) 1 2 1 - 2 5 1 1 3 0 j 2 3 1 1 基于d 删的语音自动切分算法 此类算法采用一种最优化方法一动态规整法,将待切分语音信号的时间轴进行 不均匀的扭曲和弯曲,使其声学特征序列与参考模板声学特征序列对齐,通过参考模 扳的音段边界点信息来确定待切分语音信号的音段边界点 参考模板通常采用音段拼接得到的合成语音,这是因为在合成语音中,用于拼接 的各音段起始点己知,从而合成语音可以视为己切分。声学特征采用梅尔倒谱系数 ( m f c c ) ,线性预测系数( l p c ) 等1 2 2 - 2 3 1 。 基于d t w 的自动切分算法己成功应用于孤立词语音库的切分f 1 1 i ,但是,算法需 要建立一个包含所有语音单元音段的语音库,这些音段要通过人工切分得到,用于生 成作为参考模板的合成语音。这限制了此类算法的应用。 2 3 1 2 基于h m m 的语音自动切分算法 此类算法在当前语音自动切分中应用最为广泛,本文所提出方言口音普通话语音 自动切分算法就以此为基础。我们首先限定基于h m m 的a s r 系统的语言模型为给 定标注序列,然后利用v i l e r b i 算法将语音信号与和标注序列相应的h m m 序列强制 对齐。 基于h m m 的语音自动切分包括两个步骤:首先,确定h m m 的拓扑结构,并利 用训练数据建立语音学单元的h m m 库;其次,输入语音信号以及相应标注信息,利 用系统完成语音自动切分。 h m m 的拓扑结构对切分性能有显著影响,一个h m m 主要由三个要素决定,分 别是初始状态概率向量、状态转移矩阵a 、以及观察值概率分布b 文献1 2 1 l 就语音自 动切分中h m m 的拓扑结构进行了系统的研究,结果显示,采用标准的自左向右 h m m ,每个状态的观察值概率密度函数采用对角阵多高斯分布时,可以得到最佳切 分效果图2 - 2 是一个五状态,自左向右无跨越型h m m 的拓扑结构图。 9 中国科学院硕士学位论文方言口音普通话语旮自动切分算法研究 y = 口口 _ y ) , ,图茹自赫越阳前菇森磊荔高7 一。7 h m m 训练方法是影响基于h m m 的自动切分系统性能的关键因素之一。这是由 于,作为基于统计的方法,怎样通过选择合适的训练数据以及训练方法,使得到的模 型如实反映训练数据的特征,并能最大限度的体现待处理数据的特征,是保证基于统 计的处理方法的关键。在语音自动切分研究中,训练过程中提高系统性能的方法有: 利用经过音段切分的语音数据训练h m m i ,这种方法又称为受限制的( c o n s t r a i n e d ) h m m 训练,研究表明采用受限制的h m m 训练可以大幅提高切分精度;在实际切 分某说话人语音时,采用说话人自适应技术,如最大似然线性回归( m l l r ) 或者最 大后验概率方法( m a p ) 方法,利用少量的自适应数据建立说话人自适应h m m ( s a h m m ) ,可以有效的提高切分精度l 卅。 基于h m m 的语音自动切分的第二个阶段是采用图2 - 3 所示框架完成语音切分, 下边将介绍此框架中各模块的功能 语音信号 正则标注 图2 - 3 基于h m m 的语音自动切分系统框图 1 0 口儿口h 第二章语音自动切分算法 特征提取模块将语音信号转换成一个声学特征向量序列,通常是m f c c ( 梅尔频 率倒谱系数) 序列。 标注转换模块将正则标注转换为待切分语音学标注序列【甜。正则标注指对语音进 行逐字转写的结果,语音学标注指音素等语音学单元转写的结果。用于自动对齐的语 音标注有两种情况,一种是由正则标注生成的自动语音标注,一种是听写得到的人工 语音标注前者比较容易获得,但是不能反映语音文件的实际情况,如不能体现方言 口音中音变现象l 笠l 等,这使得系统的切分精度受到影响1 2 1 1 。怎样使由正则标注自动生 成的语音学标注更好的反映实际发音,将成为一个很有挑战性的课题。 v i t e r b i 自动对齐模块是上述框图的核心1 1 5 i ,接下来将介绍其应用原理。 假定向量亍是语音库中某语音文件所对应的标注序列: 其中l 。是标注序列的第n 个音素或半音节,n 为标注中此类单元的数目。 假定向量代表由语音信号生成的声学特征向量序列: = 奴,s 2 ,s m ) s 。是状态对应一个特征向量。 语音自动切分就是将按特定时间顺序将分配给n 个语音学标注单元一个典型的 切分结果是: ( g h ,g 也,6 h ,6 蝌) 其中6 。包含语音信号的几帧特征向量,g 。一( s p ,s p 。,s 阳) ,p 为语音信号声学 特征向量中特征帧序号,p + q m 。 利用v i t e r b i 算法可以求得最佳切分结果: a r g m a x v ( ( o k l ,g ,gh ,届“) l 亍) j = a r g m a x p ( t 。10 。,) p ( t :ig 。) j ( t 。ig m ) 】( 2 - 4 ) t 由于基于h m m 的语音自动切分算法具有很好的理论基础以及较好的切分效果,因 此成为当前最为常用的自动切分方法本文所提出的方言口音普通话语音自动切分框架 也以此为基础。 l i 中国科学院硕上学位论文方言口音营通话语音自动切分算法研究 l # 但是此类算法也存在一定的局限性1 3 1 1 6 :切分效果依赖于训练语音数据与实际切分 语音数据声学特征的相近性,当出现两者差异较大时,切分效果很差,例如用标准普通 话训练得到的h m m 切分方言口音普通话;要取得较高切分精度,需要用已切分的语 音数据训练h m m ,准备这些数据将花费大量人力物力:作为基于a s r 的自动切分算 法,主要使用频域分辨率高的特征,这些特征在音段识别方面性能好,但在时间定位方 面精度差,这造成切分结果中音段的边界与其实际位置相比有许多小的偏差阿。 2 3 2 基于边界检测技术的语音自动切分算法 基于边界检测技术的语音自动切分算法【1 6 - 2 0 1 采用类似图像处理中边缘检测的技 术,只不过语音边界检测中的边缘从平面变为时域。算法采用时域分辨率高的声学特 征,利用语音信号这些特征参数在时域上的变化特点,根据一定的检测机制确定音段 边界点。,。,。一,、,一一” 边界检测常用的声学特征有短时能量算予1 1 7 l i 堋,能量1 1 6 l ,谱向量间欧氏距蒯2 0 l , 以及过零率( z c r ) 2 3 1 等。检测方法包括预切分成谱稳定音副2 ,分层预切分1 2 0 l , 边界相关更正技术( b s c ,b o u n d a r ys p e c i f i cc o r r e c t i o n ) 1 2 2 垮。 以下重点分析两种常见的检测方法 2 3 2 1 基于分层切分技术的语音自动切分算法 文献 2 0 l 提出连续语音的多层切分算法,首先将连续语音切分成长度相等的多个很 短的语音帧,然后根据相邻帧的相关性,将这些细微的语音帧归并为由粗到细的树状 图,从而得到不同粒度的语音学单元的边界。 由于可以提供多层语音学单元边界信息,分层切分算法适用于完成语音库的多层 切分与标柱文献【1 5 l 中就根据分层自动切分原理,针对中文语音特点,利用音节层的 边界信息,提高了声韵母层的自动切分精度 2 3 2 2 采用b s o ( b o u n d a r ys p e c i f i cc o r r e c t i o n ) 技术的语音自动切分算法 音段的声学特性受其两侧音段的影响显著,这样,相邻音段间边界的精确定位, 依赖于边界两侧音段的声学特点。理想的情况下,对于不同的音段边界类型,选择不 同的声学特征以及不同的检测机制,可以提高切分的精度0 6 1 这就是b s c 技术的原 - 理。 t b s c 技术假定语音信号已经根据标注信息完成粗切分,然后根据不同音段边界类 型选择适当的声学特征或其组合,对粗切分的边界进行调整1 2 2 1 b s c 技术的关键是 对音段边界进行分类,以及选取合适的声学特征组合详细分析见2 3 3 节。 与基于a s r 的自动切分算法相比,基于边界检测技术的算法主要优点有:采用时 域分辨率高的声学特征,有助于提高局部切分精度删;采用预切分成谱稳定音段等切 4 l ji 第二章语音自动切分算法 分机制时,不需要提供已切分好的语音数据,可以直接利用声学特征在时域的变化进行 切分。此类算法的主要缺点是,在无监督切分时,得到的音段数目可能与实际情况不同, 从而切分总体误差( 如平均边界偏差) 较大。 2 3 3 复合式语音自动切分算法 根据前面的分析,基于h m m 的自动切分算法和基于边界检测技术的算法,性能 上有较强的互补性。所以,研究者提出复合式语音自动切分技术i ”1 1 2 2 1 1 州。 这一类算法通常包括两步1 2 4 l : 1 基于h m m 的语音粗切分 2 利用b s c 技术微调音段边界 文献1 2 5 1 还提出利用完成切分的语音数据重估h m m 参数,通过循环执行上述步骤 进一步提高切分精度。 b s c 技术需要将边界进行聚类,一种简单的方法是,将音素根据其声学特征分为 若干类,通过不同类别音素之间的组合得到边界的类型1 2 4 l ;另一种方法是,利用分类 回归树( c l a s s i f i c a t i o n _ a n dr e g r e s s i o nt r e e ) 技术,根据边界两侧音素声学特点进行聚 类,c a r t 不同的叶子节点,就构成边界的类别1 2 8 1 用于修正边界的技术有人工神经网络1 2 2 1 1 2 7 1 ,混合高斯模型( g m m ) 1 2 s 1 以及统 计机器学习1 2 4 l 等。 以文献阎介绍的a n n 技术为例介绍边界修正的基本思想。首先利用人工切分好 的语音数据训练a n n 参数,然后根据由语音信号提取的一组声学特征,a n n 可以评 估在某一特定帧内出现边界点的概率。将a n n 用于h m m 粗切分结果,h m m 边界 点移至距其最近的a n n 概率最大点就可修正边界。 复合式语音自动切分由于综合了基于h m m 自动切分与基于边界检测自动切分 的优点,切分精度得到较大提高,所以此类算法在合成语音库建设中得到广泛的应用 1 2 4 彩1 3 1 。但是由于它以基于h m m 的切分算法为基础,所以,与h m m 训练相关的问 题仍然存在,如很难应用于多语言语音库等。 2 4 小结 当前常用的语音自动切分算法各有特点,其中:基于h m m 的语音自动切分算法是 最为常见的算法,算法总体误差水平较低,但是需要预切分的数据用来训练模型,且性 能受训练语音数据与实际切分语音数据声学特征差异影响很大;基于边界检测技术的算 法可以产生更精确的音段边界,但是由于可能切分得到的音段与实际情况不符,会产生 较大的总体误差;复合式自动切分算法很好的结合了两者的优点。切分效果较好,已广 泛应用于合成语音库建设。 1 3 中国科学院硕 学位论史方言口音普通话语音自动切分算法研究 上述算法都是针对标准语音进行切分,随着应用需求的变化和技术的发展,方言口 音语音库建设成为一个热点,适用于方言e l 音语音的自动切分算法变得重要起来。由于 基于h m m 的语音自动切分算法具有较好的理论基础、以及较好的可扩展性,我们将以 它为基础,开发方言口音普通话语音自动切分算法。 一r一 、岍耵# 一“ 1 4 。 k 矿 第三章语音自动切分中的方言口音建模 3 1 本章引论 方言口音建模是指,在语音学相关研究中,利用带方言口音的语音数据来调整系统 参数或者结构,使得系统反映方言口音特点。本章主要研究方言普通话语音自动切分系 统中的方言口音建模方案。 说话人的多变性是语音学研究中的一个难点,不同说话人之间的差异大致体现在两 个方面:生理差异和发声习惯差异。生理差异主要源于发声器官的形状、大小等的不同, 这种差异影响着语音的基频,从而不同人的发音具有不同的声学特征。发声习惯差异则 与说话人所处生活环境相关,主要的差异如方言口音、语速、以及语调等。 文献吲指出,方言口音和性别是造成说话人差异各因素中影响最大的两个,本文主 要关注前一个因素。方言口音对说话人发音的影响首先体现在声学层,不同方言区相同 音节的发音产生部分变化,甚至直接变成另一个音节的发音;其次,这种影响也体现在 语言层,如用词变化、语序不同等;最后,不同方言区说话人的语速、语调等发音韵律 也明显不同。上述方言口音引起的声学层、语言层和语音韵律的变化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论