(信号与信息处理专业论文)汉语连续语流声调评测技术研究.pdf_第1页
(信号与信息处理专业论文)汉语连续语流声调评测技术研究.pdf_第2页
(信号与信息处理专业论文)汉语连续语流声调评测技术研究.pdf_第3页
(信号与信息处理专业论文)汉语连续语流声调评测技术研究.pdf_第4页
(信号与信息处理专业论文)汉语连续语流声调评测技术研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着计算机技术和语音识别技术的发展进步,出现了计算机辅助语言学习 ( c a l l ,c o m p u t e ra i d e dl a i l g u a g el e a m i n g ) 系统,利用c a l l 系统进行发音 辅助学习,学习者可以即时获得有效的反馈。普通话评测属于语言学习的研究 范畴,普通话水平测试电子化系统有助于高效地进行测试。 声调是区别方言与普通话的重要标尺,某种程度上决定了一个人普通话水平 的基本面貌和基本水平。因此在普通话水平客观测试系统中,声调的客观评测 是一个非常重要的子系统。对于连续语流,由于受上下文的影响,字调之间存 在不可忽视的连续性,变调现象普遍存在且具有多样性,给声调识别器的结果 带来严重的混淆,进而影响声调评测系统的实际性能。本文利用连续语流中韵 律耦合效应和韵律信息紧密相关这一特性,着重在建模的经典方法基础上提出 了利用上下文的声韵母和声调信息、当前音节所属韵律结构等韵律信息的建模 策略,使得汉语普通话水平评测系统中连续语流声调评测子系统性能得到有效 的提升。文章结构如下: 第一章简单介绍了语音评测的发展背景与现状,重点阐述了语音评测的原 理、系统构成、以及所依靠的语音识别技术基础,最后引入声调评测的概念, 并分析其中存在的难点。 第二章基于声调评测系统的三个基本模块:特征提取、训练模型和评测算法, 分别详细描述了其经典方法和原理。重点对比介绍了基于核心段建模和基于上 下文信息建模的传统建模方法,分析其中的存在的问题,并提出新的方法。 第三章首先简单介绍了韵律方面理论的发展。根据对韵律理论的研究分析得 知:韵律信息和语流中基频变化密切相关:韵律信息提供的各种层次的间断将 连续语流分割成更加便于理解和机器处理的小单元,因此本文提出以韵律词为 基本建模单元,建立基于多空间概率分布的h m m 调型模型( l 1 t o n e m s d ) , 可以较好地解决基频的不连续性和连续语流中上下文信息严重影响基频变化给 建模带来的困难。实验证明该子系统针对标准发音的声调识别率和针对方言背 景的非标准发音的声调评测结果都有较好的提升。 第四章提出了基于多种韵律信息的上下文相关的复杂声调模型( c c d t m ) 。 实验结果表明,上下文相关的复杂韵律声调模型比传统的上下文相关的三音子 摘要 声调模型性能更稳定可靠。c c d t m 有效地反应声调在不同语境下的变化形式, 并为韵律评测的研究工作提供了基础。 最后将对全文进行总结,并指出将来的可能的改进方法。 关键词:语音评测声调评测声调识别韵律词上下文相关m s d c c d t ml1t o n e m s d i i a b s t r a c t a b s t r a c t w i t l lt l l ed e v e l o p m e mo fc o m p u t e rt e c l u l o l o g ya i l dp r o n m l c i a t i o nr e c o 印i t i o n t e c h n o l o g y c a l l ( c o m p u t e ra i d e dl a n g u a g el e a n 血g ) h a sa p p e a r e d u t i l i z i n g c a l lt oa s s i s t p r o n u n c i a t i o nl e 姗i n g , s t u d e m sc a ng e te 丘- e c t i v ef e e d b a c k 蛔m e d i a t e l y t 1 1 em a i l d a r i na s s e s s m e n tb e l o n g st om el a l l g u a g el e a n l i n g ,a l l dt h e e l e c 仃o n i cs y s t e mc a nh e l pt oc a n yo u tm a l l d 撕nt e s te 蚯c i e m l y t o n ei 幽n i l a t i o ni sau s e 彻绝a _ t u r ew l l i c hc a l lu s e dt od i s t i n g u i s hd i a l e c ta n d m a n d a r i ni nc l l i n e s es p e e c h ,a i l di tm a yd e t e n n i n et i l eb a s i c 印p e 嬲m c eo fap e r s o n s m a n d a r i nl e v e lt oac e r t a i ne x t e n t t h e r e f o r e ,i nm ew h o l em a n d a d na s s e s s m e n t s y s t e m ,吐l eo b j e c t i v et o n ee v a l 眦t i o ni sa ni m p o r t a n ts u b s y s t e m a st ot 1 1 ec o m i n u o u ss p e e c h ,i n f l u e n c e db yc o n t e x t ,t h e r ea r ed i s c o n t i m i i t i e st h a t c a i l tb ei g n o r e db e 铆e e nt 1 1 et o n e so fs y l l a b l ea 1 1 dt l l ep h e i l o m e i l o no fv a r i o u ss a i l d h i , b r i n g i n gc o n 如s i o nt or e s u l t so ft h et o n er e c o g n i z e r ,s oi ts e r i o u s l yi i l f l u e n c e st l l e a c t u a lp e r f o n n a n c eo ft o n ee v a l 删i o ns y s t e m i nt 1 1 i sp a p e r b yu s i n gn l eo u t s t a n d i n g c o o r d i n a t i o no fp r o s o d yf r 撇e 、o r ka n dm o d i f i e dt o n ec u r v e ,w ep u tf o 删n e w s 缸l t e g yo fm o d e l i n gb a s e do nm ei n n u e n c eo fc o n t e x ta n dp r o s o d i ci n f o n n 血o n , e 1 1 l l a n c i n gm ep e r f o m l a n c eo fc o n t i n u o u sm a l l d a r i nt o n ee 、 a l u a :t i o ns u b s y s t c m t h ew h o l et h c s i si so 唱a n i z e da sf 0 1 l o w s : c h a p t e r1g i v e sab r i e fi n t r o d u c t i o no nt 1 1 eb a c k 伊o u l l da 1 1 d 也ed e v e l o p m e n to f p r o i m n c i a t i o ne v a l u a t i o n ,t h e n ,w ee x p l a i nt h ep r i n c i p l e ,s y s t e m 蚰m c t u r e ,a i l dt l l e p r o m m c i a t i o nr e c o 舯i t i o nt e c h n o l o g ya st l l ef o u n d a t i o ne s p e c i a j l y ,f i n a l l y 1 ec o n c e p t o ft o n ea s s e s s m e n ti sp r e s e n t e d ,柚d 、砒螅l y z et h ee x i s t i n gd i 伍c u l t i e s c h 印t e r2d e s c r i b e st l l e c l a s s i c a lm e t h o d sa l l dp r i n c i p l e so ft l l et l eb a s i c m o d u l e s( f e a t u r e e x 倾c t i o n ,仃a i n m gm o d e l a 1 1 dt o n e e v m u a t i o n ) o ft h et o n e a s s e s s m e n ts y s t e ms e p a r a t e l yi nd e t a i l a r e ra 1 1 a l y z i n gt h et r a d i t i o l l a l 印p r o a c h e so f m o d e l i n gb a l s e do nt h et o n en u c l e u sf e a _ t u r e s a 1 1 dt l l a to fm o d e l i i l g r e n e c t i i 培t l l e c o n t e x t ,w eg e tc o n c l u s i o no fe x i s t i n gp r o b l e m sa n dp r o p o s en e wi d e a s c h 印t e r3i n 白r o d u c e sm ed e v e l o p i n e n to ft h ep r o s o d ym e o 巧a tf i r s t p h o r - e t i c s r e s e a r c hi n d i c a t e st h a tp r o s o d i ci o m l a t i o ni sc l o s e l yr e l a t e d 谢t 1 1t l l ec h a n g e so f 劬d 锄e n t a l 舶q u e n c y ,a 1 1 dt h a ti n t e r v a l so fd i 归f e r e n tl e v e l so f 诧r e db yp r o s o d i c i i o m l a t i o ns p l i tt h ec o n t i n u o u ss p e e c hi n t op r o s o d i cw o r dw 【l i c hi s l o r ec 0 1 w e i l i e m i l i a b s t r a c t t ou n d e r s t a n da n dm a c h i n ep r o c e s s i n g ,s ow et a l ( et l l ep r o s o d i cw o r da sn l eb a s i cu 1 1 i t t ob u i l dt h em u l t i s p a c ed i s t r i b u t i o nh i d d e nm a r k o vm o d e l ( l 1t o n e m s d ) t h e r e s u hs h o w sm a tllt b n e m s dc 眦、e us e t t l et h ep r o b l e mo f 丘e q u e n c yd i s c o n t i n u i t y a i l dm es e r i o u si n f l u e n c eo fc o n t e x ti nt h em o d e lb u i l d i n go fc o 埘n u o u ss p e e c h ,a n d p r 0 v e s 让l a tt h ep e 墒r m a n c eo ft l i ss u b s y s t e m i sp r o m o t e de i m e rt ot l l et o n e r e c o 叨i t i o nr a t eo rt ot l l et o n ee v a l u a t i o no fd i a l e c tp m n u n c i a t i o n c h a p t e r4p r o p o s e st h et o n em o d e l i n gb a s e do ni 1 1 f o r m a t i o no ft l l ec o m p l i c a t e d c o n t e x tb yu s eo fk i n d so fp r o s o d i ck n o w l e d g e t h ee x p e r i m e m a lr e s u l ti n d i c a t e sm a t m ep e r f o 姗a n c eo fc o m p l i c a t e dc o n t e x t d e p e n d e n tt o n em o d e l s ( c c d t m ) i sb e 批r t h a i lt h a to ft r a d i t i 伽a lt r i 巾h o n em o d e l s ( t p m ) c c d t me 腩c t i v e l yr e s p o n d st ot h e t o n ec h a j l g e si nt h ed i 行e r e n tc o m e x t ,a 1 1 dp r o v i d e s 也eb a s i sf o r 廿l e 矗m 鹏r e s e a r c ho f p r o s o d ye v a j 删i o n t h ef i m lc h a p t e rc o n c l u d e sm et h e s i s t h ep o s s i b l ei m p r 0 v e m e n t sa r ea l s o d i s c u s s e dh e r e 蛋玉e yw o r d s :m a n d a r i nc h i n e s ep r o n _ u 1 1 c i a t i o nt e s t ,t o n ee v a l u a t i o n ,t o n er e c o 萨i t i o n , p r o s o d i c 、r d ,c o n t e x t u a l ,m s d ,c c d t m ,l 1t o n e m s d i v 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:温必 瑚年芗月;d 日 缝论 。1 语音评测 第一章绪论 1 。1 1 语音评测技术的发展背景及现状 随着中国国际地位的提高和国际交流的匿盏频繁,在世界范围痰芷掀起“汉 语热”的潮流。语音俸舞语言交流的重要工具,是语言学习的基懿之一。如果发 音低于一定的水平,即使拥有足够的词汇量和禚确的语法,也无法准确完成信息 交流的过程。在汉语发音教学中,课堂教学老师是一种快速准确的反馈源,但是 这释学习存在爵阀有限、老额评判主观标准不致的缺陷。薅对于课堂教学之外 韵汉语发音教学来说,所需的反馈就只韪完全依赖于学习者自身的感知分辨能 力。随着计算机技术和语音识别技术的发展进步,出现了计算机辅助语畜学习 ( c a 毛毛,e o m p u e r 砧d e d 己a l l g u a g el e a 戚n g ) 系统,利用e a l 己系统进行发音 辅助学霹,学习者可以孽对获褥有效熬反馈,包括发音得分、发音等缓、发音蚕 谱和朗型等直观形式以及直接的指导意见,为课外的汉语发音学习提供了有力的 手段。 普通话评溅属予语言学习的研究范畴。全凿普逶话水平测试( p s e ) 是我藿 为加快共同语普及进程、提高全社会普通话水平而设置的一种语言测试制度。测 试内容全部采用口试,分为四个部分:朗读单音节字词、朗读双音节字词、朗读 短文和蠢由说话。传统的测试主要以人工测试必主,随着考生人数的逐年增多, 考试鹈发展趋势是戳计算祝为辅助手段,迸幸亍无纸讫、电子纯的嘉效率、嵩客观 性的测评。 当前的计算机辅助语言学习系统( e a l l 大多以自动谱音识别技术( a s r ) 隽基礁,以学习者发音与标准发音模型之藏雏基醒度来衡量发音质量酶优劣,研 究对象一般是第二语言学习者。典型的语言学习系统,如s 黼的v i l t 系统f l 】 以基于艏验概率的得分来代替似然度打分、以相关度来衡量系统性能的方法在同 类系统中被广泛使霜。h 鑫秘b 蹦l 等入隧建立了一个用于语言学习静数据库,重 点关注数据的牧集、划分与标注等闯题。t s u 毽o t a 、气n 墨s u 嚣等人1 3 】受l j 着重 研究曰本学习者的发音规律和易犯错误,据此提出有针对性的发音错误检测技 术。针对语言测试中的水平分级闻题,s i m o n 鞭。等人1 4 壤! 出了一种利用双阈值 进行判决三分类的方法。 绪论 1 1 ,2 语音识别技术基础 语音识鄹技本实质上是一释模式识裂静过程,英基本原理框匿如鳖l 。l 。主 要包括语音信号预处理、特征提取特征建模( 建立参考模式库) 、相似度度量和 后处理几个功能模块。 - ,j 嚣差,l 语音识别蒸本蒙理框鳖 一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都 需要首先对输入的原始语音进行预处理并进行特征描取。预处理模块对输入的原 始语音信号进行处理,滤掉其中的不重要信息以及鹜景噪声等,著进行语音信号 的端点检测,判定语音信号有效范围的开始和结束位置,然籍进行语音分帧以及 预加重等处理工作。特征提取模块负责计算语音的声学参数,并分析特征,以便 提取畿反映信号特徭的关键特征参数以降低维数并便于后续处理。语音识别系统 常用的特征参数有幅度、能量、过零率、线件颟测系数( 璩) 、l p c 倒谱系数 ( l p c c ) 、线谱对参数( l s p ) 、短时频谱、拭振峰频率、反映人耳听觉特征的 l 频率倒谱系数( m f e c ) 等。 在训练阶段,用户输入若干次训练语音,系统经过上述预处理酶特征提取磊 得到特征矢量参数( 序列) ,然精通过特征建模模块建立训练语音的参考模式库 ( 或参考模板和模型) ,或者对已在模式库中的参考模型作适应性修正。 在识别除段,将输入语音的特程矢量参数( 序捌) 和参考模式痒中的模叛进 行相似度比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。 而后处理模块则对上述得到的候选识别结果继续处理,通过更多的知识( 如语言 学的语畜模型、词法、句法和语义信息等) 的约束,褥到最终的识别结果。 蟊裁在语音识剃领域笈用最多建动态时间规整算法( 翻耀磁越e 蕊搬e w a r p i n g ,d t w ) 和隐马尔科夫模型( h i d d e nm a r k o vm o 妇l ,h m m ) 及相关 算法。d t w 采用一种最优化的算法,通过将待识别语音信号的时闻轴进行不均 匀地扭赫,使英特征与模板特征对齐,并在两誊之闯不断麴进行两个矢量距离最 小的甄配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数,d t w 2 绪论 是成功解决语音模式匹配问题最早和最常用的方法。但d t w 法的不足在于运算 量大、对语音信号的端点检测数过多,以及未熊充分利用语音信号的时序动态信 息等等。 王m m 法与d t w 法不潮的是:h m m 模式库不是预先存储好的模式样 本,而是通过反复训练,用迭代算法( b a l 】m w e l c h ) 形成一套与训练输出信号 吻合概率最大的模型参数妒勋a ,b ) 其中,冗为初始状态概率分布矢量;a 为状 态转移概率分布矩阵;b 为系统输出概率分布矩阵。这些参数均为反映训练中语 音随机过程的统计特性下的数字参数,不是模式特征参数本身。在识别过程中, 采用整体约束最佳准则t e r b i 算法,选择待识别语音序列与h m m 模型参数值 之间的似然概率中最大值所对应的状态序列绍为识别输出。因此强堰m 方法可以 看成一个数字上的双重随视过程,这种机制合理地模仿了人类语言活动的随机 性,是一种更为理想的语音识别方法。 经过综合考虑,本文采用h a 拣莲语音识别技术作为系统实现的基础进行设计 开发。 1 1 3 语音评测系统 考虑到语言学习的规律以及汉语发音的特点,学习者学习汉语发音的过程应 该遵循由易到难、从简单到复杂的过程。通常分为以下三个阶段:第一阶段主要 学习汉语的基本发音单元的发音,包括汉语中的声母和韵母;第二阶段主要学习 汉语的单字和词语的发音,包括汉语中各种不同汉字的声母和韵母组合以及汉语 的音调等;第三阶段主要学习汉语中词组和句子的发音,包括词组和句子中词与 词之间的协同发音、句子的语调、语速和韵律等方面。 语音评测系统基本框架分为四个相对独立的模块:标准模型训练模块、专家 分级模块、自动评分模块和发音诊断模块。标准模型训练模块主要负责标准语料 库的建立。汉语自动评分系统主簧是根据学习者发音的特征与标准语料麾中的发 音进行相似度的对比,并依此来计算学习者的发音评分,一般选取汉语发音非常 标准的人的语音材料进行训练,以保证模型的标准性。专家分级模块提供专家对 学习者发音的等级划分。由于自动评分系统直接给出的发音评分可能院较晦涩, 不能很好地反映出学习者实际的发音水平,所以利用汉语发音的专家针对非标准 语料库巾的发音给出一个分级的标准,然后结合系统给出的发音评分,直观清楚 地显示高学习者的发音水平。童动评分模块负责将学习者的发音与标准语料疼中 的发音进行对比,依照某种相似度算法给出发音的量化评价指标。这是整个系统 中最重要的部分。自动评分模块将学习者的发音采集后,经过预处理和特征抽取, 根据标准语料库中训练好的单元模型,采取强制对齐把语音分割成计算发音质量 测度所需要的小单元( 根据汉语发音的特点,小单元一般为音素) 。然后采用一 定的相似度测量算法得出对学习者发音的评分。发音诊断模块负责结合专家知识 3 绪论 库以及采集的学习者发音的特征,大致地给出学习者的发音错误以及相应的纠正 建议。这个模块对于学习者纠正自己的发音有很大的帮助,可以给学习者最直接 的建议,但是由于涉及到很多相关的专业知识,具体工作将留在系统改进完善阶 段开展。 汉语发音评分系统主要由三个模块组成。分别是预处理模块、评测模块和映 射模块。具体流程如图1 2 所示。 一、 陲三三乡 j 模型库l 图1 2 系统流程图 图1 2 中预处理模块完成数据预处理,生成特征参数和文本标注信息。评测 模块完成机器评测,生成机器打分。映射模块完成各种机器打分和人工第四项打 分进行映射得到最终的评测打分。评测模块的输出有各种机器打分,也就是改进 的后验概率得分,这些打分就是映射模块的输入。 1 2 声调评测 声调是汉语音节的三要素之一,人们不仅凭借不同的声母、韵母来辨别字和 词的意义,还需要以不同的声调来区别它们。将音节和声调分开考虑,汉语的 13 0 0 多个带调音节可减少到4 0 0 多个无调音节,对于简化语音识别模型和搜索 的空间很有益处。 普通话声调还是区别方言与普通话的重要特征,声调发音的好坏在某种程度 上决定了一个人普通话水平的发音面貌和基本水平。在普通话水平测试系统中, 声调的客观评测试是一个非常重要的子系统。 多年来,许多研究者在声调识别方面进行了大量的研究分析,从研究方法上 可以分为两种:基于规则的知识驱动和基于统计的数据驱动。前者主要是通过手 工分析以及定性观察来获得声调的定性描述,而后者主要是通过从训练语料中统 4 绪论 计出声调模式的变化规律,然后对其进行定量描述。由于声调变化的复杂性,只 有数据驱动和知识驱动结合起来才能够对声调模式进行较为准确的描述。 调型识别是调型评测的基础。针对标准语音,假设调型识别系统能达到相当 高的调型识别率,则建立在调型识别技术基础上的调型评测系统就能可靠的评判 声调发音质量,较为准确地分辨出正确和错误的声调。对于孤立字来说,这一点 比较容易实现,但对于连续语流,调型识别由于字调受上下文的影响,存在不可 忽视的连续性,变调现象普遍存在且具有多样性,从而导致自然语流的调型识别 性能常常不佳,进而影响调型评测系统的实际性能。 声调评测经典方法 第二章声调评测经典方法 2 1 声调特征和声调提取 声调是基频随时间的变化模式,一般用基音曲线表示,因此声调信息可通过 基音检测获取。语音的能量和浊化程度也能反映声调的不同,但是在连续语音尤 其是自然口语中,它们的作用就不是很明显。声调主要由语音中的基频( f o ) 轮廓 决定。基音周期由声带逐渐开启到面积最大( 约占基音周期的5 0 ) 、逐渐关闭 到完全闭合( 约占基音周期的3 5 ) 、完全闭合( 约占基音周期的1 5 ) 三部分 组成,基音周期具有时变性和准周期性,它的大小与个人声带的长短、厚薄、韧 性和发音习惯有关,还与发音者的性别、年龄、发音时的力度及情感有关,是语 音信号处理中的一个重要参数。基音周期的估计称为基音捡测( p i t c hd e t e c t i o n ) , 它在有调语音的辨意、低速率语音编码、说话人识别等方面起非常关键的作用, 基音检测的最终目标是找出和声带振动频率完全一致的基音周期变化轨迹曲线, 如不可能则找出尽量相吻合的轨迹曲线。 随着语音处理技术及相关学科的发展,人们已经在理论上找到很多比较有效 的基音检测方法,但在实现过程中,由于受声带激励波形不是一个完全的周期脉 冲串,丰富的谐波成分、声道的影响很难去除,基音周期的定位困难,背景噪声 的强烈影响,基音周期的变化范围较大,个人的发音习惯及性别、年龄、发音时 的力度及情感对基音周期的定量影响不能准确确定等一系列因素影响,从而使这 些方法在使用中,其健壮性、准确性都大打折扣。可以说,至今没有一种万能的 方法在任何情况下都能准确可靠地估计出基音周期。 现有的基音检测方法可分为基于事件检测和非基于事件两种【5 h 1 刀,这里事件 指声门闭合。 基于事件的检测方法是通过定位声门闭合时到刻( g c i ) 来估计基音周期, 这方面已经有了很多具体的方法。其中基于小波变换的方法,因其较强的检测信 号奇异性的能力,近年来倍受关注。其基本原理为:小波变换的幅值极大点对应 信号的突变点,且小波变换时信号的不连续性在不同分辨率层有传递性,发声( 浊 音) 时,由于声带振动声门不停的张开闭合,在声门闭合的瞬间,声道受到较强 的激励,在语音信号中引起一个锐变,因此可用小波变换检测这一锐变,而相邻 两次锐变的间隔即为基音周期。 非事件检测方法也有很多,如自相关法、倒谱法、并行处理法、简化逆滤波 6 声调评测经典方法 器法和平均幅差函数法等,广泛使用的是自相关法和倒谱法。自相关法利用了语 音信号的准周期性,浊音信号是准周期的,其自相关函数在基音周期的整数倍上 将出现峰值,而清音信号的自相关函数无明显的峰值,因此检测语音信号的自相 关函数峰值位置,即可提取基音周期。为减小声道响应的影响和计算量,通常采 用三电平中心削波技术对语音信号进行预处理。倒谱法是一种频域方法,将语音 信号变换到频域或倒谱域估计基音周期,依据是周期信号的倒谱表现出与原信号 同样的周期性。并行处理法是一种时域方法,语音信号经预处理后,形成一系列 保留原信号周期性的脉冲,再由一些并行的检测器估计基音周期,最后由这些估 值作逻辑组合得到基音。简化逆滤波器法( s i f t ) 先抽取声道参数,利用这些参 数对原始信号进行逆滤波。从预测误差得到音源序列,再用自相关法求取基音。 周期平均幅差函数法( a m d f ) 检测基音的依据为:语音的浊音具有准周期性: 完全周期的信号在相距为周期倍数的幅值点上的幅值是相等的,差值为零。由连 续语音的特点,为能在实际语音识别中利用声调信息,基音检测算法的鲁棒性、 精度和速度非常重要。在非事件检测方法中大都需要加窗处理,且窗长至少需要 两个基音周期,小波变换法是基于事件的检测方法。检测声门闭合时刻,语音段 长对其影响不大;小波变换法能较准确地检侧出基音周期,而最著名的自相关法 和倒谱法则不尽准确。它们给出的是每段内的平均基音周期,对段长上的基音周 期非稳态变化不敏感,因此不适合高音和低音的话者;从对噪声的鲁棒性来说, 随着信噪比的降低,小波变换检测的基音周期准确性无太大变化,而自相关法和 倒谱法则比较敏感;计算复杂性上,小波变换法比自相关法大,比倒谱法低。由 以上分析可知,小波变换法优于自相关法和倒谱法,更适合在连续语音中应用, 但其亦有一些问题未解决,近年来已有将小披变换和自相关法结台的研究报道, 如文献【1 3 j 将小波变换的结果作为被处理信号,再用自相关法计算基音周期,文 献l j4 j 在基音周期不准确点采用两种方法相比较。取两者间的合适值。在基音检 测过程中绝大多数错误发生在半频、倍频,甚至三倍频处,文献【1 5 】提出了多侯 选评价最佳基音周期的解决方法为提高算法的鲁棒性,文献【1 6 】提出利用谐波与基 频的关系来提取基音。 无论采用哪一种基音检测算法都可能产生基音检测的错误,使求得的基音周 期轨迹中一个或几个基音周期的估计值偏离了正常的轨迹( 通常是偏离到正常值 的两倍或1 2 ,对应的基频称为倍频和半频) ,此时为了修整这些估计错误,可以 采用各种平滑算法: 1 ) 中值平滑处理 中值平滑处理的基本原理是:设x ( n ) 为出入信号,y ( n ) 为中值滤波器的输出, 采用一个滑动窗,则以o n 出的输出值y ( n ) o 就是将窗外的中心移到o n 处时窗口 7 声调评测经典方法 输入样点的中值。及o n 点的左右各取l 个样点。连同被平滑点中心共同构成一 组信号采样点( 共2 l + 1 个样值) ,然后将这2 l + 1 个样点按大小序列排成一排, 此序列中中间者作为平滑器的输出。l 值一般为1 或2 ,即中值平滑起的“窗口” 一般套住3 个或5 个样点。中值平滑的优点是既可以有效地除去少量的野点,又 不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。 2 ) 线性平滑处理 “七”的声调图( 平滑处理前) 图2 1 基音曲线平滑的效果 线性平滑使用滑动窗进行线性滤波处理,即: 上 y ( 刀) = x ( 刀一所) w ( 聆) 肌掌一l ( 2 1 ) 其中 w ( m ) ,一l ,一l + 1 ,o ,1 ,2 ,l ) ,l 为2 l + 1 点平滑窗。 例如三点窗的权值可以取 o 2 5 ,o 5 ,0 2 5 ) 。线性平滑在纠正输入信号中部平滑 处样点值的同时,也使附近各点的值作了修改。所以窗的长度加大虽然可以增加 平滑的效果,但是也可以导致两个平滑段之间的阶跃模糊程度加重。 2 2 声调建模 汉语是一种声调语言,在汉语中,声调具有语音区分的功能,因此准确的声 调建模对于语音识别和语音评测具有重要的作用。然而声调本身的性质给建模带 来困难: 首先,声调的信息主要反映在浊音部分的基频曲线上( 对汉语音节来说主要 反映在音节的韵母部分和部分声母上) ,因此特征( 基频f o ) 存在在音节之间、 相邻的清音与浊音之间不连续性,连续的h m m 就无法直接用在声调建模上。 8 声调评测经典方法 l 一 | 吝囊主三 f l 一 , _ 4 一。一 图2 3 连续语音中的l 、2 、4 调的基频曲线 根据图2 3 【2 2 j 可发现,连续语音的声调曲线和孤立字词( 对应的图2 2 的题 目应体现孤立字) 中的声调曲线差距较大。连续语音中l 、2 、4 调基本都可以分 成不同特征的三段,c 1 、c 2 、c 3 分别对应于起始段、核心调型段和结束段,3 调由于调型变化非常复杂,因此没有在图中展示。h m m 通常用于声调建模,通 常选择基频及其一次二次差分作为特征变量。 基频曲线中不属于核心调型段的上升下降部分很可能给基于h m m 的调型识 9 声调评测经典方法 别带来困难。比如:1 调的起始段有部分上升曲线,因此可能会误判为2 调:2 调起始段中出现的下降部分会导致整个曲线出现一个波谷的形状,而3 调也有相 似的特征;4 调的结束段出现上升趋势的部分曲线会导致与3 调混淆。因此, 如果可以从原始的基频曲线中提取出准确的核心调型段,起始段和结束段所带来 的混淆就可以在调型识别中得到有效的避免。 因此,基于基频核心段的建模和识别是一个重要的方法。而基于基频核心段 建模的方法中最重要环节的是如何得到精确的核心调型段。 核心段提取一般包含两个过程:( 1 ) f 0 轮廓分割基于f o 曲线特征。( 2 ) f o 核 心段确定基于知识规则。这个程序可以应用在1 、2 、4 调上,但是由于3 调与内 容相关的复杂性变化,无法适用。基于3 段结构的假定,一个音节f 0 轮廓应该 可以用不同的动态方向包含提高、下降、或者水平顶多3 部分表示,即一个音节 f o 轮廓可能用3 条或更少的倾斜线的级联来表示。在图2 3 中f o 轮廓的分割为 2 调和4 调的不难,因为有清晰的峰值或者谷值点在提高( 或者下降) 和下降( 或 者提高) 的部分之间。但是很难推广至l 调,因为1 调中变化缓慢并且不存在峰 值或者谷值点。而且,f o 轮廓是有波动的类似连续的曲线,可能存在的局部的 峰值和谷值点。因此,音节f o 轮廓的坚固的分割方法是必要的。因为聚类可以 描述每部分,部分的聚类算法是分割一个音节f 0 轮廓的好选择。用f o l 、 f 0 2 、f o n 表示一个音节的基频轮廓的帧点,第i 个点f o i 的两维特征值为 ( f o i ,f o i ) ,f o i 是基频值,内i _ f o i f o j 1 是基频差分值。这个算法是根据最小距 离准则将一个音节f o 轮廓的全部帧点聚类成为3 个顺序的部分群。每部分群包 含m i 顺序帧点,可以用标准分布描述( 鸬,) ,i = 1 ,2 ,3 。下面的马氏距离用来测 量在帧点f o i 和部分群c i 点之间的距离。 如( f o ,( h ,伪= ( f o j 一鸬) ,1 ( f o 一鸬) ,) 们 、, 其中i = 1 ,2 ,3 ;j = 1 ,2 ,n 由上述聚类分割方法获得的3 部分再根据分析决定是否是调型核心段。一般 根据下列方法进行分析: 第1 步( 部分合并) :结合相似的动态的特征( 提高、下降、或者水平) 的 相邻的部分。 第2 步( 响度规则) :能量特征用来估计每部分的可能的响度。音调核心的 能量应该满足响度要求。 第3 步( 持续规则) :音调核心段的持续时间应该比5 0m s 长1 1 8 】 第4 步( 位置规则) :音调核心应该在一个音节f o 轮廓的后面部分【l 引 第5 步:基于统计分类分析的其他规章。 第6 步( 平滑) :如果其他两部分存在与核心段特征相似的帧点,将检测出 1 0 声调评测经典方法 的核心段区域扩展至相应的部分。 结论:基于基频核心段的方法,严格的删减每个音节基频段的首尾部分( 包 括轻声段、噪声段和部分发生变调的基频段) ,再对核心段两端作延伸补偿,重 新生成相对稳定的孤立调型的基频曲线形状,其目的在于去除连续语流中字调之 间互相影响最为严重的部分。这种方法的缺点在于核心段的界定在很多情况下比 较困难,核心段的完整性、延伸补偿部分的合理性等都尚未找到公认有效的方法。 2 2 2 基于上下文信息的调型建模 在自然语音中,不同语音的发音会相互影响而存在着协同发音效应。协同发 音是指不同语音音段相联系的发音态势,同时也就是它的声学效应的相互交叠。 在语音识别中,传统的三音子模型( t r i - p h o n e ) 考虑了上下文的影响,将自身与 前后的发音连接起来建立模型,能有效解决协同发音的问题。 在t r i p h o n e 模型的基础上提出了声调上下文相关的调型模型。通常采用的处 理方法是对f o 不连续区域进行插值,在t r i p h o n e 模型的基础上提出了声调上下 文相关的调型模型。通常采用的处理方法是对f o 不连续区域进行插值,但插值 产生的f 0 对识别声调没有贡献,甚至可能带来建模误差。因此需要更加合理的 基频估计。 直接提取的基音频率常常存在两个问题:倍频、半频误差和无声帧、清音帧 的处理。倍频、半频误差是由共振峰计算中参数的设定等多种因素造成的;无声 帧、清音帧不存在基音频率,但是在语音识别系统中,无声帧、清音帧的基音频 率又不能简单的置零【2 0 1 。人的发声器官的生理特性决定基音频率不应发生突变, 所以基音频率的轨迹应具有平滑的特性【2 l j ,因此可以利用最优化算法得到全局 最优的基音频率轨迹,减少倍频和半频误差,同时对无声帧、清音帧给出相对较 为合理的基音频率估计。这里所采用的全局优化目标函数为: 人人三a s ( 厂( 1 ) ,厂( 2 ) ,厂( 丁) ) = c ( 厂) ,f ) 幸口 川 ( 2 3 ) 其中c ( 厂,( f ) ,) 是频率置信度,口称为平滑因子,口的作用是在目标函数中考 虑了基音频率轨迹平滑的特性,确保最优轨迹的平滑【2 。a 的计算如下: 口= ( 1 1 1 i n ( z ( f ) ,z ( f 1 ) ) ) ( m a x ( z ( f ) ,z ( ,一1 ) ) ) ,小 - o , 上述最优化问题可利用动态规划的算法求解。实现过程如下:对每一帧信号 给出多个基音候选,作为状态,并计算相应的状态所对应的距离c ( 厂,( f ) ,) 宰口, 利用d p 搜索算法搜索出最优的基音频率帧轨迹。如图2 4 所示【5 副。 声调评测经典方法 l7 1 87 一, ,i l5 2 严 i i 檀音漩 f 口 浊音杖 也( ,1 ) 、 i ( h 厶组3 【 t l 聿i ! 血誊 j - 章浊音 图2 4d p 算法搜索图 。一i j - t - l 鼍# 浊誊 汝童帧浊音疆 横轴表示时间段t - l t n + l 内的所有语音帧,纵轴表示频率。在频率轴采样,得 到图中所示的f l ,l 等采样点。 这里只计算采样频率点的置信度。在搜索算法的设计中,采取了以下特殊的 处理:在确定基音候选时,采用局部极值点。这样基音候选分布在整个频率区间 内,保证基音频率的真值f ( t ) 尽可能被包含在基音频率候选之中;在d p 算法前 向搜索时,限制了路径的宽度。只允许在相邻区间内发生路径转移,从而消除基 音频率的突变。实验表明,采用全局优化的方法,有效地减少了浊音段倍频,半 频的误差,又使无声段和清音段的基音轨迹得到了很好的平滑。 文献【2 3 】提出了s u p r a t o n e 模型并用于语音识别,它将相邻的两个音节看作一 个整体,建立d i t o n e 模型,然后在用t r i p h o n e 模型识别生成网格( 1 a t t i c e ) 的基础 上,对声调进行重新打分( r e s c o r e ) ,选出得分最高的路径作为识别结果输出。这 种方法在普通话的声调识别中,有效地将错误率降低了1 2 。在d i t o n e 模型中, 只考虑了前一音节对当前音节声调的影响。实际上,还有很多其它因素会影响声 调的形态。例如,前后音节的声调、音节在词和短语中的位置、音节是否重读以 及重读的程度等。 2 3 声调评测算法 近年来汉语的语音识别技术已经得到了飞速的发展,对于汉语发音学习来 说,语音识别技术可以作为实现发音反馈的一个关键技术。但是大多数标准的语 音识别算法都不是专门用来评定发音质量的,所以需要专门的算法。目前衡量发 1 2 i上t,斗,itt_+-六f 声调评测经典方法 音质量的算法中比较通用的有m 心压对数似然度打分、段分类打分、段时长打分、 对数后验概率打分等。 所有这些打分算法都是以标准发音为参考模板,通过进行各种有效的相似性 计算来获得。而对系统自动打分有两个基本的要求:( 1 ) 较高的可靠性和与专家 打分的一致性;( 2 ) 只反映学习者进行汉语发音的能力,不追求与标准发音个体 之间的最佳相似性。 2 3 1 系统性能评价一相关度 本文评测系统的性能用系统打分与人工打分的相关度来评价。 设对于n 个测试者的两组打分分别为:a l ,a 2 ,a 1 0 0 ;b l ,b 2 ,b l o o 。它 们之间的相关度c o 毗b 定义如下: j 。专善4否2 专善骂 卫 一一 ( 4 一彳) ( e 一功 c d 。口。1 乒兰币f 一 善( 4 彳) 2 善( 忍前 ( 2 5 1 多名评委之间的相关度是他们两两之间相关度的平均值,机器和多名评委打 分之间的相关度为机器和每名评委之间相关度的平均值。理论上,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论