(信号与信息处理专业论文)连续汉语普通话声调错误检测.pdf_第1页
(信号与信息处理专业论文)连续汉语普通话声调错误检测.pdf_第2页
(信号与信息处理专业论文)连续汉语普通话声调错误检测.pdf_第3页
(信号与信息处理专业论文)连续汉语普通话声调错误检测.pdf_第4页
(信号与信息处理专业论文)连续汉语普通话声调错误检测.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:目前,在计算机辅助语言学习( c a l l ) 方面的研究已经取得了不少的 成绩,其中,发音评估起到了非常重要的作用。然而,在汉语普通话发音的评估 方面的研究还还相知甚少,而且他们大多数都基于边界打分的( s e g m e n t a lg o o d n e s s ) 的基础上的。由于汉语是声调语言,在现实的交流中发音正确非常重要,所以在 汉语的c a l l 系统正确检测声调的错误是当务之急。在本论文中,我们提出了能 够描述声调变化的基于上下文的声调模型( c o n t e x td e p e n d e n tt o n em o d e l c d t m ) 模型,并通过计算最佳期望c d t m 模型和最接近实际发音的c d t m 模型( 由实际 发音通过c d t m 识别得到的语音) 进行比较来检测发音错误。 在已有研究工作中,张丽等使用了对数后验概率( 1 0 9 - p o s t e r i o rp r o b a b i l i t y ) 来评 估声调发音的正确性。在孤立词的语料库上,他们在允许4 的错误接受率的基础 上获得了9 0 的j 下确率。s iw e l 使用了相同的方法,但是他们的基频通过 c d f - m a t c h i n g 的f o 作为特征值来检测声调的错误。他们的自动语音识别系统与 专家们的相关系数达到了0 7 9 。但是这些工作都是使用三音子的隐马尔科夫 ( h i d d e nm a r k o vm o d e l s h m m ) 在孤立词的识别上取得的成绩。 在本论文,我们致力研究连续汉语普通话的声调错误的检错,并提出了使用 基于上下文的隐马尔科夫模型来进行声调建模。对于连续语音,我们建立两个 c d t m 序列,一个从相应的阅读文本中获得,我们称为最佳期望发音的c d t m 序 列,另一个序列,通过实践发音在c d t m 识别得到,我们称为最接近实际发音的 c d t m 序列,我们比较这两个序列中相应的模型之间的相对熵( k u t l b a c k - l e i b l e r d i v z r g e n c e - k l d ) 来检测声调发音的好坏 在评估阶段,发音的好坏是通过期望模型序列和最接近实际发音模型序列的 相应模型之间的k l d 来评估的,我们通过r o c 曲线事先设定一个阀值,当两个 模型之间的k l d 值大于实现设定的阈值,我们认为其发音有错,在r o c 曲线上, 我们获得相等的错误率为2 6 关键词;基于上下文声调模型;相对熵l 声调识别;声调错误检测 分类号 t n 9 1 2 3 4 a b s t r a c t a b s t r a c t :i nr e c e n ty e a r s m u c hp r o g r e s sh a sb e e nm a d ei nt h ea 腻o f c o m p u t e r - a s s i s t e dl a n g u a g el e a r n i n g ( c a l l ) s y s t e m , i nw h i c hp r o n u n c i a t i o ne v a l u a t i o n p l a y sa ni m p o r t a n tr o l e y e t , o n l yaf e ww o r k sh a v eb e e nd o n ei ne v a l u a t i n gm a n d a r i n p r o n u n c i a t i o na n dm o s to ft h e ma r eo ns e g m e n t a lg o o d n e s s s i n c em a n d a r i ni sat o n a l l a n g u a g e , i ti sv e r yi m p o r t a n tt op r o n o u n c et o n ep r e c i s e l yi nl i v ec o m m u n i c a t i o n , a n d t h e r e f o r e , d e t e c t i n gt o n ee r r o r si sc r u c i a lf o ram a n d a r i nc a l ls y s t e m i nt h i sp a p e r , w ep r o p o s e dt od e t e c tt o n a le r r o r sb ym e a s u r i n gt h ek u l l b a c k - l c i b l e rd i v e r g e n c e ( k l d ) b e t w e e nt h ee x p e c t e dt o n em o d e la n dt h em o s tr e p r e s e n t a t i v et o n em o d e l ( t h et o n e m o d e lt h a tm a t c h e dr e a ls p e e c ht h em o s t ) a n dw ep r o p o s e dt om o d e lt o n ev a r i a t i o n sb y c o n t e x t - d e p e n d e n tt o n em o d e l ( c d t m ) i nap r e v i o u sw o r k , z h a n ge la 1 u s e dl o g - p o s t e r i o rp r o b a b i l i t ya sam e a s u r eo f g o o d n e s so f t o n ep r o n u n c i a t i o n i nam o n o s y i l a h i cc o r p u s t h e yg o ta b o u t9 0 a c c u r a c y a l l o w i n g4 f a l s ea c c e p t a n c er a t e s s iw 研u s e das i m i l a ra p p r o a c hb u tw i t l lf oa f t e r c d f - m a t c h i n gn o r m a l i z a t i o na st h ef e a t u r et od e t e c tt o n ee r r o r s t h ec r o s s c o r r e l a t i o n b e t w e e nh u m a ne x p e r t sa n da u t o m a t i ct o n ee r r o rd e t e c t i o ns y s t e mi sc l o s et oo 7 9 b o t h w o r k sm o d e l e dt o n e sw i t ht r i p h o n eh i d d e nm a r k o vm o d e l s ( h m m ) a n da c h i e v e d p r o m i s i n gr e s u l t so ni s o l a t e ds y l l a b l e s i nt h i sp a p e r , w ef o c u so nt o n ee n o rd e t e c t i o ni nc o n t i n u o u ss p e e c ha n dp r o p o s et o m o d e lt o n ev a r i a t i o n sw i t hc o n t e x t - d e p e n d e n th m m 3 f o rac o n t i n u o u ss p e e c h s e g n e n t , as e q u e n c e , o fe x p e c t e dc d t m s i sd e r i v e df r o mt h ec o r r e s p o n d i n gs c r i p ta n d 矗s e q u e n c eo f m o s tr e p r e s e n t a t i v ec d t m s i sg e n e r a t e db ym o d e ls e l e c t i o na g a i n s tt h e 印也w ep r o p o s et om c a s t r et h eg o o d n e s so ft o n ep r o n u n c i a t i o nb yt h el ( i d b e t w e e nt h ee x l 喇t g ;:t o dm o d e la n dr e p r e s e n t a t i v em o d e l i nt h ee v a l u a t i o np h a s e , t h eg o o d l l e 豁o ft o n ep r o n u n c i a t i o ni sm e a s u r e db y k u l l b a c k - l e i b l e rd i v e r g e n c e ( k l d ) b e t w e e nt h ee x p c e t c dt o r em o d e la n dt h em o s t 抛弘嚣a 吐瞳t o n em o d e l w h e nt h ek l db e t w e e nt h et w om o d e l si ll a r g e rt h a n e n e s h o t d , t h et o n ei sd e t e c t e da sap r o n u n c i a t i o nc n d l r o i nt h er o cc u r v e , 眦g e tt h e e q u a le f f o rr a t e 砒2 6 k e y w o r d s :c o n t e x td e p e n d e dt o n em o d e l ( c 咖;k u l l b a c k - i _ * i b l e rd i v e r g e n c e ( k l d b t o n er e c o g n i t i o n ;t o n ee r r o rd 酿茂蚵嘶 c l a s s n o l1 1 姻1 2 3 4 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文储躲形拯够聊签锯痧芳 掷期:a 刁毗月矽日 猢期俐7 年蝴似日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:钐殇埏签字日期: 年,朋日 致谢 本论文的工作是我在微软亚洲研究院语音组实习期问完成的,在这肇我要特 别感谢我在微软的导师初敏研究员和学校的导师梁满贵教授。 我要由衷地感谢我的导师梁满贵教授,在两年半的学习生涯中,梁老师渊博 的知识、敏锐的洞察力、严谨的治学态度、旺盛的工作热情和对学生认真负责 的培养方式对给我留下了极为深刻的印象,也将是我以后学习的榜样! 我真心的感谢我在微软的导师初敏研究院,在这一年罩实习中,是初老师一 步步带我踏入研究的圣堂,教会了我怎么做研究,初敏老师严谨的治学态度和科 学的研究方法,高深的学术造诣,给了我极大的指导和影响,对我一生有益! 同时还要感谢的是曾经在科研中给过我帮助和关心的微软语音组主任研 究员宋歌平教授,宋老师高深的学术造诣影响这个研究组乃至整个语音界,他 对我们实习生的无微不至关心和细致耐心的指导,使我们受益匪浅,特别感谢 微软语音识别组的黄超研究员,黄老师给了很多细心的指导和鼓励。黄超老师 对工作的认真态度,对学生的耐心指导给我留下了深刻的印象。 感谢微软语音合成组的王丽娟,钱瑶,陈一宁,赵勇,刘鹏,他们的很多 建设性的意见给我带来了很多的灵感,他们的无私帮助使我的研究工作能得以 顺利开展。 感谢语音组的实习,上胡涛、初伟、张峰、张会、王永强、尤佳丽、高博阳、 梁辉、钱晓军、张光成、王超、郑静、呼月宁同学,和他们在学术上的讨论不 断拓宽着我的视野,拓展着我的思路,感谢实验室的陈字造、岑护平、吴军、 武可新同学和寝室的敖锦蓉和杨曼,和他们两年半的朝夕相处使我受益匪浅, 感谢他们让我在快乐中度过了难忘的两年半时光。 最后特别感谢父母和亲人对我多年来无微不至的关怀和支持,他们尽他们 的能力让我接受了最好的教育,父母的爱将是我永远的能量源泉l 张琰彬 2 0 0 7 年1 2 月 1 引言 1 1研究的背景 1 1 1计算机辅助语言学习的发展现状 计算机辅助语言教学( c o m p u t e r - a s s i s t e dl a n g u a g el e a r n i n g ) 是计算机辅助教 学( c o m p u t 髓- a s m s t e di n s t r u c t i o n ) 的一部分。它指使用计算机软件系统来辅助语 言学习【”。 计算机辅助教学的研究是5 0 年代末开始的。1 9 5 8 年,美国m m ( i n t g a n a t i o n a l b u s i n e s sm a c h i n e s ) 公司的沃克斯顿研究中心研制了一个计算机辅助教学系统,利 用一台i b m 6 5 0 计算机向小学生传授二进制算术,并能根据学生的要求产生练习 题,这是计算机在教学中首次得以成功的应用。1 9 6 0 年美国伊利诺斯( i l l i n o i s ) 大学开始研制p l a t o ( p r o g r a m m e dl o g i co f a u t o m a t i ct e a c h i n go p e r a t i o n ) 自动教 学系统,由于当时技术条件限制,效果并不理想,但显示出良好的前景。计算机 辅助语言教学( c a l l ) 到2 0 世纪8 0 9 0 年代计算机、多媒体、网络技术同益成 熟,计算机辅助语言教学才得以向纵深方向发展。特别是进入2 1 世纪之后,网络 技术发展和宽带网的建立,为以网络为中心的计算机辅助语占教学提供了更加广 阔的天地l ”。 对于计算机辅助语言教学,m a r km a r s c h a u e r 博士也把它分为三个阶段【2 | 【3 | h i : “c o m p u t e r sh a v eb e e nu s e df o rl a n g u a g et e a c h i n gs i n c et h e1 9 6 0 s 1 1 l i s3 0 - y e m h i s t o r yc mb e q 础yd i v i d e di n t ot h r e em a i n 幽i g e slb e h a v i o r i s t i cc a l l , c o m m u n i c a t i v ec a l la n di n t e g r a t i v ec a l l e a c hs t a g ec o r r e s p o n d st oac e r t a i nl e v d o f t h n o l o g ya sw e l la sac e r t a i np e d a g o g i c a la p p r o a c h 这三个阶段和计算机辅助教 育理论发展的三个阶段是一致的 第一阶段是b e h a v i o r i s t i cc a l l 2 1 1 3 1 4 l ,这一时期的教学软件主要是句型和操 练,计算机成为向学生呈现材料的工具但是到了7 0 年代末和8 0 年代初, b e h a v i o r i s t i cc a l l 逐渐失去其统治地位,一个原因是行为主义学习理论在理论上 和教学方法上都受到认知主义学习理论的挑战。另一个原因是微型计算机的发展 为计算机在各教学领域的应用提供了可能。 第二阶段是c o m m u n i c a t i v ec u “2 3 m ,这一时期的c a l l 是基于交际法的 交际法认为前一时期的c a l l 重视句型操练。忽视了真实交际的价值,j o h n u n d e r w o o d 是交际法的支持者,他在1 9 8 4 年提出了一系列的“p r e m i s e sf o r c o m m u n i c a t i v e c a l l ”。这一时期的c a l l 和前一时期有了很大的变化,主要 就是c o m p u t e ra st u t o r 模式、c o m p u t e r 够s t i m u l u s 模式和c o m p u t e r a st o o l 模式。用 c o m p u t e ra st u t o r 开发的软件通常都是速度阅读( p a c er e a d i n g ) ,材料重组( t e x t r e c o n s t r u c t i o n ) ,模仿( s i m u l a t i o n ) 和语言游戏( 1 a n g u a g e g a m e s ) 。用c o m p u t e r 嬲 s t i m u l u s 模式开发课件的主要目的是鼓励学生讨论、写作和批判思考( c r i t i c a l t h i n k i n g ) 。c o m p u t e r 勰t o o l 模式本身并不一定非要提供语言材料,而是使学习者能 够使用和理解语言,这些程序包括文字处理( w o r dp r o c e s s o r s ) ,拼写和语法检查 ( s p e l l i n ga n d g r a m m a r c h e c k e r s ) 和桌面出版系统( d e s k - t o p p u b l i s h i n g p r o g r a m s ) 等。 第三阶段是i n t e g r a t i v ec a l l ,这一时期的c a l l 基于两项重要技术的发展, 那就是多媒体计算机和因特网。多媒体技术使文本、图像、声音、动画、视频等 能够很好地在计算机屏幕上显示出来,而超媒体( h y p e r m e d i a ) 使得多媒体的功能 更加强大,它能把各种媒体有机地结合起来,使学习者轻轻点一下鼠标就可以导 航到他要去地方。超媒体对语言学习具有下列优点:第一,因为视频体现的和真 实世界一样,所以就提供了更加真实的语言环境;第二,各种技能可以综合训练, 因为各种媒体可以把听、说、读、写结合到一个单一的活动中;第三,学生可以 控制自己的学习进程;第四,它可以使学生把注意力集中在语言内容上,而不是 语言形式或学习策略上。尽管超媒体技术有上述许多优点,可它还是不能满足真 实交流的需要,电子通讯( e l c c t r o n i cc o m m u n i c a t i o n ) 和因特网( i n t e m e t ) 的发展 正好满足了这一需要,为c a l l 提供了技术基础。 计算机媒体交流( c o m p u t e r - m e d i a t e dc o m m u n i c a t i o n ) 最早出现在2 0 世纪6 0 年代,不过只是在最近5 年才迅速发展起来的,而且对计算机辅助语言教学产生 了前所未有的影响语言学习者能够随时随地、直接经济有效地在全天2 4 小时内 都能和其他语言学习者或使用目的语( t a r g e tl a n g u a g e ) 的人交流。这种交流可以 是异步的( a s y n c h r o n o u s ) ,像使用电子邮件( e - m a i l ) 、论坛( n e w s l e t t e r ) 等,它 允许参与者用自定的时间和速度来完成需要交流的信息。也可以是同步的 ( s y n c h r o n o u s ) ,也称作“实时”( r e a l t i m e ) ,像聊天室( d u m - o o m ) 等,它能让全 世界的人通过键盘进行实时交流,语音聊天室还能进行实时语音交流它不仅提 供一对一的交流,还提供一对多的交流 计算机媒体交流不仅使用户分享简单的消息而且可以分享大量的文档。使用 万维网( w o r l d w i d e w e b ) 的搜索引擎,学习者可以在几分钟内找到大量的自己感 兴趣的真实语言材料,他们还可以使用网络发布的自己的网页或其他多媒体材料 给他人共享 2 当前对计算机辅助语言学习的研究机构主要有s r i 语音组7 】,他们主要关注 与评估发音者的整体发音水平,他们使用词的后验概率,时间和持续打分作为评 测和评估方法,通过机器打分和人工打分的相关性,来评估他们系统地有效性。 由m r r 的a l l a h 和剑桥大学语音组合作的研究组,主要致力于研究发音问题 的检测和音子级别的发音评估。他们同样提出了很多犯法来计算计算错误检测的 有效性。 n i j m e g e n 大学提出的v i c k 系统研究了人工打分的合理性和韵律结构,人工 打分中的流畅性和词的切割的影响。 t o k y o 大葱学和k y o t o 大学主要研究的是在语言学习过程中不同音素的重要 性以及发音评估错误中的各种错误。 1 1 2汉语声调模型和声调检错发展现状 中文是声调语言,普通话分为阴平,阳平,上声,去声四个声调,此外还有 轻声。声调携带着重要的信息,相同的音节带上不同的声调所代表的含义就会不 同,在计算机辅助语言学( c a l l - c o m p u t e r a s s i s t e dl a n g u a g el e a r n i n g ) 以及当l ;i 的普通话水平测试( p s c - p u t o n g h u a s h u i p i n g c e s h i ) 中,准确的检测出声调的发音错 误是非常重要的环节。基频( f o ) 特性通常被认为是声调最荸要的声学载体,除此 之外,声调的实现还町能与声波的能量,振幅以及音节的持续时问( d u r a t i o n ) 等 有关。 声调在汉语辨意中起着非常重要的作用,因此精确的声调建模也是汉语语音 合成、语音识别和语音分析的关键。虽然,普通话四个声调的典型调值可以用5 5 、 3 5 ,2 1 4 和5 l 来描述,四个声调的调型在连续语流中的形态却是随上下文的变化 而变化的。在语音识别中,传统的三音予模型( t r i - p h o n em o d e l ) 主要考虑到前后音 素对当前音素和声调( 对于韵母的模型而言) 的影响在此基础上,有很多以提高声 调识别率为目标的改进工作。在文献r 7 】中,作者提出了s u p r a - t o n e 模型并用于语音 识别,它将相邻的两个音节看作一个整体,建立d i - t o n e 模型,然后在用三音子模 型识别生成网格( 1 a t t i c e ) 的基础上,对声调进行重新打分( r e s c o r e ) ,选出得分最高的 路径作为识别结果输出这种方法在普通话的声调识别中。有效地将错误率降低 了1 2 在d i - t o n e 模型中,只考虑了前一音节对当前音节声调的影响实际上,还有 很多其它因素会影响声调的形态。例如,前、后音节的声调,音节在词和短语中 的位置,音节是否重读,重读的程度等 为了更准确地刻画声调在连续语流中的变化形式,本文借鉴了基于h m m 的 语音合成的训练模式,在声调建模中引入了更多的上下文因素,并将该模型用于 普通话声调识别、声调相关的语音分析和韵律边界检测等方面。 对于孤立音节、词来说,f o 曲线的高低和形态已经可以较好的区分不同声调 了。但是在连续语音中,受到前后音节和语调的影响,同一声调的音高曲线在不 同上下文中有很大的变化,这使得声调发音检错工作面临着很大的挑战。 z h a n g 等【s 】就基于模板和基于h m m 统计模型来产生g o p ( g o o d n c s so f p r o n u n c i a t i o n ) 1 9 l 1 0 】打分在孤立词语料中进行声调发音错误检测的比较和分析,他们 发现基于h m m 模型的g o p 的方法取得了较好的实验结果,最后的声调错报率为 6 0 5 * , 。s i 掣i i 】使用c d f - m a t c h i n g 的方法将f o 曲线归一化后作为特征输入声调模 型,这种方法在孤立词的声调错误检测上也取得了较好的结果,与专家检错之间 相关系数达到了o 7 9 。 1 2论文的研究动机和主要工作 上述的方法都是建立在孤立词的声调错误检测上,关于连续语音的声调错误 的检测的研究工作还没有见到。本文从连续语音的声调发音错误的检测入手,对 声调进行了精细的上下文相关的建模( c d t m - c o n t e x td e p e n d e n tt o n a lm o d e l ) t 5 1 并 通过计算与实际发音相符合的声调模型与预期的声调模型之间的相对熵 k u l l b a e k - l e i b l e rd i v e r g e n c e ( k l d ) 来检测声调的发音错误。 本论文的工作主要分为以下几个部分: 1 ) 针对当前汉语普通话识别和汉语普通话声调错误的现状作了详细的调研 和各类算法的精细研究比较工作。 2 ) 对汉语声调进行了上下文相关的精细建模和识别,并进行了与传统的三音 予在同等混合高斯的基础上进行识别率的比较实验,这部分工作在第三章 中给出了详细的介绍。 3 ) 利用第三章的基于上下文相关的精细模型和相对熵来进行汉语普通话的 声调检错,并给出了几种评估准则和检错方案的比较,这部分的工作在第 四章中详细的介绍。 1 3论文的结构组成 论文的结构如下。 1 引言。主要介绍了课题的背景、目的及研究意义。讨论了当前计算机辅助 语言学习的发展,和中文声调模型的国内外现状,以及汉语声调检错的发 4 展现状,同时讨论了其中的研究问题和困难,揭示了本文研究的价值和意 义,并介绍了论文研究的问题和主要工作。最后阐明了全文的组织结构。 2 汉语声调检测技术简介。本章介绍了中文声调的特点,并介绍了h t k 工 具箱和h m m 的基本原理,以及介绍了用h t k 来建立语音模型的训练。 3 基于上下文声调模型。详细阐述了我们基于上下文声调模型的检测的设 想,包括模型介绍,模型训练过程,和最佳模型序列的查找过程的设计。 4 声调检错模块。详细介绍了我们的声调检测模块,包括其中涉及到的算法 和框架结构,并给出了详细的实验设计方案和结果分析。 5 结论部分,对全文所做工作总结,得出一些经验结论。针对数字签章服务 的发展和研究提出了一些期望和设想。 1 4小结 本章首先介绍了汉语普通话声调检错的背景、目的及意义,介绍了本研究的 发展现状。最后阐明论文所做的主要工作。 本论文工作均是作者在微软亚洲研究院语音组实习期间完成。 5 北塞銮堑占堂亟堂位论塞逯语庄通捡趔擅苤绽述 2 汉语声调检测技术综述 本章重点阐述当前中文声调的特点和相应的声调模型的训练所设计的相关技 术,包括传统的隐马尔科夫模型和h 1 k 工具箱,以及使用h t k 建立传统的三音子 模型的建立。 2 1中文声调的介绍 汉语是一个声调语言,每一个音节都具有自己的声调,声调在汉语语义的辨 别中起到了非常重要的作用,相同的汉字带上不同的声调,置于不同的语境中, 语义就不同。在汉语语音合成,语音识别以及语音分析中对声调精确的建模起着 至关重要的作用。 现有研究表明,不同的音段对基频f o 。有一定的影响,因而也就可能对声调 模式产生影响,在声母中,浊声母发音时由于声带振动,所以与其它清声母加以 区分而塞擦音、塞音、擦音由于发音方式不同,对后面韵母的基频可能产生不同 的影响,所以归为不同的类,其中塞擦音、塞音又按送气和不送气分开f 控1 【l3 1 因此, 声母共分6 类,具体的分类见表2 1 表2 1 卢母分类 浊声母清声母 擦音塞音塞擦音 m l ,n n u l l ” f ss h x h不送气送气不送气送气 b d gp k l j z h z c c h q 在韵母中,单韵母、复韵母、鼻韵母三者发音过程有很大的不同,因此也 会对声调产生不同的影响;复韵母中的后响复韵母中的介音都读得相当短,声学 特性主要取决于主元音,因此按其主元音与相应的单韵母分成一类;中响复韵母 的韵头部分相当短,因此按其后半部分与相应的前响复韵母归为一类;鼻韵母中 发音部位或韵腹不相同的韵母,其声学特性不同,对基频的影响也不同,因而按 发音部位和韵腹分开。这样,韵母共分1 5 类,见表2 2 汉语音节的声调特征在孤立发音时,通常都比较稳定,一声、二声、三声、 四声( 以下简称1 1 ,1 2 ,t 3 ,t 4 的声调基频轨迹曲线具有明确而稳定的形状 7 j e 塞銮适厶堂亟堂位途塞送蚤彦塑捡麴堇丕绽适 表2 2 韵母分类 单韵母复韵母鼻韵母 a 、o 、e 、e 、i 、u 、u 、面,e i ,a o ,o u ,i a ,a n ,i a n ,u a n ,t l a n , i e 、u a ,u o ,t i e ,i a o ,i o u ,e l l ,i n ,u e n 、f l n 、a n g ,i a n g , u a l 、t t e l u a n g , e n g 、m g , u e n g , o n g , l o n g o 然而在由复数音节组成的单词或者汉语连续语音中,各音节本来的声调特征 受到前后音节的影响而发生变形,其声调的基频轨迹曲线具有比孤立音节复杂的 多的形状和特征。准确地分析和把握这些变调特征,对于正确地进行汉语连续语 音的声调识别具有重要意义。 通过大量的观察和总结,归纳出以下具有共性的变调特征1 1 4 1 轻声:轻声只有在二个音节以上的连续语音中才会出现,通常容易出现在 句未。轻声的轨迹曲线比较短,接近于第四声,但形状很不稳定而且变化较大。 本文中我们把轻声单独作为一类模式来处理,简称为t o 2 三声的变调:在汉语连续语音的四声声调中,第三声最不稳定。当连续语音 的第一音节是三声而后续为其他声调音节时,三声的后半部分的上升将被抑制, 我们简称为“半三声”。另外连续发两个第3 声t 3 t 3 时,最初的二声往往变形成第 二声,形成t 2 t 3 的变调特征。 3 二声和四声的变调:当带有浊辅音y ,w r ,n ,m ,的音节为第二声和第四 声时,一声的摹频轨迹曲线由于受到前面浊辅音的影响往往发生形变而呈现v 字 形。同样四声的基频轨迹曲线这时往往会发生山字形形变这样的变调我们简称其 为。二声和四声的变” 看下面一个简单的例子 图2 1 所示为一句话的音高曲线。其中“也y e 3 ”为第二个短语的首字,而“瓦 w a 3 ”为尾字。可以明显看出,同为三声,当出现在甸中不同位置时,二者的调型 表现出很大的差异。前三个字“不是块,b u 2s h i 4k u a i 4 ”第一个四声跟在二声之 后,二声的终止状态很高,故跟在二声后面的四声起点很高。而第二个四声跟在 四声之后,由于四声的终止状态较低,故将第二个四声的起点拉低。相应的,“是 s h i 4 ”由于后面跟着四声( 一个高起点的声调) ,故其终止状态不会太低;而“块 k u a i 4 ”后接着一个二声( - - 声起点较低) ,因此其终止状态被拉得较低。秦砖q i n 2 z h u a n l ”由于在第一个短语尾部,其高音点比前面音节的高音点低很爹嘲 : l 叭胡 泠 i l l ; 乏盎兰。鑫惑,岩盎二。已是 图2 1 音高曲线 综上所述,不同位置、前一个字与后一个字的声调都会从很大程度上影响当 前声调的调型。此外,音节是否重读,对其声调的形态和高低也有影响。由于没 有足够的标注数据,本文没有考虑重音的影响。 2 2隐马尔科夫工具箱 隐马尔科夫工具箱( t h eh i d d e nm a r k o vm o d e lt o o l k i t h t k ) 是一个建立隐马 尔科夫模型的工具钭1 6 l ,h t k 主要用于语音识别的研究,h t k 自开始是在剑桥 大学( c u e d ) t 程系的机器智能实验室研究出来的,用于建筑c u e d 的大词汇的语 音识别系统在1 9 9 3 年熵研究实验室i n c 公司收购h t k 的销售权,h t k 完全转交 给e n t r o p i e 是在1 9 9 5 年当e n t r o p i cc a m b r i d g er e s e a r c hl a b o r a t o r yl t d 完全的建 立成功。微软现在已经将h t k 交叫给c u e d ,并给其提供了支持,所以c u e d 能 够重新分配h t k 。 2 2 1隐马尔科夫模型 ( 1 ) h m m 模型的基本原则 h m m ( h i d d e nm a r k o vm o d e l ) 是隐马尔科夫模型的简称,它的应用是2 0 世纪 8 0 年代语音识别领域取得的重要成果,h m m 一方面用隐含的状态对应声学层的 各相应的发音单位,并通过状态转移和状态驻留来描述发音的变化,另一方面它 引入了概率统计模型,不再用动态时间对齐的方式来匹配距离,而是用概率密度 函数计算语音参数对h m m 模型的输出概率,通过搜索最佳状态序列,以最大后 验概率为准则找到识别结果【0 7 1 h m m 模型较为完整的表达了语音的声学模型,并且采用统计的训练方法将底 层的声学模型和上层的语音模型融入统一的语音识别搜索算法中,获得较好的效 果。 9 j e 塞銮塑厶堂亟璺位迨塞送蚤直调控翌拄丕簦述 ( 2 ) 语音识别中的h m m 和三个基本问题 语音识别系统一般都假定语音信号是一系列消息编码成为一系列一个或多个 符号序列的消息,如图一。给了一段语音,为了加强识别潜在的符号序列的识别, 首先将连续的语音波形转化成五一个相同距离的离散参数向量序列,这一系列的 参数向量假设为,在时间的持续时甸被一个单一的载体所覆盖( 一般为1 0 m s 左 右) 的基础上形成一个确切的有代表性的语音波形,语音波形可以视为平稳的。 虽然它不完全符合事实,但是也是一个合理的近似典型的参数代表有平滑谱或 者线形预测系数等。 识别器的角色就是假案例语音矢量和这个潜在的符号序列之间的映射。这中 间就涉及到两个比较难解决的问题,一个就是符号到语音的映射不是一对一的, 不同的基本符合可对应相应的发音。此外,还有就是实际语音波形因说话人的情 况,比如说情绪,环境等会有一些变化,其次,从语音波形中不能精确的定义符 号的边界信息。因此,不能够把语音波形视为一系列的静态级联模式。 第二个问题,如果不知道此的边界信息可以避免成为孤立字识别的严格限制。 假设一个人语音波形对应一个从一个固定的词汇中单一的基本符号( 如字) 的选 择,尽管这个简单的问题从某种程度上是人为所造成的,但是它具有广泛的实际 运用。此外,它提供了一个为引进基于h m m 识别前处理较为复杂的连续语音的 情况的基本思想来提供了一个良好的基础。所以首先要处理孤立字词的h m m 应 用【7 1 3 】 在语音识别中,所谓观察序列就是通过计算得到一帧帧的语音参数,如m f c c , m s d 参数。而状态则是在训练阶段事先规定好的不同语音单元。对于汉语普通话 来说,语音单元可以是一个完成得音节,也可以是声母或韵母,还可以使更加精 确的因素对于一个连续混合高斯h m m ,定义为表2 3 所示的基本元素的组合 表2 3 连续混合高斯 n 心i 的基本元素组合 模型参数说明 n 模型状态数 彳= ) 状态转移概率矩阵吻t ,融“= jj q , - 妇,l s l ,j f s 露= 拓 各状态的起始概率分布巧= h g l ;珏l f s 口z 如( 口) 输出概率密度函数岛( d ) = c j , n ( o , u j , ,) ,ls - ,s f l i 其中输出概率密度函数中的参数描述如下表2 4 所示 i o 表2 4 输出概率密度函数中参数描述 参数 说明 o 观察向量 肼每个状态包含的高斯元的个数 c i i 第j 状态第1 个混合高斯函数的权 代表正态高斯概率密度函数 鳓 第j 状态第1 个混合高斯元的均值矢量 u h第j 状态第1 个混合高斯元的协方差矩阵 权系数白满足下面的条件 _ i , c ,= l ,i j n ( 2 1 ) , 这种连续混合高斯h m m 通常简称为c h m m 对于每一个状态,都用若干个正 态高斯概率密度函数( p d 0 的线性组合来表示,每个p d f 有各自的均值矢量和协方差 矩阵,这些都是通过对大量的m f c c 参数进行统计得到的。 h m m 的三个基本问题【1 9 2 0 1 输出概率的计算问题:给定观察序列o = ( o i ,0 2 ,o t ) 和h m m 模型的参数 五= ( a ,b ,2 ) ,如何计算斜率对h m m 模型的输出概率p ( o l a ) 。 状态序列解码l 口j 题:给定观察序列o = ( d l ,0 2 ,o o 和h m m 模型p ( o i a ) , 如何确定一个最优的状态转移序列q = ( q l ,q 2 ,q ,) 。 模型参数的估计问题: 如何调整a = ( a ,b ,7 ) 的参数,以使p ( o i 五) 最大。 ( 1 ) 前向概率和后向概率一h m m 输出概率的计算 给定观测序列o = ( d l ,0 2 ,o o 和h m m 模型参数p ( o i 五) ,如果已知状态转移 序列q = 翰,q 2 ,靠) ,则h m m 模型a 状态转移序列鼋输出观察序列p 概率为 _ _ p ( o i q ) - llp ( d ii 吼,五) = 气 ) ( d 2 ) 一( d r ) ( 2 2 ) ,i h m m 模型输出序列的概率为 p ( 引句2l l q t a q , q 2 a q z c j ”4 蚋| r ( 2 3 ) 这里要得到的是对所有可能的状态转移序列q ,模型输出观察序列d 的概率 p ( o i 由全概率公式可以得到: e ( o l , t ) = p ( o l q ,乃舶l a ) = 乃气( d l k 。吆( d 2 ) 。( o r ) q l q 2q t ( 2 4 ) 但是该式的计算复杂度为2 丁7 次的计算,为了降低计算复杂度,可 以采用前向算法和后向算法 首先定义h m m 的前向概率为 q ( f ) = p ( o 1 0 2 。q ,吼= i i ( 2 5 ) 表示给定h m m 模型参数五,部分观察序列 o i d 2 q ,在t 时刻处于状态i 的概 率 前向概率可以用下面的递推公式计算 1 ) 初始化 q ( o = 靠a ( d 1 ) 1 s f s n( 2 6 ) 2 ) 迭代计算 r 1 q + i u ) = i q ( f ) 吻l 岛( q + ) ,l t t - i ,i s j s n ( 2 7 ) l i f f i l j 3 ) 终止计算 p ( o i a ) = 唧( f ) ( 2 8 ) 与前向概率相对应,还有后向概率。定义后向概率为表示 尼( f ) = p ( d i + 。d ,+ 2 吩,吼= f i 五)( 2 9 ) 给定h m m 模型参数2 ,观察序列在t 时刻处于状态i ,系统输出部分观察序 列娩+ 。o f + :。岛 的概率 后向概率屈也有类似的递推公式计算 1 )初始化 屏= l ,l f ( 2 1 0 ) 2 ) 迭代计算 属( o = 岛【。) 尼+ ( j ) , i t 墨t - l i j 关于“系统的当前状态只与前一状态有关,输出概率只依赖于当前状态一 阶假设对语音信号来讲显然是不恰当的后果是h m m 模型不能描述协同 发音,因为协同发音时各音素或音节问。吃音”、“丢音”现象十分严重, 从而每个状态的分布受相邻几个状态的影响,发生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论