(通信与信息系统专业论文)汉语连续语音识别中的动态特性建模方法研究.pdf_第1页
(通信与信息系统专业论文)汉语连续语音识别中的动态特性建模方法研究.pdf_第2页
(通信与信息系统专业论文)汉语连续语音识别中的动态特性建模方法研究.pdf_第3页
(通信与信息系统专业论文)汉语连续语音识别中的动态特性建模方法研究.pdf_第4页
(通信与信息系统专业论文)汉语连续语音识别中的动态特性建模方法研究.pdf_第5页
已阅读5页,还剩129页未读 继续免费阅读

(通信与信息系统专业论文)汉语连续语音识别中的动态特性建模方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语连续语音识别中的动态特性建模方法研究2 摘要 语音识别的目的是让计算机听懂并最终理解人类的语音,从而提 供一种最自然的人机交互手段。经过近5 0 年的研究,语音识别技术 仍然存在很多难题和挑战。现代语音识别技术中最主要的研究方向是 大词汇量连续语音识别。 对语音识别而言,最困难的是对语音的多样性建模。而语音是一 个时间相关性明显的非平稳随机过程,采用平稳过程的h m m 来描述 语音,必然存在不合理性。虽然通过区别性训练、增加语法模型等手 段可以提高h m m 的识别性能,但是并不能从根本上解决语音的非平 稳性和模型的平稳性之间的矛盾。近年来,出现了不少动态语音模型, 通过调整h m m 的参数,使其具备可变特性以提高语音识别的性能。0 7 。 为了更好地描述语音的动态特性,本文提出了一种动态h m m 结 构,在静止状态和观察之间增加了动态状态层。每一帧观察都对应于 个独立的动态状态,而动态状态由动态特性和静止状态决定。采用 贝叶斯网络对动态h m m 的结构进行分析可以得到动态h m m 的训l 练 和识别算法。 在动态h m m 中所使用的动态特性必须具备连续性、一致性等要 求。本文选用了音韵学特征如共振峰、基音频率作为动态特性。由于 1 ) 卜海市科委重点基金项目资助( 0 1 j c l 4 0 3 3 ) 2 ) 毗尔实验室f :海分部资助 p l a 上殉交通、学博j 学位论文 这些特征在清音部分不存在,因此,需要采用扩展算法进行扩展。实 验结果表明采用扩展的基音频率曲线作为动态特性可以有效提高语 音识别的性能。而采用共振峰作为动态特性的动态h m m 则由于共振 峰的先验概率分布而导致动态h m m 识别性能下降。通过在动态 h m m 中引入动态特性的先验概率分布或者采用均值抵消的方法,以 前三个共振峰作为动态特性的动态h m m 取得了较好的识别性能。动 态h m m 对带调语音识别和不带调语音识别都有很好的识别性能。 由于动态特性的提取和扩展算法在训练和识别过程中不能完全一 致,会直接导致动态h m m 性能的下降,甚至完全不可适用。通过对 动态特性后验概率分布的研究,选择采用动态特性在给定静止状态下 的均值作为对动态特性的估计用于识别,从而解决了由于动态特性未 知或者提取算法存在误差造成的影响。实验结果表明,采用动态特性 自动提取算法可以达到甚至超过使用已经提取的动态特性的识别性 能。 当动态特性的提取在训练和识别过程中都无法得到时,就无法采 用动态h m m 。为了达到对于隐含动态特性建模的目的,引入预测的 动态特性和估计的动态特性的概念。预测的动态特性描述了动态特性 的时序关系,而估计的动态特性则描述了当前的观察和状态对动态特 性的影响。把这两个动态特性线性组合,就得到了隐含的动态特性。 在隐含动态特性的基础上,本文提出了隐含动态h m m 。 隐含动态h m m 的训练算法是个同时得到最优动态特性和最优 模型参数的过程。可以通过扩展的e m 算法,分5 个步骤实现隐含动 态h m m 的训练过程。 这一过程需要对动态关联矩阵进行合理的初始化。对动态特性、 动态h m m 、隐含动态h m m 的等价性和相似性研究表明,采用主成 分分析作为动态特性关联矩阵初始化的隐含动态h m m 最为合理。 对于隐含动态h m m 的实验结果表明,采用主成分分析作为初始 化的隐含动态h m m 可以取得很好的识别性能。对不同情况下的模型 实验也表明,隐含动态h m m 对小词汇量、大词汇量上下文无关、大 词汇量上下文关联的语音识别都有较好的识别性能。 而隐含动态h m m 对模型性能的改善随着模型数的增加而降低, 分析认为主要是模型数的增加造成了训练语料的减少,从而导致隐含 动态h m m 的训练不足。同时实验结果还表明,随着隐含动态特性维 数的增加,模型性能的提高幅度也开始减缓。 对于语音动态特性的研究表明,在语音模型中增加对动态特性的 描述可以有效提高语音识别性能。动态h m m 、隐含动态h m m 提供 了描述语音动态特性的一种有力手段,具有很强的通用性,适用于不 同情况下语音的动态特性建模。 , 关键词:语音识别,大词汇量连续语音识别,隐马尔可夫模型,动态 一h m m ,f , 婴h m m , 垫坌断 n 生! i ! 塑銮望! :堂堡! 堂些! ! 苎 s t u d yo nd y n a m l cp r o p e r t y m o d e l l i n gf o rm a n d a r i n c o n t i n u o u ss p e e c hr e c o g n i t i o n l 2 a b s t r a c t t h eg o a lo fr e s e a r c hi n s p e e c hr e c o g n i t i o n i st om a k et h es p e e c ho fh u m a n b e i n g sb e i n gu n d e r s t o o db ym a c h i n e s i tc a np r o v i d eac o n v e n i e n ti n t e r f a c eb e t w e e n h u m a nb e i n g sa n dm a c h i n e s a f t e r5 0y e a r so fr e s e a r c h ,t h et e c h n o l o g yo fs p e e c h r e c o g n i t i o ns t i l lf a c e sv a r i o u sp r o b l e m sa n dd i f f i c u l t i e s o n eo ft h ee m p h a s e si nt h e r e s e a r c ho fs p e e c hr e c o g n i t i o ni st h el a 学v o c a b u l a r y s p e e c hr e c o g n i t i o n t h em o s td i f f i c u l tp r o b l e mi ns p e e c hr e c o g n i t i o ni st h em o d e l i n go fv a r i a t i o n s p e e c hi s at i m e - r e l a t e dn o n s t a t i o n a r ys t o c h a s t i cs i g n a l u s i n gas t a t i o n a r ym o d e l s u c ha sh m mt od e s c r i b es p e e c hi su n r e a s o n a b l e a l t h o u g hu s i n gd i s c r i m i n a t i v e t r a i n i n g a n d g r a m m a rb a s e dd e c o d i n g c a n i m p r o v e t h e p e r f o r m a n c e o f s p e e c h r e c o g n i t i o n ,b u t t h e c o n t r a d i c t o r y b e t w e e n s t a t i o n a r y m o d e la n d n o n - s t a t i o n a r y f e a t u r es t i l lc a n n o tb er e s o l v e d s e v e r a ld y n a m i c s p e e c h m o d e l sh a v eb e e ni n t r o d u c e d i nr e c e n t y e a r s t h e s em o d e l si m p r o v et h ep e r f o r m a n c eo fs p e e c hr e c o g n i t i o nb y a d j u s t i n gt h ep a r a m e t e r o fh m m i no r d e rt od e s c r i b et h ed y n a m i c p r o p e r t yo fs p e e c h ,t h i st h e s i sp r e s e n t san e w a r c h i t e c t u r ea sd y n a m i ch m m d y n a m i cs t a t ei si n s e r t e db e t w e e ns t a t i o n a r ys t a t e , w h i c hi st h es a m ea st h es t a t ei nc o n v e n t i o n a lh m m a n do b s e r v a t i o n e a c h o b s e r v a t i o ni sc o r r e s p o n d i n gt oad y n a m i cs t a t e t h ed y n a m i cs t a t ei sd e c i d e db yb o t h s t a t i o n a r y s t a t ea n d d y n a m i cp r o p e r t y t h et r a i n i n g a n d d e c o d i n ga l g o r i t h m o f d h m mc a l lb ei n d u c e dw i t hb a y e s i a nn e t w o r k t h ed y n a m i cp r o p e r t yf o rd y n a m i ch m mm u s tb ec o n t i n u o u sa n dc o n s i s t e n t t h i st h e s i ss e l e c t e d p h o n o l o g y f e a t u r eo fs p e e c h ,s u c ha s p i t c h a n df o r m a n t ,a s i ) s u p p o r t e db y t h e f u n d f r o m t h e c o m m i t t e eo f s h a n g h a is c i e n c ea n d t e c h n o l o g i e s ( 0 1 j c l 4 0 3 3 ) 2 ) s u p p o r t e db yb e l ll a b ss h a n g h a ib r a n c h 摘受 d y n a m i cp r o p e r t y s i n c ep i t c ha n df o r m a n ti s n o ta v a i l a b l ef o rt h eu n v o i c e ds p e e c h , a ne x t e n d i n ga l g o r i t h mi si n t r o d u c e dt oe x t e n dt h ed y n a m i cp r o p e r t yf r o mv o i c e d s p e e c ht o u n v o i c e ds p e e c h e x p e r i m e n t ss h o wt h a iu s i n ge x t e n d e dp i t c hc o n t o u ra s d y n a m i cp r o p e r t y ,t h ed y n a m i ch m m c a ni m p r o v et h e p e r f o r m a n c e o f s p e e c h r e c o g n i t i o n b u tu s i n gf o r m a n ta sd y n a m i cp r o p e r t y ,t h ep e r f o r m a n c eo fd y n a m i c h m md e s c e n d sd u et ot h ei g n o r a n c eo fa p r i p r o b a b i l i t y u s i n gt h em e a ns u b t r a c t i o n o ff i r s tt h r e ef o r m a n t si nd y n a m i ch m m ,t h ep e r f o r m a n c eo fs p e e c hr e c o g n i t i o ni s i m p r o v e d a l l t h ee x p e r i m e n t so fd y n a m i ch m ms h o w st h a td y n a m i ch m mc a n i m p r o v et h ep e r f o r m a n c e b o t hi n t o n a l - s y l l a b l er e c o g n i t i o n a n dt o n a l l e s s s y l l a b l e r e c o g n i t i o n , i ft h ee x t r a c t i o na n de x t e n s i o n a l g o r i t h m o f d y n a m i cp r o p e r t y w a sn o t c o n s i s t e n ti nt r a i n i n ga n dd e c o d i n g ,t h ep e r f o r m a n c eo fd y n a m i ch m mc o u l db e d e g r a d e d w i t ht h ea n a l y s i so fp o s t e r i o r ip r o b a b i l i t yo fd y n a m i cp r o p e r t y ,t h em e a n o fd y n a m i cp r o p e r t yu n d e rt h e g i v e no b s e r v a t i o n a n ds t a t i o n a r ys t a t ei su s e di n d y n a m i c h m m t h i sa l g o r i t h mi sn a m e da sa u t o m a t i cd y n a m i c p r o p e r t ye x t r a c t i o n e x p e r i m e n t s s h o wt h a t u s i n g a u t o m a t i c d y n a m i cp r o p e r t y e x t r a c t i o n ,t h e p e r f o r m a n c e i sn e a r l yt h es a m ea su s i n ge x t r a c t e dd y n a m i c p r o p e r l y w h e nt h ed y n a m i c p r o p e r t yi sn o ta v a i l a b l eb o t hi nt r a i n i n ga n dd e c o d i n g ,t h e d y n a m i ch m m c a n n o tb eu s e d i no r d e rt om o d e l i n gt h eh i d d e nd y n a m i c p r o p e r t yo f s p e e c h ,t h ec o n c e p t so fe s t i m a t e dd y n a m i cp r o p e r t ya n dp r e d i c t e dd y n a m i cp r o p e r t y a r ei n t r o d u c e d , t h ep r e d i c t e dd y n a m i c p r o p e r t yd e s c r i b e st h es e q u e n t i a lr e l a t i o n s h i p o fs p e e c ha n dt h ee s t i m a t e dd y n a m i c p r o p e r t yd e s c r i b e st h es t o c h a s t i cp r o p e r t y t h e h i d d e n d y n a m i cp r o p e r t y i sac o m b i n a t i o no fe s t i m a t e d d y n a m i cp r o p e r t y a n d p r e d i c t e dd y n a m i cp r o p e r t y o n t h eb a s e so fh i d d e nd y n a m i cp r o p e r t y ,h i d d e n d y n a m i c h m mi sp r e s e n t e di nt h i st h e s i s t h et r a i n i n ga l g o r i t h mi sap r o c e s s g e t st h eo p t i m i z e dh i d d e nd y n a m i cp r o p e r t y a n do p t i m i z e dp a r a m e t e r so fm o d e l a5 一s t e pa l g o r i t h ma se x t e n de m a l g o r i t h mi s u s e dt oc o m p l e t et h et r a i n i n g p r o c e s s t h ep e r f o r m a n c eo fe x t e n d e de m a l g o r i t h md e p e n d so nt h ei n i t i a l i z a t i o no f d y n a m i cr e l a t i o n s h i pm a t r i x w i t ht h ea n a l y s i sa n dd i s c u s s i o no ft h ec h a r a c t e ro f v 申请1 。洳交通人学博 学位论文 d y n a m i cp r o p e r t y ,d y n a m i c h m ma n dh i d d e n d y n a m i ch m m ,p r i n c i p l e c o m p o n e n ta n a l y s i si su s e d a st h ei n i t i a l i z a t i o no fh i d d e n d y n a m i c h m m e x p e r i m e n t so fh i d d e nd y n a m i ch m m s h o wt h a tt h eh i d d e nd y n a m i ch m m b a s e do np r i n c i p l ec o m p o n e n t a n a l y s i sc a na c h i e v eg o o dp e r f o r m a n c eb o t hi ns m a l l v o c a b u l a r y s p e e c hr e c o g n i t i o n ,c o n t e x t i n d e p e n d e n tl a r g ev o c a b u l a r y s p e e c h r e c o g n i t i o na n dc o n t e x t d e p e n d e n tl a r g ev o c a b u l a r ys p e e c hr e c o g n i t i o n f u r t h e ra n a l y s i ss h o w st h a tt h ei m p r o v e m e n to fp e r f o r m a n c ed e c l i n e da st h e n u m b e ro fm o d e li n c r e a s e d t h em a j o rr e a s o nf o rt h ed e c l i n a t i o ni st h ei n s u f f i c i e n t t r a i n i n g s i n c et h e t r a i n i n gc o r p u sd e c r e a s e df o re a c hm o d e lw h e nt h en u m b e ro f m o d e l i n c r e a s e d e x p e r i m e n t s a l s os h o wt h ei n c r e m e n to fi m p r o v e m e n td e c r e a s e dw h e nt h e d i m e n s i o no f d y n a m i cp r o p e r t yi n c r e a s e d t h er e s e a r c ho nd y n a m i c p r o p e r t yo fs p e e c hs h o w st h a ta d d i n gt h ed e s c r i p t i o n o fd y n a m i cp r o p e r t yi n s p e e c hm o d e lc a ni m p r o v et h ep e r f o r m a n c eo fs p e e c h d y n a m i ch m m a n dh i d d e nd y n a m i ch m m p r o v i d es t r o n gm e t h o d st od e s c r i b et h e d y n a m i cp r o p e r t yo fs p e e c h t h e s em o d e l s c a l lb eu s e di nd i f f e r e n tc o n d i t i o n s k e yw o r d s :s p e e c h r e c o g n i t i o n ,l a r g ev o c a b u l a r y c o n t i n u o u sm a n d a r i n s p e e c hr e c o g n i t i o n ,h i d d e nm a r k o vm o d e l ,d y n a m i ch m m ,h i d d e nd y n a m i c h m m ,p r i n c i p l ec o m p o n e n ta n a l y s i s v l 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密囱。 ( 请在以上方框内打“”) 学位敝作者躲倔纠指捌雠: 日期:b 一2 年矿月= 扩日 汐 旁互 i 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 英立缩略沿表 a m d f c g h m m d t w e m a e p g g p d h d m h m m 1 0 h m m l p c l p c c l v c s r m a p m e m f c c m l e m l l r m m i e o o v s i f t 英文缩略语表 a v e r a g em a g n i t u d e d i f f e r e n c ef u n c t i o n c o n d i t i o n a lg a u s s i a nh m m d y n a m i c t i m ew a r p i n g e l e c t r o m a g n e t i ca r t i c u l o g r a p h y e l e c t r o p a l a t o g r a p h g e n e r a l i z e dp r o b a b i l i s t i cd e s c e n t h i d d e n d y n a m i c m o d e l h i d d e nm a r k o vm o d e l i n p u t o u t p u th m m l i n e a rp r e d i c t i o nc o d i n g l p c c e p s t r a l l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n m a x i m u map o s t e r i o r ip r o b a b i l i t ye s t i m a t i o n m i n i m u me r r o r r a t ee s t i m a t i o n m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s m a x i m u ml i k e l i h o o de s t i m a t i o n m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n m a x i m u mm u t u a ji n f t l r m a t i o ne s t i m a t i o n o u to fv o c a b u l a r y s i m p l ei n v e r s ef i l t e rt r a c i n g v 0v e c t o ro u a n t i z a t i o n 平均幅度差函数 条件关联h m m 动态时间规整 电子共振器官图 电子腭图 范化概率下降 隐含动态模型 隐马尔可夫模型 输入输出h m m 线性预测编码 线性预测编码倒谱 大词汇量连续语音 识别 最大后验概率估计 最小错误率估计 m e l 刻度频率倒谱 系数 最大相似度估计 最大相似度线性回 归 最大互信息熵估计 词典外 简单逆滤波器跟踪 法 矢量量化 申请 :海交通夫学博j 学位论文 本文符号说明 频率 时刻,时间 观察向量( 用于孤立词识别) 时刻t 的观察( 用于孤立词识别) 模板集 状态序列 状态 h m m 模型的参数集 初始状态概率矢量 状态转移概率矩阵 观察概率分布矢量 观察序列( 用于连续语音识别) 时刻f 的观察( 用于连续语音识别) 概率 差分 动态特性 动态特性向量 时刻t 的动态状态 动态状态序列 占有概率 共振峰 关联矩阵 x 厂 , 一o q a 一5 s 中 a a 曰 一x p a a t d 亭 f 儿 “均值 协方差矩阵 a特征值 r特征向量 肘动态特性的维数 v 观察的维数 x l 第一章绪论 第一章绪论 2 0 世纪8 0 年代起,人类进入了知识经济的时代。随着集成电路和计算机技 术的飞速发展,人类的生活、工作和娱乐方式都发生了深远的变化,个人计算机、 手机、手持终端等设备同益成为现代社会人们的闩常用品。 然而,人机交互的技术目前仍然停留在键盘和鼠标的基础上,这己经成为计 算机技术和个人通信发展的瓶颈。统计数据表明,采用键盘输入的方式,一个经 过专业培训的打字员每分钟可以录入约5 0 个词( 字) ,而采用手写输入的速度约 为3 0 个,使用鼠标点击的方式,每分钟输入的速度不会超过1 0 个。但如果计算 机、移动终端可以听懂人类的语音,那么就意味着人类可以以说话的方式和计算 机直接进行交互操作,而且这种交互方式不需要专业训练就可以达到每分钟7 0 甚至更高的输入速度。 1 1 语音识别的应用领域 专家预测,语音识别将是2 l 世纪最重要的技术之一。语音识别,尤其是汉 语语音识别将在很大程度上改变人们的生活和工作方式: l 、计算机输入输出 计算机的键盘是以英文2 6 个字母为基础的,计算机的文字输入一直是计算 机推广的最大障碍。利用计算机上外接的麦克风直接进行语音输入,具有很大的 市场潜力。 目前,很多公司正在进行这方面的技术研究和产品开发。例如:微软公司从 9 8 年开始推出s a p i ( 语音通用接口界面) ,目前已经发展到中文5 o 版本,提供 了在p c 平台上的公共语音识别平台。其设在美国的微软研究院正在进行对话系 统( d i a l o gs y s t e m ) 的研究,其中包括了语音识别、语音合成、以及自然语言 处理等技术,以满足人和计算机直接对话的要求。而i b m 的v i a v o i c e 系统于2 0 0 1 年4 月已经正式发布4 0 中文版本,在特定条件下识别率可以达到9 7 ,可以用 语音输入命令进行操作,能够满足文字编辑、收发编写电子邮件等的需要。 2 、通信 为了提高移动电话使用者在某些特定场合,如在高速行驶的汽车上的安全 申请j :海交通j :学博卜学位论文 性、有效性,话音拨号系统成为语音识别系统的应用热点,集成在手机中的语音 识别系统也成为了手机厂商的重点开发对象。包括摩托罗拉、西门子、飞利浦等 在内的手机厂商都已经推出了包括汉语语音识别功能的手机型号。并且,诺基亚、 摩托罗拉等公司都在中国开设了汉语语音识别技术的研究小组。 另一方面,手持终端上的文字输入相对计算机上的文字输入更加困难,语音 识别将为移动设备使用耆提供更多的服务,例如,语音查询、中文短信息、 v o ic e m a i l 等等。而在服务器端,采用语音的自动应答系统、呼叫中心( c a l l c e n t e r ) 将大大降低对人工的依赖性。目前,朗讯已经推出了集成语音识别和语 音合成的解决方案,可以大大降低对人工的需求。 3 、银行、金融服务及其他多媒体服务,随着电子商务的进一步发展,对网络安 全、用户认证等功能都可以通过语音识别和说话人识别( s p e a k e r 1d e n t i f ic a t i o n ) 来进行。 4 、公共信息语音查询系统、数据库的语音检索、i n t e r n e t 网络的语音浏览和信 息交互,这一切均可以通过语音识别来完成。尤其是集成了自动翻译功能的多语 言语音识别系统,可以帮助查询国外的网页,真正做到网络元国晃。 ;、语音识别芯片的开发,可以使家用电器、门锁等具备语音控制的功能,真正 实现操作智能化,使人们摆脱遥控器和复杂的操作方式。 1 2 语音识别技术的发展概况 正是由于语音识别技术的巨大应用前景,人类从1 9 世纪末就开始了对语音 识别的研究。最初语音识别的研究对象是在电话线路上传输的模拟信号,而真正 具有实际意义的语音识别研究是从上个世纪5 0 年代开始的: 1 9 5 2 年美国贝尔实验室研制的基于共振峰的语音识别系统可以认为是现代 语音识别技术的鼻祖。这一由模拟电路构成的系统用第一、二个共振峰作为特征, 采用模板匹配的技术,可以对特定人孤立字的语音识别( 元音) 达到9 7 9 9 的 的识别正确率i l j 。 j o 年代中期,带通滤波器组作为频谱信息的提取手段,被广泛应用在语音识 别系统中。这一阶段的语音识别技术大多采用专门硬件进行频谱分析,再由计算 2 第一章绪论 机进行模板匹配,但算法的性能较低f 2 1 。 6 0 年代,随着激励模型和发声模型的提出,线性预测编码( l i n e a rp r e d i c t j o n c o d i n g :l p c ) 4 】被引入语音信号处理中。而围绕l p c 计算匹配程度的算法使语 音识别技术取得了很大的发展。 到7 0 年代,动态时间规整( d y n a m i ct i m ew a r p in g :d t w ) 5 】| 6 】被用来作为模 板匹配的方法,识别精度大为提高。线性预测编码、动态时间规整,模板聚类等 算法构成了传统语音识别的基础。 7 0 年代中期,隐马尔可夫模型( h i d d e nm a r k o vm o d e l :h m m ) 开始被应用于孤 立字的语音识别中。由于隐马尔可夫模型的结构和数学描述更加符合语音本身的 统计特性,因此取得了很好的识别效果。而7 0 年代末期,矢量量化( v e c t o r o u a n t i z a t i o n :v o ) l t 1 8 】为隐马尔可夫模型提供了行之有效的观察概率描述,使其 迅速成为现代语音识别技术的核心【9 1 1 1 0 】。 2 0 世纪8 0 年代以后,随着基于h 删的语音识别技术的日趋完善,语音识别 技术开始向非特定人、大词汇量、连续语音识别发展。8 0 年代末,美国c a r n e g i e m e l1 0 n 大学完成了人类历史上第一个非特定人连续语音识别系统,从而奠定了 现代语音识别技术的基础。在此之后,一些实用化的系统相继推出。比较著名的 有:c a r n e g iem e l l o n 大学的s p h i n x i i 系统【1 1 】,i b m 的的v i a v o i c e 1 “,m i t 的 s u m m i t 1 3 和d r a g o n l l 4 】等。 1 3 语音识别的基本原理 语音识别的算法总体而言可以分为两大类: 一基于知识的语音识别算法 这类识别算法主要依靠对于语音结构知识的了解来进行的。语音中音的分类 和研究则属于语音学【1 5 】,基于知识的语音识别算法主要采用声学语音学方法把 语音切分成音,通过对音进行分类达到语音识别的目的。对于语音的发生、收听 过程的了解,以及音的频谱结构的研究,是基于知识的语音识别算法的主要依据。 近年来,基于语音发生模型( s p e e c hp r o d u c t i o nm o d e l ) 1 6 l 的语音识别算法也是 一个研究方向。 3 申请上街交通大学博卜学位论史 二基于模式识别的语音识别算法 这是目前应用最广的语音识别算法。其基本的概念是通过对于大量语音进行 分析和统计来生成语音模型。把待识别的语音和语音模型相互比较,以选择最匹 配的模型。 本文所开展的研究工作主要集中在基于模式识别和统计方法上的语音识别 算法。 1 3 1 语音识别系统的基本结构 对基于模式识别和统计的语音识别系统,通常可以采用图1 1 来表示其基本 结构。语音识别系统一般由三个主要功能模块构成:前端处理( f r o n t e n d ) 、模 型训练和模式匹配。 图1 1 语音识别算法的系统原理框图 f i g 1 1t h e b a s i cs t r u c t u r eo f s p e e c hr e c o g n i t i o ns y s t e m 1 3 2 前端处理 前端处理一般可以分为两块:预处理和特征提取。 预处理是提高语音识别性能,增强鲁棒性的重要环节。一般情况下预处理包 括对原始语音信号的滤波、预加重【1 7 】、分帧【1 8 】、加窗等环节。同时还可能包含 语音增强、噪声抵消、端点检测【1 9 】【2 0 】等等。 特征提取是语音识别前端处理的主要任务。对于统计模式识别系统而言,特 征如果具有很好的区别性,模型的设计和训练就会变得简单高效。因此,语音识 4 第一章绪论 别所用特征需要满足以下条件: a 稳健性强。语音受周围环境、说话方式、采集条件等因素的影响较大,因此, 语音识别的特征必须具有很强的稳健性。 b 区别性强。对于基于模式识别的语音识别模式而言,用于进行识别的特征必 须具有很强的区别性,具体表现在:同一模型的特征集中度应该高,不同模 型的特征应该相距较远。 目前常用的语音特征是l p c c 和m f c c 。 1 3 2 1 线性预测编码和线性预测编码倒谱 线性预测编码( l i n e a rp r e d i c t i v ec o d i n g :l p c ) 是一种基于语音发生机制的 编码方式| 2 1 】【2 2 】。 在语音发生模型中,语音信号s n ) 的z 变换可以写为: s ( z ) = ( z ) ( z ) ( i - i ) e ( z ) 为激励源的z 变换。h ( z ) 包含了声道模型、辐射模型等。 作更进一步的假设,如果h ( z ) 是全极点模型,那么可以用一个统一的方程 ( i - 2 ) 来得到线性预测的语音信号: 文d 。善叩 - ,) + a v u 。) ( 1 - 2 ) 而线性预测的语音和实际语音之间的差为: “哪q ) - 文砷。卜喜q ,) ( 1 3 ) 在某种线性测度下,选择最优的系数a ,得到“最小的”e ( h ) ,这时的口,即 为语音的线性预测编码。在语音识别中,则广泛采用基于l p c 的倒谱一线性 预测编码倒谱( l p c c e p s t r a lc o e f f i c i e n t s :l p c c ) 作为特征。 1 3 2 2m e l 刻度的频率倒谱系数 l p c c 反映的是语音的声道状况,对于语音识别而言,语音信息主要包含在 申请j :沟交通人学博j 学位论立 语音的频谱结构上,语音的感知特性更为重要。感知实验表明【引,人类对于语音 的斤觉感知可以抑制平稳的背景噪声,并增强变化的语言学信息。因此,基于听 觉感知特性的语音分析方法具有很强的鲁棒性。 语音的感知特性并不集中在若干个频点上,而是体现在多个频谱段的分布 上。某一频率上的峰值会抑制相邻频率范围的感知度,同时噪声对于纯音,低音 对于高音都存在掩蔽效应( m a s k i n g e f f e c t ) 1 2 4 1 。 根据语音的感知特性,可以在语音识别中采用另一类特征。这类特征基于滤 波器组( f i l t e rb a n k ) 又称梳状滤波器的输出。滤波器组的输出反映了 语音信号在各个频率段上的分布状况,般情况下采用频率响应为三角形的带通 滤波器来构成滤波器组,每个滤波器组输出信号的能量反映了语音信号在各频段 的能量分布。可以采用等频率间隔的滤波器,这样能够均匀地反映频率结构,对 于提取基音周期或者共振峰都较为有效。 也可以采用m e l 刻度1 2 5 】来设计滤波器组。m e l 刻度是种反映听觉音调高度 的频率尺度,反映了人对于音高的判断尺度,根据m e l 刻度设计的滤波器组可以 有效反映语音的感知特性。m e l 刻度在小于l k h z 时是线性的,在l k h z 以上, 则采用对数形式: b ( f ) = 1 1 2 5 i n ( 1 + 厂7 0 0 ), l k n z ( 1 4 ) 对每一个滤波器的输出取对数能量s 川1 ,再对s i n l 做余弦变换,就可以得 到m e l 刻度频率倒谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s :m f c c ) : c i n l 一罗s 【m l c o s ( 聊( 小+ l 2 ) m ) 0 n m ( 1 - 5 ) 筋 语音识别中,一般取前1 2 阶的m f c c ,以及语音信号的倒谱能量作为特征 向量。相对l p c c 而言,m f c c 的鲁棒性较强,受信道干扰、加性噪声的影响较 小,因此近年来在大词汇量语音识别中,m f c c 是最为常用的特性。而l p c c 的 提取算法较为简单,更适合于在系统能力有限的情况下使用。 1 3 3 声学模型 声学模型是基于模式识别的语音识别算法中最重要的部分,合理反映语音的 6 第一章绪论 声学特征,有效描述语音特征空间的概率分布都决定了语音识别的性能。目前, 最常用的声学模型是隐马尔可夫模型。隐马尔可夫模型能够有效地体现语音的时 序特性,因此在各种类型的语音识别系统中都得到了应用。由于本文讨论的动态 特性建模均基于h m m ,本章将在第四节介绍这一模型的基本原理。 针对不同语音识别系统的目标,语音的声学模型种类有很多种: 根据h m m 中的观察概率不同,可以分为连续的隐马尔可夫模型( 一般选择 高斯分布) 、离散的隐马尔可夫模型(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论