




已阅读5页,还剩72页未读, 继续免费阅读
(计算机科学与技术专业论文)基于改进训练算法的hmm语音识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 语音识别技术经过5 0 多年的发展,已经在社会生活中得到了广泛的应用。在 语音识别技术的发展历程上形成了各种理论和方法,如矢量量化、隐马尔科夫模 型、神经网络等,隐马尔科夫模型的贡献让语音识别扩展到大词汇量、非特定人、 连续语音识别。然而,隐马尔科夫模型训练算法存在容易陷入局部最优解的缺陷, 随着智能算法的深入研究,智能语音识别技术成为当前研究的热点。 语音信号的分析和处理是语音识别的前提和基础。本文首先论述了语音产生 的机理、语音的特征、语音的数学模型,介绍了语音信号的预处理方法;总结了 端点检测的常规方法和各种改进的方法;阐述了用于语音特征压缩和编码的矢量 量化方法,给出了码本设计l b g 算法的具体步骤。在此基础上,系统回顾了h m m 的基本思想,h m m 的前向后向算法、v i t e r b i 算法、b a u m w e l c h 算法。并结合现 代人工智能算法的研究成果,融合克隆选择算法和基因克隆技术,提出了一种改 进的b a u m w e l c h 算法,即基因克隆的b a u m w e l c h 算法( 简称g c b w 算法) ,该 算法优化隐马尔科夫模型的参数b ,以解决b a u m w e l c h 算法容易陷入局部最优解 的问题。 t i m i t 语音库的实验表明:g c b w 算法最终输出概率对数比b w 算法平均提 高3 6 7 ,4 状态和5 状态测试集上的语音识别率平均提高1 4 9 和2 6 4 。本文 还在m a t l a b 实验平台上开发了语音识别原型系统,应用该系统的特定人在线语音 识别实验,进一步验证了g c b w 算法的可行性和有效性。该仿真系统为模型参数 分析和算法改进设计提供了方便,也为以后的学习者提供了较好的实验平台。 关键词:语音识别;隐马尔科夫模型;b a u m w e l c h 算法;克隆选择算法;基因克 隆 a b s t r a c t a t t e r5 0y e a r fd e v e l o p m e n t ,s p e e c h r e c o g n i t i o nt e c h n o l o g yh a sb e e nw i d e l ya p p l l e dmo u re v e r y d a yl i f e v a r i o u st h e o r i e sa n dm e t h o d s w e r ef o m e dd u r i n gt h ed e v e l o p m e n to fs p e e c h r e c o g n i t i o n f o re x a m p l e ,r e c t o rq u a n t i z a t i o n 、h i d d e nm a r k o vm o d e l s 、 a r t i f i c i a ln e u r a ln e t w o r ke t c t h e c o n t r i b u t i o no f h i d d e n m a r k o vm o d e l se x t e n d s r e s e r c h i n ga r e at ol a r g e v o c a b u l a r y 、 s p e a k e r - i n d e p e n d e n 【、c o n t i n u o u ss p e e c nr e c o g n i t i o n h o w e v e r t r a i n i n g a l g o r i t h mo fh i d d e nm a r k o vm o d e l si s e a s i l yt r a p p e di nal o c a lo p t i m u m w i t ht h e d e e pr e s e a r c ho fi n t e l j l g e n t a 1 9 0 n t h m ,i n t e l l i g e n ts p e e c hr e c o g n i t i o nt e c h n o l o g yb e c o m e st h e b o tt o p i co fc u r r e n tr e s e a r c h s p e e c hs l g n a la n a l y s i sa n dp r o c e s s i n g a r ep r e c o n d i t i o na n db a s i s0 fs p e e c h r e c o g n l t l o n f i r s t ,t h i st h e s i sd i s c u s s e s s p e e c hg e n e r a t i n gm e c h a n i s m , s p e e c hc h a r a c t e r i s t i c sa n dt h em a t h e m a t i c a l m o d e lo fs p e e c h ,i n t r o d u c e s p r e p r o c e s s i n g m e t h o d s ;t h e ns u m m a r i z e sc o n v e n t i o n a lm e t h o d sa n di m p r o v e dm e t h o d s : e l a b o r a t e sv e c t o r q u a n t i z a t i o nw h i c hi su s e df o rs p e e c hf e a t u r e c o m p r e s s i n ga n dc o d i n g a n d9 1 v e ss t e p so fl b ga l g o r i t h mf o rc o d e b o o k d e s i g n i n gi nd e t a i l a tt h e b a s l s0 fs p e e c h s i g n a la n a l y s i sa n dp r o c e s s i n g ,t h i st h e s i s s y s t e m a t i c a l l vr e v i e w e dt h eb a s l ci d e ao fh i d d e nm a r k o v m o d e l s ,f o r w a r da n db a c k w a r da l g o r i t h m s v 1 t e r b la l g o m ma n db a u m w e l c ha l g o r i t h m o n t h ea c h i e v e m e n to fm o d e 功a r t l 士1 c l a l i n t e l l l g e n ta l g o r i t h m ,t h i st h e s i sc o m b i n ec l o n es e l e c t i o n a l g o r i t h ma n d g e n ec l o n l n gt e c h n i q u e ,a n d p r o p o s ea l li m p r o v e db a u m w e l c ha l g o r i t h m t h a t g e n e c l o l l i n gb a u m w e l c na l g o r i t h m ( g c b wa l g o r i t h m ) t h i s a l g o r i t h mo p t i m i z e st n ep a r a m e t 盯bo fh i d d e nm a r k o vm o d e l s ,t o s o l v et h ep r o b l e mt h a tb a u m w e l c ha l g o r i t h mi s e a s i l yt r a p p e di n t oal o c a l 0 p t i m a ls o l u t i o n e x p e r h n e n t a l r e s u i t so nt i m i ts p e e c hc o r p u s s h o wt h a t :o u t p u t p r o b a b i l i t y o fg c b wa l g o r i t h mi s a v e r a g e3 6 7 h i g h e rt h a nb wa l g o r i t h m ,s p e e c h r e c o g n l t l o nr a t eo ft e s ts e ti n s t a t e4a n ds t a t e 5 ,g c b wa l g o r i t h mi s h i g h e rt h a n bwa j g o r i t l l m , s e p a r a t e l y1 4 9 a n d 2 6 4 p r o t o t y p es p e e c hr e c o g n i t i o ns y s t e m1 s d e v e l o p e do nt h ep l a t f o r mo fm a t l a b e x p e r i m e n t a l r e s u l t so fs p e c i f i c p e o p i eo n l i n es p e e c hr e c o g n i t i o n f u r t h e rp r o v et h a tg c b wa l g o r i t h mi s f e a s i b l ea n de f f e c t l v e i ti sc o n v e n i e n tt o a n a l y z em o d e lp a r a m e t e r sa n di m p r o v et h ea lg o n t n m ,a n di ti sag o o de x p e r i m e n t a l p l a t f o r mf o rn e wl e a m e r s i i i 硕 :学位论文 k e yw o r d s :s p e e c hr e c o g n i t i o n ;h i d d e nm a r k o vm o d e l s ;b a u m w e l c ha l g o r i t h m ; c l o n es e l e c t i o na l g o r i t h m ;g e n ec l o n i n g i v 硕i 二学位论文 插图索引 图2 1 语音产生系统示意图1 0 图2 2 语音信号“0 ”时域图1 2 图2 3 语音信号“0 ”预加重处理时域图一1 2 图2 4 “严重告警”的短时能量图1 5 图2 5 “严重告警”短时能量端点检测图1 5 图2 6 “严重告警”的短时平均幅度图1 5 图2 7 “严重告警”短时平均幅度端点检测图1 6 图2 8 “严重告警”短时过零率图1 7 图2 9 “严重告警”短时过零率端点检测图1 7 图2 1 0m f c c 特征参数的计算过程1 9 图2 1 1m e l 域中均匀滤波器组在频域上的显示2 0 图3 1 分段k 一均值算法流程图3 0 图3 2 各态历经型h m m 3 5 图3 3 从左到右有跨越型h m m 3 6 图3 4 从左到右无跨越型h m m 3 6 图4 1b i 基因片段图4 4 图4 2b j 和b i 的基因连接图4 5 图4 3 单状态观测值概率克隆主要过程一4 7 图4 4 混合算法的流程图4 8 图4 5d a r k 两种算法的输出概率曲线5 1 图4 6y e a r 两种算法的输出概率曲线5 1 图4 7 训练集语音识别率曲线5 3 图4 8 测试集语音识别率曲线一5 3 图5 1g u i 设计向导控制面板5 7 图5 2 新建空白的g u i 界面5 7 图5 3 语音识别系统结构图一5 8 图5 4 新建菜单按钮图5 8 图5 5 系统主界面5 8 图5 6 系统初始化语音采集界面6 0 图5 7 数据处理端点检测界面6 1 图5 8 数据处理特征提取界面6 l v i l i 图5 9b w 算法训练界面6 2 图5 1 0g c b w 算法训练界面一6 2 图5 1 l 语音识别在线测试对话框一6 3 图5 1 2 语音识别离线测试对话框6 3 图5 1 3 系统帮助对话框一6 3 i x 硕上学位论文 第1 章绪论 1 1 选题背景及课题来源 1 1 1 选题背景 在古代,人们就对开始对声音进行了研究,从而出现了琴、笛、钟、鼓等各 种乐器,给人们以美的享受,但是人们并没有足够的知识去理解和认识声音的本 质。随着人类社会的发展,科学技术的进步,人们在认识世界和改造世界的过程 中,伴随着对世界越来越深刻的理解,世界有了各种各样的发明和创造。1 8 3 5 年, 人类模拟自己身体器官的发音过程,发明了机械式会讲话的机器。随着机器发出 人的声音,人们对声音的进一步认识,人们开始研究人类自己的声音,人和机器 怎样才能更好地交流,如何才能使机器拥有人类一样的耳朵,具备听觉功能,从 而诞生了语音识别技术。语音识别技术已经在人类的生产和生活中得到广泛的应 用,但是市场上的语音产品远远未达到人们的要求。2 l 世纪,语音识别技术将得 到进一步的发展,它有着良好的市场前景,在一些应用领域中已经成为一个关键 的具有竞争力的技术。 在声控应用中,计算机识别输入的语音内容,并根据内容来执行相应的动作, 这包括声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭 服务、宾馆服务、旅行社服务系统、医疗服务、银行服务、股票查询服务和工业 控制等。语音识别也可用于将文字以口授的方式输入到计算机中,即广泛开展的 听写机研究,如声控打字机等【。语音识别听写机在一些领域的应用被美国新闻 界评为1 9 9 7 年计算机发展十件大事之一。很多专家都认为语音识别技术是2 0 0 0 年至2 0 1 0 年间信息技术领域十大重要的科技发展技术之一。2 0 0 9 年,日本推出 首个机器人教师,会讲7 0 0 个单词,能做6 种表情,语音识别技术( a u t o m a t i cs p e e c h r e c o g n i t i o n ,a s r ) 在聋哑人计算机辅助教学中也得到了开发与应用。2 0 0 9 年,谷 歌( g o o g l e ) 为苹果i p h o n e 智能手机开发出一款语音识别搜索应用程序,用户把 i p h o n e 手机举到自己脸部附近后,该应用程序将自动开启;用户对着手机讲明自 己需要查询的问题,相应声音将被转化成一个数字文件,并被发送到谷歌服务器 当中。谷歌服务器首先对该数字文件进行分析,并将其转化为一条文字查询要求, 然后再把相应搜索结果返回给用户。语音识别技术还可以用于自动口语翻译,即 通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言输 入的语音翻译成另种语言的语音输出,实现跨语言的交流,例如美国、日本、 欧洲,包括中科院自动化所参加的国际语音翻译先进联盟( c o n s o r t i u mo fs p e e c h 基于改进训练算法的h m m 语晋识别技术研究 t r a n s l a t i o na d v a n c e dr e s e a r c hi n t e r n a t i o n a l ,c s t a r ) 计划,正在重点开展的多语 种口语自动翻译研究。 说话人识别( s p e a k e rr e c o g n i t i o n ) 是根据从说话人所发语音中提取出的信息 判断说话人身份的过程。对说话人识别技术,近年来已经在安全加密、银行信息 电话查询服务等方面得到了很好的应用,机密场所的进入,银行的转帐等。此外, 在公安机关破案和法庭取证方面也发挥着重要的作用,警察需要借助于语音识别 和生物统计技术去捉拿一名罪犯,法官需要语音信息来鉴别罪犯。在军事上,利 用语音识别技术来识别敌方指挥员,从而有效地指挥战争,也具有重要意义。 1 1 2 课题来源 本课题来源于中国移动通信集团湖南有限公司。中国移动在我国移动通信大 发展的进程中,始终发挥着主导作用,并在国际移动通信领域占有重要地位。经 过十多年的建设与发展,中国移动已建成一个覆盖范围广、通信质量高、业务品 种丰富、服务水平一流的移动通信网络。中国移动通信有限责任公司通信机房设 备安全稳定运行将对中国移动用户手机通信起到保障作用。中国移动通信有限责 任公司通信机房现拥有交换设备、无线设备、传输设备、动环设备、网络监控等 设备。设备的生产厂家众多,有摩托罗拉、中兴、华为、浪潮、业通达等。为保 证整个通信网络,特别是机房设备安全稳定运行,集中声光告警监控系统通过声、 光等告警信号,以提醒机房监控人员及时通过系统维护终端进行维护。 湖南大学和中国移动公司合作成功开发了永州移动分公司集中声光告警监控 系统、张家界移动分公司集中声光告警监控系统,降低了工作人员的数量和劳动 强度。由于中国移动公司通信机房监控的目标众多,告警信号有轻重缓急,单调 的告警声音并不能够真实准确地表达目标所在地的故障信息,也没有达到人耳所 需要的优越的听觉效果,语音报警功能取代了刺耳枯燥的报警铃声,直接用合成 语音报出当前的警报种类,无需操作人员在仪器面板前值守,便可得知当前的报 警状态,开发出一套能够像人一样准确表达设备故障信息的实时语音告警监控系 统变得尤为迫切。由于分散告警的设备功能各不相同,则各个设备的出厂厂家以 及告警声音也不相同,这就要求集中声光告警台能够“听懂”分散告警的内容从而 实时地通知机房维护人员及时对设备进行维护和检修。集中声光告警系统主要实 现原有分散分专业告警为集中统一平台的听觉与视觉告警,由音频采集器采集到 各终端网元的告警信号,统一传送给集中监控台,集中监控台根据告警信息的不 同驱动合成的告警语音,发出声音告警。 2 硕一 j 学位论文 1 2 国内外研究现状 1 2 1 语音识别技术的研究与发展 语音识别技术的根本目的是研究出种具有听觉功能的机器,这种机器能直 接接受人的语音,理解人的意图,并做出相应的反应。语音识别技术诞生于2 0 世纪5 0 年代,1 9 5 2 年贝尔实验室的d a v i s 等人研制了特定说话人孤立数字识别 系统。该系统利用每个数字元音部分的频谱特征进行识别。1 9 5 6 年r c a 实验室 的o l s o n 等人也独立地研制出1 0 个单音字节的识别系统,系统采用从带通滤波器 组获得的频谱参数作为语音的特征。1 9 5 9 年f r y 和d e n e s 等人尝试构建音素识别 器来识别4 个元音和9 个辅音,并采用频谱分析和模式匹配来进行识别决策。与 此同时,麻省理工学院( m a s s a c h u s e t t si n s t i t u t eo ft e c h n o l o g y ,简称m i t ) 林肯 实验室的f o r g i e 等人,研究了1 0 个元音的识别,并采用了声道的时变估计技术。 2 0 世纪6 0 年代r c a 实验室的m a r t i n 等人开始研究语音信号时间尺度不统一的 解决办法,开发了一系列的时间归正方法,明显地改变了识别性能。与此同时, 苏联的v i n t s y u k 提出了采用动态规划方法解决两个语音的时间对准问题。日本学 者板仓( i t a k u r a ) 在此基础上于2 0 世纪7 0 年代提出了动态时间弯折算法( d y n a m i c t i m ew a r p i n g ,简称d t w ) 一种把时间归正和距离测度计算结合起来的非线 性归正技术1 2 】。2 0 世纪7 0 年代末8 0 年代初,l i n d a 、b u z o 、g r a y 等人解决了矢 量量化( v e c t o rq u a n t i z a t i o n ,简称v q ) 码本生成的方法,并将矢量量化技术成功 地应用到语音编码中 3 1 。2 0 世纪6 0 7 0 年代,b a u m 等人提出了隐马尔科夫理论, 随后由卡内基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ,简称c m u ) 的b a k e r 和国 际商业机器公司( i n t e r n a t i o n a lb u s i n e s sm a c h i n e sc o r p o r a t i o n ,简称i b m ) 的j e l i n e k 等人将其应用到语音识别中。2 0 世纪8 0 年代开始,语音识别研究取得了一个重 要进展,1 9 8 9 年贝尔实验室的r a b i n e r 发表了一篇论文at u t o r i a lo nh i d d e n m a r k o vm o d e l sa n ds e l e c t e da p p l i c a t i o n si ns p e e c hr e c o g n i t i o n ) 1 4 1 ,这篇论文用球 和缸的例子对隐马尔科夫模型作了深入浅出的介绍,才逐渐使世界各国语音处理 的研究人员了解和熟悉,进而成为公认的有效的语音识别方法。语音识别算法从 模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最 佳的语音识别系统。从2 0 世纪8 0 年代后期和9 0 年代初期开始,人- r , 0 经网络 ( a r t i f i c i a ln e u r a ln e t w o r k ,简称a n n ) 的研究异常活跃,并且也被应用到语音识 别的研究中。如今,一些模式识别、机器学习方面的新技术也被应用到语音处理 过程中,如支持矢量机( s u p p o r tv e c t o rm a c h i n e ) 技术、进化计算( e v o l u t i o n a r y c o m p u t a t i o n ) 技术等i l j 。 国际上著名的语音识别研究机构有i b m 、微软、g o o g l e 等i t 巨头。而n u a n c e 通信公司自2 0 0 5 年由原来国际上的四大语音公司以及其它几家在语音技术方面有 3 基于改进训练算法的h m m 语音识别技术研究 特点的语音公司整合以来,成为最大的专门从事语音识别软件销售的公司,目前 世界上最先进的电脑语音识别软件n a t u r a l l ys p e a k i n g 就出自于n u a n c e 公司。世 界语音技术市场,有超过8 0 的语音识别是采用n u a n c e 识别引擎技术,在中国有 9 0 的语音识别应用是采用n u a n c e 的核心技术,它能够提供从网络到互动式语音 应答( i n t e r a c t i v ev o i c er e s p o n s e ,简称i v r ) 的应用解决方案。 2 0 世纪5 0 年代末我国就有人尝试用电子管电路进行元音识别,而到了7 0 年 代才由中国科学院声学所开始进行计算机语音识别的研究,近年来发展很快。研 究水平也从实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。近年来,汉 语语音识别也获得了丰硕的成果。国内各高校、研究机构和企业也纷纷加入到语 音技术的行列,清华大学、哈尔滨工业大学、中科院自动化所、中科院声学所、 安徽科大讯飞信息科技股份有限公司和北京捷通华声语音技术有限公司等。其中 具有代表性的研究单位为清华大学电子工程系、中科院自动化研究所模式识别国 家重点实验室、科大讯飞信息科技股份有限公司。清华大学电子工程系语音技术 与专用芯片设计课题组,研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识 别率达到9 8 7 3 。中科院自动化所及其所属模式科技( p a t t e k ) 公司2 0 0 2 年发布了 他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品 p a t t e k a s r ,结束了中文语音识别产品自1 9 9 8 年以来一直由国外公司垄断的 历史。2 0 0 7 年,中科院自动化所开发的c a s i a 汉英口语自动翻译系统在意大利 特兰托国际口语翻译系统评测中取得了人工评测第一名。科大讯飞在2 0 0 9 年美国 国家标准与技术研究院( n a t i o n a li n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ,简称n i s t ) 组织的语种识别评测大赛获得高难度混淆方言测试冠军,通用测试指标亚军。 1 2 2 智能算法在语音识别中的应用 生物界的许多奇妙的现象引起了人们的广泛兴趣,科学家根据蝙蝠的超声波 发明了雷达,根据乌在天空中飞行的特点发明了飞机。1 9 7 5 年美国密歇根大学 ( u n i v e r s i t yo f m i c h i g a n ) 的j h o l l a n d 教授首先提出了遗传算法( g e n e t i ca l g o r i t h m , 简称g a ) ,这是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程 的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,j h o l l a n d 教授出 版了颇有影响的专著a d a p t a t i o ni nn a t u r a la n da r t i f i c i a ls y s t e m s ) ) ,g a 这个名称 才逐渐为人所知,遗传算法掀起了一股模拟生物智能的智能算法的热潮。1 9 9 2 年 意大利m a r c od o r i g o 在他的博士论文中提出了蚁群算法( a n tc o l o n yo p t i m i z a t i o n , 简称a c o ) ,其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。蚁群算法又 称蚂蚁算法,是一种用来在图中寻找优化路径的概率型算法,最早成功应用于解 决著名的旅行商问题( t r a v e l i n gs a l e s m a np r o b l e m ,简称t s p ) ,现在已经成为前沿性 4 硕上学位论文 的热点研究领域。1 9 9 5 年美国社会心理学家j a m e sk e n n e d y 和电气工程师r u s s e l l e b e r h a r t 提出了粒子群算法( p a r t i c l es w a r mo p t i m i z a t i o n ,简称p s o ) ,它的基本 概念源于对鸟群觅食行为的研究。这种算法以其实现容易、精度高、收敛快等优 点引起了学术界的重视,并且在解决实际问题中展示了其优越性。2 0 0 0 年,基于克 隆选择原理,巴西c a m p i n a s 大学的d ec a s t r o 博士最早在其博士论文中总结了人 工免疫系统,并提出了一种简单的克隆选择算法”】。该算法模拟了人类免疫系统 抗体与抗原之间的作用关系,这种算法提供了一种新的解决问题的思路。 语音信号的随机性使得不同的人说相同的话或者同一个人在不同时间说相同 的话都具有差别,概率统计模型在一定程度上很好的表示了相同话语的共性,它 最终归结为精确的方程求解问题。大多数情况下模型受一定条件约束,得到的方 程无法求得其精确解,从而不能描述不同语音信号的特征,使得语音识别率难以 提高。智能算法不受条件限制,它的随机搜索特点将为扩大模型方程解空间搜索 范围提供了方便,建立的语音信号模型将更精确。智能算法已经应用到隐马尔科 夫模型和语音信号众多参数的优化,在某些方面也取得了一定的效果,如观测值 概率矩阵b 的优化,矢量量化码本的优化。相关的文章有:基于分段模型和遗传 算法的广播新闻报道分割和主题分类【6 】、进化计算和b a u mw e l c h 算法相结合对 初始参数b 训练的方法【_ 7 1 、基于禁忌搜索的遗传算法h m m 优化【8 i 、应用蚁群算 法的泰语识别【9 】、蚁群算法在语音识别中的应用研究i 旧l 、采用粒子群算法的分类 自适应高斯混合模型【l 、粒子群优化h m m 的算法【l2 1 、一种基于人工免疫和语音 框架的移动机器人导航【l3 1 、说话人识别中采用混合免疫算法的v q 码本设计等【l 4 1 。 1 3 论文研究内容 本文的研究内容主要分为四个部分: ( 1 ) 语音信号的分析和处理。阐述了语音信号的产生、特性、数学模型,简 单介绍了预处理方法如采样量化、预加重、加窗分帧。重点研究了端点检测算法, 分析了常用的端点检测算法,如短时能量端点检测、短时过零率端点检测、短时 幅度端点检测,并且对各种端点检测算法用m a t l a b 进行了实验仿真。接着是关于 语音信号的特征提取,特征提取采用应用最广泛的m f c c 特征参数提取方法。 m f c c 特征考虑了人耳的听觉特性,将频谱转化为基于m e l 频率的非线性频谱, 然后转换到倒谱域上。由于充分模拟了人的听觉特性,在目前来说也是最有效的 语音信号特征提取方法。最后对语音信号的矢量量化及码本生成算法进行了说明。 ( 2 ) 隐马尔科夫模型。简单介绍了隐马尔科夫模型的发展及其在语音识别中 对语音信号的表示。详细推导了隐马尔科夫模型最主要的三个算法,即隐马尔科 5 基于改进训练算法的h m m 语音识别技术研究 夫模型的三个问题。重点分析了隐马尔科夫模型应用于语音识别中所出现的各种 问题,如初始模型选取、多观察值序列、数据下溢问题,并给出了相应的解决方 法,总结了隐马尔科夫模型各种形状和语音概率密度分布函数的各种表示方法。 ( 3 ) 语音信号的模型训练。提出了基于克隆选择算法和基因克隆技术的语音 模型训练。针对b a u m w e l c h 算法对初始模型的依赖大容易陷入局部最优解的特 点,将克隆选择算法和b a u m w e l c h 算法相结合,并用基因克隆技术对模型输出概 率参数b 进行优化操作。通过m a t l a b 平台的语音模型训练输出概率实验和语音识 别实验得到混合算法的优化结果。 ( 4 ) 语音识别系统的仿真设计。简单介绍了m a t l a b 软件和m a t l a b 图形用户 界面( g r a p h i c a lu s e ri n t e r f a c e ,简称g u i ) 。利用m a t l a b 图形用户界面( g u i ) , 在其平台上实现了语音识别系统的友好设计。 1 4 论文的组织与章节安排 论文研究的重点主要集中在三个方面:一、端点检测算法,二、隐马尔科夫 模型语音训练算法的改进,三、语音识别系统的设计。端点检测算法在语音识别 中起到很关键的作用,好的算法能够带来较高的语音识别率。常规的端点检测算 法存在着各种各样的缺点,本文分析了常用的端点检测算法,总结了端点检测算 法的改进。克隆选择算法具有比遗传算法更好的全局搜索性能,能够克服遗传算 法容易陷入局部最优解的缺点,将b a u m w e l c h 算法的快速收敛性和克隆选择算法 的全局收敛性相结合,并对隐马尔科夫模型参数b 进行基因克隆操作,在m a t l a b 实验平台上通过了实验仿真验证。论文共分为五章,各章节安排如下: 第1 章是绪论部分,说明了课题的选题背景和课题来源,语音识别技术的研 究和发展现状,智能算法在语音识别中的应用,以及论文的研究内容和结构安排。 第2 章介绍了语音信号的分析和处理过程。包括语音的声学基础及产生模型, 语音信号的预处理、端点检测、语音信号m f c c 特征参数的提取,以及矢量量化。 第3 章介绍了隐马尔科夫模型的基本理论,它对语音信号的描述、三个基本 算法,以及隐马尔科夫模型应用于语音识别各种算法存在的一些问题和相应的解 决措施。 第4 章介绍了克隆选择算法的和基因克隆技术的发展、基本原理、实现步骤。 在总结各种隐马尔科夫模型语音参数优化算法的基础上,提出了将克隆选择算法 和b a u m w e l c h 算法相结合的混合算法隐马尔科夫模型训练,并将基因克隆技术应 用到隐马尔科夫模型参数b 的优化中。 第5 章语音识别系统的设计,在m a t l a b 图形用户界面( g u i ) 上实现了语音 识别系统。 6 硕上学位论文 第2 章语音信号的分析和处理 语音信号处理是一门和认知科学、心理学、语言学、计算机科学、模式识别 和人工智能等学科紧密相连的交叉学科。语音识别研究的前提和基础是对语音信 号进行分析和处理,只有将语音信号表示成其本质特性的参数后,才有可能利用 这些参数进行识别模板的建立。因此,应先对语音信号进行特征分析和数字处 理,得到进行语音识别的有用数据,并据此来设计语音识别系统的软件和硬件。 本章主要介绍语音信号分析知识和相关的处理方法。 2 1 语音信号的声学基础及产生模型 2 1 1 语音信号的产生 要想对语音信号进行建模和识别首先要知道语音信号的产生机理以及语音信 号的特性。语音信号的产生过程主要分为以下几个阶段: ( 1 ) 想说阶段:首先,说话人在大脑中产生想要用语言表达的信息,接着讲 话神经中枢选择恰当的单词和短语将这些信息按语法规则组合,这些信息就被转 换成了语言编码,以表达说话人想说的内容。 ( 2 ) 说出阶段:由大脑中枢决策,以脉冲形式向发音器官发出指令,说话人 会用一些神经肌肉命令在适当的时候控制声带振动,并调节声道的形状以便发出 编码中指定的声音序列。神经肌肉命令必须同时控制调音的运动中涉及的各个部 位,包括:唇、腭、舌头以及控制气流进入鼻腔的软腭。 ( 3 ) 传送阶段:说出来的话语是一连串声波,它以空气为媒介传送到听者的 耳朵里。 ( 4 ) 接收阶段:从外耳收集到的声波信息,经过中耳的放大作用,到达内 耳。听者内耳的基底膜对语音信号进行动态的频谱分析,接着神经传感器将基底 膜输出的频谱信号转换成对听觉神经的触动信号,并以脉冲形式传送给大脑。 ( 5 ) 理解阶段:作用在听觉神经上的活动信号,在听者大脑更高层的中枢转 化成语言编码,并由此产生具有意义的信息,从而听懂了话语的内容。 2 1 2 语音信号的特征 语音信号的主要声学特征有: 音色:声音的感觉特性,是一种声音区别于另一种声音的基本特征。 音调:指声音的高低,它取决于声波的频率。 音强:声音的强弱,又称音量,它由声波的振动幅度决定。 7 基于改进训练算法的h m m 语音识别技术研究 音长:声音的长短,它取决于发音时间的长短。 音节:语音的基本结构单位,是自然感到的最小语音片段。 音素:语音发音的最小单位。 元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这 些声腔完全开放,气流顺利通过,这种受到阻力极小并无摩擦声音的语音称为元 立 目。 辅音:发音时克服气流在口腔或咽腔受到的阻碍而产生的音素。 共振峰:元音的另一个重要声学特征,当元音激励进入声道时会引起共振特 性,产生一组共振频率称为共振峰频率或简称共振峰。共振峰反映了声道的物理 特征。 基音:一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复 合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音。 基音周期:声带每开启和闭合一次的时间,它的倒数称为基音频率。 浊音:当声带处于收紧状态时,流经的气流使声带振动产生的声音。 清音:不伴有声带振动的声音。 2 1 3 语音信号产生的数学模型 语音的产生系统可以分成三个部分:在声门以下负责产生激励振动的部分称 “激励系统”,从声门到嘴唇的呼气通道部分称“声道系统”,语音从嘴唇辐射出去 在嘴唇以外部分称“辐射系统”。对应这三个语音产生系统的三个数学模型分别是 激励模型、声道模型、辐射模型,这三个模型构成了整个语音产生系统。 ( 1 ) 激励模型 根据发音的时激励情况的不同,激励模型一般分为浊音激励和清音激励。在 发浊音时,气流通过绷紧的声带,对声带进行冲击而产生振动,由于声带的不断 张开和关闭,产生类似于斜三角形的脉冲波。单个斜三角形脉冲波的数学表达式 如下: i1 1 2 1 一c o s ( n x m ) 】0 以m g ( 刀) = c o s x ( n - i ) 2 2 】m 刀m + n 2 ( 2 1 ) l 0其他 公式( 2 1 ) 中,n l 为斜三角波上升部分的时间;n 2 为下降部分的时间。如 果将公式( 2 1 ) 变换到频域,则它相当于一个低通滤波器。因此通常将它表示成 z 变换的全极点模型形式如下: g ( z ) = 瓦杀历 ( 2 2 ) 公式( 2 2 ) 中,g l 和9 2 都接近1 ,这样斜三角波的可以看作是加权的单位脉 8 硕l :学位论文 冲经过上述的低通滤波器的输出。而单位脉冲可以表示为z 变换形式,即 e ( z ) = 啬 ( 2 3 ) 公式( 2 3 ) 中,a v 是调节浊音的幅值或能量的参数。因此,整个激励模型 可以表示为: ) 刈郴= 啬瓦矛杀历 2 4 ) 在发清音时,气流通过声门直接进入声道而不使声带发生振动。无论是擦音 还是塞音,声道都被阻碍形成湍流,激励信号相当于一个随机白噪声,实际上它 可以用均值为0 ,方差为1 ,并在时间或幅值上用白色分布的序列来表示。 ( 2 ) 声道模型 对于声道模型通常有两种建模方法:一、声管模型,将声道看作是由多个等 长不同截面积的声管串联而成;二、共振峰模型,将声道视为一个谐振腔,共振 峰就是这个腔体的谐振频率。因为人耳听觉的柯蒂氏器官的毛细胞是按着频率感 受来排列其位置的,所以共振峰模型是一种很有效的、经常被使用的模型。实践 表明:前3 个共振峰已足以代表一个元音,而对于较复杂的辅音或鼻音,估计需 要5 个以上的共振峰才行。 共振峰特性的全极点模型表示如下: y ( z ) = i 二一 ( 2 5 ) y a ,z 一 l i = o 公式( 2 5 ) 中,p 为全极点滤波器的阶,一般在8 1 2 范围内取值。它的每 一对极点对应一个共振峰。a i 为声道模型参数,它随声道的调音运动不断变化。 由于声道的惯性使这些参数变化的速度受到限制。一般在1 0 m s - - - 3 0 m s 的时间间 隔内,认为这些声道参数保持不变,这也是语音信号短时分析的理论依据之一。 ( 3 ) 辐射模型 从声道输出的是速度波,而语音信号是声压波,两者的倒比称为辐射阻抗 z 。z 可以来表示口唇的辐射效应,也包括头部的绕射效应等。从理论上推导这 个阻抗是有困难的,但是如果认为口唇张开的面积远小于头部的表面积,就可以 推导出如下辐射阻抗公式: z ( q ) :丝墨 ( 2 6 ) 尺+ 乒址 公式( 2 6 ) 中,r :罢,乞:兰,这里a 是1 :3 唇张开时的开口半径,c 9 a 。3 x c 是声波的传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,并且研究表 9 基于改进训练算法的h m m 语音识别技术研究 明,口唇端的辐射效应在高频段较为明显,而在低频段影响较小,因此可以用一 个高通滤波器来表示辐射模型。如: r ( z ) = ( 1 - r z 1 ) ( 2 7 ) 公式( 2 7 ) 中,系数r 接近1 。在实际信号分析时,常采用这样的预加重技 术。即在采样之后,插入一个一阶高通滤波器。在语音合成时再进行“去加重”, 就可以恢复原来的语音。 语音信号产生系统的完整模型可以用3 个模型串联而成,如图2 1 所示,其 传递函数为 日( z ) = u ( z ) 矿( z ) r ( z ) ( 2 8 ) l 善水冲模叶 声道参数 网 l 周磐发h 州1 量麒船r歹 v 一声道模型f - 辐射模型i 随生器卜ik y j i i 幅摩l 语音信号 图2 1 语音产生系统示惹图 图2 1 中激励模型分为浊音激励和清音激励,声道模型主要是共振峰模型, 辐射模型相当于高通滤波器。 2 2 语音信号的预处理 语音信号的预处理包括采样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年计算机及外部设备维修服务项目提案报告
- 2025年塞克硝唑药物项目申请报告
- 考古发掘保护现代承诺函7篇
- 法律文书草拟与合同审核流程模板
- 2025年古董收藏品项目提案报告范文
- 主动担责承诺书模板(6篇)
- 2025年护创敷料耗材项目立项申请报告
- 多行业共同认可的员工手册编制规范
- 2025年威海市水产学校公开招聘教师(7人)模拟试卷附答案详解(黄金题型)
- 2025-2026学年陕西省汉中市高三上学期第一次校际联考英语试题(解析版)
- 二手车经销公司管理制度
- 十五五护理工作发展规划
- 消防宣传安全常识课件
- 宅基无偿转赠协议书
- GB/T 1040.1-2025塑料拉伸性能的测定第1部分:总则
- 学校食堂食品安全风险管控清单
- DB54/T 0316-2024藏香生产技术规程
- 车间8s管理制度培训
- 电力行业职业健康卫生管理制度
- 新22J01 工程做法图集
- 口腔诊所医患沟通与纠纷处理预案
评论
0/150
提交评论