




已阅读5页,还剩52页未读, 继续免费阅读
(生物医学工程专业论文)小型语音识别系统的研究和开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t s p e e c hi sa ni m p o r t a n tt o o lt oc o m m u n i c a t eb e t w e e nh u m a nb e i n ga n dm a c h i n e s s p e e c hr e c o g n i t i o nm e a n s t h em a c h i n e su n d e r s t a n dt h es p e e c h n o ws p e e c h r e c o g n i t i o nt e c h n o l o g yh a sb e e nb r o a d l ya p p l i e d t h i sp a p e rs m a l l s c a l es p e e c h r e c o g n i t i o ns y s t e ma i m st ot h es m a l l s c a l ev o c a b u l a r ya n di s o l a t e d - w o r d ss p e e c h r e c o g n i t i o n ,t h i sp a p e ri sd i s c u s s e df r o mt w os i d e s o nt h eo n es i d e ,t h ep a p e rf o c u s e so nt h ep a t t e r nr e c o g n i t i o n ,t h ep r i n c i p l ea n d m o d e l so fs p e e c hr e c o g n i t i o n w eb u i l dt h em o d e lt or e c o g n i z et h es p e e c hi nt h e s m a l l s c a l ev o c a b u l a r y f i r s t l y , t h ep r i n c i p l eo ft h es p e e c hr e c o g n i t i o n ,i n c l u d i n gt h e d i g i t a ls p e e c hm o d e la n ds p e e c hp r o c e s s i n g ,i si n t r o d u c e d s p e e c hs i g n a lf r a m i n ga n d e n d p o i n td e t e c t i o na r ee m p h a s i z e d s p e e c hf e a t u r ee x 订a e t i o ni so n eo ft h ei m p o r t a n t p a r t so fs p e e c hr e c o g n i t i o n l i n e a rp r e d i c t i v ec e p s t r u mc o e f f i c i e n t s ( l p c c ) a n d m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) ,t w os p e e c hf e a t u r ep a r a m e t e r sa r e d i s c u s s e d w ec h o o s et h em f c ca st h es p e e c hf e a t u r ep a r a m e t e r t h ep r i n c i p l eo f d y n a m i ct i m ew a r p i n g ( d t w ) a r i t h m e t i ca n dh i d d e nm a r k o vm o d e la r ed i s c u s s e d a n du s e dt os p e e c hr e c o g n i t i o ns y s t e m b u i l d i n gt h ed t wm o d e l t o s p e a k e r d e p e n d e n ts p e e c hr e c o g n i t i o n ,w ep e r f o r mt h es p e e c hr e c o g n i t i o ne x p e r i m e n tf o r 0 - 9 1 0n u m b e r sa n d2 3c h i n e s ew o r d s t h er e s u l to ft h ee x p e r i m e n ti sg o o d a s w e l la sb u i l d i n gt h ec o n t i n u e sg a u s sd i s t r i b u t i o nh m mm o d e lt os p e a k e r i n d e p e n d e n ts p e e c hr e c o g n i t i o ns y s t e m ,w eg o tt h eb a s i sr e s u l ta f t e rt h ee x p e r i m e n t f o r1 0n u m b e r sw o r d s o nt h eo t h e rs i d et h ep a p e rf o c u s e so nt h es o f t w a r ed e v e l o p m e n t w es e tu pt h e s y s t e mo fc o m m a n dr e c o g n i t i o ne m b e d d e di nt h ee n d o s c o p ei m a g i n gs y s t e m ,u s i n g t h es o f td e v e l o p m e n tk i t ,s p e e c ha p i b a s e do nt h es y s t e mo fc o m m a n dr e c o g n i t i o n , t h er e s u l to fe x p e r i m e n t so nt h er e c o g n i t i o nf o r2 3c h i n e s ec o m m a n dw o r d si sg o o d f u r t h e r , w er e s o l v et h er e j e c t i o nr e c o g n i t i o np r o b l e ma n db r i n gf o r w a r dt h em e t h o d s t oi m p r o v et h er e c o g n i t i o nr e s u l t k e yw o r d s :s p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,l i n e a rp r e d i c t i v ec o d i n g ( l p c ) ,m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) d y n a m i c t i m ew a r p i n g ,h i d d e n m a r k o vm o d e l ,s p e e c ha p 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤生盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:张i 父 签字日期: 2 o 0 斗年f 月3 日 学位论文版权使用授权书 本学位论文作者完全了解叁生太鲎有关保留、使用学位论文的规定。 特授权鑫盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:孑长。气 导师签名 碡旌赶 签字日期:2 口叶年 月g 日签字日期:占卸弘年月扩r 第一章绪论 1 1 语音识别的概述 第一章绪论 语音不仅是人类之间进行信息交流最自然、最有效、最方便的工具,而且也 是人与机器之间进行通信的重要工具。语音技术作为常用人机交互方法,具有极 大的优势和便利。只要有机器存在的地方,就有语音技术应用的潜在可能。 语音识别是让机器通过识别和理解的过程把语音信号转变为相应的文本或 命令的技术“3 。语音识别作为- - t 综合学科,以语音为研究对象,是语音信号处 理的一个重要研究方向,它是模式识别的一个分支,涉及到生理学、,1 1 , 理学、语 言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言( 如人 在说话时的表情、手势等行为动作可帮助对方理解) ,其最终目标是实现人与机 器进行自然语言通信。 语音识别技术可以用在语音指令控制方面,例如,在一些工作环境恶劣、对 人身有伤害的地方( 如地下、深水及辐射、高温等) 或手工难以操作的地方,均 可通过语音发出相应的控制命令,让设备完成各种工作。比如地下采掘作业,工 人们不必再置身于随时面临危险、污染严重的环境下工作,他们可以在地面上的 监控室,通过专用语音控制系统,轻松地口述各项指令,指挥操作多台采掘设备, 实时处理现场出现的各种情况。d r a g o n 公司研制出大词汇非特定人语音听写系 统,并向市场推出医用听写机系统( d r a g o nn a t u m l l ys p e a k i n gm e d i c a ls u i t e ) 。 它是专为医生设计的听写机系统,成为医生的文秘助手 2 1 。医生可将病人的病例、 治疗方案和医疗报告等直接“口授”给计算机,以电子档案文件进行保存,并可 同时打印输出。 语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查询 系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称, 系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其他相关信息,如果 游客还需要进一步了解更为详尽的资料,则可以同系统进行交互式的对话,系统 将对用户的问题一一给予答复。日本丰桥大学研制的“富士山旅游咨询系统”就 是一个较为实用的语音查询系统,该系统可用日语、英语等进行查询。又如语音 自动订票系统,订票者只需对系统说出搭乘时间和目的地,系统就会显示出符合 定票者要求的各班次票价及售票情况,用户根据情况,通过系统作出适当的选择。 第一章绪论 美国的卡内基梅隆大学计算机系于1 9 9 6 年研制出语音航空定票系统,在此方 面做了有益的尝试。电话是电子技术在2 0 世纪应用最广泛的形式之一,在电话 中内置“语音拨号”功能,人们只需一次性地输入( 读入) 人名和电话号码, 在以后的使用中便可以直接对着电话“说出”要通话人的姓名,经语音识别后, 查出该姓名所对应的号码,然后自动进行拨号。实现语音拨打电话这一功能,只 需在电话机上安装一块微小语音识别芯片即可,这就是未来的语音电话1 3 ,4 j ,。 语音识别技术在辅助伤残人的各种设备中将发挥其难以替代的作用。对于一 个肢体伤残者或盲人,能够准确地使用各种现代电器是较为困难的,但若用声音 控制,则给伤残者或盲人提供了极大的生活便利。一些办公设备加上语音功能后, 即使是伤残者也可以足不出户地在家庭工作,语音产品为他们开辟了新的生活空 间【5 】。 通过上面的分析可以看出,语音识别技术许在许多领域都有广阔的应用前 景,而且语音识别技术在下面情况下显得尤为必要:在环境恶劣、对人身有伤害 的地方或手工难以操作的地方;没有键盘等输入设备( 如电话、一些移动和便携 式设备) ;用户的手和眼忙于处理其他的事务( i n 驾车,操作器械等) ;命令位于较 深层次的菜单结构中;用户不会或者不习惯键盘输入方式:残疾用户使用。 随着信息产业和互联网的快速发展,对语音识别的需求也更加迫切。 m i c r o s o r 公司的总裁比尔盖茨认为,下一代的操作系统以及应用程序的用户 界面将摒弃键盘和鼠标,代之以真正意义上的人机对话。在不远的未来,语音识 别将成为数字化时代的生活方式之一,机器能够自动识别人类所说的语言不再是 梦想。 1 2 语音识别技术发展的历史和现状 语音识别的研究工作开始于2 0 世纪5 0 年代,a t & tb e l l 实验室实现了第一 个可识别十个英文数字的语音识别系统一a u d r y 系统。6 0 年代,计算机的应用推 动了语音识别的发展,提出了动态规划( d p ) 和线性预测分析技术( l p ) ,后者 较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响 6 l 。 7 0 年代,语音识别领域取得了突破,在理论上,线性预测分析技术得到进一步 发展,动态时间规整技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和 隐马尔可夫模型( h m m ) 理论;在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立语音识别系统。8 0 年代,语音识别研究进一步走向深入,其 显著特征是h m m 模型和人工神经元网络( a n n ) 在语音识别中的成功应用。 h m m 模型的广泛应用归功于b e l l 实验室r a b i n e r 等科学家的努力,把原本艰涩 第一章绪论 的h m m 纯数学模型工程化,应用到语音识别领域,取得了很大的成功,现在已 经成为语音识别的主流技术【7 】。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走 向实用。i b m 、a t & t 、i n t e l 、m i c r o s o f t 等对语音识别系统的实用化开发研究投 以巨资,取得了一系列的商业进展。a t & t 在电信方面应用的语音识别系统,用 户可以直接跟机器对话。以中小词汇表为主的命令式语音识别,在包括呼叫中心、 语音拨号、移动设备中的嵌入式命令控制等方面的应用,达到了相当高的识别率。 i b m 公司推出的v i a v o i c e 系统标志着非特定人大词汇量连续语音识别的实用化, 利用v i a v o i c e 还可以将语音技术应用到个人数字助理( p d a ) 、智能汽车上,而 且它还提供语音开发工具,打造了一个全方位的语音平台。微软也提供了一系列 语音识别引擎形成了s p e e c hs d k 软件开发包等,在最新的o f f i c ex p 中内嵌入 了语音命令识别、语音听写引擎和语音合成引擎,用户可以对计算机发送命令或 者要求计算机记录用户所说的话,以及将文本转换成声音朗读出来。 近年来。中文的语音识别取得很大的进展。我国语音识别研究工作一直紧 跟国际水平,大词汇量语音识别的研究列入了国家“8 6 3 ”计划。“8 6 3 ”计划中提 交的“语音识别的改进隐含马尔可夫模型”,提出了基于段长分布的非齐次隐含马 尔可夫模型。它是对语音识别模型h m m 的重要推广,以此理论为指导所开发的 语音识别系统t h e e s p 汉字识别率达到了9 8 7 ,代表了这一领域国内最高水平 | 8 , 9 1 。鉴于中国未来庞大的市场,国外的研究机构和跨国公司也非常重视中文的 语音识别研究,从i b m 的v i a v o i c e 到m i c r o s o f t 的s p e e c hs d k 都支持中文语音 识别,并且提供中文语音识别的开发包。 尽管语音识别取得很大成功,但是距离真正的人机自由交流还有很大的距 离,例如,目前计算机还需要对用户作大量训练才能更准确识别,用户的语音识 别率也并不是尽如人意。主要困难在以下几个方面 1 0 】: ( 1 ) 识别系统的适应性差,主要体现在对环境依赖性强。特别在高噪音环境下 语音识别性能还不理想。 ( 2 ) 语音识别系统从实验室演示系统到商品的转化过程中,还有许多具体问题 需要解决。例如,识别速度、拒识等问题,还有连续语音中去除诸如“啊”、“唉” 等语音的技术细节问题。 ( 3 ) 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识最 化、建模并用于语音识别,还需要进一步的研究。 面对上面的困难,语音识别技术要做到真正成功,在任何环境中人机进行 自由的对话,不仅需要语音识别基础理论的突破,更需要大量的实际工作的积累。 第一章绪论 1 3 本课题的目的和意义 本课题提出是针对用户在内窥镜成像系统使用过程中,由于双手操作内窥镜 的原因,不能使用传统的方法( 键盘、鼠标) 操作电脑,如果能将语音指令系统应 用到内窥镜成像系统,用户通过语音指令控制内窥镜成像系统完成的一系列操 作,那么将会带来极大的方便。所以内窥镜成像系统对语音指令识别功能有强烈 的需求。 语音识别系统的分类方式及依据。根据对说话人说话方式的要求,可以分为 孤立词( 字) 语音识别系统,连接字语音识别系统以及连续语音识别系统。根据 对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据词汇量大 小,可以分为小词汇量( 通常包括几十个词) 、中等词汇量( 通常包括几百个词 至上千个词) 、大词汇量( 通常包括几千至几万个词) 以及无限词汇量语音识别 系统。 内窥镜成像系统有2 3 个常用词汇命令,指令识别系统就是基于这些词汇的 命令识别,按照分类属于小词汇量、孤立词的语音识别。这2 3 个常用命令和“o 9 ”1 0 个数字在语音指令识别中具有一定的代表意义,我们将这些词汇作为我们 识别研究的主要对象。所以本论文定位小型语音识别系统,小型是指针对小词汇 量的孤立词语音识别系统。 小词汇量的孤立词语音识别在理论和应用上是比较成熟的,由于识别系统需 要内嵌在内窥镜成像系统中,所以对于指令识别系统有更多要求:要求具有良好 的接口,保证内窥镜成像主系统的稳定;具有很高的语音识别正确率;对错误命 令能够拒绝识别,对识别错误的命令可以恢复;较快的反应速度,响应延迟小于 1 秒。 1 4 本论文的主要研究内容 本论文从两个方面展开,一方面从模式识别的研究角度,探讨了语音信号的 特征提取和语音识别的原理,建立了相应的语音识别模型;另一个方面从指令系 统的软件开发考虑,建立一个基于内窥镜成像系统的语音指令识别系统。本文的 主要内容安排如下: 第一章绪论部分。介绍了语音识别的概述和语音识别研究的发展,阐明了课 题的目的,并对论文研究内容和安排进行了介绍。 第二章语音信号的数字模型。从语音的发音生理过程和语音信号的声学特征 角度建立语音信号的数字模型,说明了语音信号的特点,最后给出了语音识别系 第一章绪论 统模型。 第三章语音信号的预处理和特征提取。语音信号预处理,主要包括语音的预 加重、分帧、端点检测。本章还论述了语音信号的特征参数l p c 和m f c c ,并 给出了具体的计算方法。 第四章特定人的语音识别。论述了动态时间规整算法( d t w ) 的原理和具 体算法,利用d 聊算法对特定人语音进行模板匹配。建立了“0 9 i ,十个数 字和2 3 个孤立词的d t w 模型,并进行了特定人语音识别实验。 第五章非特定人的语音识别。论述了隐马尔可夫模型( h i v l m ) 的原理和具 体算法,利用h m m 对非特定人进行语音识别。建立了“o 9 ”十个数字的连续 高斯分布h 模型,进行了非特定人语音识别实验。 第六章语音指令系统的设计和开发。本章设计了基于内窥镜成像系统的语音 指令识别系统,利用s p e e c hs d k 开发包实现了指令识别系统。讨论了指令系统 的识别效果和实际使用中拒识问题的解决办法,提出了改进提高系统识别效果的 方法。 第七章总结和展望。总结做的工作和成果,指出课题将来的研究和发展方向。 第二章语音信号的数字模型 第二章语音信号的数字模型 对语音信号进行数字处理,首先要建立一个能够精确描述语音产生过程和语 音全部特征的数字模型。人类的语音信号产生过程复杂,而且包含了丰富的信息, 因而迄今为止还没有能够细致描述语音产生过程和语音全部特征的理想模型。 f a n t uz l 提出的线性模型是描述语音主要特征比较成功的模型之一。本章根据人类 语音的发音生理过程和声学特征建立语音数字模型,然后说明语音信号的特点, 最后给出了语音识别系统的模型。 2 1 人类发音器官和语音的产生过程 人类的发声器官主要由三个子系统组成:肺和气管,喉,声道。发音时,空 气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。 肺是语音产生的能源所在。人在说话时候,肺将压缩空气呼出供给发音器官, 为了保持语音有一定程度的连续性,呼吸会有短暂的停顿。气管连接肺部和喉, 它是肺与声道的通道。喉是由软骨和肌肉组成的复杂系统,其中包含重要的发音 器官声带。图2 1 是声带示意图,声带前端由甲状软骨支撑,后端由杓状软骨支 撑,杓状软骨与环状软骨的上部相连接。这些软骨在环状软骨肌肉的控制下,能 将两片声带合拢或分离。声带之间的间隙称为声门。当两片声带分离时,处于张 开状态,这是正常的呼吸的状态;当两片声带合拢时候,声门关闭,此时喉道处 于封闭状态。声带的声学功能是为产生语音提供主要的激励源。 人 ( 4 ) 庳带分开 2 - 1 声带示意图 ( b ) 声带靠拢 第二章语音信号的数字模型 声道是指声门至嘴唇的所有的发音器官,主要包括:咽喉、口腔和鼻腔,图 2 2 是声道的纵剖面图。口腔包括上下唇、上下齿、上下齿龈、上下颚、舌和小 舌等部分。鼻腔在口腔的上面,靠上鄂的软鄂和小舌将其和口腔分开。口腔和鼻 腔都是发音的共鸣器。口腔中的各种器官能够协同动作,使空气流通时形成不同 的阻碍并产生振颤,从而发出不同的音。当小舌下垂使鼻腔和1 3 腔耦合时,将产 生出鼻音来。声道的声学功能主要是语音的发音和音色,另外声道还是语音辐射 的主要部位。 妇龈 上i 瞽 街 - f 唇 。f i 卑t t 舌t 1 - 甲状 | | r c 竹 2 2 声道的纵剖面图 空气从肺部排出形成空气流,空气流经声带时,如果声带是绷紧的,则声带 将产生张驰振动,即声带将周期性地开启和闭合。声带开启时,空气流从声门喷 射出来,形成一个脉冲,声带闭合时对应于脉冲的闻隙期。声带周期性地开启和 闭合,在声门处形成了准周期性脉冲序列的空气流,空气流经过声道最后从嘴唇 辐射出声波,这就是浊音语音。如果声带是舒展的,则肺部发出的空气流将不受 影响的通过声门,空气流通过声门后会遇到两种情况,一种情况是,如果声道的 某个部位发生了收缩形成了一个狭窄的通道,当气流高速达到此处时被迫以高速 通过收缩区,并在附近产生湍流,这种湍流的空气通过声道形成所谓的摩擦声, 即清音。另一种情况是,如果声道某处完全闭合在起,当气流到达便在此处建 立起空气压力,一旦闭合点突然歼启,空气快速释放,经过声道后形成的声音就 第二章语音信号的数字模型 是爆破音。由此可见,语音是由空气气流激励声道而产生 1 1 a 不同类型的声音, 激励源不同。浊音激励源是位于声门处的准周期脉冲序列,清音的激励源是位于 声道的某个收缩区的空气湍流( 类似于噪音) ,而爆破音的激励源是位于声道某 个闭合点处建立起来的气压以及突然释放。 2 2 语音信号的数字模型 图2 _ 3 给出了语音产生的数字模型。它包括三个部分:激励源、声道模型和 辐射模型【1 2 】。 基音叛率 图2 - 3 语音产生的数字模型 ( 1 ) 激励源。激励源分为浊音和清音两部分,按照浊音清音开关所处的位 置来决定产生的语音是浊音还是清音。在浊音的情况下,激励信号由一个准周期 脉冲发生器产生,产生的序列是一个周期为n o 的冲激序列,即每隔n o 点便有一 个样值为1 ,而其它值为0 的脉冲。上述的冲激序列通过一个声门脉冲滤波器, 浊音才会达到实际波形。r o s e n b e r g ( ”1 研究发现可以用斜三角脉冲发生器模拟自 然声门脉冲模型,斜三角波形的数学表达式如下: g ( 仃) = 委f l c 。s ( 玎一】) c o s ( z c ( n - n i ) 2 n 2 】 0 0 竹s t l 月2 ( 2 - 1 ) 其他 式中,n l 是斜三角上升部分的时间,n 2 是下降部分的时间。g ( n ) 的z 域传递函 第二章语音信号的数字模型 数为g ( z ) : g ( 加而旁再( 2 - 2 ) 式中,c 是一个常数,显然上式是一个二极点的模型。g ( z ) 乘系数a ,的作用是调 节浊音信号的幅度或能量。 在清音的情况下,激励信号近似白噪声,可以由一个随机噪声发生器产生。 设定其平均值为0 ,其自相关函数是一个单位冲激函数6 ( n ) 。这表明它的任何 两个不同样点是不相关且其均方值为1 。乘系数a u 的作用是调节清音信号的幅 度或能量。 ( 2 ) 声遭模型。为了得到声道模型,假定声道是一根具有时变特性的不均 匀截面的声管,在空气流体中或者声管壁上都不存在热传导和粘滞损耗,这样声 道可以视为由多段半径不同的无损声管串连而成 h 】,由此推导出串连无损声道模 型的系统函数v ( z ) ,在大多数情况下v ( z ) 是一个全极点模型,可以表示为: g y ( z ) = i 一 ( 2 - 3 ) l y 瓯= 1 篇。 式中,p 是极点的个数,g 是幅值因子,a k 是常系数。 虽然上面结论在多种假设下推导得到,但是实验证明基本上符合大多数语音 的实际情况。对于部分鼻音和摩擦音还应该加入零极点模型,才能全面反映语音 信号的特点,但是由于任何零点可以由多个极点来逼近,因此上面的全极点模型 模拟声道具有代表性。 ( 3 ) 辐射模型。语音经过口唇辐射发出,口唇的辐射效应在高频端较为显 著,在低频端影响较小,可以用一阶高通滤波器近似描述: 月( :) = r ( 1 一z 。)( 2 - 4 ) 综上所述,语音的数字模型可以看作由声门激励、声道模型和辐射模型三部 分串连形成的线形系统,系统的传递函数h ( z ) 可以表示为: h ( z ) = g ( z ) v ( z ) r ( z )( 2 5 ) h ( z ) 的一般形式为: 1 一y 巩= “ h ( z ) = g j 一 ( 2 - 6 ) l y a t “, z 女;i 式中,系数氆、b 。及增益因子g 是模型的参数,p 和q 是选定模型的阶数。h ( z ) 同时包含极点和零点,称为自回归一滑动平均模型模型( 简称a r m a 模型) 。当 b 。= 0 时,h ( z ) 为全极点模型: 第二章语音信号的数字模型 日( z ) = ;! l( 2 7 ) 1 - 艺a k z 一 k = l 此时模型的输出只取决于过去的信号量,这种模型称为自回归模型( 简称a r 模 型) 。 实际上最常用的模型就是( 2 7 ) 式的全极点模型,这是因为:全极点模型最容 易计算,对全极点模型做参数估计是对线性方程组求解过程:如果模型的阶数p 足够高,可以用全极点模型近似表示极零点模型。实验也证明全极点模型的阶数 取1 2 1 6 可以足够清晰描述语音信号。 2 3 人类的听觉和语音的感知 人的听觉器官是耳,其作用是接受声音并将声音转化成神经刺激。耳听到声 音后,还要经过脑的处理才能变成确切的含义,这就是对语音的感知。 人耳能感受的频率范围约为2 0 2 0 0 0 0 h z ,人耳对频率的分辨能力是非均匀 的,在1 0 0 5 0 0 h z 范围中,可分辨的两个纯音的频率之差为ft1 8 h z ,而在 5 0 0 2 0 0 0 0 1 - i z 范围中,相对频率分辨率几乎恒定,即f 。3 5 【l 。人耳对频 率的分辨能力是受声强的影响,对于过强或者太弱的声音,频率分辨力都会降低。 响度和音调也是比较重要的语音感知量。响度,是人类主观感觉到的声音强 弱程度,一般来说,当声音频率一定时,声强越强则响度也越大。人耳对于3 0 0 0 4 0 0 0 f i z 的声音音强感觉最敏感。音调是人类听觉系统对于声音的频率高低的感 觉,音调的单位是m e l 。人的听觉系统是个特殊的非线性系统,它响应不同频 率信号的灵敏度是不同,基本上是对数的关系。下一章m e l 频率倒谱参数就是在 此基础上提出的。 2 4 语音信号的特点 语音信号是非平稳信号,由于语音信号由发声器官的物理运动产生,这种物 理运动过程与声波振动的速度比起来缓慢的多,因此我们可以假定语音信号在 1 0 3 0 m s 的短时间内平稳。语音信号的这种短时平稳特点决定了对语音采取短 时处理方法,又称为时间依赖的语音信号处理方法。 短时处理分析又分为短时时域分析和短时频域分析。短时频域分析是指对各 段语音信号进行频谱分析,主要采用傅立叶变换的方法。短时时域处理主要是计 算语音的短时能量、短时平均幅度、短时过零率、短时相关函数等。 对语音信号进行采样,我们必须分析语音的频率范围。语音的频率范围可以 第二章语音信号的数字模型 达到1 0 k h z 以上,浊音信号频谱一般在4 k h z 以上就迅速下降,而清音信号的频 谱在8 k i - i z 还比较明显,根据采样定律,这意味着采样频率要大于1 6 k h z 。然而 在实际应用中不需要这么高的采样频率。从保证一定的可懂度方面考虑,c c i t t ( 国际电报电话咨询委员会) 提出的数字电话( 3 7 1 1 协议建议,采样率为8 k h z , 只利用了3 4 k i - i z 以内的语音信号分量。虽然这样的采样频率对语音清晰度是有 损害的,但受损失的只是少数辅音,而语音信号本身的冗余度又比较大,少数辅 音清晰度下降并不明显影响语句的可懂度,例如在通常模拟电话中带宽只有3 4 k h z 。在语音信号的数字处理中常使用8 k h z 或l l k h z 采样频率,这样既保证语 音处理的质量,不影响语句的可懂度,又减少了语音处理的计算量。 2 5 语音识别系统 语音识别本质上属于模式识别的范畴。根据模式识别的原理,未知语音的 测试模板与己知语音的参考模板逐一进行比较,获得最佳匹配的参考模板的语音 作为识别结果。图2 4 是根据模式匹配原理建立的语音识别系统。 p 际斗4 磊哆果 竺陌磷百板t 一练i j i i 芝应 首先语音经过预处理变成离散数字信号,预处理包括预加重、分帧、加窗 和语音端点的检测等过程。语音信号包含大量冗余信息,因此需要对语音信号进 行特征提取。特征的提取是一个信号解卷的过程,也是数据压缩的过程,特征提 取为下一步模式比较提供语音数据,所以语音特征参数的选择对识别效果非常重 要,常用的语音特征参数有线性预测编码、倒谱、m e l 频率倒谱系数。根据实际 需要选择语音特征参数,这些特征参数的时间序列构成了测试模板,将其与己存 在的参考模板逐一进行比较( 模式匹配) ,通过识别决策,获得最佳匹配( 由专 家知识确定) 的参考模板就是识别结果。参考模板是在系统使用前获得并存储起 来的,通过输入一系列的己知语音信号,提取它们的特征作为参考模式,这一过 程称为训练过程。模板匹配是识别的核心,针对语音信号特点选择和建立合适的 第二章语音信号的数字模型 识别模型和算法,本文采用动态时间规整算法和隐马尔可夫模型,分别对特定人 和非特定人进行语音识别。 本论文将按照语音识别系统的组成模型,讨论语音识别系统所涉及的基本原 理和关键技术:预处理、特征提取和模式匹配及模板训练技术,在此基础上建立 特定人和非特定人语音识别模型。语音识别系统各部分在后面的章节中具体论 述。 第三章语音信号的预处理和特征提取 第三章语音信号的预处理和特征提取 语音识别系统首先对语音信号进行预处理,主要包括语音信号的预加重、分 帧和加窗处理,以及具有重要意义的语音端点检测。语音信号包含大量冗余信息, 因此对语音信号进行特征提取,即将冗余度高、难处理、特征不明显的原始语音 信号变换为冗余度低、易于后续处理、并且带有尽可能多的分类信息的特征参数。 对特征参数的要求是: ( 1 ) 提取的特征参数能有效的代表语音特征。 ( 2 ) 各阶参数之间有良好的独立性。 ( 3 ) 特征参数计算方便,具有高效算法,以确保特征参数提取实时实现。 特征提取是语音识别的一个重要环节,它为下一步的模式匹配提供语音数据,特 征提取的好坏直接影响语音识别的效果。本章介绍两种常用的语音特征参数,并 给出了具体的计算方法。 3 1 预处理 语音由计算机麦克风输入,通过计算机声卡将原始模拟语音信号采样量化成 能够被计算机处理的数字信号。预处理主要包括语音信号的预加重、分帧和加窗 处理,以及具有重要意义的语音端点检测。 3 1 1 预加重 语音经过人的口盾辐射,然后经过麦克和声卡采集后,大约以每十倍频程 2 0 d b 的衰减,而噪声的功率随着频率平方增加,造成在高频段的语音信噪比降 低很多,通常采用预加重方法抵消这种现象,即采用适当的网络提升语音信号的 分量,提高信噪比。具体实现方法对采样后数字编码的语音信号通过特性为 ( 1 a z - 1 ) 的滤波器,a 值可在o 9 0 9 7 之间。 本文的语音信号通过计算机普通麦克风输入,经过a c 9 7 标准的声卡采集, 采用8 k h z 采样,1 6 位精度的p c m ( 脉冲编码调制) 编码,然后语音数字信号 通过特性为( 1 0 9 3 7 5 2 1 ) 的滤波器,进行预加重处理。 第三章语音信号的预处理和特征提取 3 1 2 语音信号的分帧和加窗处理 语音的短时平稳性决定了多数语音处理采用分帧技术。语音信号在1 0 - - 3 0 m s 的短时间内平稳,我们取帧长为3 0 毫秒,在8 k h z 采样下,每帧对应2 4 0 点。为了保证语音帧的连续性,采用帧重叠分析技术,相邻帧之间有交叠,这样 当计算新的语音帧时会有一部分数据的重叠,每一帧的重叠量决定语音信号能否 很快的随着语音帧进行变化。我们取帧移为l o 毫秒,即相邻两帧起始点相隔l o 毫秒,相邻帧之间重叠2 0 毫秒的语音信号。语音信号经过分帧处理后生一个新 的依赖于时间的语音帧序列。 语音的分帧处理会产生g i b b s 效应,一般采用语音帧加窗来解决,即: s 。( n ) = s ( n ) w ( n )( 3 - 1 ) s ( n ) 为语音帧,w ( r 1 ) 为窗函数,s w ( n ) 为加窗语音帧。在语音信号处理中,常用的 窗函数是矩形窗和哈明窗,其表达式为: ( 1 ) 矩形窗 f 10 n n 一1 w ( ”) 2 1 0n _ 其他值( 3 - 2 ) ( 2 ) 哈明窗 砌,:卜一c o s ( 器) 州0 n _ n 式中s g n n 表示取符号s g n = ,二 l l xu 两级判决方法是指利用短时能量来检验浊音,利用过零率来检测清音,两者 配合实现端点检测,算法上采用比较普遍的双门限方法。如图3 一l 所示首先根 据语音短时能量的轮廓选取一个较高的能量门限m l ( 图a ) ,大多数情况下语音 的短时能量都在此门限之上。当短时能量超过m - 可以基本确定是由语音信号引 起,那么语音起止点应该位于该门限与短时能量包络交点所对应的时间间隔之外 ( 即a b 段之外) 。然后根据背景噪声的平均能量确定一个较低的门限m 2 ,并从a 点往左,从b 点往右搜索,分别找到短时能量包络第一次与门限m 2 相交的两个 点c 和d ,于是c d 段就是用双门限方法根据短时能量所判定的语音段。以上只 是完成了第一级判决,接着要进行第二级判决。这次是以短时平均过零率z n 为 标准,设定一个过零门限m 3 ( 图b ) 。从c 点往左,从d 往右搜索,找到短时平 均过零率第一次低于门限m 3 的两点e 和f 。这便是语音段的起始点。当然,m , m 2 ,m 3 这三个门限值要通过实验来确定。在进行起止点判决前,通常都要采集 若干帧背景噪声并计算其短时能量和短时平均过零率,作为选择m 2 和m 3 的依 据。一般取m 3 = f 3 5 ) z n ,z n 为背景噪声的短时平均过零率。上面的分析是对 同一段语音中进行两级门限分析,在实际中,第一级短时能量的判决主要针对浊 音,第二级过零率的判断主要针对能量相对小的清音,而且过零率的判断也可以 设置两个高低门限进行判断。 圈3 - i 语音端点起止的两级判决法 ( b ) 第三章语音信号的预处理和特征提取 语音端点的判断会遇到噪音干扰的问题。主要面临的噪声有:持续的环境噪 音,如环境中风扇的声音;突发的环境噪音,如门窗的关闭、物体碰撞等引起的 噪音;录音系统的噪音,如工频干扰:还有说话者自身的非语音噪音等。消除噪 音、提高判断端点准确的方法有很多,例如:根据持续背景噪音选取短时能量门 限m i :设置最短门限时间判断,消除突发的噪音,如果总的计时长度小于最短 门限时间,则认为这是噪音;语音预处理时通过滤波器可以很好消除工频干扰: 此外,应改善硬件环境,例如采用性能较好的声卡、话筒等。 3 2 2 端点检测的实现 下面以数字“6 ”的语音信号为例子,对语音端点检测实现进行说明,具体 的流程在图3 2 中表示。经过预处理过程采集到数字语音信号,首先进行归一化 处理。实验中根据环境背景噪音和语音轮廓,采用两级双门限判别法。设置短时 能量的高门限m l 和低门限m 2 ,设置短时过零率高门限z i 和低门限z 2 。通过 m 2 ( z 2 ) 只能说明语音可能开始通过,只有通过m l ( z 1 ) 可以确信语音开始。 设置变量s t a t u s 表示当前状态,s t a t u s = 1 表示在检测起始点,s t a t u s = 2 表示已经 找到起始点n 1 ,在检测终点。当再次低于m l 和z l 门限,则认为找到语音的终 点n 2 。设置最大静音门限m a x s i l e n c e ,用于判断持续的环境噪音。设置最短门 限时间m i n l e n c e ,用于判断突发的噪音。 图3 3 将数字“6 ”的语音用竖线标出了开始端点和结束端点。 图3 - 3 数字6 的端点检测 第三章语音信号的预处理和特征提取 图3 - 2 端点检测流程图 1 7 第三章语音信号的预处理和特征提取 3 3 线性预测编码 线性预测编码l p c ( l i n e a rp r e d i c t i o nc o d i n g ) 在语音信号处理领域广泛应 用,它提供了很好的语音信号的特征参数,是最早应用在语音领域的实际技术。 线性预测编码又称为线性预测分析l p ( l i n e a rp r e d i c t i o n ) ,它的基本思想是:语 音信号的每个取样值,可以用它过去若干个取样值的加权和线性组合来表示;各 加权系数的确定原则是使预测误差的均方值最小【1 2 a 7 。 在上一章中给出了语音产生数字模型,这个模型也是l p c 的语音数字模型。 我们可以用全极点模型来描述l p c 模型如下: 日( z ) = ! 二( 3 6 ) 1 - 吼z “ 式中,a k 和增益系数g 是模型的参数,p 是选定的阶数。l p c 模型可以用有限的 模型参数来描述语音信号。具体来说,将语音信号s ( n ) 看作是l p c 模型的输出, ( 3 - 6 ) 式的差分形式可以表示输出s ( n ) 和输入u ( n ) 的时域关系为: j ( n ) = a k s 即- k ) + g “( ) ( 3 - 7 ) 式中,a k 称为l p c 系数。根据l p c 原理,语音信号的输出s ( n ) 可以用前面的p 个样本线性组合表示,定义系统的输出预测为: 5 ( n ) = 吼s ( n t ) ( 3 - 8 ) 定义系统的预测误差为: p ( n ) = j ( ”) 一j ( n ) = s ( n ) 一吼:“( 3 - 9 ) 为了计算方便,定义起点为n 的短时语音信号和误差信号: 黑黧葛 p , 巳( 研) = f 0 + 卅) 、。 误差平方和为: p1 2 e = ( m ) = f 霸( m ) 一吼o ( 小一七) f ( 3 1 1 ) 按照对预测误差的均方值最小的准则求a k , 令当:o ( 3 - 1 2 ) oo 定义相关函数为: 饥( f ,七) = 矗( 肌一f ) 凡( m t )( 3 1 3 ) 根据相关函数定义,整理( 3 1 2 ) 式后得到: 第三章语音信号的预处理和特征提取 屯( f ,女) = 口t 帆( f ,) ( 3 一1 4 ) 求解方程( 3 1 4 ) 的方法很多,主要有自相关法( d u r b i n 算法) 、协方差法、b u r g 算法等。d u r b i n 算法的递推求解公式为: e 0 1 = r ( 0 ) r ( f ) - 口? 。k ( f 一,) 面厂一 q ( i ) = 丘 ( 3 - 1 5 ) a j ( i ) = a y - ”+ 皇a ,i 蔓,# e 7 = ( 1 一k i 2 ) e 1 上式中,上标( i ) 表示第i 次迭代,迭代计算直到i = p ,得到l p c 系数a l ,a 2 ,a p 。 在实际语音识别系统中,很少直接使用l p c 系数,而是使用线性预测倒谱 系数l p c c ( l i n e rp r e d i c t i v ec e p t r u mc o e f f i c i e n t s ) ,l p c c 主要优点是比较彻底 地去掉了语音产生过程中的激励信息,从而主要反映了声道响应,提高了特征参 数的稳定性,在语音识别中获得了良好的效果。 倒谱是一种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宠物美容师职业技能考核试题及答案
- 2025年新员工物料需求计划编制试题及答案
- 医师心血管外科学试题及答案
- 2025年高处作业安全作业试题及答案
- 世界地理知识竞赛试题及答案地理爱好者
- 2026年水果种植公司水果采摘工具使用与维护管理制度
- T-CECA-G 0222-2023 城镇污水再生利用 绿地灌溉水质
- 2024-2025学年高中政治上学期第14周 加强思想道德建设说课稿
- 2025年口腔临床护理考试题库及答案
- 5.3 实际问题与一元一次方程 第3课时 球赛积分表问题 说课稿-2024-2025学年人教版数学七年级上册
- 降低皮下注射低分子肝素钠出血发生率
- 美食博主培训
- 徐悲鸿美术课件
- 手术麻醉科室简介
- 安全标识教学课件图片
- 钢筋班组安全技术交底
- 2025年中国超高性能混凝土(UHPC)技术与应用发展报告(上)
- 2025至2030年中国中试基地行业市场全景调查及发展趋向研判报告
- CJ/T 448-2014城镇燃气加臭装置
- 燃气行业数字化转型的驱动因素与挑战-洞察阐释
- 2025年高速公路收费站(车辆通行费收费员)岗位职业技能资格知识考试笔试试题(含答案)
评论
0/150
提交评论