(计算机应用技术专业论文)基于hmm建模的语音识别算法的研究.pdf_第1页
(计算机应用技术专业论文)基于hmm建模的语音识别算法的研究.pdf_第2页
(计算机应用技术专业论文)基于hmm建模的语音识别算法的研究.pdf_第3页
(计算机应用技术专业论文)基于hmm建模的语音识别算法的研究.pdf_第4页
(计算机应用技术专业论文)基于hmm建模的语音识别算法的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西安建筑科技大学硕士学位论文 基于h m m 建模的语音识别算法的研究 专业:计算机应用技术 硕士生:王稚慧 指导教师:王民副教授 摘要 随着现代计算机技术的普及和发展,计算机的使用越来越深入到人们的日常生活 中。人类与计算机进行交流时,最直接和方便的方式就是语言交流,所以语音识别和语 音合成技术己成了现代科技发展的一个标志,语音识别和语音合成也因此成为现代计算 机技术研究和发展的重要领域之一。 语音识别技术与多种学科的研究领域都有联系,这些领域的科研成果也成为推进语 音识别技术发展的重要因素。语音识别技术已经取得一些了成就。但是,大多数语音识 别系统仍局限于实验室中应用,远没有达到实用化要求。制约实用化的根本原因可以归 为两类,识别精度和系统复杂度。本文就是研究汉语语音识别实用化面临的理论和技术 问题,并对其中某些部分进行了实验证明。 本文共分为4 章。第l 章为绪论,首先阐明了语音识别研究的意义,接着介绍了语 音识别简史、研究现状,最后介绍本文的主要内容。第2 章为语音识别系统,主要介绍 了语音识别系统中的主要研究内容,以及语音信号处理的重点和难点。第3 章为基于 h m m 建模的语音识别系统的分析与实践。主要研究在实际应用中,使用隐马尔可夫模 型建模时,对于传统算法的改进。第4 章为语音识别匹配算法。研究在建立好模式后, 匹配待识别语音信号的方法。 主要的研究内容归纳为: 1 研究语音识别系统的组成和主要技术。 2 分析隐马尔可夫模型应用于语音识别系统中时,都有哪些主要技术难点和重点。 3 提出使用频能比进行语音信号端点检测的方法。 4 对隐马尔可夫模型训练过程中参数b 的优化方法进行改进。 5 对于实际应用中,常常出现的训练数据不足以及说话者对模型的影响进行分析, 提出了克服这些困难的办法。 6 在识别过程中,将识别算法进行改进,剪掉识别过程中的置信度低的模型,争 取更高的识别率和更快的匹配时间。 关键词:语音识别,隐马尔可夫模型,端点检测 西安建筑科技大学硕士学位论文 r e s e a r c ho ft h es p e e c hr e c o g n i t i o na l g o r i t h mb a s e do nh m m s p e c i a l t y :c o m p u t e ra p p l i c a t i o n n a m e : w a n gz h i h u i i n s t r u c t o r :p r o fw a n gm i n a b s t r a ( ? r w i t ht h ep r o g r e s so fm o d e m c o m p u t e rt e c h n o l o g y ,w eu s ec o m p u t e rm o l ea n dm o r e b e c a u s ec o m m u n i c a t i n gt h r o u g hs p e e c hw i t hc o m p u t e ri st h em o s tc o m f o r tw a y , t h es p e e c h t e c h n o l o g yb e c a m eam a r ko ft h ed e v e l o p m e n to fs c i e n c e s p e e c hr e c o g n i t i o na n ds y n t h e s i s b e c o m eo n eo f t h ei m p o r t a n tr e s e a r c hf i e l d t h et e c h n o l o g yo ft h e s p e e c hr e c o g n i t i o n c o n t a i n so fm o r ed i f f e r e n tf i e l d t h e d e v e l o p m e n to ft h e s ef i e l dh a sm a d ec o n t r i b u t i o nf o rt h ed e v e l o p m e n to fs p e e c hr e c o g n i t i o n n o w a d a y s ,m o s ts p e e c hr e c o g n i t i o ns y s t e ma r es t i l li nt h e i ri n f a n c ya n dh a v ep r o b l e m si f m i g r a t e df r o ml a b ,a n da r em u c h 胁f r o mp r a c t i c a l i t y t h eu l t i m a t er e a s o n sf o rr e s t r i c t i n g p r a c t i c a l i t yc a nb ec l a s s i f i e dt ot w ok i n d s ,p r e c i s i o nf o rr e c o g n i t i o na n dc o m p l e x i t yo ft h e s y s t e m t h i sp a p e ri sj u s tr e s e a r c h i n gf o r t h et h e o r ya n dt e c h n o l o g yp r o b l e m sw h i c h p r a c t i c a l i t yo fc h i n e s es p e e c hr e c o g n i t i o ni sf a c e dw i t h ,a n da l s ov a l i d a t e ss o m ep a r to ft h e m w i t l le x p e r i m e n t s t h i sp a p e rc o n s i s t so f4p a r t s t h ef i r s to n ec l a r i f i e st h e s i g n i f i c a n c eo fs p e e c h r e c o g n i t i o nr e s e a r c h ,a n dt h e ni n t r o d u c e st h eh i s t o r ya n da c t u a l i t yo fs p e e c hr e c o g n i t i o n f i n a l l yi ti n t r o d u c e sp r i m a r yc o n t e n t so f t h i sp a p e ra n dt h er e s u l t so f t h e m t h es e c o n dp a r ti s as y s t e mw i t hs p e e c hr e c o g n i t i o n i ti n t r o d u c e sm o s t l yc o n t e n t so fs p e e c hr e c o g n i t i o ns y s t e m f o rr e s e a r c ha n db o t ht h ek e y s t o n ea n dd i f f i c u l t yo fs p e e c hs i g n a lp r o c e s s i n g i nc h a p t e r3 ,i i n t r o d u c eas p e e c hr e c o g n i t i o ns y s t e mb a s i n go nh m m ,a n d1w o r ko v e rm o s t l yh o wt om e n d t r a d i t i o n a la l g o r i t h m sw h e nm o d e l i n gw i t hh m mi np r a c t i c e 。t h el a s tp a r ti sa r i t h m e t i cf o r s p e e c hr e c o g n i t i o n t h ew o r ki st or e s e a r c hm e t h o d sf o rm a t c h i n gs p e e c hs i g n a l sa f t e rf o u n d m o d e l s t h em a i nc o n t e n t sf o rr e s e a r c ha r ea sf o l l o w s : 1 r e s e a r c hf o rt h ec o n s t m c t i o no fs p e e c h r e c o g n i t i o ns y s t e ma n dt h ep r i m a r y t e c h n o l o g y 2 - a n a l y z et h et e c h n o l o g yk e y s t o n ea n dd i f f i c u l t yw h e nh m mi sa p p l i e dt os p e e c h r e c o g n i t i o ns y s t e m 3 p u tf o r w a r dt h em e t h o df o re n d p o i n td e t e c t i o nw i t hf e r 西安建筑科技大学硕士学位论文 4 i m p r o v eo no p t i m i z e dm e m o do f p a r a m e t e rb i nt h ep r o c e s so f h m m t r a i n i n g 5 a n a l y z et h es h o r t a g eo f t h et r a i n i n gd a t aa n di n f l u e n c ef r o ms p e a k e rt ot h em o d e li n p r a c t i c e ,a n dt h e np u tf o r w a r dam e t h o df o ri t 6 i m p r o v eo no p t i m i z e dr e c o g n i t i o na l g o r i t h m sa n dc u to f fl o w b e l i e fe m b r a n c h m e n t s a st og e th i g h e rr e c o g n i t i o np r o b a b i l i t ya n ds h o r t e rm a t c h i n gt i m e k e yw o r d s :s p e e c hr e c o g n i t i o n ,h i d d e nm a r k o vm o d e l ,e n d p o i n td e t e c t i o n 声明 8 n s 0 9 本人郑重声明我所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含本人或其他人在其它单位 已申请学位或为其它用途使用过的成果。与我一同工作的同志对本研究所做的 所有贡献均已在论文中作了明确的说明并表示了致谢。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作撇:孺秽 噍渺, 关于论文使用授权的说明 本人完全了解西安建筑科技大学有关保留、使用学位论文的规定,即:学 校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的 全部或部分内容,可以采用影印、缩印或者其它复制手段保存论文。 ( 保密的论文在论文解密后应遵守此规定) 论文储繇王莉歪耖师签名:( j , 注:请将此页附在论文首页。 日辍:加s f 7 西安建筑科技大学硕士学位论文 1 1 课题研究背景 1 绪论 语音识别研究的根本目的就是研究出一种具有听觉能力的机器,能直接接收人的语 音命令,并做出相应的处理。 语音是人类表达最自然、有效的方法,对于使用者无附加的要求。语音的输入无需 占用界面上的特殊空间( 如键盘等) ,所以它适用于任何计算机系统。语音还具有无方 向性、允许存在距离间隔,还可以解放出双眼和双手,因此在特定环境中便于使用,如 黑暗处或失明者使用。基于语音识别和合成技术的声码器能够获得极低的比特率,使语 音可以在几乎任何信道上传输,如果加上机器翻译的算法,就可以完成两种语言间的直 接通信。 但要实现上述这些,语音识别还面临着很多问题。这是由于影响语音的因素太多。 例如语音信号中的声学特征会随着前后连接音的变化而不同,并且各个语音单位之间没 有明显的间隔。同一语音单位,对于不同的发音者、同一发音者的不同情绪或处于不同 的环境时,声学特征也会不同。并且从应用和实现的角度来考虑,系统的时间和空间的 复杂度也是需要考虑的问题。 语音识别技术是信息领域的标志性技术,随着计算机技术的飞速发展,其技术日臻 成熟,目前正处于向产品化迈进的转折阶段。语音识别作为人机对话的手段,在计算机 日益普及的今天,愈发显现出其在i t 产业中的重要地位。语音识别技术大多应用一般 可以分为两方面:一方面是无限词汇( 无限命令集) 语音识别的应用,例如人机对话、 智能翻译机的研制。但由于技术上的原因,这一领域的应用离商业化还有一段距离。另 一方面就是有限词汇( 有限命令集) 语音识别的应用,从技术的角度看,有限词汇的语 音识别,其难度远低于“无限命令集”。就目前的研究水平看,研制一些有限词汇听写 用系统是尽快将语音技术扩大应用范围、推向市场的快捷途径。 电话是电子技术在2 0 世纪应用最广泛的形式之一,而“语音拨号”是世界上每个 电话用户最希望配置的首选功能,使用“语音拨号”,人们只需一次性地输入( 读入) 人名和电话号码,在以后的使用中便可以直接对着电话“说出”要通话人的姓名,经语 音识别后,查出该姓名所对应的号码,然后进行自动拨号。要实现语音拨打电话这一功 能,只需在电话机上安装一块微小的芯片即可,这就是未来的语音电话。有了语音电话, 人们再不会为记不住电话号码和查找电话号码而烦恼了。 1 西安建筑科技大学硕士学位论文 语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查询系统。 如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称,系统便自动 显示出图文并茂的最佳路线、乘车方案、费用及其他相关信息。如果游客还需要进一步 了解更为详尽的资料,则可以同系统进行交互式的对话,系统将对用户的问题一一给予 答复。日本丰桥大学研制的“富士山旅游咨询系统”就是一个较为实用的语音查询系统, 该系统可用日语、英语等进行查询。又如语音自动订票系统,订票者只需对系统说出搭 乘时间和目的地,系统就会显示出符合要求的各班次票价及售票情况,用户根据情况, 通过系统做出适当的选择。美国的卡内基一梅隆大学计算机系于1 9 9 6 年研制出语音航 空订票系统,在此方面做了有益的尝试。 语音识别还可以用在工业控制方面,在一些工作环境恶劣、对人身有伤害的地方( 如 地下、深水及辐射、高温等环境) 或手工难以操作的地方,均可通过语音发出相应的控 制命令,让设备完成各种工作。比如地下采掘作业,工人们不必再置身于随时面临危险、 污染严重的环境下工作,他们可以在地面上的监控室,通过专用语音控制系统,轻松地 口述各项指令,指挥操作多台采掘设备,实时处理现场出现的各种情况。 语音识别技术在助伤残人的各种设备中将发挥其难以替代的作用。对于一个肢体伤 残者或盲人,能够准确地使用各种现代电器是较为困难的,但若全部用声音控制,则给 伤残者或盲人提供了极大的生活便利。一些办公设备加上语音功能后,即使是伤残者也 可以足不出户地在家庭工作,语音产品为他们开辟了新的生活空间。 语音技术的应用还将推动其他产业的发展。汽车工业在各国的经济中起着举足轻重 的作用,电子领域的新技术无不及时地应用在汽车产品中,使其不断增加新功能。国外 的一些著名汽车公司已看到了语音技术在汽车领域中的光明前途,他们希望研制出“数 字式的、能听会说的、并具有一双慧眼的、优良的后座驾驶式汽车”,从而告别目前汽 车驾驶依赖于人们的双手的阶段。那时的汽车,只要车主告诉它行车路线和地点,便可 直达目的地。目前,这种新式汽车已进入阶段性的研究,而不再只是幻想。 在计算机辅助教育方面,语音识别技术也有着广阔的应用空间,一些多媒体语音双 向教学软件一上市便受到用户的欢迎,如清华大学光盘中心推出的“大嘴学英语”软件 等。它通过语音识别技术,帮助学生进行语言学习,当学生跟着计算机发音学习外语时, 计算机会自动判断学习者的发音是否准确,并及时给予纠正。此时的计算机就成为专业 的家庭辅导教师。 在一些对幼儿进行启蒙教育的玩具中,语音玩具给小朋友带来了无限的新奇感,可 以自动说话的娃娃、听从指挥的小汽车等在儿童幼小的心灵里播下了科学的种子。据国 外报刊报道,声控娃娃的销售额大大超出了预计水平。 语音识别还可用于军事和刑侦方面。每个人的声音就像指纹一样彼此相异,我们可 2 西安建筑科技大学硕士学位论文 以根据这个特点,利用人们语音特征的不同,对特定人进行判断,这是语音识别的又一 重要应用领域。例如,对于高精密度的核启动系统,除了传统的总统密钥的制约外,特 定指挥对象的语音将作为核系统的最后一道安全密钥( 声钥) 加以制约,只有当系统摄 后确认是总统本人在即时的发布命令时,核系统才会启动倒计时装置。又如,在刑侦破 案方面,嫌疑犯的语音数据将被作为破案的重要依据,并可以此为线索追踪嫌疑犯,同 时,语音数据也将像d n a 测试结果一样作为证据,并得到法律上的认可。利用语音技 术破案在国外已开展了一段时间,我国近年来也已开始对此进行初步尝试。 可以预见,在2 l 世纪,语音识别将不再是单纯的技术名词,这项技术的发展将超 出我们想象力的极限,它将创造出一个新的产业,并迅速走进大众的生活。2 1 世纪将是 “数字化生存”的时代,语音识别技术将是数字化生存的重要标志之一,它将改变人们 学习、工作和生活娱乐的方式,像尼葛洛庞帝所说;“在广大浩瀚的宇宙中,数字化生 存能使每个人变得更容易接近,让孤寂者能够发出他们自己的心声。” 随着语音识别技术的实用化,研究适应环境变化和语音变异下的具有良好鲁棒性的 语音识别系统具有重要意义,解决制约语音识别实用化的关键因素既是研究的目标,本 文就是对这些方面进行研究的。 1 2 语音识别系统研究的历史和现状 自从e n i a c 问世之后,马上有人想到要让计算机听懂人说话,并开始了这方面的 研究工作。所以说,语音识别的研究历史与计算机的发展历史一样长。计算机的发展己 历经了从电子管到晶体管以至超大规模集成电路的好几代,单单微机的c p u 就从早期 的4 0 0 4 发展到今天的奔腾4 代,涌八了普通家庭,己与我们的数字化生活密小可分。 但足,与计算机同步发展的语音识别技术似乎并不遵循摩尔规律,它的产品也迟迟未能 进入市场,时至今e j ,语音技术产品的市场r 益升温,语音识别技术已经成为计算机进 一步在亿万百姓中普及的关键技术,也必将成为信息产业的标志性技术和未来计算机的 重要特征。 语音识别技术的研究与发展举步维艰。在5 0 年代以前,由于计算机的计算能力和 有关语音信号处理方面的理论都处于比较低的水平,有关语音识别的研究工作未能形成 规模。而对这一课题开展大规模研究是在6 0 年代末和7 0 年代初。尽管初期的研究常常 未能达到预期的目标,却使人们认识到了语音识别研究的艰巨性。 像计算机的许多关键性技术一样,i b m 也做了语音识别的开创性的工作。1 9 7 2 年, i b m 成立了一个专t q d 组从事计算机语音识别技术的开发。开发初期,一页纸的词汇需 要整整一房间的计算机同时处理,而且这些训汇必须是由一个特定的人非连续地读h 。 要整整一房问的计算机同时处理,而且这些词汇必须是由一个特定的人非连续地读出。 西安建筑科技大学硕士学位论文 i b m 在所有语音识别技术关键性领域的研究均获得了成果,包括:( 1 ) 识别语音特征: 语音符号首先被数字化,并根据经过抽取和导向的语音频率、力度等特征被分割成每百 分之一秒的时间点。包含导向成分的数字化的信息是增强识别能力所必须的。( 2 ) 语音 模型:技术人员根据语言的基础语音元素对真实声音的录音进行分析、分类和分级,研 制成能使一组特定人员的动态语音形式特征化的统计模型。语音上特征明显的语言或方 言的识别要求特征明显的语音模型。( 3 ) 统计语言模型:语言使用类型特征化的统计模 型是建立在大量实体的收集的基础上的,为了更好地识别同一种语言的不同使用方法, 需要不同的语言模型。( 4 ) 规则发展:除了建立语音和语言模型的基础的规则,还需要 各种各样的规则去概括和研究潜在的词汇序列,通过组合相应的语音和语言模型统计来 衡量每个侯选序列的可能性,并且选择最有可能的一个,该方法被证实在有效地缩小研 究范围和改善极端复杂的正确的词汇序列研究过程方面是具有核心意义的。正是因为这 种规则的发展,实时识别大量词汇、连续的速度才成为可能。 可以说,研究的最大的成果是8 0 年代初r r a b i n e r 和e j e l i n e k 等人将隐含马尔可夫 模型( h i d d e nm a r k o vm o d e l ,h m m ) 引入语音识别中。他们把h m m 与矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 结合起来,用于与说话人无关的孤立词识别,并取得成功。h m m 语 音识别模型和算法以及动态规划模板匹配技术( 又称动态时间归整d y n a m i ct i m e w a r p i n g ,d t w ) 已成为当今国际上的主流技术。 我国语音识别研究工作一直紧跟国际水平,国家也建立了各种语音研究计划,由中 科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也 非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等 地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快 从实验室演示系统到商品的转化,并且已经取得了相当的进展。 语音识别是一项复杂的技术,语音识别技术要进入大规模实用,还要跨越很多障碍, 目前面临的问题有所谓用户的独立性、自然的语言能力和新增的插入的能力。用户的独 立性就是语音识别软件能够识别有不同嗓音和口音的用户,无需通过训练。许多语音识 别系统还需具有自然的语言能力,就是软件理解者的能力。这种能力不仅表现在特定的 单词上,甚至还表现在短语和完整的句子上。新增的插入的能力是语音识别软件的另一 个主要进步,它允许用户在系统提示时中断系统,但系统依然能知道用户的请求。这点 对于实际的应用意义重大。因为人们在说话时,总是在自觉不自觉地思考,经常会打断 语言的连续性,而插入一些补充性的语言。这样的语言,在语法上经常不正确,常规的 语音识别系统很难处理这些语音。衡量一个语音识别系统成熟与否的四个重要参数是: 机器对说话者的依赖程度( 是否能识别非特定人的话语) 、语音的类型( 能识别连续的 语音还是断续的语音) 、话语输入格式( 发音人的话语是基于受限格式还是自由语言格 4 西安建筑科技大学硕士学位论文 式) 、系统词汇量的大小。所有这些都成为语音识别研究的主要内容。 1 3 本文所做的工作与论文组织结构 本文针对汉语语音识别系统中面临的主要问题,研究汉语语音识别使用理论和关键 技术。论文在隐马尔可夫模型( h m m ) 的基础上,对其中主要部分进行了详细的研究, 并针对实际应用中容易出现的问题,提出了改进的方法。 论文主要完成了以下几个方面的工作: ( 1 ) 通过阅读大量文献资料,掌握了隐马尔可夫模型和语音识别系统的基础知识。 并研究了其中的主要算法。 ( 2 ) 对语音信号的端点检测算法进行改进,根据语音信号中元音所显示出的能量 的特点,利用频能比进行端点检测。 ( 3 ) 研究了h m m 模型中的主要参数初始值的设定,以及在训练过程中采用复合 聚类的算法对参数b 进行调整,比仅仅使用b a u m w e l c h 算法进行调整时收到更好的识 别效果。 ( 4 ) 应用了基于隐马尔可夫模型的语音识别系统中状态和状态驻留相关的声学置 信量度准则。这些拒识准则不仅能很好地拒识词表外语音( o o v 或非关键词) ,而且能在 较低拒识率的情况下有效地提高系统的识别效率。另外,并根据汉语语音的特殊结构提 出了一种基于部分拒识原则的快速搜索算法,既保持了n b e s t 算法的高识别率,又大 大减少了搜索空间,提高了识别系统的实时性能。 本文共分为4 章。第1 章为绪论,首先阐明了语音识别研究的意义,接着介绍了语 音识别简史、研究现状,最后介绍本文的主要内容和取得的成果。第2 章为语音识别系 统,主要介绍了语音识别系统中的主要研究内容,从原始语音信号开始,语音信号经历 了基元选取、预处理、端点检测、特征参数提取,最后根据所选择的模型建立模式,作 为识别时匹配的依据。并指出语音信号处理的重点和难点。第3 章为基于h m m 建模的 语音识别系统,主要研究在实际应用中,使用隐马尔可夫模型建模时,对于传统方法的 改进。主要研究工作是在端点检测、模型特征参数的确定以及训练过程中问题的解决等 这些方面。第4 章为语音识别拒识算法。研究在建立好模式后,匹配待识别语音信号的 方法。通过剪掉一些分支,来提高识别率和识别效率。 西安建筑科技大学硕士学位论文 2 语音识别系统 语音识别主要是指让机器听懂人说的话,就是说,在各种情况下,准确的识别出语 音的内容,从而根据其信息,执行人的各种意图。语音识别技术是交叉学科,它涉及了 计算机科学、模式识别、通信技术、语言学、数理统计、信号处理、生物学、心理学等 多种学科。在工业、军事、交通、医学、民用诸多方面都有着广泛的应用。 若按照不同的角度来划分语音识别系统,则会得到不同的类别,般情况下,可以 按以下几种方式进行分类: 从所要识别的单位来分有:孤立词识别、连接词识别、连续语音识别等。 从识别的词汇量来分有:小词汇( 1 0 5 0 个) 、中词汇( 5 肚2 0 0 个) 、大词汇( 2 0 0 个以上) 等孤立词识别,这种语音识别的识别率一般是随着词汇量的增加而下降的。 以讲话人来区别分为:单个特定讲话人、多讲话人( 即有限的讲话人) 和与讲话者 无关( 即无限讲话人) 三种。其中,特定讲话人识别的识别率较高,而后两种方法实现 起来难度较大,但应用面广、通用性好,具有较高的研究价值和深远的社会意义。 本章从语音识别系统的基本原理出发,介绍语音识别系统要解决的基本问题,以及 在当前语音系统研究阶段讨论的热点及难点。 2 。1 语音识别的原理 语音识别首先是要根据识别系统的类型,选择一种合适的识别算法,再依据识别算 法的要求,利用有关的语音信号处理方法提取相应的特征参数,在这以后,分两个阶段 进行语音识别:第一个阶段是学习和训练,给出一组训练数据,这些训练数据常常都是 经过精心选择的针对本识别系统应用的数据,再结合识别系统参数的初始值,对系统参 数进行调整,使该系统更适合所提供的训练数据的识别,以提高系统的识别率,最后将 这些经过训练的参数以标准方式存储起来,形成识别库,或叫做模板;第二个阶段就是 识别。将需要识别的语音信号的特征参数与训练过程中产生的模板做对比,在允许的误 差范围内,测得与该语音信号距离最近的模板,输出该模板的识别结果。 如上面介绍的,大部分语音识别系统都采用的是模式匹配的原理,系统的般结构 如图2 1 所示: 6 西安建筑科技大学硕士学位论文 硎竺i 塑砸 武l 哑垂虱叫亘臻 系统中包括预处理、特征提取、参考模型、模式匹配和后处理五大部分。预处理包 括增益控制、预滤波、a d 转换、预加重、加窗等操作。在分析处理之前必须把要分析 的部分从语音信号中找出来,这就是端点检测,它也是语音识别中讨论的热点问题之一; 特征参数提取指求取表示语音信号特征的参数,例如短时幅度、能量、过零率、自相关 函数、l p c 系数等;每个参考模式对应系统词汇表中每个识别单元的特征参数;模式匹 配指度量待识别词的特征构成的测试模式与系统所存储的每个参考模式之间的距离。 2 2 语音识别基元的选取 语音识别中的基元是指在进行语音分析时的分析对象。基元的选取一般与语音识别 系统的类型有关。一般所选取的基元有全音节、半音节和音素等。 作为人类唯一的会意文字,汉语有着与其它语言截然不同的特色:以字为最小语音 单位,而且每一个汉字的发音对应于一个全音节,所谓音节是指说话时一次发出的,具 有一个响亮的中心,并被明显感觉到的语音片断。在常用的6 0 0 0 多个汉字中,全部汉 字音节只有1 2 8 1 个,如果不考虑声调( 四声:阴平、阳平、上声、去声) ,真正独立的 汉语无调单音节字只有4 1 2 个。由于音节不仅是听觉上能够自然辨别出来的最小语音单 位,也是音义结合的基本语言单位,因此,在汉语语音识别中的基元选择,音节无疑最 佳方案,这也是汉语孤立词和小词汇量汉语语音识别系统研究一直沿用的方法。 作为连续汉语语音识别系统,由于字与字、词与词之间没有明显的停顿,分隔出一 个全音节比较困难,沿用全音节作为语音识别基元的传统方法,其识别率受到很大限制, 并且,在连续语音识别中,若仍采用全音节作为基元,识别库将会很大,也不利于语音 识别系统的实施。因此,为了更好地描述汉语连续语音中的细节,提高识别率,语音识 别时,则需要选择比音节更小的声母、韵母等半音节基元( 共6 1 个) 和按不同韵头( 共 6 种:a 、o 、e 、i 、u 、【 ) 进行分类细化后的声母、韵母基元( 共1 6 1 个) 。 另外,连续语音识别中,也可使用音素作为基元。音素是语音信号的最基本组成单 位,可分为“浊音”和“清音”两大类。浊音具有基音周期,其倒数称为“基音频率”。 西安建筑科技大学硕士学位论文 清音具有明显的随机噪声的特点。它们是构成发音的最小单位( 音节) 的元素。 2 3 语音信号的预处理 为了使用数字信号处理的方法对语音信号进行处理和分析,就要将原始的语音信号 先进行一些常规的加工,这就是语音信号的预处理。由于预处理不是本文研究的重点内 容,但又是语音信号处理必不可少的步骤,所以下面只队对语音信号预处理的主要步骤 进行简单的讨论。 2 3 1 增益控制、预滤波、模数( a d ) 转换 增益控制是为了调整语音输入信号的幅度,使其接近a d 转换允许的最大幅度限 制,充分提高信噪比。滤波通常是为了排除工频干扰( 5 0 h z 或6 0 h z ) ,低通滤波器截止 频率小于等于采样频率的一半,以防止频域混叠同时消除高频噪声。模数转换是指模拟 信号到数字信号的转换。 2 3 2 预加重 预加重是指在a d 转换后加一个6 d b ,倍频程的高频提升滤波器,语音信号的平均 功率谱受声门激励和口鼻辐射的影响,大约在2 0 0 5 0 0 h z 按6 d b 倍频程跌落,预加重 的目的就是提升高频部分,使语音信号的频谱变得比较平坦,便于进行频谱分析或者声 道参数分析。预加重数字滤波器的一般形式为: d l ( m ) = m i n 时( 聊) :1 v v j n 1 ( m ) = a r g m i n 【叫( ) :1 v v j( 2 1 ) 只( 掰) = f 1 n ,( “( 小) 2 3 3 加窗 语音数据s ( 胛) 要经过加窗处理,即用一定的窗函数w ( 一) 来乘s ( 力) ,从而形成加窗语 音信号譬( n ) ,就是通常所讲的一帧,如下式所示: g ( 珂) = s ( m ) w ( n 一埘)( 2 2 ) 上式是卷积形式的,q ( ”) 可以理解为离散信号s ( ”) 经过一个单位冲激响应为扣( 月) ) 的 西安建筑科技大学硕士学位论文 f i r 滤波器产生的输出。其带宽和频率响应取决于窗函数的选择。在语音信号处理中常 用的窗函数是矩形窗和海明窗,它们对应的滤波器都具有低通特性。矩形窗和海明窗的 表达式如下: 矩形窗定义为: n 1 i 兰n w ( ) 2 o ,其他 ( 2 3 ) 海明窗定义为: ,、f o 5 4 一o 4 6 c o s ( 2 ( n 一1 ) ,1 i n w ( 驴1 0 ,其他 ( 2 4 ) 2 4 语音信号的时域特征 在语音识别系统中,如果能有效而准确地确定语音信号端点,不仅能使处理时间减 到最小,还能排除无声段的噪声干扰,提高识别率。所以语音信号的端点检测显著影响 着语音识别的训练过程以及系统的识别性能,因此有关这方面的研究就显得格外重要e 特别对于孤立词的语音识别,语音的端点检测的作用更为突出。 通过研究语音信号的时域特性时不难看出,语音信号虽然是非平稳的、时变的,但 它具有瞬时稳态( 这段时间一般可取为5 5 0 m s ) ,因此对语音信号的处理一般可以采用 短时处理技术,也就是说,在5 5 0 m s 这么很短一段时间内,将语音信号看作是平稳的、 非时变的,可以采用经典的平稳信号的处理方式对其进行处理,并且这些处理方法大多 数是基于简单的时域特征,应用这些方法就可以对信号做端点检测。一般较常用的方法 是短时平均能量方法和短时平均过零率方法。在预处理过程中通过对语音信号做加窗函 数,将语音信号分帧( 长度一般为1 0 2 0 m s ) 后,在不同帧上进行特征参数的提取。语 音信号分帧示意图,如图2 2 所示: - n 一) 图2 2 语音信号分帧 9 西安建筑科技大学硕士学位论文 语音信号的端点检测是在特征值提取之前做的,下面分别介绍短时平均能量和短时 平均过零率的基本原理。 2 4 1 短时平均能量 若s n ( f ) 表示第聍帧语音信号的时域值,为帧长,以f ) 表示的是窗函数,如前面所 讲一般取矩形窗或者海明窗。短时能量e 的意义在于给出了区分清音段与浊音段的基 础,这是由于清音段的e 值明显地小于浊音段,所以利用短时平均能量可以分容易的划 分清音和浊音的界限,这在以音素作为识别单位时是非常有用的。定义第n 帧的语音信 号的能量e 为: 2 4 2 短时过零率 e = 晶( f ) 2 或者 l “1 n 瓦= e l * 。( 啡戈者( 2 5 ) f 1 1 n 2 e = 扣( f ) t ( f ) 当离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象,单位 时间过零的次数叫做“过零率”。如果离散语音信号的包络是窄带信号,那么利用过零 率可以比较准确地度量该窄带信号的频率;在宽带信号的情况下,过零率只能粗略地反 映信号的频谱特性。 定义第1 帧信号的过零率z 。为: 乙2 去善i s g n s ( f ) 】- s g n s ( f _ 1 ) 】l ( 2 6 ) 其中j 。( i ) 表示第n 帧语音信号的时域值,为帧长,s g n ( 砷为符号函数,定义为: ,、f l ,x 0 8 9 n 2 1 - 1 ,其他 ( 2 7 ) 语音信号的最重要特征表现在它的“短时频谱”上,如果从语音流中利用加窗的方法取 出其中的一个短段,再对其进行傅立叶变换,就可以得到该段语音的短时谱。如图2 3 所示就是语音信号的短时能量、短时幅度以及短时过零率的比较。 1 0 西安建筑科技大学硕士学位论文 l i | i i 壤。 t i m e ( 5 ( a ) 认 f r m ( r 0 ( c ) 图2 3 k ; 7 f r 锄e ( r 0 ( b ) 语音信号的时域特征( 帧长= 3 0 0 ) ( a ) 时域波形( b ) 短时能量( c ) 平均幅度( d ) 短时过零率 2 5 语音信号的频域特征 语音信号特征参数的提取是语音识别的一个重要环节,在当前大多数的语音识别系 统中,通常采用的特征是信号的频域特征。经典的方法有基于人的发音器官建立声道模 型和基于听觉器官建立听觉模型两种,目前,由于小波技术的飞速发展,基于小波变换 的分析方法也得到了广泛的应用。 m f c c 建立在f o u r i e r 频谱分析基础上,首先利用人耳的感知特性,在语音的频谱 范围内设置若干个带通滤波器,每个滤波器具有三角形或正弦形滤波特性,然后在特征 矢量中纳入能量信息,计算相应滤波器组的信号能量,再通过离散余弦变换( d c t ) 计 算其对应的倒谱系数。语音信号的m f c c 特征参数主要反映语音的静态特征,语音信号 的动态特征可以通过这些静态特征的差分谱来描述,这些动态信息和静态信息形成互 补,能很大程度上提高系统的识别性能。 基于l p c 的倒谱参数( l p c c ) 分析法的典型代表是,以基于d u r b i n 或l e v i n s o n 迭代算法求解“维纳霍夫方程”获得的l p c 预测系数为基础,进而得到的l p c 的 倒谱参数( l p c c ) 。 西安建筑科技大学硕士学位论文 基于听觉模型得到的m e l 倒谱系数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ,m f c c ) 比基于声道模型得到的l p c 倒谱系数更符合人耳的听觉特性,通过研究及实践证明,在 有信道噪声和频谱失真的情况下,采用m e l 倒谱系数能够产生更高的识别精度。 基于现代处理技术的小波变换系数分析法是将语音信号与一个在时域和频域均具 有良好局部化性质的小波函数族进行积分( 小波变换) ,从而把信号分解成一组位于不 同频率和时段内的分量,即选择小波函数为某类平滑函数的一阶导数,则经小波变换后 的局部最大值反映信号的尖锐变化( 即声门闭着点) ,而局部最小值则反映信号的缓慢 变化,从而获得反映基音周期的小波语音特征参数。 2 6 模式识别 模式是根据所选取的模型对语音信号的建模。它是在模型的基础上经过训练得到的 某一语音信号的标准样式。在进行语音识别的时候,将输入的待识别语音信号与模式进 行匹配,便可得到识别结果。这里主要介绍模式识别用到的主要技术。 模式识别以距离测度为准则,对于传统的语音识别系统是一个按一定测度算法实现 被识别特征参数与模式库中的模板进行最优模式匹配的过程。而对基于人工神经网络 ( a n n ) 的新型语言识别系统,其模式识别过程则有所不同:首先其模式库是分布式的, 即采用一些模拟人类思维过程的算法,在训练过程中通过自学习建立类似于传统语言识 别系统中模式库的参数系统,但这些参数以分布方式存在于不同网络层的节点之中;其 次是通过模拟人类联想过程逐层将有关参数与被识别特征进行匹配距离计算和比较,最 终形成最佳匹配的识别结果。 在汉语语音识别系统中常用的识别技术有以下几种: 2 6 1 动态时间规整( d t w ) 技术 d t w 是采用一种最优化的算法动态规整法,算法的思想就是把未知量均匀的 拉长或缩短,直到与参考模式的长度一致。这一过程中,未知量( 待识别语音信号) 的 时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征对齐( 即时间规整) ,并在两者 之间不断的进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离 最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术, 保证了待识别特征与模板特征之间最大的声学相似特性和最小的时差失真,是成功解决 模式匹配问题最早和最常用的方法。 d t w 法的不足之处是运算量大、对语音信号的端点检测数过大和未能充分利用语 西安建筑科技大学硕士学位论文 音信号的时序动态信息等等。因此,主要用于孤立词、小词汇等相对简单的汉语语音识 别系统。 2 6 2 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 技术 h m m 法与d t w 法不同,首先,其模式库不是预先存储好的模式样本,而是通过 反复的训练过程,用迭代算法( 如b a u m w e l c h 算法等) 形成一套与训练输出信号吻合 概率最大的最佳h m m 模型参数:a = ( z ,a ,b ) ,其中,石为初始状态概率分布;a 为状 态转移概率分布;b 为某状态下系统输出的概率分布。这些参数均为反映训i 练中语音的 随机过程的统计特性下的数字参数,而不是模式特征参数本身。其次,在识别过程中, 采用基于一种在最佳状态序列基础上的整体约束最佳准则算法t e r b i 算法,计算待 识别语音序列与h m m 模型参数 之间的似然概率达到最大值,所对应的最佳状态序 列作为识别输出。这个过程也是一个反映待识别序列与h m m 模型参数状态序列最大关 联的随机过程的统计过程,因此,h m m 方法可以看成一个数字上的双重随机过程,这 种机制合理地模仿了人类语言活动的随机性,是一种更为理想的语音识别模型。 研究结果表明,h m m 方法虽然在训练过程中的处理比d t w 方法要复杂,但识别 过程则远比d t w 方法简单,在孤立词和小词汇的汉语识别中,识别率要高于d t w 方 法,而且解决了d t w 无法实现的连续语音识别的应用问题。因此,在汉语语音识别中, h m m 方法不仅可用于孤立词识别系统中,而且在连续语音识别、说话人识别等方面也 得到广泛的应用,是目前汉语语音识别技术的主流。 根据随机函数的不同特点h m m 模型可以分为离散h m m ( d h m m ) 、连续h m m ( c h m m ) 和半连续t - i m m ( s c h m m ) 以及基于段长分布的h m m ( d d b h m m ) 等类 型。其中:c h m m 的识别率虽高,但计算量大,其典型就是b e l ll a d 的语音识别系统; d h m m 识别率略低些,但计算量最小,m m 公司的v i a v o i c e 中文语音识别系统,就是 该技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论