(通信与信息系统专业论文)中文特定人孤立词语音识别系统的开发与研究.pdf_第1页
(通信与信息系统专业论文)中文特定人孤立词语音识别系统的开发与研究.pdf_第2页
(通信与信息系统专业论文)中文特定人孤立词语音识别系统的开发与研究.pdf_第3页
(通信与信息系统专业论文)中文特定人孤立词语音识别系统的开发与研究.pdf_第4页
(通信与信息系统专业论文)中文特定人孤立词语音识别系统的开发与研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(通信与信息系统专业论文)中文特定人孤立词语音识别系统的开发与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南科技大学硕士研究生学位论文第1 页 摘要 语音识别是实现人机语音通信的关键技术,是未来信息技术领域的重要 科技发展方向。目前,语音识别技术已经得到了广泛应用,但是,诸如声控 智能玩具,声控电话,声控家电产品这样的语音识别产品在人们的日常生活 中还很少。这主要是由于价格、成本、识别效率、系统可移植性等因素影响。 在此背景下,本文以实用化为目的,重点对孤立词、特定人、小词汇量语音 识别系统研究,为开发声控智能电子产品的识别内核奠定基础。 本文首先介绍了语音识别的研究和发展状况,然后循着语音识别系统的 处理过程,介绍了语音识别的各个步骤,并对每个步骤可用的几种方法在实 验基础上进行了分析对比。研究了语音信号的预处理和特征参数提取,包括 语音信号的数字化、分帧加窗、预加重滤波、端点检测及时域特征向量和变 换域特征向量。其中端点检测采用双门限法。通过实验比对特征参数的选取, 采用1 2 阶线性预测倒谱系数作为识别参数。详细分析了特定人孤立词识别算 法,选定动态时问弯折为识别算法,并重点介绍其设计实现。 在v i s u a l c + + 环境下,设计并实现一个特定人、孤立词语音识别系统, 系统可以识别数字o 9 等简单指令。该系统还具备演示、学习功能,可以演 示语音处理的各个步骤,还可以根据需要添加新的指令。 最后,重点从端点检测算法和动态时间弯折识别算法对系统进行改进。 实验表明,改进后的系统识别率有很大提高,达到9 5 ,为进一步开发实用 性语音识别系统产品打下了基础。 关键词:语音识别 动态时间弯折端点检测 线性预测倒谱系数 西南科技大学硕士研究生学位论文第l i 页 a b s t r a c t s p e e c hr e c o g n i t i o ni st h ek e yt e c h n o l o g yo fh u m a n c o m p u t e rs p e e c h c o m m u n i c a t i o na n dt h es i g n i f i c a n td e v e l o p m e n to ff u t u r ei n f o r m a t i o n t e c h n o l o g yf i e l d a tp r e s e n t ,s p e e c hr e c o g n i t i o nt e c h n o l o g yh a sb e e n u s e dw i l d l y b u ts p e e c hr e c o g n i t i o l lp r o d u c t ss u c ha sv o i c e c o n t r o l i i n g i n t e l l i g e n tt o y ,v o i c e c o n t r o l l i n gt e l e p h o n ea n dv o i c e c o n t r o l l i n g e l e c t r i c a la p p l i a n c e sp r o d u c t sa r ef e wa m o n gp e o p l e sd a i l y1 i f e t h i si sm a i n l yd u et ot h ei n f e c t i o no fp r i c e ,c o s t ,r e c o g n i t i o nr a t e , p o r t a b i l i t ya n ds oo n u n d e rt h i sb a c k g r o u n d ,t h i sp a p e rf o c u s e so n t h e p r a c t i c a la p p l i c a t i o n a n d k e y r e s e a r c hf o rw o r d i s o l a t e , s p e a k e r d e p e n d e n t a n ds m a l l s c a l e v o c a b u l a r ys p e e c hr e c o g n i t i o n s y s t e m t h er e s u l t sf r o mt h i sr e s e a r c hl a yt h ef o u n d a t i o nf o rs p e e c h r e c o g n i t i o nk e r n e li nv o i c e c o n t r o l l i n ge l e c t r o n i cd e v i c e s t h er e s e a r c ha n dd e v e l o p m e n to fs p e e c hr e c o g n i t i o ni si n t r o d u c e d f i r s t l y t h e nf o l l o w i n gt h et r e a t m e n tp r o c e s so fs p e e c hr e c o g n i t i o n , e a c hs t e po ft r e a t m e n ti si n t r o d u c e da n de x d e r i m e n t a lr e s u l t sa r e a n a l y z e da n dc o m p a r e di nd e t a i l p r e t r e a t m e n ta n df e a t u r es e l e c t i o n a r ed i s c u s s e d i ti sf o l l o w e db yd i g i t a ls a m p l i n g ,w i n d o w i n g ,n o i s e f i l t e r i n g ,e n d p o i n td e t e c t i o n ,t i m e d o m a i n v e c t o r a n d t r a n s f o r m d o m a i nv e c t o r d o u b l e - t h r e s h o l di sa d o p t e di nt h ep a r to f e n d p o i n td e t e c t i o n b ye x p e r i m e n to ff e a t u r es e l e c t i o d ,l p c co ft w e l v e r a n k si ss e l e c t e da sr e c o g n i t i o np a r a m e t e r b yp a r t i c u l a ra n a l y z i n g s p e a k e r d e p e n d e n ta n di s o l a t e w o r ds p e e c hr e c o g n i t i o na r i t h m e t i c ,d t w i ss e l e c t e da sr e c o g n i t i o na r i t h m e t i a t h er e a l i z a t i o no fd t wi s e m p h a t i c a l l yi n t r o d u c e d i ne n v i r o n m e n to fv is u a l c + + ,as p e a k e r d e p e n d e n ta n dis o l a t e w o r d s p e e c hr e c o g n i t i o ni sd e s i g n e da n dr e a l iz e d i tc a nr e c o g n i z es o m e s i m p l ei n j u n c t i o n s1 i k en u m bz e r ot on i n e i ta ls op o s s e sf u n c t i o no f d e m o n s t r a t i o na n dl e a r n i n g i tc a nd e m o n s t r a t et h es t e po fs p e e c h t r e a t m e n ta n da p p e n dn e wi n j u n c t i o na c c o r d i n gt on e e d a t1 a s t ,t h es y s t e mi si m p r o v e di nt w oa s p e c t s :e n d p o i n td e t e c t i o n 西南科技大学硕士研究生学位论文第1 ii 页 a r i t h m e t i ca n d d t wa r i t h m e t i c e x p e r i m e n t a lr e s u l t s s h o wt h a t r e c o g n i t i o nr a t ei si m p r o v e da n dc a nu pt o9 5 t h i sl a y st h ef o u n d a t i o n f o rf u r t h e rd e v e l o p m e n to fp r a c t i c a ls p e e c hr e c o g n i t i o ns y s t e m p r o d u c t k e y w o r d s :s p e e c hr e c o g n i t i o n :d y n a m i ct i m ew a r p i n g ( d t w ) : e n d p o i n t :l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ( l p c c ) 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得西南科技大学或其 它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名 彳再彦羚 日期:卿彳石 关于论文使用和授权的说明 本人完全了解西南科技大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论 文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:何枷导师签名:羹豳豸日期:。7 。占占 西南科技大学硕士研究生学位论文第1 页 1 绪论 1 1 语音识别概述 让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。伴随计算 机技术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用 中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式”的 关键技术之一n ,。 语音识别是计算机自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 的简称,主要指让机器听懂人说的话,有效地了解、识别语音和其它声音。 准确地识别出语音的内容,并根据其信息意图去执行某种操作。简单地说, 就是让计算机能听懂人的说话,将人说转换成计算机文本”1 。 语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究 方向,涉及语音学、语言学、声学、生理学、人工智能、信号处理理论、信 息论、模式识别理论、最优化理论、计算机科学等众领域,其最终目标是实 现人与机器进行自然语言通信w 。语音识别有非常广阔的应用前景,随着多 媒体时代的来临,语音识别技术必将发挥更大的作用,为人来带来便利。 1 1 1 语音识别的发展和现状 2 0 世纪5 0 年代,a t & t b e l l ( 贝尔) 研究所成功研制了世界上第一个能识 别1 0 个英文数字的语音识别系统一a u d r y 系统,这标志着语音识别研究的开 始“1 。 6 0 年代计算机的应用推动了语音识别的发展。这一时期的重要成果是动 态规划( o y n a m i ep r o g r a m m i n g ,d p ) 和线性预测分析( l i n e a rp r e d i c t i v e c o d i n g ,l p c ) 技术陆1 。其中后者较好的解决了语音信号产生的模型问题,对 语音识别产生了深远的影响。 7 0 年代开始了大规模的语音识别研究并取得了突破。线性预测分析技术 ( l p c ) 的引入,使语音识别的特征提取产生了一次飞跃。动态时问弯折技术 ( d y n a m i c t i m ew a r p i n g 。d t w ) 基本成熟,提出了矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 和隐马尔可夫模型( h i d d e nm a r k e rm o d e l s ,h m m ) 理论。 在小词汇量、孤立词的识别方面取得了实质性的进展,实现了基于线性预测 倒谱和d t w 技术的特定人孤立语音识别系统。这一时期的语音识别方法基本 上是采用传统的模式识别策略。 西南科技大学硕士研究生学位论文第2 页 8 0 年代语音识别研究进一步走向深入。研究的重点逐渐转向大词汇量、 非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于 标准模板匹配的技术思路开始转向基于统计模型( h m m ) 的技术思路,隐马尔可 夫模型( h m m ) 技术走向成熟和不断完善,并成为语音识别的主流方法“,。1 9 8 8 年美国卡内基一一梅隆大学运用v q 和h m m 技术研制出了非特定入、大词汇量、 连续语音识别系统- - - - s p h i n x 系统,它可以理解有1 0 0 0 个单词构成的4 2 0 0 句子,被认为是语音识别历史上的一个里程碑。 9 0 年代在语音识别的系统框架方面并没有什么重大突破。但是,随着多 媒体时代的来临,在语音识别技术的应用及产品化方面出现了很大的进展。 许多发达国家如美国、日本、韩国以及i b m ,a p p l e ,a t & t ,n t t 等著名公司 都为语音识别系统的实用化开发研究投以巨资,语音识别技术实用化进程大 大加速,并出现了许多实用化产品。 i b m 公司率先推出的汉语v i a v e i c e 语音识别系统,带有一个3 2 ,0 0 0 词 的基本词汇表,可以扩展到6 5 ,0 0 0 词,平均识别率可以达到9 5 ,可以识别 上海话、广东话和四川话等地方口音,是目前具有代表性的汉语连续语音识 别系统。v i a v o i c e 语音识别系统标志着大词汇量、非特定人、连续语音识别 技术正在趋于成熟。在嵌入式应用中,出现了可以语音拨号的手机、与人对 话的智能玩具。在商业服务中,出现了以语音识别、语音合成为核心技术的 呼叫中心( c a l lc e n t e r ) 、语音门户网站等等。这时期的标志性成果是美国国 防部的高级研究规划局的d a r p a ( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t a g e n c y ) 计划下l v c s r 系统,识别词汇量达到6 万。 2 1 世纪语音识别技术的应用及产品化方面进一步发展。2 0 0 0 年,飞利浦 公司与四家亚洲公司建立合作伙伴关系,共同将基于飞利浦最先进的语音识 别技术t r u e d i s l o g t m 的自然对话平台s p e e c h m a n i a 及自然语言识别平台 s p e e c h p e a r l 提供给电信业和一般企业的电话系统,使其具有完整的语音识 别功能n ,。此技术用于电话系统,可以使人们用平常口音和腔调与电话系统 对话。而过去的语音识别软件只能识别单字或单词,同时要求说话人根据系统 提示进行固定形式的应答。在语音识别产品方面,i b m 公司的v i a v o i c e 仍居 主流,其他公司也纷纷推出自己产品。微软新版的w i n d o w s 操作系统v i s t a 配置了先进的语音识别软件。用户可以通过语音和计算机交流对于无法 操作键盘和鼠标设备的人们,这是一个很重要的功能。经过训练,v i s t a 能 识别用户的语音。这样,用户就可以通过口述来“书写”信件或电子邮件。 一言蔽之,用户可以通过语音来执行大多数常见任务n ,。 西南科技大学硕士研究生学位论文第3 页 不过,目前世界上最先进的语音识别软件,既不是微软生产的,也非i b m 制造,它的名字叫做n a t u r a l l ys p e a k i n g ,出自于n u a n c ec o m m u n i c a t i o n s 公司。n a t u r a l l ys p e a k i n g 已经得到了大多数用户的认可。用户对着麦克风 说话,屏幕上就显示出说话的内容,很容易识别和纠正错误。久而久之,该 软件就会适应用户的说话风格,当然,用户如果在说话过程中发现软件无法 识别的,也相应地做出调整,这样一来,语音识别的正确率就会逐渐提高。 我国语音识别技术的研究也一直在紧跟国际语音识别技术研究的步伐稳 步发展,其研究历程可分为以下三个阶段: 7 0 年代至8 0 年代中期的引进、移植阶段。这时期,我国汉语语音识别 技术的研究起步不久,因此以吸收和引进国外理论和技术为主,通过对汉语 语音识别的实验研究和方法改进,成功的进行了以孤立词小字表、特定人、 实验室环境条件为主的汉语语音识别研究,为汉语语音识别技术的研究和发 展奠定了基础。 8 0 年代至9 0 年代初期的自成体系阶段。国家8 6 3 计划智能计算机主题 专家组为语音识别技术的研究专门立项,在汉语语音识别、汉语语音数据库 建立、汉语语音学、听觉模型等基础研究方面取得长足进展,逐渐走出一条 适合汉语特点的研究道路,将汉语语音识别技术的研究拓展到连续语音、中 大字表、非特定人语音识别及说话人识别等领域,逐渐形成自己的研究体系, 缩小了与国际研究水平的差距。 9 0 年代中期以来的成熟阶段。该阶段在国家8 6 3 智能计算机主题专家组 每一至二年举行一次的全国性语音识别系统测试活动的推动下,使汉语语音 识别技术在细化模型的设计、参数提取和优化、以及系统的适应能力上取得 了一些关键性的突破,汉语语音识别技术进一步成熟,并开始向市场提供应 用产品。 现在,中科院声学所、自动化所、清华大学、哈尔滨工业大学、中国科 技大学、四川大学、北京中科模式科技有限公司等科研机构、高等院校及公 司等纷纷行动起来。国内有不少语音识别系统己研制成功,这些系统的性能 各具特色。 在孤立字大词汇量语音识别方面,最具代表性的要数1 9 9 2 年清华大学电 子工程系与中国电子器件公司合作研制成功的t h e d 一9 1 9 特定人语音识别与 理解实时系统。 在连续语音识别方面,1 9 9 1 年1 2 月四川大学计算机中心在微机上实现 了一个主题受限的特定人连续英语一一汉语语音翻译演示系统。 西南科技大学硕士研究生学位论文第4 页 在非特定人语音识别方面,有清华大学计算机科学与技术系在1 9 8 7 年研 制的声控电话查号系统并投入实际使用。 哈尔滨工业大学计算机学院智能技术与自然语言处理研究室( i t n l p ) 开 创性地提出了汉字语句输入的思想并实现国内外第一个语句级汉字输入系 统。 国内也有一些语音识别产品面世,如海尔p c b o yr s c 3 0 0 ,伊莱克斯h o m o r s c 3 0 0 ,晶鑫玩具”白雪公主”等智能玩具,海尔智能声控电视等声控家电产 品。但是国内的语音识别系统商品化并未形成规模。因此,国内除了要加强 理论研究外,更要加快从实验室演示系统到商品的转化。 1 1 2 语音识别系统的分类 语音识别技术常常根据各种使用要求建构成为不同类型的系统。 ( 1 ) 从说话人说话方式来看,根据对说话时词与词之间有无停顿把语音分 为孤立字( 词) 语音识别系统、连接语音识别系统和连续语音识别系统。 孤立词语音识别系统( i s o l a t e w o r ds p e e c hr e c o g n i t i o ns y s t e m ) 是 指用户在对系统说话时,相邻的词汇之间的发音要有明显停顿。 连接词语音识别( c o n n e c t e d w o r d ss p e e c hr e c o g n i t i o n ) 是指中小规 模词汇但用词汇本身作为识别基本单元的连续语音识别系统。 连续语音识别系统( c o n t i n u es p e e c hr e c o g n i t i o ns y s t e m ) 是指中大 规模词汇但用子词作为识别基本单元的连续语音识别系统。 连接词语音识别系统和连续语音识别系统的共同点是:人在说话时,音 流中相邻的词汇之间的发音没有停顿,词汇之间语音信号的声学特征、语调 和韵律都受到强烈的下文影响,词汇在语音信号中的起始点和结束点的检测 非常困难,系统实现难度较大n ,。 ( 2 ) 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无 限词汇量语音识别系统。一般小词汇量系统是指能识别1 2 0 个词汇的系统; 中等词汇量指2 0 1 0 0 0 个词汇;大词汇量指1 0 0 0 个以上的词汇,无限词汇 量语音识别系统尚在研究中。 ( 3 ) 根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系 统。特定人系统可以是个人专用系统或特定群体系统,如特定性别、特定年 龄、特定口音等。特定人的语音识别较简单,识别率较高,但使用前必须由 特定用户输入大量的发音数据进行训练,非特定人识别通用性好,但识别率 低。 西南科技大学硕士研究生学位论文第5 页 1 1 3 语音识别的发展方向和应用前景 语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技 术的发展,语音识别系统的实用性将进一步提高。今后语音识别技术的发展 方向: ( 1 ) 不同语种之间的语音一一语音的翻译。 ( 2 ) 非特定人、大词汇量、连续语音识别。 ( 3 ) 人体语言与口语相结合的多媒体人机交互技术。 ( 4 ) 在p c 平台的基础上往网络化发展n ,。2 1 世纪是信息和网络的时代, i n t e r n e t 、宽带i p 网、公用电话网、移动电话网把全球各地连接起来,巨大 的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与 机器进行信息交互相关的需求和服务,例如自然口语对话、信息索取、电子 商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现。语音 识别技术研究和应用的一个重要发展趋势是,让人在任何地方,任何时间, 对任何事都能够通过语音交互的方式,更加方便地享受到更多的社会信息资 源和现代化服务。人类将越来越多地体验到语音识别技术带来的便捷优点“。 ( 5 ) 往微型化方向发展,就是由p c 平台发展到p d a 掌上电脑这样的语音 识别,再发展到嵌入式的,能嵌入到各种各样的电器、控制系统和仪器里面 的嵌入式系统的语音识别。再往后就是语音识别芯片,有了语音识别芯片后, 语音识别技术的应用或者语音识别技术的产业才能真正的发展起来。 语音识别技术的应用前景是无限的。 应用于人们的日常生活( 比如对家用电器的语音遥控、手机及电话的语音 拨号、用语音来控制电动玩具等) ,会极大地方便人们的e l 常生活、提高人们 的生活质量。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。 随着i n t e r n e t 网的爆炸性扩张,电子商务( e - b u s i n e s s ) 迅速发展,语音识别 技术将为网上会议、商业管理、医药卫生、教育培训等各领域带来极大的便 利。基于电话的语音识别技术,使计算机直接为客户提供金融证券和旅游等 方面的信息查询及服务成为可能,进而成为电子商务( v o i c e c o m m e r c e ) 进展 中的重要一环。 因此可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方 面事业产生革命性的影响。 1 2 研究背景和意义 在前面虽然指出了目前语音识别的研究主流是大词汇量的非特定人的连 西南科技大学硕士研究生学位论文第6 页 续语音系统,但是事实上,对于许多应用来说,一个语音识别系统只要一组 词汇或命令,它就可能为用户提供一个有效的工具,因此简单有效的孤立词 特定人语音识别系统就能满足要求。同时孤立词特定人语音识别系统具有广 阔的应用前景,比如工业命令控制、计算机控制、家庭电器服务、个人信息 确认、个人移动通信呼叫等,尤其当人手已被占用或无法使用的情况下必须 进行声音控制时,更可以起到不可替代的作用,这项技术将给人们的日常生 活带来极大的便利。但是由于知识层次和知识领域的差异,现实生活中有相 当一部分人很难得到现代化生活可能给带来的便利,包括信息服务和其他各 类先进设备可提供的帮助。语音识别技术有助于改善这种情况。正是孤立词 特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它的研究。 还有一个现象促使我们去研究孤立词语音识别算法,这就是虽然目前语 音识别系统的发展用已经到了接近实用的阶段,但是,语音识别产品没有大 规模的商业运用,并没有完全应用于人们的日常生活。产生这种现象的原因 很多,主要是: 首先,在实验室环境下,语音信号的平均识别率可以很高。可一旦用于 实际,尤其是在公共场合,语音识别技术需要能排除各种声学环境因素的影 响,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能 进行,这对多数用户来说是不现实的。 其次,将语音识别技术应用在一些有限词汇的特定任务上,当讲话的内 容是系统所期待的,使用环境的声学特性与训练数据的声学特性相差不太大 时,语音识别的正确识别率可以相当接近1 0 0 。不过在一旦实际应用中当这 些前提条件被破坏时,对可用性也会产生一定的影响。 第三,在手持设备上应用语音识别技术主要受到计算平台的性能和价格 的制约。降低成本是任何技术商业化的重要前提,一般的途径是通过规模生 产来摊薄成本。目前降低语音识别技术成本的主要困难在于这项技术仍然处 在逐步改进的过程中,对于多数要求较高的功能和性能的应用,往往都带有 量身定制的特点,规模生产定型产品的条件尚不成熟。只有在功能和性能非 常有限的语音识别应用方面,可以规模生产一些低成本产品,但这些产品的 应用常常又受到功能和性能瓶颈的限制。 第四,语音识别技术商业应用的另一个重要途径是微型化1 ,但是这不 仅取决于语音识别技术本身进步的程度,也和微电子芯片技术的进一步发展 关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯 片或模块上,大幅度降低产品成本,是语音识别技术真正进入大规模应用的 西南科技大学硕士研究生学位论文第7 页 重要条件。但是目前这种条件还不成熟。 总之,语音识别技术要进入成熟的商业运用还必须在很多方面取得突破 性进展。清华大学王作英教授认为,语音识别的关键是其依据的模型和算法, 模型算法是计算机描述语音的能力能否抓住人的语音的本质的关键。在语音 识别领域,固然有资金实力、人力资源等的竞争,但最根本是其关键核心技 术模型和算法的竞争。因此研究并优化孤立词、特定人语音识别系统算 法和模型是必要的。 同时目前语音识别市场由国外公司和机构占据了很大的份额,而且系统 以英语为主。汉语的语音识别难度较大:它以方块字为基本单位,发音则采用 与单字对应的音节为其基本单位;汉字的发音包括音节和声调,而且存在大 量的同音字;汉语句法非常复杂,变化很多,没有固定的模式;汉语没有明 确的词的概念,不像英文那样可以简单地从句中分出词来;由于历史原因, 汉语中有大量的专有名词和成语,以及地方方言。所以基于汉语的语音识别 系统有待大力开发和完善。 1 3 孤立词语音识别系统中的难点问题 尽管特定人孤立词语音识别相对于其它类型的语音识别较成熟完善,但 也存在一些影响因素,导致通常情况下识别率达不到1 0 0 ,甚至很低,主要 表现在以下几个方面,这些也是孤立词语音识别系统研究中的难点问题。 ( 1 ) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之问存在重大的差异, 即使同一人同一语音的不同次发音,也存在很大差异。 ( 2 ) 噪声影响 当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致语音 识别系统性能急剧下降。 ( 3 ) 端点检测 统计表明语音识别系统一半以上的识别错误来自于端点检测错误“。在 安静环境下有声段和无声段时能量存在很大差异,由此判断语音的起点。但 是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导 致识别结果错误。另外汉语的辅音大部分是清辅音,能量较小容易受到噪声 的干扰。因此如何在高噪声环境下进行高识别率的语音识别始终是语音识别 研究的热点。 西南科技大学硕士研究生学位论文第8 页 ( 4 ) 词与词的特征空间混叠m , 语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信 号分为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同 的词语的矢量序列在特征空问中存在混叠现象,甚至有些不同词语的混叠程 度会超过同一词语的不同次发音,从而降低识别率。 1 4 本文研究内容和章节安排 本文以优化特定人孤立词汉语识别算法为目的,t 讨论了特定人、小词汇 量、孤立词语音识别系统的实现。论文共六章,其内容安排如下: 绪论部分对语音识别研究的意义,历史和现状、研究的难点做了简要概 述。 第二章讨论了语音识别系统的基本原理,介绍了语音信号的产生模型、 语音产生的生理机制、语音信号的数学模型和分析基础,讲述了孤立词语音 识别系统的基本构成和工作原理。 第三章研究了语音信号的预处理和特征参数提取,内容涉及语音信号的 数字化、加窗处理、预加重滤波、端点检测及时域特征向量和变换域特征向 量。 第四章研究特定人孤立词识别算法,包括d t w 识别法、h m m 识别法,人 工神经网络等。 第五章以特定人、小词汇量、孤立词语音识别系统为线索,讨论了如何 在p c 平台上用v i s u a l c + + 6 0 实现系统各个部分,并进行了相关实验,对实 验结果进行了讨论。 第六章在语音识别系统基本实现的基础上,讨论理如何提高系统的识别 效果,并提出了改进策略。重点从端点检测和d t w 算法两个方面对语音识别 系统性能进行优化,提高系统识别率。 最后是结论,总结了本论文完成的工作,所取得的成果,指出了本课题 继续研究的前景与方向,对课题目前存在的问题也做了分析。 西南科技大学硕士研究生学位论文第9 页 2 语音识别系统的基本原理 2 。1 语音信号产生模型 2 1 1 语音信号产生的生理机理 语言是人的发声器官发出的一种声波。它具有一定的音色,音调,音强 和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是 指声音的高低,它取决于声波的频率。声音的强弱是音强,它由声波的振动 幅度决定。声音的长短是音长,它取决于发音时间的长短。 人的发音器官包括:肺、气管、喉( 包括声带) 、咽、鼻和口。这些器官共 同行成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道 口q 做声道。声道的形状主要由嘴唇、颖和舌头的位置来决定。人类的发声过 程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而产 生的,声道形状不断改变而发出不同的语音。 人类发音过程由三类不同的激励方式,相应的产生三类不同的声音,即 浊音、清音、和爆破音。当气流通过声门时声带的张力刚好使声带发生较低 频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道发声便 产生浊音,比如元音。浊音的基本频率就是基音频率,如果声道中某处面积 很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某 个门限时便产生摩擦音也就是清音,比如辅音s ,s h ,f 等。如果声道某处完 全闭合建立起气压,然后突然释放而产生的声音就是爆破音,如塞音p ,t , k 等】。 2 1 2 语音信号的数学模型 语音生成系统分为三个部分,在声门( 声带) 以下,称为声门子系统,它 产生激励振动,是激励系统:从声门到嘴唇的呼气通道是声道系统;语音从嘴 唇辐射出去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型 可以用三个子模型:激励模型、声道模型和辐射模型的串联表示。图2 - 1 就 是语音信号产生的离散时域模型n ”。 其中,激励模型分浊音和清音两个分支,浊音清音开关决定产生的语音 是浊音还是清音。图中分支的上面部分是浊音情况,其激励信号由一个周期 脉冲发生器产生周期为n 。的冲激序列,即每隔n 。点有一个样值为l ,其余样 值为0 。周期取决于基音频率f 。和采样频率f 。,n 。= f 。f 。( h z ) 。冲激序列通 西南科技大学硕士研究生学位论文 第10 页 过声门脉冲模型滤波器后就具备了声门气流脉冲的实际波形,其z 域传输函 数为g ( z ) 。这样的声门脉冲形状与理想的6 脉冲相比,对信号的频谱特性将 要产生大约一1 2 d b 倍频程左右的高频衰减作用。不同人、不同语音,其声门 脉冲的性状不一样。乘数a 。的作用是调节浊音信号的幅度或能量。图中下面 的分支是清音的情况,激励信号由一个随机噪声发声器产生,因为对于清音 来讲,激励信号近似于自噪声,对信号频谱包络的形状不产生明显的影响。 设定其平均值为0 ,其自相关函数是一单位冲激函数,并设定它的幅度具有 正态概率分布( 高斯分布) 。乘数a u 的作用是调节清音信号的幅度或能量。 激励模型a u! 声道模型! 辐射模型 图2 - 1语音信号产生的离散时域模型 f i g 2 - 1 d js c r e t e t i m em o d e io fp r o d u c in gs p e e c hs i g n a 输出语啻 v ( z ) 是声道传输函数,既可用声管模型,也可以用共振峰模型来描述。 实际上就是全极点模型: 1 y g ) 一可二一 ( 2 - 1 ) 1 7 口。z 4 舟 其中n 是极点个数,以是常系数。这里,把截面积连续变化的声管近似为n 段短声管的串联,每段短声管的截面积是不变的。n 称为这个全极点滤波器 的阶。显然,n 值取得越大,模型的传输函数与声道实际传输函数的吻合程 度越高。但是,一般情况下n 值取8 1 2 就够了。 图2 - 1 中的辐射模型r ( z ) 由下式( 2 - 2 ) 得到,这里r ( 1 3 ) 是信号的自相关 西南科技大学硕士研究生学位论文第11 页 函数。通常对于浊音,r ( 1 ) r ( 0 ) 一l :而对于清音,该值取得很小。 荆一r 粉 ( 2 _ 2 ) 在极点( r 。值很小) ,上式的一阶高通形式为: r ( z ) 一民( 1 一:4 ) ( 2 3 ) 而语音信号的传输函数h ( z ) 可表示为: 日0 ) 一a t r ( z ) v ( z ) r ( z ) ( 2 - 4 ) 式( 2 4 ) 中,a 为乘数因子,u ( z ) 在浊音情况下是声门脉冲的z 变换,在清音 情况下是随机噪声的z 变换,v ( z ) 是声道传输函数,r ( z ) 是辐射传输函数。 虽然这种模型不能完全等效于语音的物理过程,存在着缺陷,但这种模型和 真实模型在输出处是等效的。 2 2 语音信号分析基础 语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、语 谱分析等。时域分析具有简单、运算量小、物理意义明确等优点,但更为有 效的分析多是围绕频域进行的。因为语音的感知过程与人类听觉系统具有频 谱分析功能是紧密相关的,而相位变化只起到很小的作用。因此,对语音信 号进行频谱分析,是认识语音信号和处理语音信号的重要方法。傅里叶分析 是分析线性系统和平稳信号稳态特性的强有力手段,它在许多工程和科学领 域中得到了广泛的应用。这种以复指数函数为基函数的正交变换,理论上很 完善,计算上很方便,概念上易于为人们理解,在语音处理领域也是一个非 常重要的工具。另一方面,按照语音学观点,可将语音分析分为模型分析法 和非模型法两种。其中模型分析法是指依据语音产生的数学模型,来分析和 提取这些模型的特征参数:共振峰模型分析、声管模型( 即线性预测模型) 分 析和听觉模型即属于这种分析方法。而不进行模型化分析的其他方法都属于 非模型分析法,包括时域分析法、频域分析法、同态分析法等”“。 语音信号是一种典型的非平稳信号。但是语音的形成过程与发音器官的 运动密切相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音 信号可假定为短时平稳的,其频谱特性和某些物理参数在1 0 - 3 0 m s 时问段内 是近似不变的。本文对语音信号处理都是基于这个假设。 语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率 西南科技大学硕士研究生学位论文第12 页 等,这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤 波器组参数、线性预测系数( l p c ) 、线性预测倒谱系数( l i n e a rp r e d i c t i o n c e p s t r u mc o e f f i c i e n t ,l p c c ) 、线谱对参数( l i n e a rs p e c t r u mp a i r ,l s p ) , m e l 频率倒谱系数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 等。 虽然时域和频域分析是主要方法,但是单独采用它们均有局限性:时域 分析对语音信号没有直观的了解;而频域分析出的特征中又没有反映出跟时 间的变化关系。 2 3语音识别系统的基本构成及工作原理 语音识别系统本质上是一种模式识别系统,基本结构如图2 - 2 所示”叱 语音输 图2 - 2语音识别系统原理图 f i g 2 - 2p r i n c i p i eg r a p ho fs p e e c hr e c o g n i t i o ns y s t e m 果 预处理部分包括语音信号的采样、反混叠滤波、语音增强,去除声门激 励和口唇辐射的影响以及噪声影响等,预处理最重要的步骤是端点检测。特 征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特 征的参数,如平均能量、过零数、共振峰、倒谱、线性预测系数等,以便训 练和识别。参数的选择直接关系着语音识别系统识别率的高低。训练是建立 模式库的必备过程,词表中每个词对应一个参考模式,它由这个词重复发音 多遍,再经特征提取和某种训练中得到。模式匹配部分是整个系统的核心, 其作用是按照一定的准则求取待测语音特征参数和语音信息与模式库中相应 模板之问的失真测度,最匹配的就是识别结果。 西南科技大学硕士研究生学位论文第1 3 页 2 4 本章小结 本章主要介绍了语音信号产生的生理机制和数学模型,为分析和处理语 音信号奠定基础。随后简要介绍了语音识别系统产生的基本原理,对语音信 号处理流程有了基本认识。 西南科技大学硕士研究生学位论文第1 4 页 3 预处理及特征参数提取 前一章,对语音识别系统基本构成做了简单介绍。本章将按照语音识别 系统的组成模型,探讨语音识别系统实现所涉及的基本原理和关键技术:预 处理技术、特征提取技术。在第四章将讲述模式匹配及模板i j ij 练技术。 3 1语音信号的数字化和预处理 语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、a d 变 换及编码。预处理包括预加重、分帧加窗等。在分析处理语音信号之前必须 进行语音信号的端点检测,把要分析的语音信号部分从输入的信号中找出来。 3 1 1语音采样 要用计算机分析说话人的语音,就要将话筒中传来的语音信号转换成计 算机所能处理的数字信号。这个从模拟量到数字量的转变过程称模一数变换。 在计算机上只需要利用声卡外接一个话筒就可以很容易地将话筒中传来的模 拟语音信号采集成数字信号进入到计算机。根据奈奎斯特采样定理,如果模 拟信号的频谱带宽是有限的( 例如不包含高于丘的频率成分) ,那么用等于 或高于2 厶的取样频率进行取样,则能够由取样信号恢复出原始信号。 通过对语音信号特性的分析表明,浊音语音的频谱一般在4 k h z 以上便迅 速下降。而清音语音信号的频谱在4 k h z 以上频段反而呈上升趋势,甚至超过 了8 k h z 以后仍没有明显下降的苗头。 因此,为了精确表示语音信号,一般认为必须保留l o k l i z 以下所有的频 谱成分,这意味着采样频率应当等于或大于2 0 k h z 。 但是在实际应用中并不需要采用这么高的采样频率,实验表明语音清晰 度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。例如i t u 提出的数字 电话g 7 1 1 协议,采样频率为8 k h z ,只利用了3 4 k h z 以内的语音信号分量, 虽然这样的采样频率对语音清晰度是有损害的,但受损失的只是少数辅音, 而语音信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句 的可懂度。因此语音识别时常用的采样频率为i o k i z 或1 6 k h z 。 采样前要先对语音信号进行预滤波处理,其目的有两个:一是用低通滤 波器限制信号中频率分量超过采样频率一半的部分,以防止信号混叠干扰; 其次是要用高通滤波器抑制5 0 h z 的电源干扰。从总的效果来看,预滤波处理 西南科技大学硕士研究生学位论文第15 页 相当于使用一个带通滤波器对语音进行处理。 滤波处理后,再采用合适的采样频率进行采样,由a d 变换器变换为二 进制数字码。目前,设计较好的声卡通常都带有带通滤波器。语音信号采集 只是语音识别处理的开始,在此基础上,要对所采集的语音信号进行分析处 理,从中抽取语音识别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论