(计算机应用技术专业论文)基于mfcc的语音识别加速技术研究.pdf_第1页
(计算机应用技术专业论文)基于mfcc的语音识别加速技术研究.pdf_第2页
(计算机应用技术专业论文)基于mfcc的语音识别加速技术研究.pdf_第3页
(计算机应用技术专业论文)基于mfcc的语音识别加速技术研究.pdf_第4页
(计算机应用技术专业论文)基于mfcc的语音识别加速技术研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于mfcc的语音识别加速技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于m f c c 的语音识别加速技术研究 摘要 随着计算机及电子技术的进步,越来越多的移动终端提供了语音 识别和语音指令等相关功能,这些功能最主要的目的,在于让人们的 生活更方便,但是要将它们用于嵌入式系统,却会遇到执行速度太慢 的问题。原因在于这些电子设备不具备很强的浮点运算能力,而在语 音特征提取过程中,却存在着大量的浮点数运算。 针对嵌入式系统语音识别执行速度太慢的问题,本文对m f c c 语 音倒谱特征参数提取的各步骤进行了详细研究,给出一种在嵌入式系 统中运用定点数运算和查表算法来实现语音识别加速的方法。 识别率是评价语音识别系统的一个重要指标,语音识别系统的识 别率和速度是一对互相矛盾的参数,如何能在尽量提高识别速率的前 提下不影响识别率是本文研究的另一个重点。为此,本文在对语音识 别算法作深入研究的基础上,从精准度、识别率和语音识别执行速度 三个层面对基于m f c c 的浮点数语音识别系统和定点数语音识别系统 进行了对比实验,分析了系统识别速度和识别率的变化情形,成功地 提升了系统识另l j 速度,验证了本文实现方法的可行性。 关键词:梅尔频率倒谱特征参数,隐马尔可夫模型,语音识别 摘要 s p e e c hr e c o g n i t i o ns p e e du p r e s e a r c hb a s e do nm f c c a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e ra n de l e c t r o n i ct e c h n o l o g y , m o r e a n dm o r em o b i l et e r m i n a l sp r o v i d es p e e c hr e c o g n i t i o n , s p e e c hi n s t r u c t i o n a n do t h e rr e l a t e df u n c t i o n s ,w h o s em a i np u r p o s ei st of a c i l i t a t ep e o p l e s f i v e s h o w e v e r , w h e nu s e df o re m b e d d e ds y s t e m s ,t h ee m b e d d e ds p e e c h r e c o g n i t i o ns y s t e mp e r f o r m st o os l o w l y t h el e a s o ni st h a tt h e r ea r et o o m a n yf l o a t i n g - p o i n to p e r a t i o n si nt h es p e e c hf e a t u r ee x t r a c t i o np r o c e s s ,b u t t h e s ee l e c t r o n i cd e v i c e sd on o th a v es t r o n gf l o a t i n g - p o i n to p e r a t i o na b i l i t y a i m i n ga ts o l v i n gt h ep r o b l e mt h a tt h ee m b e d d e ds p e e c hr e c o g n i t i o n s y s t e mp e r f o r m st o os l o w l y , 缸e d - p o m tc o m p u t i n ga l g o r i t h ma n dl o o k - u p t a b l ea l g o r i t h ma r ep r o p o s e di ne m b e d d e ds y s t e mt os p e e du ps p e e c h r e c o g n i t i o nb a s e do nd e t a i l e d r e s e a r c ho fm e lf r e q u e n c y c c p s t r u m p a r a m e t e r se x t r a c t i o ns t e p s r e c o g n i t i o nr a t e i sa ni m p o r t a n ti n d e xw h e ne v a l u a t i n g s p e e c h r e c o g n i t i o ns y s t e m s b u ts p e e c hr e c o g n i t i o nr a t ea n ds p e e di s ap a i ro f i 北京化工大学硕士学位论文 c o n f l i c t i n gp a r a m e t e r s h o w t o i m p r o v er e c o g n i t i o ns p e e d w i t h o u t a f f e c t i n gt h er e c o g n i t i o n r a t ei sa n o t h e rf o c u si nt h i st h e s i s t h e r e f o r e ,t h i s t h e s i sv e r i f i e st h ev a r i a t i o ns i t u a t i o no fs p e e c hr e c o g n i t i o ns y s t e m i m p l e m e n t a t i o ns p e e da n dr e c o g n i t i o nr a t ea tt h r e el e v e l se x p e r i m e n t sf r o m t h e a c c u r a c y , r e c o g n i t i o nr a t e a n di m p l e m e n t a t i o ns p e e di no r d e rt o c o m p a r ef l o a t i n g - p o i n ts p e e c hr e c o g n i t i o ns y s t e m sa n df i x e d - p o i n ts p e e c h r e c o g n i t i o ns y s t e m sb a s e do ni n - d e p t hs t u d yo nt h em f c ce x t r a c t i o n a l g o r i t h m t h er e s u l t so fe x p e r i m e n t sc o n d u c t e dt h ec o n t r a s to fp e r f o r m p a c eb e f o r ea n d a f t e rt h es p e e d u pa n ds h o w e dt h a tf e a s i b l em e t h o di nt h i s t h e s i ss u c c e e d e di na c c e l e r a t i n gt h er e c o g n i t i o ns p e e do ft h es y s t e m k e y w o r d s :r e e l f r e q u e n c yc e p s w a lc o e f f i c i e n t s ,h i d d e nm a r k o vm o d e l , i v 北京化工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者签名: 丕量绛日期:么幽生! 遍 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大 学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可 以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名: 狻经日期:丝受经寂垒z 盆 导师签名: 乏兰查型 日期: ! 拿:i :f 第一章绪论 1 1 引言 第一章绪论 语言是人类交流信息的基本手段,语音是语言的声学表现,语音识别技术就 是让机器通过识别过程,把人类的语音信号转变为相应的文本或命令的技术,其 研究目标是让信息处理设备在各种情况下准确地识别出语音的内容,甚至根据语 音信息执行说话人的各种意图。 语音识别技术是一门涉及众多领域的交叉学科,目前,现代语音识别系统将 信号处理、模式识别、概率论和信息论、语音学、语言学、人工智能等等诸多领 域技术有机地融入到统计数学方法的框架,并通过算法和计算机技术相结合的方 式来实现。 语音识别学术思想一直深深地吸引着众多语音技术爱好者和研究学者,同时 由于其研究成果的实用性和与人们生活的密切关系,它又受到了广大公众的密切 关注。在过去几十年里,科研工作者对语音处理技术进行了孜孜不倦的研究,语 音识别已从神秘不可思议的学术研究发展成为新世纪人机信息交互时髦的界面 技术之一。随着计算机软硬件、微电子技术和数字信号处理技术的发展,语音识 别技术在近年内取得了一系列进展,科研成果不断地推向市场应用。 本文基于一款h t c p d a 低功耗特性的a r m 兼容嵌入式x s c a l e 系统架构, 从浮点数特征提取转换、识别算法选择、系统设计和整数运算仿真开发等多个角 度,讨论嵌入式语音识别系统优化的策略和技术。 本章将简要介绍语音识别发展历史,语音识别技术研究现状及发展趋势,语 音识别系统面临的问题,最后是本篇论文的研究工作和结构。 1 2 语音识别技术发展历史 1 2 1 国外语音识别发展概况 语音识别技术的研究要上溯到2 0 世纪5 0 年代,从h d u d l e y 研制成功第一 个语音声码器开始,这一发明奠定了语音模型的基本思想,在数字信号处理领域 具有划时代的意义。1 9 5 9 年,j r o r g i e 和c f o r g i e 采用数字计算机识别英文元音 及孤立字,开始了计算机语音识别的研究工作。同时期b e l l 实验室发明语谱图 仪,这一发明意味着自动语音识别研究的开始,只不过起初只是通过人工分析语 谱图进行语音识别【l 】。 北京化工大学硕士学位论文 2 0 世纪6 0 年代是许多语音识别基本思想产生的时期,计算机的应用也推动 了语音识别的发展。这一时期出现了对语音识别技术产生重大影响的研究项目, 其中r c al a b 的m a r t i n 提出了解决语音信号端点检测的时间归一化方法【2 】,通 过解决语音信号非匀速的问题,显著地降低了错误识别率。随后不久,c o o l e y 和t u k e y 于1 9 6 5 年发表被誉为2 0 世纪十大算法之一的f f t ( f a s tf o u r i e r t r a n s f o r m ) 算法,为信号处理领域的数字化开辟出一条崭新的道路。f f t 显著地 降低了语音识别运算量,使得许多难以实现的算法得以实用化。6 0 年代的重要 研究成果还包括提出了动态规划和线性预测分析技术【3 一钉。线性预测分析技术较 好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 2 0 世纪7 0 年代,语音识别领域又取得了显著的突破。1 9 7 0 年前后,b a u m 发表了一系列关于隐马尔可夫模型( h m m ) 基础理论的文章。以m a r k o v 链为基础 的语音序列建模方法,直到今天仍然在各种主流的语音识别系统中受到青睐,这 要归功于2 0 世纪7 0 年代就已经解决了关于它的训练和搜索等问题。h m m 能很 好地描述语音信号的时变性和平稳性,在识别算法上达到了比较高的建模精度, 使大词汇量连续语音识别系统的开发成为可能。同样是在7 0 年代,矢量量化( v q ) 理论诞生,线性预测技术得到进一步发展,动态时间归正技术( d t w ) 基本成熟, 并实现了基于线性预测和d t w 技术的特定人孤立语音识别系统【5 】。 2 0 世纪8 0 年代,语音识别研究进一步走向深入,其显著特征是基于文法规 则的语言处理机制和人工神经网络( a n n ) 在语音识别中得到了成功应用 6 - 7 。人 工神经网络技术的应用成为语音识别的一条新途径,它具有自适应性、并行性、 非线性、鲁棒性、容错性和学习特性,在结构和算法上都显示出了很大的潜力。 同时期各种连接词语音识别算法被提出,例如多级动态规划语音识别算法,使语 音识别的研究开始从微观转向宏观,不再刻意地追求细化语音特征,语音识别算 法开始从模板匹配技术转向基于统计模型技术,语音技术研究者开始更多地从整 体平均统计的角度来建立最佳的语音识别系统【8 0 1 。这一时期语音识别技术具有 里程碑意义的事件是1 9 8 8 年美国卡耐基梅隆大学的李开复学者开发的基于 v q h m m 的9 9 7 词汇非特定人连续语音识别系统s p h i n x 1 1 】。s p h i n x 在有文 法限制的条件下识别率为9 6 ,在无文法限制的条件下识别率为8 2 ,这是世 界上公认的第一个高性能非特定人、大词汇量、连续语音识别系统。 2 0 世纪9 0 年代以后,语音识别技术进一步成熟,在细化模型的设计、参数 提取和优化,以及系统的自适应技术上都取得了进展。世界各国加快了语音识别 应用系统的研究开发,语音识别系统开始从实验室走向市场商用,许多全球跨国 公司,如i b m ,a p p l e ,a t & t , n t t 等著名公司都为语音识别系统的实用化开发研 究投以巨资,并且逐步实现了商业化,一些实用的语音识别系统投入商业运营。 2 第一章绪论 其中较为著名的系统有i b m 公司的v i a v o i c e 和d r a g o n 公司的d r a g o nd i c t a t e 系 统、a t & t 公司的s 0 0 语音识别服务系统、n r 兀公司的a n s e r 语音识别银行服 务系统等等。 进入2 l 世纪,语音识别技术在实验室研究中,精度己经达到了相当的高度, 同时市场上也不乏优秀的语音识别商用系统。2 0 0 2 年,日本一家研究机构设计 了第一个用于汽车信息查询的嵌入式语音识别系统,其中间件是在s h 3 微处理 器( 6 0 m h zc p t 0 上实现的,对于2 0 0 0 词汇的词表,识别率达到9 3 ,速度为0 6 s , r o m 大小为2 5 6 k b ,r a m 大小为5 0 0 k b 。2 0 0 3 年,i b m 公司在康柏i p a q 掌上 电脑上实现了大词表的两级搜索语音识别系统,识别任务包括1 4 7 5 条歌名,词 表大小为3 6 9 9 词,测试集包含1 3 7 6 条,误识率为2 4 ,速度为0 5 6 s 耗时,存 储量为2 2 m b 。2 0 0 8 年,搜索引擎g o o g l e 公司开始为i p h o n e 智能手机开发语音 识别搜索应用程序,用户通过语音查询问题,相应声音被转化为数字文件,发送 到g o o g l e 服务器进行文件分析,并将其转化为文字查询要求,最后把相应语音 搜索结果返回给用户【l 羽。 1 2 - 2 国内语音识别发展概况 我国语音识别研究工作始于2 0 世纪8 0 年代,起步虽晚,但发展比较快,国 家也有所重视,把语音识别的研究列入“8 6 3 计划,由中科院声学所、自动化 所及北京大学等单位组织研究开发【1 3 1 。从19 8 7 年开始,国内智能计算专家组为 语音识别技术研究专门立项,每两年滚动一次。目前我国语音识别技术的研究水 平已经基本上与国外接轨,研究水平也从实验室逐步走向实用。 这方面的著名例子有,国内语音行业的领军人物中科信利公司开发的嵌入式 语音识别引擎,在2 0 0 词汇的情况下,识别率不小于9 5 ,2 0 0 0 词汇的情况下, 识别率不小于9 0 ,并且能满足一定实时性要求。中科院自动化所2 0 0 2 年发布 了面向不同计算平台和应用的中文语音系列产品p a 钍e k a s r ,结束了中文语音 识别产品自1 9 9 8 年以来一直由国外公司垄断的历史。中国科学院自动化研究所 模式识别国家重点实验室开发的基于非特定人、连续语音听写机系统的汉语识别 系统,其错误率可以控制在1 0 以内,不定长字串的识别精度达到9 4 ,定长 字串的识别精度达到9 6 ,在有5 的拒识率的情况下,系统识别率可以达到 9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这是目前我国最好的识别结果之一, 并具有非常好的自适应功能【1 4 1 。此外,值得一提的是,我国对大词汇量连续语音 识别系统的研究已经接近国外先进水平,尤其是清华大学在国内首创研究开发了 汉语自然口语的人机对话系统和汉语到日语、汉语到英语的直接语音翻译系统, 3 北京化工大学硕士学位论文 该系统对孤立词的识别率达到9 8 7 ,拼音自选识别率达到7 9 4 ,句子识别率 约为6 2 5 t 1 5 1 。 1 3 语音识别研究现状及发展趋势 1 3 1 语音识别研究现状 目前在语音识别领域,研究的方向越来越侧重于口语对话系统和嵌入式语音 识别系统。同时出现一批非常活跃的语音识别课题,如稳健语音识别、说话人自 适应技术、大词汇量关键词识别算法、语音识别可信度评测算法、基于模糊聚类 的语言模型和自适应语言模型,以及深层次的自然语音理解和语音情感识别。 其中说话人自适应技术的研究已取得了相当大的进步,出现了一些较为成熟 的说话人自适应技术,如声道归一化技术、最大似然线性回归算法、贝叶斯自适 应估值算法,等等。说话人自适应技术的研究热点,开始转向如何实现在线无监 督的学习和多方法综合自适应学习算法。 稳健语音识别算法目前仍然没有根本性突破,但其研究意义非常重大,此外, 语言模型也是语音学者一直研究的一个重点和难点。 目前,以h m m 为基础的语音识别理论体系已经基本成熟,并持续受到语音 识别研究者的重视,并得到进一步的发展。这方面著名的例子有,清华大学的王 作英教授提出的非齐次语音识别的改进隐马尔可夫模型【1 6 】,可以说是对语音识别 模型算法的一次创新。王教授撰文指出了传统的h m m 模型在语音识别应用中存 在的问题,得到了一个基于段长分布的非齐次隐马尔可夫模型( d d b h m m ) ,用 状态段分布函数替代齐次h m m 中状态转移矩阵,解除了对语音信号状态的齐次 性和对语音特征的非相关性限制。赵力教授等提出了利用偶数帧段输入隐马尔可 夫模型,提高了在噪音环境下汉语语音识别系统的鲁棒性【l 刀。 随着计算机技术和微电子技术的迅速发展,语音识别技术的应用领域越来越 广泛,已经渗透到工程设计、消费电子、多媒体处理以及日常生活的方方面面。 嵌入式设备,如手机、p d a 等终端的语音识别应用比桌面上的语音识别应用更 加广泛,市场的需求量更大,多数研究机构或者企业开始转战于嵌入式语音识别 领域。以片上系统( s o c ) 为代表的嵌入式语音识别系统,可以在一颗芯片内集成 低功耗处理器、存储器、外围接口等,几乎构成了一个嵌入式语音识别系统的全 部硬件设备。这类系统以语音识别专用芯片为核心,直接面向家电和消费类电子 市场。但是嵌入式系统的处理能力与桌面系统相比,仍存在较大差距,因此需要 对嵌入式系统语音识别算法进行优化,以满足语音识别技术应用于嵌入式系统的 4 第一章绪论 性能需求。 1 3 2 语音识别发展趋势 语音识别技术发展的两个重要方向:一是从特定人说话识别向非特定人说话 识别方向发展;二是从小词量向大词量发展。这两点也是语音识别算法的发展方 向。现在h m m 算法已经比较成熟,并逐渐应用于实践中,而融合了神经网络算 法的h m m 算法更是大大地增加了语音识别的准确度。 面向学术研究,可以用“非、鲁、自、学 这四个字概括语音识别技术的发 展趋势【强】。 “非 是指非特定人,目前非特定人系统的应用越来越广泛,但是训练系统 的适应人群,尤其是口音的适应面仍然存在局限性,因此加强发音模型研究和方 言移植是个重要的研究方向。 “鲁就是鲁棒性,语音识别的应用环境五花a r - j ,需要有很强的语音增强 技术。此外利用麦克风阵列技术可以只拾取目标说话人方向的语音,而不采集其 他方向的语音。 “自 是指自然,想要让用户感觉是在和人进行对话,就需要采用有限状态 语法网络、对话管理、统计语言模型和关键词识别等技术来满足这一要求。 ,“学 就是自学习和自适应,包括自动适应用户的口音和说话习惯用语。这 就要求对声学模型和语言模型有自适应技术,要求优化模型的架构和管理程序, 以满足系统的需要。 面向市场方面,嵌入式设备中的语音识别研究成为热点,越来越多的移动终 端提供了语音识别和语音指令等相关功能,这些功能最主要的目的是让人们的生 活更加方便。据i d c 预测,到2 0 1 0 年全球市场对电话语音处理设备的需求将达 到3 5 亿美元【1 9 1 。为此,m m 、a t & t 、朗讯和飞利浦等许多大公司都在争先恐后 地进行语音识别技术研究。 i b m 的称为“超人类语音识别 的项目已于2 0 0 1 年启动,计划于2 0 1 0 年 完成。总体目标是使机器语音识别能力赶上并超越人类,期望在2 1 世纪头十年 结束之前,生产出能够自动理解多达2 0 门语言,并能识别这些语言的各种语调 变化、口音及上下文环境的机器【2 0 】。该机器还能丝毫不差地转录法律、医疗和法 庭证词。i b m 公司的1 0 0 位全职语音识别研究人员中有8 0 名正在专门投入此项 研究课题之中。他们正在着手进行音频识别研究,这涉及计算机语音识别技术的 开发,以便改善语音识别的精确度。另一个研究重点是m a l a c h 项目【2 。在美 国国家科学基金会的资助下,i b m 正在和其他行业的研究人员并肩工作,试图 5 北京化工大学硕士学位论文 破解长达1 0 万小时的二战纳粹大屠杀幸存者的谈话录音,这些录音内容纷繁多 变,充满各种方言,感情起伏,语调跌宕,还夹杂着各种不同语言。同时,我们 可以大胆预测,将来的语音识别的典型应用,会扩展到电信系统、银行服务系统、 车载系统等更多的领域,语音识别技术的未来必然有着更大的发展前景。 1 4 语音识别系统面临的问题 目前在实验室环境下的语音识别算法还不够成熟,基于隐马尔可夫模型和美 尔倒谱特征参数的语音识别系统虽然成为主流,但在非标准发音和噪声环境的条 件下尚不能取得令人满意的识别率。各种语音识别系统的性能仍然不能满足自然 对话的需要,这与得到广泛应用和认可的文字识别的现状形成了鲜明对比。语音 识别技术要进入成熟可靠的实际运用阶段,还有一段非常艰难的道路要走,要取 得突破性进展,语音识别系统面临以下六大关键问题需要解决 2 2 1 : 首先,语音识别系统的适应性差,对环境的依赖性强。语料都是经过特殊准 备的标准“朗读式语音 ,对自然口语语音的识别非常困难,当使用环境的声学 特性与训练语音的收集环境的声学特性不一致,或用户的说话方式与训练语音的 说话方式稍微不一致时,语音识别系统性能就会大大下降。尤其是高噪声下的语 音识别进展困难,大部分的语音识别系统只有在实验室密闭环境下才能达到良好 的性能,而成熟的语音识别技术需要能排除各种声学环境因素的影响,提高识别 的可靠性。 其次,连续语音识别的应用不如孤立词识别成熟,搜索算法效率不高,并且 词汇表受限。系统可以识别的词汇量是语音识别系统性能的一个重要度量,而词 汇量的扩大,使得模板的选取和建立发生困难。当前语音识别系统使用的声学模 型和语音模型过于局限,当词汇超出系统己知的范围,可能会输出混乱的结果。 随着语音识别系统建模方法的改进、搜索算法效率的提高以及计算机硬件资源的 发展,将来的语音识别系统可能会做到多语种混合和大词汇量,不受或少受词汇 量大小的限制。 第三,语音识别是一项集语音学、语言学、生理学和心理学为一体的综合性 学科,如何把这些知识更好的量化并建模于语音识别中,至今仍是许多语音技术 学者正在攻克的难题。 第四,把语音识别技术应用到市场,尤其是应用到嵌入式产品的过程中发现, 语音识别存在识别性能与识别速度、内存消耗的尖锐矛盾,成为语音识别技术在 嵌入式系统上进行大规模应用的技术瓶颈。由于嵌入式平台资源和速度方面的局 限性,嵌入式语音识别技术的难度,比桌面型语音识别技术更高,因此需要从算 6 第一章绪论 法层面上减小模型规模和搜索空间,提高解码速度,并且在运行规模和运算精度 方面寻求平衡。 第五,对人类的听觉理解、知识积累和学习机制的认识还不清楚,要把这些 知识应用于语音识别中,还需要一段艰难的探索过程。 第六,针对正在到来的移动互联网时代,研究开发具有重大应用背景的语音 专用技术、解决语音识别的鲁棒性问题,还有很多工作要做。移动互联时代的语 音应用特点,一方面要求语音识别技术再一次从现代信号处理技术中汲取营养, 另一方面语音识别技术还需要不断与语言处理技术融合,以完成更高层次的口语 人机对话和语音翻译系统。 1 5 本文研究工作及论文结构 1 5 1 本文的主要工作及创新 随着电子技术的进步,越来越多的移动终端提供了语音识别和语音指令等相 关功能,这些功能最主要的目的,在于让人们的生活更方便,但是要将它们用于 嵌入式系统,却会遇到执行速度太慢的问题。一方面,嵌入式设备的计算能力和 存储能力远低于桌面系统,例如芯片的运算速度和容量有限,因此嵌入式语音识 别技术需要采用一系列算法优化以及模型精简的措施,来降低识别过程中系统对 资源的消耗。另一方面,嵌入式设备的便携性意味着其使用环境的多变性,既可 以是安静的办公环境,也可以是嘈杂的街道环境,因此这就需要嵌入式语音识别 技术对环境的依赖性低,对噪声的鲁棒性强。此外,嵌入式设备程序的开发环境 也呈多样化,这为算法移植以及程序开发带来了一定的不方便。 针对以上问题,本文的主要研究工作集中于如何有效地对识别系统进行精度 和速度上的优化,尤其是对于系统速度性能上的优化,在语音特征参数提取的整 个过程中,将浮点数的数据型态放大成相对应的整数型态数值,并且建立相应于 浮点数的定点数算法,包括定点数窗函数、e o s t a b l e 、s i n t a b l e 、平方根表以及对 数表等等方法,来加速运算能力较弱的系统识别速度。本文的工作主要集中在以 下四方面: ( 1 ) 在语音特征提取算法研究和嵌入式系统实现讨论的基础上,构建了完整 的定点语音识别特征提取系统。 ( 2 ) 实现了m f c c 倒谱特征参数的提取和浮点数算法向整数算法的移植。 ( 3 ) 针对系统识别率、识别速度和特征提取精准度变化情形,设计了完整的 h m m 识别系统,搭建了仿真平台,并进行了对比实验和结果评测。 7 北京化工大学硕士学位论文 ( 4 ) 设计实现了语音识别算法的用户图形显示及控制界面,对算法执行效率 和内存泄漏情况进行了统计分析。 实验表明,以m f c c 倒谱特征参数和h m m 识别技术为基础的理论体系, 适用于嵌入式语音识别系统,尤其是在小词表、短语句语音识别系统的识别性能 方面,可以获得不错的效果。 1 5 2 论文的组织结构 本文整体分为四章,文中每章的具体内容如下: 第一章为绪论部分,这一部分介绍了语音识别产生的背景,语音识别技术在 国内外的发展概况,语音识别研究现状及未来发展趋势,总结了语音识别系统面 临的问题以及本论文的研究工作。 第二章介绍了语音识别技术的基础理论,列举了常见的语音识别系统,对语 音识别系统的基本模型进行了概括与总结,阐述了语音识别领域的基本原理和方 法,涵盖了语音信号预处理( 包括端点检测、预加重、分帧和加窗等) 、特征参数 提取( 主要阐述m f c c 倒谱特征参数) 和语音识别算法。在语音识别基本方法中阐 述了动态时间规整、矢量量化技术和隐马尔可夫模型。对隐马尔可夫模型相关理 论做了详细论述,包括声学模型的结构选取、模型的初始化,解码算法,状态输 出概率的计算等。这一章的最后介绍了评价语音识别系统的一般方法,给出了本 文的语音识别系统评测标准。 第三章分析了嵌入式语音识别系统的现状以及存在的问题,介绍了浮定点转 换的改进方法,研究了m f c c 语音倒谱特征参数提取的每一步骤,并针对嵌入 式系统设计了整数型语音特征提取算法,包括预处理、加窗、f f t 、数字滤波、 d c t 等各个阶段在整数算法下的实现方法,给出了在嵌入式系统中通过整数运 算和查表算法实现语音识别加速的方法。 第四章围绕识别速度和识别精度相互矛盾这样一个课题,介绍了本文的研究 重点,即如何在不影响系统精度的情况下,提升系统识别速度,并根据第三章的 语音识别改进方法,进行了精准度实验,算法执行速度实验和识别率实验,通过 数据分析,详细研究对比加速前后特征提取精度和系统识别率的变化情形,并分 析了系统整体性能和内存泄漏情况。 在论文最后部分,对全文进行了总结,明确了今后进一步研究的方向,并且 提出了展望。 第二章语音识别基础理论 第二章语音识别基础理论 2 1 语音识别系统的分类 语音识别系统可以按照识别的词汇量、语音输入方式和说话人的类型来分别 进行分类: ( 1 ) 按可识别词汇量可分为:小词汇量识别系统,中词汇量识别系统和大词 汇量识别系统。 ( 2 ) 按语音输入方式可分为:孤立词识别系统,连接词识别系统和连续语音 识别系统。 ( 3 ) 按说话人类型可分为:特定人识别系统,限定人识别系统和非特定人识 别系统 2 3 - 2 4 。 2 2 语音识别系统基本模型 目前主流的语音识别技术是基于统计模式识别的基本理论,一个完整的基于 统计模式识别的语音识别系统,主要由以下几个部分组成:语音输入、语音信号 预处理、特征参数提取、通过识别算法分析进行相似度检测、模式匹配和识别结 果输出。 图2 - 1 语音识别系统基本模型 f i g 2 - 1s p e e c hr e c o g n i t i o nb a s i cm o d e l 图2 1 是语音识别系统基本模型。从图2 1 中可以看出,首先,输入的语音 经过预处理、特征提取之后,得到语音特征矢量。其次,用提取的语音特征矢量 与事先训练好的声学模型进行匹配与比较,度量相似性,得到最佳的识别结果, 这一过程即为语音识别一般过程。 建立语音识别系统的过程可划分成两个阶段。第一步是系统训练阶段,这一 阶段是将获取的语音特征矢量通过学习算法建立声学模型。第二步是测试阶段, 这一阶段根据识别系统的类型,选择能够满足系统要求的识别方法,采用语音分 析方法分析出识别方法所要求的语音信号特征矢量,在识别时将输入的语音信号 特征矢量同已建立的声学模型进行匹配与比较,按照一定的判决准则和测度,得 9 北京化工大学硕士学位论文 出识别结果。 2 3 语音信号预处理 将采样得到的语音信号直接输入识别器进行识别判决是非常不可取的,这是 因为语音信号具有非平稳性,并且样本信号具有庞大的冗余性,因此需要对语音 信号进行预处理,排除冗余信息,提取有用信息。对语音信号进行预处理是提高 语音识别性能、增强识别稳健性的重要手段。 图2 - 2 预处理模块 矗c f 如图2 2 所示,一般情况下,语音信号预处理包括对原始语音信号的端点检 测、预加重、分帧、加窗和自相关分析等等。 2 3 1 端点检测 在语音信号的预处理中,端点检测是关键的一步。端点检测用来确定语音数 据的起始点和终点,即确定音头、音尾的位置。由于输入的语音可能包含空白段, 因此需要将首尾的空白段去掉,仅提取出语音信号有效部分,这项工作称为端点 检测。经过端点检测提取出来的语音信号仍然包含了大量的冗余信息,因此需要 提取其有用的特征而去除不相关的信息,若语音信号提取的不恰当,那么不但会 延迟语音识别的时效性,甚至会降低对这些声音信号的识别率。 语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得 依赖对应的信号段( 语音段或噪声段) 来计算确赳2 5 1 。因此,只有准确地判定语音 信号的端点,才能正确地进行语音处理,从而保证在识别时类内距离尽量小,类 间距离尽量大。 一般采用平均能量或平均幅度值与过零率相乘的方法来判断语音端尉2 6 - 2 9 。 对于输入语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论