(计算机应用技术专业论文)嵌入式小词汇量语音识别系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)嵌入式小词汇量语音识别系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)嵌入式小词汇量语音识别系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)嵌入式小词汇量语音识别系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)嵌入式小词汇量语音识别系统的设计与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)嵌入式小词汇量语音识别系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理:【大学硕十学位论文 摘要 近年来,语音识别技术取得了巨大的进展。人们迫切的希望把它推向广泛的实 用领域,而不满足于只是理论研究。本文以教研室的基于鱼类生物模型的计算机动 画项目为背景,分析解决了在研发过程中遇到的各种技术难点,并设计了一个基于嵌 入式小词汇量语音识别系统。将语音识别技术嵌入到三维仿真鱼上,使其能够受语音的 控制,在逼真生动的基础上锦上添花。 在实际应用场合中,说话人的变化、噪声的干扰、信道失真等因素常常导致语音识 别系统性能的大幅度下降。在硬件实现方面,实时语音信号处理需要高速的硬件处理 器,语音模板体积往往较大,需要占用很大的存储资源,导致硬件成本偏高,从而限制 了语音识别技术的实用。为了减少处理器负担,系统采用了菲利浦公司的u d a l 3 4 1 t s 音 频芯片。并结合本项目的需求特点,选择了小词汇量语音识别系统的开发。 实现小词汇量语音识别主要包括以下三个方面的工作:端点检测,特征提取,模式 匹配。在端点检测中通过过零率和短时能量参数来判断起始点和结束点,去掉噪声,提 取语音数据。在特征提取中采用线性预测方法,提取特征参数作为标准模板存储起来, 为了防止在语速过快的情况下丢失数据,本文改传统的双缓冲区存储为三缓冲区存储, 使微处理器在处理一段缓冲区数据的同时,其他两段缓冲区可以继续接收语音数据。减 少了高负荷下语音数据的丢失。在模式匹配中,为了克服说话人自然语速的差异,采用 动态时间规划方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得 出识别判决的依据。 关键词:语音识别;特征提取;线性预测;动态时间规划 大连理_ _ l = 人学硕士学位论文 t h e d e s i g n a n dr e a l i z a t i o no ft h e s y s t e m o f r e c o g n i z i n g i s o l a t e dw o r d b a s e do nm p u a a b s t r a c t c o n s i d e r a b l e p r o g r e s s h a sb e e nm a d ei nt h ef i e l do fa u t o m a t i c s p e e c hr e c o g n i t i o n ( a s r ) d a r i l l gt h er e c e n ty e a r s n o wt h et e c h n o l o g yo fa s r i sb e i n g p u tt op r a c t i c a lu s e s t h i s s u b j e c ti sf o rt h ep r o j e c to f “t h ec o m p u t e ra n i m a t i o nb a s e do nv i s u a l f i s hm o d e l ”i nt h e r e s e a r c hc e n t e r i ti sm a i n l yf o c u s e do ns o m et e c h n i c a ld i f f i c u l t i e si nd e v e l o p i n ga s u b s y s t e mo f r e c o g n i z i n gi s o l a t e dw o r d b a s e do nm p u ,w h i c h i m p l i e st h et e c h n o l o g yo fs p e e c hr e c o g n i t i o n t o3 df i s hm i m i c k i n g t h ep u r p o s eo f d o i n g t h i si st om a k et h ea l r e a d ya l i v e - l i k em i m i c k i n g f i s hm o r e s p l e n d i dt h r o u g hs p e e c hc o n t r o l l i n g i nr e a l a p p h c a f i o n s ,s o m ef a c t o r ss u c ha sn e ws p e a k e r , b a c k g r o u n dn o i s ea n dc h a n n e l d i s t o r t i o nd e g r a d et h ep e r f o r m a n c eo fa s r s y s t e mg r e a t l y o nt h eo t h e rh a n d , i t sh i g h l y d e m a n d e df o rh i g h - s p e e dp r o c e s s o rf o rs p e e c hs i g n a lp r o c e s s i n ga n db i gs t o r a g er e s o u r c ef o r s p e e c ht e m p l a t et h a tc o s tm u c h f o rd e g r a d i n gt h eb u r d e n ,i tu s e ds e m i c o n d u c t o rm a d eb y p h i l i p sa n d c h o s ea s u b s y s t e mo f r e c o g n i z i n gi s o l a t e dw o r d b a s e do rm p u t h er e a l i z a t i o no f r e c o g n i z i n gi s o l a t e dw o r d b a s e do nm p u c o m p r i s et h r e ep a r t so f w o r k i n c l u d i n g v e r t e xt e s t i n g , c h a r a c t e r i s t i c sa d o p t i o na n d m o d e l i n gm a t c h i n g f o ra v o i d i n gl o s sd a t a u n d e rt h ef a s ts p e e c hr a t et h i sp a p e rp r o v i d e st h e o r yf o rc h a n g i n gt h es t r a t e g yo ft r a d i t i o n a l t h i n k i n go fd o u b l eb u f f e rt ot r i f l eb u f f e r i ti sh a sb e e nt e s t e di np r a c t i c e st h a tt h i st e c h n o l o g y i n d e e di m p r o v e st h er e a l i t yi nt h es y s t e m ,a v o i d ss p e e c hd a t al o s i n gu n d e rh i g hb u r d e n i nt h e m o d e l i n gm a t c h i n g , t h em a t c h i n g b e t w e e nt h es e q u e n c eo f t e m p l a t ec h a r a c t e ra n d t h es e q u e n c e o f s p e e c hc h a r a c t e r i si m p l e m e n t e dw i t hd y n a m i c t i m i n g - p r o g r a m m i n g , s u c hm e t h o d m a k ef o r t h ed i f f e r e n c eo fd i f f e r e n ts p e e c hs p e e da n dc a nm a k eo u td i f f e r e n tw o r d k e yw o r d s :s p e e c hr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;l i n e a rp r e d i c t i o n ;d y n a m i ct i m e - w a r p i n g ( d t w ) 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工 作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了 谢意。 作者签名:量粤蕉参日期: 大连理: 大学硕士学位论文 引言 语音识别是目前语音信号处理研究领域的热点问题,它的目的就是让计算机能够听 懂人的语音命令,进行简单语言交互的技术。这种人机交互的途径对于使用者来说是最 自然的一种方式,同时设备的小型化和隐蔽化也要求省略键盘等以节省体积。使得原本 需要手工操作的工作用语音就可以方便地完成。随着科学技术的日新月异,在很多国 家,语音识别已经在听写机、电话查询系统、家电控制等诸多领域都获得了充分的应 用。 语音识别技术近些年来取得了突飞猛进的发展。以a t & t 公司、美国卡内基梅隆 大学等为代表的研究机构目前正致力于开发具有英语非特定人、大量词汇、连续语音识 别功能的实用产品,而且己经取得了相当喜人的成果。在汉语语音识别方面,国内外的 汉语大词汇量语音识别都达到了相当高的水平,与此相反,虽然汉语数字语音识别( 即 o - _ 9 汉语语音识别1 技术在移动通讯、电脑电话业务、电话证券交易等领域有着极大的 应用价值,但由于汉语数字语音间高混淆度的固有特性,致使其进展相当缓慢。 本文包括如下几个部分的内容: 第一章介绍了课题来源、语音识别历史现状以及目前国内外的发展状况,给出了本 课题要研究并解决的问题。第二章介绍了语音识别系统的基本原理。第三章是对小词 汇量语音识别系统的设计与实现。即讲述本文的主要工作以及提出的一些改进算法。第 四章介绍了语音识别中的关键技术特征参数提取,并通过提取出语音信号中的有效的特 征参数,再将提取的参数作为标准的模板存储起来,留作模板匹配时使用。在结论中总 结了全文的工作并且提出了下一步的展望。 嵌入式小词汇量语音识别系统的设计与实现 1 1 课题来源及发展前景 本文来源于教研室的基于鱼类生物模型的计算机动画项目,该项目是属于虚拟 现实、计算机动画领域。三维计算机动画( 3 d c o m p u t e ra n i m a t i o n ) 是采用计算机模拟 真实的三维空间,构造三维的几何模型并赋予其表面颜色和纹理;设计模型的运动和变 形;设计灯光的颜色、强度、位置及运动;设计虚拟摄象机的拍摄,最终生成可播出的 连续图像。 基于鱼类生物模型的计算机动画项目运用了计算机动画生成的新方法_ 人 工生命”方法,通过它可以逼真地体现现实中鱼的复杂运动和优美外表,同时为鱼生成 一个虚拟的海底生活环境,从而形成一个完整的虚拟鱼动画系统。 本文是在此项目的基础上嵌入语音识别功能,使逼真的生物鱼模型锦上添花,具有 能够听| 董人的指令的功能。 计算机自动语音识别的任务是研究如何利用计算机从入的声学语音信号中提取有用 信息,并从中确定语音信号的语言含义。语音识别的历史可以上溯到本世纪五十年代初 期。源于1 9 5 5 年,b e l l 实验室的d a v i s 等人利用共振峰特征研制出了世界上第一台原 始语音识别系统。 语音识别具有广阔的应用前景。自第一次工业革命以来,机器的出现替代了人类大 量的手工劳动,给人类的生活带来了很大的变化,经过两百多年的发展后,当今社会 中机器更是在人类生产生活中无所不在,如工业控制系统、办公室自动化系统等,它 们的存在为人们带来了更为方便、舒适和高效的生活方式。为了使人对机器的控制以及 机器对人的反馈更为友善,人类需要研究智能化的机器。作为人们最直接、方便、自然 的信息交流手段之一的语音则理所应当地成为人机交流的重要媒介。将语音识别与语音 合成相结合,构成的“人一机通信系统”即可完成智能化机器的接口。因此,只要有机 器存在的地方,就有语音识别应用的潜在可能。目前,语音识别计算已经在昕写机、电 话查询系统、家电控制等诸多领域获得了充分的应用。而把语音识别系统加入到虚拟现 实中则可以提高人与虚拟人物的交互性,使生硬的虚拟人物更具人性化,使虚拟鱼在生 动逼真的基础上变得人眭化,提高游戏娱乐性。相信经过研究者的不断努力,在攻克语 音识别中的主要难题后,语音识别技术将对人类的生活方式产生深远的影响i l 。j 。 大连理= t :大学硕士学位论文 经过近五十年的发展,目前语音识别已经达到一个相对高的水平,并正在从实验室 研究中走出来,进入一个实用化的阶段。语音识别研究水平最重要的标志之一是非特定 人大词汇量连续语音识别的性能。目前对于理想环境下的语音数据,英国剑桥大学的 h t k 系统的误识率已达到5 以下;对于广播语音,剑桥的h t k 系统误识率达到 1 6 2 ;而对于电话系统大词汇量语音识别,c a r n e g i e m e l l o n 大学的系统词误识率为 4 5 1 。这些系统代表着目前语音识别的最高水平。 小词表语音识别也具有广泛的应用价值。英语数字语音识别的串识别率己达到9 9 以上;而具有高混淆度的英语字母的识别率也达到了9 7 以上。同时为实现语音识别系 统实用化的其他课题创造了条件,如稳健语音识别、自适应、语音确认等也在九十年代 以来获得了丰硕的成果。 在语音识别的应用方面,i b m 公司推出的v i a v o i c e 系统标志着非特定人大词汇量 连续语音识别的实用化;在小词表语音识别领域中,各公司也纷纷推出了单片的语音识 别系统,其中较为典型的是美国s e n s o r y 公司的语音识别芯片i 峪c 一6 4 系列;各种电 子产品上也加入了语音识别的功能,如p l l i l i p 和三星的手机己加入了特定人人名识别的 功能。 国内的语音识别开始于七十年代,经过二十余年的发展,汉语语音识别也获得了丰 富的成果。目前国内从事语音识别研究的机构包括:清华大学电子工程系、清华大学计 算机系、中科院自动化所、中科院声学所、哈尔滨工业大学等。1 9 9 8 年的8 6 3 钡4 试评 比中,清华大学电子工程系以王作英教授为首的课题组完成的汉语连续语音识别系统的 字识别率达到9 0 以上,代表了目前国内的先进水平。在汉语小词表语音识别及应用 方面,清华大学电子工程系以刘润生教授为首的课题组已推出了基于非特定人汉语数码 语音识别的语音拨号电话机,并在从事语音识别专用芯片的设计研究。 尽管语音识别已经达到了相对较高的水平,但离完全地实现商用目的还有相当的距 离。今后将在稳健语音识别、对语音高层信息的研究、实用化的研究等方向成为研究的 重点【3 , 4 1 。 语音识别的历史及现状概述 语音识别是指利用计算机等设备对语音信号进行辨识,以获取语音信号的含义。语 音识别技术涉及模式识别、数字信号处理、人工智能、形式语言和自动机、信息论、语 音;也涉及到语言学、生理学、心理学等,是一门综合性的技术。语音识别的目标是让 机器“听瞳”人类的语言。听懂具有两种含义:第一种是将口述的语言逐字逐句的转化 为相应的书面文字;第二种是对口述语占中所包含的要求或者询问做出f 确的响应,而 嵌入式小词汇量语音识别系统的设计与实现 并不拘泥于所有词正确的转化为书面文字。语音识别的研究可追溯到二十世纪五十年代 初,当时很多研究人员正尝试探索声学语音学的基本规律。在五十年代,美国b e l l 实 验室开发了一个特定人的孤立数字语音识别系统;r a c 实验室识别了特定人的十个单 音词中所包含的不同音节;m r r 的l i n c o l n 实验室开发了针对十个元音的非特定人语音 识别系统。 在六十年代,人们已经对语音识别的一些基本概念有了初步的认识,日本东京无线 电研究实验室、京都大学和n e c 实验室都制作了能够进行语音识别的专用硬件,对语 音识别领域进行了开拓性的研究工作。当时有关语音识别的三个关键项目的启动,对以 后语音识别的研究领域和发展产生了深远的影响。他们是:1 ) r c a 实验室的m a r t i n 为 解决语音时间尺度的非均匀性,以便能可靠地检测到语音的起始点和终止点,提出了一 组基本的时间归一化方法,有效的减小了识别结果的可变性:2 ) 前苏联的v i n t s y u k 提 出了使用动态规划方法,对一组语音在时间上进行校准,它包含了动态时间伸缩的概 念;3 ) c a r n e g i em e l l o n 大学的r e d d y 通过对音素的动态跟踪,对连续语音识别方 法作了开创性的研究工作,并促成了一项后来获得巨大成功的连续语音研究计划。 在七十年代,语音识别的研究取得了许多重大具有里程碑意义的成果。首先语音识 别已经成为可用的技术,模式识别、动态规划技术也开始语音识别系统中得到应用;低 比特率编码中取得成功的线性预测编码( i j p c ) 方法被用来作为语音的谱特征参数,并 沿用至今。最具意义的是i b m 公司开始了有关大词汇量语音识别的长期的、庞大的研 究计划,b e l l 实验室也开始进行了一系列旨在完成真正非特定人的识别系统的实验,这 些项目都持续了十多年的时间,并获得了极具价值的研究成果。 七十年代语音研究的重点是孤立词语音识别,而在八十年代,连续语音成为研究重 点,并出现了大量的连续语音识别算法,如n e c 公司提出的二层动态规划算法,b e l l 实验室的m y e r s 、r a b i n e r 和l e e 等人提出的分层构造算法,以及帧同步分层构造算法 等。另外,在八十年代中后期,语音识别研究所用的技术方法发生了变化:由于模板的 方法转向了统计的方法一尤其是使用了隐马尔可夫模型( h m m ) 方法,这种方法现在 已成为语音识别研究的主流。 最后,有必要指出的是美国国防部发起的一个大规模的研究计划d a r p a 计划, 旨在提高用于完成数据库管理任务的1 0 0 0 次范围内的连续语音识别的识别率。美国有 不少著名的大学和研究机构都参与了此计划,并做出了卓越的贡献,如开发了大词汇 量、非特定人、连续语音识别系统_ s p h i n x 的c a r n e g i em e l l o n 大学,开发了连续语音 识别系统b y b l o s 的b b n 公司,还有m i t 的l i n c o i n 实验室,s k i 研究院,b e l l 实验 大连理工大学硕士学位论文 室等。由于有了d a r p a 计划,在八十年代的这十年中,大词汇量的连续语音识别系统 有了长足的进展。 近年来,语音识别系统的研究已经开拓到新的领域,那就是口语语言系统。它集语 音识别技术、自然语言处理和人机交互技术于一体,能够识别说话人所说的字,解释字 序列,并根据实际应用给出其意义,给用户以正确的反馈。它的潜在应用范围从简单的 信息检索( 交通状况、航班信息) ,到复杂的交互式任务计划和推理( 交通路线,旅游 计划) ,直至能够支持多语言和多媒体界面。其目的是使人类在不经过特别训练的情况 下,以最自然、最常用的交流方式与计算机对话,并能适用于新用户群。目前,m m 、 d r a g o n 、p h i l i p s 等公司都已提供其产品,a t tb e l l 实验室的系统能通过电话接受用户 的即席讲话,甚至通过电话接听e - m a i l ,而m i t 实验室仅几十年来都在研究这类对话 系统,现在可以通过电话或i n t e m e t 对其进行访问和查询,它几乎能实时回答英语、西 班牙语和汉语的提问,就像两个人对话一样。 我国在7 0 年代末就开始了语音技术的研究,但很长一段时间内都处于缓慢发展的 阶段,直到八十年代后期,随着计算机应用技术在我国的逐渐普及和数字信号处理技术 的进一步发展,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自 动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究这致 力于语音识别的基础理论研究工作、模型计算法的研究和改进。但由于起步晚、基础薄 弱,计算机水平不发达,导致整个八十年代,我国在语音识别研究方面并没有形成自己 的特色,更没有取得显著成果和开发出大型性能优良的实验系统。但进入九十年代后, 我国语音识别研究的步伐就逐渐紧迫国际先进水平了,在“八五”、“九五”国家科技 攻关计划、国家自然科学基金、国家8 6 3 计划的支持下,我国在中文语音技术的基础研 究方面也取得了一系列成果。在语音合成技术方面,中国科大讯飞公司已具有l 虱际上最 领先的核心技术;中科院声学所也在长期积累的基础上,研究开发出颇具特色的产品; 在语音识别技术方面,中科院自动化所具有相当的技术优势;社科院语言所在汉语言学 及实验语言科学方面同样具有深厚的积累。但是,这些成果并没有得到很好的应用,转 化为产业,相反,中文语音技术在技术、人才、市场的等方面f 面临着来自国际竞争环 境越来越严峻的挑战和压力。 当前,国际上的一些跨国公司也看好了中国潜力巨大的市场,纷纷涉足中文语音技 术,加紧技术、产品、市场的全面拓展。i b m 、微软、英特尔都把研究【皖办n t 中国, 并把包括中文语音技术在内的综合型中文智能平台的研究丌发列为重点。1 9 9 8 年1 1 月 初,在北京举行有i n t e l 举办的首届语音技术困际论坛,会卜,各国际大公司争相展 嵌入式小词汇量语音识别系统的殴计与实现 示自己的最新识别系统,包括i b m 、d r a g o n 、l u c e n t 和p h i l i p s 等,让大家耳目一新, i n t e l 、m i c r o s o f t 等也都在演讲时对自己的系统进行了演示。中国中科院自动化研 究所展示了自己的独立产品,尽管在识别速度和识别率上还无法和国外先进水平相比, 但也显示了中国在这一国际竞争所做出的努力。现在,英特尔已经完成了电话语音识别 演示系统;l & h 正在深圳和北京等地全力推广其成型产品:i b m 的v i a v o i c e 已占领了 中国语音识别9 0 以上的市场;微软则有详细的中文语音开发的捆绑计划,前不久微软 研究院院长李开复演示的大词汇量、自纠错中文语音识别系统更让人看到了语音识别的 美好前景p 1 。 1 2 本文的主要工作 语音识别以语言为研究对象,它是语音信号的一个重要研究方向,是模式识别的一 个分支,涉及声学、语言学、计算机科学以及信号处理等诸多领域,其最终目标是实现 人与机器进行自然语言通信。根据对说话人说话方式的要求可以分为孤立字语音识别系 统、连接字语音识别系统以及连续语音识别系统;根据词汇量大小可分为小词汇量、中 等词汇量、大词汇量以及无限词汇量语音识别系统。根据本课题需求的特殊性,即控制 仿真鱼的指令都为一些比较简单的口令,为此选取小词汇量语音识别系统作为研究对 象,并选取音节为识别的基本单元。主要是因为汉语的单音节结构的语言,并且汉语虽 然有1 2 8 2 个音节,但若不考虑声调,有4 1 2 个无调音节,数量相对较少。并且结合本 课题的需求量考虑,本课题只需一些相对简单的指令,所以,以音节为识剐单元是可行 的。 技术必须与应用紧密联结合,现在语音识别已经在许多领域崭露头角:例如语音听 写器、声控拨号、银行信用卡查询等,丽本文是在计算机模拟的三维仿真鱼的基础上嵌 入语音识别功能,使鱼可以通过声音来控制。这是因为,一方面语音识别技术在某些方 面已经达n t 实用化的程度;另一方面用户的需求也越来越迫切。虽然语音识别技术还 没有完全成熟,但从研究和实用的关系来看,发展中的技术也可以在很多情况下找到其 相应的实用价值。例如,特定人、孤立词技术可以用来实现电话声控拨号的功能,省去 了用户记大量电话号码的负担,而且驾驶汽车的同时打电话也更安全方便。另外研究和 使用之间还有相互促进的作用。一方面新的研究成果可以引入新的应用,改善人类生活 方式的同时刨造极大的商机;另一方面应用中出现的,: i 足可以开辟新的研究方向,或者 使得研究更加深入和成熟。 大连理工大学硕士学位论文 本课题从上述的研究和使用的关系出发,建立了一个特定入、孤立词、小词汇量的 语音识别系统。从应用角度上来看,该系统可以应用到本教研室的三维仿真鱼项目上, 也可用于移动电话上实现语音声控拨号功能,还可应用到掌上电脑等手持终端设备实现 电话号码查询或语音控制等功能,目前趋势是手持终端体积越来越小,操作要求更加简 单,而利用语音进行控制和输入则是十分理想的人机接i z l 方式,其应用前景十分广阔。 从研究角度来看,语音识别涉及多学科而且技术实现十分复杂,选择小词汇量识别系统 作为开展语音识别研究的入手点是比较合理的。因为该系统结构完整、功能简洁,覆盖 了语音识别技术的主要内容,有利于掌握基础的理论和基本方法,为深入研究奠定基 础。 嵌入式小词汇量语音识别系统的设计与实现 语音识别系统,顾名思义,是专门针对人们发出的语音的识别系统。识别系统对语 句进行分析,然后以事先设定好的响应方式给出相应的响应,如语音回答,执行操作, 给出需要的信息,或是输出特定的控制信号给其他设备。其目的就是方便,快捷的辅助 人类进行更有效的工作,使人把双手从复杂的控制面板或是危险的操作环境解放出来, 简化了机器的控制过程,另外,应用在查询系统中还简化了关键词的输入过程,加快了 查询速度,使机器显得更加友好,应用玩具中还可以增添玩具的交互性。归纳起来语音 识别系统的用途可分为以下几类【5 l : ( 1 1 控制系统这里包含广泛的内容。比如说生产线控制室中的复杂控制面板, 许许多多的按钮如今可以用一个麦克风代替:在飞机或汽车驾驶室中,驾驶员的双手离 开操纵杆或者方向盘是很危险的,为了进行其他操作,语言具有不可替代的优势,这一 点对正在进行抢救的医生来说也是非常重要的:还有对于高危险区的控制,人们不易接 近实施操作,用语音指令就可以避免;另外各种家用电器的话音遥控使得机器使用起来 更加方便,和电话结合起来有可能使人们通过手机在下班路上就可以打开空调、放上热 水或是煮上米饭等等;再有,在光线昏暗的环境中,声音控制就更加方便了人们的操 作。 f 2 ) 查询系统这是语音识别的另一个重要的应用。现代社会中信息查询日益显 得重要,电话号码、航班、火车、汽车时刻表,股票行情、天气预报、自动导购、问卷 调查等等,语音识别的实现,使得查询方式更加灵活,操作更加简便。像目前m m 公 司内部就实现了自通电话号码查询系统。 ( 3 ) 语音玩具这种应用使得玩具从简单的发出几种声音到可以和人进行简单的 交流,必然使得玩具更加吸引人。但这里的简单的交流里自然语言对话还有很大的距 离,后者不仅要求语音识别技术的更加完善和发展,还与人工智能的发展密切相关,这 里只是做到简单的对话而已。 上面只列举了语音识别的若干应用,实际当中还可以和其他的很多系统相结合引发 出更广泛的应用柬。而本项目与虚拟鱼项目相结合,就是一个最好的语音识别走向实用 化的例子。 和孤立词语音识别不同,连续语音识别最困难的就在于连续语音的分割问题以及连 续发音导致的协同发音情况,一旦能够做到准确的分割和对协同发音的修正,连续语音 识别就变成了孤立词识别。一般来说,连续语音识别的难度要比孤立词识别大,词汇量 大连理工大学硕士学位论文 也相对较大,其应用主要针对语音录入,自然语言理解等应用。这也是一直语音识别研 究的热点和难点,相对孤立词识别来说,其难度仍然相当大,到目前为止,所有的连续 语音识别系统都还没有达到完全实用的阶段。与此不同的是,孤立词语识别方法已经相 对很成熟了,已经有很多成功的应用。现在的问题就是如何进一步的产品化,降低成 本,开发更多的应用。本文就是针对语音识别系统的基本原理,常用方法,和一些难 点,关键技术以及实际应用中需要考虑的问题展开的。 2 1 语音识别的主要步骤 一个典型的语音识别系统的结构框图,见图2 1 。 图2 1 语音识别系统结构图 f i g 2 1t h es y s t e ms t r u c t u r eo f s p e e c hr e c o g n i t i o n 语音信号首先经过预处理变成离散数字信号s ( n ) ;然后对其进行频谱分析,提取出 语音信号的参数化表示( 或称待识别未知模式) 通常是由特征矢量构成的特征矩 阵;如果是在识别过程中,冉把此模式和数据库中的参考模式进行比较;最后由识别决 策来决定是否识别,并给出结果。 嵌入式小词汇量语音识别系统的设计与实现 2 1 _ 1 预处理 预处理的内容很丰富,主要是a d 转换,其目的就是将麦克风的录入的原始模拟 语音信号采样量化成能够被程序控制和处理的数字信号。由于麦克风,a d 转化器以及 传输通道的非线性响应使语音信号产生失真;另外,为了后面的频谱分析更好的工作, 需要克服语音信号大约每十倍频程衰减2 0 d b 的特点,有时在预处理当中还会对语音频 谱进行加权处理。实际应用中还需要考虑的就是环境噪音的问题,如何抑制噪声,克服 噪声对识别产生的影响是贯穿整个识别过程需要考虑的问题。在预处理中可以采用噪声 估计,语音增强,自适应滤波等方法减少噪声干扰。 2 1 2 端点检测 端点检测是语音识别中所遇到的第一个关键技术,它是指用数字处理技术来找出语 音信号中各种段落( 如:音素、音节等) 的始点和终点的位置。在汉语中,主要目的是 找出语音的两个端点。只有将汉语音节字从信号流的背景噪声中分割出来,才能有意义 的进行语音识别的后续工作【2 1 1 】 2 1 3 特征提取 语音信号的线性预测编码( i j p c ) 已被一致公认为目前参数编码中最有效的方法, 这主要是由于它能够在2 4 k b i t s 的低比特率下获得清晰、可懂的合成音,并且易于硬件 实现。这种方法的优点不但能极为精确的估计语音参数,又在于它的计算速度比较快。 它的基本原理是建立在语音信号的数字模型基础之上。线性预测的基本思路是,一个语 音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近。在线性组合中加 权系数称为预测系数【。6 1 。将在下一章详细阐述本文是如何应用l p c 实现特征提取的。 2 1 4 模式匹配 模式匹配是采用“从底向上”的方式,它是从语音的特征抽取,到语音描述,根据 模版进行单词匹配,最后是句法的、语义的和诗意的分析。通过与声学参数模板的匹 配,找到最优有匹配值。 2 2 语音识别方法 这一节,本文将对常用的语音识别方法进行一下介绍,目的是对各种方法进行比 较,讨论各自的优点和不足,从而对本文选用的方法有个更好的了解。广泛的讲,语音 识别有三类方法,它们分别是 6 , 7 1 : n 1 声学语音学方法。 大连理工大学硕士学位论文 ( 萄模式识别方法。 ( 3 ) 人工智能方法。 声学语音学方法是基于语音学的基本原理提出的。语音学认为,语音是由有限个 独立的语音单元构成,并且这些语音单元可以用各种语音信号参数或谱特征加以描述。 尽管不同的说话者以及不同相邻的语音单元的影响是对这些基本的语音单元有很大的不 同,但人们通常认为这些变化的内在规律是可以为人们所掌握,并可用到实际应用中去 的。因此,用声学语音学方法进行语音识别的第一步就是通常说的切分与标示,就是 把语音信号分割成离散( 时间上) 的片断,每个片段的声学特征对应的是一个( 也可能 是若干个) 语音单元,然后再根据声学特征对每个片断加上相应的标示。为了能进行语 音识别还必须进入第二步,第二步就是从第一步给出的语音片段标示序列中找出正确的 单词。这里“正确”是指的所认出的单词时语音识别任务所规定的( 也就是说单词属于 所使用单词库,单词序列符合句法并且语义上也讲得通等等) 。这种方法最大的困难就 是如何正确的切分出语音单元标示串,另外把这些标示串翻译成合法的单词串也很麻烦 ( 被称作词汇合成问题) ,需要结合高效的语义语法分析。 基于声学语音学的语音识别方法依据的是声学语音学理论,即是假设在语音中存 在有限的、独特的语音单元,这些语音单元能有一组在语音信号中很明显的特性来表 征。下面介绍声学语音识别的大致过程。 1 巫时 i 分段 和 标注 叫百磊计 识别结果 图2 2 基于声学语音学的语音识别系统结构框图 f i g 2 2t h e f r a m eo fs t r u c t u r eo fs p e e c h :o g n i t i o nb a s e do na c o u s t i cp h o n e t i c s 如图2 2 为基于声学语音学的语音识别系统。 第一步对于所有语音识别方法基本相同,即语音分析系统,由它可得到时变语音信 号的特征表达式。其中,用得较为普遍的语音分析技术有滤波器组方法和l p c 方法。 嵌入式小词汇量语音识别系统的设计与实现 第二步即为特征检测阶段。其主要思想是将语音谱值转化为一组特征,而这组特征 能描述不同语音单元的声学特性,它包括:鼻音、摩擦音、共振峰位置、有声,无声分 类等。特征检测有一组平行工作着的检测器组成,它通过适当的处理做出决定。 第三步为分段和标注阶段。在此阶段,系统找到特征变化非常小的区域,再按照该 区域的特征与语音单元的匹配程度来标注所分的语音段,这一步是声学语音识别器的核 心,也是难点所在。因此,需要第四部的控制策略来限制分段点的范围以及标注的或然 性。 通过分段和标注,本文得到的因素组成的某种格式,再通过词汇访问程序得到最佳 匹配的词或字。 和声学语音学方法不同,用识别的方法进行语音识别一般直接使用语音模式,并 不作明确的特征检测( 基于声学一语音学意义) 和分割。大多数模式识别方法分为两 步即语音模式训练,以及通过模式比较识别未知模式。这里,语音“模式”是通过 训练过程植入系统的,关键是训练集合中的各个模式( 可以是一个声音,一个单词或短 语等) 的训练样本是否足够,只有当训练样本足够的时候,训| 练过程才能充分的归纳出 模式的声学特点( 在没有每个训练样本的先验知识情况下) ,这种通过训练归纳语音模 式特征的方法称作模式分类方法,这对系统能够分辨出哪些特征是比较可靠,并且常常 出现在训练样本中的。在识别的时候直接应用模式比较技术将未知语音模式( 待识别 的) 和训练过的每个可能的模式进行比较,根据匹配的情况将其归类。( 将在后边章节 详细介绍) 所谓的人工智能方法是由于使用了前面两种方法的思想和概念,因此可以看作是前 面两种方法的混合方法。它的出发点是试图使系统能够像人那样在度量声学特征的时 候,利用人工智能进行形象化,进行分析以及最后的决策。这种方法在实际应用当中的 一个典型例子就是专家系统,它在非常困难的语音单元切分与标示时综合运用了多种方 法( 例如合成音素,词汇,句法,语义,甚至实用性知识都在专家系统中提出并研究 过) ,而不像在声学语音学方法中那样只应用声学特征;另外,还引入了学习和适应 特点( 即知识的概念包括了静态和动态部分,模型必须适应数据的动态部分) ;在学习 各种语音元素与所有已知的输入( 包括声学的、词法的、句法的、语义的等等) 之间的 联系时,以及类似的语音集合分类时引入了神经网络概念( 神经网络使用既可以作为语 音识别方法一个独立的结构,也可以与上述的三种方法结合成为执行框架。) 从上面的介绍中,可以发现最适合用来作为本文语音识别系统的识别方法就是模式 匹配方法。 大连理工大学硕士学位论文 本文的语音识别系统就是采用了模式匹配方法,采用这种方法的主要原因有【8 】: ( 1 ) 使用简单。这种方法易于理解,包含了很多数学和信号处理的常用知识,而这 些知识也是使用广泛、不难理解的。 ( 2 ) 对于不同的语音库,使用者,特征集合,模式比较算法以及判断法则,本方法 有较高的鲁棒性和稳定性,这个特性是算法可以应用到非常广泛的语音单元( 从类音素 单元到单词、短语甚至是句子) 、单词表、使用人数、环境噪声、传输条件等之中。 ( 3 ) 性能良好。模式识别技术已经有了很多成功的应用,而且为许多更为复杂的语 音识别问题提供了思路和方向。 从下一章本文就开始分析语音识别系统的关键技术原理与实现方法。 嵌入式小词汇量语音识别系统的设计与实现 3 小词汇量语音识别系统的设计与实现 3 1 本系统的基本流程 本系统的工作流程如图3 1 所示,其中端点检测,特征提取,模式匹配是本文的主 要工作。 图3 1 小词汇量语音识别系统的丁作流程 f i g 3 1 t h e p r o c e s s o f s y s t e m o f r e g r a z i n g i s o l a t e d w o r d b a s e d o q m p u a 当说话人发出对仿真鱼的控制指令后,语音通过声卡进行采样,即把说话人发出的 连续的模拟信号转变为离散的数字信号,即完成a d 转换。语音信号是一种典型的非 平稳信号,但是由于语音形成过程是与发音器官的运动密切相关的,这种物理运动比起 声音振动速度来讲要缓慢得多,因此语音信号常常可假定为短时平稳的,即在1 0 - 2 0 m s 这样的时间段内,其频谱特性和某些物理特征参量可近似的看作是不变的。这样,本文 就可以采用平稳过程的分析处理方法来处理,即取2 0 m s 为一帧,每帧包含2 0 0 个采样 点。下面进入到本文的第一个主要工作:端点检测。 3 _ 2 端点检测的实现 3 2 1 汉语特点 作为汉语标准音的普通话,其特点是音节界限分明和音节带有声调音位1 2 l 。 汉语语音结构简单,有声母韵母构成。单个韵母或声母加韵母形成音节,一个音节 为一个字,声母共有2 2 个,韵母共有3 8 个,声母韵母共组成4 1 2 个音节。汉语是有调 大连理t 大学硕士学位论文 语言,有阴平阳平上声去声和轻声五个声调,音节加上声调共组成1 2 8 2 个音节。实验 表明,汉语音节中,韵母能量大,持续时间长、具有准周期性;而声母变化不太稳定, 能量低。汉语的声一韵这一简单结构,使得汉语比较适合于孤立词识别,与本项目的需 求相符合。 3 2 2 录音的数据格式 图3 3 端点检测t 作流程图 r i g 3 3t h ep r o c e s so f w o r k f l o wo f v e r t e x t e s t i n g 图3 _ 3 为端点检测以及前期语音采集的流程图,用到的数据是实际的语音信号通过 麦克风,经计算机声卡采集而获得的,通过计算机文件的形式存储为语音数据文件。这 主要是要利用成熟的计算机声卡技术,因此要需要对w i n d o w s 的波形音频文件( w a v e ) 格式有深入了解。 在w i n d o w s 环境下,大部分的媒体文件都依循着一种结构来存放信息,这种结构 就成为“资源互换文件格式”( r e s o u r c ei n t e r c h a n g ef i l ef o r m a t l ,简称r i f f 。其基本单 位是区块。每个区块都有辨别码、数据大小及数据组成。辨别码由4 个a s c i i 码所组 成,数据大d , n 标出其后的数据的长度f 单位为b m ) ,而数据的大小本身就用掉了4 个 b y t e ,所以一个区块长度为数据大 j j j n 8 。 w a v e 文件作为多媒体中使用的声波文件格式之1 ,它是以r i f f 格式为标准的。 w a v e 文件的格式很多,这是因为不同的人根据自己的需要设置了不同的格式。但是 w a v e 文件必须包含两个字数据块,一个是“t i n t ”字数据块,用于存储波形格式信 嵌入式小词汇量语音识j 系统的设计与实现 息,包括波形格式种类、声道数、采样频率、样本值位数等。识别测试中采用了采样频 率为8 1 ( | i z 的8 位声道p c m 录音模式。 3 2 3 语音采集 语音采集的目的是得到能够被计算机识别的数字信号,数字信号是指时间和幅度均 为离散的信号。为了把模拟语音信号变换成数字信号,必须经过采样和量化两个步骤。 前者是对时间上连续的信号采样,离散化成一个样本序列;后者则是将这一序列的样本 的幅度再离散化。采样带来一个问题,它是否会丢失掉有用信息,也就是能否从采样的 序列恢复出原来的信号。由采样定理可知:当采样频率大于信号的两倍带宽时,采样过 程不会丢失信息。 通常,语音频率范围大约在6 0 i - i z 至3 4 0 0 h z 左右,在实际语音信号数据处理中, 根据采样定理采样频率常取8 k h z 1 5 k h z 之间。采样后语音信号在经过量化后就变成时 间和幅度上都是离散的数字信号。 3 2 4 端点检测 汉语端点检测是根据汉语特点及其参数的统计规律本文选用过零率和短时能量参数 进行端点检测。 设n 为一帧中点的个数,s 为采集到的语音信号( 通常n = 6 4 ) 。端点检测算法是通 过计算过零率和能量来判断是否端点,其中每帧的能量计算为 c n e 铲扣 信号的过零率定义为 ( 3 1 ) z n = i s g n x ( m ) 一s g n 【x ( m 。1 ) 】1w ( n 。m ) = 1s g n x ( n ) l s g n 【x ( n 1 ) 1 1 + w ( n ) ( 3 2 ) 信号的短时能量定义为 e 2 墨【x ( m ) w ( n m ) 】2 。,蚤+ 。【x ( m ) w ( n _ m ) 2,毒厶m ,:知+ 1 ( 3 3 ) 大连理工大学硕士学位论文 本文用过零率检测开始点,用短时能量参数检测结束点,首先规定一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论