(计算机应用技术专业论文)嵌入式语音识别特征矢量的研究.pdf_第1页
(计算机应用技术专业论文)嵌入式语音识别特征矢量的研究.pdf_第2页
(计算机应用技术专业论文)嵌入式语音识别特征矢量的研究.pdf_第3页
(计算机应用技术专业论文)嵌入式语音识别特征矢量的研究.pdf_第4页
(计算机应用技术专业论文)嵌入式语音识别特征矢量的研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学学位论文 独创性声明及使用授权说明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:雎当丝日期:量鲤;:! 一 二、关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保 存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部 或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 签名:圭科堂导师签名:堑釜杰! 细日期:蠢! 殳! ! 主 东南大学硕士论文 摘要 在人类历史还没有出现新的交流媒体以前,语言交流成为了主要的人类 社会信息交换的工具。自从出现了电话、电影、收音机、电视和互联网以后, 语言的概念被延伸了。语音识别和语音合成的发展成为了计算机出现以后的一 种必然趋势。 基于连续隐马尔可夫h m m 统计模型的语音识别技术已经成为了当前语 音识别的主流,它在连接词识别和连续语音识别的应用得到了很好的效果。 随着通信技术的高速发展,手机和p d a 等一些嵌入式通讯设备已成为人 们进行通信的重要工具。目前,人们逐渐将注意力转向了它的操作性能,因 此,手机声控拨号技术的开发成为了一个热点。声控拨号,即用户在拨号时只 需说出手机号码,由手机( 当然固定电话也可以) 通过识别出其电话数字并自动 拨号。 本论文首先论文介绍了语音识别的基本原理,接着分别介绍了在连接词 识别系统中语音特征矢量的提取和h m m 参数的训练、识别,最后对c w s r 系 统中的主要数据结构和相关算法做了详细的讲解。 在现有的技术条件下,我们在p c 上模拟嵌入式环境设计了一套连接词 语音识别软件开发包,它不仅实现了一个能够识别一串数字的演示程序,而且 提供了软件开发的接口以供移植到不同的软件平台中。 关键词:语音识别,嵌入式系统,h m m ,语音拨号 东南大学硕士论文 a b s t r a c t f r o mh u m a n p r e h i s t o r yt ot h en e w m e d i ao f t h e f u t u r e ,s p e e c hc o m m u n i c a t i o n h a sb e e na n dw i l lb ed o m i n a n tm o d eo f h u m a ns o c i a lb o n d i n ga n di n f o r m a t i o n e x c h a n g e t h es p o k e nw o r d i sn o w e x t e n d e d ,t h r o u g ht e c h n o l o g i c a lm e d i a t i o ns u c h a st e l e p h o n y ,m o v i e s ,r a d i o ,t e l e v i s i o n ,a n di n t e r a c t s p e e c h r e c o g n i t i o na n d t e x t t o s p e e c h b e c o m eat r e n da f t e r c o m p u t e rd e v e l o p m e n t c u r r e n tm a i n t e c h n o l o g yo fs p e e c hr e c o g n i t i o ni sb a s e do nt h et h e o r yo fs t a t i s t i c p a r e mr e c o g n i t i o na n d i th a sb e e n a p p l i e d i nc o n n e c t e d s p e e c hr e c o g n i t i o na n d c o n t i n u es p e e c h r e c o g n i t i o n w i t hc o m m u n i c a t i o n t e c h n i q u e f a s td e v e l o p m e n t ,m o b i l e p h o n e a n dp d ah a v e b e e nm a i n t o o l s n o w ,p e o p l ep a y m o r ea t t e n t i o no i lt h e i ro p e r m i o n c a p a b i l i t y ,s o s p e e c hd i a l i n g ,w h i c hp e o p l eo n l ys p e a kp h o n e sn u m b e ra n dm o b i l ec a nd i a l a u t o m a t i c a l l yb yr e c o g n i z i n gs p e e c h ,b e c o m eab r i g h tp o i m i nf i r s t ,p a p e ri n t r o d u c e se s s e n t i a l p r i n c i p l eo fs p e e c hr e c o g n i t i o n ;s e c o n d l y , p a p e r i n t r o d u c e se x t r a c t i o no f s p e e c hc h a r a c t e r v e c t o ra n d t r a i n i n g i ,r e c o g n i t i o no f h m m p a r a m e t e r ;i nt h ee n d ,p a p e rs h o w sm a i n l yd a t as t r u c t u r ea n ds o m ea l g o r i t h m s o fc w s r s y s t e m u n d e rt h ec u r r e n tt e c h n i c a l l yc o n d i t i o n s ,w e d e s i g na s o f t w a r ed e v e l o p m e n tk i t o f s p e e c hr e c o g n i t i o nb ys i m u l a t i n ge m b e d d e ds y s t e mi np c ,w h i c hi sn o to n l ya d e m o p r o g r a mb u ta l s os o m ep r o g r a m m i n gi n t e r f a c ep r o v i d e db yc w s r s y s t e m w e c a nu s et h e s ei n t e r f a c e sp o r t i n gi tt od i f f e r e n c e ss o f t w a r ee n v i r o n m e n t k e yw o r d s :s p e e c hr e c o g n i t i o n ,e m b e d d e ds y s t e m ,h m m ,s p e e c hd i a l i n g 4 ,4 7 东南大学硕士论文 1 绪论 人类现在已经全面进入计算机时代,依靠各种计算机系统从事劳动,生产 和科学研究。这就自然而然出现了人与计算机系统间的信息交流。即系统不断 报告自己的运行状态和结果,而人则根据这些状态、结果发出其下一步应进入 何种状态和命令,这就是人机对话。 长期以来,计算机在与人的信息交流中一直处于“聋哑”状态,人对计算 机系统的输入主要是靠各种形式的键盘、鼠标等,计算机要报告运行的状态、 结果只能通过各种显示装置。这样的交互把人和对象系统限制在近距离面对面 的空间里,所交换的信号基本是数字量或数字量的转化形式,这种较原始的人 机对话完全不能适应计算机系统进一步智能化的要求。 语言是人类在长期的进化过程中形成的最方便、最习惯的通讯方式。人与 人交往、交流思想、描述事物的最直接工具是语言。声音是语言的一种重要传 播媒介,可以说语音是人类语言中最富含信息量的一种表现方式。让机器像人 一样会说话、听话,一直是人们长期追求的目标。在计算机应用广泛普及的今 天,当人们对人类发声的生理机能和语音信号的特征有了深刻理解后,就越来 越期待着以语音方式与计算机进行交流,人机之间进行语音交流已成为人机交 互技术中的重要研究课题。 语音作为一种计算机的智能化手段,使人机对话向人和仿人对话发展,在 形式上填补了人机对话的空白,也使人机界面从数字领域进入了模糊领域。语 音识别和语音合成是这些里面最主要的两个课题,随着现代科技的迅猛发展, 计算机技术和信号处理技术相结合,为计算机语音识别技术的发展创造了条 件。可以说,计算机语音识别已经成为现代高科技发展的重要标志之一。 1 1 语音识别技术概述 语音识别是最近三十年以来发展起来的交叉学科,它涉及到计算机科学、 数字信号处理、语音学、语言学、数罩统计学咀及神经生理学等多门学科。 东南大学硕士论文 语音识别的目标是让机器“听懂”人类口述的语言,听懂有两种含义: 1 ) 将这种口述语言逐词( 字) 逐句转换为相应的书面语言( 即文字) ; 2 ) 对口述语言中所包含的要求或询问做出正确的响应,而不拘泥于所有 词的正确转换为书面文字。 语音识别和语音合成相结合,即构成一个“人机通信系统”。 对语音识别的研究从5 0 年代初期已经开始,但是直到6 0 年代中期以后才 作为一个重要的课题展开工作,并且逐步取得实质性的进展。如快速傅立叶变 化、倒谱计算、线性预测算法、数字滤波器等。有学者提出了将动态规划( d p ) 的概率用于解决孤立词识别时说话不均匀的难题,提出了著名的动态时间伸缩 算法,简记为d t w 。从6 0 年代末期以来经过了四分之一个世纪,这一时期语 音识别研究解决了一些难度较大的课题,有两条主要的途径:一条是知识工程 或称为专家系统的途径,另一条则是统计方法的途径。从7 0 年代后期直到现 在,用人工智能的方法于语音识别的研究路线始终不断,稍受训练的语谱阅读 者能够通过读识语谱以很高的识别率识别语音。自8 0 年代中期以来,一些较简 单的语音识别系统已进入了商品化阶段。在8 0 年代后期和9 0 年代,语音识别 的主攻方向是连续语音、大词表、非特定人的语音识别算法研究和系统开发以 及各种非特定人的语声响应系统的研制开发。 1 2 语音识别分类 由于对于语音识别的需要来自不同的领域和部门,因此语音识别系统应该 具有的性能和指标提出了差异极大的要求,语音识别系统也因此可以分为不同 的类别。 词汇表( v a c a b u l a r y ) 的大小:每一个语音识别系统都必须有一个词汇 表,系统只能识别表中所包含的词条,词的数量越多则系统的实现越困难。困 难柬自于: 第一,词条越多则相似的词越多,由于分辨相似词的困难,识别率相应减 少。 东南人学硕上论文 第二,随着词数增多,搜索运算使计算开销迅速增加。划分的标准是:词 数小于1 0 0 时称为小词汇表,1 0 0 至5 0 0 成为中词汇表,超过5 0 0 称为大词汇 表。 讲述方式:被识别语音按照述说方式可分为孤立词、连接词和连续语音三 种识别方式,孤立词识另1 ( i s o l a t e dw o r dr e c o g n i t i o n ,简称i w r ) 方式时说话人 每次只说一个词、一个词组和一个命令让识别系统识别。其中的词组或命令在 词汇表中都算作一个独立词条。连接词识别( c o n n e c t e dw o r dr e c o g n i t i o n ,简 称c w r ) 般特指十个数字( 0 9 ) 连接而成多位数字的识别,有时还可以加 上少量的操作命令,这时词汇表只由这十个数字及少数指令组成。连接词识别 系统在电话、数据库查询及控制操作系统中用途很广;连续语音识别 ( c o n t i n u o u ss p e e c hr e c o g n i t i o n ,简称c s r ) 是指说话人以日常自然的方式讲 述并予以识别。在连续语音识别一般用到了语法的约束,而连接词识别一般没 有语法约束或者简单的语法约束。 服务对象:语音识别系统可以是只针对一个用户的,例如个人专用的语音 打字机,这为特定人( s p e a k e r d e p e n d e n t ,简称s d ) 方式。系统若是针对任何 人的,则称为非特定人( s p e a k e ri n d e p e n d e n t ,简称s i ) 方式,电话和数据检索 系统中所用的识别器即属于此中情况,显然,后者的实现难度较前者大得多。 1 3 语音识别应用及嵌入式需求的提出 语音识另o ( s p e e c hr e c o g n i t i o n ,简称s r ) 在信息产业得各个领域都有广泛得 应用,包括计算机、办公自动化、通讯、家用电器等等。下面举例说明: 1 金融 采用了语音技术后,通过电话,不用人工的干预,就可以进行账户余额 查询,完成账户间的转账等工作。不仅提高了工作的效率,也改善了服务商的 形象。 2 证券 用户通过电话可以查询当前的股市情况,不用再按电话上的按键,而是 直接说出自己关心的股票的名称,计算机就通过语音合成技术,将结果播报出 来。 东南大学硕士论文 3 电信和寻呼 采用语音技术,在电信业务中将产生很多的应用。例如在“1 1 4 ”电话黄页 中,目前还要有大量的人工服务;而如果采用语音技术,就可以不用人工服务, 让计算机自动接听用户的需要,然后回放查询的电话号码。寻呼目前还是通过 寻呼小姐汜下用户要寻呼的目标号码,然后将内容输入到寻呼系统进行发射;采 用语音技术后,可以让计算机自动地进行整个操作过程。 4 旅游 用户可以通过电话,自动查询那些感兴趣的景点的语音介绍材料,相当 于请了一个电话导游。当出现问题时,也可以通过电话,进行各种求助。 5 娱乐 语音技术在娱乐方面,也可以激发出许多的新应用。例如,在通过电话进 行电视m t v 点播时,可以避免重复地按电话上的按键,而是直接说出是哪个 歌手的哪首歌,电视台就通过接收语音输入,播放相应的曲目。 数字与人类的日常生活和工作息息相关,把数字语音识别与其他语音命令 识别相结合,组成各种嵌入式语音控制设备,这种嵌入式设备几乎涉及到人类 生活的方方面面,使人们的生活,工作更加方便和舒心。譬如,如果在普通的 手机或电话上加入语音数字识别和人名识别拨号系统,这种手机将变得更加 s m a r t ,对于熟人,可以对着手机直呼其名,对于其他人可以叫出你想要通话人 所在地区和电话号码,系统通过识别、确认即可直接接通所需号码。总之,在 嵌入式设备使用语音识别技术已经成为了一种趋势。 随着硬件水平得提高,嵌入式设备的计算能力和存储能力也得到了大大得 提高,加上一些嵌入式设备( 如手机,p d a 手机等) 自带语音处理芯片,使得语音 识别的软件实现在嵌入式设备应用成为了可能,当然因为嵌入式设备计算能力 还不能和个人p c 相比,所以嵌入式环境的语音识别应该在以减少计算量上做 出努力,甚至有的时候可能考虑适当的降低语音识别的效果。 本文就考虑如何减少语音特征值的维数和计算为基础提出嵌入式环境下的 语音拨号的基本思路。 论文地主要完成了以下几个方面地工作: 东南大学硕士论文 ( 1 ) 通过阅读大量的语音信号处理方面的文献资料,在掌握语音信号 数字处理算法的基础上,了解到在嵌入式实时语音环境下,l 临界 倒谱带系数作为语音信号的特征矢量具有较好的性能: ( 2 ) 在c w s r 系统中实现临界倒谱带系数抽取特征矢量。 由于各方面的限制,本次论文工作中仓卒之处比较多,也有许多的遗憾, 比如未能做更多的特征矢量抽取的比较。 因水平和时间所限,错误与不足之处在所难免,特请各位评阅人与有关人 士不吝赐教与指正。 2 语音识别原理 2 1 语音识别基本框架 计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流 的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可 大致分为三部分: ( 1 ) 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序 列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常将获取的语音特征通过 学习算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比 较,得到最佳的识别结果。 ( 3 ) 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由 统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音 识别系统,往往不需要语言处理部分。 声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部 分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个单 位模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元 大小( 字发音模型、半音节模型或音素模型) 对语音训练数据量大小、系统以 别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量 的大小决定识别单元的大小。 东南大学顼上论文 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可 以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必 须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言 的数学描述模型等有关方面。目前比较成功的语言模型通常是采用概率统计的 语言模型与基于规则语法结构命令语言模型。语法结构可阻限定不同词之问的 相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。 语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音 和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可咀用这些 知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面 的知识,只是如何有效地描述这些语法和语义还有困难。 2 2 语音识别的三个基本问题 语音议别本质上是一个模式识别问题,它的困难性在于:对于人类以什么 为依据识别语音还没有研究清楚,听觉对于我们是一个黑箱过程,我们只能看 到它的输入和输出,而看不到它的处理过程。听觉除了涉及声学一语音层外, 还涉及到高层次的语法模型,上下文、语气、背景知识等各个方面,要把所有 的方面部考虑进去几乎是不可能的,幸运的是,在有的情况下不依赖后面几个 方面,人也可以达到很高的识别率,比如进行连接词识别时,就并不涉及语 法、上下文等。这就为语音识别系统单纯的模仿人类听觉的这部分功能提供了 可能。 特征抽取、模式划分和时间对准构成了语音识别要解决的三个基本问题。 2 2 1 特征抽取 虽然时域语音信号中几乎包含了用于识别语言的全部信息,但在语音识 别中它不能直接用来进行匹配比较,原因在于: 第一,它的维数太高:每一帧都有上百维甚至更高,给运算造成很大的 困难。 第二,所选的是时域序列,而实验表明,人耳对语音的频谱特性( 语音 短时谱) 敏感,时域信号不能恰当的反映这种特征,因此实用的 东南大学顶士论文 语音识别系统一般不能以一帧语音时域采样序列为其输入,而是 在它的基础上提取特征。 一种好的特征应该具备一下几个特点: 第一,要能在保存语音信号绝大部分有用信息的基础上,尽量的减少维 数,这样不但降低了对计算的要求,并且能突出的体现一个音和 其它的音的区别。这个特点和语音编码的目标其实是一致的。语 音编码就是要尽量用最少的e e 特表示语音。 第二,要有一种简便的方法来定量的计算两个音之间的不同。比较两个 特征矢量之间的不同。可以用欧几里德距离、加权欧式距离、夹 角余弦等方法计算。重要的是计算出来的差别能够真实得反映人 耳所感觉到的不同,这样在模式划分的时候才能比较容易和准 确。最后,这种特征还应便于计算。因为特征提取只是语音识别 系统的一个小部分,如果它的运算量过大,会造成系统的工作速 度很慢,甚至达不到实时的要求。不过随着c p u 计算能力的不断 提高和各种快速算法的出现,这个问题已不显得很突出。 基于以上的考虑,一般的特征矢量提取做法是将首先采样得到的时域值 通过计算得到声音的频域特征值,这样得到的特征值的维数相对于时域信号的 维数大大减少。 常用的特征矢量有临界带( c r i t i c a lb a n d ) 系数,线性预测系数倒谱 ( l i n e a rp r e d i c t i v ec o d i n gc e p s t r u m ,简称l p cc e p s t r u m ) 、线性频谱对 ( l i n e a rs p e c t r u mp a i r ,简称l s p ) 等,他们都是在频域分析的基础上发展起来 的,各有其优缺点,在第4 章还会做详细说明。 2 2 2 模式划分 输入的语音采样信号经特征抽取以后,就得到一个分布在特征空间的特征 矢量序列,发不同的音在特征空间占据不同的位嚣,根据不同的音建立标准模 板和标准模型进行相似度测量就是在特征空间进行模式划分。 如果仅仅对一个矢量进行模式划分,这方面的理论和算法已经研究的比较 成熟。在样本分和概率己知的情况下,用贝叶斯决策规则可以达到最小的错误 东南大学硕士论文 率或最小风险;如果概率分布的参数未知,则可以用有限数目的样本集来估计 概率分布的参数,然后根据贝叶斯规则进行模式划分,h m m 正是基于这个原 理。在这种情况下,概率的分布函数可以是离散的或是连续的,对应于h m m 中,就是离散隐马尔可夫模型( d h m m ) 和连续隐马尔可夫模型( c h m m ) , 对于某些模式来说,不一定具有完全可分性,如图2 1 图2 1 模式a 和模式b 在二维特征空间的分布 这种情况并不重要,因为人耳对这种很相似的音的区分能力也不强。 考虑到语音是一个矢量序列,模式划分问题就变得复杂困难得多,理论 上来说,可以把矢量序列组合成一个大矢量,然后用上面的方法做模式划分, 但这是不可能实现的,原因:第一,维数太高,运算量过于巨大:第二,模式 之间的分界线异常复杂,如果要训练的话,需要天文数字的训练样本。所以, 一般的做法都是模式划分算法和下面所说的时间对准算法相结合,这有点类似 于降维的做法,把高维空间的模式划分问题降到低维空间来解决,这样就产生 了一个问题,如何将每一个单独的矢量的模式划分综合起来得到整个矢量序列 的模式划分,传统的做法是直接相加,如d t w 方法将每个单独的特征矢量的 识别误差相加。h m m 方法将每个特征矢量的产生概率相乘( 取对数后等价于 相加) 。 2 2 3 时间对准 在语音识别中,不能简单的将输入模板和相应的参考模板直接做比较,因 为语音信号有相当大的随机性,即使是同一个人在不同时刻的同一句话发的同 一个音,也不可能具有完全相同的时问长度,因此,语音识别系统必须能解决 时问对准问题。实际上,无论是动态时问规f ( d t w ) 方法还是隐马尔可夫模 东南大学硕士论文 型( h m m ) 的v i t e r b i 算法,本质上都是用动态规划( d y n a m i cp r o g r a m m i n g , 简称d p ) 的算法解决了两个时间序列之间的匹配,实现了时间对准。 采用了此类算法以后,系统的性能比以前有了很大的提高,但是由于这类 算法常常对时间轴的伸缩不加约束,会造成标准模型到待识别语音时间轴的变 换不尽合理,例如待识别语音与非该语音的模式匹配时,在时i 白j 对准上得不到 应有的照顾。待识别b a 与模式a 匹配时,时间对准算法尽快将b a 中的b 结 束,将后面的a 与模式a 匹配,以提高识别率。如果加以约束的话,也有很大 的问题,一是很难找到一个合理的约束,二是即使有这样的约束,也会使求解 最优化时间对准的计算量大大的增加。例如,在h m m 的计算中,如果仅仅对 状态的持续时间的概率分布加以约束,计算量就增加3 0 0 倍。 2 3 语音识别算法研究现状 目前,在研发语音识别系统时常用的算法有基于神经网络的训练和识别算 法、基于动态时间归整匹配( d t w ) 的识别算法和基于统计的隐含马尔可夫模型 ( h m m ) 识别和训练算法。 2 3 1 动态时间伸缩算法( d y n a m i ct i m ew a r p p i n g ,简称 d t w ) 日本学者首先将动态规划的概念用于解决孤立词识别时说话速度不均匀的 难题,提出了著名的d t w 算法,当词汇表较小以及各个词条不易于混淆时, 这个算法取得了很大成功。从而自6 0 年代末期丌始引起了语音识别的研究热 潮。 东南火学礤土论文 图2 2d t w 方法识别系统原理图 d t w 算法是把时间规正和距离测度计算结合起来的一种非线性规j 下技术。 如设: ( 1 ) 参考模板特征矢量序列为口。,口:,口。( 2 ) 输入语音特征矢量序列为 b ,6 :,b 。,m n ,那么d t w 算法就是要寻找时间规正函数坍= w ( h ) ,它把 输入模板的时间轴n 非线性的映射到参考模板的时间轴m ,并且该w 满足: d = 咖羔i d 【砧,似胛) 】w h 、_ h = 、。 式中,a n ,w 0 ) 】是第n 帧输入矢量和第m 帧参考矢量的距离,d 是相应 于最优时间觌正下二模板的距离测度。d t w 是一个典型的最优化问题。它用满 足一定条件的时间规正函数w ( n ) 描述输入模板和参考模板的时间对应关系,求 解二模板匹配时累计距离最小所对应的规正函数;所以d t w 保证了二模板间 存在的最大声学相似性。 d t w 算法的优点是既简单又有效,对于小词汇表孤立词识别系统十分适 用。但它没有一个有效的用统计方法进行训练的框架。也不容易将底层和顶层 的各种知识用到识别算法中,因此再解决大词汇表、连续语音,非特定人语音 识别问题时较h m m 相形见绌。 基于动态时间归整匹配的d t w 算法从目前来看,可能是一个最为小巧的 语音识别的算法。其系统丌销小,识别速度快,在对付小词汇量的语音命令控 制系统中是一个非常有效的算法。但是,如果系统稍微复杂一些,这种算法就 显得力不从心了。 东南大学硕士论文 2 3 2 基于规则的人工智能方法 持这种观点的专家认为,用及其识别语音有种种困难,但是人类识别语音 却并不困难。如果能将这些原理加以发现并且归纳为一些规则,由计算机执 行,就能接近人类同样的水平。语音学家通过研究不同语音的语谱及其变化后 发现,虽然不同的人说同一些语音时,相应的语谱机器变化种种差异,但是总 有一些共同的特点足以使他们区分于其他语音,这些特点就是语音学家提出的 “区别性特征( d i s t i n c t i v ef e a t u r e ) ”。另一方面,人类的语言要受词、句 法、语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的 有关信息。将来自声学一一语音学的“区别性特征”( 这称为一个识别系统的 “底层”) 与来自构词、句法、语义和语用约束( 这称为识别系统的“顶 层”) 相互结合,就可以构成一个“由底向上( b o t t o m u p ) ”和“由顶向下” ( t o p d o w n ) 交互作用底识别系统,不同层次底知识可以用若干规则来描述。 美国卡内基一一梅隆大学( c m u ) 在七十年代完成底h a p p y 系统是基于这 个理论的最成功的语音识别系统。这个系统应用了“黑板模式”完成底层和顶 层之间不同层次的信息交换和规则调用,在人工句法约束的1 0 0 0 词表的连续语 音识别任务中,所产生的语义误差不大于1 0 ,虽然从人工智能的角度看,对 这个系统评价很高,但从语音识别的角度所做的评价与此相反,因为从语音识 别的角度看,语音的多变性和不确定性是其固有的,一些研究者经长期研究后 着重宣称:人们对于语音的最大知识就是确认对于语音的无知,正是需要在这 一前提下来研制具有高识别率的系统。知识和规则的方法之所以很难取得更大 的进展。既由于语音的多变,又由于规则的难以搜集完备,还有执行规则的算 法难以高效运行。所以从七十年代后期到现在,虽然仍然有人应用人工智能的 方法进行语音识别,但他们很少取得成果。人工智能的方法已不再是现代语音 识别研究的主流了。 2 3 3 人工神经网络( a r i t i f i e i a ln e u r a ln e t w o r k ,a n n ) 方 法 基于神经网络的训练以别算法由于实现起来较复杂,且识别率并不见得比 基于统计的语音识别模型好,因此,这种算法目前仍处于实验室研究阶段。 东南大学硕士论文 2 3 4 隐马尔可夫( h i d d e nm a r k o vm o d e l ,简称h m m ) 方 法 基于统计的h m m 算法可能是目前最为成功的一种语音识别模型和算法 了。目前所能见到的各种性能优良的连续语音识别系统几乎无- - n 夕i - 地采用了 这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深 入,已建立起了完整的理论框架。从2 0 世纪8 0 年代初人们开始用这种模型来 描述语音信号后,就不断有人对它进行了各种改良和发展。这种隐含马尔可夫 模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的 ( 如这种状态可以是语音的某个音素的特征) ,而是以某种隐含的关系与语音 的观测量( 或特征) 相关联。而这种隐含关系在h m m 模型中通常以概率形式 表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的 判决创造了条件。 如今,各种形式的h m m 模型和算法已日趋成熟,以它为基础已经形成了 语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结 构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语 音学层中已有的信息比较理想的结合在一起。因此,h m m 语音识别模型与算 法是迄今为止最为完美的一个语音识别模型,从中也可看出好的理论体系对研 究工作所起的重要的指导作用。 目前基本上所有实验系统和实用化的产品都是使用h m m 方法,比如i b m 公司的v i a v o i c e 系统、卡内基梅隆大学的s p h i n x 系统和d r a g o ns y s t e m 的 n a t u r a l l ys p e a k i n g 系统等。正是基于成熟的h m m 方法本文设计了嵌入式环境 下( 如手机,p d a 等) 的语音识别系统。 3 基于h m m 的连接词识别 3 1 隐马尔可夫模型( h m m ) “隐含马尔可夫模型”是一种离散时域的有限状态自动机在每一个离散 时刻n ,它只能处于有限多种状态中的某一种状态。假定允许出现的状态有l 东南犬学硕上论文 种,汜为s ,净1 l 。自动机在时刻n 所处的状态用篇表示。磊为s ( 卢1 l ) 之一,这可以表述为z 。秘。s 。) ,v h 。如果开始运行的时间起点定为n 2 1 , 那么在以后每一时刻n 它所处的状态以概率方式取决于初始状态概率矢量口和 状态转移概率矩阵a 。 口是一个l 维行矢量,即a = b 。,口。j ,它的每一个分量口,表示s ,的概 率,这可以用下式表示: 口,= p k = 西】,= 1 l ( 3 一1 ) 矩阵a 是一个( l x l ) 维方阵,它的每一个元素用a 。表示,它是已知相 邻两个时刻中前一时刻的状态为s ,的条件下后一时刻状态为s ,的概率。 a 。= 只b 。= s ,h = s 。l 舄一( 3 - 2 ) 显而易见,爿。= 1 ,v i 。 j t i 在任何时刻n ( n 1 ) ,自动机的状态屁取s 中哪一种的概率只取决 于前一时刻( n 一1 ) 所处的状态,而与更前的任何时刻所取的状态无关。这样, 由此产生的状态序列五,x 2 , 屯,就是一条阶马尔可夫链。自动机完成n - 1 次状态转移,那么产生的是条有限长度的马尔可夫链工,工,奶,h ,用 一个行矢量表示为x = i x ,x :,x 。 。系统可能产生l ”种互异的有限马尔可夫 链x ,其出现概率只 口,爿】,简记为只 z 】, 0 x = 口_ 爿:, 爿。:日,爿n f 。 ( 3 3 ) 该系统任何时刻n 所处的状态x 。隐藏在系统内部,不为外界所见,外界只能得 到系统在该状态下提供的实尺。空间中的一个随机列矢量儿= b 。,y 叩,y 。_ 。 无论儿具有连续分布还是具有离散分布,它的概率密度函数只耿决于x 。等于何 种状态。 只:。l y 。j = p , t y 。x 。= s j ,( 疗1 ,= l 工) ( 3 - 4 ) p 。_ t y 。j 只取决于状态s ,直接用p s ,b ,j 表示a l 个概率密度函数构成一个l 维行矢量b = 【p _ y ,p h 【y j 。 假设一个h m m 系统从n = 1 时刻开始运行,在n = l n 诸时刻所给出的 n 个随机矢量y 。构成一个广义n 维行矢量】一= y ,y 。】。l ,称为一个输出序 列矢量。对于h m m 系统,它的每一次运行产生的马尔可夫链x 是外界看不见 的,可观测的只是y 。一个h m m 系统的特性由它的三个特征参数矢量或矩阵 a ,a ,b 完全确定。如果给定了此三者,该系统产生任意一个l ,的概率可记为 p , a ,a b 】: rv、 p 【m a ,曰】- p 兀p 。, 儿 ( 3 5 ) ln = lj 在非特定人的语音识别应用中,对于每一个词条来说,一般都有多个人说 的版本。每一个词条对应一个h m m 的自动机,从某个对应该词条的语音文件 得到的语音帧经过计算得到的特征矢量,就是系统的输出v ,整个y 就是该 ,月 语音文件的所有的语音帧对应的特征矢量,我们称这些文件( 】,) 为样本,每 个词条都有多个样本。 用h m m 来解决语音识别中的各个问题包括以下方面 i 若有个h m m 系统,需要根据该系统所给的若干输出y 来确定它的 三项特征参数。这些输出构成一个学习样本集合,其中每个y 成为一 个学习样本。设有m 个样本。则此集合可记为 y ,m = 1 一吖 ,按照 最大似然准则用此集合求出a ,a ,b 。所求的这三组特征参数将使一 个h m m 系统产生学习样本集合中各个样本的概率平均值达到最大。 i i 若已知一个h m m 系统的三项特征参数,则需要针对系统可能产生的任 何r = t g p ,k ,a ,b 。 i i i ,己知h m m 系统的三项特征参数时,若得到了该系统产生的某个,需 要估计该系统产生此l ,时最可能经历的状态序列x 。 3 2 连接词识别 连接词以别的典型实例是连接数字识别,它的应用领域包括电话语音拨 号、信用卡号码验证、计算机操作命令和工业控制命令识别等。 构成系统的四个主要部分是:前端处理一一语音特征矢量提取单元、训练 单元、识别单元和后处理单元。 求南k 学顺 。论文 3 2 1 前端处理 o :基于v q 的观察符号序列 图3 1 基于h m m 框架的连接单词识别 语音信号的采样率一般定在6 6 7 8 k h z 之| 白j 。采样后的语音首先进行预加 重运算,即通过一个特性为( 1 一a z “) 的数字滤波器,a 的值可在0 9 0 9 7 之间 选择。然后对语音进行分帧,帧的长度为2 0 3 0 m s ( 在实际系统中,对于不同 采样率,帧的长度是通过规格化为标准的8 k h z 计算得到的) 对于标准的采样 率为8 k h z ,帧长为2 0 m s ,则每帧包含1 6 0 个语音采样。帧间间隔为1 0 1 5 m s 。接着对每帧信号用h a m m i n g 窗相乘。最后将每帧语音转换成相应的 特征矢量。具体的特征矢量将在第4 章讨论。 3 2 2 连接词识别系统中的h m m 算法实现 前端处理单元逐帧送出特征矢量r ,= e 。( 1 ) ,d 。( q ) ,e 。( 1 ) ,e 。( q ) ) , 后续处理针对此矢量进行。考虑到在不同词条( 数字) 的h m m 中,每个状态 m t 的帧归一化能量e ,( 其定义在下面立即给出) 的概率分布函数以及每个状态 的持续时川d 的慨率分布函数各有差异,因此也可以成为识别系统的有用信 ,鬯,这样,它们可以用在为每个数字殴立的一个h m m 或多个h m m 中。h m m 求南人学顺 :论文 采用由庄到右无跳转模型。对于英文数字,模型的状态数l 可以在5 1 0 之阳j 选择,如下图所示,l = 6 的情况。其中除了标准h m m 具有状态转移矩阵a 中 各参数和状态输出矢量概率p “y ,】等参数以外( 由于采用了由左向右模型,进 入第1 个状态的概率为l ,因而无需初始状态概率矢量口( 见3 1 ) ) ,还包括 了每个状态的归一化帧能量概率分布p 。 e 。 ( 其中e 。等于每一帧语音的能量 除以一段所要识别语音的最大帧能量) 和每个状态的持续时间概率分布 p 。 d 。 p ,帆】p 扎 y 一p 如 ,。1 图3 2 采用由左到右无跳转的h m m 模型( 状态数为6 ) 对于孤立词识别而言连续h m m 的识别效果远优于采用v q 的离散 h m m ,当p 。【儿 取为多个正态分布函数之线性相加且其相关阵为对角阵时识 别效果晟好,因此连接词识别也采用这种方案,正态分布的个数m 一般不超过 9 。归一化帧能量e 。按照3 d b 间隔可分成2 5 级( 即o d b ,- 3 d b , _ 7 5 d b ) ,通过 每个状态中所有归一化帧能量e 。的直方图估计可以求得 p _ ( 一3 i + 3 ) d b e 。 ( 一3 0 r i b i = l 2 5 , 且满足 2 5 如 ( 一3 i + 3 ) d b e 。 ( - 3 0 a 8 = l ,v l i = 1 每个状态s ,的持续时间d 的概率分布也可由直方图估计求得,实验数据 表明,d 的分布范围在1 2 5 帧之间,因此p 。【棚必然满足下列关系: 2 5 p s i 【d = ,蜘= 1 ,v l j - l 由于一个h m m 中有l 个状态,因此上列两项概率分布函数的总数是 5 0 l 个。 东南大学碗士论史 此外,每一个数字v 总的持续时间d 。的概率分布也可以认为服从正态分 布只要求它的均值瓦,和均方差盯。即可求得它的分布。 3 2 3 训练 训练使用了分段k 一平均程序( s e g m e n t a lk m e a n sp r o c e d u r e ) ,它的任务包括 两个部分: 第一部分是将成串的数字或者命令最佳分割成为孤立的词条;先把由很多 说话者说出的词串存入训练词串数据库,然后使用分层构筑h m m 算法将所有 训练的词串分割成分立的词条。 第二部分是用每个己分割为孤立状态的数字的很多训练样本汇聚在一起, 共有v 个词条训练集合。然后对每个词条进行h m m 参数估计,把新得到的参 数与初始原有的每个词条的h m m 参数进行比较,如果两者差异达到一个阀 值,则确认:反之,再用最终得到的h m m 参数做为初始参数,重复上述操 作。 最终的训练结果是得到了每个孤立数字或者命令词的h m m 模板参数 五”= a7 ,b ”) ,其中b 7 = p ;【y 。 ,p ;, y 。 ) 。 3 2 4 识别 仍然使用分层构筑h m m 算法,因为识别的词串虽然不为定长,但是可以 将其分类为4 ( 比如”c a l l1 1 9 ”) 、1 2 ( l p 如”c a l l0 1 06 8 4 4 2 3 4 5 ”) 等不同的定长,一 条拨号指令总是遵循由一个命令字和一串数字组成的句法。首先根据原始语音 的长度确定大致的长度为k ,为k 个词构筑k 层搜索路径,在第一层按照标准 的v i t e r b i 算法,搜索n = l 到v ( v 是词汇表的大小) 之间的任何一点。在第一层 搜索完成时,在这每一个终点上可以找到一个( ,) 的最大值及相应的词条编 号v ,并记之为石。i 1 和v n i l ,n = l - v 。然后,以这些点为起点构筑第二个搜索 层。直到全部词条搜索完成。 东南人学硕 一论文 4 语音特征矢量提取 对数字语音的每一帧进行声学参数分析,提取特征参数语音信号是短时准 平衡的随机过程,具有很强的时变特性、时域特征主要有语音的短时平均能量 和短时平均过零率及基音周期。特征提取通常忽略同一个数字串由不同说话者 所发出的音调和响度的不同,而把重点放在语音的频域特征中,语音的时域特 征可以作为一种超音段信息用于语音识别中。特征提取数字串划分成几帧之 后,接着检测每帧的频谱特征,通过较低的语音频率来代表主要频率的分辨能 力。语音的频域特征有多种,常见的有线性预测( l p c ) 倒谱系数、差分倒谱系 数、m e l 倒谱系数( m e l - f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ,m f c c ) 、线性频谱对 ( l i n e a rs p e c t r u mp a i r ,l s p ) 。 4 1 临界带特征矢量 临界带特征矢量是通过对听觉原理的研究,针对人耳对声音信号的感知原 理来分析语音数据的工具。人耳对语音信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论