语音识别系统关键技术的探究_第1页
语音识别系统关键技术的探究_第2页
语音识别系统关键技术的探究_第3页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音识别系统关键技术的探究摘要 : 语音识别是让机器“听懂人类语音,并做出正确反响,其终极目标是实现人类与机器的自然交流。 随着科学技术的开展, 语音识别技术正逐步形 成一套比拟完整的理论体系,并且语音识别系统在现代社会的应用越来越广泛。 本文将在开头说明语音识别系统的概念、 分类、性能指标以便我们了解语音识别 系统是什么, 接下来主要研究语音识别系统的关键技术, 这些技术的实现往往要 依靠算法的实现与应用,目前主流的算法有动态时间规整(DTW、矢量量化(VQ)、 隐马尔可夫模型(HMM)人工神经元网络(ANN)、支持向量机(SVM。关键词 :语音识别系统 技术 语音识别 识别算法 DTW H

2、MM ANNSpeech recognition system is the key technology to exploreAbstract : speech recognition is let the machine understand the human voice, and make the right reaction, the ultimate goal is to realize the natural human and machine communication. With the development of science and technology, voice

3、 recognition technology is gradually form a relatively complete theoretical system, and speech recognition system in modern society used more widely. This paper mainly studies the key technology of speech recognition system, the realization of the technology often depends on the realization of the a

4、lgorithm and application, at present three mainstream algorithm is dynamic time neat (DTW), vector quantization (VQ), and hidden markov model (HMM), artificial neural network (ANN) and support vector machine (SVM). Analyzing their principle, characteristics and implementation.Keywords: speech recogn

5、ition system technology speech recognition algorithm identification DTW HMM ANN目录1 引言 12 语音识别系统 12.1 语音识别系统的概念 12.2 语音识别系统的分类 12.3 语音识别系统的组成 22.4 语音识别系统的性能指标 23 动态时间规整 (DTW) 算法 23.1 动态时间规整 (DTW) 算法的概念 23.2 DTW 的问题: 23.3 动态规划算法总体思想 33.4 动态规划根本步骤 34 矢量量化 (VQ) 35 隐马尔可夫模型 (HMM) 46 人工神经元网络 (ANN) 56.1 人工神

6、经网络的概念 56.2 人工神经网络的特点 57 支持向量机( SVM) 68 总结 61引言所谓语音识别,就是计算机通过对人类语音的识别和理解, 将人类的语音信 号转变成相应的文本或命令的技术,也就是让计算机听懂人说话。作为智能计算 机研究的主导方向和人机语音通信的关键技术, 语音识别技术一直受到各国科学 界的广泛关注。本文主要研究语音识别的关键技术, 并分析它们的特点、原理以 及实现过程。2语音识别系统2.1语音识别系统的概念语音识别技术的应用可以分为两个开展方向:一个方向是大词汇量连续语音识 别系统,主要应用于计算机的听写机,以及与 网或者互联网相结合的语音信 息查询效劳系统,这些系统都

7、是在计算机平台上实现的;另外一个重要的开展方 向是小型化、便携式语音产品的应用,如无线 上的拨号、汽车设备的语音控 制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统 实现,特别是近几 年来迅速 开展的语音信号处 理专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(System on Chip,SOC的出现。2.2语音识别系统的分类语音识别系统会有不同的系统设计和实现 ,因而会有不同的应用范围及限 制。现在举出几个比拟重要的不同的操作方式,及其可能的应用范围。(1) 孤立语音和连续语音识别系统,自然的语音

8、 ,只在句尾或是文字需要加 标点的地方必须间断,其他的局部可以连续不断地发音。随着近年来的研究和发 展,连续语音识别技术已渐趋成熟,这个最自然的说话方式,将成为语音识别 系统的主流。(2) 大词汇量和小词汇量语音识别系统,从理论上说来,一个计算机如果能听 懂“是及“不是的语音输入,那它就可以采用语音方式进行操作。在语音 识别技术的开展过程中,词汇量也正是从小到大开展的,随着词汇量的增大,对 系统各方面的要求也越来越高,它的本钱也越来越高了。(3) 特定人和非特定人语音识别系统,特定人系统是指系统在使用前必须 由用户输入大量的发音数据、对其进行训练。非特定人系统那么试图到达在系统构 建成功之后,

9、用户不需要事先输入大量的训练数据,即可使用的目的。语音信号 的可变性很大,因为这个学习和训练的过程相当复杂,所用的语音样本也要预先采集,所以必须在系统生成之前完成,并把有关的信息存入系统的数据库中 以供真正识别时用。2.3语音识别系统的组成语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。 其硬件平台一般是一台个人机或是一台工作站,操作系统一般选择U ni x或W ind o w S系列。在对语音识别技术有了一些根本了解之后,让我们从语音识别系统的各个功能划分的角度出发,来讨论一下语音识别系统的根本组成。语音识 别系统由语音信号的预处理局部,语音识别系统的核心算法局部,语音识

10、别系统 的根本数据库。2.4语音识别系统的性能指标一个语音识别系统性能的优劣,必须从许多不同的角度来衡量。首先,对于一 个语音识别系统来说,至关重要的是一些与系统要求及识别结果有关的参数指 标,包括:一是正识率,对正识率要求的上下,要由应用的性质来决定。一般的 听写系统的正识率应该在 90 %以上,才能有较好的实用价值。二是识别速度, 通常以每分钟能识别的字(词)数来表示。识别速度还可以和一般口语的速度相 比。三是系统所需的内存及外存。另外,直接与操作有关的根本性能包括前面已 经提到的三点。四是 连续语音输入、五是字或词组的孤立发音。六是词汇量的 大小,七是否有限制,能不能增添新词。是为特定人

11、或非特定人使用,又是否有 适应口音的能力。以及是否能够自动适应使用内容的领域(如医学、新闻、法律、 科技、文学以及使用者的文体)。八是人机交互界面的友好性。九是鲁棒性,能 不受环境、使用者等因素的变化的影响,保持较高的正识率。3动态时间规整(DTW)算法3.1动态时间规整(DTW算法的概念动态时间规整DTW(dynamic time warping)曾经是语音识别的一种主流方 法。其思想是:由于语音信号是一种具有相当大随机性的信号,即使相同说话 者对相同的词,每一次发音的结果都是不同的,也不可能具有完全相同的时间长 度。因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折, 以使其

12、特征与模板特征对正。用时间规整手段对正是一种非常有力的措施,对提高系统的识别精度非常有效。动态时间规整DTW是一个典型的优化问题,它用满足一定条件的的 时间规整函数 W(n)描述输入模板和参考模板的时间对应 关系,求解两模板匹配时累计距离最小所对应的规整函数。3.2 DTW的问题:?运算量大;?识别性能过分依赖于端点检测;?太依赖于说话人的原来发音;?不能对样本作动态训练;?没有充分利用语音信号的时序动态特性;DTW适合于特定人基元较小的场合,多用于孤立词识别;3.3动态规划算法总体思想动态规划算法根本思想是将待求解问题分解成假设干个子问题 但是经分解得到的子问题往往不是互相独立的。不同子问题

13、的数目常常只有多项式量级。求解时,有些子问题被重复计算了许屡次。如果能够保存已解决的子问题的答案, 而在需要时再找出已求得的答案, 就可以防止大量重复计算,从而得到多项式时间算法。3.4动态规划根本步骤v找出最优解的性质,并刻划其结构特征。v递归地定义最优值。v以自底向上的方式计算出最优值。v根据计算最优值时得到的信息,构造最优解4矢量量化VQ矢量量化VQ Vector Quantization是70年代后期开展起来的一种数据压缩技术根本思想:将假设干个标量数据组构成一个矢量,然后在 矢量空间给以整体量化,从而压缩了数据而不损失多少信息。矢量量化编 码也是在图像、语音信号编码技术中研究得较多的

14、新型量化编码方法,它 的出现并不仅仅是作为量化器设计而提出的,更多的是将它作为压缩编码 方法来研究的。在矢量量化编码中,关键是码本的建立和码字搜索算法。码本的生成算法有两种类型,一种是信源分布特性的设计算法; 另一种是未知信源分布,但信源的一列具有代表性且足够长的样点集 合即训练序列的设计算法。可以证明,当信源是矢量平衡且遍历时, 假设训练序列充分长那么两种算法是等价的。码字搜索是矢量量化中的一个最根本问题,矢量量化过程本身实际上就是一个搜索过程,即搜索出与输入最为匹配的码矢。矢量量化中最常用 的搜索方法是全搜索算法和树搜索算法。全搜索算法与码本生成算法是基 本相同的,在给定速率下其复杂度随矢

15、量维数K以指数形式增长,全搜索矢量量化器性能好但设备较复杂。树搜索算法又有二叉树和多叉树之分, 它们的原理是相同的,但后者的计算量和存储量都比前者大,性能比前者 好。树搜索的过程是逐步求近似的过程,中间的码字是起指引路线的作用, 其复杂度比全搜索算法显著减少,搜索速度较快。由于树搜索并不是从整个码本中寻找最小失真的码字,因此它的量化器并不是最正确的,其量化信 噪比低于全搜索。5隐马尔可夫模型HMM隐马尔可夫模型Hidden Markov Model,HMM作为一种统计分析模型, 创立于20世纪70年代。80y2 河年代得到了传播和开展,成为信号处理的一个重要方向,现已成功地用于 语音识别,行为

16、识别,文字识别以及故障诊断等领域。隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但 能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表 现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序 列产生。所以,隐马尔可夫模型是一个双重随机过程-具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测。近年来,HMM在生物信息科学、故障诊断等领域也开始得到应用。隐马尔可夫模型HMM可以用五个元素来描述,包括2个状态集合和3个概率矩阵:1.

17、隐含状态S这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。例如S1、S2、S3等等2. 可观测状态0在模型中与隐含状态相关联,可通过直接观测而得到。例如O1、O2O3等等,可观测状态的数目不一定要和隐含状态的数目一致。3. 初始状态概率矩阵n表示隐含状态在初始时刻t=1的概率矩阵,例如t=1时,PS1=p1、PS2=P2、PS3=p3,那么初始状态概率矩阵n = p1 p2 p3 .4. 隐含状态转移概率矩阵A。描述了 HMM莫型中各个状态之间的转移概率。其中 Aij = P Sj | Si ,1 i,j N.表示在t时刻、状态为 Si的条件

18、下,在t+1 时刻状态是Sj的 概率。5. 观测状态转移概率矩阵B 英文名为 Con fusion Matrix,直译为混淆矩阵不太易于从字面理解。令N代表隐含状态数目,M代表可观测状态数目,贝Bij = P( Oi| Sj ), 1 i M,1j N.表示在t时刻、隐含状态是Sj条件下,观察状态为 Oi的概率总结:一般的,可以用入=(A,B, n )三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可 观测状态集合和这些状态与隐含状态之间的概率关系。6人工神经元网络(ANN)6.1人工神经网络的概念人工神经网络(ArtificialNeuralNetw

19、ork ,ANN,以下如无特别指出,那么简称神经网络,NN)是模拟生物神经系统的组织结构、处理方式和系统功 能的简化系统;是人工智能的一个分支,是一门始于20世纪40年代的新兴交叉学科,涉及数学、电子与控制、计算机科学、脑科学、神经生理学、 认知科学、非线性动力学等众多学科领域。众所周知,人类大脑是思维活 动的物质根底,而思维是人类智能的集中表达。长期以来,人们试图了解 人脑的工作机理从而模仿人脑的功能。人工神经网络就是这样一类由大量 处理单元(神经元)广泛互连而成的网络,是对人脑的抽象、简化和模拟,试 图反映人脑的根本特性。6.2人工神经网络的特点人工神经网络的出发点是通过模拟大脑的机制,将

20、包括听觉系统的生物神经 系统的信息处理机制引人机器学习的研究中, 使其具有学习和理解的能力。系统 的所有计算都是由神经元单元完成的,而单元之间的连接权决定了网络对任意输 入模式的计算响应。连接权的建立是通过训练算法进行的,具有传统的数字计算 机系统即线性网络没有的优点,主要表现在:(1) 自组织和自适应性神经网络可以从数据集中自适应地求解答案,可以有 效地用于学习数据集的内在联系。 对于语音识别来说,它可用于解决非特定人语 音识别等冋题。(2) 学习功能:神经网络通过学习能掌握输入和输出之间的任意映射关系,所 以网络可以通过学习将语音模式映射成因素类别。(3) 可推广性:神经网络不仅能记忆训练

21、数据模式,还能学会相似的模式,可 以从训练数据推广到新数据。在语音识别上可大大减少训练所需数据量。(4) 非线性:神经网络可以提取系统输入之间复杂的相互作用关系,计算非线性函数,对输入进行复杂的变换,更符合现实世界的实际问题,如语音信号是一 个高度非线性的过程。(5) 鲁棒性 :神经网络对物理损伤和带噪声的数据不敏感,而且带噪声的数据 有助于网络形成更好的泛化能力。 这一点对于语音识别特别有价值, 因为经常在 噪声环境下录入语音。(6) 一致性 :神经网络提供了一致的计算模式,可以很容易地融合各种约束条 件,就使我们很容易使用倒谱和差分倒谱输入, 还可以在听觉一视觉双模态语音 识别系统中将声学

22、和视觉因素结合起来。(7) 并行性 :神经网络在本质上是高度并行的,因此它非常适合在大规模并行 机上实现,这就在根本上支持语音数据的高速处理。由于上述的优点, 人工神经网络在语音识别中得到了广泛应用, 但是它也有 很多的限制阻碍识别性能的提高。所以我们提出了 HMM 和 ANN 的混合模型发 挥他们各自的优势。7 支持向量机( SVM)近年来,支持向量机是统计模式识别领域的一个新的热点,它试图 使得学习机在经验风险和泛化能力上到达一种妥协,从而提高学习机的性 能。支持向量机主要解决的是一个 2 分类问题,它的根本思想是试图把一 个低维的线性不可分的问题转化成一个高维的线性可分的问题。通常的实

23、验结果说明 SVM 有较好的识别率,但是它需要大量的训练样本(每类 300 个),这在实际应用中往往是不现实的。而且支持向量机训练时间长,方法 实现复杂,核函数的取法没有统一的理论。支持向量机是应用统计学习理论 的一种新的学习机模型,它采用结构风险最小化原理 (SRM),有效克服了传统经 验风险最小化方法的缺点, 在解决小样本、 非线性及高维模式识别方面有许多优 越的性能4 。其根本思想可以概括为:首先通过非线性变换将输入空间变换到 一个高维空间, 然后在这个新空间中求取最优线性分类面, 而这种非线性变换是 通过定义适当的内积函数实现的。 目前,统计学习理论和支持向量机也是国际上 机器学习领域的研究热点。8 总结本文通过大体描述了语音识别系统的的概念、 组成、性能指标、 分类可以让 我们了解到语音识别系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论