(电磁场与微波技术专业论文)基于nuance的语音识别系统的设计.pdf_第1页
(电磁场与微波技术专业论文)基于nuance的语音识别系统的设计.pdf_第2页
(电磁场与微波技术专业论文)基于nuance的语音识别系统的设计.pdf_第3页
(电磁场与微波技术专业论文)基于nuance的语音识别系统的设计.pdf_第4页
(电磁场与微波技术专业论文)基于nuance的语音识别系统的设计.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(电磁场与微波技术专业论文)基于nuance的语音识别系统的设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 i 摘要 i 摘要摘要 语音识别技术就是让机器能听懂人说话,并作出正确的反应从而执行相应 的命令。语音识别技术作为一门交叉学科,它与声学、语音学、人工智能、数 字信号处理、计算机学科等众多学科都有紧密联系。同时语音技术的应用逐渐 成为一个具有竞争性的新兴高技术产业。近十年来,语音识别的产品也逐渐多 起来,主要可以分为通用场合和专用场合两个方面。通用场合的识别率都比较 低,一般都是大词汇量自然语流的语音识别,例如语音听写、语音短信、关键 词检索、电话监控等。专用场合识别率都比较高,一般采用的词汇量小,部分 采用孤立词识别,因此识别率大大提高,例如语音拨号、声控玩具、声控家电、 语音点歌台、语音导航系统、语音股票系统、内线转接系统等。 本文就专有场合应用,对小词汇量,孤立词的识别,利用 nuance 设计一个 语音识别系统,具体的工作是: 1. 介绍了语音识别的基本概念、孤立词语音识别的一般方法和特点。分析 了语音识别的关键技术:特征提取技术、模式匹配准则及模型训练技术 的基本原理。 2. 分析 nuance 涉及的关键技术:预处理、前端处理、识别搜索和自然语 音理解,介绍 nuance 的体系结构,并分析了一个典型的语音识别流程 及其语法结构。 3. 在系统实现上,利用 windows 下 api 函数进行采集音频数据,对初 始化、采样格式和语音采集流程做了详细分析,实现了语音采集。并调 用 windows sockets dll 和 winsock api, 通过 udp 将语音数据实时传 输到服务器。 4. 在 nuance 识别服务器端,分析 nuance 的初始化、配置文件、语法结构 和采集流程,实现接收来自客户端的语音数据、进行分析和识别处理, 并将识别结果通过 udp 实时传回到客户端。 5. 此系统可以实现小词汇量识别, 并成功地应用到安徽四创电子股份有限 公司开发的应急指挥系统终端,实现语音控制代替手工拨号的功能。 关关键词:键词:nuance,语音识别,语音采集,网络传输 基于 nuance 的语音识别系统的设计 ii abstract speech recognition technology has machines understand human speech, make the right response and implement the corresponding order. speech recognition technology is a cross-disciplinary, refers to the acoustics, phonetics, artificial intelligence, digital signal processing, computer science, and many other subjects. at the same time speech technology applications has gradually been becoming a competition of the emerging high-tech industry. over the last decade, many speech recognition products emerges, they can mainly be divided into general occasions and special occasions. in general occasion, the recognition rate is relatively low. the situations are generally large-vocabulary natural language speech recognition, such as voice dictation, voice messages, keyword searching, and telephone surveillance and so on. in special occasions, recognition rate is higher. the situation is small-vocabulary, isolated words recognition, the recognition rate has been greatly improved, such as voice dialing, voice-activated toys, voice-activated appliances, voice selecting songs, voice navigation system, voice stock system, ext forwarding systems. this article regarding to special occasions, small-vocabulary and isolated words recognition, based on nuance to design a practicality speech recognition system. specific work as follows: 1. introduce the basic concept of the speech recognition, the general methods and characteristics of isolated words recognition. explaining the key speech recognition technology: feature extraction technology, pattern-matching criteria and model of the basic tenets of technical training. 2. analysis the key technologies of nuance: pretreatment, the front-end processing, voice recognition search and natural understanding, and nuance architecture, and introducing a typical of a voice recognition process and its grammatical structure. abstract iii 3. in realizing systems aspects, using a series of windows api to catching audio data, analysis detailed initialization, sampling format and voice collection process , at the same time calling windows sockets dll and winsock api by virtual of the udp to transmits voice data to nuance server real-time. 4. in nuance recognition server, analyzing nuance initialization, the configuration files, grammar structure and acquisition process, and receive voice data from the client, analysis and identification, and sending recognition results back to the client real-time by virtual of udp. 5. the system can be achieved on identification of small-vocabulary and successfully applied to the emergency command system terminals, which anhui sun create electronics developed , realizing the function of voice controlling instead of manual dial-up numbers. key words: nuance, speech recognition, voice collection, network transmission 基于 nuance 的语音识别系统的设计 iv 目目 录录 第一章 绪 论 . 1 1.1 引言 . 1 1.2 语音识别的发展历史 . 2 1.2.1 国外研究历史及现状 . 2 1.2.2 国内研究历史及现状 . 4 1.3 语音识别系统的研究目的和意义 . 4 1.4 本论文的主要工作 . 5 1.5 本章总结 . 6 第二章 语音识别的理论基础 . 7 2.1 语言识别的原理 . 7 2.1.1 语音识别的体系结构 . 7 2.1.2 语音识别的关键技术 . 8 2.2 语音识别系统的分类 . 10 2.3 语音识别的三种基本方法 . 10 2.3.1 基于语音学和声学的方法 . 11 2.3.2 模板匹配的方法 . 11 2.3.3 神经网络的方法 . 17 2.4 本章小结 . 17 第三章 nuance 平台组成及工作流程 . 18 3.1nuance 的语言识别的原理 . 18 3.2nuance 的结构框图及各部分的介绍 . 22 3.2.1nuance api . 23 3.2.2java speechchannel 和 speechobjects . 23 3.2.3 识别服务器 . 24 3.2.4 资源管理器 . 24 3.2.5 编译服务器 . 24 3.2.6 许可管理器 . 24 目录 v 3.2.7 文本到语音转换(tts)服务器 . 25 3.3 一个典型的语音识别过程 . 25 3.4 nuance 的语法结构 . 26 3.4.1 动态语法 . 26 3.4.2 动态语法的工作方式 . 27 3.4.3 动态语法存储 . 28 3.5 本章总结 . 28 第四章 nuance 语音识别系统设计 . 29 4.1 系统设计 . 29 4.1.1 系统硬件 . 29 4.1.2 系统软件设计 . 29 4.2 语音采集 . 30 4.3 网络传输 . 33 4.3.1 本程序中网络传输的流程 . 34 4.3.2 socket 的使用 . 35 4.4nuance 的语音识别流程 . 36 4.4.1 初始化识引擎 . 36 4.4.2 识别流程 . 39 4.4.3 nuance 的环境设计 . 42 4.5 本章小结 . 44 第五章 实验系统设计 . 46 5.1 系统客户端 . 46 5.2 系统服务器端 . 47 5.3 实验结果 . 47 5.4 本章小结 . 51 结束语 . 52 参考文献 . 53 作者硕士期间完成的论文目录 . 55 致 谢 . 56 第一章 绪论 1 第一章第一章 绪绪 论论 1.11.1 引言引言 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段, 也是人类进行思维的一种依托。人类开始进入了信息化时代,用现代手段研究 语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,例如, 我们可以应用自动语音识别技术,使手写文稿和手工打印文本变成自动听写机 操作;把人工查阅各种书面文字资料的操作,变为口呼自动查阅各种各样的数 据库。这就是说,如果人们的听、说、读、写、查阅信息和语音通信等,都能 采用先进的手段高效率地进行,这将使人们的才能得到更加充分的发挥和有效 的扩展1。 语音信号处理中的语音识别技术是一门涉及面很广的交叉学科,虽然从事 这一领域研究的人员主要来自计算机和通信等学科,但是它与语音学、语言学、 数理统计学以及神经生理学等学科,也有着非常密切的关系,甚至还涉及到人 的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终 目标是实现人与机器进行自然语言通信。众所周知,语音是人类进行相互通信 和交流的最方便快捷的手段。它反应速度特别快,可以达到毫秒量级;没有严格 的方向限制,可以在黑暗中传播1。在高度发达的信息社会中用数字化的方法 进行语音的传送、储存、识别、合成、增强,对于促进社会的发展具有十分重 要的意义。 计算机的高速发展既对语音识别技术提出了越来越高的迫切要求,如用语 音输入代替键盘输入以实现直接的人机对话2,同时也提供了效率不断提高的 软、硬件实现手段3。由于语音信号的多样性和复杂性,目前的语音识别系统 只能在一定的限制条件下获得满意的性能, 或者说只能应用于某些特定的场合。 语音识别系统的性能大致取决于以下 4 类因素:1.识别词汇表的大小和语音的 复杂性;2.语音信号的质量;3.单个说话人还是多个说话人;4.硬件平台。语 音作为当前通讯系统中最自然的通信媒介, 随着计算机和语音处理技术的发展, 不同语种之间的语音语音翻译也将成为语音研究的热点。近年来,人工神 基于 nuance 的语音识别系统的设计 2 经网络的研究有了飞速发展,语音识别技术的各项课题是促进其发展的重要动 力之一,同时,它的很多研究成果,也体现在有关语音识别的各项应用之中。 目前,世界科技界正在蓬勃开展的其它一些新研究课题,诸如模糊理论、混沌 理论和小波(wavelet)信号处理等,也都能够在语音处理技术的研究中找到用武 之地。 1.21.2 语音识别的发展历语音识别的发展历史史 .1 国外研究历史及现状国外研究历史及现状 语音识别的研究工作可以追溯到20世纪50年代at第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已 不再适用。 实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末:人们终于在实 第一章 绪论 3 验室突破了大词汇量、 连续语音和非特定人这三大障碍,第一次把这三个特性都 集成在一个系统中,比较典型的是卡耐基梅隆大学(carnegie mellon university) 的 sphinx 系统13,它是第一个高性能的非特定人、 大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是 hmm 模型和人工 神经元网络(ann)在语音识别中的成功应用。hmm 模型的广泛应用应归功于 at njninc, nj表示第 n 个匹配点对是由参考模板的第 ni个特征矢量与待测模板的第 nj个特征矢量构成的匹配点对。两者之间的距 离 njni yxd,称为局部匹配距离。dtw 算法就是通过局部优化的方法实现加权 距离总和最小,即 n n n n n nnjni c w wyxd d 1 1 , min (2-2) 式中 n w是加权函数。上式表达的是优化过程,在这个过程中,可以对时间 归正函数 c 做一些限制,以保证匹配路径对不违背语音信号各部分特征的时间 顺序。一般来讲,要求归正函数满足如下约束: 1. 单调性 .1,1njnjnini 2. 起点和终点的约束 .,; 111jnjiniji 3. 连续性一般规定不允许跳过任何一点,即 11 nini 和 参 考 模 板 时 间 i 待识别时间轴 j 15 10 25 20 15 10 5 0 5 图 2.2 dwt 时间归正函数 第二章 语音识别的理论基础 13 11 njnj. 4. 最大归正量不超过某一极限 最简单的情形为 mnjni(m 为窗 宽)定义表示最小累计失真函数jig ,,表示到匹配点对ji,为止前面 所有可能路径中最佳路径的累计匹配距离。 nji jiji wyxdjigjig,min, , (2-3) 基于上述定义即相应的约束和规则,dtw 算法的具体步骤如下: 1. 初始化。令 ,21 , 1, 111 11 yxdgji则 gji gji jig re, re,0 , (2-4) 式中,约束区域 reg 可以假设是一个有两个位于 11,和ji,的顶点,相邻两 条边的斜率分别为 2 和 1/2。 2. 递推求累计距离 ;3,1, ;2,1, 1 ;1, 1 min, nji nji nji wyxdjig wyxdjig wyxdjig jig (2-5) gjijjiire,;, 3 , 2;, 3 , 2. 一般取距离的加权值为 22, 131 nnn www, 这说明归真函数的点数时 变的。是随 i 和 j 的值变化的。 3. 回溯求所有的匹配点对。根据上一步的最佳局部路径,由匹配点对ji,向回 溯到 1 , 1。dtw 算法是较早的一种模式匹配和模式训练的算法,它用动态规 划的方法成功解决了语音信号特征参数序列比较时时长不相等的难题,在孤 立词的语音识别中获得良好的性能,将它应用于语音识别系统,系统的开销 小,识别速度快,在小词汇量语音命令控制系统中是一个有效的算法。 隐隐马尔可夫法马尔可夫法( (hmm) ) 隐马尔可夫模型作为语音信号的一种统计模型23, 在语音处理各个领域中 基于 nuance 的语音识别系统的设计 14 广泛的应用,它的理论基础是在 1970 年前后由 baum 等人建立起来的,随后由 cmu 的 baker 和 ibm 的 jelinek 等人将其应用到语音识别之中。由于贝尔实验 室 rabiner 等人在 20 世纪 80 年代中期对 hmm 的深入浅出的介绍,才逐渐使 hmm 为世界各国从事语音处理研究人员所了解和熟悉,进而成为公认的有效的 语音识别方法。用隐马尔可夫模型刻画语音信号需要两个假设,一是内部状态的 转移只与上一个状态有关,二是输出值只与当前的状态有关。这两个假设大大的 减低了模型的复杂度,将语音看成了一连串的特定状态,这种状态是不能被观测 到的(这种状态有可能就是语音的一个音素),而是以某种隐含的关系与观测值相 关联,而这种隐含的关系在隐马尔可夫模型中以概率的形式表现出来,模型的输 出结果也以概率的形式给出。另一方面,运用隐马尔可夫模型,它很好的解决了 分类及其训练上的困难,其中 viterbi 搜索语音识别算法很好的解决了时间轴的 归一化问题,hmm 模型在语音识别上的应用是一个极大的成功。但是 hmm 算 法同样有着理论上的缺点,其中之一就是它假设语音是一个严格的马尔可夫过 程。 矢量量化矢量量化( (vq) ) 矢量量化(vector quantization)是 20 世纪 70 年代末才发展起来的。他广泛的 应用于语音编码、语音识别和合成,图像的压缩等领域。在语音信号处理中占十 分重要的地位。 量化可以分为两大类:一类是标量量化,另一类是矢量量化。标量量化是将 采样后的信号值逐一的进行量化, 这时将一维的零到无穷大值之间设置若干个量 化阶梯的值。而矢量量化是将若干个采样信号分成一组,即构成一个矢量,然后 对此矢量进行一次量化。它是 k 维无限空间划分为 r 个区域边界,每个区域称 为一个胞腔,然后将输入信号的矢量与这些胞腔的边界进行比较,并被量化为距 离最小的胞腔的中心矢量值。矢量量化不可避免的会带来信息的损失。在矢量量 化中主要有两个问题: 1) 如何划分 r 个区域的边界。这个过程称为“训练”或建立码本。一般采 用 lbg 算法。 2) 如何确定两个矢量在进行比较时的侧度,一般采用欧式距离、似然比失 第二章 语音识别的理论基础 15 真等方法。在语音识别中常采用的方法有两种:无时间规正的矢量量化 和有记忆的矢量化。 1. 无时间规正的时间量化 若有 m 类的语音(如 m 个孤立词) ,每一类各有一组训练集, , 2 , 1,mix i j 这样就可以采用 lbg 算法,就可以得到 m 个码本 mic i , 2 , 1,。lbg 算法是矢量量化中进行码本设计的一种有效的方法,它 是由 linde,buzo、和 gray 三人在 1980 年首次提出,该算法的具体实现是: 1) 已知码本尺寸为 r,给定该设计的失真阀值:和一个初始的码本集,已知一个 训练序列;1, 1 , 0,jjxj取迭代次数 n=0,并取 n=-1 时的平均失真 1 d。 2) 按照给定的码本,将训练序列划分为 r 类。分类的原则是:如果某个训练矢 量离第 r 个码本最近, 就把它分到第 r 类。 定义 tj yxd,为输入特征矢量 j x和 码字 t y之间失真侧度, 若 tjrj yxdyxd,, 则 rj yx ,从而得到最佳的胞腔, 按下面的式子计算训练序列的平均失真: 1 0 , 1 j j rj n xxd j d (2-6) 其中: ij yy r yxdx ri ,minarg 如果相对平均失真小于某阀值: n nn d dd 1 (2-7) 则认为满足设计的要求。这时 r y就是所设计的码本,如果条件不满足,则 求出每类训练矢量的新形心,新形心就是新的码本,迭代循环,直到满足式(2-7) 为止。 对 m 个孤立词识别, 就是为每一个孤立词建立一套尺寸为 r 的码本。 对第i 个孤立词,它的码本就是 i r yc 0 ;对 m 个孤立词分别构建码本,就可以获得 mic, 2 , 1, 0 。相应的基于矢量量化的语音识别过程如下图 2.3 所示: 基于 nuance 的语音识别系统的设计 16 在识别时, 一个未知矢量序列 tttxi, 2 , 1,分别用来 m 个码本量化, 可 求出 m 个平均失真。其中第i个码本的平均失真定义为: t i i ti i xxd t cd 1 , 1 (2-8) 并且满足 t jt cy ii j t yxd cy d aegx ii j ,min i 如果 ik cdcdmin (2-9) 则 k 类即为识别的结果,这是因为用第 k 个码本量化输入矢量序列时的平 均失真最小。 2. 有记忆的矢量量化 在无记忆矢量量化系统中,对于每一个输入矢量的量化与过去矢量的量化情 况无关。而在有记忆的矢量量化系统中,对于当前语音帧特征矢量的量化与过去 的量化状况有关,这样就可以利用语音帧之间的相关性来提高量化的效率。 设某个词的某次发音有 t 个 k 维谱矢量,每次将其中相邻的 n 个谱矢量同 时量化,那么平均量化失真为: tt nt t xxd nt d , 1 1 1 1 (2-10) 其中, 11 , ntytt xxxx使一个谱矢量序列,使一个nk的矩阵。而 it x yxd cy t t , minarg (2-11) ttxt, 2 , 1, 码本 1 c 码本 2 c 码本 3 c 求 最 小 值 类别号 图 2.3 基于矢量量化的语音识别过程 第二章 语音识别的理论基础 17 其中 c 是一个大小为 r 的码本: n tt yc 1 ,它的每个码字都是kn维的其 中失真测度可以简化表示为: n j ijjtit yxd n yxd 1 1 , 1 , (2-12) 它是针对每个词设计的码本,码本的设计也是基于 lbg 算法,做识别时分别 用各个码本进行如上所述的矩阵矢量量化, 将量化失真最小的码本所对应的词判 别为识别结果。 .3 神经网络的方法神经网络的方法 利用人工神经网络的方法是 80 年代末期提出的一种新的语音识别方法。人 工神经网络(ann)本质上是一个自适应非线性动力学系统,模拟了人类神经活 动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力 和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间 太长的缺点,目前仍处于实验探索阶段。 由于 ann不能很好的描述语音信号的时间动态特性,所以常把 ann 与传统 识别方法结合,分别利用各自优点来进行语音识别。 2.2.4 4 本章小结本章小结 1. 本章介绍了语言识别的基本原理,体系结构及其关键技术的介绍。 2. 介绍语音识别一般分类。 3. 对语音识别常见三种方法介绍,其中模板匹配的方法进行深入介绍:动 态时间规整(dtw),隐马尔可夫法(hmm)和矢量量化(vq)。 基于 nuance 的语音识别系统的设计 18 第三章第三章 nuancenuance 平台组成及工作流程平台组成及工作流程 3.13.1 nuance 的语言识别的原理的语言识别的原理 nuance 系统的客户/服务机的结构可在 windows nt 及很多 unix 系统上 运行。它可灵活伸缩,支持很小到很大的应用程序。利用这个结构,nuance 系 统可在高效而节约成本地利用计算资源的同时,支持特殊的交互式语音要求。 下图展示了 nuance 系统的主要组件,随后是每个部分的说明。 nuance 识别的过程可以分为几个阶段,如下图 3.1 所示: nuance 语音识别平台的具体工作过程和后台机制比较复杂,但是其 主要工作过程(如图 3.1 所示)可以简要归结为如下的 5 个步骤: 1) 用户通过用户端设备输入语音。 2) 通过预处理获取用户语音波形。 3) 进入识别服务器提取语音特征。 4) 通过声学模型、词库字典和语法进行语音识别匹配搜索。 5) 匹配结果通过自然语言理解, 即口译语法编译后, 通过终端输出语音识 别结果,即该语音内容的含义。 作为识别处理过程,识别服务器接收到输入的语音信号,用以下三个部件 来执行识别, 1) 声学模型:声学模型是用 nuance 系统来提供,用于声音识别。 语音波形 预处理 前端处理 识别搜索 自然语言理解 声学模型 字典 语法 声音输入 语音特征 词 意思 图 3.1 nuance 平台语音识别工作过程 识别客户端 识别服务器 第三章 nuance 平台组成及工作流程 19 2) 字典文件:字典文件中包含每个词的发音,nuance 系统包含他所支持 的语言扩展的系统字典。你可以增加字典的词汇,你可以有选择的增加 字典中的词,包括特别的技术术语或不常用的名字。 3) 识别语法:识别语法定义了一组可以别识别的发音,以及这些发音的解 释。 以下将详细介绍 nuance 中预处理、前端处理和识别搜索24 。 1. 预处理 为了识别,在声音被发送到服务器之前,识别客户为了优化识别预处理音 频数据,本节讨论回波抵消和端点检测,在预处理阶段,两个最重要的步骤是: 1) 回波抵消 回波抵消是通过减小有出去的声音引起的回音,提高质量的语音信号。 为了 支持插入,你的平台也必须支持回声抵消。否则,识别引擎不能提供准确的结 果,因为播放提示的回声,往往误为用户的声音。大部分电话服务供应商,在 他们的长途电话服务中包括回声抵消,但他们在当地的来电中,并不进行回音 消除,为了解决这一问题,你有以下选择: 你可以使用其他回声消除器, 如果他们符合 itu - t g.165 和的 g.168 兼 容的。回波抵消可对许多电话线路卡是兼容 nuance 的,例如,英特尔 语音卡,nms,aculab,brooktrout 语音卡。请向您董事会厂商获取更 多的信息和规范。 你也可以要求你的电话服务供应商在本地来电中扩展回波抵消。 2) 端点检测 为识别准确率和效率,这是关键的一步,在送往识别器,该系统能从声音 的本身分辨领先或落后的背景噪音或静音,这一过程被称为端点检测。nuance 的端点检测和识别算法相互配合可以提供最优的性能。 所有 nuance 的系统应用程序必须使用 nuance 的端点检测。端点检测的优 化是为了提高准确度,降低 cpu 的利用率,有更好的拿出来即用的性能。可以 用 nuance 的 api 来设定和调校端点检测的参数。 2. 前端处理 基于 nuance 的语音识别系统的设计 20 前端处理,也称为特征提取,允许 nuance 滤出一定量的背景噪音。图 3.2 显示的显示了一段语音波形,这是投入前端处理,来自 nuance 的 xwavedit 工 具。 音频数据,是典型的采样率在 8000 个采样每秒和分割成 10 毫秒内(80 个 样本,每帧) ,这是数字通信一个标准。前端审查来自各种频带样本帧的能级和 提取物的一个特征集,在这些频带(通常为 300 赫兹和 3.3 千赫)中向量的数 量相对应的能量。 这个向量然后转化为一种新的向量非常适合于语音识别处理。 对这些功能集进一步加工,而不是对原来的音频样本。作为这一处理过程的一 部分,该系统过滤出一定数额的背景噪音。 3. 识别搜索 在搜索阶段,语音识别器分析语音特征,以产生一种语音的转录。转录是 由将一个音频流转化到文字。 在当前语法中说明制定可能性的搜索。 该识别器使用一个层次的搜索机制, 允许它选择了最有可能的假说,从可能的假说组中: 1) 在最低水平,个别音素识别用指定声学模型。音素是在一种语言中区别 其他意思的声音。举例来说,音素 p 和 b 是第一音素在 pat 和 bat 单词 中。每个音素延伸跨越多个帧。音素模型依赖于上下文背景,这意味着 它们能够在很大程度上依赖于之前和之后的音素。 2) 序列音素弥补的单词的发音。该语音识别引擎使用字典随着文本-声音 图 3.2 音频数据的采样 第三章 nuance 平台组成及工作流程 21 规则, 可以音素序列映射为的单词。 综合字典是由 nuance 系统提供的, 同时您还可以提供补充字典为技术术语或特殊的名字。 3) 单词组合成短语或句子。 为了一个具体的应用, 你可以定义相应的语法, 此语法决定着一套语音识别引擎可以理解具体应用的词序列。 声音分析阶段,在识别处理的过程中,声音分析阶段提供了一种概率映射 从声音的波形到一组可能的音素。通常,nuance 系统所使用的有 30-60 音素, 这取决于不同的语言(例如,美国英语的通用 41 音素) 。 因为词和句子是由音素模型来构建的,声学处理的准确性是非常重要的。 nuance 系统采用隐马尔科夫模型(hmm 的)作为声学模型把说话波纹转化为 音素序列。hmms 是复杂的统计模式,他对语音信号提供一份详细的谱特征和 时间描述。对电话质量的音频来说,这些模式可以从已有数据中自动学习并且 得到了优化。 nuance 系统还提供这样的一种功能,用特定任务的数据从声学方面来使这 些模型集适合一个具体的部署。声学适应是通过这样来工作的,分析特定工作 的资料,例如记录的声音和识别结果,和调整相应的声学模型。举例来说,如 果你有一个应用程序是使用 english.america.1 版本一个主要的封装包包含 了北美绝大多数人说话的声学模型,在你的来电电话中绝大一部分人来自你的 来子这一特定的人口群,也就是说,通过调整声学模型来适应来电人口可以显 著的提高识别准确率。 声学适应是任务适应特性一个组成部分。其中,任务适应包括声学适应和 语法适应, 是 nuance 运行系统的一个自校正引擎特征, 它可自动提高部署系统 上的识别性能。 并行处理是作为识别过程的一部分,当把说话波形转化成词和句子时,系 统将执行两个并行任务: 1) 分割分析,决定了在一段语音流中,词的位置,以及在这些词中,这 些音素位置。 2) 分类确定对每一部分它是那一个音素,以及哪个字是听起来是指定的 一连串的音素。 这两项任务完成都是用音素模型,词模型,以及语法。在评估所有可能的 基于 nuance 的语音识别系统的设计 22 句子,nuance 系统考虑所有可能的分割。同时对假说和分割评估将生产最优化 最精确的结果。假说是既不丢弃得太早,太早这可能意味着抛弃一个准确的假 说,也不是太晚,太晚这可能意味着增加系统一种不必要的计算负担。 修剪搜索空间是 nuance 识别引擎识别搜索一项关键技术,因它能够能通过 分析话语来修剪搜索空间,所以效率高。由于该系统经过各种话语,它摒弃了其 往往不太可能结果,来减少搜索空间。这个技术可以快速识别,反过来说,这 又意味着需要较少的 cpu 时间和内存。nuance 识别器提供了两种方法的修剪: 1) 基于可能性修剪:从理论上讲,该识别器应计算在语法上一切可能的 假设的可能性,根据声学(hmm)模型选择一个最有可能的。在实践 中, 在计算之前, 不太可能的假设均从搜索空间被除去 (淘汰) , nuance 识别器让您来设置具体的数值来控制修剪程度,在搜索的过程中低于 设定数值的将会从搜索集中去除。 2) 语音修剪:此方法是在给定时间内分析最近音素的基础上识别器进行 额外的计算。语音修剪提供了一个独立的评估,该评估可以增加在保 持和修改假设上识别器可做出正确的决定的可能性。 注意 accuburst 允许的 nuance 系统,利用闲置 cpu 功率,动态地增加整个 系统的修剪和准确性,例如,在低呼叫量的时候。高效率的修剪使 nuance 系统 区别与其竞争对手的识别系统,这些系统往往仅基于可能性数值进行修剪。 3.23.2 nuance 的结构框图及各部分的介绍的结构框图及各部分的介绍 2525 nuance 系统的客户/服务机的结构可在 windows nt 及很多 unix 系统上 运行。它可灵活伸缩,支持很小到很大的应用程序。利用这个结构,nuance 系 统可在高效而节约成本地利用计算资源的同时,支持特殊的交互式语音要求。 下图展示了 nuance 系统的主要组件,随后是每个部分的说明。 第三章 nuance 平台组成及工作流程 23 .1 nuance api nuance 系统提供了一系列应用编程接口(api)。开发者可利用这些 api 创 建语音应用程序或与第三方平台集成。 这些语音应用程序和 nuance 系统的组件 可以进行交互,例如通过其中的一个 api 和识别客户端(recclient) 进行交互。 nuance 系统提供的 api 包括 speechobjects、rcengine、vrecserver c+ api、 rcapi 和 dialog builder(对话框构造器)等。 .2 java speechchannel 和和 speechobjects speechobjects 属于 java 类,它封装了对话框单元,利用 speechchannel 这 个 java 对象进行识别并提供音频功能。这一 nuance 应用编程接口(api)让 您将应用程序的开发集中在对话框层次,而不是客户端的识别层次。识别客户 端,recclient 是处理应用程序和 nuance 系统间交互的过程,它处理音频输入 和输出,并支持有限的电话控制。音频输入可选择取消回音然后作断句。音频 输出支持预录音提示回放, 为第三方的文本到语音转换(tts)系统提供了一个框 架。 在特定配置下, 呼叫控制和提示回放由 nuance 系统外的组件控制, recclient 也可用于偷听模式。最后,recclient 将音频传给识别服务器(recserver),并将 事件和结果回传给应用程序。 图 3.3 nuance 系统结构图 基于 nuance 的语音识别系统的设计 24 .3 识别服务器识别服务器 recserver对从recclient接收来的终端音频进行语音识别和自然语言理解。 如果安装了 verifier,在需要校验时,recserver 同时对音频执行声纹鉴别。为 识别语音并为表达内容返回自然语言的解释, recserver 需要一系列的声学模型 和语法。声学模型和语法帮助服务器确定说话内容。语法也用于解释口头词汇 的意思。应用程序对 recserver 加载包中的声学模型和语法进行指定。语法也 可在运行时动态地加载到 recserver 上。 .4 资源管理器资源管理器 nuance 资源管理器执行实时载入平衡功能,以保证识别任务平均分配到可 用的识别服务器,从而降低硬件需求,改善服务质量。数据库,nuance 系统的 应用程序使用数据库来保存动态语法和用户资料。对于 nuance verifier 应用程 序,数据库还保存鉴别音纹。对于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论