已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章语音识别,9.1概述9.2语音识别原理和系统的组成9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.5连续语音识别系统9.6连续语音识别系统的性能,第九章语音识别,9.1概述语音识别的定义与应用语音识别系统分类语音识别方法分类9.2语音识别原理和系统的组成9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.5连续语音识别系统9.6连续语音识别系统的性能,语音识别的定义与应用,语音识别的定义语音识别(SpeechRecognition):主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容。从而根据其信息,执行人的各种意图。语音识别的应用语音识别技术根据其属性,基本功能可归为两大类:根据人本身的声纹特征来进行身份认证。另一类是根据人发出特定的语音指令来进行命令控制。由此引出的应用市场基本可以包括这几个方面:桌面应用、嵌入式应用、电话系统、Web应用以及特殊应用领域等。,语音识别的应用,1.桌面应用即语音识别技术集成在PC机上的应用,不仅可以用语音识别来进行身份认证和编辑文本,而且可以通过听取和响应用户讲述的命令来运行程序并与操作系统实现交互。跨国IT巨头如微软已介入该领域,且可以充分利用其成熟产品的协同性来进行市场渗透,如WindowsXP、Vista及Office2007等都内嵌了语音识别功能,具有垄断优势。2.嵌入式应用嵌入式应用的范畴很广,需要根据市场需求考虑不同的嵌入式硬件平台,如手持或移动通讯设备及家用电器的语音控制和内容输入。从目前的市场来看,嵌入式语音识别系统最大的市场主要是针对玩具、手机、车载GPS、MP3/MP4等。3.电话系统应用语音识别技术应用于企业自动语音服务,可以为企业提供一种智能化的并且相对安全的自动服务方式。主要包括,企业的用户服务中心(Call-Center),电话银行,股票交易,电子商务等应用领域,用户可以在电话中进行身份认证及菜单流程的快捷选择。4Web应用Web应用是把语音技术与Web应用结合,例如语音浏览器、语音搜索引擎、网上语音聊天室及语音网等。5.行业特殊应用领域语音识别技术可以为有关部门(国家安全、侦破等特殊领域)提供应用方案,帮助它们通过电话采集的语音进行自动的身份辨认,节省大量的人力,并大大提高工作效率和识别的成功率。,iphone4SSiri,Siri是苹果公司在其产品iphone4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人。,实现一种人机互动,讯飞口讯,Symbian版:2011-10-28更新,讯飞口讯1.0.1121版本发布,一款Symbian平台的语音写短信软件,语音输入短信收件人及内容,并支持短信自动朗读。iPhone版:2011-10-27更新,讯飞口讯1.0.1037版本发布,新增语音输入发布微博功能。Android版:2011-10-28更新,讯飞语音输入法2.0.1094版本发布,增加拼音整句输入功能,并优化部分细节问题。,语音识别系统分类,1.按识别对象分类孤立词:单字、单词或短语为发音单位,独立词条。要求输入每个词后要停顿。利用语音进行家电控制语音识别系统,开、关,提高音量等。连接词:十个数字连接而成的多位数字或连接词条。要求对每个词都清楚发音,一些连音现象开始出现。在电话、数据库查询和控制系统中用途广泛。连续语音:最自然的说话方式,是自然流利的连续语音输入,大量连音和变音出现。比较复杂、成本也高。语音理解:在识别的基础上,用语言学知识来推断语音的含义。会话系统:会话语言,不仅利用语法信息、而且要利用谈话话题、上下文文脉等对话环境的信息.,语音识别系统分类,2.按词汇量大小分类词汇量:小大小词汇:1-20个词汇,如利用语音进行电话拨号中词汇:20-1000个词汇,自动订飞机票大词汇:1000个以上,把口述的一篇报告转换成文本3.按说话人的范围分类说话人范围:小大单个特定讲话人:简单、识别率高,商品化的多属此种。有限多讲话人:通用性好、应用广、难度大,不易得到讲话者无关:高的识别率。,语音识别方法分类,1.模板匹配法将输入语音的特征与模板参数进行比较,相似度最高者作为识别结果。用于特定人、小词汇和孤立词。关键技术:动态时间规整算法(DTW)不同时刻就算同一个人发同一个音的长度与不同,用DTW算法进行模板匹配,保证两模板间存在最大声学相似性。2.随机模型法:隐马尔可夫模型(HMM)使用HMM的概率参数来对似然函数进行估计与判决,从而得到结果。3.概率语法分析法:将“区别性特征”和形式语法约束的知识来对似然函数进行估计与判决。用于大长度范围的连续语音识别。,这三种方法都是建立在最大似然决策的贝叶斯(Bayes)判决基础上的。,第九章语音识别,9.1概述9.2语音识别原理和系统的组成9.2.1预处理和参数分析9.2.2语音识别9.2.3语音识别系统的基本数据库9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.5连续语音识别系统9.6连续语音识别系统的性能,9.2语音识别原理和系统的组成,语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别系统本质上是一种模式识别系统包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如图所示:识别一般分为两个步骤:第一步:系统的“学习”或“训练”阶段。主要是建立识别基本单元的声学模型以及文法分析的语言模型。第二步:“识别”和“测试”阶段。根据不同识别方法的参数特征按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。,一般语音识别系统框图,声音波形信号转化为电信号,模拟信号采样、量化为数字信号,区分语音段和非语音段,抽取语音特征,语音模型的训练,核心部分,语音识别的最终目的,语法约束,语言模型,9.2.1预处理和参数分析,语音信号预处理部分包括:语音信号的电压放大、反混叠滤波、自动增益控制、模数变换等。1.话筒自适应和输入电平的设定输入语音信号的品质对语音识别性能的影响很大,因此,对话筒的耐噪声性能要求很高。为了保持高精度的语音分析,A/D变换的电平必需正确的设定。同时还要通过AGC来自动的调整输入电平放大的倍数或者通过对于输入数据进行规整处理来控制语音数据幅度的变化。2.抗噪性环境噪声大的时候必须对输入信号进行降噪处理。平稳噪声:指强度波动较小的连续性噪声或重复频率较大的连续性脉冲。利用谱相减(SS)降噪技术非平稳噪声:指强度波动较大的连续性噪声。两个话筒分别输入语音和噪声相互抵消降噪。,3.语音区间的端点检测(VAD)端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能够减少处理时间,而且能排除无声段的噪声干扰,提高系统的识别率。,一个优秀的端点检测算法应能满足:1)门限值应该可以对背景噪声的变化有一定的适应。2)将短时冲击噪声和人的咂嘴等瞬时超过门限值的信号纳入无声段而不是有声段。3)对于爆破音的静音段,应该将其纳入语音的范围而不是无声段。4)应该尽可能的避免在检测中丢失鼻音和弱摩擦音等与噪声特性相似、短时参数较少的语音。5)应该避免使用过零率作为判决标准而带来的负面影响。,传统基于短时能量和短时平均过零率的缺点:1)背景噪声较大时,清音电平和噪声电平相差无几,容易漏检。2)较大的干扰信号可能被当做语音信号,造成虚检。改进方法:为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。其理论依据是:语音信号具有相关性,而背景噪声却无相关性。,4.语音参数分析目的:抽取语音特征参数,以使语音识别时类内距离尽量小,类间距离尽量大。参数:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、PARCOR系数(偏自相关系数)、声道形状的尺寸函数,随机模型(HMM)的概率函数以及矢量量化的矢量等。识别参数可以选择某一种或几种的组合经过FFT变换或者LPC得到功率谱以后再经过对数变换和傅立叶反变换得到的倒谱参数是目前常用的语音识别特征参数。,9.2.2语音识别,语音识别是语音识别系统的核心部分。包括语音的声学模型、语言模型的建立、识别方法、搜索算法等。1.语音模型语音识别系统的模型通常由声学模型和语言模型两部分组成。通常说的语音模型一般指用于参数匹配的声学模型。语音模型:用于实现语音到识别基元概率的计算的声学模型;目前比较好的语音声学模型是HMM模型。音素(半)音节(字)词短语句子语音流日语、英语汉语(“声母韵母”识别基元)识别基元小则系统复杂度小,但相应的正确识别率也小。系统复杂度和识别正确率是矛盾的。一般基元选择可以感觉实际用途而定。语言模型:指匹配搜索时用于字词和路径约束的语言规则,完成候选字词概率的计算,从而选择合适的字、词。,2.连续语音的自动分段1)连续语音的自动分段是指从语音信号流中自动地分割出识别基元的问题。把连续的语音分割成对应于各音的区间叫做分割,分割的结果产生的区间叫做分割区间,给分割区间赋予表示音种的符号叫做符号化。2)汉语的自动分段是指根据汉语特点及其参数的统计规律,设置某些参数的阈值,用计算机程序自动地进行分段,从而找出字的两个端点。3)参数:帧平均能量、帧平均过零率、线性预测的第一个反射系数或其残差序列、音调值等。帧平均能量与En帧平均过零率Zn相结合是比较简单、快速的汉语自动分段方法。,3.语音识别方法基于参数模型的隐马尔可夫模型(HMM)的方法;基于非参数模型的矢量量化(VQ)的方法;HMM和VQ主要用于大词汇量的识别系统,VQ相比与HMM在训练数据、训练与识别时间、工作存储空间都很小但是识别性能不如HMM好基于人工神经网络(ANN)的语音识别方法;传统的基于动态时间伸缩的算法(DTW),在连续语音识别中仍然是主流方法。同时,在小词汇量、孤立字(词)识别系统中,也已有许多改进的DTW算法被提出。距离测度:距离测度是用一个函数计算两个模式间距离的大小,从而衡量样本间的相似性,然后根据若干准则和专家知识,判决出最好的结果作为识别结果。用于语音识别的距离测度有多种,如欧氏距离及其变形的欧氏距离测度、似然比测度、加权的识别测度等。判决准则一般是K平均邻近准则(K-NN)。,9.2.3语音识别系统的基本数据库,语音识别系统中包括大量的参数信息,这些参数以数据库的方式存储在计算机内,构成了语音识别系统的基本数据库。它们是通过“训练”(或叫“学习”)的方法,从单讲话者或多讲话者的多次重复发音的语音参数以及大量的语法规则中,经过长时间的训练而聚类得到的。语音库存储语音模型和模板专家知识库存储各种语言学知识1.单词词典和语法在多任务环境中,对于一个Application,要定义相应的单词集合,根据识别结果或Application的动作进行单词集之间的切换。通过单词词典、文法以及声学模型(如HMM)和句法分析搜索算法的共同编译,得到用于识别的系统网络。,2.词典编辑、文法开发工具高效的单词词典编辑、文法制作工具的开发是很重要的。可以根据不同用户的能力或具体的Application的复杂程度,提供最佳的用户接口和最适应的工具性能。3.API(ApplicationProgrammingInterface,应用程序编程接口)为了使语音识别和Application更紧密的结合,实现对语音识别系统的自动控制,API是必须的。可以通过API来实现语音识别环境的切换,识别开始、终止等对识别系统的控制。,第九章语音识别,9.1概述9.2语音识别原理和系统的组成9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.5连续语音识别系统9.6连续语音识别系统的性能,9.3动态时间规整(DTW),语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。日本学者板仓(Itakura)将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间规整算法(DTW,DynamicTimeWarping),动态规划算法,单调性和连续性的约束则斜率应该只有0、1或斜率不存在,动态规划(DP)算法,从(I,J)开始按上面的式子逆序的寻找最佳路径。,(i,j),输入语音参数帧矢量,参考语音参数帧矢量,i,j,(I,J),(i-1,j-1),(i-1,j-1),(I,J),(1,1),第九章语音识别,9.1概述9.2语音识别原理和系统的组成9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.4.1基于MQDF的汉语塞音语音识别系统9.4.2基于概率尺度DP识别方法的孤立字识别系统9.5连续语音识别系统9.6连续语音识别系统的性能,孤立字(词)识别系统,孤立字(词)识别系统:识别孤立发音的字或词。输入的语音单词之间有停顿,这样单词之间的协同发音的影响较小,单词的端点检测也比较容易。所以可以得到很高的识别率,已达到95%以上。识别方法:(1)采用判别函数或准则的方法。最典型的是贝叶斯(Bayes)准则。它是一种概率统计的方法。(2)采用DTW的方法。字音的起始点相应于路径的起始点。与待识语音距离最小的模板对应的字音即判为识别结果。(3)采用矢量量化技术的方法。(4)采用HMM技术的方法。(5)采用人工神经网络技术的方法。(6)采用混合技术的方法。,孤立字(词)语音识别系统框图,语音分析:预处理和语音特征参数提取。模式识别:将输入语音特征参数信息与训练时预存的参考模型(或模板)进行比较匹配。后处理:运用语言学知识或超音段信息对识别出的候选的字或词进行最后的判决(如汉语的声调知识的应用等)。孤立字识别的主要目标:词汇量的扩大、识别精度的提高、计算复杂度的降低,9.4.1基于MQDF的汉语塞音语音识别系统,QDF与MQDF,9.4.2基于概率尺度DP识别方法的孤立字识别系统,非对称DP路径,递推公式,相同点:都是用于孤立词识别,都用到了DP算法不同:DTW:特定人,利用DP算法进行模板匹配的最优路径是最小距离。基于概率尺度DP:非特定人,最优路径是最大转移概率。DTW样本帧间是无关的,基于概率尺度的DP方法把语音样本的每一帧看作一个模型状态的连续HMM.,能较好的描述语音特征矢量的帧间相关信息。,DTW与基于概率尺度的DP,递推公式的计算,第九章语音识别,9.1概述9.2语音识别原理和系统的组成9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.5连续语音识别系统9.6连续语音识别系统的性能,连续语音识别系统,孤立字(词)语音识别是不含语言知识的识别,用于孤立词识别的各种技术,可以在很大的程度上推广到连续语音识别的情况。但是,连续语音有许多特殊问题,使它与孤立词的情况有很大差别。至少应考虑如下几个问题:识别基元的选择与切分:孤立词可以对整个词一起识别但是连续语音对整个句子一下子进行识别显然是不可能的,因此,必须选择恰当的识别基元并进行切分。这种选择应考虑用尽量小且又易于从连续语流中切分出来的基元,如选择音节、半音节、音素、词等作为基元。协同发音现象、上下文:连续语音情况下协同发音现象比较普遍,使得具体的词受上下文环境的影响较大。在连续语音情况下,词法、句法、语义等,对识别也是极其重要的。,连续语音识别系统是数学描述,传统的连续语音识别方法中,语音识别处理和语言句法分析过程一般分开的,即先用语音的声学模型和输入信号进行匹配,求得一组候选单词串,然后利用语音的语言模型找出符合句法约束的最佳单词序列。缺点:语音处理和语言处理相互之间不施加约束,必然增加许多不必要的中间结果,从而既增加计算量又增加误识别的可能;两个非紧密结合的模块之间传递信息时,一般要产生信息丢失,因而影响识别精度。较好的方法应该是把句法分析的语言处理过程结合进语音识别过程中,实现帧同步的语音语言处理的统合。,一个例子,一个连续语音识别系统主要有特征参数分析、语音识别、句法分析和单词预测等三大部分组成。特征参数分析:对连续语音信号进行切分,并求取输入语音信号用于识别的参数。语音识别:根据句法分析部提供的被预测单词,按照词汇表和基元模型自动组成单词的标准模型,由单词模型的连接求得最佳单词序列。句法分析:采用语言模型来描述待识别语音的句法构造,并利用句法分析器来进行句法分析和单词预测。(考虑单词与前向和后向的关系)dataSpeech特征矢量时间序列最佳输出,模式匹配,特征参数分析,声学模型,训练,语言模型,句法分析单词预测,1.声学基元模型汉语可以采用韵母和声母作为基元,以HMM作为声学模型。2.系统语言模型一般来说对于词汇量较大的连续语音识别系统,用上下文无关文法(CFG)、双词文法和三词文法建立语言模型。其中CFG应用最为广泛。3.句法分析(parsing)句法分析是从单词串得到句法结构的过程。常见基于CFG的句法分析方法有:移进归约算法、Marcus确定性分析算法、CYK算法、Earley算法、Tomi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 5503-2025粮油检验碎米检验法
- 2025年甘孜藏族自治州辅警招聘考试题库及答案详解(必刷)
- 2025年金昌辅警协警招聘考试真题附答案详解(能力提升)
- 2025年通辽辅警招聘考试题库附答案详解(培优b卷)
- 2025年温州辅警协警招聘考试真题及完整答案详解1套
- 2025年金昌辅警协警招聘考试真题及完整答案详解1套
- 2025年白山辅警协警招聘考试备考题库含答案详解(模拟题)
- 2025年赤峰辅警招聘考试真题含答案详解(精练)
- 2025年许昌辅警招聘考试题库及一套完整答案详解
- 2025年綦江县辅警协警招聘考试备考题库含答案详解(满分必刷)
- 2025下半年榆林神木市公共服务辅助人员招聘(80人)考试笔试备考试题及答案解析
- 贵州国企招聘2025贵阳白云城市运营维护投资(集团)股份公司招聘笔试历年参考题库附带答案详解
- 腾讯手机行业消费趋势洞察报告(2025年版)
- 2025天津银行笔试题库及答案
- 2025年工业污水考试试题及答案
- 浙江省浙南名校联盟2025-2026学年高三上学期10月联考技术试题
- 2025年压力性损伤考试题(+答案解析)
- 加油站安全生产责任清单和工作任务清单
- 《文献检索与科技论文写作入门》课件-07-第七章-毕业论文和学术论文写作
- Unit 4 Plants around us Part A Let's talk Let's learn 英语教学课件
- AIGC艺术设计 课件全套 第1-8章 艺术设计的新语境:AI的介入 -AIGC艺术设计的思考与展望
评论
0/150
提交评论