版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第13章语音识别 2内容提要内容提要n13.1概述n13.2语音识别原理n13.3动态时间规整n13.4有限状态矢量量化技术13.4.1 FSVQ原理及FSVQ声码器13.4.2 FSVQ语音识别器13.5孤立词识别系统n13.6连续语音识别13.6.1连续语音识别中存在的困难13.6.2连续语音识别的训练及识别方法13.6.3基于HMM统一框架的大词汇量非特定人连续语音识别3n语音识别(Speech Recognition)让机器听懂人说话n语音识别应用人机交互:语音打字机(听写机,键盘输入的34倍);电话查询自动应答系统(语音界面);语音命令的控制系统(释放手脚);n交叉学科:计算机、通
2、信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等13.1概述4语音识别历史发展50年代AT&T Bell Lab,可识别10个英文数字60年代LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。70年代DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢13.1概述5n语音识别的发展现状从
3、理论到产品走过了50多个春秋;现有很多实际应用系统;有可能成为下一代操作系统和应用程序的用户界面;远没有达到计算机与人类自然交流的终极目标;实用的语音识别技术研究极具市场价值和挑战;重点:大词汇、非特定人、连续语音识别13.1概述6n语音识别方法:模版匹配法:特定人、小词汇、孤立人识别系统。n就是将测试语音与模板的参数一一进行比较与匹配,判决的依据是失真测度最小准则。 随机模型法:主流,HMMn使用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果的方法。由于HMM具有状态函数,所以这个方法可以利用语音频谱的内在变化(如讲话速度、不同讲话者特性等)和它们的相关性(记忆性)。 语音:从
4、一个相对稳定的状态过渡到另一个状态概率语法分析法:区别性特征(语法、语义、语用)规则知识基于ANN(人工神经网络)的方法、基于模糊数学的方法、句法语音识别等13.1概述7n汉语语音识别与其他语言没有本质区别;汉语的特点使其识别难度更大;n语音理解:在识别语音底层的基础上,利用语言学、词法学、句法学、语义学、语用学、对话模型等知识,确定其语音信号的自然语音级在一定的语言环境下的意图信息。 以识别为基础,区别于识别;识别在于“听清”其语音学级的内容;理解在于“明白”其语言学级的内容;13.1概述8n语音识别系统的分类:孤立词、选词语音识别 、连续语音识别、语音理解(在识别的基础上用语言学知识推断语
5、音含义)、会话语音识别 (书写语音识别)大词汇、中词汇、小词汇语音识别系统单个说话人(speaker)识别系统、多个说话人、与说话人无关的系统(特定人与非特定人)13.1概述9语音识别技术面临的问题n数据资源 (年龄、性别、语言、方言、主题、情绪、地域切分、标注体系)n抗噪性能(背景噪声、信道噪声、干扰)n协同发音(Co-articulation)n口语现象(重复、顿措、语序颠倒)n说话人变异(口音、情绪、年龄)n听觉机理(音量、频率、抗噪、区分)13.1概述10语音识别系统典型系统IBM ViaVoice 听写机AT&T VRCP系统(自助话务员协助呼叫)NTT ANSER 语音识别
6、银行服务系统SONY AIBO 机器狗13.1概述11语音识别应用价值n信息查询(股票、天气、航班)n人机界面(新一代操作系统、智能家居)n听写机(文字输入、记录)n数据库管理(语音检索)语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。说话人识别(安全应用)关键词检出(多媒体数据检索)13.1概述12语音识别的性能评价原句:我我 们们 明明 天天 去去 天天 安安 门门识别:我我 明明后后天天 去去 天天 坛坛 删除错误删除错误 Deletion 插入错误插入错误 Insertion 替换错误替换
7、错误 Substitution正确率正确率: : 准确率准确率: : 100%NS-D-NCorrect100%NI-S-D-NAccuracy13.1概述13语音产生语音理解生理过程应用的语义、行为音素、词语、韵律特征提取发音系统参数信息表达信息理解语言系统语言系统神经系统转换神经肌肉映射耳蜗运动声道系统产生语音分析语音语音理解过程语音产生过程14语音识别层次模型 应 用 层 语 言 层 语 音 层 声 学 层语句识别层语义应用层次音节感知层音节感知层词语感知层特征提取层事件提取层物理接口层预处理层MFCC、LPCC、PLP、过零率、能量、pitch .语音帧序列天安门 怎么 走停顿、清/浊
8、音、爆破、鼻音、擦音、声调天安门怎么走?t ian an m en z en m e z outian an men zen me zou声波15统一层次模型系统设计16语音识别原理n模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。n识别步骤:1.学习训练分析语音特征参数,建立模板库;2.识别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果;n语音识别本质就是模式识别13.2语音识别原理 17语音识别系统基本构成特征提取训练模式匹配识别语法模板结果语音说话人自适应13.2语音识别原理 18语音识别系统举例语音样本特征提取(14LPCC)训练(矢量聚
9、类)N模板(M码字/码本)VQ识别器选量化误差最小的模板预处理13.2语音识别原理 19 欧氏距离测度中几个常见测度。 欧氏距离的均方误差(常用)。 式中,xi为输入信号的第i个k维矢量,yi为码本中第i个k维矢量,d2(x,y)的下标2表示平方误差。kiiiyxkyxd122)(1),(13.2语音识别原理 20 r 方平均误差。 kiriiryxkyxd1|1),(13.2语音识别原理 21 r 平均误差。 kirriiryxkyxd11|1),(13.2语音识别原理 22 绝对值平均误差(常用)。 kiiiyxkyxd11|1),(13.2语音识别原理 23 最大平均误差(常用)。|),
10、(),(maxlim11iikirrimyxyxyxdd13.2语音识别原理 24n预处理反混叠滤波;模/数转换;自动增益控制;去除声门激励和口腔辐射;正确选择识别单元;13.2语音识别原理 语音识别原理框图25n特征提取从波形信号获取一组描述语音信号特征的参数;参数的好坏对识别精度影响很大;识别参数:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量可以一种或多种参数并用;需要考虑参数的稳定性、识别率、计算量等;对于汉语还存在声调的提取(超音段信息);13.2语音识别原理 语音识别原理框图26n距离测度:与特征提取相关的内容则是特征间的距离测度。 欧氏距离及
11、其变形;对数似然比失真测度;加权超音段信息识别测度;HMM之间的距离测度;主观感知距离测度;KiiiyxKYXd122|)(|1),(13.2语音识别原理 语音识别原理框图27n参考模式库声学参数模板(训练聚类得到的)n训练与识别方法动态时间规整(DTW):用输入的待识别语音模式和预存的参考模式进行模式匹配 矢量量化(VQ):基于信息论中信源编码技术的识别。 有限状态矢量量化(FSVQ)HMM::以统计方法为依据进行识别 时延神经网络(TDNN)模糊逻辑算法等13.2语音识别原理 语音识别原理框图28nDTW适合于识别特定人的基元较小的场合,多用于孤立词的识别。DTW算法在匹配过程中比较细,因
12、此计算量大。其缺点是太依赖于发音人的原来发音;发音人身体不好或发音时情绪紧张,都会影响识别率。它不能对样本作动态训练,不适用于非特定人的语音识别。nHMM法既解决了短时模型描述平稳段的信号问题,又解决了每个短时平稳段是如何转变到下一个短时平稳段的问题。它使用Markov链来模拟信号的统计特性变化。HMM以大量训练为基础,通过测算待识别语音的概率大小来识别语音。其算法适合于语音本身易变的特点适用于非特定人的语音识别,也适用于特定人的语音识别。13.2语音识别原理 29nHMM原理较复杂,训练计算量较大,但识别计算量远小于DTW,识别率达到与DTW相同的水平。n采用HMM进行语音识别,实质上是一种
13、概率运算。由于HMM中各状态间的转移概率和每个状态下的输出都是随机的,所以这种模型能适应语音发音的各种微妙变化,使用起来比模式匹配法灵活得多。除训练时运算量较大外,识别时的运算量只有模式匹配法的几分之一。n与模式匹配法相比,HMM是一种完全不同的概念。在模式匹配法中,参考样本由事先存储起来的模式充任,而HMM是将这一参考样本用一个数学模型来表示,这就从概念上深化了一步。13.2语音识别原理 30n基于VQ的语音识别技术是20世纪80年代发展起来的,它可代替DTW完成动态匹配,而其存储量和计算量都比较小。 nVQ主要适用于小词汇量、孤立词的语音识别中。n其过程是:将对欲处理的大量语音K维帧矢量通
14、过统计实验进行统计划分,即将K维无限空间聚类划分为M个区域边界,每个区域边界对应一个码字,所有M个码字构成码本。识别时,将输入语音的K维帧矢量与已有的码本中M个区域边界比较,按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量,这个对应的码字即为识别结果,再对它进行K维重建就得到被识别的信号。13.2语音识别原理 31nFSVQ是一种有记忆的多码本的VQ技术。它不仅计算量小,而且适用于与上下文有关的语音识别。适合于特定人或非特定人、孤立词或连续语音识别。nLVQ(LearningVQ)即学习矢量量化,是由神经网络的并行分布来实现普通VQ的串行搜索,其运行速度远高于VQ。L
15、VQ是通过有监督的学习来改进网络对输入矢量分类的正确率。nLVQ2是对LVQ的改进,因为LVQ在某些情况下对模式识别的分类效果不够稳定。LVQ2是带学习功能的矢量量化法,它在训练时采用适应性法,在满足一定条件的情况下,将错误的参考矢量移至离输入矢量更远些,而将正确的参考矢量移至离输入矢量更近些,以此来提高识别率。13.2语音识别原理 32n专家知识库存储各种语言学知识;n判决根据各种距离测度选择适当的门限值;n检验结果识别率13.2语音识别原理 语音识别原理框图33n更一般的语音识别系统13.2语音识别原理 34动态时间规整DTW动态时间规整DTW(dynamic time warping)曾
16、经是语音识别的一种主流方法。其思路是:由于语音信号是一种具有相当大随机性的信号,即使相同说话者对相同的词,每一次发音的结果都是不同的,也不可能具有完全相同的时间长度。因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模板特征对正。用时间规整手段对正是一种非常有力的措施,对提高系统的识别精度非常有效。 动态时间规整DTW是一个典型的优化问题,它用满足一定条件的的 时间规整函数W(n)描述输入模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。13.3动态时间规整 35nDTW的基本思想:将时间规整与距离测度结合起来,采用动态规划技术,比较两个大
17、小不同的模式,解决语音识别中语速多变的难题;一种非线性时间规整模式匹配算法;13.3动态时间规整 36动态时间规整n语音识别模式匹配的问题:时间对准同一个人在不同时刻说同一句话、发同一个音,也不可能具有完全相同的时间长度;语音的持续时间随机改变,相对时长也随机改变;端点检测不准确;n方法1:线性时间规整,均匀伸长或缩短依赖于端点检测(经常采用时域分析方法,进行检测的主要依据是能量、振幅和过零率。 );仅扩展时间轴无法精确对准;n方法2:动态时间规整DTWDynamic Time Warping;60年代Itakura提出来的;13.3动态时间规整 37动态时间规整法动态时间规整法 j B i
18、A j i O w (i) 模板 输入38n动态规划算法基本思想是将待求解问题分解成若干个子问题nT(n/2)T(n/2)T(n/2)T(n/2)T(n)=13.3动态时间规整 39n但是经分解得到的子问题往往不是互相独立的。不同子问题的数目常常只有多项式量级。求解时,有些子问题被重复计算了许多次。nT(n)=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)13.3动态时间规整 40n如果能够保存已解决的子问题的答案,而在需要时
19、再找出已求得的答案,就可以避免大量重复计算,从而得到多项式时间算法。n=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2n/2T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4) T(n/4)T(n)13.3动态时间规整 41n找出最优解的性质,并刻划其结构特征。n递归地定义最优值。n以自底向上的方式计算出最优值。n根据计算最优值时得到的信息,构造最优解。13.3动态时间规整 42动态时间规正法(DTW)的计算实例ck=(ik, jk)(ik, jk-1)(ik-1, jk)min217515164724524334822151FEDCBA1 2 3 4R
20、Tg(i-1, j)+ d(i, j)g(i-1, j-1)+2d(i, j)g(i, j -1)+ d(i, j)nDTW算法(部分优化法) g(ck)=g(ik,jk)=g(i,j)= D(T,R)= g(I, J)/(I+J) 43DTW方法的缺点nDTW是用于与说话人有关(Speaker Dependent)的语音识别,使用者自行录音然后再以自己的声音來比对之前录好的语音资料。n此方法比較适合同一位说话人的声音來进行比較,因此应用范围比较狭隘,譬如目前手机 Name Dialing 等等。13.3动态时间规整 44nDTW的问题:运算量大;识别性能过分依赖于端点检测;太依赖于说话人的原
21、来发音;不能对样本作动态训练;没有充分利用语音信号的时序动态特性;nDTW适合于特定人基元较小的场合,多用于孤立词识别;13.3动态时间规整 45矢量量化矢量量化VQ Vector Quantization是将K个(K=2)样值形成一个K维空间中的一个矢量, 然后对此矢量进行一次量化, 只传输或存储矢量的地址. 因此能大大地提高压缩比. 矢量量化总是优于标量量化, 这是因为矢量量化有效地利用了矢量中各分量间地四种相关性(线性依赖性, 非线性依赖性, 概率密度函数的形状和矢量维数)来去除多余度. 矢量量化是标量量化的多维扩展.13.4有限状态矢量量化技术 46n矢量量化编解码框图13.4有限状态
22、矢量量化技术 采用LBG 算法(此名取Linde, Buzo,. Gray 三人名字的开头英文字母) 47n有限状态矢量量化(FSVQ)每个状态有一个编码器、解码器和码本(仍然采用LBG算法)FSVQ的最大特点是有一个状态转移函数;利用这个状态转移函数,根据上一次状态sn和上一次的编码结果jn,来确定下一个编码状态sn+1。这个系统在不增加比特率的情况下,可以利用过去的信息来选择合适的码本进行编码,因而其性能比一般的同维数的无记忆的矢量量化系统好得多,但是其存储量增加了。 13.4有限状态矢量量化技术 状态转移函数f(*,*) 48有限状态矢量量化(FSVQ)nFSVQ的设计方法仍然建立在LB
23、G算法的基础上,具体可分为三步:各初始码本的设计。用训练序列来获得状态转移函数。用迭代法逐步改进各码本的功能。 49 FSVQ与APVQ及一般VQ的性能比较 矢量维数kFSVQAPVQSNR一般VQSNRSNR状态数K12.024.122.027.8327.475.239.0648.106.1410.95128.877.1512.25129.257.9预测矢量量化( APVQ)5051隐Markov模型HMM语音是一随机过程,每次发音时,我们可以得到一个帧矢量序列(称为发现序列)X:X=x1,x2,xT对同一词的不同发音,X的帧数T和xi都在变化。可以看作是该随机过程模型的多次实现。从语音产生
24、过程来看,可以想象为声道沿不同位置转移时,每一位置产生一随机声学输出。可把各声道位置想象为各个状态Si,而发现序列可想象为在该状态的一个随机输出Xi。这样,语音的随机过程可看作由两个随机过程构成:状态转移的随机过程;输出的随机过程。 13.4有限状态矢量量化技术 52n基于HMM的识别系统13.4有限状态矢量量化技术 53孤立词识别系统n研究最早最成熟,实验室识别率达95以上;n发音认真、单词之间有停顿、端点检测较易;n前后单词之间是孤立的,识别基础建立在数学方法之上,不含“语言”知识;n识别技术有:DTW(运算量较大,但技术上较简单,识别正确率也较高);VQ(应用于特征处理可减少特征的类型从
25、而减少计算量 );HMM(路径模型 );混合技术(VQ/HMM);实验表明,在与讲话者无关的孤立词语音识别中,连续HMM的正识率已达到DTW的水平,而其所要求的存贮量和计算时间却要小一个数量级。 13.5孤立词识别系统 54n识别系统的结构n孤立词识别的三个目标:扩大词汇量、提高识别精度、降低计算复杂度扩大词汇量、提高识别精度、降低计算复杂度n词表中每个词对应一个参考模式。它是由这个词重复发音多遍,再经特征提取和某词表中每个词对应一个参考模式。它是由这个词重复发音多遍,再经特征提取和某种训练算法得到的。种训练算法得到的。n孤立词的发音,词与词之间要有足够的时间间隙,以便能够检测到首末点。孤立词
26、的发音,词与词之间要有足够的时间间隙,以便能够检测到首末点。n语声学分析部分主要是抽取语音特征信息。语声学分析部分主要是抽取语音特征信息。n语音经过预处理后,要进行特征提取。语音经过预处理后,要进行特征提取。n特征提取一般要解决两个问题:一是从语音信号中提取特征提取一般要解决两个问题:一是从语音信号中提取(或测量或测量)具有代表性的合具有代表性的合适的特征参数;另一个是进行适当的数据压缩。常用的特征参数以短时谱、倒适的特征参数;另一个是进行适当的数据压缩。常用的特征参数以短时谱、倒谱和线性预测系数用得最多。谱和线性预测系数用得最多。 13.5孤立词识别系统 55连续语音识别n比孤立词识别难:选择词或词以上单元作为识别单位,模版数目太大;选择音节或音素为识别单位,无法回避协同发音的问题(同一音素发音随上下文而变化);语音的多变性;n突破:20世纪90年代以后,全盘采用HMM统一框架,构筑声学/语音层、词层和句法层3层识别系统模型。13.5连续语音识别 56连续语音识别用于孤立词识别的各种技术,可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行政部办公费用预算与执行报告
- 教育信息化的数据解析员求职全解
- 腾讯产品经理岗位面试技巧
- 酒店客户服务专员面试指南
- 技术支持工作流程管理规定
- 社交平台用户反馈处理与解决方案研究
- 酒店管理集团前台接待员岗位职责与招聘要求解读
- 医患关系错位现象解析
- 职工体育活动方案
- 铁路交通信号工程师面试指南
- 2026天津市津南区事业单位招聘37人考试参考试题及答案解析
- CQI-17锡焊系统评估第二版(2021年8月发布)
- 第二语言习得入门完整共7units课件
- 碳中和承诺对化工意味着什么
- 大型商务浴场员工管理手册
- 人教版高中化学教材实验内容必修1和2
- 河北省自然科学奖推荐书
- SH3503交工表格
- 美标四分制标准
- 5S与目视化管理培训教材(PPT 143页)
- “三违”详细清单
评论
0/150
提交评论