HCI-06-SR 语音交互课件_第1页
HCI-06-SR 语音交互课件_第2页
HCI-06-SR 语音交互课件_第3页
HCI-06-SR 语音交互课件_第4页
HCI-06-SR 语音交互课件_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Warm Up中文输入方法键盘输入万码奔腾笔试输入联机手写其它方式?君子动口不动手!共性:用手输入!第六讲语音交互技术概述提 纲语音识别概况语音信号处理基础知识语音识别技术概述声学特征提取主要识别技术State of the art语音信号处理学科内涵利用数字信号处理技术对语音信号进行处理的一门学科,处理的目的是得到某些参数以便高效传输或储存MP3 或者用于某种应用,如识别出讲话内容辨识讲话人进行语音增强人工合成语音语音信号处理与人类功能类比聋、哑、盲耳聪目明,听说读写语音交互涉及两类器官耳朵语音分析、识别、话者识别外耳、中耳、内耳发声器官语音合成肺、气管、喉(包括声带)、咽、鼻、口相关研究方

2、向语音压缩高效存储、传输语音信号语音合成输出自然可懂的语音信号语音识别提取或匹配语义话者识别辨别讲话人,安全应用语音增强提高信噪比、加重语音成分语音信号处理学科特点多学科交叉特性计算机学科 计算机智能接口信息处理学科信息识别及提取人工智能时序模式、多维模式识别通信及电子系统信源处理语音学、声学、语言学、认知科学、生理学、心理学、数理统计等多学科交叉语音识别概况语音识别应用价值信息查询(股票、天气、航班)人机界面(新一代操作系统、智能家居)听写机(文字输入、记录)关键词检出(多媒体数据检索)数据库管理(语音检索)语音识别系统分类及当前技术特点技术分类参数参数变迁情况说话模式孤立词?说话风格朗读语

3、言?话者说话人有关?词汇量小词汇量(数10) ?语言模型有限句型文法?信噪比(SNR)30db?传输通道麦克风?典型技术类型与应用孤立词识别手机Name Dialing连续语流中的关键词识别语音检索, SONY AIBO 机器狗受限词汇量基于语法的ASR 旅馆预定, AT&T VRCP系统(自助话务员协助呼叫), NTT ANSER 语音识别银行服务系统大词汇量连续语音识别系统LVCSR听写机, IBM ViaVoice 听写机语音识别历史发展50年代AT&T Bell Lab,可识别10个英文数字60年代LP较好地解决了语音信号产生模型DP则有效解决了不等长语音的匹配问题70年代DTW(Dy

4、namic Time Warp)技术基本成熟VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用1988年李开复等在美国CMU大学基于VQ/HMM开发出SPHINX系统90年代大规模应用,工业标准,理论进展缓慢技术现状在受限条件下SR已取得重大进展,技术上相对比较成熟办公环境下具有说话人自适应能力的专用文本标准语音听写识别恶劣环境下的专用小词汇量识别小词汇量非特定人命令识别小词汇量关键词检测专用领域的中、小词汇人机对话通用环境下的语音识别挑战大,特定领域可大有作为对于不同的应用解决问题的着重点不一样,而目前

5、的语音识别还不能在同一框架下去解决所有复杂的问题,因而有针对性地解决问题的方法至关重要技术挑战抗噪性能背景噪声、信道噪声、干扰协同发音(Co-articulation)问题Seat and Soup复杂的口语现象重复、顿措、语序颠倒说话人变异口音、情绪、年龄数据资源年龄、性别、语言、方言、主题、情绪、地域切分、标注体系语音识别的性能评价原句:我 们 明 天 去 天 安 门识别:我 明后天 去 天 坛 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution正确率: 准确率:准确率 = 正确率:系统正确率很高,其准确率未必高!语音信号处理基础知识语音和语言声音

6、与语音语音人讲话所发出的声音由一连串的“音”排列组成,是包含语言信息的声音音的排列规则及其含义语言学研究范畴音的分类和研究称为语音学语言/语音的结构篇章(一次演讲)段落句子单词(词)语言的最小语义单元音节音素语言的元素,最小基本单元如:英语共有48个音素音节音素的组合形成音节每个音节可以是一个元音和12个辅音组合并非所有音素的组合都会成为音节例如:汉语里面dv意味着:音节数远少于音素的组合数其他重音西方语言的重要特点声调阴平、阳平、上升、去声和轻声 汉语独有的特点语调讲话声音的调节汉语语言/语音学特点音素少、音节少64个音素400个左右的音节400个左右的基本发音加上音调,1200多个不同的发

7、音覆盖数万个汉字语音产生及其声学特性语音产生器官发声器官语音合成肺、气管、喉(包括声带)、咽、鼻、口。它们共同形成一条形状复杂的管道声带和声门喉与气管的接口处称为声门声道其中喉以上的部分称为声道,随着发出语音的不同其形状是变化的语音产生过程产生语音的能量,绝大多数来源于正常呼吸时肺部呼出的稳定气流有极少数语种,如某些非洲语言,是利用吸气气流来发音的吹口哨声带最重要的发声器官既是一个阀门又是一个振动部件呼吸时左右两声带打开(声门开)在说话的时候合拢,肺部气流经气管形成冲击“打开-闭合-打开-闭合-”声门,从而冲击声带产生振动,然后通过声道响应变成语音语音的频率性质音调周期/基音周期声门开启-闭合

8、一次的时间,即振动周期基频基音周期的倒数,声带振动的基本频率音调声带振动的频率(即基音)决定了声音频率的高低,频率快则音调高,否则音调低人的基音范围70350Hz,儿童和青年女性偏高,男性偏低声道调制声道咽、口腔和鼻腔,构成从声门延伸至口唇的非均匀截面的声管,约17cm功能谐振腔:放大某一频率而衰减其他频率分量谐振频率:由每一瞬间的声道外形决定,又称为共振峰,是声道的重要声学特征语音信号的产生数学模型激励模型 声道模型辐射模型激励模型激励模型非常复杂声门脉冲模型浊音声带振动,声门脉冲如:斜三角形脉冲串随机白噪声清音声带不振动,随机白噪声声道模型可以把声道视作截面积变化的管子,研究声音沿管道是怎

9、样传播的发声过程小结人的发声过程包括两个步骤声门/声带产生不同频率的声音准周期气流脉冲或白噪声声道对声源的调制作用 激励过程(声门)调制过程(声道)语音辐射提 纲语音识别概况语音信号处理基础知识语音识别技术概述声学特征提取主要识别技术State of the art语音传输信道描述M: MessageW: WordS: SpeechA: AcousticX: Signal/Feature 信息源 P(M)语言学通道P(W|M)发声通道P(S|W)声学通道P(A|S)传输通道P(X|A)x基于词转换范式的语音识别原理输入:声学语音信号序列X输出:词序列(最小语义单元序列)方法:贝叶斯模型范式基于

10、词转换范式的语音识别原理声学模型HMMGMMANN语言模型N-GramRule-based语音识别层次模型 应 用 层语义应用层 语 言 层语句识别层词语感知层 语 音 层次音节感知层音节感知层事件提取层 声 学 层特征提取层物理接口层预处理层MFCC、LPCC、PLP、过零率、能量.语音帧序列天安门 怎么 走停顿、清/浊音、爆破、鼻音、擦音、声调天安门怎么走?t ian an m en z en m e z outian an men zen me zou声波N元语言模型语音波形声学特征提取XW1W2 Wn解码器声学音素模型发音词典语音识别框架对于不同类型的系统,并不需要所有上述模块例如:在

11、小词汇表命令词识别系统中声学处理语音解码词表匹配语音模型词表语言模型语言解码语音信号音节阵列语音识别原理图声学特征词阵列声学模型语音识别系统基本构成特征提取训练模式匹配拒识语法模板结果语音说话人自适应匹配结果典型统计语音识别方法模板匹配法随机模型法HMM概率语法分析法神经网络方法模板匹配法将测试语音与模板的参数一一比较特定人、小词汇、孤立人识别系统动态规划,动态时间规正DTW判决依据失真度最小准则距离最小准则相似度最大准则难以实现鲁棒语速,讲话人,噪声随机模型法利用HMM概率参数来对似然函数进行估计与判决,从而得到识别结果的方法通过HMM的状态函数,较好的利用了语言结构的动态特性概率语法分析法

12、利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决区别性特征 语法规则 知识形式语法参数方法概率估计的非参数方法结合适用于大长度范围的连续语音的识别语音识别系统举例典型成功系统1990年代以来大词汇量,非特定人,连续语音识别声学特征LPCC, MPCC,LPLCC识别方法HMM为统一框架为每个基本识别单元建立至少一套HMM结构和参数提 纲语音识别概况语音信号处理基础知识语音识别技术概述声学特征提取主要识别技术State of the art语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。频域及倒谱域

13、特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱听觉特征不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征如感知线性预测(PLP)分析短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般1030ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平

14、稳特性时域特征短时平均能量N为分析窗的宽度,St(n) 表示第t 帧中第n个采样点的信号值短时平均过零率过零率tS(t)One frame20msOne frame20ms时域特征能量和过零率参数的缺点对于说话人和背景噪声的鲁棒性较差目前时域参数多用在语音的预处理上如端点检测,判断语音的开始与结束也有人把它作为模型参数进行使用频域分析为什么要进行频域分析?稳态语音的生成模型由线性系统组成,其被一随时间做周期变化或者随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性语音信号的频谱具有非常明显的语音、声学意义,可以获得重要的语音特征,如共振峰共振峰是指在声音的频谱中能量相对集中的一些

15、区域声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。在语音声学中,共振峰决定着元音的音质 广义频域分析广义频谱分析频谱倒频谱功率谱频谱包络常用频谱分析方法傅里叶变换法线性预测法带通滤波器组法傅里叶变换基本工具傅里叶变换标准傅里叶变换适用于周期、平稳随机信号不适合于非平稳的语音信号短时傅里叶变换短时谱,有限长度的傅里叶变换即对某一帧语音

16、进行傅里叶变换窗选语音信号的标准傅里叶变换特别适用于“语音分析和语音合成”因为其可以精确的恢复语音波形反卷积问题定义语音信号的产生模型线性非移变系统的输出,即声门激励信号和声道冲激响应的卷积A = L * R问题已知A,如何求解L和R?解卷(反卷积)由卷积结果求得参与卷积的各个信号分量反卷积方法倒谱(同态)分析倒谱参数所含的信息比其他参数多缺点是运算量比其他参数大线性预测分析参数解卷方法:首先为线性系统建立模型,然后对模型参数按照某种最佳准则进行估计如果采用最小均方误差准则对模型进行估计,就得到线性预测编码算法(LPC)同态分析的基本原理有很多客观物理现象中的信号,其中各组成分量的组合,并不是

17、按照加法组合原则组合起来的如图像信号、地震信号、调制信号、语音信号等,它们都不是加性信号,而是乘积性或卷积性组合的信号不能用线性系统来处理,而必须用满足该组合规则的非线性系统来处理,但是非线性系统地分析非常困难。同态信号处理法就是设法将非线性问题转化为线性问题来处理的一种方法按照被处理的信号来分类,大体上可以分为乘积同态信号处理和卷积同态信号处理。由于语音信号可以视为声门激励信号和声道响应信号的卷积结果。我们仅讨论卷积同态信号处理系统的问题。同态分析同态分析/同态滤波/倒谱分析基本思路,三步走:Z变换: 卷积信号乘积信号对数运算:乘积信号加性运算逆Z变换: 得到输入信号的倒谱分析得到的逆Z变换

18、结果称为倒谱Cepstrum倒谱 满足加性 SpectrumZ变换: 卷积信号乘积信号对数运算:乘积信号加性对数频谱逆Z变换: 得到输入信号的倒谱倒谱分析输入信号:其中x1和x2分别是声门激励信号和声道响应序列加性倒谱域卷积性时域由于加性信号的Z变换结果仍为加性信号,所以倒谱这种时域信号,是可以用线性系统来处理的经线性处理之后,如欲再恢复出语音信号,则可以采用逆过程来实现,即特征系统的逆运算。即将线性系统输出的加性倒谱信号 作如下操作:先进行Z变换,得到线性对数频谱再进行指数运算,变为乘积性信号:最后进行逆Z变换,得到卷积性的时域信号:同态处理特征系统与逆特征系统的组成倒谱(同态)分析应用倒谱

19、分析可以得到某些参数的近似表示声门激励的基音周期声门的振动特征区分浊音与清音浊音:声带振动,声门开闭清音:声带不振动声道响应的共振峰频率声道(咽、口腔和鼻腔)特征反卷积方法倒谱(同态)分析线性预测分析线性预测分析概况线性预测 Linear Prediction, LP1947年,维纳首次提出1967年,板仓等人应用于语音分析和合成中LP是首次得到成功实用的语音分析技术功能估计基本的语音参数包括基音、共振峰、谱、声道面积函数用于低带宽传输和存储语音优势精确估计参数;参数少但可以有效而准确的表示语音波形及其频谱性质;速度快,效率高线性预测分析基本思路基本概念某个语音的采样可以用过去若干个语音采样的

20、线性组合来逼近分析思路通过使实际语音采样和线性预测采样之间差值的平方和达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组线性预测系数线性预测分析基本思路线性预测分析模型将信号看作某一模型(系统)的输出将语音生成的激励、声道和辐射模型全部谱效应简化为一个时变的数字滤波器用模型参数来描述信号,其参数包括:浊音/清音判决,浊音基音周期增益常数,数字滤波器参数等语音信号的线性预测分析求解数字滤波器的参数和增益常数的过程即语音信号的线性预测分析输出LPC, LP coefficients线性预测系数:参数、增益常数注意语音信号具有时变性,所以系数的预测同样要按帧进行线性预测系数(LPC)的计算方法

21、问题转化最后问题转化求解线性方程组的问题LPC的计算方法自相关法格型法引入正向预测/反向预测的概念协方差矩阵法对协方差矩阵进行特征分解LPC+倒谱 = LPCC基于LP的倒谱分析LPC是语音信号的基本表示参数,可以变换为其他形式的参数在求得LPC 后,使用下面的递推公式可以计算出该帧语音的LP倒谱系数(LPCC)基于LPC 的倒谱系数LPCC基于Mel频率的倒谱系数MFCC基于Mel频率的倒谱MFCC生理支持根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel 频率的倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum Coeffic

22、ients特点MFCC 比LPCC 更能反映听觉特性,在语音识别系统中有着广泛的应用,是目前公认的性能最好的特征之一Mel-频率目的模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率将频谱转换到基于Mel频标的非线性频谱在Mel频域内,人对音调的感知能力为线性关系如果两段语音的Mel频率差两倍,人在感知上也差两倍Mel-频率公式:频率Mel-频率:- 频率- Mel-频率Mel-频率频率(Hz)MFCC计算过程计算流程DFT帧时域信号线性频谱域Mel滤波器组LogMel谱域DCT对数谱域MFCCMel带通滤波利用

23、D个三角带通滤波器分别与离散谱St(k) 做卷积其中三角滤波器的中心频率和边界频率与相应的Mel频标对齐(带宽在Mel标度上是相等的)倒谱系数计算求出每个频段的对数能量输出三角滤波器的输出最后用DCT将这些系数变换到倒谱域倒谱系数的维数通常取DCT系数的前12维声学特征小结短时平均能量/幅度/功率短时平均过零率线性预测系数(LPC)LPC倒谱特征(LPCC)Mel 倒谱参数(MFCC)提 纲语音识别概况语音信号处理基础知识语音识别技术概述声学特征提取主要识别技术State of the art识别方法对一个语音波形序列,经过短时分帧特征提取,得到特征矢量序列 Y=y1,y2,yN问题提出如何对

24、其建模?如何将其与已经建成的模型比对?长度不一的特征序列又如何去时间对准?语音识别常用模式匹配方法动态时间规整(DTW)矢量量化(VQ)隐马尔科夫模型(HMM)时延神经网络(TDNN)模糊逻辑算法动态时间规整(DTW)动态时间规整语音识别模式匹配的问题时间对准同一个人在不同时刻说同一句话、发同一个音,也不可能具有完全相同的时间长度语音的持续时间随机改变,相对时长也随机改变方法1:线性时间规整均匀伸长或缩短依赖于端点检测通过时域分析进行,利用能量、振幅和过零率等特征缺点:仅扩展时间轴,无法精确对准方法2:动态时间规整DTWDynamic Time WarpingDTW的基本思想一种非线性时间规整

25、模式匹配算法将时间规整与距离测度结合起来,采用优化技术,以最优匹配为目标,寻找最优的时间规整函数w(i),从而实现大小(长短)不同的模式的比较DTW的DP实现j=i/2j=2ij=w(i)ij动态时间规正的动态规划实现算法动态规划搜索区域约束平行四边形j=2ij=i/2路径限制W斜率0,1,2Dc(k)=dc(k) + minDc(k-1)DTW适用场合特定人、基元较少的情况多用于孤立词识别DTW的问题运算量较大识别性能过分依赖于端点检测太依赖于说话人的原来发音不能对样本作动态训练没有充分利用语音信号的时序动态特性DTW评价矢量量化(VQ)VQ在语音分析中的应用进入80年代以后,VQ技术引入语

26、音处理领域,推动了语音技术发展,使之有了长足的进步目前这项技术已经用于:语音识别语音波形编码线性预测编码VQ基本概念标量量化均匀非均匀矢量/向量量化VQVector QuantizationVQ就是将某一区域(范围)内的矢量归为某一类矢量量化的基本要素聚类(Cluster)量化(Quantization)123-3-2-1上图的两维矢量空间里,存在6类矢量,每一类都有一个中心,称为室心(xi, yi),每一室心对应一个码字矢量Vi=(xi, yi),表征第i类矢量。集合Vi称为码本(codebook)。VQ基本原理VQ基本原理任意一个矢量V应该归为哪一类,要看它是“靠近”哪一类矢量,或者说它离

27、哪一个室心最“近”例如上图中虚线画出的矢量V最靠近V1,则将其规定为V1类,并用V1表示V,或者说V被量化为V1 把本来无限多的矢量只用有限个码字矢量来表示上例中为6个(只需要不到3个bits表示)假如码本中的码字矢量是有序的,则被量化的矢量可用码字序号来表示,从而大大压缩信息存储量VQ基本原理VQ技术包含两个步骤先要生成码本,这是将语音的特征矢量空间首先进行划分的过程即聚类将语音参数序列作为矢量,参照码本进行归类的过程即量化在语音处理中通常把一帧(短时窗)语音对应的特征参数(LPCC,MPCC)用矢量表示,并称为特征矢量或特征向量聚类算法码本最小失真映射训练矢量集输入矢量编码将训练矢量集TV

28、S中的T个矢量用聚类算法,在总体失真最小的情况下划分为N个子类,在每类的中心设置一个码字,共得N个码字,组成一个码本在已有码本的情况下,将矢量V(t)与码本Vi对照,按照最小失真原则去寻找与之最近邻关系的码字矢量Vk,并用其代表V(t)量化器的量化失真当把x量化为y后,它们之间存在一个量化失真或称距离度量d(x, y)一个量化器VQ()称为最优的,如果它是所有量化器中平均/期望量化失真最小的: 其中|X|表示集合X中元素的个数。 VQ应用在实际的实现中,某一向量x对某一码本CB量化成CWi后,为运算方便,只用该码字在CB中的编号i来表示量化结果。这样,VQ可以表示为:VQ训练聚类聚类(Clus

29、tering)是矢量量化(Vector Quantization)技术首先要解决的问题聚类就是把一个D维的欧氏矢时空间划分为M个区域,这M个区域分别由其中心矢量表征这个过程需要一个由大量的矢量构成的样本集,经过统计实验后确定出M个中心矢量,这一过程叫做“训练”或“建立码本”,也就是我们所说的聚类过程这M个中心矢量通常称为一个大小为M的码本(Codebook),每个中心矢量都称为一个码字(Codeword).聚类算法(1)K-均值法一种递归的聚类算法。把训练矢量集xn:1nN聚成K类Ck,有下面四个步骤:步骤1:初始化 设递归深度r=0用一种适当的方法选一个初始码本矢量集合 步骤2:分类 把训练

30、集中的每个x分到距离其最近的类中(最近邻准则):聚类算法(1)K-均值法步骤3:产生新码本 令r r + 1,重新计算每一类的均值 以此作为新的码本矢量,并计算所有训练矢量的当前r时刻总失真度D(r),例如:步骤4:迭代结束判断如果D(r)比D(r-1)下降百分比达到某一阈值(或D(r) 低于某个阈值)则停止,否则转步骤2 聚类算法(1)K-均值法优点简单,易于实现这种方法可以通过修改码本降低总失真度缺点必须指定K只能得到局部最优解,不能保证全局最优最终结果很大程度上取决于初始码本的位置因此可以用不同的初始值做多次聚类,并从中选一个总失真度最低的(最好的)码本。 聚类算法(2)LBG算法这是由

31、Stanford大学的Linde, Buzo和Gray等人提出的一种聚类算法,因此人们泛称这种码本生成算法为LBG算法 这种算法一般假定码本大小固定通常为2的幂码本开始很小,然后不断扩大,直到达到要求一般通过把一个已存在的分类分裂成两个小类,并给每个小类以新的码字初值 LBG算法基本步骤步骤1:将整个训练集作为一个初始类初始码本只有一个码字,即整个训练集的质心,如下页图(a) 。步骤2:将该类分裂为两个子类,结果码本大小增大一倍如下页图(b)、(c)。步骤3:重复这种“聚类分裂”过程,直到码本大小达到要求,如下页图(d)、(e)。LBG算法基本思路2D情形下LBG算法图示:(a)整个训练集的中

32、心。(b)把该唯一码字分裂成两个初始码字估计。(c)把训练集按这两个码字聚类形成两个更好的码字。(d)把这两个码字分裂形成四个初始码字估计。(e)把训练集按这四个码字聚类形成四个更好的码字。 隐马尔可夫模型HMM方法HMM在语音识别中的应用70年代初期,HMM出现在Baum等人的文章中70年代中后期,HMM被CMU的Baker等人,IBM的Bakis、Jelink等人引入语音识别领域80年底初,Bell Lab的Rabiner等人提出了这一方法用于非特定人的语音识别中80年代末,李开复等人在CMU将其用于连续语音识别中HMM成为语音识别中一种很有效的技术,它不仅能用来作为(以音素、音节或词为单

33、位的)语音产生的声学模型,而且能作为词法、语法、语义等高层次的语言模型,在很多领域都取得很大的应用。Markov模型 Andrei A. Markov Russian statistician 1856 1922Markov Model有N个可观测状态S1,S2,SN存在一个离散的时间序列t=0,1, , T及观测序列q1,q2,qT一阶马尔可夫假设当前状态qt只与前面相邻的一个状态qt-1有关,与其他状态无关s1s2s3一阶MM示例11/21/21/32/3一阶Markov Model形式化Markov Model 状态转移矩阵A初始概率下雨多云晴天0.30.20.60.40.20.10.3

34、0.10.8 下雨-状态1-R 多云-状态2-C 晴天-状态3-S一阶Markov Model实例例子问题给定上述的一阶MM:今天是晴天,从今天开始连续8天的天气状况为“晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天”的概率是多少?计算P(SSSRRSCS| )晴天晴天晴天下雨下雨晴天多云晴天0.80.80.10.40.30.10.2马尔可夫链规则基本条件概率公式P(A,B)=P(A|B)P(B)马尔可夫链规则例子晴天晴天晴天下雨下雨晴天多云晴天0.80.80.10.40.30.10.2例:连续保持某状态的概率例子连续5天晴第6天阴/雨的概率是多少?形式化为连续d个时间单位内保持某状态Si,而

35、到d+1时刻状态改变的概率例:连续保持某状态的概率问题平均的连续晴天时间是多少天?平均的连续雨天时间是多少天?平均的连续阴天时间是多少天?抽象求连读d天保持某状态i的期望雨天:1/(1-a11)=1/(1-0.4)=1.67天阴天:1/(1-a22)=1/(1-0.6)=2.5天晴天:1/(1-a33)=1/(1-0.8)=5天ReviewMel频率MFCCDTWVQK-均值LBGMMj=i/2j=2ij=w(i)ij动态时间规正的动态规划实现算法下雨多云晴天0.30.20.40.20.10.30.10.80.6MMHMMMM状态可见,状态即观测结果HMM状态不可见,但状态之间的转移仍然是概率

36、的观测/输出结果是状态的概率函数 举例:从罐子里取色球问题举例N个罐子,内装各种颜色的球共有M个不同颜色的球每个罐子装的球的颜色分布可能不同序列产生过程1. 随机选择一个初始罐子2. 从选中的罐子中随机取一个球,然后放回3. 根据一个与当前罐子有关的随机过程再选择一个罐子4. 重复2和3两个序列【隐】状态序列罐子编号序列:1112213332.观测序列色球:黄绿蓝黄黄绿绿蓝.HMM分类根据观察输出函数是基于VQ、连续密度还是二者的综合,HMM又分为:离散HMMDHMM, Discrete HMM连续密度HMMCDHMM, Continuous Density HMM, 简称CHMM半连续HMM

37、 SCHMM, Semi-Continuous HMMHMM基本要素1. 状态Sl (l=1, 2, , L)所有状态构成了状态空间xn表示n(=1,2, N)时刻系统所处的状态xnS1, S2, , SL2. 初始状态概率=(1, 2, L) 表示1(初始)时刻系统处于状态Sl的概率HMM基本要素3. 状态转移矩阵A =aijLxLaij表示 n时刻系统处在Si状态下,n+1时刻系统转移到Sj的概率(一步转移概率)给定A,对长度为N的输出,系统可能产生LN 种互异的有限的状态序列,任何一种状态序列X=(x1, x2, , xN)的出现概率可写成:12LHMM模型基本要素4. 观察矢量序列Y=

38、(y1, y2, , yN)任意时刻n,系统的状态xn隐藏在系统内部,外界只能得到一个观察矢量yn假设yn具有离散分布n时刻系统处于Sl状态下,观察矢量yn的概率分布函数为假设yn具有连续分布n时刻系统处于Sl状态下,观察矢量yn的概率密度函数为Pr和p只取决于Sl,可直接用 或 表示有L个状态:对应L个概率密度函数或 L个概率分布函数以后用P表示Pr或pHMM基本要素DHMM基本要素HMM模型可以用=(, A, B)来表示初始概率,A状态转移概率,B观测输出概率观测矢量序列HMM系统从n=1时刻运行到N时刻,给出有N个随机向量的向量序列Y=(y1, y2, yN)一个HMM产生Y的概率由,

39、A, B三者决定由全概率公式,对所有可能状态序列X的积分(求期望)1.00.50.50.30.70.40.61 2 3 4 5 6 7 8 0.50.51 2 3 4 5 6 7 8 0.40.61 2 3 4 5 6 7 8 0.40.61 2 3 4 5 6 7 8 0.10.70.2状态转移观测输出HMM举例4个状态,8个VQ码字,单链的拓扑结构对应例子:4个罐子,8种颜色球初始状态概率到达出发A码字状态B状态转移概率矩阵观测输出概率HMM的三个基本问题问题1:Training Problem (训练/建模问题) 输入训练集:包含某个随机过程(对应某HMM)N个观测矢量序列Y(m)|m=

40、1,N优化目标调整模型参数 =(, A, B),使得该HMM产生训练集中所有观测矢量序列概率的(算术或几何或某种)平均值(期望)最大HMM的三个基本问题问题2: Evaluation Problem (估计问题) 输入一个HMM模型 =(, A, B)一个观察矢量序列Y(如:待识别语音特征串)问题/目标如何计算HMM模型产生该观测序列Y的概率P(Y|)?该问题的解决可以用于根据观察序列,计算每个模型的得分,从而实现对未知语音的识别,适用于孤立词识别系统HMM的三个基本问题问题3:Hidden State Sequence Uncovering Problem (状态序列选择问题) 输入给定一个

41、观察矢量序列Y一个HMM模型=(, A, B)目标如何选择在某种意义下最优的状态序列(S1, S2, , SN)?也称为解码/识别问题,其解决使HMM在连续语音识别中发挥作用X*=HMM三个基本问题的求解问题1:训练问题 根据已知观测集合确定模型参数Baum-Welch算法问题2:估计问题根据已知模型求未知观测似然度Forward-Backward算法问题3:最优状态序列求解问题根据已知模型求对应观测序列的最优状态序列Viterbi算法 具体算法从略,有兴趣同学可参考有关资料语音信号与HMM语音信号的短时平稳假设特征序列可以分成若干段(状态)e.g., 每个段对应一个音素(声母,韵母)在每个状

42、态内观测特征服从相同的分布可以用两个过程去刻画【隐藏的】状态之间的转移【可见的】在特定状态下的特征输出HMM的两个基本假定问题简化的数学模型当前状态只与前一状态有关,而与更早的状态无关(无后效性或马尔可夫性)一阶马尔可夫链当前状态下的输出只与当前状态有关,而与其他任何状态均无关状态间输出的独立性HMM的三个基本问题求解的应用问题1:Training Problem输入:给定每个基元(如:音素, 字, 词)的m个训练样本(表示为m个特征矢量序列,如LPCC系数)目标:学习得到每个基元的HMM模型问题2: Evaluation Problem (估计问题)输入: 某测试样本Y(特征矢量)目标: 给

43、出每个基元HMM模型产生Y的(期望)似然概率问题3:解码问题/状态序列选择问题输入: 给定某测试样本Y(比如某个音节)目标: 给出HMM模型产生Y的似然概率最大的状态序列/路径(比如音素序列 t i an),即音节tianHMM用于孤立词识别训练过程为每个待识别词汇建立一个HMM模型HMM用于孤立词识别计算观察特征矢量序列Y与任意一个模型h1, 2, , H之间的匹配得分 * = argmax P(Y| h)h 对应的就是*识别结果。两种似然概率计算方法解决估计问题的Baum-Welch算法遍历所有可能的状态路径解决状态解码问题的Viterbi算法只求取似然概率最大的那条状态路径两种似然概率计算方法比较对基于HMM的孤立词语音识别系统,上述两种计算方法都可以用来计算观察矢量对HMM模型的概率,它们的性能大致相同前者把可能产生观察矢量的所有状态序列对应的概率都包括了(期望)后者则是求产生观察矢量的最大似然状态序列对应的概率,因而是一种动态匹配的过程,它在观察序列与模型状态之间求得一种最佳匹配由于Viterbi算法可将概率对数化,从而将浮点乘法化为定点加法,大大加快了识别速度,所以基于HMM的系统多采用Viterbi算法进行识别HMM连续语音识别一般过程1. 前向后向算法计算P(O|) ;2. Baum-Welch 算法求出最优解 *= argmax P(O|);3. Vi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论