




已阅读5页,还剩114页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章 语音识别(speech recognition) 6.1 语音识别技术的一般概念 6.2 语音识别的原理和识别系统的组成 6.3 动态时间规整动态时间规整DTWDTW 6.4 基于统计模型框架的识别法基于统计模型框架的识别法( (HMMHMM) ) 6.5 说话人识别 6.6 语种辨识 1 1 6.1 语音识别技术的一般概念 一、语音识别的定义 二、语音识别的应用 三、语音识别的类型 四、语音识别的方法 五、语音识别的主要问题 2 2 一、语音识别的定义 语音识别是指从语音到文本的转换,即让计算 机能够把人发出的有意义的话音变成书面语言。通 俗地说就是让机器能够听懂人说的话。 所谓听懂,有两层意思,一是指把用户所说的 话逐词逐句转换成文本;二是指正确理解语音中所 包含的要求,作出正确的应答。 3 3 二、语音识别的应用 语音识别技术是以语音为研究对象,涉及到生理 学、心理学、语言学、计算机科学以及信号处理等诸 多领域。 随着语音识别技术的逐渐成熟,语音识别技术开 始得到广泛的应用,涉及日常生活的各个方面如电信 、金融、新闻、公共事业等各个行业,通过采用语音 识别技术,可以极大的简化这些领域的业务流程以及 操作;提高系统的应用效率。 4 4 1. 语音打字机:用口述代替键盘来实现向计算机 输入文字和服务。 2. 数据库检索:对庞大的数据进行繁杂的检索和 查询,通过使用语音识别技术,将变得轻松、方便。 3. 特殊的环境所需的语音命令:用语音发出操作 指令。 几个简单的语音识别应用实例 5 5 多语种信息 自动翻译系统 i 20062006年奥运会多语言需求年奥运会多语言需求 6 6 采用语音识别和语音合成技术,能与客户进行交 互式对话,帮助客户找到他们所需要的商品。一个动 作传感器可以启动系统,询问顾客“需要我帮你寻找 什么吗?”如果顾客回答说“我在找面包。系统将会 告诉顾客:“面包在第11过道,就是直接往前第3个 过道,我们今天有WHEATIO面包特惠,需要我为您打 印一张优惠券吗? 语音识别用于商场导购 7 7 德国西门子公司推出的一种新洗衣机,洗衣物非 常专业,知道为什么样的脏衣物选择合适洗涤程序和 洗涤剂,而主人只需要口头命令即可,比如 “半个 小时后再洗”。 与普通洗衣机的不同之处是安装了语音识别芯 片,能根据用户的语音指令确定洗涤程序。 语音识别用于家用电器 8 8 语音识别科技走入人类未来生活 下班回家,你踏入家门。 “开灯!” 灯很听话,自动亮了。 “开冷气!” 冷气听话,启动了。 你想到即将准备晚餐:“开厨房的灯!” 厨房的灯,也很听话。 9 9 三、语音识别的类型 1.以所要识别的对象来分,有: (1)孤立词识别(字或词间有停顿,用于控制系统) (2)连接词识别(十个数字连接而成的多位数字识别 或由少数指令构成词条的识别,用于数据库查询、电 话和控制系统) (3)连续语音识别和理解(自然的说话方式) (4)会话语音识别(识别出会话语言) 1010 2.根据识别的词汇量来分,有: (1)大词汇(1000个以上的词汇,如会议系统) (2)中词汇(201000个词汇,如定票系统) (3)小词汇(120个词汇,如语音电话拨号) 3.根据讲话人的范围来分,有: (1)单个特定人 (2)多讲话人(有限的讲话人) (3)与讲话者无关 1111 四、语音识别的方法 1.模板匹配法 在训练阶段,用户将词汇表中的每一词依次说一 遍,并且将其特征矢量作为模板存入模板库。 在识别阶段,将输入语音的特征矢量依次与模板 库中的每个模板进行相似度比较,将相似度最高者作 为识别结果输出。 1212 特征矢量LPC倒谱c(n) 语 文 学 音 wen 模板库 1313 由于语音有较大的随机性,即使同一个人在不同时 刻的同一句话发的同一个音,也不可能具有完全相同 的时间长度,因此时间伸缩处理是必不可少的。 DTW用满足一定条件的时间规整函数,描述待识别 模式和参考模板的时间对应关系,求解两个模板匹配 ,就是累积距离测度最小对应的规整函数。 DTW(Dynamic Time Warping) 动态时间规整 1414 2.随机模型法 采用HMM模型,使用概率参数来进行估计和判决。 无声 段 鼻音 段 声母 辅音段 元音 段 送气 段 前过 渡段 后过 渡段 ( (1)发音的各个段构成相应的状态。 (3)基本单元发音速率(停留时间和转移时间)对应状 态转移概率(0.5)。 (2)声学变化(LPC倒谱)对应输出序列,概率分布成 混合高斯密度函数。 1515 A2 用HMM实现连续语音识别的框架 音子a音子b 特征 矢量 音子a 字 A1 句子 A1 P(A1) P(A2/A1) sa1sa2sa3sa4sa5 BEGIN 1616 句法层:每个句子由若干字构成,每个字都选自于 字库。 字层:每个字由音子串接而成,需要一个数据库来 描述每一个字如何用音子串接的。 语音层:每个音子用一个HMM模型及其相应的参数 来描述(状态及其状态间的转移)。 声学层:提取语音帧特征矢量。 1717 1.对自然语言的识别和理解。首先必须将连续的 讲话分解为词、音素等单位,其次要建立一个理 解语义的规则。 2.语音信息量大。语音模式不仅对不同的说话人 不同,对同一说话人也是不同的,例如,一个说 话人在随意说话和认真说话时的语音信息时不同 的。一个人的说话方式随着时间变化。 五、语音识别的主要问题 1818 3.语音的模糊性。说话者在讲话时,不同的词可能 听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响, 以致改变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响,致使识 别率低。 19 语音识别的一些问题 - 食之无味,弃之可惜 - 不少从事Speech Recognition的人改行 - 永远做不好,永远有的做 一分钟现象一分钟现象 从技术人员演示从技术人员演示 到实际参观者或用户试用到实际参观者或用户试用 户对系统的评价基本在一分钟内完成户对系统的评价基本在一分钟内完成 一般的过客用户很少有耐性去学会如一般的过客用户很少有耐性去学会如 何使用何使用 20 6.2 语音识别原理和识别系统的组成 一、语音识别的步骤和框图 二、预处理 三、语音特征参数的提取 四、模式匹配 2121 1.根据识别系统的类型选择能满足要求的一种识别 方法,采用语音分析技术预先分析出这种方法所要 求的语音特征参数,这些语音参数作为标准模式由 计算机存储起来,形成标准模式库,称为模板。这 个过程称为“学习”和“训练”。在某些识别系统 中,还备有专家知识库,其中存放由语言学家的各 种知识,如同音字判决规则、语法规则、语义规则 等。 一、语音识别的步骤 2222 2. 识别:将输入语音进行处理,提取特征参数, 和模式库中的模板进行比较匹配,作出判决。 预处理 语音特征 参数分析 失真测度 计算 识别决策 标准 模板 专家 知识 模式匹配 语音识别的框图 2323 语音信号的放大、防混叠滤波、自动增益控制、 模数转换、消除噪声、端点检测。 二、预处理 端点检测:从包含语音的一段信号中确定出语音 的起点和终点。有效的端点检测不仅能使处理的时 间减到最小,而且能排除无声段的噪声干扰。实验 表明:端点检测的正确与否影响到识别率的高低。 语音端点检测的方法:短时能量和短时过零率。 2424 2525 特征参数和识别方法有关系,是语音识别的关键 之处,选择的好坏直接影响语音识别的精度。 语音特征参数包括:短时平均能量、短时过零率 、频谱、三个共振峰频率(F1、F2、F3的频率值、带 宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱等。 三、语音特征参数的提取 2626 将未知语音的特征参数与模板参数逐一进行 比较与匹配,判决的依据是失真测度最小的准则 。 语音识别的测度有很多,欧氏距离测度及其变 形、线性预测失真测度等。 四、模式匹配 2727 欧氏距离测度 K维特征矢量: Xixi1 , xi2 , , xiK Yjyj1 , yj2 , , yjK 1.均方误差欧氏距离 2828 2.绝对值平均误差 3.加权欧氏距离测度 2929 码字 (K=6,Y ) 123456766 输入特 征矢量 (k=6,X ) 133467666 绝对值平均误差绝对值平均误差: : d d1 1 (x,y)(x,y)(0+1+0+0+1+1+1+0+0)/6=4/6(0+1+0+0+1+1+1+0+0)/6=4/6 3030 先对系统中的每个字,做一个码本作为该字 的参考(标准)模板,共有M个字,故共有M个码 本,组成一个模板库。 识别时,对于任意输入的语音特征矢量序列X X1 , X2 , , XN,计算该序列中每一个特 征矢量对模板库中的每个码本的总平均失真量误 差,找出最小的失真误差对应的码本(代表一个 字),将对应的字输出作为识别的结果。 模式匹配过程 3131 特征矢量序列 XX1 , X2 , , XN 模板库 Y1 , Y2 , , YM 特征矢量 序列形成 任意 语音 帧 X 码本 Y1 Y2 YM 计算 失真误差 判决 输出结果Yi 每一个字做一 个码本,共M个字 模板库 3232 X1 , X2 , , XN 模板库 语 码本 Y1 ,Y2 ,YN 学 码本 音 码本 文 码本 wen 3333 用来存储各种语言学知识,如汉语声调变调规则 、音长分布规则、同音字判别规则、构词规则、语法 规则、语义规则等。对于不同的语言有不同的语言学 专家知识库。 专家知识库 判决是语音识别的最后一步,也是系统识别效果 的最终表现。根据若干准则及专家知识,判决选出可 能结果中最好的结果,由识别系统输出。 3434 6.3 动态时间规整 一、动态时间规整的提出 二、动态时间规整的定义 三、动态时间规整的原理描述 四、动态时间规整的应用 3535 一、动态时间规整的提出 语音信号具有很强的随机性,不同的发音习惯 ,发音时所处的环境不同,心情不同都会导致发音 持续时间长短不一的现象。如单词最后的声音带上 一些拖音,或者带上一点呼吸音,此时,由于拖音 或呼吸音会被误认为一个音素,造成单词的端点检 测不准,造成特征参数的变化,从而影响测度估计 ,降低识别率,因此在语音识别时,首先有必要对 语音信号进行时间规整。 3636 X1 , X2 , , XN 模板库 语 码本 Y1 ,Y2 ,YM 学 码本 音 码本 文 码本 wen 特征矢量按发音的时间顺序提取 3737 二、动态时间规整的定义 一次正确的发音应该包含构成该发音的全部音 素以及正确的音素连接次序。 其中各音素持续时间的长短与音素本身以及讲 话人的状况有关。为了提高识别率,克服发同一音 而发音时间长短的不同,采用对输入语音信号进行 伸长或缩短直到与标准模式的长度一致。这个过程 称为时间规整。 3838 三、动态时间规整的原理描述 60年代由日本学者提出,算法的思想是把未知 量伸长或缩短(压扩),直到与参考模板的长度一致 ,在这一过程中,未知单词的时间轴会产生扭曲或 弯折,以便其特征量与标准模式对应。 3939 DTW 是把时间规整和距离测度计算结合起来。测 试语音参数共有I帧矢量,而参考模板共有J帧矢量, I和J不等,寻找一个时间规整函数j=w(i),它将测试 矢量的时间轴i非线性地映射到模板的时间轴j上,并 使该函数w(i)满足: 原理描述 第i帧测试矢量T(i)和第j帧模 板矢量R(j)之间的距离测度 最优时间规整情况下所有矢量帧间的距离, 代价函数 4040 计算两倒谱矢量帧(i和j) 间的欧氏距 离,两矢量帧中分别具有p个倒谱参数。 4141 A B j i j i 时间规整函数 j=w(i) 为了使T(测试)的第i个样本与R(参考)的 第j个样本对正,其对应的点不在直线对角线上, 得到1条弯曲的曲线。j=w(i)称为规整函数。 4242 不同音长的匹配距离(D3D2) 待测模式T参考模式R tt t t 线性匹配 D2(T,R) 非线性匹配 D3(T,R) 43 时间规整的依据 设 T=a1 , a2 , , ai , , aI i=1I R=b1 , b2 , , bj , , bJ j=1J IJ 时间规整要解决的问题是使元素a和元素b之间匹 配,使每对匹配样本之间的差别最小,达到欧氏距离 最小。 44 时间规整就是按照两模式之间的所有矢量帧间的 距离最小(D,代价函数最小)的原则,不断计算两模 式间的距离,以寻找最优的路径,一般应使规整函数 w(i)满足下列条件:规整函数w(i)在A和B的端点必 须匹配,有: 起点:i(k)=j(k)=1 终点:i(k)=I j(k)=J 为了防止漫无目的从(1,1)搜索到(I,J),因此对 两点之间路径的斜率予以规定,最大为2,最小为 1/2。 时间规整过程 4545 i j J I 1 1 (1,1) (I,J) j-J=(i-I)/2 j-J=2(i-I) j=i/2 j=2i 全局最优 4646 动态时间规正法(DTW)的具体解法-行进方向 ck=(i,j) (i,j-1)(i-1,j-1) (i-1,j) (i-2,j-1) (i-1,j-2) i j W(1,1)(0,1)=2*1 W(1,1)(1,0)=2*1 W(1,1)=2 2 2 2 1 1 47 2 1 2 2 1 行进方向的另一种解释 48 由规定的行进方向可知在任意一点(i,j),其 g(T(i),R(j)=g(i,j)(代价函数值)可由它前面的点 g(i-1,j-2)或g(i-1,j-1)或g(i-2,j-1)按下式计算 : 最佳匹配失真测度/距离 D(T,R)= g(I,J)/(I+J) 49 d(T(i),R(j) ) d(T(i),R(j-1) g(i-1,j-2) i j 2 1 g(i,j) 50 g(i-1,j-1) i j 2 d(T(i),R(j) ) g(i,j) 51 d(T(i),R(j) d(T(i- 1),R(j) g(i-2,j- 1) i j 2 1 g(i,j) 52 每一个点的总代价函数是前一点总代价函数和 到达该点的代价函数之和的最小值。 总代价函数 时间规整,它把1个k个阶段的决策,化为单个k 个阶段的决策过程,这种决策过程称为动态规划计 划。 53 动态时间规正法(DTW)的计算实例1 设待识语音模式为T=acc, 参考模式为R=cbac, 若a、b 、 c之间的距离分别为 d(a,b)=d(b,a)=2、d(a,c)=d(c,a)=3、 d(b,c)=d(c,b)=1、d(a,a)=d(b,b)=d(c,c)=0 试用DTW法,在点阵图上画出最佳匹配路径 ,并计算出最佳匹配距离D(T,R)。 54 2 acc a c b c R 31 i j 1 2 3 4 (c,c ) (a,c ) g(3,4) g(1,1)=d(a,c)=3 标号 标号 55 2 ac c a c c b R 31i j 1 2 3 4 (c,c) (a,c) g(2,2) g(2,3) g(1,3) g(3,4) 2 2 2 56 2 ac c a c c b R 31i j 1 2 3 4 (c,c) (a,c) g(1,3) 57 2 ac c a c c b R 31i j 1 2 3 4 (c,c) (a,c) g(2,2) d 58 2 ac c a c c b R 31i j 1 2 3 4 (c,c) (a,c) g(2,3) R R g(1,2) 59 2 ac c a c c b R 31i j 1 2 3 4 (a,c) g(1,3) g(3,4) 60 j 时间规整 函数 j=w(i) i 231 1 2 3 4 D(T,R)= g(I,J)/(I+J)=g(3,4)/(3+4)=5/7 61 T(i)=1 2 3 4 1 2 3 4 1 2 4 R(j)=1,2,4 (4,4) g(4,3) (1,1) g(1,1) 动态时间规正法(DTW)的计算实例2 g(3,1) g(3,2) g(2,2) 62 T(i) 1 2 3 4 1 2 4 R(j ) (4,4) g(4,3) (1,1) g(1,1) g(2,2) 63 T(i) 1 2 3 4 1 2 4 R(j ) (4,4) g(4,3) (1,1) g(1,1) g(3,2) 64 T(i) 1 2 3 4 1 2 4 R(j ) (4,4) g(4,3) (1,1) g(1,1)g(3,1) 65 T(i) 1 2 3 4 1 2 4 R(j ) 66 1 2 3 4 3 2 1 i j 时间规整函数j=w(i) D(T,R)= g(I,J)/(I+J)=g(4,3)/(4+3)=2/7 67 四、动态时间规整的应用 DTW算法简洁,运算 量小,适合小型的孤立 词的识别。例如语音计 数器,语音呼叫电话等 。 开始 语音采样和量化 端点检测 LPC倒谱分析 DTW的识别算法 语音模板 识别结果输出 6868 6.4 基于统计模型框架的识别法 一、预备知识 (1)条件概率 P(A|B) P(A|B) = P(A,B)/P(B) P(A,B):表示A与B的联合概率。 (2)Bayes定理 P(A|B) = P(B|A)P(A)/P(B) (3)事件的独立性 P(A,B) = P(A)P(B) 6969 二、语音识别问题的形式化描述 设:(1)待识语音的特征模式:T =t1,t2, tI (2)词汇表中第个单词:W(n), 1nN (3)当T 被观察到后,与T 对应的发声内容是 单词 W(n)的概率: P( W(n)|T ) 语音识别问题的形式化描述: k = argmax P( W(n)|T ) n 70 词汇表 W(k), 1kN 参考模式 R(k), 1kN 失真测度 D(T,R(k) DTW距离 判 别 n = argminD 识别结果 W(n) 模式匹配 71 词 汇 表 W(k), 1kN 参考模式 M(k), 1kN 概率测度 P(T|M(k) P:由M(k)生成T的概率 判 别 n=argmaxP(T|M(k) 识别结果 W(n) 统计模型 72 v Baker(CMU)和 Jelinek(IBM)在70年代 早期实现在语音处理上 的应用 隐马尔可夫链(HMM)理论 v Andrei A. Markov v Russian statistician v 1656 1622 马尔可夫链理论 马尔可夫过程 73 马尔可夫模型 P(Ci,Cj) = P(Ci)P(Cj|Ci) P(Ci,Cj,Ck)= P(Ci)P(Cj|Ci)P(Ck|Cj) Ci Cj Ck Cl P(Cj | Ci) P(Ck | Cj) P(Cl | Ci) 一阶马尔可夫过程 74 s1 s2 s3 N=3 t=0 q0=s3 有N个状态,S1,S2SN 下一个时刻所处的状态是随机出 现的。 在每个时刻n,系统只能处于唯一一 个状态。 存在一个离散的时间序 t=0,t=1 当前状态 当前状态qt只与前面相邻的一个 状态qt-1有关,与其他状态无关。 一阶离散马尔可夫模型 75 s1 s2 s3 1 1/2 1/2 1/3 2/3 一阶离散马尔可夫模型 转移概率 76 12 3 a12=0 a21=1/2 a11=0 a32=2/3a13=1 a31=1/3 a33=0 a22=1/2 a23=0 转移概率矩阵 77 下雨多云 晴天 0.3 0.2 0.60.4 0.2 0.10.3 0.1 0.6 下雨-状态1 多云-状态2 晴天-状态3 一阶离散马尔可夫模型 78 晴天晴天晴天下雨下雨晴天多云晴天 0.60.60.10.40.30.10.2 问题:连续6天的天气状况为“晴天-晴天-晴天-下雨- 下雨-晴天-多云-晴天”的概率是多少? 79 tt+1 晴天晴天晴天下雨下雨晴天多云晴天 t-1 马尔可夫链 80 12 3 a12 a21 a22 a11 a23 a32a13 a31 a33 v 每个硬币代表一个状态; v 每个状态有两个观测值: 正面 H 和反面 T; v 每个状态产生H的概率为P(H); v 每个状态产生T的概率为1-P(H) 隐马尔可夫链三个硬币隐马尔可夫模型 81 双重随机过程 - 依存于状态的观察事件的随机性 - 状态转移的随机性 观察序列(H:正面;T:反面): O=o1,o2,oT H,H,T,T 1-a11 1-a22 a22 a11 P(H) = P2P(H) = P1 P(T) = 1-P1P(T) = 1-P2 12 硬币投掷试验模型 82 对比两个模型可见: (1)马尔可夫模型的观测序列本身就是 状态序列; (2)隐马尔可夫模型的观测序列不是状 态序列; 83 一般情况下,只能观察到输出符号序列 (HTTH),而不能观测到状态之间如何转移( 状态转移序列),所以称为隐藏的马尔可夫 模型。 84 球和缸 S1S3S2 可观察:球的颜色,y1y2y3 黄蓝红 隐藏:每次选的缸和缸之间的转移 85 v 状态总数 N; v 每个状态对应的观测事件数 M; v 状态转移矩阵 v 每个状态下取所有观测事件的概率分布 v起始状态 隐马尔可夫模型的参数 86 v 问题一:给定模型参数 和观 测序列 ,如何快速求出在该模型下 ,观测事件序列发生的概率 ? 估计问题 v 问题二:给定模型参数和观测序列,如何找出 一个最佳状态序列? 解码问题 v 问题三:如何得到模型中的五个参数? 学习问题 隐马尔可夫模型的三个基本问题 87 q 估计问题: 前向算法和后向算法 q 解码问题: Viterbi算法 q 学习问题:Baum-Welch算法 如何解决三个基本问题 88 估计问题前向算法 定义前向变量: 表示模型 下,在时刻t,观测事件为Ot,状 态为i的概率。 s1 s2 sN sj 时刻t t+1 a1j a2j aNj 89 State T123 1 2 3 N 2(1) 2(2) 2(3) 2(N) 3(1) 3(2) 3(3) 3(N) 1(1) 1(2) 1(N) 1(3) T(N) T(3) T(2) T(1) 90 三硬币隐马尔可夫模型 0.20.51.0 0.60.5 H T S1S2S3 0.5 0.5 0.6 0.4 0.2 0.6 HMM 模型的例子: 观察符号序列O:HTTH 所有可能的路径: (1) S1-S1-S1-S2-S3 (2) S1-S1-S2-S2-S3 (3) S1-S1-S2-S3-S3 (4) S1-S2-S2-S2-S3 (5) S1-S2-S2-S3-S3 (6) S1-S2-S3-S3-S3 HTT H 91 采用前向算法求解 P(HTTH|)概率 (1)S1-S1-S1-S2-S3 (0.50.2)(0.50.2)(0.50.6)(0.60.5)=0.0012 (2) S1-S1-S2-S2-S3 (0.50.2)(0.50.6)(0.40.5)(0.60.5)=0.0024 (3) S1-S1-S2-S3-S3=0.0016 (4) S1-S2-S2-S2-S3=0.0046 (5) S1-S2-S2-S3-S3=0.0032 (6) S1-S2-S3-S3-S3=0.0126 0.20.51.0 0.60.5 H T S1S2S3 0.5 0.5 0.6 0.4 0.2 0.6 HTT H 92 由于是隐HMM模型,不知输出HTTH时,到底是 经过了哪一条不同状态组成的路径,因此,求HTTH 的输出概率时,将每一种可能路径的的输出概率相 加得到的总的概率值作为HTTH的输出概率值: P(HTTH|)=0.0012+0.0024+0.0016 +0.0046+0.0032+0.0126 93 解码问题Viterbi算法 找一个状态序列,这个状态序列在t时状态为i,并且 状态i与前面t-1个状态构成的状态序列的概率值最大 t+1 s1 s2 sN sj 时刻t a1j a2j aNj 94 )()( )(,max ,max)( 1 11111 11111 121 21 + +- + = = = - tjijt tjttttt qqq ttt qqq t obai obiqjqPooiqqqP oojqqqPj t t d l ld LL LL L L 95 (1)S1-S1-S1-S2-S3 (0.50.2)(0.50.2)(0.50.6)(0.60.5)=0.0012 (2) S1-S1-S2-S2-S3 (0.50.2)(0.50.6)(0.40.5)(0.60.5)=0.0024 (3) S1-S1-S2-S3-S3=0.0016 (4) S1-S2-S2-S2-S3=0.0046 (5) S1-S2-S2-S3-S3=0.0032 (6) S1-S2-S3-S3-S3=0.0126 HTT H 0.20.51.0 0.60.5 H T S1S2S3 0.5 0.5 0.6 0.4 0.2 0.6 最佳路径 96 从S1到S3,并且输出aab,可能的路径有三种: S1S1S2S3 S1S2S2S3 S1S1S1S3 0.30.60.510.60.5=0.036 0.510.40.30.60.5=0.016 0.30.60.30.60.20=0 S1S2 S3 设观察到的输出符号序列是aab。试求aab的输出概率? 97 转移中输出符号的概率P3 HMM包含三个概率矩阵: 每个状态存在的概率矩阵P1 状态之间转移 的概率矩阵P2 98 三、隐马尔可夫模型在语音识别中的应用 1.利用HMM进行孤立字语音识别,每一字必须有一 个HMM模型P1,P2,P3来描述,通过学习和训练来 完成。 字库 语文 学音 语 S1S2S3 99 2.现对一个要识别的未知字语音,首先通过分帧 、参数分析和特征参数提取,取得一组向量序列 X1,X2,XN,N为帧长。 wen X1,X2,XN 发音 100 3.通过矢量量化把X1,X2,XN转化成一组符号 序列(码字)O=o1,o2,oN, oi为码本中的码字 ,这个码本是所有字的一个共同的码本。 X1,X2,XN Y1 Y2 YJ o1,o2,oN 码本 101 4. 用这组符号o1,o2,oN计算在每个HMM上的 输出概率,输出概率最大的HMM对应的孤立字,就 是识别结果。 o1,o2,oN 字库 语 文 学 音 S1S2S3 S1S2S3 S1S2S3 S1S2S3 102 无声 段 鼻音 段 声母 辅音段 元音 段 送气 段 前过 渡段 后过 渡段 ( (1)发音的各个段(稳定段,用一个全极点的 滤波器来描述)构成相应的状态。 (2)声学变化(LPC倒谱)对应输出序列,概 率分布成混合高斯密度函数。 (3)基本单元发音速率(停留时间和)对应状 态转移概率(0.5)。 103 1. 前向后向算法计算P(O|) ; 2. Baum-Welch 算法求出最优解=argmaxP(O|); 3. Viterbi算法解出最佳状态转移序列; 4. 根据最佳状态序列对应的给出候选音节或声韵母 5. 通过语言模型形成词和句子 四、经典HMM语音识别一般过程 104 A2 用HMM实现连续语音识别的框架 音子a音子b 特征 矢量 音子a 字 A1 句子 A1 P(A1) P(A2/A1) sa1sa2sa3sa4sa5 BEGIN 105 判决规 则 VITERBI 计算 VQ 码本 训练 识别 X X:特征矢量的时间序列 O:基于VQ的观察符号序列 HMM(3) HMM(2) HMM(1) O 声学参 数分析 预处理 语音信 号输入 106 6.5 说话人识别 一、定义 二、应用 三、特征选取 四、说话人识别的方法 107107 语音识别系统的任务是准确地识别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- java虚拟机内存模型面试题及答案
- 中国电大考试试题及答案
- 泰语二级考试试题及答案
- 解读语文面试题及答案
- 思想品德考试试题及答案
- 校园保安安全知识培训课件
- 电工操作面试题及答案
- 客房清扫考试题及答案
- 2025年国能铜陵发电有限公司招聘考试试题(含答案)
- 2025年广州市从化区社区专职人员招聘考试笔试试题(含答案)
- 医院科室主任年度目标责任书模板
- 2025年成考考试题目解析及答案
- 2025年足球裁判三级试题及答案
- 2025年特种设备检验检测项目合作计划书
- 安全生产投入费用明细
- 2025年司机三力考试题库及答案
- 2025年甘肃省高考历史试卷真题(含答案解析)
- 奔驰GL350GL450GL550中文版说明书
- 智能微电网应用技术课件
- 光谷华科附小数学试卷
- 学校公文写作培训
评论
0/150
提交评论