语音识别概论_第1页
语音识别概论_第2页
语音识别概论_第3页
语音识别概论_第4页
语音识别概论_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音识别技术 谢 湘 博 士 北京理工大学电子工程系 现代通信实验室 2003-12-02北京理工大学2 提 纲 一、语音识别技术概论 二、语音识别生理分析与系统设计 三、语音识别系统举例 四、关键技术声学特征提取 五、关键技术HMM 六、汉语语音识别特点 七、参考文献及作业 2003-12-02北京理工大学3 1.1语音识别学科特点 计算机学科 计算机智能接口 信息处理学科信息识别及提取 通信及电子系统信源处理 人工智能时序模式、多维模式识别 声学、生理学、心理学、语音学、语言学 “语音研究工作者应当努力工作在跨学科的领域” 2003-12-02北京理工大学4 1.2语音识别应用价值 信息查

2、询(股票、天气、航班) 人机界面(新一代操作系统、智能家居) 听写机(文字输入、记录) 数据库管理(语音检索) 语音识别(提取或匹配语义)、语音压缩(高效 存储、传输语音信号)、语音合成(输出自然 可懂的语音信号)、语音增强(提高信噪比、 加重语音成分)息息相关。 说话人识别(安全应用) 关键词检出(多媒体数据检索) 2003-12-02北京理工大学5 1.3语音识别系统分类及典型系统 孤立词连接词连续语音自然语音 特定人非特定人 词汇量(小、中、大) IBM ViaVoice 听写机 AT()( jjttj oNob 高斯分布假设: 2003-12-02北京理工大学37 )( 53 ob 2

3、003-12-02北京理工大学38 似然概率计算 X T t txtxttxxx aobaMOP 1 ) 1()()() 1 ()0( )()|( 遍历所有可能的状态路径,状态“软”分配,计算量2TNT 只用似然概率最大的那条状态路径,状态“硬”分 配 2003-12-02北京理工大学39 HMM的三个基本问题 评估问题根据已知模型求未知样本似然度 Forward-Backward算法 最优路径搜索、状态序列分割问题 Viterbi算法 训练问题 (根据已知观测确定模型参数) Baum-Welch算法 以下讨论假设HMM有N个状态,第1和第N个状态为空状态。 2003-12-02北京理工大学4

4、0 Forward算法 前向概率 初始条件 2 S 3 S 1N S j S t o 1t o t-1 t aij 2003-12-02北京理工大学41 Forward算法 运算量: (N-2)(N-1)T 次乘法 2003-12-02北京理工大学42 Backward算法 2 S 3 S 1N S i S t o 1t o t t+1 ai2 ai3 aiN-1 2003-12-02北京理工大学43 Backward算法 运算量: 2(N-2)(N-2)T 次乘法 2003-12-02北京理工大学44 前向概率与后向概率的关系 1 2 1 2 )()( )|)(,()|( N j jj N

5、j tt MjtxPMP OO 2003-12-02北京理工大学45 Viterbi搜索 2003-12-02北京理工大学46 Viterbi搜索 2003-12-02北京理工大学47 Viterbi搜索 2003-12-02北京理工大学48 训练问题:Baum-Welch算法 如果N=3 (单状态 j),问题简化 2003-12-02北京理工大学49 训练问题:Baum-Welch算法 N3, 多状态情况 t时刻位于第j个状态的概率 2003-12-02北京理工大学50 训练问题:Baum-Welch算法 2003-12-02北京理工大学51 训练问题:Baum-Welch算法 (1)初始化

6、A, B; (2)计算每个状态j、每个时刻t的前后向概率; (3)计算Lj(t),估计一组新参数A,B,并求出 P(O|M); (4)如果P(O|M)不再增加,则停止迭代,否则 继续(2)。 2003-12-02北京理工大学52 连续语音识别 基本识别单元通过空状态互相连接。 搜索空间更为巨大,更适合采用Viterbi搜 索算法。 基本识别单元的选取问题 2003-12-02北京理工大学53 HMM训练优化准则 最大似然ML准则(Maximum Likelihood) 最大互信息MMI准则(Maximum Mutual Information) 最小区分信息MDI准则(Minimum Disc

7、riminative Information) 最小误识率MEE(Minimum Emperior Error)准则 (又称区分训练 Discriminative Training) 最大后验概率MAP准则(Maximum A Posterior) 2003-12-02北京理工大学54 M m jmjmtjmtj cb 1 ),;()(oo 离散HMM(DHMM) 采用离散概率输出的HMM和VQ相配合,将ot经过矢量量化后, 输出相应VQ码本中码字的离散概率。 连续密度HMM(CDHMM) GMD-CDHMM 半连续HMM(SCHMM) 相当于离散HMM和连续HMM的混合。状态输出的特征向量是

8、 连续的,也是用多个高斯分布的加权和来近似概率分布函数, 但是用来作加权和的高斯函数的集合是固定的,类似于对高斯 密度函数建立了“码本”,各个状态输出概率密度之间不同的 是对“码本”中各个高斯密度函数的加权系数。 HMM分类 2003-12-02北京理工大学55 6. 汉语语音识别的特点 汉字是汉语的最小语言单位,所有的汉 字的发音都是单音节(monosyllable) 有调语言(tonal language) 多音字与同音字:语言模型更为重要 自成一体的发音体系: “C-V”和“C-V- C” 儿化、变调等特有的语言现象 2003-12-02北京理工大学56 汉语语音建模基元比较 建模基元建模基元 模型数目模型数目 可训练性可训练性 稳定性稳定性应用情况应用情况 音节约400个一般好较普遍 声韵母约60个较好较好很普遍 音素约40个好一般较少 2003-12-02北京理工大学57 7. 参考资源 近代语音识别,陈尚勤,电子工业出 版社,1991 / Rabiner L, Juang B H. Fundamentals of Speech RecognitionM. Eag

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论