连续语音识别中半连续HMM的研究及实现硕士学位论文.doc_第1页
连续语音识别中半连续HMM的研究及实现硕士学位论文.doc_第2页
连续语音识别中半连续HMM的研究及实现硕士学位论文.doc_第3页
连续语音识别中半连续HMM的研究及实现硕士学位论文.doc_第4页
连续语音识别中半连续HMM的研究及实现硕士学位论文.doc_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

连续语音识别中半连续连续语音识别中半连续 HMMHMM 的研究及实现的研究及实现 Research and Implement of SCHMM in CSR 申请清华大学工学硕士学位论文 密级 内部 独 创 性 声 明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其 他人已经发表或撰写过的研究成果 也不包含为获得清华大学或其它教育机构 的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示了谢意 矚慫润厲钐瘗睞枥庑赖 签 名 日 期 关于论文使用授权的说明 本人完全了解清华大学有关保留 使用学位论文的规定 即 学校有权保 留送交论文的复印件 允许论文被查阅和借阅 学校可以公布论文的全部或部 分内容 可以采用影印 缩印或其他复制手段保存论文 聞創沟燴鐺險爱氇谴净 签 名 导师签名 日 期 I 摘 要 SCHMM 作为一种有效的语音识别技术 它充分地吸收了离散 HMM 和连续 HMM 的优点 具有识别精度高搜索速度快等特点 特别是它的码本绑定策略 由于 从全局的角度来共享和调整码本 所生成的码本性能更好 能够有效地反映语 音空间的特征 因此只要少量的码本就能使系统达到较好的性能 大大减轻了 码本计算的复杂性 提高了系统识别的速度 残骛楼諍锩瀨濟溆塹籟 研究内容包括如下几个方面 1 在初始码本生成中引入了随机松弛算法 SCHMM 的初始码本生成是一 个矢量量化的问题 量化的困难是量化结果通常会陷入局部最优 采 用随机松弛算法能够比较好地克服这个缺点 酽锕极額閉镇桧猪訣锥 2 在连续语音训练中 通过减去句子单元信息 克服了Baum Welch算法 训练不同类型句子时发生数据奇异的缺陷 彈贸摄尔霁毙攬砖卤庑 3 改进了 SCHMM 的搜索算法 通过对码本进行剪枝 Beam 剪枝等措施 在保证一定识别率的前提下 大大减少了搜索在时间和空间上的消耗 加快了搜索的速度 謀荞抟箧飆鐸怼类蒋薔 4 实现了一个基于 SCHMM 的连续语音训练和识别系统 关关键键词词 语音识别 半连续 HMM 码本 随机松弛 搜索 II Abstract As an efficient technology of speech recognition Semi Continuous HMM SCHMM integrates the advantages of discrete HMM and continuous HMM and provides a high recognition accuracy and satisfactory speed In particular since the sharing and modification of codebooks in global scope the code binding strategy makes it possible to generate much better codebooks that could describe the feature of acoustic space more accurately In such a case small codebooks can provide satisfactory performance so that the computational complexity is reduced and the recognition speed is increased 厦 礴恳蹒骈時盡继價骚 The key research contains the follows 1 The algorithm of stochastic relaxation is introduced into codebook initialization Codebook initialization of SCHMM is a problem of vector quantification whose trouble is that the quantification result often reaches the local minimal point The introduction of stochastic relaxation overcomes this problem in our experiments 茕桢广鳓鯡选块网羈泪 2 In continuous speech training the disadvantage that Baum Welch algorithm could be thrown into data oddity because of different sentences gives various weights to the estimation is resolved by subtracting sentence information 鹅娅 尽損鹌惨歷茏鴛賴 3 Through codebook selection beam pruning the search algorithm of SCHMM is modified so that the cost of search is reduced in terms of both time and space in case of no accuracy lost evidently 籟丛妈羥为贍偾蛏练淨 4 A continuous speech recognition system based on SCHMM in real world is implemented 預頌圣鉉儐歲龈讶骅籴 目录 III 目目 录录 第一章第一章 概述概述 1 1渗釤呛俨匀谔鱉调硯錦 1 1 语音识别 1铙誅卧泻噦圣骋贶頂廡 1 1 1 语音识别的应用价值 2擁締凤袜备訊顎轮烂蔷 1 1 2 语音识别的理论意义 4贓熱俣阃歲匱阊邺镓騷 1 2 国内外发展状况 4坛摶乡囂忏蒌鍥铃氈淚 1 3 本文主要工作 7蜡變黲癟報伥铉锚鈰赘 1 4 本文内容安排 8買鲷鴯譖昙膚遙闫撷凄 第二章第二章 语音识语音识别别的基本模型的基本模型 9 9綾镝鯛駕櫬鹕踪韦辚糴 2 1 语音识别的基本结构及方法 9驅踬髏彦浃绥譎饴憂锦 2 2 HMM 的基本结构 10猫虿驢绘燈鮒诛髅貺庑 2 3 HMM 的三个基本问题 12锹籁饗迳琐筆襖鸥娅薔 2 4 HMM 的分类 16構氽頑黉碩饨荠龈话骛 2 4 1 DHMM 离散 HMM 17輒峄陽檉簖疖網儂號泶 2 4 2 CHMM 连续 HMM 17尧侧閆繭絳闕绚勵蜆贅 2 4 3 SCHMM 半连续 HMM 18识饒鎂錕缢灩筧嚌俨淒 第三章第三章 SCHMMSCHMM 的训练方法的训练方法 1919凍鈹鋨劳臘锴痫婦胫籴 3 1 SCHMM 初始码本生成 19恥諤銪灭萦欢煬鞏鹜錦 3 1 1 聚类的基本原理及方法 19鯊腎鑰诎褳鉀沩懼統庫 3 1 2 译码器扰动简化随机松弛聚类算法 SR D 21硕癘鄴颃诌攆檸攜驤蔹 3 1 3 小结 23阌擻輳嬪諫迁择楨秘騖 3 2 SCHMM 的训练 23氬嚕躑竄贸恳彈瀘颔澩 3 2 1 基于 Baum Welch 的前后项训练方法 24釷鹆資贏車贖孙滅獅赘 3 2 2 溢出的分析及解决 27怂阐譜鯪迳導嘯畫長凉 3 2 3 句子单元信息 31谚辞調担鈧谄动禪泻類 第四章第四章 SCHMMSCHMM 的连续语音搜索方法的连续语音搜索方法 3333嘰觐詿缧铴嗫偽純铪锩 4 1 连续语音的 VITERBI解码算法 34熒绐譏钲鏌觶鷹緇機库 4 2 N BEST搜索算法 35鶼渍螻偉阅劍鲰腎邏蘞 目录 IV 4 3 静音处理方法 36纣忧蔣氳頑莶驅藥悯骛 4 3 1 基于时域的端点检测方法 37颖刍莖蛺饽亿顿裊赔泷 4 3 2 基于 HMM 的音节间检测方法 38濫驂膽閉驟羥闈詔寢賻 4 4 提高搜索速度的几种方法 38銚銻縵哜鳗鸿锓謎諏涼 4 4 1 码本剪枝策略 38挤貼綬电麥结鈺贖哓类 4 4 2 Beam 剪枝策略 40赔荊紳谘侖驟辽輩袜錈 4 4 3 降低精度策略 42塤礙籟馐决穩賽釙冊庫 第五章第五章 系统与实验系统与实验 4444裊樣祕廬廂颤谚鍘羋蔺 5 1 数据库的建立 44仓嫗盤紲嘱珑詁鍬齊驁 5 2 系统的实现 45绽萬璉轆娛閬蛏鬮绾瀧 5 2 1 训练程序 46骁顾燁鶚巯瀆蕪領鲡赙 5 2 2 识别程序 49瑣钋濺暧惲锟缟馭篩凉 5 3 实验和分析 52鎦诗涇艳损楼紲鯗餳類 5 3 1 码本数对识别结果的影响 53栉缏歐锄棗鈕种鵑瑶锬 5 3 2 状态数对识别结果的影响 53辔烨棟剛殓攬瑤丽阄应 5 3 3 帧长对识别结果的影响 54峴扬斕滾澗辐滠兴渙藺 5 3 4 系统的性能和评价 54詩叁撻訥烬忧毀厉鋨骜 第六章第六章 总结总结 5757则鯤愜韋瘓賈晖园栋泷 参考文献参考文献 6060胀鏝彈奥秘孫戶孪钇賻 个人简历个人简历 6464鳃躋峽祷紉诵帮废掃減 致谢致谢 6565稟虛嬪赈维哜妝扩踴粜 第一章 概述 1 第第一一章章 概概述述 1 1 1 1 语语音音识识别别 现代语音识别是用电子计算机从人的语音信号中提取信息 确定其语言含 义的过程 它是一门交叉学科 多个领域的研究工作者参与其中 因此又可被归于多 个大学科 在计算机大学科中 它是智能计算机的智能接口科学 在信息处理 大学科中 它是信息识别的一个重要分支 在通信及电子系统 电路 信号及 系统等大学科中 它属于信息或通信系统的信息处理学科 在自动化学科中 它是模式识别的一个重要研究对象 同时语言学家和生理学家也对这种用机器 识别人类语言的技术不断作出自己的贡献 于是 语音识别成为一门与人工智 能 数字信号处理理论 模式识别理论 统计信息理论 最优化理论 计算机 科学以及声学 语言学 语义学 脑科学 生理学等众多学科紧密相连的综合 学科 陽簍埡鲑罷規呜旧岿錟 目前 语音识别系统有多种工作方式 人们常常从不同的角度对识别系统 进行分类 1 按说话方式及语言规则 孤立词 Isolated Word 识别 被识别的基本单位的语音之间有明 显的停顿间隔 这种系统的识别正确率最高 但输入语音速度较慢 而且使 用者常常感到语音输入方式不自然 沩氣嘮戇苌鑿鑿槠谔應 连接词 Connected Word 识别 被识别的基本单位的语音可连续输 入而不必停顿 同时对输入的基本单位的顺序没有限制 如 象电话号码这 样的数字串就可用连接词识别法 它的缺点是应用范围不广 而且识别正确 率较低 钡嵐縣緱虜荣产涛團蔺 连续语音 Continuous Speech 识别 被识别的基本单位的语音可 连续输入而不必停顿 同时对输入的基本单位的顺序有语法语义上的限制 连续语音的输入方式比较接近自然 输入语音速度较快 但识别正确率远远 低于对孤立词和连接词的识别 懨俠劑鈍触乐鹇烬觶騮 第一章 概述 2 自然口语 Natural Speaking 识别 可以看作一种更高级的连续语 音输入方式 说话者完全用自己习惯的自然方式输入语音 语音完全口语化 语音可以随意地连续 停顿和快慢变化 可以有无关的内容 如 咂嘴 的声音 嗯 等 可以有重复 错误和修改 如 他住在四一三 噢 四一四房间 语法上没有书面语那样较严格的限制 自然口语识别 是语音识别的最高阶段 也是现在的一个研究热点 謾饱兗争詣繚鮐癞别瀘 尽管这四种语音输入方式有或多或少的区别 但实际系统常常包含了许多 相同或相似的模块和算法 如 语音信号预处理部分有时可以通用于这四种系 统 这四种系统可以使用相同的声学模型 连续语音系统和自然口语系统也可 以共享一些语言后处理的算法 等等 呙铉們欤谦鸪饺竞荡赚 2 按词汇量大小 小词汇量 small vocabulary 识别 可识别词数少于 500 个 中词汇量 medium vocabulary 识别 可识别词数大于 500 但小于 2000 个 大词汇量 large vocabulary 识别 可识别词数大于 2000 个 随着词汇量的增加 在特征空间中相邻词的距离减小了 而词与词交叉 重叠的机会增大 所以识别也越困难 3 按被识别人范围 特定人 speaker dependent 识别 语音识别系统专门为特定人定 制 当对这个人进行语音识别时 系统可达到一定令人满意的识别正确率 莹谐龌蕲賞组靄绉嚴减 非特定人 speaker independent 识别 系统可以对所有人的语音 产生较好的识别结果 实际上 许多非特定人的识别系统都具有自适应功能 可以用一个使用者的输入对系统参数继续进行训练 以对这个人达到更好的 识别效果 这样非特定人似乎就变成了特定人识别系统 所以非特定人系统 和特定人系统往往没有一个绝对的界限 麸肃鹏镟轿騍镣缚縟糶 1 1 1 1 1 1 语语音音识识别别的的应应用用价价值值 语音识别有极其巨大的应用价值 这主要表现在以下几方面 第一章 概述 3 1 一种非常自然的文字输入方法 人类希望将自己的语言记录下来 传统上可以通过书写等物理手段进行具 体的保留 现在 更准确 可靠和容易加工的手段是输入计算机以抽象数据编 码的形式进行记录 最常用的方式是用键盘输入 这要求使用者必须经过专门 的训练 而对普通用户又不太现实 尤其对于使用汉语的中国人的来说 困难 就更大 因为汉字是象形文字 不象英语等拼音文字那样每个字母都有键盘按 键直接对应 虽然现在汉语已有五笔字型等高效输入编码方式 但对于一般人 来说很难熟练掌握 納畴鳗吶鄖禎銣腻鰲锬 另一方面 口语是人类生存的一个重要手段 虽然它不是与生俱来的 但 一个健康人在他的早年即已习得 可以认为口语是绝大部分人最自然的交流方 式 有时 书写也可以作为人们的交流方式 不幸的是书写速度还是比普通的 说话速度慢 所以口语应该成为最自然 快速的文字输入方式 風撵鲔貓铁频钙蓟纠 庙 2 语音控制 在很多场合下 人们希望有手动控制以外的控制方式 有时是为了安全 比如在驾驶车辆时 司机为了使用移动电话 分散精力用手拨号就是很危险的 有时是为了方便 比如现在的掌上电脑体积很小 用普通电脑的按键方式使用 很困难 还有时是特殊环境的要求 比如我们在黑暗的场所操纵诸多开关 按 钮时 会发现并不容易 而语音在这些方面却不受限制 我们可以用语音识别 进行拨号 进行掌上机的输入 进行开关的控制 语音控制可以解放我们的双 手 帮助我们克服各种操作的困难 还可以使我们的生活 工作更方便和舒适 比如 在联网的智能家电中装上语音识别模块 我们就可以从办公室打电话了 解家里的情况 并控制家电的工作 另外 对残疾人来说 语音控制可能会使 他们能像健康人一样地自理生活 总之 语音控制的应用前景非常广阔 灭嗳骇 諗鋅猎輛觏馊藹 3 对话系统 订票系统 天气查询等 将语音识别 自然语言理解 对话控制 语言生成 语音合成 数据库等 技术综合起来可以构成对话系统 对话系统现在已开始用于订票系统 普通用 户可以通过电话进行语音订票或预定旅馆房间 另外还出现了带有对话系统的 天气查询系统 1 用户同样可以通过普通电话进行语音查询 对话系统可以在 任何时候被大负荷的访问 不象人一样会疲劳 总能给用户亲切 快捷的服务 第一章 概述 4 预计语音识别在这一方面的应用还要进一步扩大 铹鸝饷飾镡閌赀诨癱骝 4 口语翻译系统 随着人们的交流日益频繁 对口语翻译的需求越来越大 为此很多机构在 研究自动口语翻译系统 口语翻译的第一步就是要听清用户在说什么 这部分 的工作离不开语音识别系统 攙閿频嵘陣澇諗谴隴泸 5 计算机辅助教学 在常规的课堂教学中 老师和学生之间经常要进行交流 以提高教学的质 量 解决学生的疑问 在计算机辅助教学领域 人们也希望人机之间有相似的 交流和反馈 目前 语音识别已开始进入这一领域 比如 有一些英语学习软 件就通过语音识别来判断学生发音的准确性 由于交流的重要性 可以断言 未来大部分计算机辅助教学系统都离不开语音识别 趕輾雏纨颗锊讨跃满賺 6 身份确认 现在进行自动身份确认的方式很多 比如 键盘输入密码 指纹 掌纹 人脸 虹膜 视网膜图像等等 而语音常常是一个非常好的方式 人们可以口 述密码 回答特殊的问题 还可以与目前的说话人确认技术 Speaker Verification 结合 形成一种自然 方便和可靠的确认系统 它可以广泛地 用于楼宇安全系统 以及电子商务等领域 夹覡闾辁駁档驀迁锬減 以上只是目前可以预见到的一些应用 尽管这样 已经让我们对未来充满 了憧憬 语音识别将与其它各种技术熔合在一起 渗透到社会的各个角落 相 信有一天 人们会发现自己的生存已离不开语音识别 视絀镘鸸鲚鐘脑钧欖粝 1 1 1 1 2 2 语语音音识识别别的的理理论论意意义义 语音识别也有很强的理论价值 人类语音信息与其它的自然界或人工信息 有相当程度的相似性 因此其它领域的研究也可以得益于语音识别 首先 语 音识别中有些技术手段直接或稍加修改便可应用于其它声音或振动波形的识别 中 比如 地震波性质识别 利用机械声波识别来判断机械故障 利用脑电波 的识别作病理诊断等 其次 语音识别中的一些思想和方法与更广泛的模式识 别 如手写体识别 指纹识别等 有一定的共性 因此 也可能推广到更广泛的 领域 另外 在语音识别中遇到的一些问题 同样可以成为数学 信号处理 人工智能等领域研究的新课题 从而对这些学科的发展起到一定的推动作用 偽澀锟攢鴛擋緬铹鈞錠 第一章 概述 5 1 1 2 2 国国内内外外发发展展状状况况 语音识别技术从五十年代初期起步 到今天已发展了四十年 在此期间经 历了若干个重要阶段 下面给出了一些代表性的技术和系统的发展情况 緦徑铫 膾龋轿级镗挢廟 五十年代电子信号频谱分析仪器开始被用于从语音信号中识别简单 少量 的音节和音素 其中有代表性的是 1952 年美国 Bell Laboratories 的实验装 置 它通过提取元音中的共振峰来识别简单的音节 稍晚还有 1956 年 RCA Laboratories 的单音节词识别装置 2 该装置的基本原理是用模拟滤波器组对 元音进行谱分析 五十年代可以认为是现代语音识别技术的启蒙阶段 騅憑钶銘侥 张礫阵轸蔼 六十年代人们进行了一些重要的基础研究工作 一 对语音产生的研究 Fant 3 4 和 Flanagan 5 的工作使人们对语音产生的机理有了一个较系统的了 解 二 对人类听觉的生理和心理进行了研究 其中一个重要的成果就是发现 了人耳对声音中的不同频率成分有不同的分辨力的反应力 这对后来的听觉模 型 6 研究很有指导意义 三 模板匹配的研究 其中较著名的是美国人 Martin 提出的用提取语音端点的途径来解决语速变化的问题 而日本学者 Itakura 将 动态规划 DP 的概念用于解决孤立词识别时说话速度不均匀的难题 提出了著 名的动态时间伸缩算法 DTW 四 自然语言理解的基础研究 这导致了七十 年代初 CMU 的 Hearsay I 简单的口语理解系统 疠骐錾农剎貯狱颢幗騮 值得一提的是日本在六十年代早期开始了这方面的大量研究 有若干个研 究机构参与 他们的重要成果是实现了一些语音分析 识别的专用硬件 它们 中有 NEC 的数字识别器 东京大学的音节识别器和 RRL 的元音识别器 7 镞锊过 润启婭澗骆讕瀘 到了六十年代 电子计算机已发展了二十年 人们逐渐将计算机用于语音 识别中 这也为七十年代研究的蓬勃发展奠定了基础 榿贰轲誊壟该槛鲻垲赛 七十年代 有关语音识别的各方面理论大量出现 在信号处理方面 Itacura 8 发现基于线性预测编码 LPC 的谱系数是识别器很好的特征 不但识 别效果比以前大有提高 计算复杂度也比较小 人们已知道基于 LPC 又可提取 出 PARCOR 参数 声道截面积比等重要的可用于识别的特征参数 9 在模板匹 配方面 日本人 Sakoe 10 证明 DTW 在语音识别中可以有效地解决两个不同长度 的语音段对齐的问题 在语言模型方面 Jelinek 研究了 N gram 算法 11 在 第一章 概述 6 自然语言理解的研究与应用方面 句法和语义信息开始被加入识别过程中 这 样可以大大减小混淆度 同时有助于得到正确的结果 七十年代还有一个重大 的里程碑 就是 CMU 的 Baker 12 和 IBM 的 Jelinek 13 意识到可以将马尔可夫模 型应用于语音识别 不平稳的语音流中可以有相对平稳的状态的概念在人们的 思想中真正地确立 现在常用的声学模型就是基于这个思想 此外 还出现了 网络表示 beam 搜索 14 前后向算法等理论 邁茑赚陉宾呗擷鹪讼凑 七十年代出现的主要是孤立词识别系统 比较著名的是 CMU 的 Hearsay II 15 IBM 的大词汇量自动语音听写系统 11 Bell Labs 用于通迅的与话者无 关的语音识别系统 16 它们中有很多是得益于美国国防部的 ARPA 语音理解计 划 嵝硖贪塒廩袞悯倉華糲 到了八十年代 语音研究的主流由以前的确定性的模板匹配方法转移到了 概率模型方法 主要是采用了隐马尔可夫模型 Hidden Markov Models 缩写为 HMM 17 18 隐马尔可夫模型虽然有不少缺陷 19 21 但它在建模的精确性和灵 活性方面还是比较好的 因此至今人们还仍然大量使用隐马尔可夫模型或者它 的改进模型 CMU 的 SPHINX 22 23 就应用了这种概率模型 并进一步与矢量量化 结合在一起 八十年代基于动态规划的解码算法 24 被人们大量地使用 使这个 时期的系统普遍具有连接词识别的能力 该栎谖碼戆沖巋鳧薩锭 另外 八十年代人工神经网络的研究热潮也波及语音领域 人工神经网络 的特点是有通用的网络结构和参数训练方法 而不必过分考虑语音的实际概率 分布 它的缺点是难于直接处理象语音这样时间长短会变化的信号序列 因为 马尔可夫模型适于处理时间序列 于是有人将隐马尔可夫模型与人工神经网络 结合起来 构成嵌套模型 25 并一度成为研究的热点 劇妆诨貰攖苹埘呂仑庙 进入九十年代 随着信号处理 声学模型 26 语言模型 解码搜索 27 28 算法等理论日益成熟 计算机软硬件系统性能不断提高 出现了一些大词汇量 连续语音识别系统 如 IBM 的 ViaVoice 29 Microsoft 的 Whisper 30 CMU 的 SPHINX II 31 等等 这些系统大体上采用了相似的技术 不仅有基于隐马尔可 夫模型的声学模型 而且包含了较复杂的语言模型以及先进的解码算法 它们 采用各种算法 32 34 以提高对说话人 环境 通道的鲁棒性 有的系统还加入了 自然语言理解部分 使系统性能进一步提高 为了推动现代语音识别技术的发 展 Cambridge 开发了 HTK 35 语音识别开发软件包 使研究开发工作者能够在 一个良好的平台上专注于某一个具体问题的研究 最近 CMU 也开始在网上公 第一章 概述 7 开部分 Sphinx 的源代码 相信这将为全球各地的研究人员提供良好的研究交 流机会 当前已有不少语音识别系统进入实用化阶段 走上了市场 表 1 1 列 出最近 个人电脑 杂志报道的世界主要语音识别软件的评比结果 36 这个评 比结果表明现在实用的语音识别系统已经发展到了非特定人 超大规模词汇量 和连续语音识别阶段 并具有大约 93 的初始识别正确率 臠龍讹驄桠业變墊罗蘄 我国对语音识别的研究开始于七十年代后期 起步较晚 但由于汉语语音 识别的重要性日益突出 最近发展速度很快 七十年代末 中国科学院声学研 究所基于滤波器组设计成功了实时语音识别系统 RTSES 01 37 八十年代中期 清华大学和哈尔滨工业大学分别研制成功基于线性预测编码系数 LPC 的特定人 大词汇表孤立词识别系统 八十年代后期 清华大学推出了基于音节的汉语识 别系统 其后不久 北方交通大学 北京理工大学等研究机构也实现了相似的 全音节汉语语音识别系统 进入九十年代 我国在连续语音识别方面也取得了 重大进展 1995 年清华大学推出了非特定人大词汇量连续语音识别系统 38 1996 年 中国科学院自动化研究所也推出了相似级别的系统 39 在 1998 年的 863 语音连续语音识别测评 40 中 清华大学系统的句子识别平均正确率达到了 93 音节首选正确率最高达到了 82 这代表了目前国内的研究水平 鰻順褛悦 漚縫冁屜鸭骞 表 1 1 Dragon NaturallySpeaking FreeSpeech 2000 L 其中 2 30 1 1 M m lm g 这是用M个混合高斯密度对第 l 个状态的特征空间进行估计 理论上可以 证明 当M足够大时 MGD 可以比较准确地描述特征向量的概率密度 戧礱風熗浇 鄖适泞嚀贗 估计方法很多 如最大似然估计 50 期望最大化估计 51 和最 xbl 大后验概率估计 52 等 2 2 4 4 3 3 S SC CH HM MM M 半半连连续续 H HM MM M 虽然 MGD 描述方法中所要存储的参数不多 每个混合的中心向量 lm 协方差矩阵和权重系数 但当 M 很大时由于每个都需要存储M 组 lm lm g 这样的参数 因此空间和时间消耗都比较大 SCHMM 45 结合 VQ 技术和连 续密度描述的特点比较好地解决了这个问题 購櫛頁詩燦戶踐澜襯鳳 2 31 J j j D sjt J j j D stjt J j tjtjtttts VbVof VbsVof sVPsVofsofob t t t 1 1 1 其中是表征特征空间的码本 是输出离散码字的权重系数 JjVj 1 j D s Vb t 为以码字为中心的子空间中的特征向量概率密度的高斯逼近 嗫奐闃頜瑷 jtV of 踯谫瓒兽粪 这种描述方法改变一下形式成为 第二章 语音识别的基本模型 19 2 32 J j jtljtl Vofgob 1 这就是捆绑式 MGD TMGD Tied Mixture Gaussian Density 在这样的描述中 所有模型都公用J 个类似码字的密度函数 记录一 个模型中不同状态的概率密度函数只需要一组系数即 xbl LlgG lj 1 可 虽然 SCHMM 和 TMGD 对特征空间的描述都信赖于这J 个分布 但其描 述不如 MGD 来得精确 尤其在码本选得不合适时更是如此 虚龉鐮宠確嵝誄祷 舻鋸 第三章 SCHMM 的训练方法 20 第第三三章章 S SC CH HM MM M 的的训训练练方方法法 SCHMM 作为一种有效的语音识别技术 是离散隐马尔科夫模型 DHMM 和 连续隐马尔科夫模型 CHMM 的一种折衷方案 45 它既克服了 DHMM 识别精度 较低的缺点 又降低了 CHMM 计算的复杂性 因而是一种相当好的语音识别技术 SCHMM 之所以能做到这一点 主要是因为 SCHMM 使用了一组特殊的码本 这组 码本由所有模型和所有状态共享 它相当于连接 DHMM 和 CHMM 的桥 是决定整 个 SCHMM 系统性能的关键因素之一 與顶鍔笋类謾蝾纪黾廢 3 3 1 1 S SC CH HM MM M 初初始始码码本本生生成成 在采用 SCHMM 对语音数据进行训练之前 首先要为 SCHMM 的一些参数赋初 值 这些参数主要有 初始码本 包括均值 m 协方差矩阵 m 初始状态矩 阵 a 状态转移矩阵 A 权重b 在无跨越由左向右模型中 a 可忽略 A b 可 通过赋予均值得到 而初始码本主要通过对训练样本的聚类获得 初始码本的 选择相当重要 因为初始码本通常是基于最小平均失真准则产生的 在训练中还 要对初始码本进行调整 使得码本能够在基于最大似然准则条件下和 SCHMM 其 它参数达到较好的一致 45 而在训练中用于迭代的价值函数是一个非凸函数 初值的好坏决定了迭代运算是否能收敛到全局最佳点 結释鏈跄絞塒繭绽綹蕴 3 3 1 1 1 1 聚聚类类的的基基本本原原理理及及方方法法 聚类的目的是把相似的对象分为同一类 从而能够对类内对象用同一种 方式表示 从模式识别的角度看 聚类属于非监督学习的范畴 即是在未知 类别标签的样本集上 通过对样本间相似性的度量将样本集划分为若干个子 集 餑诎鉈鲻缥评缯肃鮮驃 SCHMM 的码本属于高维矢量 因此聚类算法要采用矢量量化的一些原理 在矢量量化器的最佳设计中 重要的问题是如何划分量化区间和确定量化矢 量 Lloyd 提出的两个条件回答了这两个问题 1 最佳划分 即找出给定 码字矢量的最佳区域边界 这可以根据 最近邻原则 求出 2 最佳码 字 即找出与最佳区域边界内所有矢量之间畸变平均值最小的码字 这可以 通过求最佳区域边界内所有矢量的质心解决 爷缆鉅摯騰厕綁荩笺潑 依据 Lloyd 准则 Linde 等人提出了 LBG 算法 53 这是矢量量化中常 用的方法之一 整个算法实际上就是上述两个条件的反复迭代过程 既由初 始码字寻找最佳码字的迭代过程 它由对初始码字进行迭代优化开始 一直 到系统性能满足要求或不再有明显改进为止 LBG 算法的流程图如下 锞炽 第三章 SCHMM 的训练方法 21 邐繒萨蝦窦补飙赝 1 将形成 VQ 码本所需全部输入矢量 X 存储于计算机内存中 全部 X 的集合用 S 表示 2 设置迭代算法的最大迭代次数L 3 设置畸变改进阈值 4 设置 M 个码字的初值 00 2 0 1 M YYY 5 设置畸变初值 0 D 6 设置迭代初值 m 1 7 根据最近邻准则将 S 分成 M 个子集 即当 m M mm SSS 21 时 下式应成立 m l SX liiYXdYXd m i m l 11 8 计算总畸变 m D M l SX m l m m l YXdD 1 1 9 计算畸变改进量的相对值 m D m m mm m m m D DD D D 1 10 计算新码字 21 m M mm YYY m i SXi m i X N Y 1 11 m 若回答为是 转入 13 执行 若回答为否 转入 12 执行 12 m L 若回答为否 转入 13 执行 若回答为是 令 m m 1 转入 7 执行 13 迭代终止 输出作为码字 并且输出总畸变 21 m M mm YYY m D 14 结束 LBG 算法是一种最陡下降的算法 它的总畸变是它的M 个码字决定的 状态空间点的函数 如果这是一个凸函数 那么这一使总畸变单调下降的算 法将使迭代计算得到的解收敛到全局最小点上 然而在绝大部分实际情况中 第三章 SCHMM 的训练方法 22 该函数并非凸函数 既有全局最小 点又有多个局部最小点 迭代算法 的解 收敛到哪一个最小点则取决于M 个码字初值 因此 码字初值的选择 就显 得比较重要 码字初值的设置方法通常有随机法 分裂法 扰动法等 这些 方法对于找到好的码本有一定的作用 他们之间的区别不是很大 曠戗輔鑽 襉倆瘋诌琿凤 3 3 1 1 2 2 译译码码器器扰扰动动简简化化随随机机松松弛弛聚聚类类算算法法 S SR R D D SR D 21 算法属于随机松弛算法 Stochastic Relaxation 54 中的一 种快速算法 算法的基本思想是 对随机设置的M 个码字 MiYi 1 0 在经过最佳划分求出最佳码字后 采用某种方法对新码字进行扰动以 0 i Y 产生扰动后的码字 继续进行最佳划分求新码字 然后进行新的扰动 1 i Y 这个过程反复执行直到达到预定的扰动精度 即熄火温度 最后得到 N T 的 M 个码字即为所求码本 随着每一轮的迭代 要求扰动半径逐渐缩小 这 样可以使码字趋于稳定 轉厍蹺佥诎脚濒谘閥糞 分析一下这个算法可以看出 SR D 和 LBG 算法存在着明显的不同 LBG 算法每迭代一步目标函数总是下降的 目标函数落入哪一个极小值只取 决于码本初值的设置 而且一旦落入某个局部最小点就再也拔不出来 因此 很难保证给出的结果达到全局最小点 SR D 算法在每一轮迭代中增加了对 当前码字的随机扰动 这使得算法具有随机性 相当于在每次迭代运算中目 标函数值总体下降的同时又有上升的机会 这样函数就有可能脱离某个局部 最小点 增加了到达全局最小点的概率 嬷鯀賊沣謁麩溝赉涞锯 SR D 算法要设计两个关键参数 首先需要给出一个退火温度 其 n T 中 n 代表迭代的节拍 是用来形成随机扰动的参数 随着n 的增加 n T 逐渐降低 因而称为退火温度 通常这个关系可以表示为 n T 0 K 0 9 第二需要根据的大小设计一组合适的扰动矢量 要求这组 n T i Y 矢量是互相独立的随机高斯矢量 每个矢量的各个分量也相互统计独立 其 均值为 0 均方差值等于 而且在每次迭代后要根据的值重新生成 n T n T 扰动公式可以表示为 讯鎬謾蝈贺綜枢辄锁廪 3 1 MiYYY n i n i n i 1 1 在 SR D 算法中 初始退火温度的选择对算法的效率有较大的影响 0 T 主要是根据经验给出的 对不同的应用可能有不同的选择 通常建 0 T 0 T 第三章 SCHMM 的训练方法 23 议给一个较大的值 但过大显然会增大迭代的次数 为了有效地 初始 0 T 化参数 我们对初始退火温度 进行了定义 作为一个初始扰 动值 对 0 T 某一区域而言 第一次扰动的范围在每一维上达到所划分区域的最大半径就 足够了 这样 从总体上看 扰动可以达到整个矢量空间的边界 而理想码 字必定在这个范围内 也就是说 扰动可以到达这些码字 根据扰动矢量设 计规则 对 i 区域 可以表示为 表示第一次最佳 0 T 0 T ii YYd 11 2 i Y1 划分的第 i 个区域的码字 为 i 区域内与畸变最大的矢量 i Y1 i Y1 代表两矢量间欧氏距离的平方 对每一个区域做同样的计算 选择 yxd 2 其中的最大者 作为值 这样能够较好地保证有效的扰动范围 有利于下 0 T 次区域划分向理 想码字靠近 由于以后的新区域都是经过最佳划分的 比 前一次划分的区域 更加靠近理想码字 需要扰动的范围也会比前一次小 因此按上式所给的初 始退火温度是够用的 熄火温度可根据精度要求给出 SR D 算法见图 1 兒躉讀闶軒鲧擬钇標藪 繅藺詞嗇适篮异铜鑑骠 所求出的 M 个码字可作为码本的均值 然后再利用已求出的M 个码 字对训练集进行 M 个区域划分 在每个区域计算均方差 从而可求得M 个码字的均方差 这样 M 个码字的初始码本就形成了 鮒簡觸癘鈄餒嬋锵户泼 我们对采用 LBG 算法和 SR D 算法进行了对比实验 实验是在同一个语 料库上采用 LBG 算法和 SR D 算法进行相同的聚类 并分别给了五个不同的 F 图图 1 SR D 算法流程图算法流程图 Nn TT T 以 为初始码字 进行最佳 1 n i Y 划分并求出 M 个新码字 1 n i Y 生成扰动 计算新 n i Y 码字 n i n i n i YYY 1 输出 i 1 M 1 n i Y 随机设置 M 个码字 n 1 赋初值 i Y 进行最佳划分并计算 N T 0 T 令退火温度 n n KTT 0 n n 1 第三章 SCHMM 的训练方法 24 初值 以总方差大小作为评价聚类 算法优劣的标准 结果如表3 1 眯毆蠐 謝银癩唠阁跷贗 从表中可以看出 在五次不同初值的聚类实验中 采用SR D 算法得 到的总方差都要比 LBG 方法得到的总方差小 这说明SR D 聚类比 LBG 有 更好的性能 闵屢螢馳鑷隽劍颂崗鳳 表 3 1 LBG 和 SR D 聚类总方差的比较 初值序号12345 LBG7187171745721767252072461 SR D7127571226712147133771111 另外 我们也比较了不同初值对识别结果的影响 这些初值是一次聚类 的若干中间结果 以总方差的大小作为评价初值优劣的标准 在其它条件完 全相同的情况下 利用这些初值训练的系统识别率见表3 2 檁傷葦开阈灯伞 馑諧粮 表 3 2 不同初值对系统识别率的影响 初值序号12345 总方差10081095594947049295192890 正确率 87 7888 0688 3388 6190 56 从表 3 2 可以看出 随着总方差的变小 初始码本聚类的畸变减小 即我们认为较好的初始码本 那么对应的识别率也有所提高 这说明初始码 本对系统的识别率是有影响的 好的初始码本对系统是有益的 鄭饩腸绊頎鎦 鹧鲕嘤錳 3 3 1 1 3 3 小小结结 通过以上的介绍可以看出 在SCHMM 中 初始码本是比较重要的 好 的初始码本能够总体上接近各模型的质心 因而在调整码本过程中收敛较快 并且容易达到或接近全局最优 相反 如果某个模型附近没有码本 它在调 整码本过程中对整个码本调整趋势的影响力降低以至于码本更加远离它 自 然地 码本对这个模型的刻画精度就低 如果某个码本附近没有模型 那么 所有模型对该码本的权重都较小以至于区别不大 这种情况造成的结果是该 码本的方差迅速减小 均值变化不大 它对整个模型的刻画能力大大降低 从而成为垃圾码本 因此 码本初值的好坏对半连续模型相当重要 和 第三章 SCHMM 的训练方法 25 LBG 算法相比 采用随机松弛的方 法产生初始码本 算法具有随机性 这 样就有可能脱离局部最小点 增 加了到达全局最小点的概率 弃铀縫迁馀氣 鰷 鸾觐廩 3 3 2 2 S SC CH HM MM M 的的训训练练 在第二章我们简单介绍了两种HMM 的训练方法 即 Baum Welch 算法 和分段K 平均聚类方法 由于 SCHMM 要在全局优化和调整码本 采用分段 K 平均聚类方法是不行的 因此这里主要介绍基于Baum Welch 的 SCHMM 的训练方法 调谇續鹨髏铖馒喪劉薮 3 3 2 2 1 1 基基于于 B Ba au um m W We el lc ch h 的的前前后后项项训训练练方方法法 前后项训练是一种在数学上严格的最大似然估值算法 55 利用 Baum Welch 算法 56 可以极大提高这一方法的计算效率 因此前后项训练 方法得到广泛应用 厲耸紐楊鳝晋頇兗蓽驃 我们首先从分析一个简单的单模型单样本入手 导出SCHMM 参数的训 练公式 然后把它推广到多模型多样本的情况 苧瑷籮藶黃邏闩巹东澤 设模型有 L 个状态 S1 SL 训练样本帧数为 N 码本数为 J 输入语音 的状态序列用下式表示 3 2 2121LtT SSSxxxxX 定义初始状态概率矢量表示为 3 3 21L aaaa 其中 3 4 1ll Sxpa 定义状态转移概率矩阵 A 为 3 5 1unvnuv SxSxpA 最后再定义状态输出概率函数为 3 6 ypypypB L 21 其中为状态 的概率输出函数 它是 J 个多维高斯分布函数的线性 ypll 组合 表示为 3 7 J j lj J j nljljnl ypyp 11 1 其中为多维高斯分布函数 为多维高斯分布函数的权重系数 nlj yp lj 第三章 SCHMM 的训练方法 26 3 8 jnj T jn j nlj MyMyyp 1 2 1 2 1 exp 2 1 当这些 HMM 参数确定后 对任一输出语音串的概率估 21T yyyY 值为 3 9 X N t J j tjsxlj ypXPBAaYP lt 11 上式中的求和符号是对所有可能的状态序列X 求和 为确定训练语音中每一帧在某一状态的输出样本集中的权值 首先计算 一下第 n 帧通过状态的所有路径的输出权值 即在式 3 9 中加上相应 l s 的限制 如下 鴿摄禱鋅儀憚銼嚕缗赞 3 10 ln lt sx N t J j tjsxljnl ypXPBAaYP 11 的意义为对于模型 第 n 帧为状态的概率密 BAaYPnl BAa n y l s 度 其中为 l 状态第 j 个高斯概率密度函数的系数 由于这一概率密度 lj 是用 J 个高斯分布线性叠加而成的 为求对每一高斯分布的影响 我们 n y 再限定箪啬癲剀净赶钩嬙鳄凫 3 11 ln lt sxntN J q tqsxlqnjljnlj ypypXPBAaYP 1 将上式写成 3 12 J q nlqlq nljlj sx N t J q tqsxlqnlj yp yp ypXPBAaYP ln lt 1 11 上式从第 n 帧经过 l 状态的总概率中去处了 n 帧在 l 状态的概率的影 响 又加入了 n 帧在 l 状态 j 高斯的影响 因此 上式的意义是 当求出 第 n 帧状态为的概率之后 再提取出第 j 个高斯函数在整个状态输出函 l s 数的权重 即得到在状态的第 j 个高斯函数输出样本集中的权重 顽 n y l s 鷙瑪滨廈岘轆庫糞糧 对每一帧用上面式 3 12 计算权值 即构造了一个状态为且序号为 l s j 的高斯函数输出样本集 因为由式 3 12 计算出的权值不是概率而是概率密度 因而该值是相 对的 在利用它来求 SCHMM 参数时 应该进行归一化处理 漬閫熾诀团諳赓戰餛 锰 第三章 SCHMM 的训练方法 27 对于 SCHMM 的码本而言 由于 码本是所有状态共享的 因此应该 在所 有状态范围内进行归一化 由 训练语音样本 Y 对状态的第 j 个高斯函数 l s 的参数估计结果为 鐸輜澠顶嫻塊謂斕痹廪 3 13 L l N n nlj L l N n nnlj j BAaYP yBAaYP M 11 11 3 14 L l N n nlj L l N n T jnjnnlj j BAaYP MyMyBAaYP 11 11 而高斯概率密度函数的系数估计结果为 lj 3 15 N n nl N n nlj N nljlj BAaYP BAaYP P 1 1 转移概率 Auv也可用类似的方法求出来 我们先求第n 帧为状态 u s 而第 n 1 帧为状态的概率 设为 有 v s nuv P 3 16 vnun lt sxsx N t J j tjsxljnuv ypXPBAaYP 1 11 上式对样本的所有帧求和 并进行规整 有 3 17 N n nu N n nuv uv BAaYP BAaYP A 1 1 至于初始状态概率分布 只要取第一个状态概率为1 而其它状态为 0 即可 上面我们分析了单模型单样本参数估计的方法 在多模型多样本的情况 下 要在所有模型及样本范围内建立状态的输出样本集 因此输出向量集中 的权重应该在所有模型及样本范围内进行归一化 定义模型数为R 样本 数 K 则上述公式变为 抢觀淚婭师讴论櫚阵蘚 R r K k L l N n nljrk R r K k L l N n nnljrk j BAaYP yBAaYP M 1111 1111 3 18 R r K k L l N n nljrk R r K k L l N n T jnjnnljrk j BAaYP MyMyBAaYP 1111 1111 3 19 第三章 SCHMM 的训练方法 28 而高斯概率密度函数的 系数估计结果为 lj 3 20 K k N n nlrk K k N n nljrk ljr BAaYP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论