语音识别超级心得.ppt

上传人：1*** IP属地：浙江上传时间：2020-03-31 格式：PPT 页数：38 大小：575.52KB 积分：20 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语音识别 78 关于HMM训练的几点考虑克服训练数据的不足HMM的模型含有很多待估计的参数为得到满意的模型必须要有很多训练数据这在实际中很难办到在训练数据少时一些出现次数很少的观察值没有包含在整个训练数据中这样训练出的HMM参数中就会有不少为零的概率值需要对训练好的模型进行相应的处理语音识别 79 常用的方法是将一个训练较充分但细节较差的模型与一个训练虽不充分但含有细节的模型进行混合前一个模型可在HMM模型结构中将有些状态转移概率及观察输出概率相近的进行捆绑从而减少模型参数使用相同的训练数据就可以对这种捆绑后的模型进行较充分的训练语音识别 80 合并两个HMM的问题可以表示为其中为结果模型和为待合并的两个模型分别代表前面提到的两种类型的模型为合并比例系数关键是合并权值的估计一种方法是人工选择权值这种方法的局限很明显过分依赖于人的经验判断且工作量大语音识别 81 删插 DeletedInterpolation 平滑法设和为和模型中状态j对应的观察值概率为中状态j对应的观察值概率那么有状态j被三个状态所取代没有输出观察值概率输出观察值概率输出观察值概率空转移估计权值的问题转化为一个HMM训练问题可相应估计出来语音识别 82 4 4大词汇量连续语音识别技术语音识别研究中意义最重大应用成果最丰富同时最具有挑战性的研究课题大词汇量非特定人的连续语音识别系统的词误识率大体为小词汇量特定人的孤立词识别系统词误识率的50倍左右特有的问题无法切分无法确定单词间的边界位置发音变化连续语音的发音比孤立词发音更随便受协同发音的影响也更为严重语音识别 83 上个世纪90年代初期已经取得了若干突破性的进展这一进展依赖于在识别系统中采用HMM算法的统一框架以及非常细致的将声学语音学和语言学的知识引入并改善这个框架在大词汇量语音识别系统中一段语音信号的特征矢量序列为该特征矢量序列可能包含一个词序列为语音识别 84 按贝叶斯准则那么语音识别的任务为找到对应观察序列O的最可能的词序列要找到最可能的词序列必须使上式右侧两项的乘积最大第一项由语言模型决定第二项由声学模型决定语音识别 85 在实现时声学和语言学模型结合在一个框架中训练时单独训练现在的统一做法是将整个识别系统分为三层声学语音层词层和句法层语音识别 86 是识别系统的底层它接受输入语音并以一种子词单位作为其识别输出每个子词单位对应一套HMM结构和参数词层规定词汇表中每个词是由什么音素音子串接而成的句法层中规定词按照什么规则组合成句子语音识别 87 这样从状态出发逐层扩大到音子词句子每一个句子包含许多状态的复杂的状态图该句子就是用由所有状态形成的结构状态之间的转移概率以及每个转移弧产生某个特征输出的概率来描述的对于特定的词表和句法所有可能出现的句子构成了一个更大的状态图在完成识别任务时要根据一个输入语音特征矢量序列来确定一个最可能的句子需要在这个大的状态图中搜索一条路经该路径产生上述特征矢量的概率最大由路径可以进一步确定句子中的每一个词语音识别 88 基于子词单元的连续语音识别系统总体框图语音识别 89 4 4 1声学模型 1 基本声学单元的选择以词为基本单元建立模型不合理造成大量不必要的冗余存储和计算因此一般采用比词小的子词识别基元如音节半音节音素等一般来说声学单元越小其数量也就越少训练模型的工作量也就越小但单元越小对上下文的敏感性越大越容易受到前后相邻的影响而产生变异因此其类型设计和训练样本的采集更困难语音识别 90 2 如何由子词单元构成词在词层中应有一部字典来规定词表中每一个词是用哪些子词单元以何种方式构筑而成的最简单实用的方案是每个词用若干子词单元串接而成每个词的发音可能有多种变化方式在子词串接时必须有所体现替换即词中的某个音子可能被用其它相似而略有差异的子词单元所替换插入和删除词中有时增加了一个不是本词成分的子词单元有时又将本词成分中的某个子词删除语音识别 91 解决方案方案1 每一个词建立多套子词单元串接规则方案2 将子词单元构成词的规则用一个网络图来描述可以相互替换的子词单元可选择的子词单元语音识别 92 3 基于子词单元的HMM训练子词单元的HMM一般采用从左到右的结构状态数固定为2到4个在语音段中子词太短无法精确标出语音的边界训练时用一种很粗糙的方法进行初始分段例如等长分段形成初始模型已知句子内容因此可将子词模型串接成句子然后用分段K均值算法多次迭代对各子词模型进行重估最终会自动收敛于一个最佳模型估计同时达到合理的子词分段语音识别 93 分段K均值算法初始化将每个训练语句线性分割成子词单元将每个子词单元线性分割成状态即假定在一个语句中子词单元及其内部的状态驻留时间是均匀的聚类对每个给定子词单元的每一个状态其在所有训练语句段中特征矢量用K均值算法聚类参数估计根据聚类的结果计算均值各维方差和混合权值系数分段根据上一步得到的新的子词单元模型通过Viterbi算法对所有训练语句再分成子词单元和状态重新迭代聚类和参数估计直到收敛语音识别 94 4 4 2语言模型众所周知从一个词表中任意选择若干词所构成的序列不一定能构成自然语言中的句子只有合乎句法者才能算是句子这种约束在语音识别中可以利用语言模型来实现语言模型分为基于文法的语言模型和基于统计的语言模型在大词汇量的语音识别系统中统计语言模型由于可以克服文法规则方法难以处理真实文本的局限性因而获得了越来越广泛的应用语音识别 95 统计语言模型的基本原理是采用大量的文本资料统计各个词的出现概率以及其相互关联的条件概率并将这些知识与声学模型匹配相结合进行结果判决以减小由于声学模型不够合理而产生的误识理想情况对词串语音识别 96 N元文法模型条件概率计算时只考虑与前N 1个词相关 F W 是指词串W在训练数据中出现的次数通常系统中采用的也只有二元和三元文法 N元文法统计语言模型的建立一般是通过相对频率计数得到一般采用简化模型语音识别 97 其中是训练语料的总词数解决这种训练数据稀疏的方法为了避免出现或接近于零的情况可以用三元二元和一元相对频率做插值语音识别 98 2 词对模型二元文法模型的简化形式 3 长距离文法模型反映语言中较长距离的词之间的相关性长距离二元文法模型中 4 N元词类文法模型每个词wt只与其所在类ct有关而与前一时间的词所在类ct 1中的成员无关语音识别 99 4 4 3最优路径搜索从各种可能的子词序列形成的一个网络中找出一个或多个最优的子词序列这在本质上属于搜索算法或解码算法的范畴路径的搜索应从每个可能成为句子开始的子词单元开始然后向各种可能的单元转移直到当前子词的最大可能帧数位置全搜索几乎是不可能的因此常采用基于一定裁剪路径的算法语音识别 100 裁剪路径即放弃不可能的或者说得分低的路径例如当该路径与最优路径得分的差值大于一定门限时可以放弃该路径在搜索过程中声学和语言学模型可以结合在一起对于新的一帧数据语言模型和字典层控制子词间如何扩展和转移 HMM模型控制词内的状态转移语音识别 101 1 ViterbiBeam搜索算法初始化初始化活动路径最高层递推Form 1到MFor每一层次指各个层次的语言和声学模型 ForHMM的每个活动状态把每个活动路径向后扩展一帧至所有可以到达的状态执行Viterbi计算裁剪路径End 活动状态 End 每一层次 End 观察矢量序列终止选择最可能的路径 ViterbiBeam算法是一个次优算法最优路径有可能在开始时因得分过低而被裁剪掉不过在语音识别中次优算法也往往可以应用语音识别 102 2 基于前向搜索后向回溯的N best算法保证全局最优而且能依次得到全局得分最高的N条候选路径该算法是一个TWO PASS的过程第一部分是从初始帧到最末帧的帧同步前向格点搜索采用Viterbi算法来记录所有局部路径的得分值另一部分是从最末帧到初始帧异步后向树搜索采用A 算法实现语音识别 103 A 算法对词图中的每个词节点n 其估价函数f n 估计了从搜索开始节点句尾经过节点n 到达目的节点句首的最优路径得分 f n g n h n g n 是从句尾到词n之间最优路径的得分估计启发函数h n 是从句首到词n最优路径的得分估计它由第一阶段的搜索给出语音识别 104 通过一个堆栈将当前各f n 从优到劣排序使当前最先要进行扩展的路径处在栈顶扩展栈顶路径记录所扩展的路径到输出链表计算扩展后各个新的f n 直到句首这样就完成了一条路径的搜索不断地按照栈顶的内容扩展就可确定出N条路径语音识别 105 语音识别 106 基于Viterbi的N best算法前向搜索后向回溯的N best算法是Twopass算法后向回溯必须在一段语音结束后才能开始获得的结果至少要延迟第二阶段搜索的时间出现其他算法如基于Viterbi的N best算法采用Viterbi搜索在每个词层保留N个最优的前接路径并分别向后扩展在新的词层进行裁减后仍保留N个最优全部搜索结束后选出最优的N个结果并分别逐次回溯出N条路径语音识别 107 4 5关键词检出采用语音识别技术把需要的词从包含它的连续语句中提取出来这种技术称为关键词检出 KeywordSpotting 或词检出技术应用领域电话接听监听口语识别系统信息查询系统语音识别 108 问题描述设已知一观察值序列判断其是否存在一关键词M 其HMM模型所包含的状态为可采用如下方法来计算在语音中存在关键词的评分其中为关键词在语音中的最佳起始点为最佳结束点为与之相对应的关键词M的最佳状态序列语音识别 109 可按下式求得穷举所有可能的起始点和结束点能求出打分但计算量太大采用如下方法通过引入垃圾状态定义了关键词的扩充模型在整个观察序列上用Viterbi算法进行搜索可以得到对应的最佳状态序列语音识别 110 从词表的角度关键词检出系统必须要有一种机制能处理词表外词对词表外的词建立处理它们的声学模型通过引入垃圾模型来表示词表外词和背景语音垃圾模型可以使用大量的词表外词和背景语音基于最大似然方法训练得到在识别时 L个关键词模型和V个垃圾模型就组成L V个词汇的语音识别系统将待检语音标注为由关键词和非关键词组成的词串根据每个关键词的评分来判断关键词是否存在语音识别 111 还可以在关键词检出系统中引入反关键词 Anti keyword 模型训练时为每一个关键词都建立一个反关键词模型可以增加关键词间的区分能力三种可能的错误情况将不含有关键词的语音段判定为含有某个关键词将一个关键词误判为另一个关键词没能检测出语句中的关键词前两种称为虚警 FalseAlarms 后一种称之为错拒 FalseRejections 语音识别 112 关键词检出系

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音识别超级心得.ppt

文档简介

温馨提示

最新文档

评论

语音识别超级心得.ppt

文档简介

温馨提示

最新文档

评论

相关文档