




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
声音实际上是一种波语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。 语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音层和语言层两部分。当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,语言模型训练和解码器。(1)预处理模块: 对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。(2)特征提取: 去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。 目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。 在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。语音识别基础语音信号的采样和量化语音信号是一个时间和幅度都连续变化的一维模拟信号而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形正常人的发音范围是从40Hz到340OHz左右,因此在实验中,本文对语音信号的采样频率均为skHz2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析.3语音信号的加窗处理为了能对语音信号进行处理,我们可以假定在IOms一30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。目前应用最为广泛的是汉明窗4语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率常用的端点检测是基于双门限比较法,的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音!噪音判别,从而完成端点检测的经过对语音信号的预处理之后就要进行特征参数的提取,对特征参数的要求是:1!能有效代表语音特征,具有良好的区分性;2!特征参数之间有良好的独立性;3!特征参数易于计算,最好能保证语音识别的实时实现特征提取(包括分帧)、音素建模、字典、隐式马尔科夫模型语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。特征提取就是从语音信号中提取出语音的特征序列提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量语音识别技术中最流行的特征参数是基于声道模型和听觉机理的LPCC(Linear Predietive Cepstral CoefieientS)和MFCC(Mel Frequeney Cepstral cocfioionts)参数,线性预测倒谱系数(LPCC)和美尔频率倒谱系数(MFCC)语音识别过程就是根据模式匹配原则,按照一定的相似性度量法则,使未知模式与参考模式库中的某一个参考模型获得最佳匹配的过程。目前语音识别比较常用的识别方法主要有模板匹配法,以动态时间规整(DynamiC Time Warping,DTw)为代表;随机模型法,以隐马尔可夫模型(Hidden Markov Model,HMM)为代表;基于人工神经网络(ArtifiCial Neural NetworkS,ANN)的识别方法高斯混合模型隐马尔科夫模型(,DNN-HMM RNN-CTC具体来说就是输入一段语音信号,要找到一个文字序列(由字或者词组成),使得它与语音信号的匹配程度最高。这个匹配程度,一般都是用概率来表示的,用X表示语音信号,用W表示文字序列,则要解的是下面这个问题:W argmaxP(W|X)但是一般语音是由文字产生的,已知文字才能发出语音,所以对于上面的条件概率公式我们想要已知结果求该条件下发生概率,这时候自然而然就想到贝叶斯公式:,由于我们要优化W, P(X) 可以看作常数,可以省略分母。由上边的步骤来看,求文字串、计算语言模型概率、求音素串、求音素分界点、计算声学模型概率几个步骤似乎是依次进行的。其实不然,在实际编码过程中,因为文字串、音素分界点都有非常多种可能,枚举是不现实的。实际中,这几个步骤同时进行并互相制约,随时砍掉不够优的可能,最终在可接受的时间内求出最优解:W argmaxP(W|X)。声学模型用lstm+ctc训练,得到语音特征到音素的映射,语言模型用SRILM工具做LM 的训练得到 3-gram and 4-gram, 是词与词、词与句子的映射, 字典是字词对应的音素index集合,是字词 和 音素之间的映射语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 妇幼保健院护理工作流程
- 人口流动对区域经济的影响分析-洞察及研究
- 单证链跨境贸易流程优化-洞察及研究
- 深部岩浆活动演化-洞察及研究
- 小学生作文写作专项提升训练方案
- 二手体育用品的再利用研究-洞察及研究
- 新能源车间安全生产管理细则
- 学习动机策略研究-洞察及研究
- 中考语文现代文阅读分类复习教材
- 职业规划咨询流程标准化操作手册
- 2025-2026学年人教版(2024)九年级物理全册第十四章 内能的利用(单元同步检测练习)(含答案)
- 第1课时 10的加、减法(教学设计)-2024-2025学年一年级上册数学人教版
- 2025至2030中国聚烯烃行业项目调研及市场前景预测评估报告
- 2025四川达州宣汉县国有资产管理服务中心县属国有企业招聘劳动合同职工26人笔试历年参考题库附带答案详解
- 2025年下半年杭州市上城区丁兰街道办事处招聘编外工作人员11人考试参考题库及答案解析
- 2025年合肥市广播电视台(文广集团)招聘12人考试参考题库及答案解析
- 利用“蜜蜂剪辑”和“千博手语”轻松制作听障学生微课
- 普通饮片车间共线生产风险评估报告
- 新教科版小学1-6年级科学需做实验目录
- GB/T 8492-2024一般用途耐热钢及合金铸件
- 读懂诗家语省公开课金奖全国赛课一等奖微课获奖课件
评论
0/150
提交评论