已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10章语音识别 1 3 10 1概述 10 3动态时间规整 10 2语音识别原理 2 一 语音识别的定义 语音识别是指从语音到文本的转换 即让计算机能够把人发出的有意义的话音变成书面语言 通俗地说就是让机器能够听懂人说的话 所谓听懂 有两层意思 一是指把用户所说的话逐词逐句转换成文本 二是指正确理解语音中所包含的要求 作出正确的应答 10 1概述 二 语音识别的应用 语音识别以语音为研究对象 涉及到生理学 心理学 语言学 计算机科学 以及信号处理等诸多领域 最终目的是实现人与机器进行自然语言通信 用语言操纵计算机 随着语音识别技术的逐渐成熟 语音识别技术开始得到广泛的应用 涉及日常生活的各个方面如电信 金融 新闻 公共事业等各个行业 通过采用语音识别技术 可以极大的简化这些领域的业务流程以及操作 提高系统的应用效率 1 语音识别以IBM推出的ViaVoice为代表 国内则推出Dutty 语音识别系统 天信语音识别系统 世音通语音识别系统等 2 数据库检索 对庞大的数据进行繁杂的检索和查询 通过使用语音识别技术 将变得轻松 方便 3 特殊的环境所需的语音命令 用语音发出操作指令 语音识别应用实例 德国西门子公司推出的一种新洗衣机 洗衣物非常专业 知道什么样的脏衣物选择合适洗涤程序和洗涤剂 而主人只需要口头命令即可 比如 半个小时后再洗 与普通洗衣机的不同之处是安装了语音识别芯片 能根据用户的语音指令确定洗涤程序 语音识别用于家用电器 走入人类未来生活 三 语音识别的分类方法 根据所要识别的单位来分 a 孤立单词语音识别 b 选词语音识别 c 连续语音识别 d 语音理解 根据识别的词汇量来分 可以分为小词汇量 10 50个 中等词汇量 50 200个 大词汇量 200个以上 以及无限词汇量语音识别系统 根据讲话人的范围来分 单个特定讲话人多讲话人与讲话者无关 特定人语音识别 非特定人语音识别 根据识别的方法来分 a 模式匹配法 就是将测试语音与模板参数一一进行比较匹配 判决的依据是失真测度最小准则 b 随机模型法 是一种使用HMM的概率参数来对似然函数进行估计与判决 从而得到识别结果的方法 c 概率语法分析法 利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决 该方法使用于大长度范围的连续语言的识别 根据识别的环境来分 有隔音室 计算机房或公共场合 根据传输系统来分 有高质量话筒 电话及近讲话筒等 根据说话人的类型来分 有男声 女声 儿童声等 四 语音识别研究中存在的主要问题 1 语音识别要解决连续讲话的分类 及建立一个理解语义的规则或是专家系统的问题 2 语音信息的变化很大 3 语音的模糊性 4 上下文的相关性 5 环境的噪声和干扰对语音识别的影响 语音识别是一种特殊的模式识别 模式识别就是指计算机对事物的认知 模式是对被认知事物的概括 包括语音 文字 图像 机器的运行状态等等 模式识别的基本原理是 将一个输入模式与保存在系统中的多个标准模式相比较 找出最近似的标准模式 将该标准模式所代表的类名作为输入模式的类名输出 10 2语音识别原理 根据比较输入模式与标准模式的方法不同 模式识别可以分为 模式匹配法 统计识别法和句法模式识别法 其中模式匹配法是最基本 最原理性的模式识别方法 在实际中应用最广泛 目前大多数语音识别系统都是采用模式匹配原理 语音识别的步骤分为两步 第一步 学习或训练 根据识别系统的类型选择能够满足要求的一种识别方法 采用语音分析方法分析出这种识别方法所要求的语音特征参数 这些参数作为标准模式由机器存储起来 形成标准模式库 这个语音参数库称为模式或样本 第二步 识别 根据语音识别整体模型 将输入的语音信号特征与存在的语音模板 参考模式 进行比较 找出一系列最优的与输入的语音相匹配的模板 然后 根据此模板号的定义 通过查表就可以给出计算机的识别结果 输入 预处理 特征提取 输出 图10 1根据模式匹配原理构成的语音识别系统框图 距离测度 测度估计 参考模式库 判决 专家知识库 模式匹配 1 预处理 在语音识别系统中 语音信号预处理主要包括反混叠滤波 模数转换 自动增益控制 去除声门激励及口唇辐射的影响及端点检测等 2 特征提取 特征提取 从语音信号中获取一组能够描述语音信号特征参数的过程 即对不同的语音寻找其内在特征 由此来判别出未知语音 特征提取的基本思想 将信号通过一次变换 去除冗余部分 将代表语音本质的特征参数抽取出来 与特征提取相关的内容是特征间的距离测度 特征的选择对识别效果至关重要 同时 还要考虑特征参数的计算量 语音信号的特征主要有时域和频域两种 时域特征 短时平均能量 短时平均过零率 共振峰 基音周期等 频域特征 线性预测系数 LPC LP倒谱系数 LPCC 线谱对参数 LSP 短时频谱 Mel频率倒谱系数 MFCC 等 目前已有结合时间和频率的特征 即时频谱 充分利用了语音信号的时序信息 以及基于听觉模型的特征参数提取 如感知线性预测 PLP 分析 3 距离测度 用于语音是别的距离测度有多种 如欧氏距离及其变形的距离 似然比距离 加权了超音段信息的识别测度 还有HMM之间的距离测度 主观感知的距离测度等 4 参考模式库 参考模式库使用训练与聚类的方法 由单讲话或多讲话者的多次重复的语音参数 从原始语音样本中去除冗余信息 保留关键数据 经过长时间的训练 再按照一定规则对数据加以聚类得到的 5 训练与识别方法 语音训练和识别的方法很多 如DTW VQ FSVQ LVQ2 HMM TDNN 模糊逻辑算法等 也可以混合使用上述各种方法 DTW 动态时间规整 VQ 矢量量化 FSVQ 有限状态的矢量量化 LVQ2 学习矢量量化 LVQ 的改进 HMM 隐马尔可夫模型 TDNN 时延神经网络 比较经典的方法有三种 1 DTW法 用输入的待识别语音模式和预存的参考模式进行模式匹配 2 HMM法 以统计方法为依据进行识别 3 VQ法 基于信息论中信源编码技术的识别 此外 还有一些混合的派生出来的方法 如VQ DTW FSVQ HMM等 动态时间规整 DTW 算法的思想 把未知量均匀地伸长或缩短 直到它与参考模式的长度一致时为止 在时间规整过程中 未知单词的时间轴要不均匀地扭曲或弯折 以便使其特征与模型特征对正 DTW应用动态规划方法在孤立词语音识别中获得了良好性能 但因其不适合连续语音大词汇量语音识别系统 目前已被HMM模型和ANN替代 动态时间规整 DTW 隐马尔可夫模型是对语音信号的时间序列结构建立统计模型 将之看作一个数学上的双重随机过程 一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程 另一个是与Markov链的每一个状态相关联的观测序列的随机过程 前者通过后者表现出来 但前者的具体参数是不可测的 隐马尔可夫模型 图10 2基于HMM的孤立词语音识别原理图 采用HMM进行语音识别 实质上是一种概率运算 根据训练集数据计算得出模型参数后 测试集数据只需分别计算各模型的条件概率 Viterbi算法 取此概率最大者即为识别结果 除训练时需运算量较大外 识别时的运算量仅有模式匹配法的几分之一 矢量量化主要应用于小词汇量 孤立词的语音识别中 其过程是 将对欲处理的大量语音K维帧矢量通过统计实验进行统计划分 即将K维无限空间聚类划分为M个区域边界 每个区域边界对应一个码字 所有M个码字构成码本 矢量量化 矢量量化识别时 将输入语音的K维帧矢量与已有的码本中M个区域边界比较 按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量 这个对应的码字即为识别结果 再对它进行K维重建就得到被识别的信号 图10 3矢量量化在语音识别中的应用 6 专家知识库 用来存储各种语言学的知识 知识库中要有词汇 语法 句法 语义和常用词语搭配等知识 如汉语声调变调规则 音长分布规则 同音字判别规则构词规则 语法规则 语义规则等 知识库中的知识要便于修改和扩充 7 判决 对于输入信号计算而得的测定 根据若干准则及专家知识 判决选出可能的结果中最好的那个 由识别系统输出 这一过程就是判决 在语音识别中 一般采用K平均最邻近 K NN 准则来进行决策 语音信号具有很强的随机性 不同的发音习惯 发音时所处的环境不同 心情不同都会导致发音持续时间长短不一的现象 如单词最后的声音带上一些拖音 或者带上一点呼吸音 此时 由于拖音或呼吸音会被误认为一个音素 造成单词的端点检测不准 造成特征参数的变化 从而影响测度估计 降低识别率 因此在语音识别时 首先有必要对语音信号进行时间规整 10 3动态时间规整 一 动态时间规整的提出 二 动态时间规整的定义 为了提高识别率 克服发同一音而发音时间长短的不同 采用对输入语音信号进行伸长或缩短直到与标准模式的长度一致的方法 这个过程称为时间规整 三 动态时间规整的原理描述 算法的思想是把未知量伸长或缩短 压扩 直到与参考模板的长度一致 在这一过程中 未知单词的时间轴会产生扭曲或弯折 以便其特征量与标准模式对应 DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术 测试语音参数共有I帧矢量 而参考模板共有J帧矢量 I和J不等 寻找一个时间规整函数j w i 它将测试矢量的时间轴i非线性地映射到模板的时间轴j上 并使该函数w i 满足 1 原理描述 是第i帧测试矢量T i 和第j帧模板矢量R j 之间的距离测度 是最优时间规整情况下所有矢量帧间的距离 也称为代价函数 A B j i j i 时间规整函数j w i 为了使T 测试 的第i个样本与R 参考 的第j个样本对正 其对应的点不在直线对角线上 得到一条弯曲的曲线j w i j w i 称为规整函数 图10 4动态时间规整 2 时间规整解决的问题 设T a1 a2 ai aI i 1 I R b1 b2 bj bJ j 1 J I J时间规整要解决的问题是使元素a和元素b之间匹配 使每对匹配样本之间的差别最小 达到欧氏距离最小 3 动态时间规正法 DTW 的具体解法 行进方向 ck i j i j 1 i 1 j 1 i 1 j i 2 j 1 i 1 j 2 i j 2 2 2 1 1 2 1 2 2 1 行进方向的另一种解释 d T i R j d T i R j 1 g i 1 j 2 i j 2 1 g i j g i 1 j 1 i j 2 d T i R j g i j d T i R j d T i 1 R j g i 2 j 1 i j 2 1 g i j 由规定的行进方向可知在任意一点 i j 其g T i R j g i j 代价函数值 可由它前面的点g i 1 j 2 或g i 1 j 1 或g i 2 j 1 按下式计算 最佳匹配失真测度 距离D T R g I J I J 每一个点的总代价函数是前一点总代价函数与到达该点的代价函数之和的最小值 实现时间规整的决策过程称为动态规划计划 总代价函数 四 动态时间规正法 DTW 的计算实例 例1 设待识语音模式为T acc 参考模式为R cbac 若a b c之间的距离分别为 d a b d b a 2 d a c d c a 3 d b c d c b 1 d a a d b b d c c 0试用DTW法 在点阵图上画出最佳匹配路径 并计算出最佳匹配距离D T R 2 a c c a c b c R 3 1 i j 1 2 3 4 c c a c g 3 4 g 1 1 d a c 3 标号 标号 2 a c c a c c b R 3 1 i j 1 2 3 4 c c a c g 2 2 g 2 3 g 1 3 g 3 4 2 2 2 2 a c c a c c b R 3 1 i j 1 2 3 4 c c a c g 1 3 2 a c c a c c b R 3 1 i j 1 2 3 4 c c a c g 2 2 2 a c c a c c b R 3 1 i j 1 2 3 4 c c a c g 2 3 g 1 2 2 a c c a c c b R 3 1 i j 1 2 3 4 a c g 1 3 g 3 4 j 时间规整函数j w i i 2 3 1 1 2 3 4 D T R g I J I J g 3 4 3 4 5 7 例2 设待识语音模式为T 1234 参考模式为R 124 若各数字之间的距离分别为 d 1 2 d 2 1 d 3 2 d 3 2 d 3 4 d 4 3 1 d 1 3 d 3 1 d 2 4 d 4 2 2 d 1 1 d 2 2 d 3 3 d 4 4 0试用DTW法 在点阵图上画出最佳匹配路径 并计算出最佳匹配距离D T R T i 1234 1 2 3 4 1 2 4 R j 1 2 4 4 4 g 4 3 1 1 g 1 1 g 3 1 g 3 2 g 2 2 T i 1 2 3 4 1 2 4 R j 4 4 g 4 3 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东广州市白云区人民政府三元里街道办事处第三次招聘就业见习生3人参考题库(含答案详解)
- 锻件生产销售合同范本
- 2025年甘肃省平凉市泾川县服务支持艰苦边远地区和基层一线文化工作者招聘参考题库附答案详解(综合题)
- 2025广西桂林市龙胜各族自治县事业单位直接考核招聘服务期满且考核合格以上“三支一扶”人员6人参考题库及答案详解参考
- 2025年湖南省省直及部分省辖市事业单位招聘考试真题试卷 公共基础知识附答案详解(达标题)
- 2025广西壮族自治区海洋环境监测中心站招聘第三批编外工作人员2人参考题库含答案详解(突破训练)
- 2025年大学《动物医学-兽医临床诊断学》考试备考试题及答案解析
- 2025年辽宁省事业单位招聘考试模拟试卷 公共某础知识(三)及完整答案详解一套
- 2025年湖南株洲市事业单位招聘高层次人才62人参考题库含答案详解(能力提升)
- 2025年大学《电影学-电影类型研究》考试备考试题及答案解析
- 混凝土质量控制要点
- GB/T 31402-2023塑料和其他无孔材料表面抗菌活性的测定
- 平面构成-特异构成的创意设计
- (完整word版)PEP五年级上册英语教案
- 银行跨银行现金管理产品运维外包管理办法模版
- 室内装饰工程施工进度横道图
- 绿色化学工艺-绿色技术教学课件
- 熔铝工安全操作规程
- 建筑电气基础知识第一章
- 国开电大应用写作(汉语)形考任务5参考答案
- 三标体系内审员培训课件
评论
0/150
提交评论