硕士论文-噪声环境下汉语连续语音识别技术研究.pdf_第1页
硕士论文-噪声环境下汉语连续语音识别技术研究.pdf_第2页
硕士论文-噪声环境下汉语连续语音识别技术研究.pdf_第3页
硕士论文-噪声环境下汉语连续语音识别技术研究.pdf_第4页
硕士论文-噪声环境下汉语连续语音识别技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

硕士论文-噪声环境下汉语连续语音识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北大学 硕士学位论文 噪声环境下汉语连续语音识别技术研究 姓名 王艳 申请学位级别 硕士 专业 计算机软件与理论 指导教师 冯宏伟 20100621 摘要 语音识别已经有了半个多世纪的研究历史 取得了很大的进展 当前的语音识别系 统在纯净语音环境中已经获得了非常高的识别精度 但在现实应用中 无处不在的噪声 使得系统的识别性能大幅度降低 抗噪声问题是语音识别系统实用化的关键问题之一 本文主要研究加性噪声环境下的汉语连续语音识别技术 首先介绍了语音识别的基 本原理 语音识别系统的组成及其关键技术 随后介绍了噪声的分类和各种抗噪声技术 在此基础上本文的主要工作有 1 在个人电脑平台上实现了一个中等词汇量 非特定人的汉语连续语音识别系统 系统采用带调音节作为识别基元 M e l 频标倒谱系数作为特征参数 隐马尔可夫模型作 为识别模型 并对其进行实验 分析系统的性能 2 在汉语连续语音识别中 准确检测出音节的始点和终点是很重要的一步 现有 的汉语连续语音端点检测方法在纯净语音环境下检测准确率很高 但在噪声环境下准确 率大幅度降低 本文根据汉语连续语音的特点以及噪声的特性 提出了基于元音检测的 汉语连续语音端点检测方法 有效提高了噪声环境下端点检测的准确率 3 语音识别系统处理的对象是特征参数 特征参数的抗噪性能对系统的抗噪性能 影响很大 本文在分析传统M e l 频标倒谱系数提取过程的基础上 结合小波包分析和滤 波器加权分析 提出了一种新的特征参数提取方法 实验结果表明 改进后的特征参数 比传统M e l 频标倒谱系数具有更高的识别率和更好的抗噪性能 关键词 汉语连续语音识别 端点检测 特征提取 隐马尔可夫模型 抗噪 A b s t r a c t S p e e c hr e c o g n i t i o nh a sb e e nr e s e a r c h e df o rm o r et h a nh a l fac e n t u r y a n dg r e a tp r o g r e s s h a sb e e nm a d e T h o u g hc u r r e n ts p e e c hr e c o g n i t i o ns y s t e mh a sb e e na c h i e v e dv e r yh i g h r e c o g n i t i o na c c u r a c yi nt h ec l e a ns p e e c he n v i r o n m e n t t h eu b i q u i t o u sn o i s es i g n i f i c a n t l y r e d u c e st h ep e r f o r m a n c eo ft h es y s t e m T h e r e f o r e A n t i n o i s yt e c h n o l o g yi sav e r yc r u c i a l p r o b l e mf o rs p e e c hr e c o g n i t i o ni nt h ea p p l i c a t i o n T h em a i ns t u d yo ft h i sp a p e ri st h ek e yt e c h n o l o g i e so fC h i n e s ec o n t i n u o u ss p e e c h r e c o g n i t i o n F i r s t l yt h ep a p e ri n t r o d u c e st h ep r i n c i p l eo fs p e e c hr e c o g n i t i o n t h ec o m p o s i t i o n a n dk e yt e c h n o l o g i e so fs p e e c hr e c o g n i t i o ns y s t e m a n dS Oo n A n dt h e ni ti n t r o d u c e st h e c l a s s i f i c a t i o no fn o i s ea n dv a r i o u sa n t i n o i s yt e c h n o l o g i e s O nt h eb a s i s t h em a i nw o r ko ft h i s p a p e ri sa sf o l l o w s 1 Am e d i u m v o c a b u l a r y a n d s p e a k e r i n d e p e n d e n t C h i n e s ec o n t i n u o u s s p e e c h r e c o g n i t i o ns y s t e mi sa c h i e v e do nap e r s o n a lc o m p u t e r T h i ss y s t e mc h o o s e st h es y l l a b l ea s r e c o g n i t i o nu n i t t h eM F C C 鹤f e a t u r ep a r a m e t e r s a n dt h eH i d d e nM a r k o vM o d e la s r e c o g n i t i o nm o d e l A n dt h e nw em a k ee x p e r i m e n t so nt h es y s t e mt oa n a l y z et h ep e r f o r m a n c e o ft h ew h o l es y s t e m 2 H o wt oa c c u r a t e l yd e t e c tt h es t a r ta n dt h ee n dp o i n to fs y l l a b l ei sav e r yi m p o r t a n ts t e p i nC h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o n T h ee x i s t i n gC h i n e s ec o n t i n u o u ss p e e c he n d p o i n t d e t e c t i o nm e t h o dC a no b t a i nv e r yh i g ha c c u r a c yi nc l e a ns p e e c he n v i r o n m e n t w h i l et h e a c c u r a c yw i l lb es i g n i f i c a n t l yr e d u c e di nn o i s ye n v i r o n m e n t A c c o r d i n gt ot h ef e a t u r eo f C h i n e s ec o n t i n u o u ss p e e c ha n dn o i s e a ni m p r o v e dm e t h o db a s e do nv o w e li sp r o p o s e di nt h i s p a p e r w h i c hC a ne f f e c t i v e l yi m p r o v et h ee n d p o i n td e t e c t i o na c c u r a c yi nn o i s ye n v i r o n m e n t 3 W h a tt h es p e e c hr e c o g n i t i o ns y s t e mp r o c e s s e sa r ef e a t u r ep a r a m e t e r sw h o s ea n t i n o i s y p e r f o r m a n c eC a nh e l pi m p r o v et h es y s t e m Sp e r f o r m a n c e B a s e do na n a l y z i n gt h et r a d i t i o n a l M e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t se x t r a c t i o n w a v e l e tp a c k e ta n dw e i g h t e df i l t e r an e w m e t h o do ff e a t u r ee x t r a c t i o ni sp r o p o s e d T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ei m p r o v e d f e a t u r ep a r a m e t e r sC a na c h i e v eh i g h e rr e c o g n i t i o nr a t ea n db e t t e ra n t i n o i s yp e r f o r m a n c et h a n t h et r a d i t i o n a lf e a t u r ep a r a m e t e r s K e yw o r d s C h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o n e n d p o i n td e t e c t i o n f e a t u r e e x t r a c t i o n H i d d e nM a r k o vM o d e l H M M a n t i n o i s e 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集 保存 使用学位论文的规定 学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版 本人 允许论文被查阅和借阅 本人授权西北大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制 手段保存和汇编本学位论文 同时授权中国科学技术信息研究所等机构 将本学位论文收录到 中国学位论文全文数据库 或其它相关数据库 保密论文待解密后适用本声明 学位论文作者签名 聋氅2 指导教师签名 0 如一年厂月上J 日圳 年乡月列日 西北大学学位论文独创性声明 本人声明 所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果 据我所知 除了文中特别加以标注和致谢的地 方外 本论文不包含其他人已经发表或撰写过的研究成果 也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料 与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意 学位论文作者签名 王籼 曲 o 年占月叫日 西北大学硕士学位论文 第一章绪论 1 1 语音识别简介 1 1 1 语音识别技术概述 自从1 9 4 6 年第一台计算机E N I A C 在美国宾夕法尼亚大学诞生以来 计算机的发展 已经经历了电子管计算机 晶体管计算机 中 小集成电路计算机和大规模 超大规模 集成电路计算机四个阶段 最初的计算机只是用来做一些简单的科学计算 随着科学技 术的飞速发展 计算机的功能已经变得非常强大 应用领域遍及人类社会的各个行业 各个方面 计算机虽然功能强大 但传统的人机交互方式 屏幕 键盘和鼠标等 已经 不能满足人类应用的需求 专家学者们正致力于智能计算机的研究 希望计算机能够具 有人类的智能 人机交互能够像人与人之间的交流一样便捷 1 1 作为智能计算机研究的 重要方向和人机语音通信的关键技术 语音识别从诞生初期就被赋予厚望 受到科学界 的广泛关注 语音识别就是让计算机通过识别和理解 将人类的语音信号转变为相应的文本或命 令的技术 其根本目的是让计算机具备人类的听觉功能 能接受人类的语音并理解人类 的意图 2 3 1 语音识别是 f 7 涉及很广的交叉学科 与模式识别 信号处理 通信 语 音语言学 生理学 心理学及人工智能等诸多学科有着紧密的联系 语音识别的分类方式很多 按照不同的角度有不同的分类方法 4 根据识别对象的不同 可以分为孤立词识别 连接词识别和连续语音识别 孤立词 识别以孤立音素 孤立字 孤立词为识别对象 说话者每次只说一个字 词或者一条命 令作为待识别语音 连接词识别以连续数字 指令等为识别对象 一般指由数字连接而 成的数字串识别或由少数指令构成的连接指令的识别 连续语音识别以日常生活中人类 的流畅说话方式即连续语音为识别对象 所识别的是包含完整语法语义规则的一句话或 者一组句子 并将其转化为相应的文本或者指令 根据系统可识别词汇量的大小 可以分为小词汇量 几十个 中等词汇量 几百 个 和大词汇量 一千个以上 语音识别 每个语音识别系统都有一个词汇表 系统只 能识别词汇表中所包含的词条内容 词汇量的大小对语音识别系统的实现影响很大 一 般说来 词汇量越大 系统复杂度越大 实现就越困难 根据使用者的限定范围不同 可以分为特定人 s p e a k e r d e p e n d e n t 语音识别和非 特定人 s p e a k e r i n d e p e n d e n t 语音识别 特定人语音识别系统只能识别某一个人或特定 第一章绪论 数目人的语音 每个使用者在使用前都需要对系统进行训练 系统为每一个人设定一个 专门的模板库 在识别时 系统会根据使用者的不同选择不同的模板库进行识别 非特 定人语音识别可以识别任何人的语音 系统经过训练后 使用者无需重新训练模板库 可以直接使用系统进行语音识别 非特定人语音识别系统的通用性强 应用范围广 但 系统实现难度较大 且不容易得到高的识别率 此外 根据识别方法的不同 可以分为模板匹配法 随机模型法和概率语法分析法 语音识别 根据使用方式的不同 还可以将语音识别分为实时型语音识别和离线型语音 识别两种 1 1 2 国内外语音识别技术研究与发展 人们对语音识别技术的研究最早可以追溯到二十世纪五十年代 A T TB e l l 实验室 开发了第 个可识别十个英文数字的特定人语音识别系统 A n d r yS y s t e m 随后R C A 研究所和M I TL i n c o l n 实验室分别开发了可识别十个音节的特定人语音识别系统和可以 识别十个元音的非特定人语音识别系统 这一时期相关的理论及技术水平较低 主要根 据频谱的差异来区分不同的语音 识别效果并不是太好 到了二十世纪六十年代 随着计算机软 硬件设施的不断改善及语音识别理论技术 水平的不断提高 语音识别技术有了实质性的进展 这一时期的主要成果是动态规划技 术 D y n a m i cP r o g r a m m i n g D P 和线性预测分析技术 L i n e a rP r e d i c t i o n L P 的提出 动 态规划技术较好地解决了待测语音与系统模板时长不等带来的失配问题 线性预测分析 技术则解决了语音信号产生模型的问题 提供了一种性能较好的语音特征参数 对语音 识别的发展具有深远的影响 二十世纪七十年代 自然语言理解的研究和微电子技术的快速发展使得语音识别研 究取得了突破性进展 线性规划技术得到进一步发展 动态时间规整技术 D y n a m i cT i m e W a r p i n g D T W 也日趋成熟 并成功研发出基于线性预测倒谱系数和动态时间规整技术 的特定人孤立词语音识别系统 同时 矢量量化 V e c t o rQ u a n t i z a t i o n V Q 和隐马尔可 夫模型 H i d d e nM a r k o vM o d e l H M M 也成功应用于语音识别领域 这一切都预示着语 音识别的新时代即将到来 进入二十世纪八十年代 连续语音识别成为重点研究对象 出现了大量的连续语音 识别技术 传统的模板匹配模型不适合连续语音识别 识别模型开始从模板匹配模型转 向基于统计技术的模型 语言模型从规则描述转向统计描述 相继出现了许多成功的连 2 西北大学硕士学位论文 接词 连续语音识别系统 隐马尔可夫模型在语音识别中得到了广泛应用 人工神经网 络 A r t i f i c i a lN e u r a lN e t w o r k s 朋州 也被引入到语音识别领域 最具有里程碑意义的 是美国C M U 大学利用支持矢量积和隐马尔可夫模型开发的可以识别9 9 7 个词的非特定 人大词汇量连续语音识别系统 九十年代以后 语音识别技术更加成熟 在细化模型设计 参数提取和优化及系统 自适应等方面均取得了关键性的进展 随着科技的发展 多媒体技术的普及 语音识别 开始由实验室走向实用化 比较有代表性的产品有m M 公司的V i aV o i c e 语音录入系统 微软公司的W h i s p e r 系统等 5 J 我国的语音识别研究起始于五十年代后期 1 9 5 8 年 中科院声学所利用频谱分析的 方法实现了对汉语十个元音的识别 1 9 8 7 年 国家8 6 3 智能计算机主题专家组为语音识 别立项 国内 些科研机构和高校相继投入到语音识别研究之中 如中科院声学所 自 动化所 北京大学 清华大学等著名高校也设立了专门的语音识别研究实验室 经过几 十年的研究 我国的语音识别研究水平已经基本上与国际同步 并且在汉语语音识别方 面具有独特的优势 对汉语语音识别的研究已经达到了世界领先水平 4 1 1 2 噪声环境下连续语音识别的意义 1 2 1 连续语音识别的意义 连续语音识别的最终目的就是让计算机能够听懂人类的语言 使人类可以通过语音 对话与计算机进行交互 近年来 连续语音识别成为语音识别研究的难点与热点 相关 技术也逐步成熟 连续语音识别系统将是未来语音识别产品的主流 连续语音识别应用 前景非常广泛 它的发展 成熟及实用化将推动许多诸如计算机 办公自动化 信息通 信 智能机器人等产业飞速发展 近年来连续语音识别的应用领域主要有 语音录入系 统 声控系统 数据库检索 外文翻译 语音通信 计算机辅助教学 自动身份确认等 领域 基本上覆盖了人类社会的各个方面 各个领域1 6 1 2 2 抗噪技术在语音识别中的意义 目前 纯净语音环境下的语音识别技术已经较为成熟 连续语音识别系统对纯净语 音的识别已经取得非常高的识别精度 现有的语音识别系统一般都是在实验室中利用高 质量麦克风采集语音 对系统进行训练得到模板 识别也是在安静环境下进行 因此系 统识别率很高 如I B M 公司的V i a V o i c e 系统 在纯净语音环境下系统的识别率可达9 5 但在现实生活当中 噪声无处不在 语音极易受到噪声的干扰 使得待识别语音特征矢 3 第一章绪论 量与训练模板失配 系统识别性能大幅度降低 7 1 抗噪问题是连续语音识别能够真正达 到实用化的关键所在 抗噪技术研究的目标就是降低噪声对系统的影响 消除由噪声引起的识别环境与训 练环境差异过大导致的失配 使识别系统在外界噪声干扰的情况下 仍然能够取得高识 别率 尽可能接近实验室环境下的性能 语音识别中失配语音模型可表示如下 8 y f p f l 啊 f k 妇o 刀 o 宰扫湘o 玎 o 1 1 在式 1 1 中 n I t 表示背景噪声 k 妇 f 表示麦克风脉冲响应 刀 f 与 f 分 别表示工作背景噪声响应 信道脉冲响应 n 3 t 表示接收端的背景噪声 表示卷积 若只是考虑加性噪声的影响 噪声的分类在第三章有详细介绍 式 1 1 可以简化 为 y f s 乃 刀 1 2 1 3 本文主要工作及创新 本文的工作主要是设计并实现了一个汉语连续语音识别系统 并通过实验研究系统 的抗噪性能 针对其中存在的问题进行改进 本文选取带调音节作为识别基元 利用M e l 频标倒谱系数和隐马尔可夫模型实现了 一个中等词汇量 非特定人的汉语连续语音识别系统 通过实验研究不同信噪比下系统 的识别率 端点检测的准确性对系统的识别性能影响很大 传统的端点检测技术在非连 续的纯净语音中检测准确度很高 但在含噪型的连续语音中检测准确率大幅度降低 针 对这一问题 本文在考虑噪声和汉语连续语音特性的基础上 提出了基于元音检测的汉 语连续语音端点检测方法 有效提高了噪声环境下连续语音的端点检测准确度 传统的 M e l 频标倒谱系数在提取过程中存在着不足 针对这一问题 本文提出了基于小波包分 析和滤波器加权的提取改进方法 有效地提高了特征参数的抗噪性能 1 4 本文章节安排 本文具体章节内容安排如下 第一章绪论 首先介绍了语音识别的基本知识和国内外语音识别技术的研究与发 展 然后介绍了噪声对语音识别的影响和抗噪连续语音识别研究意义 第二章语音识别系统构成 首先介绍了语音识别的基本原理和语音识别系统的组 4 西北大学硕士学位论文 成 然后简要介绍了语音识别系统的各个组成部分及相关技术 第三章语音抗噪技术简介 首先介绍了噪声的分类 噪声对连续语音识别的影响 然后介绍了目前常用的各种语音识别抗噪技术 并分析对比了各种抗噪技术的优缺点 第四章噪声环境下端点检测技术研究 首先介绍了传统的端点检测技术 并分析传 统方法中存在的问题和不足之处 结合噪声的特性和汉语连续语音的特点 提出了一种 基于元音检测的汉语连续语音端点检测方法 实验结果表明 基于元音检测的端点检测 方法可以有效提高噪声环境下汉语连续语音端点检测的准确率 第五章噪声环境下特征提取方法研究 首先介绍了传统M e l 频标倒谱系数的提取过 程以及存在的问题 然后提出了一种基于小波包分析和滤波器组加权分析的M e l 频标倒 谱系数提取改进方法 实验结果表明 改进后的方法所提取的参数比传统的M e l 频标倒 谱系数在识别率及抗噪性能方面都有较大提高 第六章实验及结果分析 首先介绍了本文所实现系统的软 硬件环境 语音库的建 立 声学模型及语言模型等 然后用本文第四 五章提出的方法对系统进行改进 并进 行实验 对改进后的系统与原有系统进行对比 分析 验证本文提出方法的有效性 最后总结与展望 首先总结了本文所做的工作以及取得的成果 分析了存在的问题 以及需要改进的地方 然后对汉语连续语音识别的发展进行展望 明确了下一步的研究 方向 西北大学硕士学位论文 第二章语音识别系统构成 2 1 语音识别基本原理 语音识别本质上属于模式识别的范畴 虽然按照不同的标准语音识别系统有不同的 分类 且每一类识别系统的具体实现技术都有所不同 但所有系统的基本原理和主要组 成部分都是相同的 语音识别系统一般都包括语音信号预处理 特征参数提取 语音样 本模型训练 模式匹配及后处理 4 2 1 等几个部分 语音识别系统的基本结构图如图2 1 所 示 图2 1 语音识别基本结构图 预处理过程主要包括滤波 采样和量化 预加重 加窗分帧 端点检测等 主要实 现对输入语音信号的数字化转变 提升信号中的有用信息 消除噪声影响 并检测出输 入语音信号中语音段落的起点和终点 特征提取是语音识别中非常重要的一步 其主要目的是提取出语音中能够反映语音 本质特征的声学参数 如短时能量 平均过零率 共振峰等 特征参数提取本质上是对 语音信号的降维 用维数较低的特征参数来代替语音信号 特征参数的选取非常重要 对语音识别系统的性能影响很大 特征参数除了要能很好地反映语音信号的本质特征 外 还要计算简便 最好有高效的计算方法 以保证语音识别系统的实时实现 语音样本模型训练阶段的目的是通过训练生成系统的模式库 在训练阶段 系统对 训练语音进行分析处理 提取出识别基元的特征参数 并按照一定的方法生成模板存入 系统模式库中 系统训练对语音识别系统非常重要 对于基于统计模式的语音识别系统 只要训练足够充分 系统就可以达到很高的识别性能 模式匹配是整个语音识别系统的核心 它是根据 定规则 如距离测度 及先验知识 如词法规则 语法规则 语义规则等 来计算输入语音的特征参数与系统模式库中模 板之间的相似度 选择出相似度最高的模板序列作为识别结果 然后将输入语音序列转 化为对应的文本序列 9 1 7 第二章语音识别系统构成 2 2 语音预处理 2 2 1 预滤波与数字化 在语音信号进行采样和量化之前 需要首先进行防混叠滤波和防工频干扰滤波 滤 波的目的有两个 第一 滤除输入的语音信号各频率分量中频率超过六 2 的所有分量 其中六为采样频率 将信号带宽限制于某个范围内以防止混叠干扰 第二 抑制5 0 H z 的电源干扰 防混叠滤波与防工频干扰滤波可以在一个集成块中实现 语音信号是随时间变化而不断变化的一维模拟信号 而计算机可以处理的信号必须 在时域和频域上都是离散的数字信号 因此必须将预滤波后的语音信号通过A D 变换器 变换为时间和幅度都离散的数字信号 从模拟信号到数字信号的转化需要经过采样 量 化两个阶段来完成 采样只能将信号在时域上离散 但是幅度上仍然连续 而量化可以 使信号波形的幅度值离散化 砌 语音信号的A D 转换过程如图2 2 所示 圈一圈日国日匝卫 模扫售号采样 量化数字信号 图2 2A D 转换过程示意图 2 2 2 预加重 对语音信号进行预加重处理是为了提升语音信号的高频部分 在人类的发声过程 中 语音会受声门激励和口鼻辐射的影响 语音的高频端 8 0 0 H z 以上 将以6 d B 倍频 幅度跌落 通过预加重处理 可以使语音信号的频谱变得平坦 便于对频谱及声道参数 的分析 预加重处理可以在采样和滤波之前进行 也可以在采样之后进行 前一种方式 的预加重处理不仅能够压缩语音信号的动态范围 还能够有效地提高信噪比 后一种方 式主要是利用6 d B 倍频程的预加重数字滤波器来提升高频部分 1 1 一阶数字滤波器可表 示为 H z 1 一胆 2 1 在式 2 1 中 为预加重系数 取值一般在0 9 0 9 7 之间 本文系统中 取值为 0 9 4 7 5 2 2 3 加窗分帧 语音信号是一种非平稳的时变信号 是由人类的发声器官振动引发的 人类发声器 官的物理运动比声音振动速度要缓慢的多 因此 在一个短时范围内 1 0 m s 3 0 m s 可以认为语音信号是稳定的 即语音信号具有短时平稳性 对语音信号的分析及处理都 西北大学硕士学位论文 是建立在 c 短时 基础之 L t t o 一般将语音信号分割为若干个短时片段 用来保证在每个短时段内语音信号可以近 似看作是具有稳定特性的平稳信号 每个短时语音信号段称为一帧 为了避免帧间的变 化度过大 相邻两帧之间需要有部分重叠 称之为帧移 帧移与帧长的比值一般在 l 2 之间 如果每帧有 个采样点 且帧移为M 个采样点 则第f 个样本与输入的语音信号 的关系为 1 0 X 刀 X M O 一1 刀 2 2 在式 2 2 中 f 取值为0 一l 分帧可以通过对语音信号加窗处理来实现 加窗指用一个有限长度的窗函数在语音 信号上滑动 将语音信号分为短时平稳段 常用的窗函数主要有矩形窗 汉明窗和汉宁 窗等 其定义分别如下 其中N 为帧长 矩形窗 川 凝州1 仁3 汉明窗 一t O5 廿4 0 w n 4 6 c s 2 删 嘞 o 刀 一1 2 4 I v 其它 2 4 汉宁窗 w 加撰髦譬 s 2 酬 1 眍胚 1 2 5 以功2 o 巍 2 5 语音信号短时分析与窗函数有着非常密切的联系 对语音信号的时域分析来讲 窗 函数的形状是非常重要的 窗函数的选择要遵循以下原则 1 主瓣宽度 主瓣越窄 频率分辨率越高 2 旁瓣幅度 旁瓣越低 衰减越快 频率泄露越少而幅度分辨率也就越高 对比三种窗函数 矩形窗虽然主瓣窄 但是旁瓣太高 会发生泄露现象 汉宁窗虽 然主瓣比矩形窗宽 但是旁瓣较低 衰减较快 因此泄露现象比矩形窗小的多 汉明窗 由汉宁窗和矩形窗拼接而成 形状介于二者之间 具有平滑的低通特性 1 2 1 2 2 4 端点检测 端点检测的目的是从语音信号中检测出特定语音段落的起始点和终止点 语音信号 所包含的信息非常大 其中夹杂着许多的无声段及短时噪声等冗余信息 大量的冗余信 第二章语音识别系统构成 息不仅降低了语音的质量 也使得语音信号的存储与处理变得非常复杂 因此 在对语 音信号进行处理之前 通常先采用端点检测技术检测出语音信号中的特定语音段落 排 除噪声段和无声段 从而减少语音信号的存储开销 降低信号处理难度 常用的端点检 测方法有如下几种 1 3 1 基于短时能量的端点检测方法 短时能量反映了语音振幅或能量随时间缓慢变 化的规律 语音信号的短时能量定义如下 E s 聊 w 拧一m 2 2 6 在式 2 6 中 s m 为语音信号 w n 一研 为对应的窗函数 在信噪比较高的情况下 语音段的能量远大于噪声段的能量 因此只要计算出输入 语音信号每一帧的能量 就可以检测出语音段与噪声段 区分有声与无声 但在现实生 活中 噪声种类繁多无处不在 很难保证输入语音始终保持很高的信噪比 同时 语音 中的弱摩擦音和鼻音能量较小 很容易被噪声覆盖 因此 在实际应用之中 仅靠语音 信号的短时能量很难准确检测出语音的端点 2 基于短时能量和短时平均过零率的检测方法 也称为双门限比较法 双门限端 点检测法是在短时能量检测法的基础上 加上短时平均过零率 综合利用两种参数来实 现可靠的端点检测 语音信号的幅度是随着时间的变化而不断变化的 相邻两个采样值的符号发生变化 称为过零 单位时间内语音信号过零的次数称为过零率 短时平均过零率定义如下 乙 寺 I s g n L x m s g n x 所一1 l 2 7 在式 2 7 中 s g n 是符号函数 定义如下 s g n x n L 蕊兰 亿8 基于短时能量和短时平均过零率的端点检测方法如图2 3 所示 语音中总会包含能 量较大的浊音 因此设置一个短时能量的高门限瓦 当语音信号的能量值大于高门限瓦 时 就认为语音信号处于语音段 根据此高门限可以粗略检测出语音段的起始点彳和终 止点B 语音在起始段与终止段的能量较小 因此需要设置一个短时能量的低门限乃来 检测语音段更精确的起止点 得到起始点C 和终止点D 对于语音中的清音 其能量很 小 无法用能量来检测 但清音段的过零率明显高于噪声段和无声段 因此设置过零率 l O 西北大学硕士学位论文 门限 来检测清音 得到最终的语音起始点E 和终止点F 图2 3 双门限法端点检测 由此 可将整个语音分为四段 静音段 过渡段 语音段和结束 在静音段 如果 短时能量超过了能量低门限或者短时过零率超过了过零率门限 则可能为语音的开始 标记起点 进入过渡段 在过渡段中 如果能量与过零率都回落N f l 限值以下 则此段 不是语音段 重新进入静音状态 如果能量超过了高门限 则可以确定进入了语音段 在语音段中 如果能量降到能量低门限以下或者过零率降到了过零率门限以下且持续了 一定时间 则认为语音段结束 能量值降低到能量低门限以下或过零率降低冱0 过零率门 限以下的时刻即为结束点 对于检测出的语音段 如果语音段时长小于语音最短时长 则认为该段是由突发噪声引起的噪声段 2 3 语音特征提取 特征参数提取就是从语音信号中提取最能够代表语音本质的特征 同时尽量去除那 些对语音识别来说无关的冗余信息 如背景噪声等 提高系统的识别率 特征提取本 质上是对语音信号的降维 用较少的维数代表语音 便于语音识别系统存储和处理 因 此 特征参数的选择对语音识别系统的性能影响很大 一般来说 理想的语音特征参数 应符合以下条件 第一 特征参数要能有效地代表语音信号信息 不同语音信号的特征参数之间要有 良好的区分性 第二 各阶参数之间应具有良好的独立性 即互不相关 且在保持识别率较高的 情况下 特征参数的维数应尽可能少 第三 特征参数应计算简单 以保证识别系统的实时性 语音信号的特征参数主要有时域参数和频域参数两种 时域特征参数包括短时能 第二章语音识别系统构成 量 短时平均过零率 共振峰和基音周期等 频域特征参数包括线性预测系数 L i n e a r P r e d i c t i o nC o e f f i c i e n t L P C 线性预测倒谱系数 L i n e a rP r e d i c t i o nC e p s t r u mC o e f f i c i e n t L P C C 短时频谱和M e l 频标倒谱系数 M e lF r e q u e n c yC e p s t r u mC o e f f i c i e n t M F C C 等 目前 常用的特征参数有 线性预测系数 L P C 线性预测倒谱系数 L P C C 和 M e l 频标倒谱系数 M F C C 1 4 1 2 3 1 线性预测倒谱系数 线性预测 L i n e a rP r e d i c t i o n L P 分析是语音信号分析中最有效的方法之一 被广 泛地应用于语音信号处理的各个方面 线性预测的主要思想是 语音信号的采样点之间 具有相关性 因此可以用过去的样点值来预测当前或者以后的样点值 线性预测系数 L i n e a rP r e d i c t i o nC o e f f i c i e n t L P C 是一种基于语音合成的特征参数 是通过模拟人的发声器官来提取语音的特征 人类语音的产生过程可以用声管模型来模 拟 语音信号的声管模型如图2 4 所示 全极点线性预测模型可以对声管模型进行很好 的描述 语音信号的激励源是由肺部气流的冲击引起的 声带进行周期振动则产生浊音 否则产生清音 浊音信号是由一个周期的脉冲序列激励一个线性系统所产生的输出 日 z G z y z 尺 z 而清音信号是由白噪声序列激励一个线性系统所产生的输出 H z 由声道响应y z 与辐射模型R z 相级联而成 日 z y z R z 每段声管对应 于一个L P C 模型的极点 一般情况下选择1 2 到1 6 个极点就可以清晰地描述语音信号 的特征 弋 L 人弋广 J 蠢腻墨 声道梗塑辐射梗星 图2 4 语音信号的声管模型 语音信号当前的采样值可以用它前面若干个采样值的线性组合来逼近 预测误差值 等于真实采样值与预测值之差 根据预测误差均方值最小的原则 就可以唯一确定一组 预测系数 1 1 5 1 1 2 西北大学硕士学位论文 线性预测系数的计算过程如下 对于一个线性预测系统来说 采样点1 1 的输出值s n 可用前p 个样本值的线性组合 来近似表示 1 5 s 圭吼s Q 一七 G 刀 2 9 k l 其中 吼为常数 G u n 是归一化冲击响应与其增益系数的乘积 假定系统输出的估计i n 为 则估计误差e n 可表示为 歹 力 兰叩 撑一七 2 1 0 P P 刀 s 疗 一 s 刀 一 a k s n k 2 1 1 k i 定义起点为n 的短时语音信号和误差信号 S n 聊 s n 柳 e n 研 e n 聊 则误差平方和可表示为 E P m k 历 一 P 即一 朋一七 l r z 朋 nIk l l 式 2 1 3 对各阶L P C 系数求导数并令其等于零 则可以得到 2 1 2 2 1 3 P m i s m 玩 m i s 玎 m k 2 1 4 埘七 l埘 根据相关函数的定义 可以得到 纸 f o 丸q n i 七 k 1 2 P 2 1 5 k l 式 2 1 5 表示由P 个方程构成的方程组 未知数为P 个 求解式 2 1 5 就可以得到系统的线性预测系数 求解该式的方法很多 主要有自 相关法 协方差法和格型法 自相关法如莱文逊 杜宾 L e v i n s o n D u r b i n 递推算法和舒 尔 S c h u r 递推算法等 协方差法如乔里斯基 C h o l e s k e y 分解法等 格型法如伯格 B u r g 法等 1 0 1 在语音识别系统中 很少直接使用线性预测系数 而是使用由线性预测系数推导出 的另一种系数 线性预测倒谱系数 L i n e a rP r e d i c t i o nC e p s t r u mC o e f f i c i e n t L P C C 3 第二章语音识别系统构成 倒谱属于同态信号处理方式 包含了语音信号谱的包络信息 对于语音信号来讲 倒谱参数比其它参数包含了更多的信息 标准的倒谱系数计算流程需要进行傅里叶变 换 对数操作和相位校正等 运算比较复杂 在实际计算中 可以利用序列x 刀 及其复 倒谱系数c n 的递推关系来简化计算 序列x 行 与其复倒谱系数c 刀 的递推公式为I l l f0 刀 0 2 1 6 Ix L u J 岔宝刀 x 0 利用上面的递推公式 可以得到线性预测系数和线性预测倒谱系数的直接递推关 系 如式 2 1 7 所示 c o l o g G 2 c 席 口 喜去二 口 一 等聊 p 2 7 铲薯知柑 在式 2 1 7 中 C o 是直流分量 在语音识别中通常不用 C 卅是倒谱系数 a 是线性 预测系数 P 是线性预测系数的阶数 m 为倒谱系数的阶数 在计算线性预测倒谱系数 过程中 如果阶数不超过线性预测系数的阶数P 时 用第二个式子进行计算 如果阶数 大于P 时 则用第三个式子进行计算 倒谱系数一般取8 3 2 阶就可以较好地表征声道特征 线性预测倒谱系数运算量较 小 利用倒谱可以很好的提高特征参数的稳定性 并且较为彻底地去除语音产生中的激 励信息 线性预测倒谱系数对元音有较好的描述能力 但是对辅音描述能力较差 同时 参数的抗噪性不好 1 5 1 2 3 2M e l 频标倒谱系数 M e l 频标倒谱系数 M e lF r e q u e n c yC e p s t r u mC o e f f i c i e n t M F C C 是将人耳听觉感知 特性与语音的产生相结合的一种特征参数 对噪声的鲁棒性优于线性预测倒谱系数 更 适合语音识别 是目前应用较为广泛的语音特征参数之一 人耳对不同频率的语音具有不同的感知能力 在l k H z 以下 感知能力与频率成线 性关系 而在l k H z 以上 感知能力与频率成对数关系 为了模拟这种人耳的感知特性 人们提出了M e l 频标的概念 M e l 频标和线性频率的转换关系如式 2 1 8 所示 1 4 西j 匕大学硕士学位论文 2 5 9 5 1 0 9 l o 1 赢 2 1 8 在式 2 1 8 d 尸 f 为声学频率 乙 为M e l 频标 单位分别为赫兹 H z 和美尔 M e l M e l 频标倒谱系数充分考虑了入耳的听觉特性 模拟了人类听觉系统的非线性特点 与线性预测倒谱系数相比 M e l 频标倒谱系数具有如下优点 1 6 1 第一 语音信号大多集中在低频部分 而高频部分容易受到外界噪声的干扰 与基 于线性频标的线性预测倒谱系数相比 M e l 频标倒谱系数将线性频标转换为M e l 频率坐 标 强调语音的低频部分 有利于语音信号的识别 有效地降低了噪声的干扰 第二 M e l 频标倒谱系数没有任何假设前提 在任何情况下都可以使用 而线性预 测倒谱系数预先假设所处理的信号为自回归 a u t o r e g r e s s i v e A R 信号 这对于动态特 性较强的辅音来说 假设并不严格成立 当噪声存在时 自回归信号会变成自回归 移 动平均 a u t o r e g r e s s i v em o v i n g a v e r a g e A R M A 信号 这会使线性预测分析的结果产 生较大的误差 因此 M e l 频标倒谱系数比线性预测倒谱系数具有更好的抗噪能力 2 4 识别模型 研究人员根据不同的识别要求 建立了多种语音识别模型 所有的模型必须经过训 练或学习之后才能够进行语音识别 语音识别过程就是根据模式匹配原则 按照一定的 相似性度量法则 使输入语音的特征矢量与模式库中的某一个模板获得最佳匹配的过 程 下面简要介绍几种常用的语音识别模型 2 4 1 动态时间规整 动态时间规整 D y n a m i cT i m eW a r p i n g D T W 是一种将时间规整和距离测度有机 结合在一起的非线性规整技术 由于语音信号具有极大的随机性 即便是同一个说话人 在不同时刻对同一句话所发出的音 语音的持续时间也不可能完全相同 因此必须首先 进行时间规整 1 刀 假设系统某个参考模板为口l 口 口m9 J 9 a M 输入语音信号特征矢量为 6 l 6 吒 6 且M N 时间规整函数可表示为坍 w 刀 它的作用就是将输入语 音特征矢量的时间轴刀非线性地映射到参考模板的时间轴朋上 且该规整函数满足下 式 D r a i n d n 以力 2 1 9 1 5 第二章语音识别系统构成 在式 2 1 9 q h d 聆 以刀 表示第九帧输入语音特征矢量与第埘帧参考模板之间的距 离 D 是相对于最优时间规整下特征矢量与参考模板的距离测度 动态时间规整是一种 典型的最优化算法 利用满足特定条件的时间规整函数w 刀 来描述两个矢量的时间对应 关系 求解使两个矢量匹配距离最小时的规整函数 动态时间规整确保了两个特征矢量之间最大声学相似和最小时差失真特性 是最早 用于解决模式匹配问题的方法 其不足之处在于 计算量大 对端点检测准确度依赖大 不能够充分利用语音信号的时序动态信息特性等 动态时间规整常用于孤立词或小词汇 量语音识别系统中 2 4 2 人工神经网络 二十世纪8 0 年代 人工神经网络 A r t i f i c i a lN e u r a lN e t w o r k s A N N 技术被成功应 用于语音识别研究中 人工神经网络是由大量简单的处理单元并行连接组成的 通过模 拟人类神经元活动原理 具有与人类相似的自学习 联想 对比 推理和概括等能力 一般说来 基于人工神经网络的语音识别系统主要由神经元 训练算法和网络结构三部 分组成 人工神经网络良好的分类能力和输入输出映射能力对语音识别具有很大的吸引 力 1 8 1 目前 神经网络技术还未成熟 但在语音信号处理的某些方面已经初显威力 通过 模拟人类的脑组织结构及思维过程来探索人类的听觉神经机理 进而改善语音识别系统 的性能是当前语音识别的一个重要研究方向 由于基于人工神经网络的语音训练 识别算法实现较为复杂 且识别率并不一定比 基于统计模型的语音识别系统高 因此 目前对于人工神经网络的研究还只是处于实验 室阶段 目前应用于汉语语音识别系统的人工神经网络种类繁多 其中前馈网络的反方向传 播 B a c kP r o p a g a t i o n B P 算法应用最为广泛 在此不再详述 2 5 隐马尔可夫模型 隐马尔可夫模型 H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论