




已阅读5页,还剩73页未读, 继续免费阅读
(计算机系统结构专业论文)基于spce061a的嵌入式语音地图的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 当前 导航系统已逐步成为一项研究热点 各类导航产品已进入市场 包 括车载导航系统 远洋轮船导航系统等 然而 大部分的导航系统都还不具备 语音识别功能 例如p d a p p c s m a r tp h o n e 等消费类电子的导航系统都缺少 人机交互的最简单 最直接的形式 语音交互 为了解决上述问题 使导航系统更加的便捷 有效 本课题致力于引进语 音识别把人和导航系统有机结合起来 实现一套完整的语音识别导航系统 做 到了真正的人机交流的同时 扩展了语音识别的应用 丰富了导航系统的功 能 本文侧重研究前期语音识别部分的设计与实现 本文首先介绍了嵌入式语音识别技术的现状以及未来发展趋势 探讨了嵌 入式语音识别所面临的几个问题 接着 研究了当前语音识别的主要流程以及 当前的各种典型语音识别模型匹配算法 详细分析各种语音识别模型的特征 然后 从硬件平台搭建以及软件设计思路两方面进行重点论述 提出了一套完 整的系统实现方案 其中在软件设计方面 着重讨论了系统的中断系统 串口 通信 码制转换等核心问题 本文的特色之处有以下几点 1 利用m a t l a b 详细地分析了语音识别的各个 原理步骤 包括语音信号预处理 特征提取 模式匹配等 2 改进了动态时间 弯折算法 对比分析了改进后的算法与原有算法 3 分析了语音信号噪声对识 别率的影响 应用小波削减信号噪声提升了h m m 算法的成功识别率 综上 本文构建了一个全新的嵌入式语音识别导航系统 它将嵌入式设 备 l c d 显示模块和串口通信模块有机的融合起来 使系统具备功耗低 扩展 性强的优点 为导航系统的应用开辟了新的前景 关键词 语音识别 模型匹配 导航系统 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 a b s t r a c t c u r r e n t l y t h en a v i g a t i o ns y s t e mh a sg r a d u a l l yb e c o m eah o tt o p i c t h e r ea r ev a r i o u sn a v i g a t i o n p r o d u c t s i nt h em a r k e t i n c l u d i n go n b o a r dn a v i g a t i o ns y s t e m s o c e a nn a v i g a t i o ns y s t e m s h o w e v e r m o s to f t h e n a v i g a t i o ns y s t e md o e sn o ty e th a v ea l ls p e e c hr e c o g n i t i o n f u n c ti o n s s u c ha sp d a p p c s m a r tp h o n ea n do t h e rc o n s u m e re l e c t r o n i c n a v i g a t i o ns y s t e mi st h el a c ko fh u m a n c o m p u t e ri n t e r a c t i o n t h em o s t s i m p l e t h em o s td i r e c tf o r m s v o i c ei n t e r a c t i v e t oa d d r e s st h e s ei s s u e ss ot h a tt h e n a v i g a t i o ns y s t e mm o r e e f f i c i e n ta n de f f e c t i v e t h eg o a lo ft h i sp r o j e c ti st h ei n t r o d u c t i o n o fs p e e c hr e c o g n i t i o n a n dn a v i g a t i o ns y s t e m si n t e g r a t i o n a c h i e v ea c o m p l e t es e to fv o i c er e c o g n i t i o nn a v i g a t i o ns y s t e 乳e x p a n dt h eu s e o fv o i c er e c o g n i t i o n r i c hn a v i g a t i o ns y s t e m sf u n c t i o n d 0ar e a l m a n m a c h i n ec o m m u n i c a t i o n r e s e a r c hi sf o c u s e do ne a r l y s p e e c h r e c o g n i t i o np a r to ft h ed e s i g na n di m p l e m e n t a t i o n t h i s p a p e r i n t r o d u c e se m b e d d e d s p e e c hr e c o g n i t i o nt e c h n o l o g y s t a t u sa n dt h ef u t u r ed e v e l o p m e n tt r e n d e x p l o r et h ep r o b l e m s e m b e d d e ds p e e c hr e c o g n i t i o nf a c i n g s t u d yt h em a i nf l o w o fc u r r e n t s p e e c hr e c o g n i t i o na n d t h ec u r r e n tt y p i c a ls p e e c hr e c o g n i t i o nm o d e l m a t c h i n ga l g o r i t h m d e t a i l e da n a l y s i so ft h es p e e c hr e c o g n i t i o nm o d e l f e a t u r e s a n dt h e nf r o mt h eh a r d w a r ep l a t f o r ma n ds o f t w a r es t r u c t u r e s d e s i g ns i d e s d e v e l o p m e n to fac o m p r e h e n s i v es p e e c hr e c o g n i t i o n s y s t e m i nw h i c ht h ea r e ao fs o f t w a r e d e s i g n f o c u s e do nt h e i n t e r r u p t i o n o ft h es y s t e m s e r i a l c o m m u n i c a t i o n t h ec o d es y s t e m c o n v e r s i o n a n do t h e rc o r eis s u e s i nt h i sp a p e rt h ec h a r a c t e r i s t i c sb e t w e e nt h ef o l l o w i n gp o i n t s 1 u s i n gm a t l a bd e t a i l e da n a l y s i so ft h ev a r i o u sv o i c er e c o g n i t i o n p r i n c i p l e o fs t e p s i n c l u d i n gv o i c es i g n a lp r e p r o c e s s i n g f e a t u r e e x t r a c t i o n p a t t e r nm a t c h i n g a n ds oo n 2 i m p r o v e dd y n a m i ct i m e w a r p i n ga l g o r i t h m s c o m p a r a t i v ea n a l y s i so f t h ei m p r o v e d a l g o r i t h m w i t ht h eo r i g i n a la l g o r i t h u l 3 a n a l y s i so ft h es p e e c hs i g n a ln o i s e o nt h er e c o g n i t i o nr a t e w a v e l e ts i g n a ln o i s er e d u c t i o nu p g r a d et h e m 枞a l g o r i t h mt oi d e n t i f yt h es u c c e s sr a t e s u m m i n gu p w eb u i l tan e we m b e d d e ds p e e c hr e c o g n i t i o nn a v i g a t i o n s y s t e m i te m b e d d e de q u i p m e n t l c dd is p l a ym o d u l ea n ds e r i a l c o m m u n i c a t i o nm o d u l eo r g a n i ci n t e g r a t i o n t h es y s t e mw i t h l o wp o w e r c o n s u m p t i o n s c a l a b i i i t ys t r o n ga d v a n t a g e sf o rt h en a v i g a t i o ns y s t e m o fo p e n in gu pn e wp r o s p e c ts k e y w o r d s s p e e c hr e c o g n i t i o n m o d e lm a t c h i n g n a v i g a t i o ns y s t e m m 厦门大学学位论文原创性声明 兹呈交的学位论文 是本人在导师指导下独立完成的研究成果 本人在论文写作中参考的其他个人或集体的研究成果 均在文中以明 确方式标明 本人依法享有和承担由此论文产生的权利和责任 声明人 签名 关芳彩 砷年f 只专d e l 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留 使用学位论文的规定 厦门大 学有权保留并向国家主管部门或其他指定机构送交论文的纸质版和 电子版 有权将学位论文用于非营利目的的少量复制并允许论文进入 学校图书馆被查阅 有权将学位论文的内容编入有关数据库进行检 索 有权将学位论文的标题和摘要汇编出版 保密的学位论文在解密 后适用本规定 本学位论文属于 l 保密 在年解密后适用本授权书 2 不保密 作者签名 导师签名 晏易括 牟 日期 矽年1 月夕p1 3 日期 节厂月彰1 3 第1 章绪论 1 1 课题背景 第1 章绪论 本课题实现的是语音识别导航地图系统 就是使电子设备 如p d a p p c s m a r tp h o n e 接收入的语音指令 并按照人的语音指令的实际需求显示相应的地 图 本课题主要由嵌入式语音识别和电子地图设计两部组成的 本文主要论述 的是前期嵌入式语音识别部分的设计与实现 1 2 语音识别技术概述 语音识别是目前语音信号处理研究领域的热点问题 它的目的就是让计算 机能够听懂人的语音命令 进行简单语言交互的技术 这种人机交互的途径对 于使用者来说是最自然的一种方式 同时设备的小型化和隐蔽性也要求省略键 盘等外界设备 使得原本需要手工操作的工作用语音就可以方便的完成 起到 大大减少工作量 达到真正人机交互的目的 目前语音识别技术的应用主要集中在以下三个方面 3 町 第一个方面是语音输入 即人类将信息通过语音输入计算机 根据有关统 计资料表明 个熟练打字员利用键盘打字的速度为平均每分钟6 0 字 而人类 正常说话速度为每分钟1 5 0 2 0 0 字左右 也就是说 如果实现语音输入 人类 将信息输入计算机的速度将提高2 3 倍 此外 对以汉语为母语的用户来说 语音输入技术更是必不可少 原因在于汉语不是一种以字母为基础的语言 汉 语的基本单元是汉字 而常用汉字的数量多达上万个 因此 面向拼音语言设 计的键盘显然不适合汉语使用 虽然人们开发了许多汉语输入方法 如全拼 双拼 五笔字等 但这些方法对普通用户来说 需要专门学习 显然还是极不 方便 汉语语音听写系统恰恰能够解决这个问题 目前 人们已经开发出较为 成熟的适用于办公室环境的汉语语音听写系统 如m m 的v i av o i c e 微软的汉 语语音识别引擎 中科院自动化所的f l y i n gt a l k 以及清华大学的e a s yt a l k 等 等 基于s p c e 0 6 l a 的嵌入式语音地图的研究与实现 第二方面的应用是人机交互和对话 与语音输入技术不同的是人机交互技 术不仅要求计算机能够记录人发出的信息 而且还要对这些信息加以理解 并 产生相应的动作或反馈必要的信息 满足人们的要求 这种应用最成功的范例 是以电话为媒体的语音查询系统 例如 已经投入运营的铁路售票查询系统 等 第三个语音技术应用的重要领域是计算机辅助完成的人与人之间的通信 这种应用的典型代表就是语音翻译技术 两个或多个说不同语言的人通过计算 机进行交流就是这种技术的美好前景 当然 语音翻译需要集成语音识别 机 器翻译 语音合成等多项技术 其难度是非常大的 目前 离通用不受限的口 语翻译系统还有一段较长的距离 1 3 国内外语音识别技术的研究概括和发展趋势 语音识别的研究工作开始与2 0 世纪5 0 年代 这一时期主要探索和研究声 音和语音学的基本概念和原理 1 9 5 2 年贝尔实验室的d a v i s 等人开发了一套针 对特定人孤立的离散数字系统 其识别方法是根据语音第一 二共振峰位置提 取若干特征 用模拟电路实现未知语音模式与参考语音模式之间的互相关运 算 6 0 年代 研究人员比较深入地研究了语音信号的产生机理和内在特征 人 类的听觉生理和心理等问题 这时期出现了语音识别方面的几种基本思想 其 中最重要成果是提出了线性预测分析技术 l i n e a rp r e d i c t i o n l p 和动态规划 d y n a m i cp r o g r a m m i n g d p 前者较好的解决了语音信号产生模型的问题 后 者有效解决了非等长语音的匹配问题 对语音识别的发展产生了深远的影响 7 0 年代 伴随自然语言理解的研究以及微电子技术的发展 语音识别领域 取得了突破性成果 在理论上 线性预测分析技术得到进一步应用 动态时间 弯折 d y n a m i ct i m ew a r p i n g d t w 基本成熟 特别是提出了矢量量化 v e c t o r q u a n f i z a t i o n v q 和隐马尔可夫模型 h i d d e nm a r k o vm o d a l h m m 理论 在实践 上 实现了基于线性预测倒谱和d t w 技术的特定孤立词语音识别系统 也是 现今大部分嵌入式语音识别系统理论基础 第1 章绪论 l i i i 8 0 年代 在语音识别研究进一步走向深入 其显著特征是h m m 模型和人 工神经网络 a r t i c l en e u t r a ln e t w o r k 删在语音识别中的成功应用 语音识别 算法从模型匹配技术转向基于统计模型技术 具有里程碑意义的是1 9 8 7 年 i b m 采用v q m 4 m 开发了一个具有2 0 0 0 词汇的特定人孤立字识别系统 t a n g o r a 2 0 以及1 9 8 8 年c m u 用同样方法建立了一个9 9 7 个词汇的非特定 人连续语音识别系统s p h i n x 9 0 年代 在各方面的推动下 语音识别技术获得了更深入而广泛的研究 迫切需要把语音识别系统从实验室走向实用 由于隐马尔可夫模型 h m m 结构 简洁 训练识别算法完善以及计算量小等优点 逐渐成为语音识别研究的主 流 除了知名大学的研究机构 如麻省理工学院 卡耐基 梅隆大学 约 翰 霍普金斯大学 剑桥大学等 一直在做基础研究和应用之外 许多著名的 国际公司m m a p p l e a t t m i c r o s o r 等都看好语音识别的应用前景 为 语音识别系统的实用化投以巨资 语音识别技术实用化进程大大加速 i b m 公 司率先推出的v i av o i c e 标志着大词汇量 非特定人 连续语音识别技术正在趋 于成熟 在嵌入式应用中 出现了可以语音拨号的手机 与人对话的智能玩 具 在商业服务中 出现了语音识别 语音合成为核心技术的呼叫中4 1 c a l l c e n t e r 语音门户网站等 这时期的标志性成果是美国国防部的高级研究规划 局 a r p a d a r p a 计划下l v c s r 系统 识别词汇量达到6 万 我国语音识别研究工作始于二十世纪八十年代初 起步虽较晚 但一直紧 跟国际水平 国家也很重视 并把大词汇量语音识别的研究列入 8 6 3 一计划 国家8 6 3 智能计算机专家组于1 9 9 8 年4 月组织了对国内大词汇量连续语音识别 系统的测评 清华大学电子工程系的语音识别系统获得了较好的成绩 字正确 率为9 3 句子正确率为6 2 5 其结果和i b m 语音识别系统水平相当 此 外 由中科院声学所 自动化所及北京大学等单位研究开发 取得了高水平的 科研成果 如中科院自动化所研制的非特定人 连续语音听写系统和汉语语音 人机对话系统 其字准确率或系统影响率可达9 0 以上 鉴于中国未来庞大的 市场 国外也非常重视汉语语音识别的研究 美国 新加坡等地聚集了一批来 自大陆 台湾 香港等地的学者 研究成果已达到相当高的水平 9 1 0 1 基于s p c e 0 6 1a 的嵌入式语音地图的研究与实现 1 4 嵌入式语音识别面i 晦几个主要问题 近年来 随着移动通信的迅速发展 p d a 和智能家居等应用的兴起人们发 现语音作为一种方便的人机交互手段 在上述领域中的应用有着巨大的潜力 因此许多国内外的研究者把对语音识别开发重点从传统的p c 领域转移到面向 消费类电子设备来 并且为了降低成本和提高使用的方便性 已经开始对语音 芯片的研究和设计工作 同时由于在工业控制 智能家居 汽车电子 智能玩 具及p d a 等领域中 人机语音交互主要是孤立的命令词 因此研究嵌入式系统 中高性能的孤立词语音识别算法具有重要的实际意义 这已经成为当前各大科 研机构 公司研究的热点之一 在这一应用的实现过程中 还有许多问题急待 解决 1 算法模型的优化 当前使用的语言模型大多都是基于概率模型的 这种 语言模型还有待完善 特别是在处理中文语音识别方面 还没有用到以语言学 为基础的文法模型 而要使计算机正确理解人类的语言 就必须在这一点上取 得进展 2 有限的资源设备 以往许多成功的建模和识别算法都是基于p c 平台 的 但要把这些算法用于计算和存储资源都很有限的嵌入式系统来说是无法实 现的 因此必须在保证识别效果的基础上研究对资源消耗小的建模和识别算 法 3 高效的自适应 目前 像v i av o i c e 和a s i aw o r k s 的s p k 1 1 在使用之前 都需要经过数以百计的训练才能让计算机适应说话人的语音特征 全世界有近 百种官方语言 每种语言有多达几十种方言 同种语言的不同方言在语音上相 差悬殊 面对如此纷繁复杂的语言环境 如何有效的提高语音识别的自适应效 果 才会在语言环境的改变下 系统的自适应效果保持较佳的状态也是一个面 临的问题 4 有效的抗噪算法 当前 对语音识别效果影响最大的就是环境杂音或者 噪音 特别是在公共环境 如何有效的保持语音识别的正确率是语音识别面临 突破的一个大问题 因此要提高语音识别系统性能 就要把大词汇量训练和识 别速度问题 拒绝识别问题以及关键词检测技术 对用户的错误输入不能正确 第l 章绪论 响应等关键技术纳入考虑 1 5 本文的内容和工作安排 本文研究的是嵌入式设备的孤立词识别 介绍了语音识别技术的原理和当 前的主流语音识别算法 论文的内容和结构如下 第一章 首先介绍了本课题的研究内容 其次阐述了语音识别技术的概 况 然后描述了语音识别技术的研究状况和发展趋势 最后涉及到嵌入式语音 识别技术所需面临的几个主要问题 第二章 介绍了语音识别系统原理及模型 在本章首先介绍了语音识别的 总体流程 包括语音信号的数字化 预处理 特征提取等语音识别处理步骤 其次 利用m a t l a b 详细了分析语音识别的原理 包括 短时能量 端点检 测 l p c c 以及m f c c 等 第三章 模型匹配算法 在本章首先介绍了动态时间弯折算法d t w 接着 提出改进d t w 算法 利用m a t l a b 对比分析了改进后的d t w 与原有d t w 算法的识别效率 其次 介绍隐马尔可夫h m m 算法 分析了h m m 的原理以 及特征 并且提出了利用小波削减信号的噪声 改进h m m 算法的思路 最 后 给出简要的人工神经网络的算法介绍 第四章 嵌入式语音识别系统硬件平台 在这一章给出系统硬件平台搭建 过程 包括单片机 液晶显示模块 串口通信模块等 第五章 嵌入式语音识别系统的软件平台 在本章首先给出了系统的各个 模块的工作流程 包括系统的总体框架 语音命令训练流程 s p l c 5 0 1 液晶显 示模块 串口通信模块以及中断流程模块 其次 给出常用a p i 函数以及系统 的核心代码 第六章 系统性能分析测试 在本章通过两个实验测试了系统的性能 测 试系统是否符合设计目标 通过测试表明 系统的达到了既定要求 第七章 工作总结和展望 对本文的研究内容进行了系统的总结和概括 并对下一步深入研究的方向和内容进行了探讨和展望 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 第2 章语音识别系统原理及模型 2 1 语音识别系统分类 语音识别系统的分类有着很多种 既可以按照公司划分 也可以按照平台 划分 下面我们介绍了三种常用的划分形式 根据识别词汇量数目 根据识别 人以及根据叙述方式来分类 2 1 1 根据识别词汇量分类 每一个语音识别系统都有一个词汇表 词汇表越大系统所需的处理能力就 越强 因此也越难实现 根据语音识别系统识别的词汇表中的词汇量数目大小 可以分为小词汇量系统 中词汇量系统和大词汇量系统 一般词汇量小于1 0 0 个均归纳为小词汇量 而大于1 0 0 个小于5 0 0 个则称为中词汇量系统 大于 5 0 0 个则称为大词汇量系统 在本系统中 我们的目标是识别有限的地理名 不多于2 0 个 因此把本系统归纳为小词汇量系统 2 1 2 根据识别人分类 语音识别系统所需识别的语音信号来自不同人 有时系统的识别只能依赖 于某个特定的人才能识别出来 如语音数字拨号手机 这种方式就称为特定人 s p e a k e rd e p e n d e n t 系统 而有的语音系统是针对任何人的 往往无需训练就 可以正确识别的系统 如图书馆的语音交互查询系统 这种方式就称为非特定 人 s p e a k e ri n d e p e n d e n t 系统 本系统中的语音识别系统由于实验条件有限 只实现了特定人的语音识别系统 2 1 3 根据叙述方式分类 识别语音按叙述方式可分为孤立词 连接词和连续语音三种识别方式 孤 立词识别 i s o l a t e dw o r dr e c o g n i t i o n i w r 方式是指说话人每次只说一个 词 一个词组和一个命令让识别系统识别 其中的词组或命令在词汇表中都算 作一个独立词条 连接词识别 c o n n e c t e dw o r dr e c o g n i t i o n c w r 一般特指十 个数字 0 9 连接而成的多位数字的识别 有时还可以加上少量的操作指令 这 第2 章语音识别系统原理及模型 时词汇表只由这十个数字及少数指令构成 连接词识别系统在电话 数据库查 询以及控制操作系统中用途很广 连续语音识别 c o n t i n u o u ss p e e c h r e c o g n i t i o n c s r 是指说话人以日常自然的方式讲述并予以识别 在连续收音 识别一般用到了语法的约束 而连接词识别没有语法约束 在某些情况下 存 在可以利用的语义约束n 妇 本系统实现的是孤立词的语音识别系统 2 2 语音识别系统模型 电子设备的语音识别过程和入的语音识别过程大致类似 目前的主流语音 识别技术是基于统计模式识别的基本理论 一个完整的语音识别系统一般是是 由图2 1 所示的几个主要关键模块组成 包括语音信号的产生 语音信号的数 字化和预处理 特征值提取 模式匹配 以及后续处理部分 下面我们将对各 个部分详细叙述 图2 l 语音识别模型 识别结果 2 2 1 语音信号的数字化 语音信号的数字化是数字处理的前提 语音信号的数字化包括两个步骤 取 样和量化 根据恩奎斯特采样定理 信号的采样频率只需大于或者等于信号宽 带的2 倍 厶 2 f 即可保证信号的采集不会丢失信息 因此一般需要对输入 的语音信号做低通 反混叠 滤波 然后进行a d 转换 例如图2 2 所示 数字 6 的数字化后的频幅特性 取样后需对信号进行量化 量化后信号值与原信号 的之间的差值称为量化误差 又称为量化噪声 通过取样和量化以后 就可以 皋于s p c e 0 6 1 a 的嵌入式语音地图的研究 j 实现 一串数字序列供后续处理 s o u n dd a t a 一1 8 2 4 7s a m p l e s f s 8 0 0 0 困 丑 图2 2 数字6 的未处理频幅特性 2 2 2 语音信号的预加重 语音信号的数字化后还需对语音信号做预处理 语音信号的预处理包括 预加重 分帧 加窗处理 语音信号的平均功率谱 受到声门激励和口鼻辐射 的影响 高频端大约在8 0 0 h z 以上按6 d b o c t 倍频衰减 1 因此 对语音信号 处理之前 一般要对语音信号的频幅加以提升 提升的方法有两种 一种是模 拟电路实现 二是用数字电路实现 采用数字电路实现高频加重的滤波器的形 式为 y n x n 一a x n 一1 n z 1 一a z x n 为原始信号序列 y n 预加重后序列 a 预加重系数 通常a 取值为 0 9 1 本文中a 的取值为0 9 7 2 5 如图2 3 所示的数字6 预处理后的频幅特性 图 预加重的目的在于提升高频部分 滤除低频干扰 尤其是5 0 h z 到6 0 h z 的 工频干扰 将对语音识别更为有用的高频部分的频谱进行提升 使信号的频谱 变得平坦 以便于进行频谱分析或声道参数分析 第2 章语音识别系统原理及模型 图2 3 数字6 预加重后的频谱特性 2 2 3 语音信号的分帧加窗 语音信号是一种典型的非平稳信号 但是语音的形成过程是与发音器官的 运动密切相关的 这种物理运动比起声音振动速度来讲要缓慢得多 因此语音 信号常常可假定为短时平稳的 即在l o 2 0 m s 的时间段内 其频谱特性和物理 特征参量可近似地看作是不变的 这样 就可以采用平稳过程的分析处理方法 来处理了 由这个假定导出了各种 短时 处理方法 后续讨论的各种语音信 号都是分隔成短段再加以处理 这些短段就好像是来自一个具有固定特性的持 续音片断一样 对每个短段语音进行处理就等效于对固定特性的持续语音进行 处理 短段之间彼此经常有重叠 对每一帧的处理结果可用1 个数或是一个数 组来表示 因此语音信号经过处理后将产生一个新的依赖于时间的数据系列 这些数据用于描述语音信号的特征 对语音信号的各个短段进行处理 实际上就是对各个短段进行某种变换或 加以某种运算 其一般式 q l l x m w n m 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 x m 为原始语音信号 w n m 为移动窗 丌 表示某种变换 它可以是线 性的也可以是非线性的 例如丌 为x 2 朋 时 q 相当于短时能量 研 爿s g n e x m 一s g n x m 1 i 时 q 为短时平均过零率 例如图2 4 所示的数 字6 分帧加窗后的短时能量图 图2 4 数字6 分帧加窗后的频谱特性 对于q 可以理解为离散信号丌x 聊 经过一个单位脉冲为 w 聊 的f i r 低 通滤波器产生的输出 用得最多的三种窗函数分别是矩形窗 汉明窗 h a m m i n g 和汉宁窗 h a n n i n g 其定义分别为 1 矩形窗 w 耽 毛兰翟 1 2 汉明窗 第2 章语音识别系统原理及模型 一 一s o 5 4 0 4 6 c o s 2 1 以以 o 驴1 3 汉宁窗 0 n 其中是g s n 一个归一化冲激响应及其增益系数的乘积 上式的z 域表达 形式为 寥 z 圭吼z b z 觎 z n 7 以得到系统的传递函数为 一器 万1 丽1 图2 9 中 声道模型和辐射模型的级联就是h z 实际上是一个短时间内 稳定的时变滤波器 它的参数q a 2 4 是由声音管道也就是发音器官进行控制 并随时变化的 但是在几十毫秒内被认为是稳定不变的 h z 的激励是由清浊 开关控制 当发音为浊音时 激励源为归一化冲击序列和增益函数g 的乘积 冲击序列的周期就是语音的基音周期 而增益系数g 控制者声音的音量 当发 音为清音时 激励信号为随机噪声和增益系数g 的乘积 这里周期g 在一个分 析帧内部都是稳定的参数 而实际上它们也是随着时间缓慢变化的 定义系统输出的估计为 袖 兰以s 万一七 第2 章语音识别系统原理及模型 由此得到系统的估计误差 e 露 j 刀 一而 墨j 刀 一兰吒s 万一七 i i 以及相应的误差传递函数 特等小喜矿 明显地 如果s n 完全由图2 8 的线型系统产生 则线型预测误差就等于 激励与增益的乘积 即 刀 g 刀 为了计算l p c 参数 首先定义起点为玎的短时语音信号和误差信号 朋 j 刀 所 厶 所 刀 所 误差平方和为 e x e c 掰 l 晶 脚 一兰嚷 所一七 2 朋k l 对上式中的l p c 系数求倒数 令其分别为零 璺 0 k i 2 p o a k 可以得到 朋一f 毛 扰 圭取 霸 掰一f 聊一七 辨七年i艉 根据相关函数的定义 o 七 m d 朋一七 可以得到 f o 圭鼠 f 七 k l 2 p k l 上式表示p 个方程构成的方程组 未知数为p 个 求解该方程组 就可以 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 得到系统线性预测系数 随后 系统的最小均方误差就可以表示为 殴 朋 一杰耳 朋 册一七 j k 1 e l 西 o 0 一圭二 o o 七 k l 求解上式方程组的方法很多 主要由自相关法 协方差法 下面列出基于 自相关的推求解公式 也就是所谓的d u r b i n 算法 掣 r o r d z a l 一1 咒 j 一 南毒 j 每r 西o 毛 秽 秽 一局科 l j m 为训练的时序标号 朋 l 为起点语音帧 册 膨为终点语音帧 因此膨为该模式包含的帧总数 尺 明 为第历帧语音的 特征矢量 所要识别的一个输入词条语音称为测试模式 可表示为 口 1 r 2 彩一j 聊 弗为测试语音帧标号 模式中共包含 帧语音 r n 为第n 帧特征矢量 参考模式和测试模式采用相同的特征矢量 帧长 帧 窗形以及帧移 假设测试和参考模式分别用r 和尺表示 为了比较它们的相似度 可以计 算他们之间的失真d m 失真越小相似度越高 为了计算这一失真 应从 r 和足中各个对应帧之间的失真算起 设苊和槐分别是r 和足中任意选择的 帧 a n 研 表示这两帧特征矢量之间的失真 如果我们枚举从 1 1 到 m 的 所有可能累计失真得分 从中找到最小值 那么从 1 1 到 m 的路径个数将 是指数级的 图3 ld t w 动态时间弯折算法 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 设测试模板丁共有 帧 参考模板足有m 帧 将测试模板和参考模板的帧 分坐标的横轴和纵轴上表示 则各个帧之间的关系可以形成一个网格如上图3 1 所示 网格中的任何一个交叉点 n 朋 表示测试模式的r 刀 和参考模式的 r m 相交 并且该交叉点拥有帧失真度为d r 刀 足 朋 d p 算法即可归结为寻找一条通过此网络中若干交叉点的路径 路径通过的 交叉点为测试和参考模板中进行距离计算的帧 路径从左下角的坐标出发 到 右上角的终点坐标结束 使得该路径上所有交叉点的帧失真度总和 总失真 达 到最小 其计算方式如下 1 约束路径斜率为0 5 2 之间 避免路径过于倾斜 2 假设路径的前一格点 吩 i 鸭一 则下一个通过的交叉点为以下的三种 形式之一 3 用刀表示上述三个约束条件 求最短路径的问题可以归结为满足约束条 件r l 时 求最佳路径函数 使得沿路径的积累距离达到最小值 即 研 吩 吩 d 丁 吩 尺 吩 d 吩一l 吩一 其中的n t 一 吩 i 确 i 由下面的式子决定 d 啊 l 一1 m i n 研 啊 i 觋 研 吩 i 慨一1 d 刀i l 坼一2 这样就可以从 l i 码 1 1 出发搜索 惕 m d 再搜索 1 3 鸭 对每一 个 都存储相应的前一格点及相应的帧匹配距离d 啊 搜索到 时 只保留一条最佳路径 这便是d p 算法的路径 d l l l 一 一 一 l m m m t 工 l l l 一 一 一 刀 万 万 l 一 小 m m 刀 万 n 第3 章模式匹配主流算法 3 1 2 改进动态时间算法策略算法 由于传统的动态时间算法在匹配过程中限定了弯折的斜率 因此许多点实 际上是到达不了的 如图3 2 所示 菱形之外的顶点对应的帧匹配距离是不需 要计算的 另外也没有必要保存所有的帧匹配距离矩阵和累积距离矩阵 因为 每一列格点上的匹配计算只用到了前一列的三个网格 充分利用这个特点可以 减少计算量和存储空间的需求 如图所示 把实际的动态弯折分为三段 1 五 五 l 五 和 五 l 忉 其 中 配 y m x ax bn x 图姐改进d t w 算法 五和鼍都取最相近的整数 由此也得到出对应膨和 长度的限制条件 r 2m n 3 l2 一m 2 当不满足以上述条件时 认为两者的差别实在太大 无法进行动态弯折匹 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 在x 轴上的每一帧不需要与y 轴上的每一帧进行比较 而只是与 轴上 间的帧对比 和 的计算如下式 一五 瓯脚以 氢哇忉 呱鼠 x b q c 剑 呕x g n x a 姘 也可能会出现五 五的情况 此时弯折匹配的三阶段为 0 五 也 l t 和 置 l 加 对于x 轴上每前进一帧 虽然所要比较的y 轴 上的数不同 但弯折特性是一样的 累积距离的更新都是用下面的式子实现 d y d x y m i n d x i 力 d x i y i d x 1 y 2 由于x 轴上每前进一帧 只需要用到前一列的累积距离 所以只需要两个 列矢量d 和d 分别保存前一列的累积距离和计算当前列的累积距离 而不用保 存整个距离矩阵 每前进一帧都进行更新 即按上面的式子利用前一列的累积 距离d 和当前列的所有帧匹配距离d x y 求出当前帧累积距离 保存于矢量 d 中 再把新的距离值d 给d 作为新的累积距离 供下列使用 这样一直迭 代直到x 轴上最后一列 矢量d 的第膨个元素即为两个模版动态弯折的匹配距 离 3 1 3 两种算法测试结果对比 测试目的 比较d t w 算法和改进d t w 算法的累积距离 测试参数 给定0 9l o 个数字语音文件 通过下图给出两种算法的最小 失真距离比较 根据测试结果表明 改进动态时间算法最小失真距离值较小 测试结果 图3 3 给出了两种算法计算最小累积距离的结果图 绿线代表 原有动态时间算法的累积距离 红线代表的是改进后的动态时间算法的累积距 离 第3 章模式匹配主流算法 图3 3 两种算法最小失真比较 测试分析 通过测试可以获知 改进d t w 算法在和d t w 算法计算最小 累积距离时 改进d t w 算法有效的缩短了距离总和 其主要原因是 改进 d t w 算法不仅可以避免计算超出菱形范围的交叉点的帧匹配距离 而且不必保 留所有的帧匹配距离矩阵和累积距离矩阵 因此有效的降低了总的累积距离 3 2 隐马尔可夫算法删 隐马尔可夫模型 h i d d e nm a r k o vm o d e l s h m m 是语音信号的一种统计模 型 广泛应用于语音信号处理的各个领域中 有关它的理论基础 是在1 9 7 0 年 左右由b a u m 等人建立起来的 随后由b a k e r 和j e li n e k 等人将其应用到语音识 别之中 并且取得了很大的成果 8 0 年代中期成为公认的研究热点 其基本理 论和各种实用算法是现代语音识别的重要基础之一 对于一个平稳的 非时变的信号来说 用传统的线性模型来描述即可 但 语音信号是非平稳 时变信号 我们只能在短时间内对语音信号作线性处理 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 这样 在一段时间内 语音信号的线性模型参数是时变的 但在很短的时间内 它可以被看作是平稳 非时变的 在这种前提下 处理语音信号的简单解决思 想是 将这些线性模型参数串起来 来记录整个语音信号 这就是马尔可夫 链 但其中存在的问题是 选择多长一段时间作为一个线性处理的单元 由于 语音信号的复杂性 要想准确地选择这个时间段是很难的 所以这种方法虽然 可行但却不是最有效的方式 隐马尔可夫模型就解决了这个问题 它既能够用 短时模型来描述平稳信号 又可解决短时平稳段过渡的问题 隐马尔可夫模型 是利用概率论和数理统计学理论为基础 辨识具有不同参数的短时平稳过程 而且还可跟踪它们的转换f 1 4 1 3 2 1h m m 基本思想及模型参数 由于h m m 是在m a r k o v 链的基础上发展而来的 为了更好的理解h m m 首先 应该了解m a r k o v 链的基本概念 1 m a r k o v 链 若有一随机过程 x f t 乃 这里r 表示随机过程的长度 在时刻t 的状 态是五 而在将来某时刻o 的状态五 仅仅与现在的状态五有关 而与过去 的时刻置一 置以 五无关 则称x f 马尔可夫过程 2 引入隐马尔可夫 h m m 隐马尔可夫模型既可以用短时模型描述某一语音当前的个体状态 也可以 确定每个语音是如何转变到下一个语音的 一个h m m 模型可用下列参数描述 n 一模型的状态数 一般来说 状态之间是相互联系的 任何一个状态 可由其他任何一个状态转移而来 状态之间也可以有其他的联系方式 状态的 集合表示为s 墨足 最 时刻的状态表示为吼 m 一观察符号数 每个状态可能输出的观察符号的数目 观察符号集合 表示为v k k t 一一观察符号的长度 隐马尔可夫模型产生的观察符号序列表示为 第3 章模式匹配主流算法 d 蚂 d 2 q a 状态转移概率分布 这是状态转移概率构成的一个矩阵 其元素 是指f 时刻状态为墨 而在f l 时刻 状态转移到s 的概率 即a 吻 a q 烈g 件l 墨lg i 墨 1 s f s n b 状态岛的概率分布 它是状态s j 观测符号的概率构成的一个矩 阵 其元素岛 七 是指邑输出观测符号v 的概率 t 时刻处于状态邑 即 曰 如 七 七 研v 七在时刻i 譬f 0 l j nl k s m 氕 初始状态分布 它是指忙l 时 初始时刻 处于某个状态的概率 即石 乃 死 h 吼 墨 l i n 实际情况下 观察密度常常是连续的 所以在实验中采用具有连续观测密 度的h m m 模型 观测密度函数为混合高斯密度函数 采用混合高斯密度函数时 观测密度的概率密度函数的表现形式为 乞 q n o o 加 1 朋 1 其中 q 是等待模型的观测矢量 在本论文中 q 是倒谱矢量 是状 态 的第m 个混合系数 也就是混合增益因子 0 是高斯分布的密度函数 是状态 的第掰个混合分量的均值矢量 跣是状态 的第m 个混合分量的 协方差矩阵 实际上0 i 的分量基本上不相关 所以 s 细成为对角型协方差矩 阵6 d f 可表示为 兀 e x p 卜 d f d 一u 加d 2 2 s 加d 1 2 4 芴 屯 q 竺l 丝 万 一 兀 2 上述式子应该满足以下统计约束条件 基于s p c e 0 6 1 a 的嵌入式语音地图的研究与实现 m i l c 0l n 1 m 肘 岛 功出 1i s j n 因此 连续混合密度h m m 的完整定义需要选择以下参数值 n 模型中的状态数 m 一一状态中的高斯混合数 d 每个观测矢量的维数 嚣 初始状态分布概率 a 状态转移概率 c 混合增益矩阵 i i 混合分量的均值矩阵 u 一一混合分量的协方差矩阵 我们将连续混合密度h m m 模型的参数集合表示为a 则h m m 模型表示 如下 a a c u 3 2 2 拓扑形式和状态个数 隐马尔可夫模型主要有两种结构 一种是全连接的 另一种是从左向右 的 从左向右的模型根据其结构特点又可以进一步的划分 分为无跨度的从左 向右的模型 有跨度的模型 其中无跨度的从左向右模型限定最左位置为初始 状态 每个状态只能向紧邻的右侧状态或自身状态转移 针对语音识别来说 一般采用无跨度从左向右模型 3 2 3 隐m a r k o v 模型的三个核心问题 h m m 应用语音识别必须解决的几个问题 评估问题 已知观察序列d q d 2 一 d r 和模型五 仞 彳 c 材 如何有效 计算在给定模型名的条件下观察序列o 的概率p 01 名 评估问题的求解使我们 能够选择出给定观察序列最匹配的模型 常用算法是前向后向算法 第3 章模式匹配主流算法 最佳状态链的确定问题 已知观察序列d 篇 q 0 2 一 q 和模型 a 协 彳 c g 搿 如何选择相应的在某种意义上最佳的 能最好的解释观察序 列 的状态序列 常用的算法是v i t e r b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 材料力学与智能材料重点基础知识点
- 高考数学应试技巧试题及答案辅导
- 信息处理技术员考前指导试题及答案
- 斗轮机火灾应急预案(3篇)
- 行政法与民主体制的关系试题及答案
- 护士火灾应急预案问题分析(3篇)
- 高考作文撬动未来的试题与答案
- 网络协议与实现试题及答案
- 高考数学细节题型与答案2023解析
- 高考数学让人困扰的试题及答案
- 血液净化标准操作规程 2021 版
- 新课标(水平三)体育与健康《篮球》大单元教学计划及配套教案(18课时)
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- 桌面云规划与最佳实践
- IgG4相关性疾病的诊治ppt课件
- 质量管理8D报告培训(教材)含案例分析课件(PPT 57页)
- 保健品会议营销市场操作手册(全)
- 设备(材料)供应招标文件范本
- 220千伏线路无人机放线施工组织设计
- (完整版)培训学校电话话术(初中)
- 大猫英语分级阅读 二级2 Let's go shopping 课件
评论
0/150
提交评论