(信号与信息处理专业论文)语音信号mp稀疏分解快速算法及在语音识别中的初步应用.pdf_第1页
(信号与信息处理专业论文)语音信号mp稀疏分解快速算法及在语音识别中的初步应用.pdf_第2页
(信号与信息处理专业论文)语音信号mp稀疏分解快速算法及在语音识别中的初步应用.pdf_第3页
(信号与信息处理专业论文)语音信号mp稀疏分解快速算法及在语音识别中的初步应用.pdf_第4页
(信号与信息处理专业论文)语音信号mp稀疏分解快速算法及在语音识别中的初步应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)语音信号mp稀疏分解快速算法及在语音识别中的初步应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 语言是人类交流最直接的方式,因此研究语音信号的表示方法具有重要意 义。基于m a t c h i n gp u r s u i t ( m p ) 的语音信号稀疏分解由于其表示方法的优越性 得到了广泛应用。但是该算法的速度和存储量仍然是制约其应用的瓶颈。虽然 语音信号m p 稀疏分解算法经过多次改进,但分解质量或速度仍不能令人满意。 有学者利用f f t 改进信号m p 稀疏分解,但是这种算法在实际应用中并没有考 虑到语音信号是实函数的特点,而f f t 是基于复数运算的,算法与信号模型之 间不匹配。 本文以语音信号为研究对象,根据语音信号具有类周期的结构特性采用余 弦过完备原子库,在其上进行基于m p 的语音信号稀疏分解。从而在保证重构 语音信号质量的同时较大幅度的缩小了原子库,进而节省了存储空间和计算时 间。论文中通过多次计算机仿真证明了余弦过完备原子库对于具有类周期特性 的信号l e g a b o r 原子库能取得更好的分解重构效果。 本文还利用f h t 改进基于m p 的语音信号稀疏分解算法。算法首先根据“波形 相同”这一等价关系对过完备原子库进行集合划分。在保证语音信号稀疏分解 效果不变的前提下,减少原子库中原子的个数,缩小搜索范围。然后结合语音 信号是实函数而f h t 也同为实函数运算,将计算量巨大的内积运算转换成一次 循环相关运算,并利用f h t 实现循环相关运算。该算法充分利用了信号与原子 的内积运算和循环相关运算以及循环相关运算和离散哈特莱变换之间的关系, 大大地提高了语音信号m p 稀疏分解的速度。该算法相比利用f f t 改进m p 稀疏分 解复数运算节省了一半的存储空间,同时进一步提高了分解的运算速度。 最后,本文还指出利用g a b o r 原子进行基于m p 的语音信号稀疏分解,分解 后所得的原子和投影中含有该信号的重要信息。而每个原子又是由参数决定 的,所以分解后所得的原子参数及投影可以作为被分解的语音信号的特征。利 用语音信号的这一特征可进行语音识别。 针对以上三个方面,本文均通过计算机仿真证明了各种算法的有效性。 关键词:稀疏分解;m a t c h i n gp u r s u i t ;原子库;f h t ;语音识别 西南交通大学硕士研究生学位论文第1 i 页 a b s tr a c t l a n g u a g ei st h em o s td i r e c tw a yt oc o m m t m i c a t e ,s oi ti si m p o r t a n t t or e s e a r c h h o wt or e p r e s e n ts p e e c hs i g n a l s s i g n a ls p a r s ed e c o m p o s i t i o nb a s e do nm a t c h i n g p u r s u i t ( m p ) h a sb e e na p p l i e dt om a n ya r e a sb e c a u s eo fi t sp r e d o m i n a n tw a yo f r e p r e s e n ts i g n a l s b u tt h el a r g ec o m p u t a t i o n a lc o s ti s t h eb o t t l e n e c ko fs p a r s e d e c o m p o s i t i o n a l t h o u g hm ps p a r s ed e c o m p o s i t i o nh a sb e e ni m p r o v e dm a n yt i m e s , t h eq u a l i t ya n dt h es p e e do ft h ea l g o r i t h ma r en o ts a t i s f a c t o r yf o rp e o p l e sd e m a n d s t h ea l g o r i t h mw h i c hi si m p r o v e db yf f ti sb a s e do nc o m p l e xf u n c t i o n ,b u tt h e s p e e c hs i g n a l sa n dt h ea t o m sa r eb o t hr e a l s ot h i si m p r o v e da l g o r i t h md o s en o t m a t c ht h es i g n a lm o d e l i n t h i st h e s i s ,a c c o r d i n gt ot h ec y c l i cp r o p e r t yo ft h es p e e c hs i g n a l ,c o s i n e o v e r - c o m p l e t ed i c t i o n a r yi sc h o s e ni no r d e rt os p a r s ed e c o m p o s et h es p e e c hs i g n a l t h em e t h o dn o to n l yc a l lg u a r a n t e et h eq u a l i t yo ft h er e c o n s t r u c t e ds i g n a l ,b u ta l s o c a l lc u tc l o w nt h es i z eo ft h ed i c t i o n a r y t h e r e b y , t h em e m o r yc o n s u m p t i o na n dt h e c o m p u t a t i o n a lt i m ea r eb o t hr e d u c e d l o t s o fs i m u l a t i o n sp r o v et h a tt h en e w d i c t i o n a r yi sm o r es u i t a b l ef o rt h ep e r i o d i cs i g n a l s f u r t h e r m o r e ,an e ws p a r s ed e c o m p o s i t i o na l g o r i t h mi sp r o p o s e d i no r d e rt o r e d u c et h es t o r a g eo ft h eo v e r - c o m p l e t ed i c t i o n a r y , w i t ht h ee q u a lr e l a t i o n s h i p t h i s m e t h o df i r s t l yu s e ss e tp a r t i t i o n i n gm e t h o d a n dt h e na c c o r d i n gt ot h ec h a r a c t e r so f t h es p e e c hs i g n a la n dt h ef a c tt h a tt h es i g n a l sa n da t o m sa l ea l lr e a l ,t h i sn e w a l g o r i t h mc o n v e r t si n n e rp r o d u c tc a l c u l a t i o n si n t oc y c l i cc o r r e l a t i o nc a l c u l a t i o n s t h a ta l ef a s td o n eb yf a s t h a r t l e yt r a n s f o r m ( f h t ) b e c a u s e o fu s i n gt h e r e l a t i o n s h i p o ft h ei n n e r p r o d u c t a n dt h ec y c l i cc o r r e l a t i o na sw e l la st h e r e l a t i o n s h i po ft h ec y c l i cc o r r e l a t i o na n df h t - t h es p e e c ho ft h es p e e c hs i g n a lm p s p a r s ed e c o m p o s i t i o ni si n c r e a s e d c o m p a r e dt ot h ea l g o r i t h mo ft h em pb a s e d s i g n a ls p a r s ed e c o m p o s i t i o nw i t hf f ft h i sa l g o r i t h mc a l ln o to n l yg e t o v e rt h e i n s t a b i l i t yo ft h er e s u l t s ,b u ta l s oc a nr e d u c et h em e m o r yc o n s u m p t i o nb yh a l f , a n d h e i g h t e nt h es p e e do f t h ed e c o m p o s i t i o n 西南交通大学硕士研究生学位论文 第1 l i 页 l a s t ,t h ea t o m sa n dt h ep r o j e c t sg o t t e nb ys p a r s ed e c o m p o s i t i o nw i t hg a b o r d i c t i o n a r yc o n t a i nt h es p e e c hs i g n a l s i m p o r t a n tm e s s a g e e v e r ya t o mi sd e t e r m i n e d b yp a r a m e t e r s ,s ot h em o m s p a r a m e t e r sa n dp r o j e c t sc a nb er e g a r d e da st h es p e e c h s i g n a l s c h a r a c t e r i s t i c s t h es p e e c hr e c o g n i t i o nc a nb er e a l i z e du s i n gt h i sn e w c h a r a c t e r i s t i c s i nt h i sp a p e r , t h ec o m p u t e rs i m u l a t i o n sv e r i f yt h e e f f i c i e n c yo fe v e r yn e w i m p r o v e dm e t h o d k e yw o r d s :s p a r s ed e c o m p o s i t i o n ;m a t c h i n gp u r s u i t ;d i c t i o n a r y ;f h t ;s p e e c h r e c o g n i t i o n 西南交通大学曲南父逋大芋 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在,年解密后适用本授权书; | 2 不保密叼,适用本授权书。 学位论文作者签各粕听 嗍产月习日 料:尹嘶 l , j 日期: 钐月彳日 西南交通大学曲南父逋大罕 学位论文创新性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下独立进行研究工 作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其它个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均 已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: 1 结合语音信号和使用的过完备原子库为实函数的特点,设计利用f a s t h a r t l e yt r a n s f o r m ( f h t ) 改进基于m p 的语音信号稀疏分解算法。算法将计算 量巨大的内积运算转换成循环相关运算,然后利用f h t 实现循环相关运算, 即节省了存储空间,又提高了算法速度。 2 指出利用g a b o r 原子进行基于m p 的语音信号稀疏分解,分解后所得的 原子和投影中含有该信号的重要信息。又因为每个原子又是由其参数决定的, 所以分解后所得的原子参数及投影可以作为被分解的语音信号的特征。利用语 音信号的这一特征可进行语音识别。 终响听 缈7 z 彳 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景及意义 第1 章绪论 语言一直以来都是人类交流最为普遍的方式,也是人类区别于地球上其他 生物的本质特征之一【l 】,因此语音通信就是人类信息通信最为方便最为有效的 手段之一。而自1 9 6 4 年世界第一台计算机面世,经历半个多世纪的发展,计 算机及其相关技术已经深入到人类生活的各个方面,新技术和新产品改变着我 们的生活、学习、工作习惯,更改变着我们所熟悉的环境。与此同时,人们对 计算机的要求也日益升高,人们希望计算机能具有类似人类的智能,让人机之 间的交互活动像人人之间的交流活动一样顺畅,这样就可以进一步提高人们的 工作效率和生活质量,给日常活动带来极大的便利。其中语音识别是人机交互 的重要途径之一。 语音识别技术就是通过机器识别和理解过程把语音信号转变为相应的文 本或命令,其根本目的就是研究出来一种具有类似人类听觉功能的机器,能够 直接接收人的语言指令,并作出类似于人类大脑的反应。语音识别以语音为研 究对象,是模式识别的一个分支,它涉及了生理学、心理学、语言学、计算机 科学及信号处理等诸多的学科。语音识别技术主要包括特征提取技术、模式匹 配准则和模式训练技术3 个方面,另外还涉及到语音识别单元的选取。利用语 音识别技术可以有效地提高人们的工作效率和质量,因此语音识别技术得到了 很大的进展,并开始由实验室走向市场。由于传统的特征参数是提取语音信号 中的声学特征,语音信号的多变性、动态性、瞬时性和连续性造成了这些声学 特征的不稳定,因此语音识别技术还不能得到成熟的应用。 基于匹配追踪【z j ( m a t c h i n gp u i s u i t ,m p ) 的信号稀疏分解自上个世纪九十 年代由s m a l l a t 和z z h a n g 首次提出后,得到了国内外众多学者的研究发展。 将信号基于g a b o r 原子库( 其中g a b o r 原子库是一个g a b o r 原子由一个经过调 制的高斯窗函数构成:g ,( f ) = g ( 兰) e o s ( v t + w ) ,其中,g ( f ) = p 嘲2 是高 斯窗函数,y = ( s ,u ,v ,们是时频参数,其中s 为尺度因子,u 为位移因子,v 为 西南交通大学硕士研究生学位论文第2 页 频率因子,w 为相位因子。) 进行m p 稀疏分解后所得的原子的参数及分解过 程中每次的信号投影里都含有该信号的重要特征,信号稀疏分解己作为一种信 号特征的提取方式被应用到信号识别【3 1 中。但是,由于信号稀疏分解的计算量 十分巨大,计算时间在现有计算条件下是令人无法忍受的。虽然该算法得到了 不少改进,但效果依然不能令人满意。 1 2 国内外研究现状 1 2 1 语音识别系统发展历史与现状 语音识别的研究工作大约开始与2 0 世纪5 0 年代,1 9 5 2 年a t & b e l l 实验 室的d a v i s 等人实现了第一个可识别十个英文数字的语音识别系统a u d r y 系统【4 】。另外1 9 5 6 年普林斯顿大学r c a 实验室开发的单音节词识别系统【5 1 。早 期的识别方法基本上是采用模拟电路实现待测语音和参考语音的运算关系。 2 0 世纪6 0 年代后,计算机的应用推动了语音识别的发展,r c a 实验室解 决了语音在时间标尺上非均匀的问题【6 】。1 9 6 8 年,前苏联科学家v i n t s v u k 首 次将动态规划方法( d y n a m i cp r o g r a m m i n g jd p ) 用来解决语音识别中不等长 的对正问题【r ,j 。 2 0 世纪7 0 年代,语音识别取得了突破性的发展。线性预测编码技术( l i n e a r p r e d i c i t i o nc o d i n g ,l p c ) 在语音识别领域的应用,使语音识别的特征提取产 生了一次飞跃。动态时间规划技术【8 9 1 ( d y n a m i ct i m ew a r p i n g ,d t w ) 搭配 l p c 的谱系数提取,使孤立词识别效率得到提高。提出了矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 和隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m ) 理论。 2 0 世纪8 0 年代,语音识别技术得到进一步深入研究,l i n d a 、b u z o 、g r a y 等人解决了v q 码本生成的方法,并将v q 技术成功应用到语音编码中。h m m 成 为大词汇量连续语音识别系统的基础。1 9 8 8 年美国卡内基一梅隆大学运用v q 和h m m 技术开发了针对非特定人连续语音的s p h i n x 系统,这是世界第一个高 性能非特定人、大词汇量、连续语音识别系统。人工神经网络( a r t i f i c i a l n e u r a ln e t w o r k ,a n n ) 技术也被应用到语音信号处理当中。 进入2 0 世纪9 0 年代后,语音识别逐渐从实验室走向实用。许多发达国家 西南交通大学硕士研究生学位论文第3 页 如美国、日本、韩国及i b m 、a p p l e 、a t & t 、n t t 等著名公司都为语音识别系统 实用化开发投入巨资。出现了比较成功的大词汇量、连续语音识别系统。 我国语音识别研究工作起始于2 0 世纪5 0 年代,但进步快,成绩也很突出。 自国家8 6 3 计划启动以来,由中科院声学所、自动化所、北京大学、清华大学 等单位研究开发。目前,我国大词汇量连续语音识别系统的研究已接近国外水 平。但从语音识别产品的市场应用来看,语音识别技术产品还存在缺陷,技术 上还有待提高。 1 2 2 信号稀疏分解发展历史与现状 信号稀疏分解算法通常分为两个类型【l0 1 。一条是以独立成分分析 ( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ) 为代表的竞争优化的研究方法,另一条是以 m p 算法为代表的基于组合优化的研究方法。 当观察的信号用随机向量x = ( 五x 。) 表示,独立成分向量可以定义为向 量b = ( 岛瓦) 。独立成分分析的目的是通过线性变换把观察的数据x ,转换成 独立成分向量b = a x 而独立成分分量满足互相统计独立的特性。框架算测1 1 】 ( m e t h o do ff r a m e ,m o f ) 选择的是满足式a x = 6 且具有最小f 范数的解,但 它不具有稀疏性。c o i f r n a n 等【l2 j 针对小波包和余弦包这一类字典,提出了最优 正交基( b e s to r t h o g o n a lb a s i s ,b o b ) 方法,但在有些情况下,合成观测信 号的原子并不能组成正交基,此时b o b 方法无能为力。1 9 9 5 年,s c h e n t l 3 】 在d o n o h o 的指导下,在其博士论文中提出了用于信号稀疏表示的基追踪( b a s i s p u r s u i t ,b p ) 原理。该算法在很多情况下比m o f 和m p 能获得更稀疏更自然 的表示,而且算法可用线性规划实现。但是,由于b p 算法的度量函数的特殊 性,基追踪算法在有些情况下不能获得信号的最稀疏的表示。 目前信号稀疏分解最常用的方法是m p 算法。它相对于线性规划方法来说 较快较易实现。m p 算法始于上世纪九十年代,1 9 9 3 年s m a l l a t 和z z h a n g 首次提出了应用过完备原子库对信号进行稀疏分解的思想。该算法从字典中迭 代选择与信号或信号残差最佳匹配的原子,以这些原子来表示信号,同时从残 差信号中去掉在该原子上的投影,获得新的残差信号。这个过程不断迭代进行, 直至残差能量小于给定的闽值( 或满足其他的停止条件) 。尔后又出现了一些 西南交通大学硕士研究生学位论文第4 页 变形的匹配追踪方法,如正交匹配跟踪算法( o r t h o g o n a lm p ,o m p ) 、高分辨 率匹配跟踪算法( h i g hr e s o l u t i o nm p ) 和其他的一些算法。虽然该算法近年 来得到不少改进,但其现有的速度或是重构信号的质量还是不能令人满意。文 献 1 4 中提出的基于g a 和原子特性的信号稀疏分解算法虽然能够大幅提高信 号分解的速度,但是其分解结果只是局部最优,且结果并不稳定。利用其他智 能算法改进基于m p 的信号稀疏分解同样也会出现类似于文献 1 4 的缺点。而 文献 1 5 】提出的利用f f t 实现基于m p 的信号稀疏分解算法速度虽然有所提 高。但f f t 是基于复数运算的,而实际中我们研究的信号大多为实函数,因 此该算法并不能最大限度的提高基于m p 的信号稀疏分解速度,同时也浪费了 存储空间。 1 3 本论文的主要工作 本文在集合划分过完备原子库的基础上,将m p 稀疏分解计算量巨大的内 积运算转换成循环相关运算,然后利用基于实数运算的快速哈特莱变化( f a s t h a r t l e yt r a n s f o r m ,f h t ) 实现循环相关运算。从而满足了实信号模型与算法 之间的匹配问题,提高了算法的速度,同时节省了存储空间。此外由于信号基 于g a b o r 原子库进行m p 稀疏分解后所得的原子的参数及分解过程中每次的信 号投影里都含有该信号的重要特征。基于此特性,本文将信号稀疏分解作为一 种信号特征的提取方式,应用到语音信号识别当中。 本文内容安排如下: 第一章:阐述论文的选题依据和意义、语音识别和信号稀疏分解的发展现 状、内容安排以及本文所作出的主要工作和创新。 第二章:主要介绍了语音识别的主要技术,包括语音识别的基本原理和语 音识别系统的构成,语音的预处理、端点检测技术,语音信号的特征参数,即 线性预测系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t ,l p c ) 、线性预测倒谱系数( l i n e a r p r e d i c t i o nc e p s t r u mc o e f f i c i e n t ,l p c c ) 和m e l 频率倒谱系数( m e lf r e q u e n c y c e p s t r u mc o e f f i c i e n t ,m f c c ) 。 第三章:详细介绍稀疏分解和稀疏表示的概念、原理、方法和应用。首先 简单回顾信号处理技术的形成发展历史,然后引出稀疏分解的思想。接着详细 西南交通大学硕士研究生学位论文第5 页 介绍基于m p 算法的信号稀疏分解的基本思想,最后介绍m p 稀疏分解算法的 发展现状、存在问题。 第四章:本章首先根据语音信号类周期的特点选用余弦原子库,然后在余 弦过完备原子库上实现语音信号m p 稀疏分解。接着利用f h t 实现循环相关 运算以代替m p 稀疏分解中计算量巨大的内积运算,从而改进了基于m p 的语 音信号稀疏分解算法。针对两种语音信号m p 稀疏分解改进算法均通过计算机 仿真进行了验证。结果表明新算法不仅能够提高计算速度,同时还降低了对存 储空间的需求。 第五章:本章在简单回顾传统语音识别特征参数后,指出语音信号m p 稀 疏分解结果能够作为语音信号的特征。然后利用语音信号m p 稀疏分解提取的 信号特征结合m f c c 参数一起作为信号特征参数,通过s v m 进行语音识别。 并与传统特征对比做出仿真实验。 西南交通大学硕士研究生学位论文第6 页 第2 章语音识别的基础 2 1 语音识别系统结构 语音识别的处理过程1 6 1 可以用一个框架表示。其结构框架如图2 - 1 所示。 厂一一一一一一一一一一一一一一一1 l 图2 - 1 语音识别系统的原理框架图 语音识别前期过程中通常需要先将取样得来的信号进行适当的放大和增 益控制,接着将模拟信号转化为数字信号以便于进行计算机后续软件处理。对 输入计算机的语音信号要进行预加重和加窗分帧。然后对处理后的信号进行端 点检测。接着进行特征提取,用反映该语音信号特点的若干特征参数来代表该 信号。 2 2 语音识别前期处理 2 2 1 语音信号的预处理 语音信号是一维模拟信号。要进行语音识别首先需要将收录来的模拟信号 西南交通大学硕士研究生学位论文第7 页 数字化。通常称这个过程为模数转化,也叫a d 转化。a d 转化分为采样和 量化两个过程,以实现时间和幅值的离散化。采样过程遵守奈奎斯特( n y q u s t i ) 采样定纠 】。 奈奎斯特采样定理( 时域取样定理) : 一个频谱在区间( 一w 胛,) 以外为零的频带有限信号f ( t ) ,可唯一地由 其在均匀间隔i ( e 1 2 厶) 上的样点值f ( n t 。) 确定。 就语音信号而言,研究表明语音信号的频谱分量主要集中在2 0 0 - 3 4 0 0 h z 的范围内。实际应用中,通常选择8 k h z 的采样频率。 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴 唇辐射后,高频端大约在8 0 0 h z 以上有6 d b 倍频的衰减。因此,在对语音信 号进行分析之前,一般要对语音信号的高频部分加以提升( 预加重) 。使信号 的频谱变得平坦,保持在低频到高频的整个频带内能够用同样的信噪比求频 谱,以便于进行频谱分析或者声道参数分析。 通常采用数字电路6 】实现6 d b 倍频的预加重数字滤波器。其函数为 y ( 甩) = x ( 胛) - g x ( n 一1 ) ( 2 一1 ) 实现框图如图所示。 h ( z ) = 1 一z 。1 ( 2 - 2 ) 图2 2 数字电路预加重实现框图 其中x ( n ) 为原始语音信号,y ( _ ,z ) 为预加重后的语音信号。为预加重滤 波器的系数,取值范围一般在0 9 - 1 ,通常取0 9 8 或1 【1 6 】。 语音信号是一种典型的非平稳信号,其特征是随时间变化的。语音的形成 过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来说要 缓慢许多,因此语音信号常常可假定为短时平稳的。即在1 0 2 0 m s 这样的时间 段内,其频谱特性和某些物理特征参量可近似看作是不变的【1 6 】。这样,就可以 采用平稳过程的分析处理方法来处理了。因此,将语音信号划分为一个个短的 西南交通大学硕士研究生学位论文第8 页 时间段,每个时间段称为一帧。帧之间彼此经常有一些重叠。通常用时间窗函 数乘以原始语音信号来进行分帧处理,这种操作被称为加窗分帧 16 1 。 假设原始语音信号采样序列为f ( n ) ,对语音信号加窗分帧的函数为 q = r f ( m ) w ( n - m ) ( 2 3 ) 其中丁h 表示某种信号处理方法,它可以是线性的也可以是非线性的。 f ( n ) 为输入的语音信号。q 是处理后得到的时间序列。以刀) 为窗函数。 对信号乘以窗函数,相当于对信号的频谱进行和窗函数的傅立叶变换的卷 积,也就是进行加权移动的平均。窗函数的主瓣宽度要窄,旁瓣要尽量的小, 使能量尽可能的集中在主瓣上,以抑制频谱的泄漏。 常用的窗函数有矩形窗、汉宁窗( h a n n i n g ) 、哈明窗( h a m m i n g ) 【16 1 。其 定义分别为 栅窗帅,= :;:轰了卜1 沿4 , 2 汉宁窗:从疗) :1 0 5 1 1 2 刀 n 1 ) ;o n 0 x ( m 1 = 0 ( 2 1 0 ) x ( m ) 0 0 n n 一1 ,、 ( 2 1 1 ) 0 t h e l - 其中为窗长。该方法首先用一个移动窗w ( n m ) 选取出位于疗时刻的语 音段,然后计算出该时段的过零总数,然后除以该时段的长度。过零率反映的 是频谱特性。 语音信号的端点检测可利用过零率检测清音,利用短时能量检测浊音,两 者配合,即采用双门限检测法i l 酬。 该方法需要先为短时能量和短时平均过零率分别设定两个门限,一个数值 较小的低门限,一个数值较大的高门限。如果低门限被超过未必是语音的开始, 可能是噪声引起的。当高门限被超过,并且接下来的时间段内信号超过低门限 就意味着信号的开始。整个端点检测分为四个阶段:静音段、过渡段、语音段、 结束。当处于语音段时,如果两个参数都降至u f - 限之下,并且总的计时长度小 西南交通大学硕士研究生学位论文第1 0 页 于最短时间就认为这是一段噪声,否则认为该段语音结束。 双门限检测法是目前应用最广的方法。 2 2 3 语音信号特征参数的提取 语音识别系统中的一个重要步骤是特征提取。语音信号特征的选取将直接 影响到系统最终的识别率。所谓的特征提取就是对语音通过变换,寻找其内在 的、能代表语音本质的特征,从而区别其他语音。特征的选择应该遵循以下几 个原则: 1 异音字之间距离的最大化,同音字之间距离的最小化,具有良好的区分 性; 2 特征参数之间良好的独立性; 3 特征参数要易于计算,应保证识别率相同的情况下,特征参数维数的最 小化,以减少存储要求,利于系统实时实觋【2 0 1 。 常用的语音识别特征参数有时域和频埘2 1 1 两种。时域特征如共振峰、基音 周期等。频域特征有线性预测系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t ,l p c ) 、 线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ,l p c c ) 和 m e l 频率倒谱系数( m e l s c a l e df r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 等。实际应用中可以选择几种参数的组合,以充分表征语音信号。 线性预测【16 】是通过对声道短管级联模型的研究而来,认为系统的传递函数 符合全极点数字滤波器的形式。因此,某一时刻的信号可以用过去若干时刻信 号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间的均方 误差达到最小值来求得线性预测系数( l p c ) 。 l p c 的基本原理为:若一个随机过程用一个p 阶的全极点系统受白噪声激 励产生的输出来模拟,设这个系统的传递函数为 h ( z ) = _ ;l ( 2 一1 2 ) 1 一q z 础 根据最小均方误差对该模型参数珥进行估计,就得到线性预测编码算法。 求得的口,即为l p 系数( p 为预测器阶数) 。 西南交通大学硕士研究生学位论文第1 1 页 线性预测倒谱系数( l p c c ) 1 6 3 是线性预测系数在倒谱中的表示。l p c c 求 取过程如图2 - 3 所示。 通常利用下式求取l p c c c ( 1 ) = q c ( ,z ) = c ( n 、= 图2 - 3l p c c 计算流程图 k 、, 一一i c ( n c ( n k n - k )1 p 其中c ( n ) 为倒谱系数,瓯为预测系数,p 为预测系数的阶数,刀为倒谱系 数的阶数。 l p c 和l p c c 都是基于语音发音机理的,主要反映的是声道特性,而不能 很好的反映出人耳听觉特性,并且包含了语音高频部分的噪音。 m e l 频率倒谱系数( m f c c ) 1 6 】是将人耳听觉感知特性与语音的产生相结合 的一种特征参数。实验发现人耳对不同频率的语音具有不同的感知能力。在 1 0 0 0 h z 以下为线性尺度,1 0 0 0 h z 以上为对数尺度,人耳对低频信号比高频信 号更敏感。m f c c 参数无任何前提假设,因此可在任何情况下使用。此外,m f c c 参数将线性频标转化为m e l 频标,强调语音的低频信息,而语音的信息大多集 中在低频部分,从而突出了有利于识别的信息,屏蔽了噪声的干扰。m f c c 求 取过程如图2 4 所示。 厂一,七一栉 川糊 +,一圭心 西南交通大学硕士研究生学位论文第1 2 页 语 图2 - 4 m f c c 计算沉程图 其中m e l 滤波器组的输出,取帧计算的方法为:采集中心频率在1 0 0 0 h z 以上和以下的各1 2 个 。 广r1 o ( m t ) = i n l 1 只( 厂) i j 风( 七) l 尼= l ,2 ,k ( 2 1 4 ) lk = lj k 表示第七个滤波器,k 表示滤波器个数。日。( 七) 表示k 个m e l 滤波器组, 中心频率为f ( m ) ,朋= 1 ,2 ,k 。日。( 七) 的设计公式为 2 3 小结 o 州炉 而k - 而f ( m - 1 ) k f ( m + 1 ) f ( m - 1 ) 七f ( m ) ( 2 1 5 ) 兽譬矣 ( m ) 七( 肌+ 1 ) f ( m + 1 ) 一f ( m ) 一7 7 本章首先介绍了语音识别系统的流程。然后分别详细的讲述了语音识别的 采样量化、预加重和分帧处理。接着又介绍了三种端点检测方法。最后在语音 信号特征参数提取一节中,首先指出常用的语音识别特征参数有时域和频域两 种。然后详尽的介绍了常用的频域特征参数中的线性预测系数( l p c ) 、线性预 测倒谱系数( l p c c ) 和m e l 频率倒谱系数( m f c c ) 。 西南交通大学硕士研究生学位论文第13 页 3 1 引言 第3 章语音信号的稀疏分解 信号处理几乎在所有的工程技术领域中都会涉及到。信号处理【1 6 】的目的 一般是对信号进行分析、变换、综合、估值与识别等。通常信号分为两种类 型:模拟信号,它的幅度和时间都取连续值;数字信号,它的幅度和时间都 取离散值。由于数字信号处理相对于模拟信号处理具有灵活性、精度和稳定 性高,便于大规模集成等优点,数字信号处理发展迅速,应用广泛,成效显 著。信号表达( s i g n a lr e p r e s e n t a t i o n ) 和信号分解( s i g n a ld e c o m p o s i t i o n ) 在信号处理理论研究和工程应用中都是基础性的问题。信号分解是指将复杂 的信号分解成一些简单的信号,以便于进行信号的分析。信号的分解在信号 处理和后续分析中起着至关重要的作用,一种好的信号分解可以给以后的信 号的研究提供极大的便利。语音信号是一维信号典型的代表,同时也是使用 最频繁的信号类型。因此对语音信号的研究具有非常重要的意义。 3 2 语音信号分解 语音信号分析的一个主要目的就是寻找有效的语音信号表示方法,使该 信号的某种特征显示出来以便分析。对语音信号的分析通常采用两种形式 7 j :信号时域分析和信号频域分析。对应的信号表示方式即为:信号时域表 示和信号频域表示。当自变量是时间,即横轴是时间,纵轴是语音信号的变化 时称之为语音信号的时域表示。其动态语音信号工( f ) 描述的是语音信号在不 同时刻取值的函数。语音信号的时域描述看到的是信号实时变化的过程,其 优点是直观,可分辨出信号变化快慢、取值范围等特征。但它不能直接表达 信号的信息量、对信道的要求等,而人们对信号的这些信息更为关注。因此, 信号的频域表达也更受注目。此外,由于快速傅立叶变换【1 7 】的提出为数字信 号处理技术应用于各种信号的实时处理创造了良好的条件,大大推动了数字 信号处理技术的发展,这也进一步显示了频域分析的重要性。在数字信号处 理中,人们通常将原始采样信号通过各种变换转换到频率域上,然后进行分 西南交通大学硕士研究生学位论文第1 4 页 析处理,最后再通过反变换回到时间域。 通常,假设所研究的是模拟信号经过采样后得到的时域离散信号,且长 度为的有限长序列。时域离散信号在进行计算机处理时,需要被量化, 从而成为数字信号。 将长度为的时域离散信号f ( n ) 进行某种变换,将其分解为m 个基本 函数p t ( n ) 的线性叠加形式【1 7 】 m 厂( 咒) = c t p ,( 忍) ( 3 - 1 ) i = l 其中c 称为变换系数或展开系数。式( 3 - 1 ) 提供了一种通用的信号表达 方式。信号在一组基下的分解系数定义了信号的一种表示。基的选择要使它 本质上适合于所要表示的信号。信号分解通常选择的基函数p ,仍) 大概可分 为两大类:正交基展开和基于过完备原子库的展开,即稀疏展开【2 2 1 。 3 3 信号的正交分解 3 3 1 正交信号集 假设信号为厂( f ) 和g ( f ) ,厂( f ) 和g ( t ) 在 ki h - ( ,t 2 ) 正交是指2 3 】 i f ( t ) g ( t ) d t = 0 t l 如果n 个信号p 。( f ) ,p :( f ) ,p 。( f ) 构成一个信号集合, 间( ,乞) 满足以下条件 ( 3 - 2 ) 这些信号在时间区 t p 2 ,( f ) p m 比:o ,f ( 3 3 ) f j 1 易( f ) 1 2 d t = k ( 3 - 4 ) 则此信号集称为正交信号集,各p t ( t ) 称为基信号。如果k = 1 ,f = 1 ,2 ,n , 则此信号集为归一化的正交信号剩2 3 1 。 西南交通大学硕士研究生学位论文第1 5 页 如果除正交信号集 仍( f ) ,f - 1 ,2 刀) 之外,不存在任何能量有限信号与各 a ( f ) 正交,则该正交信号集就是完备正交信号集。 当式( 3 1 ) 中的基函数 只) 是一组完备的正交信号集时,即f ( n ) 可以 用正交信号集 只) 中各基底信号p ,( 甩) 的线性组合来近似,这样的分解被称 为正交分解。在维向量空间v 中,任意个线性无关向量都可称为它的 一组基。v 中任一向量厂都可以表示成这组基 p ,p :,p ) 的线性组合, 且表示式是唯一的。 _ f = c k p t ( 3 5 ) 用矩阵表示为 f = c p ( 3 - 6 ) 其中尸= n ,p :,p 】7 可逆。c 是展开系数,可以由下式求出 c = c lc 2 。v 】_ p 一厂 ( 3 7 ) 3 3 2 信号的正交分解 在信号处理领域,常用的正交分解包括傅立叶变换、短时傅立叶变换和 小波变换【2 4 1 。 傅立叶变换是将满足一定条件的函数表示成三角函数或它们的积分 的线性组合的形式19 1 。它是一对可逆变换,其正反变换定义如下【1 7 】 f ( 动= 亡f ( t ) e - d x d t ( 3 - 8 ) 们) = 去亡,( 动朋缈 在实际应用中,通常假设信号为有限长序列。对于有限长序列,离散傅 立叶变换( d i s c r e t ef o u r i e rt r a n s f o r m ,d f t ) 更为重要。 设x ( n ) 是一个长度为的有限长序列,则定义x ( n ) 的点离散傅立叶 变换【1 7 】为 西南交通大学硕士研究生学位论文第1 6 页 x ( 七) = 工( 刀) 嘴, x ( k ) 的离散傅立叶逆变换【1 7 】为 x ( 甩) = 寺x ( 七烁h , vk = o k = o ,1 ,- 1( 3 - 9 ) 刀= 0 ,1 ,n 一1 ( 3 1 0 ) 通常,声音频率是随着时间而变化的,有时是需要度量这种频率的时间 变化规律的,这在语音识别和音乐中尤为重要。而傅立叶变换是完全不具备 同时反映语音信号的时频分布能力的。 函数厂l 2 ( r ) 的短时傅立叶变换【2 3 t2 5 】( s h o r t t i m ef o u r i e rt r a n s f o r m , s t f t ) 是将厂与每个原子邑f 联系起来 矽( “,f ) = 亡厂( f ) 或,善( f ) 出= 亡厂( f 涫。一“) p 一毋d t ( 3 11 ) 其中f ( f ) = g ( f 一“) p 母 虽然s t f t 具有可以同时看到信号时频分布的能力,但它的时频分辨率 依赖于窗函数的时频跨度,而窗口的跨度是固定的,因此其分辨率也固定的, 这也正是s t f t 的缺点。 小波变换是在伸缩平移后的小波上分解信号。小波2 3 1 是一个均值为o 的l 2 ( r ) 函数 p m i ( o ( t ) d t = 0 ( 3 1 2 ) j k 对矽做伸缩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论