(电路与系统专业论文)基于DSP的连接数码语音识别研究与设计[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于DSP的连接数码语音识别研究与设计[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于DSP的连接数码语音识别研究与设计[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于DSP的连接数码语音识别研究与设计[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于DSP的连接数码语音识别研究与设计[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于d s p 的连接数码语音识另4 研究与设计 摘要 为了克服传绕汉港数码语塞识别系统抗碟性差、识别率低的特点,本文阐述 了种基予t m s 3 2 0 v c 5 4 0 2 定点数字信号处理器( d s p ) 的连接汉语数码语音识 别系统的设计和实践,力争使系统具有实利性、较强抗噪性、较商识剩率和j 特 定人连接数码语音识别的特点。 针对传统的“改进潜相减法谬督增强”参数设定单一、环境适应能力差的缺 点,提出了一种利用模糊理论和“改进的谱相减法”结合的“模糊谱相减法语鸯 增强”;针对语音信号端点检测困难的特点,通过m a t l a b 仿真试验,绘战了能 够准确确定数码语音端点豹初始和改进参数表;提出了嗣眉基于线性预测编码倒 谱参数和差分线性预测编码倒谱参数柏结合的离散隐会马尔可夫模型进行第一级 谈别、利用共振峰参数进行第二级识别的两级汉语数码语音识剐系统,在保证系 统实时性的同时,实现连接汉诱数码语音识剐系统识别率的挺藏:在硬件实现上, 详细阐述了基于t m s 3 2 0 v c 5 4 0 2 的连接汉语数码语音识别系统各部分硬件设计; 在软件开发上,给出了连接汉语数码语音识别的软件设计器部分的漉程图,并对 各部分进行了m a t l a b 仿真,并绘出了仿真结果。 最后,分别建立了数码语音识别仿真系统和连接数码语酱训练系统。利用连 接数码语啻掣l i 练系统缛到了舅女各一套向量量化码本和男女番一套1 1 个数码的菲 特定人连接数码语音离散隐含马尔可夫参数;基于这些参数,连接数码语音识别 仿宾系统成功实现了瓣输入数码语音的识别,并且系统具有较好的抗噪性。 关键词:语啻识蹦;连接数码;离散隐含马尔可夫攘黧;线性矮测编码倒潜;差 分线性预测编谒倒谱;共振峰 a b s t r a c 重 l no r d e rt oo v e f c o m et h ed i s a d v a n t a g e so ft f 聪至重i o n a lm a n d a r i nd i g i ts p e e c 董l r e c o g n i t i o ns y s t e m ,i n c l u d i n gb a dr o b u s ta n dl o wr e c o g n i t i o nr a t e , t h i st h e s i s e l a b o r a t e s t h et h e o r ya n dp r a c t i c eo fd e s i g no fc o n n e c t e dm a n d a r i | ld i g i ts p e e c h r e c o g n i t i o n ( c m d s r ) s y s t e mb a s e do nt m s 3 2 0 v c 5 4 0 2f i x e dp o i n td i g i t a ls i g n a l p r o c e s s o r ( d s p ) 。t h i st h e s i st r i e st ou p d a t et h ec m d s rs y s t e mt o a c h i e v et h e c | l a r a c t e r sb e l o w :f e a l t i m e ,b e t t e rr o b u s t ,h 培h e rr e c o g n i t i o nr a t e ,n o n - s p e c i a i m a n , c o n s i d e r i n gt h ed i s a d v a n t a g e so ft r a d i t i o n a ll m p r o v e ds p e c t r u ms u b t f a c t i o ns p e e c h e n h a n c e m e n t ,疆i st h e s i sp r o p o s e st h et h e o r yo ff u z z ys p e c n u ms u b t r a c t i o nb a s e do n t h ef u z z yt h e o r ya n di m p f o v e ds p e c t r u ms u b t f a c t i o ns p e e c he n h a n c e m e n t ;a sf o r t h e d i 壤c u l t i e so fd e t e c t i n gt b ee n d p o i n to fs p e o c hs i g n a l ,t h et h e s i sg i v e st h et a b l eo f i n i t i a la n dt h ei m p r o v e dp a f a m e t e r s ,w i t hw h i c hw ec a nc o n 蠡f mt h ee n d p o i n t so f m a n d 牡i nd i g i ts p e e c h ;l h e 也e s i sp u t sf o r w a r dt w o l e v e ld i g i tr e a l t i m es p e e c h r e c o g n i t i o ns y s t e m ,t h ef i r s tl e v e li sb a s e do nd i s c r e t eh i d d e nm a r k o vm o d e lw h i c hi s l i n e a fp f e d i c t i v ec o d i 拄gc e p s t r l l n l ( l p c c ) a n dd i f 强r e n c el i 丑e a rp f e d i c t i v ec o d i n g c e p s t r u m ( d l p c c ) ,m es e c o n dl e v e li sb a s e do nf o r m a n tp a r a m e t e r s ;a sf o rt h e r e a l i z a t i o no fh a f d w a r e ,t h e 馈l e s i sd e p i c t st h ef e a l i z a t i o no fe v e r yp a no fc m d s r b a s e do nt h et m s 3 2 0 v c 5 4 0 2i nd e t a i l ;a sf o r t h ed e v e l o p m e n to fs o f t w a r e ,t h et h e s i s g i v e st h es o 最w 瓣d e s i g 瓤n o wc h a 蛀o fc m d s r ,s i m l l l a t e s 也eb a s i c 镪e o f yw i 毛h m a :r l a bl a n g u a g ea i l dg i v e st h es i m u l a t i o nf e s u l t s 。 a tl a 或,t h et h e s i se s t a b l i s h e sm a 珏d 村濂d 唔ts p e e c hr e c o g n i t 主o ns i m u l a t i o n s y s t e m ( m d s r s s ) a n dc o n n e c t e dm a n d a f i nd i g i ts p e e c ht r a i n i n gs y s t e m ( c m d s t s ) s e p a r a t e l y ;w i t ht h ec m d s t s ,t h et h e s i sg e t st w os e t s 醴v e c t o rq u a n t i z a t i o n ( v q ) p a r a m e t e rt 如l e , i n c l u d i n g m a n s觚dw o m a n s , b e s i d e s , i t g e t s t w os e t so f n o n s p e c i a l * m a nc m d s rd i s c r e t e h i d d e nm a r k o vm o d e l ( d h m m ) p a f a m e t e r s , i n c l u d i n gm a n sa n dw o m a n ,sa sw e l l w i 椭t h et a b l e sa n dp a r a m e t e r s ,t h em d s r s s c a nr e c o g n i z et h ei n p u td i g i ts p e e c hs u c c e s s f h l l ya n di ta l s oh a sb e t t e rr o b u s tc h a r a c t e l k e yw o r d s :s p e e c hr e c o g n i t i o n ;c o n n e c t e dd i 鐾i t ;d 珏m m ;l p c c ;d l p c c ; f o r l 珏a n t l l i 湖南大学 学位论文原剖性声明 本人郑重声明:所星交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写豹成果作器。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律詹果由本人承担。 作者签名:匙胎日期:年弓胃罗医 , 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,翔意 学校傈留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被套阕和借阕。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数攒库进雩亍检索,霹以采照影印、缩印或扫搂等复制手段保存和汇 编本学位论文。 本学位论文属于 l 、保密口,在年解密后适爝本授权书。 2 、不保密翻。 ( 请在以上相应方框肉打“”) 作者签名; 导师签名: 曰期:印多年善月,目 e 瞒、舢 每j j ? e 鹏郦 起墨 硕士学位论文 1 1 引言 第1 章绪论 语音识掰技术起始于扛世纪5 0 年代,6 0 年代和7 0 年代初,语音谈别最重要 的发展是语音信号线性预测编码( l i n e a rp r e d i c t i v ec o 出n g ,l p c ) 技术和动态时 间援熬( d y n a m i ct i m ew a 撑i n g ,d t w ) 技术的发震,它有效地解决了语音特征 提取和不等长隧配目题,对特定人的语音识别十分有效。研究特点以孤立字语音 识别为主,通常把孤立字作为一个整体来建立模板。语音识羽研究的重点之是 连接词语音识嗣,各种连接词语音识剐算法被开发,麴多级动态规划语瓷识剐算 法。另一个重要的发殿是语音识别算法从模板甄配技术转向基于统计摸型技术。 人们研究从微戏转向宏观,不再刻意追求细化语音特糕,而是更多从整体乎均的 角度来建立最佳的语音识别系统。隐马尔可夫模型( h i d d e n m a r l 【o vm o d e l ,h m m ) 楚其中的一个典型。它能很好地描述语音信号的时变饿和平稳经。统计语言模型 也开始取代基于规则语畜模型的方法。h m m 研究使大词汇量谌音识别系统豹开发 成为可能睢j 。 语音识别技术有着觅屠的市场前景,它豹应熙领域非常广泛,有声控电话交 换、诺音拨号系绕,信息阏络查询、家庭服务、寅馆服务、旅行社服务系统、订 票系统、声控蟹能玩具、医疗服务、银行服务、股票套询服务、h 厅笃机、计算机 控制、工业控制、语音通信系统等等,凡乎涉及到日常生活的簿个领域。它在 一臻领域中正在迅速成为一个关键的、丽且具有竞争力的技术,并且必将改变人 销的匿常生活。 1 2 研究汉语数码语音识别的意义 汉语数码语音识别( m a n d a r i nd i 醇s p e e c hr h e g n i t i o n ,m d s r ) 熄近年来发 展起来的语音识剐中其有广泛应用背萦的分支,汉语数码语音识别的任务憝识别 “o ”到“9 ”等1 0 个非特定人汉语数码语音,由于在人们的生活习惯中,“l ”疑 有“y i ”秘“y a o ”两个读音,阂此共有h 个语音。 作为数字信息化时代的标志,僖用卡号码、电话语鸯拨号、个人身份 歪号妈、 电予密码等郝是具有连续数字化特征,因此连接数码语音识别成为语音识剐中极 其重要的一项任务。一方面,连接数码语音识别可以识别用户说出的数字串,向 用户掇供最鑫然、最灵活和最经济韵入机接目界面,获丽能肖效解决军用和民用 领域中遇到大量数据录入问题;男一方预,由于电话网络的日益营及,连接数码 苎王2 1 1 墼鎏壁茎塑童量竖型竺圣皇篓生 语音识别可用于电话人口统计、远程股票交易及各种号码的远程认证等。因此, 汉讲数码语音识别是语音识别领域中一个其有广泛应用背景的分支2 朝。 1 3 数码语音识剐研究现状及发展趋势 近年来,语音识别技术有了突飞猛遴的发展。在众多的语音识别任务中,最 先进入实用化的是英语数码语音识别,而以a t & t 公司、美国卡内基梅隆大学、 英国剑桥大学等为代表的研究机构目前剡正致力于开发具有英语非特定人、大词 汇量、连接语音识别功能的实用产品,谳且已经取缮了相当喜人的成巢。同时, 剑桥大学和菲蒲公司迸在研究英语语音识别算法在其它欧洲语种中应用的可能性 及效栗。妥翦,英语数码语酱识别豹菲特定人零字和数码审识别率旱巴分剩达到 了9 9 7 和9 9 1 1 以上【2 3 1 。 我国的语音识鄹起步于2 0 整鳃5 0 年代,但近年来发展较快,同时研究水平 从实验室走向实用。从1 9 8 7 年开始执行8 6 3 计划,圜家8 6 3 智能计算机主题 专家为语音识别研究立项。每年滚动一次。从1 9 9 1 年开始,国家8 6 3 智能计算 极主题专家组每一至两年举行一次全国语啻谈别系统测试。参加测试酶系统代 表国内在这一领域的研究水平。汉语语音识别研究硬件走上了组织化的道路。目 蘸我国对大词汇量连续语音识剐系统的研究已经接遥国外最离永平。 表1 1 中英文数码语音及音节数分布” 数码英语发音音节数汉语发音音节数 oz e f o4 【l i b 翻 3 lo n e3 y i 】 1 2蕈舛o2 【e 日 l 3t h r e e3 s a n 】 3 4f o u r 2 【s i 】 2 5f i v e3 、w 】 l 6s i x3 【1 i u 】 3 7s e v e n4 【q 2 8 e i g h t 2 【b a 】 2 9n i n e3 d i u 】 3 l 【y a o 】 3 与此相反,汉语数码语鬻识别( 即“0 ”“9 ”汉语数码语裔识别) 技术虽 然在移动通信、电脑话务员、电话证券交易等领域有着极大的应用价值,_ 并因此 受到了国内科研单位广泛青睐,而且从字表的容量大小来者,汉语数码语音识别 应该是最简单的一种汉语语音识别任务,但事实是其进展相当缓慢。这主要因为 汉语数码语音识别存在诸多困难1 2 3 】: ( 1 ) 语音阔商混淆的问趣,由于汉语数码语音的音节数少,闲此语音混淆高。 由表1 1 ,鼹然,音节越少,语音之间的相似积程度越大,识别的困难程度也 就越大。英文数码语音的平均音节数比汉语数码语音多3 8 ,单音节相同的语音 对明显偏低,篮根本没有双音节棚同或音节包容的情况。这些都淡明,汉语数码 语音的混淆远远大于英语数码语音。 ( 2 ) 菲特定入静闯蘧,汉语是一个多方言语种,由于各地人群在瞽通话中带 有或多或少的口音,因此这种数码语音识别系统仍然具有很大难度;汉语是一个 多方言语种,各个语种的发膏差弊很大。要想实现个适含各种方言的汉语数码 语巍识别系统是非常困难豹,也是不现实豹。更德含实际的做法是首先实现个 普通话连接数码语音识别系统,然后针对每个地区的方言分别设计连接数码语音 识别系统。帮便如诧,由于各地人群在普通话中带有或多或少的口音,因此这种 数码语音识别系统仍然具有很大难度。 ( 3 ) 噪声环境的问题,由于环境复杂、噪声源较多,使得相应的数码语裔识 别饪务相当艰巨;连续语音的闯鼷,汉语数码连续语音豹连续程度赢。 ( 4 ) 连续语音问题:汉语连接数字语音的连续程度要高于英语连接数字发音, 这燕由予纯元音语啻谯汉语中出现较多,如“l ”、“2 ”等,而在英语中熹| 】缀少见。 两个纯元音语音的连续程度要远高于两个普通语音的连续程度。例如,汉语数码 串“1 2 2 l ”f y a oe f e f y a o 】的连续发膏凡乎缀难在波形上看出其中镣个字的分界点。 汉语的这种特点明显加大了汉语数码连续语音的识别难度。 ( 5 ) 在许多应用背景中,数码语音识别需要在遁算和存储资源都比较紧张的 数字信号处理器系统上实现,这为数码语啻识别算法豹设计带来了很大的限制。 至今可查的文献得知,汉语数码语音识别非特定人单字识别率尚无一超过 9 9 ,连接数码语音谈掰的识别率羽更在9 5 戳下,南北可见,汉语数码语音识别 水平尚远远落后于英语数码语音识别水平。 1 4 选题背景及方案选择 d s p ( d i g i t a ls i g n a lp r o c e s s o r ) 即数字信号处理器在2 0 世纪8 0 年代早期问世, 并且带来了许多产品设计豹革命。在通信、多媒体信号处理、自动控制、仪器设 备、医学、军事、消费类电子和计算枫替领域都有广泛的应用。 美国德州仪器( t e x a si n s t m n l e m s ,t i ) 公司近年推出的t m s 3 2 0 v c 5 4 0 2d s p 芯片是一款1 6 位定焘d s p 芯片,矮有较赢的性价毙,有丰富豹雏设和强大的开发 环境,特别适含应用在语音信号处理领域。因此,连接数码语音识别系统选用 t m s 3 2 0 v c 5 4 0 2 来作为数码语音识剐的主处理器。 语音特征提取方法是整个语音识别系统的基础,对语音识别率有袭及其蘑要 基于d s p 的琏接数码语音识别研究与设计 的影响,也因而一直受到了广泛的熏视。经过几十年的发展,目前的语音识别特 征提取方演主要可以分为三类: ( 1 ) 綦于线性预测编码( l p c ) 的倒谱参数( 即线性预测编码倒谱参数,l p c c ) 表示; ( 2 ) 基于f f t 的频谱余弦变换分振,其典型代裘是基于m e l 系数的m f c c 方法: ( 3 ) 基于前沿数字信号处理技术的特征分析手段,如小波分析、时域一频域 分析、人工神经网络等。 目前的大型语音识别系统大多采用第( 1 ) 、( 2 ) 类语脊特征分析方法。试验 表明2 ,瘦汉语数码语音识别中,m f c c 方法的确略优子l p c c 方法,但是,m f e c 方法的算法复杂度远大于l p c c 方法。 典型的语音模式识别方法有d t w 方法和h m m 方法鹾种,丙 薹m m 方法又可 分为离散h m m ( d h m m ) 、连续h m m ( c h m m ) 和半连续h m m ( s c h m m ) 方 法等多种形式。试验表明l ,c h m m 豹识剐率最高,而d h m m 的计算量最小, 这与其它语音识别任务体现出的结果是一致的。 由于数码语音识别任务具有很强的d s p 和a s i c 应用背景,因而对识别过程 的反映速度;蘑实时性要求较高,霜又毋塑狸应的疆l 牛系统成本越低越好。虽然在 上述方法中m f c c 和c h m m 都表现出较好的特性,考虑到汉语数码语音识别系统 的实际要求,汉语数码语音识别系统宣选择l p c c 和d h m m 作为基本语音特镊提 取和模式识别方法,并在此纂础上进行备种算法改进和提高【2 引。 传统基于m f c c 和共振蜂参数的两级数码语音识别中,m f c c 的计算要用到 离教余弦变换,两且不能由m f c c 囊接经过变换得到共振蜂参数。与此相反,l p c c 只需经过对d s p 来说较容易实现的反傅立叶变换就可以得到共振峰参数,从而实 现与传统两级数码语音识别相比具有更好的实对优势,同时弓l 入熊反l ! 凳语音动态 特性的d l p c c ( 差分线性预测编码倒谱参数) ,因此,选择l p c c 、d l p c c 和共 振峰参数作为基于d s p 的连接数码语音识别系统两级数码语音识别的特征参考参 数。 1 5 本文的主要研究工作 本文力争得到一种基于t m s 3 2 0 v c 5 4 0 2d s p 的实时连接数码语音识别系统。 利用模糊理论和“改进的谱相减法语音增强”相结合,得到“模糊谱相减法语音 增强”算法,并透过试验仿爽得到鼹应不同的噪音功率谱系数的筘参数表,从露 提离系统的抗嗓性:给出了语音端点检测参数表,并通过仿真验证,实现了数码 语音信号端点的准确检测;为了撬高系统的识羽率,又由于d s p 系统的特殊性 ( d s p 的运行速度和存储空间有限) 把传统的l p c c 、d l p c c 两种参数和共振峰 坝士学位论文 参数相结合,在对系统的实时性影响度最小的条件下,实现系统的识别率得到提 高;针对系统对实时怯的要求,作者采用了d h m m 和分层构筑的方法滋行连接数 码语音识别;此外还对连接数码语音识别系统的d s p 实现的硬件和软件设计分别 进行了详尽阐述。 本文共分5 章,务章具体豹研究内褰如下; 第1 章:文中给出了语音识别及数码语啬识别的概念,回顾了国外英语数码 语瓷识别及国肉汉语数码语音识剃的发展现状。 第2 章:文中阐述了语音信号产生的基本机理,给出了连接数码语音识别中 需要的语音信号处理理论,包括颟加重、窗函数的选取、语音增强、端点检测、 特征参数的提取等。奔绍了数码语音识别的识别理论及识剐过程,对d h m m 的特 征参数参考向量表的得出、三个问题的给出及解决方法以及在计算过程中遇到的 闻题的解决方法进行了探讨。最麝对连接数码语音识别中数字串的分割方法及适 用于连接数码语音识别的分层构筑实现方法进行了论述。 第3 章:文中对以t m s 3 2 0 v c 5 4 0 2d s p 为核心的连接数码语音识剐系统的硬 件设计进行了阐述,给出了硬件系统各部分其体的电路设计著绘出了系统硬件结 构图。 第4 章:文中对系统软件的设计遴行了潮述,给出了嚣个软件组成部分豹软 件流程图,并且对相庶的部分软件子程序进行了相应的m a t l a b 仿真论证,对其 中的部分过程进行了深入的分析和探讨;最终建立了一种基于m a t l a b 的连接数 码语音识别仿真系统,并通过给出结果表明系统成功实现对输入数码谢音进行识 别:此外,还针对t m s 3 2 0 v c 5 4 0 2 定点d s p 的软件编程和自举问题进行了阐述, 共绘出了解决方法;绘出了d s p 与单片机之间鲍通傣设计。 第5 章:文中建立了一种基于m a t l a b 的连接数码语音识别训练系统。并通 过此系统褥蜀男女各套向薰量德最终调练礴零和舅女各一套1 1 个数码语音的 d h m m 参数,这些参数是第4 章数码语音识别仿真系统能够成功实现对输入数码 语音进行识别的基础。 第2 章连接数码语音识别技术基础 2 1 语音信号分析 通过对语膏信号发声过程的研究以及观察记录的各种语音波形,便可知道语 音信号载频谱分量主要集中在3 0 0 3 4 壬z 的范围内。如栗用一个茨混叠的带通 滤波器将此范丽的语音信号频谱分量提出,然后按8 k h z 以上的采样频率进行采 样,就可以得到离散时域的语音信号。 语音信号的一个重要的特点就是它的“短时性”。在某些短时段中它呈现出随 机噪声的性质,另一些短时段则量现出周期信号的特征,其它一些是两者的混合。 镌褥言之,语齿信号豹特链是随时间两变化的。只有在一短段时润间隔中,语音 信号才能保持相对稳定一致的特征,这段时间一般取1 0 3 0 聊s 。因此对语音信号 的分析和处理必须建立在“短时”的基础上。 在此数码语音识别系统中,语音的采样频率采用8 k h z ,1 6 位采样,2 0 一一帧, 也就是1 6 0 个数据一帧,在取数据时,前一板和后一帧的交叠部分称为帧移。帧 移和帧长的比德一般取为o l 彪。在数码语音识别系统中,每次移动l o 脚,即8 0 个数据熏叠。因此,可知,要实现数码语音信号的实时识别就簧求系统的信号处 理部分豹处理时闯不能超过1 0 掰,而要实现连接数码豹滔啻识剐剐要求系统对每 单个数码的最终概率计算时间不能超过5 0 聊( 因为通过对连接数码语街信号的统 计表明,在正常的语速下,两个数码语音之间的间隔一般大于5 0 辫) 。 语音信号的产生过程可以看作是激励信号激励一个线性系统面产生的输出。 语裔信号的离散时域模型包括三个部分:激励源、声道模型和辐射模型。在 语音识剐系统中辐射模型不需要考虑。激黩源分浊音和溥音两个分支,在浊音的 情况下,激励信号是由一个周期脉冲发生器产生。在清音的情祝下,激励信号由 一个随机噪声发生器产生。 声道模型给出了离散时域的声道传输函数y ( z ) ,把实际声道作为一个变截面 声管加以研究,采用流体力学的方法加以导出,在大多数情况下它是一个全极点 函数。这样y f z ) 可以表示为: 哪净高2 壶 = 1 群,为实数 ( 2 1 ) 这蟹,把截面积连续变化的声管近似为p 段短声管的串连,每段短声管的截 西软是不变的。p 称为这个全极点滤波器的阶。显然,| p 值取得越大,模型的传 输函数与声邋实际传输函数的吻合程度越高。但是对大多数实际应用而言,p 值 取8 1 2 就足够了,本文中选定p = 1 2 。 2 2 语音识别的基本流程 语音 训练 r 刊参考模式| b l 一 翻2 1 自动语音识别系统原理性方框图 如图2 1 所示,整个数码语音识别系统主要包括因部分:矮处理、特镊提取、 训练和识剐。其中识剐又分为模式匹配和判决规则两部分。语音信号首先通过麦 克风变成电信号,然后进行包括语音增强、预加熏处理、端点检测三部分的预处 理,再进行包括l p c c ,_ d l p c c 和麸振峰参数的特征参数的提取,最后进入到训 练或识剐阶段,其中数秘语音的调练主要是在计算橇上进彳子,识剐羽主要是在d s p 系统上进行,通过模式甄配和判决规则从而最后输出识别结果。 2 3 数褐语音信号预处理 已数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般用 循环队列的方式来存储这挫数据,以便用一个有限容量的数据区来应付数景极大 的语音数据( 已处理过魏语音数据可以依次抛弃,让出存储空闽来存入薪数据) 。 在进行处理辩,按板从此数据区中取出数据,处理完成后再取下一鞍。j 墩外对语 裔的“短时”处理也需婺窗函数。因此,语音识别系统在特梃分析之前必须对原 始语音信号进行加窗处理,也就是用窗函数从n ) 米乘语音信母s 国) ,从而形成加 露语音s 。( 哟= s ( 撵) w ( 撵) 。在语音信号中常震的塞溺数为方窗鄢哈疆窗,它们的表 达式如下: 方窗 “:世舻! 。二翌。) ( 2 2 ) 坝哪2 1o ,栉:其它值 。 哈明窗 喇: o 5 4 + o ( 惫肿 ,删刈曲 强。, i o , = 其它假 慕于d s p 的连接数码语音识别 i f 究与设计 采样后的语音首先进行预加重运算即通过一个特性为( 1 一船。) 的数字滤波器, 其中x 可以在o ,9 o ,9 7 之闯,在语音谈别中选撵o 9 3 75 【l 】,通常称之为预蕊重滤波 器。它的主要弱的在于滤除低频予扰,尤奘是5 0 珏z 域6 0 壬 z 的工频干扰,将对语 音识别更为有用的高频部分的频谱进行提升。在计算短时能鬟之前应用该滤波器, 还可以起到消除巍流漂移、拟制隧枫噪声和提升轻音部分短时能量的效粜。 语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然丽, 由于干扰通常都是随枧的,从带噤语音中提取竞全纯净的语音几乎不可能。在这 种情况下,语音增强的目的主要存两个:一是改进语豢质量,瀵除背景噪声,傻 沂者乐予接受,不感觉疲劳,这怒一种主观度量;二憝提高语音可懂度,这是一 种客观度量。这两个弱的往往不能兼得。萄前有攮对低信噪比带噪语音进行语 音增强的方法,可以恳著地降低背景噪声,改进语音质量,但并不能提高语音的 可懂度,甚至略雹下降i 1 】。 由于人耳对谮音相位的感受是不敏感陡,因此,将估计豹对象放在短时谱幅 度上。 语音是津平稳随据过程,瞧在系统采耀的2 0 辫的分析桢内可以近似看成是平 稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,则即可达到 增强的目的。 由于噪声也魑随机过程,因此这种估计只能建立在统计模型基础上,人耳感 知对语音频谱分量麴相拉不敏感,因此酲翦的增强算法主要针对短眩谱蛹度。 国2 2 改进黧谱相减法语啻增强框图 改进的谱相减法的纂本框图翔鍪2 2 所示。阉审s ( 功表示纯净语音,五。( j i ) 表 示噪音功率谱系数,通常在语音中的无声段估计而得。e 和砖,七= 0 ,l ,分别表 示肇噪声语音y ( 哟和纯净语毒s 0 ) 的频谱系数。y ( 力经f f t 变换后,毒耳= & + 以, 。( 女) 为无语音时i ;1 2 的统计平均值。由于录啬和发声的间隅,正常儋况下语音 信号的翦| 埘s 是无声毅。 增强后豹语音s ( 搿) 的谱幅度系数| & l 南式2 4 得: 1 s t 怿“k “一硝( 七) 】“ ( 2 4 ) 其中口和卢( 0 ) 是两个参数。当d = 2 ,= 1 时,这个算法就是传统的谱相减 法。适当调整群和口的值可以得到更好的增强效果。这种算法为改进谱相减法。 谱相减语音增强算法虽然具有很好的滤波性能和很好的可懂度,但是其中存 在“音乐噪声”。物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数 g 。信噪比高时,含囊语啻的可能性大,衰减小。反之,则认为含有语音的可能 性小,衰减则增大。而且厣越大,语音引起的失真也会增大l lj 。 在实际应躅中,透过仿真可以知道,参数掰、的值如果设置为常值,其增 强效果在噪音功率谱系数不同的条件下得到的增强效果并不相同,如果设置不当, 在滤除嗓音的同时,诺音质量也遭到了破坏,这对语音识别来说是“不能容忍” 的。因此,把模糊理论与“改进的谱相减法语膏增强”楣结合进行进一步“改进”, 作者称之为“模糊谱相减法”。 模糊理论是饺机器模仿“入具有运用模襁概念豹能力”f 4 ”,逶过测量羁不同 噪裔功率谱系数值,设置不同的搿、声参数值,从而在不同的信噪比条件下,都 能获得最好的增强效采一一在噪音滤除和语音质量之问找到好的平衡点。从而在 “改进的谱相减法语啬增强”的基础上进一步提高数码语隶系统的抗噪性。 整个语音信号的端点检测可以分为四个阶段:静音、过渡段、语音段、结束。 如静音段,女眭栗短融能量、短时平稳幅度或短时过零率超_ 逑了低门限,就应该开 始标记起始点;进入过渡段,在过渡段中,由于参数的数值比较小,不能确定是 否处于真正豹语音段,因此只要三个参数的数值都潮落到低门限以下,就将当前 状态恢复到静音状态,两如果在过渡段中三个参数中的任懑一个超过了高门限就 可以确定进入语音段了。 一些突发谯的噪声也可能引起短时能量、短对平均幅度帮短时过零率的数僮 很高,但是往往不能维持足够长的时间,如门窗的开关,物体的碰撞等引起的噪 声,这些都可以逯过没定最低时闻门隈采判剐。当前状态处于语音段时,如采三 个参数的数值降低到门限以下,而。且总的计时长度小于最短时间门限,则认为这 是- 段嗓音,继续扫描以后的语音数据,否则就标记好结柬点,并返回。 提取靛1 0 0 榭无声段语豢信号的短时能量、短时平均幄度和短时过零率作为阀 值的修正值,用来判断无声段和有声段的划分。 这是语音信号豹一缀最基本豹短对参数,在各种语音信号数字处瓒技术中都 有进一步应用。 ( 1 ) 当窗的起点 = 0 时,语音信号的短时能量舔鼠表示,其计算公式如下: 一l 邑= y s j ( m ( 2 + 5 ) 。篙 如梁窗w 2 ( 聆) 的越点不是拜= o 两是其它菜个整数饼,辫么孝耩应的短时能量用 e 。表示,其取和限为栉= m 沏+ 一1 ) ( 2 ) 当窗起点为聍= o 对,语音信号的短时平均蛭度用m 。表示,葜计算公式 为 捣= ls 。( 雌) i ( 2 6 ) 同样,当窗的起点为任意艇数柳时可表示为m 。 短时能量和短时平均幅度溺数的主要用途有:可黻区分浊脊段和清音致,瓣 为浊音时的短对麓量值比清音时大得多;碍以藤来送分声母和韵母的分赛,无声 矛玎有声的分界,连字的分癸等;作为一种越音段信患,用予语音识别中。 ( 3 ) 短酵过零率表示一椟语轰中语音信号波形穿过横辜喹( 零电平) 的次数。 过零率就是样本改交铤号的次数。当窑的起点为n = 0 时,语音信号豹短时过零率 用z o 表示,以表示一帧语音巾语音信号波形穿过横轴( 零电平) 的次数,可以用相 邻两个取样改变符号的次数米计算如下: 磊= 去 ls 喊s 。( 掸) 】一s 弘k 加一洲 ( 2 + 7 ) 其中s g n 【j 表示取符号。 2 ,4 数码语音信号特征参数的提取 设有一个非零间隔为撵= o ( 一1 ) 的窑透数诫珂) ,用它乘s ( 聪) 震得到如露语畿 序列s 。( 聍) ,其非零区闻也是聍= o ( 一1 ) 。定义s 。( 雕) 的囊相关函数艘) 如下: 震( z ) = 置( 一,) = s 。( 栉+ z ) s 。( 摊) ( 2 8 ) 归一位丞数_ r ( f ) = 器,k 鲇, 线性预测镶鼹( l p c ) 最佳藏| 訇预测系数口,和最佳前囱逆滤波器爿( z ) 。 n ( p )n ( 尹)n ( 产)n ( p ) 这组系数共p + 1 个,它们是群,j = o p ,其中口o = 1 。日l 稃,可以由 德宾( d 珏r b i n ) 递推法求褥: ( 1 ) 给定预测器阶数_ p ( 2 ) 计算五“) ,= o ,1 ,p ( 3 ) 计算五m 。一r ( 1 ) ,置( o ) n ( ) ( 4 ) 计算g l = ( 1 ( 5 ) := 【l 舾) 2 】矗( 0 ) 硕士学位论文 ( 6 ) 令聊= 2 ( 7 ) 置“1 = q r ( m ) + d _ ! ,i 一1 r ( 1f 一圳) f = l ( m ) ( 8 ) 口。= 最( “ m ( m i ) ( m 1 ) ( 9 ) 球:= 疗,+ 蜀哪口。一, f = 1 ,2 ,( 珊一1 ) ( 1 0 ) 计算= 1 一 胃“ 2 】 ( 1 1 ) 蜥p ? 若回答为是,则令掰= m + l ,转入( 7 ) 继续运行 若回答为否,则停止运行并输出口t ,口:,口,作为计算结果 ( 1 2 ) 结束 其中,k 必然潢足下列条件; 1 置”匿1 域一1 置”+ l ,任意聃l( 2 9 ) x 的这一憔质可以方便定点d s p 的诗算以及编程。 n ( p )n p )n ( p ) 由口,鼢可以构成最馕翦囱遴滤波器_ ( z ) : o z ) = a r z ,球。= l( 2 1 0 ) 则声道z 域传输函数为: n ( p )pn 护) 日( z ) = l ,么 ( z ) 鬻1 ,球,z 叫 ( 2 1 1 ) l p c 倒谱特征矢量反映了语音全极点模型平滑谱的对数幅僮,不但计算非常 简便而且用于语音识别时效果很好,因此也是用的最多的。 根据复倒谱的定义,矗( 盯) = z 。| l n l _ ( z ) ) l 。设 。( 栉) 的复倒谱为 。o ) ,别 “ l“t r “ f p ) 同样可得吮( n ) = z _ 1 ( 1 n 埘( z ) ) 】。因此厅( n ) = 一厅。( ,z ) 。在递摊算法中必须给定最大 递推次数上,也就是只求出吃白) 的前上个值。在语音信号处理中,若p = 1 2 ,上值 一般设置在1 2 2 0 之间。在这里选择三= 1 2 ,算法如下所示川: ( 1 ) 设置递推次数三,设置三各寄存器 ( 2 ) 给定吃( o ) = l n 吃( o ) ) = o ( 因为吃( o ) = 1 ) n p ) 给定 。o ) 一口。,”= 1 j p 给定吃e ) = 吃( 1 ) ,吃o ) = 堍( 1 ) ,并存入寄存器l ( 3 ) 令栉= 2 ( 4 ) 计算吃白) 一 一( p ) j ,一l ,、n 一( p ) o ) 刊一一蕃引哪) ( 5 ) 将玩o ) 存入寄存器聍 ( 6 ) 订 f ( f 。一1 ) 且玛 ,( f 2 1 ) 且e f 2 玛 其中院。,五。】与瞳。,玛。】是根据语音学知识搴先设定的e ,e 的范围。 ( 4 ) 对求得的共振峰轨迹作三点中值滤波,以消除个别“搿点”。通过试验, 设定e l = l 舭,巴h = 1 6 砒,e = 1 6 翘2 ,只= 2 6 5 抛。 在提取出共振峰轨迹艏,需要确定体现区分“2 ”与“8 ”的特征所在的区域。 凑于塞音特征存在于元音扶塞啻向稳定模式的过渡段,因魏需要准确判定过渡段 起始帧的位置。由于语音过渡段起始帧的激励为第一个声门脉冲。其能量上升幅 度较大,因此可以利用能最变化参数r ,来确定过渡段起始帧: f 震,= _ 三l ( 2 i 5 ) 占,1 式中e 。为第f 帧的短时能量。当日大于某一经验阀使时,取第f 帧为语音过渡段起 始帧。 由以上可以看到嚣种参数的选择都是十分简洁的,其主要豹运算量主要集中 在l p c 分析和反f f t 运算上,这两部分在d s p 系统上实现都是很快的,而且短 时能量在端点检灏j 时可以得到,所以容易实现系统的实时性,并且减小系统的存 储量,易于嫒件载实现和系统的要求。 2 5 离散隐含马尔科夫模型 隐会马尔科夫模型篱记为h m m ( 硪d d e n m 斜轴v m o d e l 的缩写) 。将此模型用 来描述语音信号的产生是上世纪8 0 年代语音信号数字处理技术的一项重大进展, 用此模型来解决语音识别问蹶已经取得了很大的成果。 h m m 适会用于非特定人语音识别。 设有一个称为“马尔可夫模型机”的离散对域有限状态机,在每一个离散时 刻聆,它只能处于有限多种状态中的菜一种状态。假设允许出现的状态有三种,记 之为s ,= l 三。若自动机在时刻竹所处的状态用x 。表示,那么x 。只能处于s s , 中的某一个,这可以表述为算。 墨s 。 ,v 栉。鲤粜姥魂开始运行豹时间起点定 为栉= 1 ,那么在以后每一个时刻撑它所处的状态以概率方式取决于初始状态概率矢 凝仃和状态转移矢量一。口是一个三维矢量,即日= 口l ,一,吼】,它的每一个分鳖口,表 示置等于s ,的概率,这可以用下式表述: 瑶f = p ,【一= s 】,f = l ( 2 1 6 ) 矩阵4 是一个( 上) 维方阵,它的每一个元索用以表示,它是已知两个时刻 中前一时刻的状态为s ,的条件下后一时刻状态为s ,的概率。这是一个条件概率, 霹表示如下: 一“= p ,【吒+ l = s ,l = s ,】,订1 ;j , ,端1 三 ( 2 1 7 ) 基手d s p 的连接数码语音谣割研究每设诗 显面易抛,y 。= l ,v f 。 商。 可以看到,对于任意时刻”铆1 ) ,自动机的状态取& s :,中那一种的概率 只取决于前一时刻0 一1 ) 所处的状态,而与更前的任何时刻所取的状态无关。这样, 由此产生的状态序列算,毪,毛,是条一阶马尔可夫链。妇粜自动机每个运行过程 只完成( 一1 ) 状态转移,那么产生豹是一条有隘长度骂尔可夫链一,黾,篡。,这 掰以用一令行矢量表暴为x = 五,x :,而,h 】。系统可能产生稚互异的有限马尔 可夫链x 。对于认可个特定石,其出现概率觳【爿口,卅可用式( 2 1 8 ) 计算( 为 简洁见,始终用n 【工】表示n 【盖a ,刎) 。 p ,【x 】= 口目爿 如,以。“ ( 2 1 8 ) 此系统在任意时刻订所处的状态x 。隐藏在系统内部,不为外界所见,外界只能 得到系统在该状态下提供的实霞9 交闻中一个随机捌矢爨虬叫y ,y 。,y 。】7 。如 采懿兵有连续分布,它的概率密度函数只取决于,。等于何种状态,嚣此可以表示 为下列形式: p :,江y 。】= p ,b 屯。s 】,n l ,= 1 三 ( 2 1 9 ) 如果y 。具奇离散分布,它的概率分布也只取决于x 。并且用下式表承: 巴。【】= 只b 0 靠= 墨】,栉1 ,z = l 三 ( 2 2 0 ) 上述概率密度函数或概率分布函数与撑取何值无关,只取决于状态冀,因而可 誊接用p ,f 朔或只( 州表示。三个概率密度函数构成一个工维矢照 嚣= 【p 。【_ y 】,p 。【川】。个概率分布函数也可构成相应的矢薰占。如果矢量y 的维 数为l ,即q = l ,遮对以退化为一个实随机变量儿。由于此系统的状态不为外界所 见,般称之为稳禽马尔可夫模型系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论