(计算机科学与技术专业论文)非特定人孤立词语音识别系统若干关键技术研究.pdf_第1页
(计算机科学与技术专业论文)非特定人孤立词语音识别系统若干关键技术研究.pdf_第2页
(计算机科学与技术专业论文)非特定人孤立词语音识别系统若干关键技术研究.pdf_第3页
(计算机科学与技术专业论文)非特定人孤立词语音识别系统若干关键技术研究.pdf_第4页
(计算机科学与技术专业论文)非特定人孤立词语音识别系统若干关键技术研究.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(计算机科学与技术专业论文)非特定人孤立词语音识别系统若干关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

恻愀愀 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了诩 意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 声 , 、 摘要 摘要 随着现代科学和技术的发展,语音识别技术在人机交互中的地位越来越重 要。目前非特定人孤立词语音识别系统被广泛应用于手机、p d a 等各种智能终 端产品中。同时随着嵌入式技术的不断发展,各种终端产品功能越来越强大,人 们对语音识别系统的实用性也提出了更高的要求,因此为了提高语音识别系统的 实用性,针对非特定人孤立词语音识别系统关键技术的研究已经成为很多科研人 员关注的热点。 本文在非特定人孤立词语音识别原理研究的基础上,主要对语音识别系统中 的端点检测算法和隐马尔科夫模型算法进行了深入研究。首先在研究语音端点检 测算法的基础上,针对传统端点检测算法对噪音自适应性差的问题,提出了一种 能够根据环境噪音实时调整门限值的自适应端点检测算法,并对算法实现过程中 的各种具体问题给出了详细地解决方案;其次深入研究了隐马尔科夫模型的原 理,对传统隐马尔科夫模型中存在一些问题进行了改进,实现了基于状态持续时 间分布的隐马尔科夫模型;最后采用最大交互信息模型训练算法和传统的 b a u m w e l c h 算法相结合的策略提高了系统的鉴别能力。 针对非特定人语音识别系统的研究,本文提出了一套完整的p c 平台的模型 训练方案和基于f p g a 嵌入式平台识别系统的设计方案。通过分析识别系统中每 个模块的算法复杂度,对系统资源进行了合理的软硬件划分。在系统移植时,对 识别算法中遇到的浮点运算、指数运算和对数运算等操作设计了相应了移植方 案。最后对移植后的语音识别系统,设计了数字测试方案和音频测试方案,用于 对基于f p g a 的语音识别系统的正确性验证和性能测试。 本文对非特定人孤立词的嵌入式语音识别系统中若干关键技术问题提出了 相应的解决方案,通过试验证明了系统的正确性和可用性,对嵌入式语音识别的 研究具有一定的理论价值和应用价值。 关键词语音识别;隐马尔科夫模型;f p g a 北京丁业j j 学t 学硕l 学位论文 1 1 f a b s t r a c t a b s t r a c t w i t hm ed e v e l o p m e n to fm o d e ms c i e n c ea n dt e c h n o l o g y ,t h et e c l l l l o l o g yo f s p e e c hr e c o g l l i t i o ni sb e c o m i n gm o r ea i l dm o r ei m p o r t a n t i nh u m a n m a c l l i n e i n t e r a c t i o n t o d a y ,s p e a k e r - i n d e p e n d e n ti s o l a t e dw o r d ss p e e c hr e c o 印i t i o ns y s t e mh a s b e e na p p l i e di na l l 妯n d so fi n t e l l i g e n tt e m l i n a ld e v i c e s ,s u c ha sm o b i l e p h o n e ,p d a a n ds oo n a tt h es a m et i m e ,w i t ht h ei m p r o v e m e n to fe m b e d d e dt e c h n o l o g y ,t h e d e v i c e s c a p a b i l i t ) ,i sb e t t e rt h a l lb e f o r e ,s ot h ep e o p l eg i v eal l i g h e rr e q u i r e m e mf o r t h ep r a c t i c a b i l i t yo fs p e e c hr e c o g n i z es y s t e m i no r d e rt oi m p r o v et h ep r a c t i c a b i l i 够, t h es t u d y i n go fk e yt e c h n o l o g i e so fs p e a k e r - i n d e p e n d e n ti s o l a t e dw o r d ss p e e c h r e c o g n i t i o ni sb e c o m i n gm o r e a 1 1 dm o r ep o p u l a r 7 r h i sp a p e rm a k e sad e t a i l e ds t u d yo nt h ep r i n c i p l eo ft h es p e a k e r i n d e p e n d e m i s o l a t e dw o r d ss p e e c hr e c o g n i t i o ns y s t e m ,a n dt h e nm a k e sa 如l lr e s e a r c ho f e n d - p o i n td e t e c t i o na l g o r i t h ma n dh i d d e nm a r k o vm o d e l a tf i r s t ,f o l l o w e db yt h e s t u d yo fe n d - p o i n td e t e c t i o na l g o r i t l m ,t h ea d 印t a b l ee n d - p o i n td e t e c t i o na l g o r i t l l l n i s p u t t e df o r w a r d i nt h i s p 印e r ,w h i c hc a n 印p r o p r i a t e l ya d ju s t m e mt l l r e s h o l d a c c o r d i n gt oe n v i r o m e n t a ln o i s e t h i sp 印e ra l s op r e s e n t sd e t a i l e ds 0 1 u t i o n sf o rt h e p r o b l e mo fa l g o r i t h m si m p l e m e n t a t i o n t h e n ,a r e rm a “n gad e 印s t u d yo fm e p r i n c i p l e so fh i d d e nm a r k o vm o d e l ,s o m ei m p r o v i n gm e t h o d sa r ep r o v i d e df o rt h e p r o b l e m so ft r a d i t i o n a lh i d d e nm a r k o vm o d e i no r d e rt oi m p r o v et h es y s t e m s d i s c r i m i n a t i n ga b i l i t y ,t h i sp a p e rt a k e sm a x i m 啪m u t u a li n f o m a t i o nt r a i n i n gm e t h o d w i t ht h eb a 啪- w e l c ht r l i n i n gm e t h o d i nm ee n d ,m i sp 印e ri m p l e m e m sas t a t e d u r a t i o nh i d d e nm a r k o vm o d e lt oi m 】p r o v et h es y s t e m sp e r f o m a n c e t h i sp a p e rp r e s e n t sac o m p l e t es o l u t i o no fm o d e lt r a i n i n gb a s e do np ca n da s o l u t i o no fe m b e d d e ds p e e c hr e c o g n i t i o ns y s t e mb a s e do nf p g a f 0 1 l o w e db y a i l a l y z i n gt h ec o m p u t a t i o n a lc o m p l e x i t ) ,o fe a c hm o d u l e ,t h es y s t e mi m p l e m e n t ss o m e t i m e - c o n s 啪i n gm o d u l e s w i t hh a r d w a r ea i l d i m p l e m e m s o t h e r sm o d u l e s州t h s o 胁a r e i no r d e rt om nt h es y s t e mo nt h ef p g a ,t h i sp a p e rd e s i g n sf i x e dp o i n t o p e r a t i o n si n s t e a do fn o a t i n g - p o i n to p e r a t i o n s ,s o m e 如n c t i o no fa r i t l l m e t i co p e r a t i o n s a n dt h ep r o g r 锄o ff l a sh i nm ee n d ,“sp 印e rd e s i g n sd i g i t a lv a l i d a t i o ns o l u t i o n a n da u d i ot e s t i n gs o l u t i o nt oe v a l u a t et h ep e o m a i l c eo ft h es p e e c hr e c o g n i t i o n s y s t e mb a s e do nf p g a 1 1 1 i sp a p e rp u t sf o n v a 州s o m es o l u t i o n sf o rt h ek e yp r o b l e m so fe m b e d d e d s p e a k e r - i n d e p e n d e n t i s o l a t e d 、o r d ss p e e c hr e c o g n i t i o ns y s t e m ,t h e r e f i o r et h es y s t e m s p e r f i o r m a n c ei si m p r o v e da i l d i s p r o v e db ye x p e r i m e n t a t i o n t h i sp 印e r w i l lb e p r o d u c e ds o m et h e o r e t i c a la n dp r a c t i c a lv a l u e si np u s h i n gs p e e c hr e c o g n i t i o nr e s e a r c h f o r 、v a r d k e y w o r d ss p e e c hr e c o g l l i t i o n ;h m m ;f p g a 1 1 1 北京t 业人学t 学硕l 学位论丈 1 1 研究目的和意义。1 1 2 语音识别技术国内外发展现状。2 1 3 语音识别的雉点和面临的挑战4 1 4 课题主要研究内容4 1 5 论文的组织结构5 第2 章语音识别的相关技术7 2 1 语音识别系统的结构。7 2 2 语音识别系统的分类7 2 3 语音信号的处理与分析8 2 3 1 语音信号的产生机理8 2 3 2 语音信号预处理9 2 3 3 语音信号的特征提取1 3 2 4 语音识别技术1 7 2 4 1 模板匹配技术17 2 4 2 隐马尔科夫模型技术2 0 2 4 3 人工神经网络技术2 0 2 5 本章小结2 2 第3 章自适应端点检测算法的研究2 3 3 1 端点检测的意义2 3 3 2 自适应端点检测算法的原理2 3 3 3 自适应端点检测算法的设计2 6 3 3 1 程序设计流程2 6 3 3 2 动态门限更新策略一2 8 3 3 3 参数值搜索策略3 0 3 3 4 数据溢出处理31 3 4 实验结果及分析3 2 3 5 本章小结。3 2 第4 章隐马尔科夫模型研究与改进3 3 4 1 隐马尔科大模型的研究3 3 4 1 1 马尔科夫模型3 3 4 1 2 隐马尔科夫模型3 4 4 1 3 隐马尔科大模型的三个基本问题3 5 4 2 隐马尔科夫模犁的改进3 8 v 北京t 业人学t 学砀! i 学位论史 4 2 1 模型结构的改进3 8 4 2 2 模型训练算法的改进3 9 4 3 状态持续时间分布的h m m 模型在语音识别中的应用4 1 4 3 1 识别基元的选择4 l 4 3 2 模型状态的确定4 1 4 3 - 3 模型的初始化4 2 4 3 4 多观测序列的模型训练算法4 3 4 3 5 对数形式的模型解码算法4 7 4 4 实验结果与分析4 9 4 5 本章小结5 0 第5 章基于f p g a 非特定人孤立词语音识别系统设计51 5 1 系统平台的介绍5 1 5 1 1 硬什平台5 l 5 1 2 软件平台5 2 5 2 系统总体设计5 2 5 3p c 平台系统详细没计。5 3 5 3 1 语音库的设计5 4 5 3 2 系统词表的选择5 6 5 3 3 识别模型的训练5 7 5 3 4 确认模型的训练5 9 5 4f p g a 平台系统详细设计5 9 5 4 1 识别系统设计5 9 5 4 2 系统资源分配6 0 5 5 本章小结6 2 第6 章基于f p g a 非特定人孤立词语音识别系统实现6 3 6 1 语音识别系统的移植6 3 6 1 1 定点小数运算的设计与实现6 3 6 1 2 信号处理相关函数的实现6 5 6 1 3f l a s h 编程的实现6 6 6 2 语音识别系统的测试6 8 6 2 1 数字测试方案6 8 6 2 2 音频测试方案7 1 6 2 3 测试结果与分析7 3 6 3 本章小结7 4 结论7 5 参考文献7 7 攻读硕士学位期间发表的学术论文7 9 蜀【 谢81 v i 第j 幸绪论 1 1 研究目的和意义 第1 章绪论 随着现代科学和信息技术的发展及信息时代的到来,信息交流在社会发展中 的作用也日趋重要,这不仅体现在人与人之间的沟通,更体现在人与机器( 计算 机,手机等各种智能终端) 之间的信息交流。自然语言是人类最有效和方便的沟 通方式,据有关资料统计在人们的同常生活中,7 5 的信息交流是通过语言来完 成的,由此可以体现语言在人类信息交流中的重要地位i l j 。此外在当今市场上, 手机、p d a 等各种移动设备已让人们眼花缭乱,它们的功能越来越强,集成度 越来越高,体积也越来越小。试想一下,当一个移动终端设备只有一个手表那么 大时,它还能采用键盘作为它的主要人机交互模式吗? 结合以上因素很容易使人 们想到能否也采用语言作为主要的人机交互方式,来代替传统的鼠标、键盘等设 备呢? 在这样的设想和需求下,语音识别技术就逐渐发展起来了,它的应用不但 能解决了上述问题,而且可以解放双手,提高人们的工作效率。语音识别就是使 机器具有像人类一样的“听觉”,能“接收”和“听懂”人类的自然语言,“理 解”人们的指令和意图,然后做出相应的“互动”反馈,其最终目标就是为了实 现人与机器之间的自然语言通信。 语音识别技术现在已经发展成为一个具有竞争力和重大意义的高新技术。首 先从科学研究角度考虑,语音识别是一门综合的交叉学科1 2 j ,它以语音为主要研 究对象,是语音信号处理的一个重要分支,同时它还涉及到语言学,统计学,模 式识别,数字信号处理及计算机技术等诸多领域。其次从应用角度考虑,语音识 别技术几乎在人类生活的各个方面都可以得到应用,比如通信领域,电子消费品 领域,智能家居领域,生物识别领域及自动控制领域等。除此之外,在某些特殊 场合或针对某些特定人群,语音识别的应用更显其独特价值,比如在一些危险的 工业场合或者针对某些残障人士的应用,会给人们带来了很大的便利和帮助。 近几年来随着计算机技术,信号处理技术及模式识别等领域的发展,语音识 别技术也得到了突飞猛进地发展,基于p c 机的大词汇量非特定人的语音识别系 统逐步从实验室走向实用。伴随着语音识别理论的不断发展,基于集成电路的语 音识别专用芯片以其便携性,容易集成,价格便宜,性能稳定等优势取得了广阔 的发展空间,因此嵌入式语音识别系统的研究也成为这些年来的一个热点。在当 今市场上,许多智能手机终端已经具备了语音拨号的功能。但是目前所采用的结 构主要是以数字信号处理器( d s p ) 为核心来实现的,而现场可编程门阵列( f p g a ) 的出现为语音识别芯片的研究提供了一种新的选择。f p g a 是在可编程逻辑门电 北京丁q p 人掌t 学珂! l ! 掌f p 论文 路和专用集成电路( a s i c ) 的基础上进一步发展的产物,它既解决了专用集成电路 需要投片生产的不足,又克服了可编程逻辑门电路数有限的缺点。用f p g a 设计 a s i c 电路可以像丌发软件一样通过编程来实现,极大地提高了系统设计的灵活 性。同时f p g a 具有开发周期短,开发费用低,风险小,功耗低、丰富的触发器 和1 0 引脚等许多优点,所以用f p g a 设计硬件电路实现语音识别系统中某些特 定的复杂算法,系统采用软硬件协同工作的方式,既可以降低成本,也可以满足 语音识别系统实时性的要求,因此本文选用f p g a 开发平台进行非特定人孤立词 语音识别系统的研究。 1 2 语音识别技术国内外发展现状 语音识别技术的研究起始于二十世纪五十年代,a t & tb e l l 实验室的d a v i s 等人成功实现的一个能识别o 9 十个英文数字的a u d r y 系统是第一个语音识别系 统,它标志着语音识别技术研究的开始【3 】。 六十年代,计算机的应用推动了语音识别技术的发展,在这个时期基本上都 是用硬件实现语音的频谱特征提取,然后用计算机进行匹配识别。日本的京都大 学、东京无线研究实验室和n e c 实验室都制作了语音识别的专用硬件。d e n e s 和m a t h e w 用数字计算机实现自动语音识别,在匹配识别时引入了动态时间规整 的思想。动态时间规整技术可以有效地解决语音识别中由于说话速度不均匀,造 成特征向量长度不等的问题,这对特定人语音识别十分有效【4 】。 七十年代,语音识别领域有了突破性进展,取得了许多具有重大里程碑意义 的成果。七十年代初,动态规划技术基本成熟,此后隐马尔科夫模型法( h m m ) 在语音识别中也获得了初步的成功,使语音识别研究在匹配算法方面开辟了新的 思路。七十年代中期,i t a l ( a 提出的线性预测残差原理分别成功的应用于语音识 别和语音编码。此后线性预测技术在语音识别的多个方面都获得了巨大地成功。 尤其是研究出了多种线性预测参数形式和多种谱距离测度,对语音识别的发展起 了重要作用l5 。七十年代末,m a r k e l 和l i n d a b u z o 研a y 等人成功提出了矢量量 化技术q ) ,不仅在语音识别,语音编码及说话人识别方面发挥了重要作用, 而且很快推广到了其他诸多领域。但这一时期的重点都是基于孤立词的语音识别 研究。 到了八十年代,对语音识别的研究进一步走向深入,连续语音识别成为这一 时期的研究重点。如1 9 8 5 年i b m 公司研制成功的英语听写机t a n g o r a 5 ,可以 识别5 0 0 0 词汇量,后来又发展成为t a n g o r a 2 0 ,能识别的词汇量增加到2 0 0 0 0 , 识别率可以达到9 4 6 。1 9 8 8 年卡内基梅隆大学( c m u ) 也研制成功了能识别9 9 7 个词汇的连续语音识别系统s p h i n x l 6 j 。到八十年代中后期,语音识别研究的方 法也从基于模板匹配的方法转换到更为严格的统计建模方法。尤其是隐马尔可夫 第1 币绪论 模型和人工神经元网络( a n n ) 在语音识别中的成功应用。 进入九十年代后,语音识别技术进一步走向成熟。主要体现在特征参数的提 取和优化、系统的自适应技术,模型设计的精细化以及模型训练方法的优化等方 面取得了一些关键性的进展。传统的分类模型训练问题,即在贝叶斯理论下进行 数据分布的最佳拟合估计,开始向经验最小化识别错误相关的优化问题转变。比 如区分性训练算法( d i s c r i m i n a t i v et r a i l l i n g ) 和支持向量机算法【7 。其中区分性训练 算法有两个比较典型的代表,一个是最小分类错误训练算法( m c e ) 【8 】,另一个是 最大交互信息训练算法( m m i ) 。此外,语音识别系统的鲁棒性问题也被越来越多 的研究者所关注。通过分析在实用中导致匹配错误的各种原因,比如背景噪音, 麦克风的差异,传输信道的差异以及不同说话人风格的差异等等,提出了各种各 样的技术,试图提高语音识别系统在鲁棒性,比如最大似然线性回归准则 ( m l l r ) 、最大后验准则( m a p ) 、模型分解,并行模型合并( p m c ) 等等【9 1 。同时为 了使语音识别技术尽快从实验室走向实用,一些国家和公司都为语音识别系统的 开发研究投以巨资,如日本、美国、韩国以及a t & t 、n t t 、m i c r o s o r 、i b m 和 a p p l e 等著名公司1 1 0 j 。 进入二十一世纪后,语音识别技术的研究更是向着深度和广度两个方面发 展,其研究的目标就是集语音识别,自然语言处理及人机交互于一体,能够识别 说话人所说的内容,理解其含义,并给出正确的反馈,最终使人类在不经过特殊 训练的情况下,能用最自然、最常用的方式与计算机交流,并能推广适用于新用 户。目前a t & tb e u 实验室开发的电话语音识别系统能通过电话接收并识别用 户的演讲,还可以通过电话接听电子邮件【l 。m i t 实验室也开发了类似的对话 系统,可以通过电话或者网络对其进行查询和访问,而且可以支持多国语言的交 流。 我国语音识别技术研究的起步要比国外晚一点,但是近年来进步很快,研究 水平也逐步从实验室走向实用。国家也很重视语音识别技术研究工作,自从执行 国家8 6 3 计划以后,国家8 6 3 智能计算机主题专家组为语音识别研究专门立项, 由中国科学研究院声学所、自动化所以及清华大学等单位研发,研究水平每两年 滚动一次。经过二十多年的发展,汉语语音识别也取得了大量的成果。如中国科 学研究院自动化所丌发的汉语语音人机对话系统和非特定人连续语音听写系统, 识别率可以达到9 0 以上【1 2 】。现在越来越多的大学和研究院都纷纷投入到语音 识别的研究中来。比如北京大学,北京邮电大学,哈尔滨工业大学,北京工业大 学等科研机构。此外目前在语音识别方面做得比较好的公司也有科大讯飞,他们 研发的i n t e r r e c o 系列产品,可以允许用户动态的增加命令词表。还有在嵌入式 设备上应用的职能语音识别系统a i t a l k 2 0 ,可以通过语音控制设备和信息检索 【l3 1 。目前我国语音识别技术的研究水平基本上已经与国外同步,在汉语语音识 别方面还有自己的优势和特点,并达到了国际领先水平。 北京t 业人学t 学硕i 学位论文 1 3 语音识别的难点和面临的挑战 语音识别技术是一个多学科的综合技术,其自身的复杂性决定了其研究发展 过程的艰巨性,虽然目前语音识别技术已经取得了很大成就,但是面向实用化, 还存在着很多困难和挑战。主要举例如下: 首先是噪音对语音识别系统的影响。这早所说的噪音不仅包括背景噪音,而 且还包括信道传输和信道差异引起的噪音以及电路噪音等等。噪音对人的听觉系 统而言,影响并不是很大,因为即使在非常嘈杂的环境下,人的耳朵也可以“屏 蔽”干扰噪音,而只关注目标语音。但对于机器而言,很难实现这一功能,因此 如何降低和消除噪音对系统的影响,提高系统的抗噪能力是语音识别的重大难题 之一。 其次是个体差异对语音识别系统的影响。不同个体由于其发声器官生理构造 上的差异,以及说话方式、地方口音等因素的影响,都会影响发音的变化。个体 的差异性不仅体现在不同个体之间,即使是同一个体也会由于情绪波动、健康状 况以及生理发育等因素的影响,对系统的识别产生较大影响。因此如何滤除语音 信号中的各种干扰成分,提取出相对比较稳健的特征参数,从而避免这些差异对 系统的影响也是语音识别的一个重大难题。 最后是词汇量以及识别速度对语音识别系统的挑战。随着系统词表中词汇量 的增加,各词汇之间的混淆度也会随之增大,最后系统的识别难度就会越来越大, 识别速度也会逐渐减慢。因此针对大词汇量的语音识别系统,如何采用更好的建 模方法及合理的剪枝策略,来提高系统的整体性能也就成为了语音识别研究的另 一个重大难题。 1 4 课题主要研究内容 本课题主要基于f p g a 系统的开发平台,研究语音识别系统的相关技术,旨 在实现一个基于f p g a 的非特定人孤立词语音识别系统,主要研究内容如下: 1 ) 研究语音识别系统的相关技术 一个完整的语音识别系统一般包括语音采集、预处理、端点检测、特征提取、 语音识别以及语音确认等几个模块,因此必须对系统中的每个模块都进行研究, 才能实现一个完整的语音识别系统。本文针对非特定人孤立词语音识别系统的一 些关键技术进行了重点研究,主要包括端点检测技术和隐马尔科夫模型技术。 2 ) 研究嵌入式语音识别系统的设计和移植 研究语音识别系统的设计流程,针对嵌入式系统存储资源有限,处理速度慢 等特点,分析系统中每个模块的时间复杂度,对选取的算法进行合理裁剪和瘦身, 第1 市绪论 对系统中的浮点运算进行定点化处理,同时对比较复杂的系统模块进行合理的软 硬件划分,以保证满足系统实时性的要求。 1 5 论文的组织结构 本文的组织结构如下: 第1 章绪论:主要介绍本文的研究目的和意义,语音识别技术的国内外发 展现状以及语音识别研究的难点和面临的挑战,最后列出了本文的主要研究内容 和论文组织结构。 第2 章语音识别的相关技术:介绍了语音识别系统的结构和分类,语音信 号的处理和分析以及现在常用语音识别技术。首先从整体上介绍了语音识别系统 的功能结构,然后针对语音识别系统中语音信号预处理,特征提取和语音识别等 三个模块的相关技术进行了深入研究。 第3 章自适应端点检测算法的研究:针对传统端点检测算法对噪音自适应 性差的问题,提出了一种能够根据环境噪音实时调整门限值的自适应端点检测算 法,并对算法实现过程中的各种具体问题给出了详细地解决方案。 第4 章隐马尔科夫模型研究与改进:首先通过对标准隐马尔科夫模型原理 的研究,发现模型中存在的一些弊端,主要包括语音段在每个状态持续时间的概 率成指数分布的不合理性以及经典b a u m w e l c h 模型训练算法没有考虑相似模型 之间相互影响的片面性,针对这两个问题本章分别介绍了相应的解决方法。最后 实现了状态持续时间分布的隐马尔科夫模型在语音识别中的应用。 第5 章基于f p g a 非特定人孤立词语音识别系统的设计:首先介绍了系统 的软硬件平台,然后介绍了系统开发的整体设计方案,主要包括p c 平台的模型 训练设计方案和f p g a 平台的系统识别设计,最后介绍了系统的详细设计方案。 第6 章基于f p g a 非特定人孤立词语音识别系统的实现:首先介绍了语音 识别系统在平台移植时需要解决的一些问题,然后介绍了系统的数字测试方案和 音频测试方案,最后对系统的测试结果进行了分析。 北京t 、i l :大学t 学硕l 学位论文 6 第! 幸语宵 只剔的相关技术 曼曼! 曼曼曼曼曼曼曼曼邑曼曼曼曼曼曼皇曼曼曼曼曼曼! 曼曼! ! ! ! 曼曼曼曼! ! 曼曼曼曼曼舅曼曼曼曼曼曼曼曼曼曼曼曼曼蔓曼曼! 曼曼! 曼曼皇曼曼曼曼曼曼罾曼 第2 章语音识别的相关技术 2 1 语音识别系统的结构 语音识别系统本质上是属于一种模式识别的系统。因此它和其它的模式识别 系统一样,具有相似的基本结构,主要包括信号采集,信号分析与处理,特征提 取,模型构建、模式识别及后处理等几个主要模块【14 1 ,它的基本结构如图2 1 所 示: 工 图2 1 语音识别系统结构图 f i g2 1d i a g r a mo fs p e e c hr e c o g n i t i o ns y s t e m 语音首先经过话筒变换成电信号,然后由模数转化( 刖d ) 得到数字信号,完 成语音信号的采集工作。语音信号的预处理主要是对语音信号进行分帧,加窗, 预加重及端点检测等。特征提取就是从语音波形中提取出能表示语义信息的特征 参数。一方面对语音信号进行了压缩,减少了系统的处理量,另一方面也便于模 型的建立和识别。在训练阶段,系统利用提取的特征参数,根据其表示语义信息 的不同进行分类学习建立不同模板,并保存到模板库中;在识别阶段,系统把未 知语音的特征参数与模板库中的每个模板进行匹配,根据匹配的相似度得到初步 的识别结果;最后根据语言模型的统计规律和一定的判别准则对识别结果进行后 处理。 2 2 语音识别系统的分类 对语音识别系统的分类,可以根据不同的标准划分为不同的类别。根据识别 词表中词汇量的多少,可以将语音识别系统分为三类,小词汇量、中词汇量及大 词汇量语音识别系统。通常语音识别系统都有一个待检索识别的专用词表,系统 可以对词表内的词汇进行识别。根据词表中词汇的多少,较为普遍的分类认为小 词汇量语音识别系统是指小于1 0 0 个词汇的,词汇量介于1 0 0 到5 0 0 之间的可认 为是中词汇量语音识别系统,大于5 0 0 词汇量的就可以称之为大词汇量语音识别 系统。显然随着词汇量的增加,各词汇之间的混淆度也越大,系统的识别难度也 随之增大。 北京t 业人学t 学硕f 学位论文 根据识别目标的不同,语音识别系统可以分为三类:孤立词语音识别、连续 语音识别和关键词检索识别。孤立词语音识别是针对单个词的识别,要求用户每 次只能说一个词或词组,词与词之间要有一定时间的静音间隔。连续语音识别主 要是针对大词汇量连续语音的识别,用户可以说一句完整的话,词与词之间不需 要有明显的静音间隔。而关键词检索识别主要是在连续语音的基础上正确检索出 目标词汇。 根据系统适用的说话人范围不同,可以将语音识别系统分为两类:特定人和 非特定人语音识别系统。特定人语音识别系统在使用前必须由特定人输入大量的 语音进行训练,然后就可以得到较高的识别率,实现也比较简单。非特定人语音 识别系统通用性比较好,适用的人群范围比较广,但难度比较大,不易得到较高 的识别率。 根据目标系统的运行平台的不同,可以将语音识别系统分为两类:基于p c 的语音识别系统和基于嵌入式的语音识别系统。基于p c 的语音识别系统的开发, 可以采用最复杂的识别算法,不用过多考虑内存资源和处理器资源的限制,它的 发展代表着当前语音识别技术的最高水平。而基于嵌入式的语音识别系统,系统 资源和处理速度都受到当前硬件平台的限制,所以其应用开发必须在算法性能和 处理速度等方面寻找合理的平衡。 2 3 语音信号的处理与分析 2 3 1 语音信号的产生机理 语音信号是一种非平稳的时变信号,它携带着多种信息,对它的分析与处理 是语音识别的前提和基础。首先我们要了解语音信号的产生机理,通过对声学及 人类发声器官的机理研究分析可知,语音信号的产生过程是由肺部的气流,由支 气管经过声门和声道传输引起音频振荡,最后流经口腔加上口鼻的辐射共同产生 的【1 5 】。整个语音信号的产生过程可简单描述如图2 2 所示: h 清音卜 f 嚣h 声道模型 叫浊音卜一嚣曩篓 l 的气流ir i 广坦饫芏 叫爆破音h 图2 2 语音信号产生过程简化示意图 f i g2 2m o d e l 0 fs p e e c hg 锄e r a t i o n 根据人类发音过程中激励方式的不同,可以将语音分为三类,即清音、浊音 孺! 节语蜀。识刖的相关技术 和爆破音【1 6 】。当气流在声道中传输时,如果声道中某处的横截面积很小,气流 从此处高速穿过时产生湍流,当气流穿过时的速度与此处的横截面积之比大于某 个临界值时便会产生摩擦音即清音。如果气流通过声门时,声带的张力刚好使声 带能够产生张弛的低频振荡,形成准周期性的脉冲气流,这些脉冲气流激励声道 便产生了浊音。如果声道由完全封闭状态堵塞气流,然后突然释放而引起的气流 振荡就是爆破音。最后口鼻的辐射作用可以引起输出信号高频部分大约每倍频 6 d b 的提升,根据对语音信号的分析,可以用一个一阶差分方程近似表示如下: s ( z ) = s o ( 1 一z - 1 ) r 7 1 、 2 3 2 语音信号预处理 1 、语音信号数字化 自然界的所有信号都是模拟信号,而计算机所能保存的都是数字信号。所以 当我们要把人的说话声保存到计算机中时,需要做语音模拟信号的数字化工作, 语音模拟信号的数字化工作一般包括采样和量化两个步骤,如图2 3 所示 语音模拟信号 语音数字信号 图2 - 3 语音信号数字化流程 f i g2 3d i g i t a lo fa u d i os i g n a l 采样就是把连续的语音模拟信号在时间域上等间隔的抽取,得到离散的语音 信号。量化是将时间上离散而幅度仍然连续的波形幅度值离散化。量化时首先要 将幅度值等间隔的分成有限的区间,然后将落入同一区间的采样点赋予相同的幅 度值。采样和量化都会引起不同程度的失真,不可避免的会产生误差。量化后的 语音信号和原始信号之间得到差值就称为量化误差或者量化噪声,可以证明如果 语音波形的变化足够大或者采样频率和量化精度都足够大,就可以保证量化后的 语音信号可以满足一般通信系统的要求【1 7 1 。在本文系统中,采样频率为8 i m z , 量化精度为1 6 b i t s 。 2 、预加重处理 由于在语音信号的产生过程中受到声门激励和口鼻辐射影响,使语音信号平 均功率谱的高频端按照大约6 d b 倍频的速率产生跌落。所以在计算语音信号的 频谱时,频率越高相应的成分越小,造成高频部分的频谱相对于低频部分难于计 算,所以要对语音信号进行预加重处理【1 8 】。预加重的目的是对高频部分进行增 强,使信号在频域范围内变得平坦,即从低频到高频的整个频带中,能够采用相 刁 趔 1 口匝 e 可 趔 1 口匝 吾 a 预加重前一频率i h z ;b 预加重前一时间m 2 c 预加重后一频率( h z ;d 预加重后一时间| t 图2 4 语音信号预加重前后时域和频域对比图 f i g2 - 4c o m p a r eo fe f l f e c to fp r e e m p h 硒i s 从图中可以明显的看到,经过预加重处理后,语音信号的高频部分得到了明 显的提升。 3 、分帧与加窗 虽然语音信号是一种典型的非平稳信号。但是由于它的形成过程是与人类发 音器官的运动密切相关的,这种运动和声音振动速度来比要缓慢的多,因此常常 可以假定语音信号是短时平稳的。一般在1 0 m s 3 0 m s 这样的时间段内,语音的 频谱特征及某些物理特征参量可看作是不变的。所以我们就可以采用分帧的方 法,对连续语音信号进行分段,在每一段内采用平稳过程的分析处理方法来处理。 分帧虽然可以采用连续分段的方法,但为了使帧与帧之间平滑过渡,保持其连续 性,一般采用交叠分段的方法【19 1 。相邻两帧之间移动的距离称为帧移,其长度 一般为帧长的0 0 5 倍。如图2 5 所示: 第k 帧 。 第k + 1 帧 r _ _ 图2 5 交叠分帧示意图 f i g2 5r e l a t i o nb e t w e e nf r a m ea n df r a m es h i r 现在比较常用的分帧手段就是对语音信号进行加窗,窗函数可以在语音信号 上平滑的移动,以便可以分析任一时刻附近语音信号的特性。加窗的定义为: s 。( 刀) = s ( 聊) 缈( 刀一,打) ( 2 - 4 ) 公式( 2 4 ) 中s ( 聊) 为原始语音信号,s 。( 甩) 为加窗后的语音信号,缈( 刀一聊) 为 窗函数。理想的窗函数的频率响应要求主瓣无限狭窄且没有旁瓣,但实际使用中 这种窗函数是无法实现的。目前采用最多的两种窗函数是矩形窗和汉明窗 ( h a m m i n g ) ,其定义分别为: 矩形窗= 酬= 三。姜著 p 5 , 汉明窗:烈功:0 5 4 _ o 4 6 c o s ( 篙) 嘶虬_ 1 ( 2 - 6 ) o 其他 公式( 2 5 ) 和( 2 6 ) 中的l 表示窗口长度,在实际应用中应该根据不同的需要选 择合适的窗口长度。因为随着窗口长度的增加,语音信号的频率分辨率会相应的 得到提高,但同时时间分辨率降低,反之随着窗口长度的减小,频率分辨率下降, 而时间分辨率提高。因此窗口的长度应选择合适。此外矩形窗的主瓣宽度小,因 此它具有较高的频域分辨率,但是它的旁瓣峰值比较大,所以它存在比较严重的 频谱泄露,相对而言,虽然汉明窗主瓣宽度比矩形窗大,但是它的旁瓣峰值的衰 减比较大,因此它具有比较平滑的低通特性,能够比较清晰地反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论