




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)基于神经网络的特定人关键词检索.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
巾山大学硕士学位论文 基丁神经网络的特定人关键词检索 摘要 本文的任务是研究特定人关键词检索技术,目前国内有学者用h m m ( 隐 马尔可夫模型) 的方法来进行关键词的检索,但所需训练样本数较多。本文提 出用人工神经网络的方法进行关键词的检索,用较少样本取得了较好效果,验 证了用神经网络技术做关键词检索的有效性。 本文首先介绍了语音识别和人工神经网络的相关知识,随后基于人工神经 网络技术提出了自己的关键词检索算法。 在本文最后,基于该关键词检索的算法,做了两个实验。第一个实验的目 的是检验基于b p 神经网络的关键词检索的效果,最后一个实验对汉语中的同 音不同词的关键词进行了初步研究。通过这两个实验,测试了人工神经网络对 关键词检索的性能,并找出了一系列影响关键词检索的因素。 本文主要贡献有: ( 1 ) 将神经网络技术应用于关键词检索。很少有人用神经网络技术做关 键词检索,作者尝试将神经网络技术应用于关键词检索,从实验结果可看出, 用神经网络做关键词检索是可行的和有效的。 ( 2 ) 提出了一个关键词检索算法。该算法是基于神经网络的,从本文后 面的实验结果我们可以看出,基于该算法进行的关键词检索是行之有效的。 ( 3 ) 同音不同字的关键词检索研究。在汉语中,有许多同音不同字的词, 这增加了关键词检索的难度。本文通过对同音不同字的关键词检索的研究,找出 影响关键词检索的一些因素如关键词的时长、语调、浊音信息等。 关键字:关键词检索,神经网络( n n ) ,b p 网络; 叶1 山大学硕十学位论文 基于神经网络的特定人关键词检索 a b s t r a c t t h i st h e s i si sm a i n l yf o c u s e do ns p e a k e r d e p e n d e n tk e y w o r d ss p o t t i n g t h e r e a r es o m ei n t e r n a lr e s e a r c h e r su s eh m m ( h i d d e nm a r k o vm o d e l s ) t od ot h i sw o r k b u ti tn e e d sm o r es a m p l e s t h i sa r t i c l ep r e s e n t su s i n gt h en e u r a ln e t w o r k s ( n n ) t o s p o tt h ek e yw o r d s i tn e e d sf e w e rs a m p l e sb u ts h o w sg o o de f f e c tt h r o u g ht h e e x p e r i m e n t s ,w h i c hp r o o ft h ee f f e c t i v eo fu s i n gn ni nk e y w o r d ss p o t t i n g a t f i r s t ,t h i st h e s i si n t r o d u c e st h er e l a t i v ek n o w l e d g ea b o u tt h es p e e c h r e c o g n i t i o na n dt h en e u r a ln e t w o r k s t h e np r e s e n tt h ek e y w o r d ss p o t t i n ga l g o r i t h m o fa u t h o r so w nb a s e do nn n a tt h el a s tp a r to ft h i st h e s i s t w oe x p e r i m e n t sb a s e do nt h i sk e y w o r d ss p o t t i n g a l g o r i t h ma r ep e r f o r m e d t h ef i r s to r ei st ov e r i f yt h ee f f e c t i v e n e s so ft h ek e y w o r d s s p o t t i n ga l g o r i t h mb a s e do nt h eb pn na n dm a k es o m er e s e a r c h e so nc o m m o n k e y w o r d ss p o t t i n g t h en e x to n ei st ot e s tp e r f o r m a n c eo nt h ek e yw o r d st h a th a v e d i f f e r e n tc h a r a c t e r sb u tt h es a m ep r o n u n c i a t i o n si nc h i n e s e t h ek e y w o r d ss p o t t i n g c a p a b i l i t yo fn ni st e s t e dt h r o u g ht h et w oe x p e r i m e n t s s o m em a j o rf a c t o r sa f f e c t i n g t h es p o t t i n gr e s u l t sa r ef o u n d t h ec o n t r m u t i o n so ft h i sp a p e ra r ea sf o l l o w s : ( 1 ) u s en nt od ot h ek e y w o r d ss p o t t i n g f e wr e s e a r c h e r su s en nt od ot h e k e y w o r d ss p o t t i n g t h ea u t h o r sa t t e m p t i n gt ou s en ni nk e y w o r d ss p o t t i n gi s f e a s m l ea n de f f e c t i v ea c c o r d i n gt ot h ee x p e r i m e n t a lr e s u l t s ( 2 ) p r e s e n tak e y w o r d ss p o t t i n ga l g o r i t h m t h i sa l g o r i t h mi sb a s e do nn n a sw e c a ns e ef r o mt h ee x p e r i m e n t a lr e s u l t sp r o v i d e da tt h el a s t p a r to ft h i sp a p e r , t h e k e y w o r d ss p o t t i n gb a s e do nt h ea l g o r i t h mp e r f o r m sw e l l ( 3 ) d os o m er e s e a r c ho nt h ek e yw o r d st h a th a v ed i f f e r e n tc h a r a c t e r sb u tt h es a m e p r o n u n c i a t i o n s t h e r ea r em a n yw o r d sh a v i n gt h es a u l ep r o n u n c i a t i o n sb u ti n d i f f e r e n ts h a p ei nc h i n e s e ,a n dt h i sm a k e sm o r ed i f f i c u l t i e s i nk e y w o r d ss p o t t i n g t h r o u g ht h er e s e a r c ho ft h i sk i n do fw o r d s ,s o m ek e yf a c t o r sa f f e c t i n gt h ek e y w o r d s s p o t t i n gr e s u l t s a r ef o u n ds u c ha st i m e l e n g t h ,i n t o n a t i o na n ds o n a n to ft h e k e y w o r d s k e yw o r d s : k e y w o r d ss p o t t i n g ,n e u r a ln e t w o r k s ( n n ) , b pn e u r a ln e t w o r k s ! ! 生查堂堡兰堡堡兰 茎三塑丝堕笙塑堑塞叁墨壁! 塑 1 1 问题描述 第1 章引言 关键词检索( k w s , k e y w o r ds p o t t i n g 或w s ,w o r d s p o t t i n g ) 就是在说 话人的连续的语音中检出或确认少量特定词,它属于计算机语音识别的技术范 畴,是近些年来在语音识别中发展起来的一个重要的研究方向。 由于关键词的检索是属于计算机语音识别技术的范畴,同时又是在说话人 的连续语音中进行关键词检索,所以关键词检索与其他语音识别技术如浼话人 识别、方言识别、男声女声识别、说话人年龄识别等都有相同的地方: 首先,面向的语音数据的类型相同,一般是电话、麦克风等的录音,经过 采样和量化后的数字信号,所以都适用数字信号处理的方法。 其次,对语音的前期预处理基本相同。一般都包括语音的去噪、去除静音、 预加重等处理。 再次,所用的模式分类方法也大同小异。一般用于其他语音识别技术的模 式分类方法也可以用于关键词的检索。 最后,语音特征的提取方面也有很多相同的地方。像用于其他语音识别技 术的l p c c 倒谱和m f c c 倒谱等代表语音的特征都可以用在关键词检索方面。 当然,由于关键词检索要求在做检索时,只需将特定的关键词检索出来即 可,因此,关键词的检索与其他语音识别技术又有明显的不同,具体表现在以 下几个方面: 首先,所关心的特征不同。关键词检索出于只是从连续的语音信号中检索 出特定的词语,而对语音中其他的非关键词句则忽略不管,因此,其关心的只 是特定关键词的特征,不关心同一句话中其它非关键词的特征。而其他的语音 识别则不然。如说话人的识别,它所关心的是“能代表整个人”的说话特征, 而不是某个关键词的特征;而对于男声女声的识别,则关心的是某一类人的说 话特征。 其次,模型的训练问题也不同。由于关键词检索跟其他的语音识别在所关 心的特征上不同,这也导致了它们的模型训练问题的不同。对于关键词的检索 中山大学硕士学位论文 基于神经网络的特定人关键词检索 来说,要建立的模型是关键词的模型。对于说话人识别,要建立的是某个说话 人的模型。而对男声女声,则建立的是同一类的模型。 最后,语速快慢对它们的影响程度不同。语速的影响一般反映在时间上, 如果说话时的语速快则说相同的话需要的时间就越短,反之则使用的时间多。 语速对关键词检索的影响程度较大,如同样是“本拉登”二个字,如用1 秒钟 说完和用0 5 秒钟说完,表现出的特征就可能完全不同,那么建立起来的关键 词模型也就完全不同,进而出现识别错误。一般在关键词检索中,都是假定在 币常的语速下建立模型。 本文所做关键词检索的思想是:将关键词单独拿出来进行模型的训练,再 在其他语音文件中寻找与该关键词模型相匹配的关键词,并给出“有”或“没 有”的回答。如下图1 - 1 是只包含“拉登”两字的语音波形图像,而图1 - 2 是一 段语音的波形图像,包含的语音信息是“据说拉登藏在山洞中”。如将“拉登” 两字作为关键词训练出模型,如果检索正确。则在1 - 2 图所表示的语音文件中 进行关键词的检索时将给出“有”的回答,在其他不包含该关键词的语音文件 中检索时将给出“没有”的回答。 图1 - 1 ,x l - m 一 一 叫a u “l jl k 虹h 。血k k 一”w t | rl 啊矿啊p 咿 摊;l 螗 图1 - 2 本文所做的是基于特定人的关键词检索,即在做关键词检索时,所用样本 语音及待判别的语音信息都是属于同一个人的。 2 ! :坐查兰塑主兰堡丝奎 一 苎! ! ! 丝堕堑堕堑塞茎里塑丝查 1 2 关键词检索的意义 关键词检索是一种特殊的语音识别,它只要求识别语音信息中的少量关键 词,而对其他大部分的非关键词则忽略不计。这种特殊性决定了其在应用方面 的特殊性,也决定了研究关键词检索的重要意义,这点我们可以从其应用领域 中领略一二。 关键词检索有着广泛的应用领域。 个比较重要的应用领域就是国家安全方面。出于国家安全和社会稳定等 的考虑需要对电话网络、无线电波及其他语音信息进行监听时,要耗费很大人 力物力。并且现今都已经进入信息社会,通信技术也飞速发展,由此带来的通 讯业务量也飞速增长,每天都有海量的通信信息,靠人工进行语音的监听无疑 于大海捞针,如想髓昕大部分或全部通信信息,基本上更是不可能的。而如果 用关键词检索技术,就可以让计算机只夜不间断的监控通信网络,一旦发现我 们需要的某些关键词出现,我们就可以锁定目标,再用人工专门监听。这样就 节省了人力物力,并提高了可靠性和准确性。 另外一个常用的应用领域是语音信箱方面。当语音信箱中的语音文件很多 时,我们有时不可能将文件个一个的听一下,然后再找出我们需要的信息。 如用关键词检索技术,将很快的找到我们需要的语音信息。另外,在语音信箱 接收语音信息时也可用关键词检索技术,通过对关键词进行检索识别,将接收 到的语音信息进行分门别类,r o s e 等人曾对此做过研究【1 1 。 再有一个重要的应用领域是按内容检索( c o n t e n t a d d r e s s e d ) 方面。随着现 代科学技术的飞速发展,信息的存在形式也越来越多样化,特别是由于人民生活 水平的提高,以多媒体技术为代表的娱乐技术取得了前所未有的发展,从而使信 息的存储也采取越来越贴近于人的方式,比如以声音和图象的形式存储,但所需 要的代价是存储量大和检索缓慢。在硬件成本日益降低的前提下,存储量问题很 容易得到解决;但人工检索却是一个令人头痛的问题。关键词检索技术可以解决 这一问题。我们可以列出自己所关心领域的组关键词,用关键词检索就可以把 所有相关的存储语音都调出来。 人机交互系统是关键词检索的又一重要领域。众所周知,人机交互系统有着 重要的应用前景和研究价值,让机器听懂我们人类说得话,人与机器进行很自然 中山大学硕十学位论文 基于神经网络的特定人关键词检索 的交流,一直是我们的梦想和我们奋斗的目标。我们可以与机器人进行对话,以 查询天气情况和道路情况等等。但是一般我们人在说话时常常夹杂着一些迟疑、 重复等等的不流畅词汇。如:我想,嗯,我想查一下今天的那个,那个天气预报。 存这个例子中,讲话者的一些不重要的的词“我想”,“嗯”,“那个”等都是 不必要出现的,对机器理解人的意思起反作用。而用关键词检索技术,将很好的 解决这个问题,那些对理解意思没有用的词可以忽略过去,只剩下“查”,“今 天”,“天气预报”等重要的关键词。 当然,关键词检索技术的应用远不l e 这些。随着关键词检索技术的越来越成 熟,其应用将会越来越广泛。 1 3 关键词检索研究的现状 在国外,关键词检索的研究始于7 0 年代。最早追溯到1 9 7 3 年,b r i d l e 2 首先对“给定词”进行了初步研究;直到1 9 7 7 年,c h r i s t i a n s e n 等 3 提出了“关 键词”的叫法,在该文章中,c h r i s t i a n s e n 以4 个词和1 0 个数字作为关键词进行 识别,通过提取信号的l p c 也即信号的线性预测编码来作为关键词的特征,对连 续语音中的关键词进行检索,取得了很好的效果。 但关键词检索研究获得真正的重视和发展应该是在上个世纪8 0 年代以后。 m y e r s 等人 4 利用基于d t w 的局部最小算法对关键词检索和连接词识别进行了 研究。此后a t & t 的b e l l 实验室w 订p o n 和他的同事们 5 ,6 用基于h m m ( 隐马尔 可夫模型) 的技术实现了一个关键词检索系统,该系统能对5 个关键词进行识别 实验。美国b b n 系统和技术公司的r o h l i c e k 和他的同事们 7 也研究了非特定人 关键词检索的连续建模问题,同时给出了关键词检索系统的性能评价基准。 n 9 0 年代,m i t 的l i n c o l n 实验室 8 ,c m u 的计算机科学学院 9 以及r 本的 r o s h i b a 公司 1 0 等,也相继报告了他们的研究成果。 国内在关键词检索研究方面才剐刚起步,且研究成果也较少。2 0 0 0 年,林芳 等 2 3 将改进的k 均值分割算法用在关键词检测中。后来复旦大学的欧嘉致等 2 1 对基于h m m 框架的关键词确认系统中的关键词训练样本数进行了研究,比较 了使用不同样本数训练出来的多套模型的性能,并尝试怎样通过使用不同模型进 行搭配来达到最佳的识别率。在2 0 0 3 年,清华大学的汪鹏等 2 2 设计了一个基于 d 1 t 山大学硕士学位论文 基于神经网络的特定人关键词检索 离散隐马尔可夫整词模型的非特定人汉语小词表关键词提取语音识别系统,提出 一种基于对前向、后向搜索得到的关键词假设做一次识别的置信度策略 随着时间的推移和对该领域的研究兴趣的增加,国内肯定会出现越来越多和 越来越成熟的研究成果。 1 4 本文研究的内容 本文的主要工作是特定人的关键词检索,即所说的关键词检索是对某个人 来说的。提出了基于神经网络的关键词检索算法并通过两个关键词检索的实验, 验证了用该算法做关键词检索的有效性。 第一个实验的目的是验证基于b p 神经网络的关键词检索的效果,最后一个 实验是对汉语中的同音不同字的关键词进行了初步研究。在汉语中,同音不同 字的关键词非常普遍,本实验就是研究神经网络对这种关键词的检索性能,并 找出影响关键词检索的一些因素。 10 5 本文的结构安排 本文主要包括三个部分: 第1 章为第一部分,是论文的引言部分。主要介绍了本文所研究问题的描 述和选题的意义以及研究现状等。 第2 章和第3 章是论文的第二部分,是论文的基础部分。主要介绍了语音 识别方面的基础知识。 论文的第三部分包括第4 章和第5 章,本部分为论文的核心部分。在第4 章中介绍了神经网络的基本理论以及作者提出的基于神经网络的关键词检索算 法。在第5 章中设计并实现了基于关键词检索算法的两个实验,并给出了两个 实验的结果分析。 最后在论文的第6 章中给出了全文工作的总结以及对未来工作的展望。 中山大学硕士学位论文 基于神经网络的特定人关键词检索 2 1 引言 第2 章语音信号识别概述 关键词检索是语音识别的一种,与语音识别有着密切的关系。在第1 章中 已经描述过它们之间的关系,两者在处理的语音数据、语音的前期预处理、所 用的模式分类方法、语音的特征提取等方面有着共同之处。所以,我们有必要 了解一下语音识别方面的知识。 2 2 语音识别的原理 语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受 人的口呼命令,理解人的意图并做出相应的反映。语音识别系统的研究涉及微 机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许 多学科领域,是一个多学科综合性研究领域。 语音识别是语音识别系统的核心部分。语音识别一般分为两个步骤。第一 步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声 学模型以及进行文法分析的语言模型等。第二步是“识别”或“判断”阶段。 根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分 析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型 进行比较,通过判决得出识别结果。 根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识 别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但 无论那种语音识别系统,其基本原理和处理方法都大体类似。一个典型的语音 识别系统的原理如图2 1 所示。语音识别过程主要包括语音信号的预处理、特 征提取、模式匹配等几个部分。预处理的过程主要是对通过话筒或电话线路输 入的语音信号进行数字化采样和量化以及对数字化后的语音信号进行预滤波、 加窗、端点检测、预加重等过程。 语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足 以下的要求: 6 ! 些查兰堡主堂壁堡塞 兰王塑丝堕竺盟竺重垒茎塑! ! 丝兰 ( 1 ) 提取的特征参数能有效地代表语音特征,具有很好的可区分性; ( 2 ) 各阶参数之间有良好的独立性; ( 3 ) 特征参数要计算方便,最好有高效的算法,以保证语音识别的实时 实现。 在训练阶段,对特征参数进行一定的处理后,为每个训条建立一个模型, 保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生 成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。 同时,还可以在很多先验知识的帮助下,提高识别的准确率。 图2 - 1 语音识别的原理框图 2 3 语音识别的常用方法 自2 0 世纪5 0 年代以来。在语音识别领域,人们提出了很多语音识别的方 法。在语音识别中取得公认的有效效果的主要有以下几种: 模板匹配法:模板匹配法是一种传统的模式识别方法,其要点是:在训练过 程中从训练语句中提取特征参数,这些特征参数代表了语音的本质,称为相应语 音的模板,并存入模板库;然后,在识别过程中从待识别语音信号中按同样的处 理方法提取出语音参数;最后,应用某种不变的测度( 如距离测度) ,寻求语音 参数与模板参数之间的相似性,用似然函数进行判决。在比较识别时,由于同一 个声音由不同人发出或同一个人在不同时刻发出,都不可能具有完全相同的时间 氏度,因此必须进行时间的规整。上世纪七十年代引入了动态规整技术( d y n a m i c t i m ew a r p i n g ,简称d t w ) ,它使用时间规整函数把输入语音参数模板的时间 7 巾山大学硕十学位论文 基丁- 神经刚络的特定人天键词检索 轴非线性地映射到参考特征模板的时间轴,从而消除了语音参数与模板参数时长 不等带来的失真。d t w 采用动态规划技术( d y n a m i cp r o g r a m m i n g ,简称d p ) , 将一个复杂的仝局最优化问题化为许多局部最优化问题,一步一步地进行决策。 隐马尔可夫模型( h m m ) 法:隐马尔可夫模型法是对语音信号的时问序列 结构建立统计模型,将之看作是一个数学上的双重随机过程:一个是用具有有限 状态数的马尔可夫链来模拟语音信号统计特性变化的隐含随机过程,另一个是与 马尔可夫链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出 来,但前者的具体参数是不可观测的。语音信号本身是一个可观测的时变序列, 是由大脑根据语法知识和语音需要发出的音素的参数流。可见,隐马尔可夫法合 理地模仿了这过程,是一种既能描述语音信号特征的动态变化,又能很好地描 述语音特征统计分布的统计模型,是准乎稳时变语音信号分析和语音识别的有力 工具。隐马尔可夫模型法不仅可用于孤立词识别系统,而且在大词汇量、连续语 音的非特定人语音识别系统中也有着广泛的应用。目前语音识别的代表作,i b m 公司的v i av o i c e ,也是采用隐马尔可夫模型法。 高斯混合模型( g m m ) 法:高斯混合模型法与隐马尔可夫模型法很相似。只 是去掉了隐马尔可夫模型中的状态转移的概念,可视为只有一个状态的隐马尔可 夫模型。在高斯混合模型法中,每一个语音识别中的类对应一个特征分布的概率 密度函数,也就是这一个类的模型,是对这种分布的完整描述。基于高斯混合模 型的语音识别是目前比较成熟和有效的方法。 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简称a n n ) 方法:八十年代以来, 人工神经网络的研究出现了一个新的热潮,因其非线性、自适应、鲁棒性及学习 特性并且易于硬件实现等特点而受到人们的极大关注。人工神经网络以类比于生 物神经系统处理信息的方式,用大量简单的处理单元并行连接而构成一种独具特 点的信息处理系统。这种系统具有自组织、自学习的能力,它可以随着经验的积 累而改善自身的性能。在语音识别系统中,首先对每个语音类型构造一个网络, 识别时候,把获取的特征参数输入到不同的语音类型子网络,对各个子网络的结 果进行判决来选择似然程度最大的类型作为识别结果。目前采用比较多的神经网 络包括反向传播人工神经网络( b p 网络) 、人工神经预测网络、径向基函数神经 网络、时间延迟人工神经网络等。尽管统计模型法在语音识别中占有主导的地位, 8 中山大学硕士学位论文基于神经网络的特定人关键词榆索 但神经网络的独特优点及其强的分类能力和输入输出映射能力对语音识别很有 吸引力。目前神经网络的研究虽然还刁i 很成熟,但在语音识别的某些方面已显示 出了威力。在第4 章中我们将详细介绍神经网络的相关知识。 还有一些比较成熟和有效的识别方法,如矢量量化( v q ) 方法、支持向量 机方法等,在此不一一赘述。 9 中山大学硕士学位论文 基于神经网络的特定人关键词检索 3 1 引言 第3 章语音信号特征提取 语音特征提取是指从语音信号波形获得一组能够描述语音信号特征的参数 的过程。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术,其基 本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质的 特征参数抽出来。此后所有处理都是建立在特征参数之上,一旦特征参数不能很 好地反映语音信号的本质,识别就不能成功。 语音信号特征常用的有两种,一种是频谱特征,一种是时域特征。语音信 号的频谱特征,相对于时域特征,因其随着外界环境的变化较小,更易于抽出 信号的规律性,在语音分析和计算机语音识别中占有重要的地位。本章将以 l p c c 和m f c c 两类特征的提取为例来具体说明特征提取的方法和过程。 3 2 语音特征的获取以及预处理 一段语音从外界的连续波形的物理表示到计算机的内部表示再到它的特征 的产生依次经过了以下的几个阶段 “ : 3 2 1 采样与量化 在这个阶段中,语音从连续的模拟信号转换为离散的数字信号。这个过程 可以通俗地称为“录音”,由专门的语音信号处理芯片来完成,在一般的个人电 脑里,这一过程由声卡来完成。计算机根据内部的时钟频率,以一定的采样周 期t 对语音信号s ( o 采样,将其离散化为s 白) ,采样周期的选取应根据模拟语 音带宽依采样定理确定,以避免信号的频域混叠失真。 采样定理:模拟信号经过( a d ) 变换转换为数字信号的过程称之为采样, 信号采样后其频谱产生了周期延拓,每隔一个采样频率厂t ,重复出现一次。为 保证采样后信号的频谱形状不失真,采样频率必须大于信号中的最高频率的两 倍,这称之为采样定理。 l o ! 生查堂堡主堂竺丝苎 苎王塑丝旦塑塑壁壅叁茎矍! 里! ! 重 w i n d o w s 操作系统提供的采样频率一般为8 k 或i l k ,也可以通过a p i 函数 修改采样率为自己需要的值,如1 6 k 等。采样率越高,语音失真越小,得到的 样本数据也越多。 3 2 2 预加重处理 在语音信号的频谱分析中发现,频率越高谱值会越小,当频率提高两倍时, 其功率谱的i 隅度约下降6 分贝。因此,一般在特征提取之前要对原始语音信号 进行高频预加重,使其高频部分的谱值与中频部分相当。软件实现时,数字滤 波器的z 传递函数为 h ( z ) 一1 一a z 。1 ( 3 1 ) 其中a 称为预加重系数,可取为1 或比1 稍小的值,本文在实验中a = o 9 6 。 3 2 3 加窗以及窗移 从长时间来看,语音信号是一维的非平稳信号。但是,由于语音的形成过 程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来说要缓 慢得多,因此语音信号常常可以假定为是短时平稳的,即在1 0 - 2 0 m s 这样的时 间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样,我们 就可以采用平稳过程的分析处理方法来处理了。 加窗就是将语音信号划分为一个一个的短时段,每一短时段称为一帧。为 从语音信号中切取含有n 个样本的语音信号波形,需要用时问窗函数w ( 0 乘以 原来的语音信号。最常用的两种窗函数分别是矩形窗和汉明( h a m m i n g ) 窗。 矩形窗:帕) = 瞻搿一 ( 3 z ) 汉慨州- r 乩4 6 露陆八肌坳瞻掰。 s , 在矩形窗中,由于信号在窗边处急剧下降为0 ,使得语音信号的动态变化信 息失真,即所谓的边际突变。而汉明窗则克服了这个困难,信号在汉明窗边际 是缓慢下降的,实际应用中多使用汉明窗。另外,为尽可能不丢失语音信号动 态变化的信息,通常采用滑动窗,即帧与帧之间有一定的重叠,称为窗移,窗 1 1 巾山大学硕士学位沦文幕于神经嘲络的特定人关键词检索 移通常取为窗长的一半。 3 2 4 语音特征提取 这足整个特征提取中最后也是最鼋要的一个部分,这一部分要完成的j 亡作 足对语音帧进彳频谱分析,并用频谱特征参数进行描述,整个语音信号的特征 则用各帧语音的频谱特征参数所组成的参数序列来描述。本章后面将以两种重 要的特征参数来说明特征提取。 3 3 线性预测系数l p c i l l 3 3 1 线性预测系数基本原理 基于短时段内语音信号是准平稳的假设,可以利用过去p 个时刻的语音采 样值的线性组合以最小的预测误差预测下一个时刻的语音信号采样值,称为对 语音信号的p 阶线性预测。 设冬。h - 0 , 1 ,n 一1 为一帧的语音采样序列,将第n 个语音采样值用前p 个语音采样值进行预测,则s 的预测值为 和一舡。 4 , 其中口:( ft 1 , 2 ,p ) 称为p 阶线性预测系数( i j c _ _ i 。i n e a r p r e d j c a t i o n c o e f f i c i e n t s ) 。预测误差为: m ) q t = 扣。 ( 3 5 ) 其中a 。;1 。 3 3 2 线性预测系数的求解方法 一个语音窗的线性预测系数q ( f ;1 2 ,p ) 可由使这一帧的预测误差p o ) ! 生查堂堡主堂堡兰茎 苎! 塑丝塑堑竺堑壅茎堡塑丝鲞 的平方和 e = 群甜一蔫1 卜弘一丁 = y ( 矗一t ) 2 一yh + y 叩。l 高” 岛l 倒 i 最小得到。使e 为晟小的线性预测系数n ,满足 _ a e 。0f :1 , 2 ,p 可得 - - :。 s 。一,s 。一- s 。一- s 。一z s 。一:s 。一: s 。一,s 。一, s 。一:s 。一, s 一,s 。一, 以l d 2 _ 口口 叩。 n 。 ( 3 6 ) ( 3 7 ) ( 3 8 ) 在短时段o ,l n 一1 内语音信号可视为一个平稳过程,s 。与s 。的自相关 函数只是时间差i 的函数,即 r = 毛一。 ( 3 9 ) 在这一短时段上,信号的协方差函数为 f ,m 。磊 。 ( 3 1o ) 只要将( 3 9 ) 式或( 3 1 0 ) 式代入( 3 8 ) 式中,就可求出线性预测系数 口j ( f - 1 , 2 ,p ) ,分别称为线性预测的自相关法和协方差法。这两种方法在大部 分的语音信号处理书籍中都有详细的讨论 1 2 ,1 3 。 3 4 倒谱系数 1 1 3 4 1 倒谱特征的含义 倒谱特征是用于说话人个性特征表征和说话人识别的最有效的特征之一。 语音信号包括说话人特征和话音特征( 与说话内容相关) ,而说话人特征在很大 程度上取决于说话人的发音声道,即声道频率特性。如果能使这两者有效分离, 中山大学硕士学位论文 基r 神经 。! | 络的特定人关键词检索 就可以得到有效表征说话人特征的参数。由于语音信号是由激励信号与声道频 率响应相卷积的结果,可利用将信号作适当的同态滤波将相卷积的两个部分分 离,滤波的关键是先将卷积处理化为乘积,然后作对数处理,使之化为可分离 的相加部分。这一过程如图3 - 1 所示: 语爵信号篡;厂一 对数谱 厂 7 7 倒谱 语爵信号频醋厂一 盯毅僧 厂 倒谱 ad f t d i n i 卜一- 逆d f f t _ _ d s h b c 。一+ 也 语音信号j r ,复倒谱 “一1 一搜警_ 一 1 型j - l 竺竺换。_ j o s n1 3 c 图3 - 1 ( a ) 倒谱的含义( b ) 复倒谱 f i g3 - 1 ( a ) m i l i n g o f c e p s t r u m ( b ) m e a n i n g o f p l u r a lc e p s t r u m 图中a 处语音信号s 。一f 。h ,i 。表示语音信号的音源激励分量,h 。表示声 道分量( 即声道冲击响应) 。用f f t 算法计算s 。的短时傅立叶变换,就会在b 点得到音源激励与声道冲击响应傅立叶变换的乘积,取这一乘积的幅度的对数, 在c 点就得到了音源激励与声道冲激响应的傅立叶变换的对数之和。再对其进 行傅立叶逆变换,将在d 点所得到的信号称为是5 。的倒谱c 。,也称为倒谱系数 ( c e p s t r u mc o e f f i c i e n t s ) ,它是音源激励分量的倒谱乏与声道分量的倒谱t 之 和。可以证明【1 5 】,声道分量的倒谱将集中在语音信号倒谱的低时部分,而音 源激励分量的倒谱则集中在语音信号倒谱的高时部分。因此,通过取语音信号 倒谱的前面若干个分量( 低时部分) 可以较好地将语音信号中的音源激励部分 与声道部分分离。 3 4 2 线性预测倒谱特征l p c c 语音信号的倒谱特征与语音信号的l p c 特征是有关系的,因此可以通过语 音信号的l p c 系数来得到倒谱系数,这样得到的倒谱系数就称为线性预测倒谱 系数l p c c 。 图2 - 1 中的复倒谱与倒谱有密切的联系,已经证明,对于具有最小相位特 1 4 ! 生查堂堡主兰些笙茎 苎王塑丝翌堑塑! ! 室茎壁! 里塑重 性的语音信号s 。,有j 。= c 。,因此有 1 n s - ) = c ( z ) 5 著。一z 一“ 3 - 1 1 而晶中声道分量的z 变换s ( z ) 与5 。的l p c 问有如下关系 ( 3 1 2 ) 其中a k ( 女= 1 , 2 ,p ) 为p 阶线性预测的系数。将( 3 1 2 ) 式代入( 3 1 1 ) 式, 并且因s 0 ) 代表声道响应。其极点均在z 平面的单位圆内,可将代入后的式 。三号。t 出1 龠“ 装一t 1 。2 “馒 将上式左侧的分母移到右侧,并令两侧z 。的同幂项的系数相等,可得 - 薹( 1 一告k 。c 。一。+ n 。( 1 ,l s p 3 1 3 根据上式即可先从5 。求得l p c 系数,再由l p c 系数用递推的方法得到所需的 l p c c 系数c 。0 = 1 , 2 ,p ) 。由于p 一般小于一帧中的语音采样点数,因此 l p c c 只代表c 。0 = 1 2 ,p ) 的前p 个值,当取j p ;8 3 2 时一般可较好地表征 声道特性。 亭 蚺 衣 h 得 尘矿 导 求 。 对便两 薯 得 i ( 口 中山犬学硕士学位论文 基于神经网络的特定人关键词检索 3 4 3m e l 倒谱特征m f c c 不同于l p c 等通过对人的发声机理的研究而得到的声学特征,m e l 倒谱系 数m f c c 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理 的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界 带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频 率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。m e l 刻度是对这一临界带宽的度量方法之一。 在图3 - l 的倒谱计算过程中,如果不是直接对语音信号的对数谱作逆d f t , 而是先经过一定的频率坐标的尺度弯折瓦( ) ,将频率坐标取为在1 0 0 0 h z 以下 采用线性的频率弯折、而在1 0 0 0 h z 以上采用对数的频率弯折的新的频率坐标, 然后才进行f f t ,这样得到的信号就称为是语音短时信号各。h 。0 , 1 ,n 一1 的 一维m e l 倒谱。二维m e l 倒谱则兼顾了语音信号的时变特性和短时语音的平稳 特性,是一维m e l 倒谱在时域上再进行一次傅立叶变换的结果。m e l 倒谱系数 简称为m f c c 。 类似于图3 - 1 的倒谱计算过程,首先计算第m 帧语音的n 个采样点 各b = o 工,n 一1 的频谱 s 忙,m ) 。荟s b ,m ) c x p ( 一,拥寺) ( 3 1 4 ) 其中s ( k ,m ) 为第m 帧语音的频谱。因此,第聊帧语音信号的m e l 频谱( 也称为 m e l 对数谱) 则为 x ( k ,肌) = t 。 i n s ( k ,m 1 2 】 ( 3 1 5 ) 其中咒为m e l 频率尺度弯折操作符。 ! 坐查兰翌兰堡堡苎 苎王苎丝塑竺竺堡壁叁堡塑鳖! 墨 雨t i 芗玎m 4 图3 - 2 加三角窗频率弯折 f i g3 - 2t r i a n g l ef i l t e r 图3 - 2 中示出了通过加三角窗束进行m e l 频率弯折的方法。频率横轴被一 些三角窗划分为多干个频率段,三角窗之间有重叠,其中每一个三角窗代表一 个频率段。三角窗对应到纵辖上是权重,表示各个频率对本身所属的频率段的 贡献。频谱在三角窗中加权后累计就得到了语音信号的m e l 倒谱。一维m e l 倒 谱定义为语音信号的m e l 对数谱x ( 七,棚) 在频率上的傅立叶变换。即 c o ,m ) = 古荟盖伍,卅h 崎 1 6 ) 其中,q e x p ( 一j h 专) ,n 为一帧语音中的采样点数。二维m e l 倒谱定义为 语音信号的一维m e l 倒谱再在时间m 上的傅立叶变换。 求m f c c 参数的大致过程为: ( 1 ) 对输入语音帧加h a m m i n g 窑后作快速傅立时变换( f a s tf o u r i e r t r a n s f o r m a t i o n ,f f t ) ,将时域信号转化为频域信号。 ( 2 ) 将线性频标转化为m e l 频标。转化方法是将频域信号通过2 4 个三角 滤波器,其中中心频率在1 0 0 0 h z 以上和以下的各1 2 个。滤波器的中心频率悯 隔特点是在1 0 0 0 h z 以下为线性分布,1 0 0 0 h z 以上为等比数列分布。三角滤波 器的输出则为; 弘。雾篇即。鬟。糕玑名讲 其中以为频谱上第k 个频谱点的能量,v 为第f 个滤波器的输出,e 为第i 个滤 波器的中心频率。 ( 3 ) 用离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m a t i o n ,d c t ) 将滤波器输 出变换到倒谱域: q - 耄l 。孵) c o s m 一丢) 寻,2 ,p ( 3 1 8 ) 、一爿 、,、一 q10 i fllut 。川0 ,十0 。l l 中山大学硕士学位论文 基于神经网络的特定人关键词检索 其中p 为m f c c 参数的阶数,我们取p = 1 2 。 q 柚工即为所求的m f c c 参 数。 3 4 4 特征的组合 为体现语音的动态特性,通常对语音特征进行一些变化,并且加入一些语 音的一些其它特性,例如能量等等,对语音特征进行加强。 例如可以在语音特征 c 。h 吐。,中加入了一阶差分倒谱,其计算方法如式 ( 3 1 9 ) 所示; q ( 肌) =k c l - k ( ,”) 1 s 肼p( 3 1 9 ) 其中下标f 与l - k 表示第f 与厶七帧,m 表示第肌维。 由于能量参数对识别性能也有定的提高作用,所以可以在语音特征中也 加入了能量和一阶差分能量,其中能量参数用语音平均能量进行了归一化。实 验证明 2 8 二阶差分倒谱和二阶差分能量参数还可以进一步提高识别性能,采 用二阶差分与否还需要考虑到其识剐性能的提高与增加的计算量。 因此,一个组合的语音特征的组成可以是一个2 6 维的矢量,包括1 2 维l p c c ( m f c c ) 参数,1 2 维差分l p c c ( m f c c ) 参数,归一化能量和一阶差分能量。 1 8 坐查兰堡主堂壁堡奎 兰量塑丝里塑塑笪室茎堡! 里! 堕 第4 章基于神经网络的关键词检索 4 1 关键词检索的基本原理 关键词检索是语音识别的一种,但也有其特殊的一面,下图41 描述了关 键词检索的过程和原理: 图4 一i 关键词检索原理 从图中可以看出,关键词的检索包括两个阶段。第一个是模型的训练及建 立阶段,第二个是关键词的匹配及检索阶段。 在第一个阶段中,系统用已选好的多个关键词语音样本,提取其语音特征, 再用这些提取好的语音特征训练和建立相应的关键词模型,对应图中的信号预 处理一特征提取一模型训练一一模型参数这一路径。第二个阶段中, 系统在待检索的语音信号中提取语音特征,然后与训练阶段产生的模型参数进 行比较,用相关的匹配方法和判决策略得出检索的结论,对应图中的路径为:信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年台州天台县医疗卫生事业单位公开招聘卫技人员31人考前自测高频考点模拟试题及答案详解(易错题)
- 2025年滁州市扬子工投集团子公司社会招聘2人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025年预付式餐饮配送服务合同范本
- 2025年汽车编辑考试试题及答案
- 废弃矿山生态功能恢复评估方案
- 乡镇会计核算中预算编制的困难与对策
- 江西2025自考新闻学经济法概论考前冲刺练习题
- 针对厂房建设的安全管理实施方案
- 动作精度提升策略-第1篇-洞察与解读
- 微观期末测试题及答案
- 经典酶基因变异功能-洞察及研究
- 中国艺术歌曲课件
- 抖音基础入门教程课件
- 药食同源产品标准通则
- 学堂在线 科研伦理与学术规范 期末考试答案
- 中枢性抗胆碱药苯海索
- 冠心病中西医结合治疗的现状与进展
- 父母出资写协议书
- 工人受伤免责协议书
- 车库出租放物品合同协议
- 2025-2030中国脱硝催化剂行业市场发展趋势与前景展望战略研究报告
评论
0/150
提交评论