(信号与信息处理专业论文)脉冲耦合神经网络(pcnn)在基于语谱图的说话人识别中的应用.pdf_第1页
(信号与信息处理专业论文)脉冲耦合神经网络(pcnn)在基于语谱图的说话人识别中的应用.pdf_第2页
(信号与信息处理专业论文)脉冲耦合神经网络(pcnn)在基于语谱图的说话人识别中的应用.pdf_第3页
(信号与信息处理专业论文)脉冲耦合神经网络(pcnn)在基于语谱图的说话人识别中的应用.pdf_第4页
(信号与信息处理专业论文)脉冲耦合神经网络(pcnn)在基于语谱图的说话人识别中的应用.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

五邑大学硕士学位论文 摘要 语谱图能够反映语音信号的时频信息,它包含语音信号比较完整的信息。自从语 谱图出现以来,就一直有人对语谱图进行研究,也出现了一些成果,但成效不是十分 理想。脉冲耦合神经网络( p c n n ) 是上世纪9 0 年代,e c k h o m 等人通过对哺乳动物 的视觉皮层进行研究,得到的一个模拟哺乳动物视觉皮层发放脉冲( 也叫点火) 现象 的神经网络。 p c n n 面世以来,一直被用于图像处理中,本文提出了一种由p c n n 和行程编码 结合的图像压缩方法是p c n n 在图像处理的一个例子。而语谱图是语音信号的图像表 示,所以,把p c n n 用来处理语谱图是很合理的。通过语谱图就可以把图像处理的方 法用到语音处理中来。 直以来,用p c n n 从语谱图中提取特征,是把语谱图输入到p c n n ,迭代5 0 次,把每一代的总点火次数组成的矢量作为特征。但这样得到的特征只能反映语谱图 的一部分信息,而不能完整地反映语谱图包含的信息。本文提出一种用p c n n 从语谱 图中提取特征的新方法,使得新特征能比较完整地包含语谱图的信息。 本文主要做了以下工作: 1 介绍了脉冲耦合神经网络( p c n n ) 及其简化模型的结构原理,说明使用p c n n 要确定的参数。 2 提出一种由p c n n 和行程编码结合的图像压缩算法,说明p c n n 在图像处理 中的应用。 3 用p c n n 从语谱图中提取5 0 维的矢量特征,用于说话人确认和闭集的说话人 辨认,进行实验并分析实验结果。 4 用遗传算法来选择p c n n 的参数。 5 分析p c n n 各时刻的点火位置图,提出一种从各时刻的点火位置图中提取特征 的新方法,并把用新方法得到的新特征用于说话人确认和闭集的说话人辨认 中,取得较好的实验结果。 关键词:语谱图:脉冲耦合神经网络;行程编码;说话人确认;说话人辨认;遗传算 法;适应度函数 i i 五邑大学硕士学位论文 a b s 仃a c t s p e c t r o g r a mc o n t a i n ss p e e c hi n f o r m a t i o nf u l l yi nt i m e a n df r e q u e n c yd o m a i n i th a sb e e nb e i n g s t u d i e ds i n c ei tc a n l eo u t s o m eo u t c o m ew a sd o n e ,b u tn o tg o o d i n1 9 9 0 s ,a r e rt h e yh a ds t u d i e d m a m m a l i a no c u l a rp a l l i u m , e c k h o m st e a mf o u n d e dp c n n ( p u l s ec o u p l e dn e u r a ln e t w o r k ) t h r o u g h s i m u l a t i n gt h ep u l s eo u t p u tp h e n o m e n o ni nm a m m a l i a no c u l a rp a l l i u m s i n c ep c n nc a n l eo u t ,i th a sb e e nb e i n gu s e di ni m a g ep r o c e s s i n g p r o p o s e di nt h i sp a p e r , am e t h o d o fi m a g ec o m p r e s s i o nu s i n gp c n na n dr u n - l e n g t he n c o d i n gi so n es p e c i a li l l u s t r a t i o no fp c n nu s i n gi n i m a g ep r o c e s s i n g y e ts p e c 仃o g r a mi st h ei m a g ee x p r e s s i o no fs p e e c h s ou s i n gp c n ni ns p e c t r o g r a m p r o c e s s i n gi sr e a s o n a b l e w ec a l la p p l yt h em e t h o d so fi m a g ep r o c e s s i n gt os p e e c hp r o c e s s i n gb a s e d o n s p e c t r o g r a m w h e ne x t r a c t i n gt h ef e a t u r eo fs p e c t r o g r a mb yp c n n ,p e o p l eu s u a l l yp u ts p e c t r o g r a mi n t op c n n a n dg e t5 0d a t ap o i n t sa b o u tp u l s en u m b e rf r o mo u t p u to fp c n na f t e rp c n nl u l l s5 0t i m e s b u tt h i s f e a t u r eo n l ys t a n d sf o rs o m ei n f o r m a t i o no ft h es p e c t r o g r a m , n o tt h ew h o l e an e wm e t h o di sg i v e ni nt h i s p a p e r ,w h i c he x t r a c t sf e a t u r ef r o ms p e c t r o g r a mu s i n gp c n n i nd i f f e r e n tw a y t h ef e a t u r ee x t r a c t e db y n o wm e t h o ds h o w sm o r ei n f o r m a t i o no fs p e c t r o g r a mt h a nt h ef o r m e ro n e t h em a i nw o r k so ft h i sp a p e ra l eh e r e : 1 i i l t r o d u c i n gt h ep r i n c i p l e a n ds t r u c t u r eo fp u l s ec o u p l e dn e u r a ln e t w o r k ( p e n n ) a n d s i m p l i f i e dp c n n a n dl i s t i n go u tt h ep a r a m e t e r so fp c n n 2 p r e s e n t i n gan e wm e t h o do fi m a g ec o m p r e s s i o nu s i n gp c n n a n dr u n - l e n g t he n c o d i n gt os h o w h o wp c n ni su s e di ni m a g ep r o c e s s i n g 3 d o i n ge x p e r i m e n ta b o u ts p e a k e rv e r i f i c a t i o na n ds p e a k e ri d e n t i f i c a t i o nw i t hf e a t u r eo f5 0d a t a p o i n t s o u t p u tf r o mp c n n a n da n a l y z i n gt h er e s u l t so fe x p e r i m e n t 4 s e l e c t i n gp a r a m e t e r so f p c n nb yg e n e t i ca l g o r i t h m 5 a n a l y z i n gp u l s ep o s i t i o ni m a g e so fp c n ni nd i f f e r e n tt i m e p r o p o s i n g an e wf e a t u r ee x t r a c t i n g m e t h o df r o mp u l s ep o s i t i o ni m a g e s d o i n ge x p e r i m e n t so fs p e a k e rv e r i f i c a t i o na n ds p e a k e r i d e n t i f i c a t i o nw i t hn e wf e a t u r e t h er e s u l t so fe x p e r i m e n ts h o wt h a tt h en e wf e a t u r ei sb e t t e r k e y w o r d s :s p e c t r o g r a m ;p u l s ec o u p l en e u r a ln e t w o r k ;r u n l e n g t he n c o d i n g ;s p e a k e rv e r i f i c a t i o n ; s p e a k e ri d e n t i f i c a t i o n ;g e n e t i ca l g o r i t h m ;f i t n e s sf u n c t i o n i i i 五邑大学硕士学位论文 本人声明 我声明,本论文及其研究工作由本人在导师指导下独立完成,完成论文所用的一 切资料均已在参考文献中列出。 作者:阮柏尧 签名:阮桶尧 2 0 0 8 年4 月8 日 五邑人学形! j 学位论义 1 1 课题研究意义 第一章绪论 1 1 1 用语谱图进行说话人识别研究的意义 语谱图是用时间作横坐标,频率作纵坐标,将能量密度谱函数的值表示为狄度级 所构成的二维图像。语谱图既包含了说话人语音中频率的特征,义包含了说话人语音 中的时f f j n ,j 特征。由丁它通过二维图像来反映所包含的语音中丰富的信,自、,在对语音 进行分析时有着重要价值,因此被称为“可视的语言。如图卜l 是某人说“五邑大学” 的语嘴幽。 语谱图凶其不同的黑白程度,形成不同的花纹,被称作“声纹”。声纹能够反映出 说西人的特征。彳i 同的讲西者的语谱图具有不同的声纹。据此可以区别说话人,这与 不同的人有不同的指纹,根据指纹可以区别不同的人是同一个道理。 把语谱图用于说话人识别,不仅可以利用语音信号处理的知识,还可以应用已有 的图像处理知识,使图像处理的方法可以应用到语音处理方面来。 因此,把浯谱图用f 说话人识别是很有前景的。 图1 - 1 某人说“五邑大学”的语谱图 1 1 2 脉冲耦合神经网络( p c n n ) 研究意义 脉冲耦合神经网络( p c n n ) 是在研究哺乳动物视觉神经的基础上得到的神经网 络,它模拟哺乳动物视觉神经对图像的刺激得到一连串脉冲产生的过程。因此,这一 五邑大学硕士学位论文 神经网络在图像处理中具有广阔的应用前景。 而语谱图是语音信号在图像上的反映,包含丰富的语音信号的信息。通过语谱图, 把脉冲耦合神经网络应用到语音信号处理中是很有意义的。 1 2当前对语谱图的研究动态 语谱图能很直观地反映了语音信号在各个时段频率的分布状况,所以一直以来, 人们都对语谱图都很感兴趣。 在国外,早在2 0 世纪7 0 年代,人们就想通过对语谱图阅读来进行语音识别,取 得了一定的成果。v i c t o rw z u e 和r o n a l da c o l e 做了几个关于s p e c t r o g r a m r e a d i n g 的实验来尝试用语谱图进行语音识别【1 】;d e n n t i sh k l a t t 和k e n n e t hn s t e v e n s 尝试通过可视的语谱图检验和机器帮助下的词汇搜索来进行一组未知句子的 识别,取得了一定的成划2 1 。8 0 年代后期,人们开始把语谱图用来进行语音分割。像 日本的k a i c h i r oh a t a z a k i 等人,就通过一个利用语谱图阅读策略和知识的专家系统 来进行音素分割【3 】。8 0 年代末和9 0 年代,人们对语谱图的研究淅淅增多,人们开始不 直接使用语谱图,而是从语谱图中提取特征或使用处理过的语谱图。像m a t h e w j p a l a k a l 和m i c h a e lj z o r a n 二人提出用人工神经网络从语谱图中获得说话人不变 的特征【4 】;而b e np i n k o w s k i 用p c a 对语谱图进行分析【5 】:像s t e v e ng r e e n b e r g 和 b r i a ne d k i n g s b u r y 提出“m o d u l a t i o ns p e c t r o g r a m 这种新的语谱图形式【6 】; 还有p r a b h a k a rc h a n d r a s e k a r a n 等人把p c n n ( p u l s ec o u p l e dn e u r a ln e t w o r k ) 对 图象的处理引入到对语谱图的处理从而进行语音识别r 7 1 。进入新世纪以来,人们对语 谱图的兴趣并未减弱。s a b r ig u r b u z 等人提出一种新颖的基于谱模型适应算法的语谱 图,并用于说话人识别【8 】;m o n t r ik a r n j a n a d e c h a 和s t e p h e na z a h o r i a n 采用语 音信号建模技术在孤立词识别中有很好的效果并且鲁棒性也不错【9 1 ;y us h i 和e r i c c h a n g 提出一种可靠的,叫做“p a r t i c l e f i l t e r i n g 的方法来从语谱图中估计语音 信号共振峰的频率【l0 1 。 在国内,近年来对语谱图的重视程度也在增加。上海交大信息学院的h a i b i n g g u a n 等人在i e e e 上分析了基于语谱图的调制分类的三种方法【l u ;马义德等人把p c n n 引入到说话人识别中来;还有把语谱图用于端点检察【1 3 】、音素分割1 4 】等:苏州大学 的张晓俊等人在他们的省级基金课题中用p c n n 来进行语音识别【l5 1 。 所以,在把语谱图用于说话人识别的研究相对比较少。到现时为止,把语谱图用 2 五邑大学硕上学位论文 于说话人识别研究的方法主要是用到p c n n ,而且还是主要用总点火次数的曲线来进行 识别。 1 3 本文主要内容及结构 第一章绪论。 介绍了语谱图在说话人识别中的研究意义和脉冲耦合神经网络的 研究意义:介绍了语谱图当前的研究动态和脉冲耦合神经网络的应用情况;最后是本 文的内容结构。 第二章脉冲耦合神经网络( p c n n ) 模型结构原理。介绍了p c n n 的来源,介 绍了p c n n 的结构和原理,及简化p c n n 的结构原理,并且说明使用p c n n 要确定的 参数。 第三章p c n n 在图像处理中的应用。介绍了p c n n 在图像处理中的几种应用, 介绍了行程编码的方法,提出一种由p c n n 和行程编码结合的图像压缩算法,列出实 验结果并对实验结果进行分析。 第四章用p c n n 从语谱图中提取特征进行说话人识别。介绍用p c n n 从语谱图 中提取特征的方法,分析所提取的特征与求语谱图时所用的短时窗的个数的关系,用 p c n n 提取的特征进行说话人确认和闭集的说话人辨认实验,并对实验结果进行分析。 第五章遗传算法在p c n n 参数选择中的应用。简单介绍遗传算法的原理和适应 度函数的选取,把遗传算法用于p c n n 参数的选择上,进行实验并对实验结果进行分 析。 第六章用p c n n 提取语音特征的新方法。提出用p c n n 对语谱图进行特征提取 的新方法,把新方法提取得到的新特征用于说话人确认和闭集的说话人辨认的实验中, 并对实验结果进行分析。 3 第二章脉冲耦合神经网络( p c n n ) 模型结构原理 2 1p c n n 模型的来源 h o d g l d 与h u x l e y 在1 9 5 2 年就开始了神经元电化学特性的研究,但作为动态网络 的脉冲神经系统的研究直到9 0 年代左右才开始。e c k h o r n 等在1 9 9 0 年对猫大脑视觉 皮层进行研究,发现神经元中有同步脉冲发放现象,在对猴的大脑视觉皮层所进行的 实验中,也得到了相似的实验结果【6 1 。于是提出了展示脉冲发放现象的连接模型。并 在此模型的基础之上发展形成了脉冲耦合神经网络( p c n n ) 模型。 2 2 p c n n 模型的结构及原理 , 脉冲耦合神经网络( p q 州) 单个神经元结构模型如图2 1 所示。从图中可以看出, 脉冲耦合神经网络每个神经元都可以分为输入、连接、产生脉冲输出这三个部分。 太 三 一l 自粤 r 7 譬名 帅且 、一j 、_ l 叶(_入门弋 指数衰i i 一l 调整阈值 哗 矽 , 1r r t叫厂 一r 。 、 f 一,( 九u l l ljr 、f y l 。 输入 ii i 连接 l产生脉冲 l 图2 - 1 脉冲耦合神经网络神经元结构图 ( 1 ) 输入部分在输入部分中,是附近神经元在上一时刻的输出,场乘以对 应的系数然后相加再加上相应的反馈,得到连接输入项如。而乃是该神经元外部刺激 信号的输入( 例如图像像素构成矩阵中第( f ,) 个像素灰度值) 。外部输入乃加上巧 乘以对应的系数后再加上相应的反馈,就得到反馈输入e ,。 连接输入盯和反馈输入乃分别经过衰减常数为口和口f 的指数衰减后,反馈到 相应的输入部分。其表达式如下: 4 五邑大学硕士学位论文 f i j n = e x p ( 一口f ) 乃【一一1 】+ m o j , d 一1 】+ 毛 ( 2 1 ) 岛【以】= e x p ( 一a d z , u n l 】+ 圪嘞m 一1 】 ( 2 2 ) 式中珞和圪分别是反馈输入厅和连接输入l o 的固有常数,肌删和归是连接矩 阵m 和w 的元数,表示p c n n 第( f ,) 个神经元与第( 毛,) 个神经元的输出的连接 系数。连接矩阵一般是3 x3 的矩阵,表示p c n n 每个神经元与直接相邻的神经元有 连接,而且一般取m = w 。 ( 2 ) 连接部分在连接部分中,对连接输入岛先偏置,再与反馈输入凡相乘, 就得到内部活动项巩。其表达式如下: 【玎】- f o 甩】( 1 + 以】) ( 2 3 ) 式中是连接强度常数。 ( 3 ) 产生脉冲输出部分在产生脉冲输出部分中,用内部活动项与动态阈值 门限秒进行比较,当内部活动项大于动态门限时,神经元输出脉冲,也称为点火,当 内部活动项不大于动态门限时,神经元不输出脉冲,也叫不点火。 动态阈值和输出脉冲的表达式如下: 岛 甩】= e x p ( 一) 岛【甩一l 】+ v e 鬈j c n - 1 】 ( 2 - 4 ) 小 三:u 0 8 咖i , i n - _ 1 】1 ( 2 _ 5 ) 式中a o 与( 2 1 ) 、( 2 2 ) 中的a f 、a l 分别为易、乃、如的衰减时间常数,它们一般 满足:a f g e n e r a t i o n = 2 1 9 m a x a l l = 0 6 1 6 1 2 7 五邑大学硕士学位论文 x l m a x = 0 x 2 m a x = 2 2 6 7 8x 3 m a x = 7 1 9 8 2 6 也就是求得简化p c n n 三个参数分别为:p = o ,= 2 2 6 7 8 ,口= 7 1 9 8 2 6 用遗传算法求得p c n n 参数后,把2 个录音者剩下共8 个样本作为测试样本来进 行检验。求得这8 个样本与两个中心的距离如下表5 2 。 表5 - 2 用g a 确定p c 矾参数后各样本到两类中心的距离 测试样本 与说话者1 样本中心距离与说话者2 样本中心距离 样本1 o 0 1 4 8 0 5 5 6 0 样本2 0 0 2 1 20 5 9 1 4 说话者1 样本3 ( 水) 0 1 9 8 8 0 0 3 2 3 样本4 0 0 0 5 80 3 0 0 9 样本l 0 4 4 6 20 0 0 2 6 样本2 0 2 3 6 40 0 1 9 6 说话者2 样本3 o 2 8 1 80 0 0 9 4 样本4 o 1 2 7 80 0 7 1 9 , 而在用遗传算法确定p c n n 参数前,通过尝试来选择一组较好的p c n n 参数后, 这8 个样本与两个中心的距离如下表5 3 表5 - 3 未用g a 确定p c n n 参数前各样本到两类中心的距离 测试样本与说话者1 样本中心距离与说话者2 样本中心距离 样本l 0 1 0 2 l0 5 5 1 6 样本2 0 2 6 7 10 5 4 8 7 说话者l 样本3 0 2 8 9 70 3 6 7 3 样本4 0 0 1 9 80 3 6 5 3 样本1 0 3 8 8 6o 0 1 2 0 样本2 0 2 1 6 80 0 1 7 7 说话者2 样本3 ( 水) o 2 1 2 20 3 6 4 7 样本4 ( 木) 0 2 2 0 90 4 8 8 2 ( 表5 2 和表5 3 中“掌”表示用最近邻法判断错的样本) 2 8 五邑大学硕士学位论文 从表5 2 和表5 3 的对比可以看出,用遗传算法求出的p c n n 参数在区分两个说 话人中更有效,可见,用遗传算法求得p c n n 的参数是可行的。 但用遗传算法求p c n n 参数时间耗费很大。在赛扬c p u2 4 0 g h z ,2 5 6 m 内存的 条件下,上面运算结果要8 天左右才出来( p c n n 处理一幅语谱图大约4 秒,每个种 群个体有8 个样本,每代1 0 0 个种群,运行2 0 0 多代,得4 8 1 0 0 2 0 0 = 6 4 0 0 0 0 秒1 0 6 6 7 分- 1 8 0 小时= 7 5 天,再加上遗传算法除p c n n 程序外的其它部分程序运行时间,就是 8 天左右) 。 所以这种方法从时间角度来说是不可取的。 5 5 本章小结 p c n n 用于说话人识别时,p c n n 本身的参数对区分不同的说话人有很大的影响, 但要凭经验来确定p c n n 的参数是非常困难的。而遗传算法是一种优秀的算法。本章 介绍把遗传算法用于p c n n 参数的选取中,所得p c n n 用于区分两处说话人的语音取 得良好的效果。但这种方法所耗时间非常多。 2 9 五邑人学硕上学位论文 第六章用p c n n 提取语音特征的新方法 原来用p c n n 提取特征的方法是用p c n n 点火次数曲线作为特征。这样它能够反 映了语谱图的+ 些信息,但从第四章的实验结果看来,这些信启、似乎不够完整。 6 1 用p c n n 提取特征新方法的提出 首先来看一卜,幅语谱图输入到p c n n 神经网络后,它的点火位置的先后情况 如何。调整参数,使语谱图在大约迭代6 次时,几乎所有像素点不为零的点都点火, 得到6 幅不同时刻的点火位置图如下图6 1 。 ( b ) ( e ) ( c ) ( d ) ( f ) 图6 - 1 语谱图及其输入p c n n 后点火情况 3 0 ( g ) 五邑火学硕士学位论文 图6 1 中,图( a ) 是一幅语谱图,图( b ) 图( g ) 六幅图是该语谱图输入到 p c n n 后不同时刻的点火位置图。 从图中可以看到,这些点火位置图包含了丰富的原语谱图各像素点的灰度大小和 位置的信息,这些信息比点火次数曲线更完全地反映语谱图的信息,因此,用这样点 火位置图作为特征更合理。 但是,如果直接用这样点火位置图作为特征时,要处理的数据量就非常大。 于是每个时刻的点火位置图分别向纵轴和横轴投影得到两个矢量,再把两个矢量 放在一起合成一个矢量,这样每幅图要处理的数据量就减小了。把各时刻的的点火位 置图所得矢量按时| 、r l j ;l 顷序以列排在一起就组成一个矩阵。用这个矩阵所为矢量,既包 含语谱图完整的信息,数据量又不大。 上述过程如卜图6 2 。 萝 , r b ( a ) 投影 r b 口 二三口日 ( b ) 矢量组合 r a r b r 五邑大学硕:l 学位论文 ( c ) 特征矩阵合成 图6 - 2 特征矩阵合成过程 r ( 1 ) r ( 2 ) 。r 州 一 一 一 特征矩阵a 图6 2 中,图c a ) 是对语谱图某一时刻的点火位置图进行纵轴和横轴的投影得矢 量r a 和r b ;图( b ) 是把两个投影矢量首尾相接,组合成一个矢量r ;图( c ) 是把 每个时刻的点火位置图经图( a ) 和图( b ) 两个步骤得到的矢量r ( n 、r ( 2 ) r ( n 按 列组合成该语谱图对应的特征矩阵a 。 那么用p c n n 提取特征的新方法的过程如下: l 用p c n n 求各时刻 投影求每张 所有矢量按列组合 i 二有二a t i :f ll- l i 晤旧圊 l 点火位置图图的矢量成特征矩阵 图6 - 3 特征提取新方法的过程 6 2 用新特征的实验结果 本章实验所用数据与第四章实验所用数据是同一组数据。 6 2 1 用新特征进行说话人确认 本实验,识别目标对象录2 0 段语音其他9 人各录4 段语音,都是第四章中说话人 确认所用语音。 把确认的目标对象的2 0 段语音和其他9 人各4 段语音进行求语谱图、p c n n 新特 征提取等的步骤后,求得到新的特征矩阵。在目标对象的2 0 段语音的特征求平均作为 中心,其它特征与它求距离,就得到图6 4 中图( a ) 和图( b ) 的结果。 3 2 一口h目一口h崮 五邑大学硕士学位论文 图6 4 中图( a ) 是目标对象本身语音特征与特征中心的距离,图( b ) 是其他人的特征 与目标对象特征中心的距离。 ( a ) ( b ) ( c ) 图6 - 4 新特征说话人确认结果 3 3 五邑大学硕士学位论文 、 根据图6 - 4 中图( a ) 和图( b ) 的距离,画出说话人确认的错误拒绝曲线( f r r ) 和错 误接受曲线( f a r ) 1 2 3 如图( c ) 所示。从图( c ) 中可以看出,新的特征可以把目标对象 和其它人的语音明显分开。可见,有这种办法提取特征进行说话人确认虽然增加了特 征的数据,但效果得到了改善。 6 2 2 用新特征进行说话人辨认 1 0 个人,每人2 0 段语音,选3 个有代表性的样本求平均作为模板,求其它样本 与这些模板的距离,再求剩下每人1 7 段语音( 共1 7 0 段语音) 的特征与各模板的距离。 用最小距离判别法来辨认。 表6 - 1 用新特征进行闭集的说话人辨认结果 说话人正确识别个数错误识别个数 l1 7o 21 7o 31 7o 41 70 51 7o 61 7o 71 7o 81 7o 91 7o 1 0 1 70 1 0 人总共 1 7 00 识别率用于实验的语音全部可以识别 从上面实验结果看来,新的特征用于闭集的说话人辨认中时,能较容易地把各说 话人区分开,达到不错的识别效果。 由此可见,新特征更能反映说话人的信息,更有利于说话人识别。 3 4 五邑大学硕士学位论文 6 3 本章小结 本章总结了p c n n 各时刻的点火位置图的情况,提出了一种以p c n n 各时刻点火 位置图为基础的新特征的提取方法。用新特征提取方法提取所得的新特征包含更完整 的说话人语音信息。把新特征用于说话人确认和闭集的说话人辨认肘,实验效果比原 特征实验效果好,所以,新特征在说话人识别中更有应用价值。 五邑大学硕士学位论文 凸娃 ,口= 口 语谱图是语音信号的时频信息的图像表示,它包含了语音信号的完整信息。通过 处理语谱图来处理语音,就可以把图像处理的方法用到语音处理上面来。脉冲耦合神 经网络( p c n n ) 是模拟哺乳动物视觉皮层发放脉冲( 点火) 过程的神经网络。它主 要用在图像处理中,像图像去噪、图像分割、图像编码和图像增强等方面。p c n n 和 行程编码结合的图像压缩算法是p c n n 在图像分割和图像编码中应用的例子。 将语谱图输入到p c n n ,迭代5 0 次得到一个5 0 维的特征矢量用来进行说话人识 别,有一定的效果,但不是十分理想。分析其原因:一、是p c n n 参数选择不当,导 致不同说话人之间的特征区分不够开;二、是用这种方法得到的特征代表说话人特征 的信息不够完整。针对这两个原因,进行以下两种操作:一、用遗传算法进行p c n n 参数选择,但实验表明,这种做法在时间上看是不可取的,而且未必能找到理想中的 参数;二、分析各时刻的点火位置图,用新方法从各时刻的点火位置图提取新的特征。 用新的特征进行说话人识别,得到比原特征较好的实验结果。 3 6 五邑大学硕士学位论文 1 】 2 】 【3 】 【4 】 【5 】 6 】 7 】 8 【9 】 【1 0 】 1 1 1 2 1 3 】 参考文献 v i c t o r 、mz u ea n dl o f tel a m e l a ne x p e r ts p e c t r o g r a mr e a d e r a k n o w l e d g e b a s e da p p r o a c ht os p e e c hr e c o g n i t i o n i e e e ,19 8 6 ; d e n n i sh k l a t ta n dk e n n e t hn s t e v e n s o nt h ea u t o m a t i cr e c o g n i t i o no f c o n t i n u o u ss p e e c h i m p l i c a t i o n sf r o mas p e c t r o g r a m r e a d i n ge x p e r i m e n t i e e e t r a n s a c t i o n so na u d i oa n de l e c t r o a c o u s t i c s ,v 0 1 a u 一21 ,n o 3 ,j u n e19 7 3 ; k a i c h i r oh a t a z a k i ,y a s u h i r ok o m o r i ,t a k e s h ik a w a b a t aa n dk i y o h i r os h i k a n o p h o n e m es e g m e n t a t i o nu s i n gs p e c t r o g r a mr e a d i n gk n o w l e d g e i e e e ,19 8 9 ; m a t h e wj p a i a k a la n dm i c h a e l 】z o r a n f e a t u r ee x t r a c t i o nf r o ms p e e c h s p e c t r o g r a m su s i n gm u l t i l a y e r e dn e t w o r km o d e l s i e e e ,19 8 9 ; b e np i n k o w s k i p r i n c i p a lc o m p o n e n ta n a l y s i so fs p e e c hs p e c t r o g r a mi m a g e s p a t t e r nr e c o g n i t i o n ,v 0 1 3 0 ,n o 5 ,19 9 7 :7 7 7 7 8 7 ; s t e v e ng r e e n b e r ga n db r i a ne d k i n g s b u r y t h em o d u l a t i o ns p e c t r o g r a m i n p u r s u i to f a ni n v a r i a n tr e p r e s e n t a t i o no fs p e e c h i e e e ,19 9 7 ; p r a b h a k a rc h a n d r a s e k a r a n , m b o d r u z z a m a n , g y u e na n dm m a l k a n i s p e e c h r e c o g n i t i o nu s i n gp u l s ec o u p l e dn e u r a ln e t w o r k i e e e ,19 9 8 ; s a b r ig u r b u z ,j o h nn g o w d y , a n dz e k e r i y at u f e k c i s p e e c hs p e c t r o g r a mb a s e d m o d e la d a p t a t i o nf o rs p e a k e ri d e n t i f i c a t i o n i e e e ,2 0 0 0 ; m o n t r i k a r n j a n a d e c h aa n d s t e p h e n a z a h o r i a n s i g n a lm o d e l i n g f o r h i 曲一p e r f o r m a n c er o b u s ti s o l a t e dw o r dr e c o g n i t i o n i e e et r a n s a c t i o no ns p e e c h a n da u d i op r o c e s s i n g ,v 0 1 9 ,n o 6 ,s e p t e m b e r , 2 0 0 1 ; y us h ia n de r i cc h a n g s p e c t r o g r a m b a s e df o r m a n tt r a c k i n gv i ap a r t i c l ef i l t e r s i e e e ,2 0 0 3 ; h a i b i n gg u a n ,c h e n z h o uy e ,x i a o y o n gl i m o d u l a t i o nc l a s s i f i c a t i o nb a s e d 0 1 1 s p e c t r o g r a m i e e e ,2 0 0 4 ; 马义德,袁敏,齐春亮,刘悦,刘映杰基于p c n n 的语谱图特征提取在说 话人识别中的应用 j 计算机工程与应用2 0 0 5 ,2 0 :8 1 8 4 1 陈向民,张军,韦岗基于语谱图的语音端点检测算法 j 电声技术 2 0 0 6 :4 6 - 4 9 : 3 7 五邑大学硕士学位论文 1 4 潘凌云,孙达传,吴美朝语音识别中基于语谱图的语音音素分割方法 j 杭 州大学学报( 自然科学版) 1 9 9 5 ,2 2 ( 1 ) :4 2 4 6 ; 1 5 1 6 】 1 7 18 】 1 9 1 【2 0 】 【2 1 】 2 2 【2 3 】 【2 4 】 2 5 】 【2 6 【2 7 】 2 8 】 2 9 张晓俊,陶智,施晓敏,顾济华改进脉冲耦合神经网络的语音识别研究 j 计算机工程与应用2 0 0 7 ,4 3 ( 8 ) :5 1 5 3 ; 顾晓东,余道衡p c n n 的原理及其应用 j 电路与系统学报2 0 0 1 ,6 ( 3 ) : 4 5 5 0 ; 马义德,李廉,王亚馥等著脉冲耦合神经网络原理及应用 m 】北京:科 学出版社2 0 0 6 ; 马义德,齐春亮,钱志柏,史飞,陈娜基于p c n n 的不规则分割区域压缩 编码 c 第十二届全国图象图形学学术会议2 0 0 5 :3 8 4 2 ; 卡斯基尔曼( c a s t l e m a n ,k r ) 著,朱志刚等译数字图像处理 m 】北京:电 子工业出版社2 0 0 2 ; 姚天任著数字语音处理 m 】武昌喻家山:华中科技大学出版社2 0 0 5 ; 肖健华著智能模式识别方法 m 】广州:华南理工大学出版社2 0 0 6 : 朱武亭,刘以建b p 网络应用中的问题及其解决 j 】上海海事大学学报2 0 0 5 , 2 6 ( 2 ) :6 4 6 6 ; 张歆奕著语音识别和说话人识别的理论和应用研究 d 北京航空航天大学 博士学位论文2 0 0 5 ; z h e n l o n gd u ,x i a o l il i ,t o n gw a n g ,l i a n x i a n gw a n g r e p e a t i n gp a t t e r n d i s c o v e r yo f a u d i o i e e e ,2 0 0 5 ; v i c t o rw z u ea n dr o n a l da c o l e e x p e r i m e n to ns p e c t r o g r a mr e a d i n g i e e e ,1 9 7 9 ; ma h m a d i ,njb a i l e y , bsh o y l e p h o n e m er e c o g n i t i o nu s i n gs p e e c hi m a g e ( s p e c t r o g r a m ) p r o c e e d i n g so fl c s p , 19 9 6 : b r i a n e d k i n g s b u r y , n e l s o nm o r g a n ,s t e v e ng r e e n b e r g r o b u s ts p e e c h r e c o g n i t i o nu s i n gt h em o d u l a t i o ns p e c t r o g r a m s p e e c hc o m m u n i c a t i o n ,19 9 8 ; c 妒lh o r y , n a d i n em a r t i n ,a n da l a i nc h e h i k i a n s p e c t r o g r a ms e g m e n t a t i o nb y m e a n so fs t a t i s t i c a lf e a t u r e sf o rn o n s t a t i o n a r ys i g n a li n t e r p r e t a t i o n i e e e t r a n s a c t i o n so ns i g n a lp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论