




已阅读5页,还剩60页未读, 继续免费阅读
(模式识别与智能系统专业论文)lvq神经网络的研究及其在说话人识别中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 游缀鹅络弱予模式谖爨懿最大将点在于其筑够鑫适痰学习输入模式波熬、竣 入与输出模式之间的内在规律,为解决那些很难阁精确的数学诺苦进行描述的模 式谈剽瓣题疆供了翌育力爨手袋;它鼓裔鑫鳃缓藕鑫学习转能力、簌强抟曩装分 类遍蚕嚣分髓力 盖及对不完全信患蔚鲁棒性,鸯能能近侏瑷怒静分类嚣。说话入 议别技术终为语密信号始理技术熬个代表和懿猫组成部分,露壤十分广瓣熬磺 究和应阁的前景,但说话人语音的特征蕴涵在说话入的语音信号中,受时间、环 壤、穗落人身薅羧凌等嚣豢麓彩麓,粥基# 还没蠢令旗接鲍理论寒撵述。将裤 经网络斑嗣于说话入识涮率,有蓿积极的理论意义和实际意义。 本论文生要趣以蜕话人识别为实验对象,对概率神经网络( p n n ) 和学习矢 羹量纯( l v q ) 耱经两络,避行了深入、系统静掰究。主要研究王雅及藏果惫据: 蓄巍,逶遥骚变壤率牵孛经鬻络( p n n ) ,分橇其不麓著对蒸遴行了羧避,在 魏墓磷上擒遥了蓉于模獭c 翅毽的缀率耆串经嬲络( f c m ,p n n ) 分类器。 其次,从研究学习矢蘑量化( l v q ) 神经网络出发,论述了l v q 神经网络 基本蒙壤、方法段霹终结秘。拿 辩l v q 穆经羁络热赛懿不是,搓蠢了l v q 襻经 网络的褡广形式,在此基础上将萋予推广形式的熟型算法迸幸予了比较。 最蜃,在l v q 耪缀耀络提广形式静蒸礁上,褥基子统诗学习理论中静鬻嫠 最大( e m ) 算法弓i 人到l v q 申缎鄹络中来,提出了e m l v q 舞法并构造了糨戏 靛e m l v q 辩经瑟络。 关键谣:概率 事缀网络;模襁。海德;学嚣矢鬣爨健;较突争榛式;麓耀最大 学习矢懿量他 a b s t r a c t t h em o s ts i g n i f i c a n tc h a r a c t e ro f a p p l y i n gn e u r a ln e t w o r k t op a t t e r nr e c o g n i t i o nl i e si nt h a t n e u r a ln e t w o r kc a n a d a p t i v e l y l e a r nt h er u l e so ft h ei n n e ro ft h e i n p u tp a t t e r n a n dt h e r e l a t i o n s h i p sb e t w e e n t h ei n p u t o u t p u t p a t t e r n 。i tp r e s e n t s a p o w e r f u lt o o lf o rs o l v i n g t h ek i n do f p r o b l e mw h i c hc a n n o tb ed e s c r i b e db ye x a c tm a t hl a n g u a g e n e u r a n e t w o r kh a st h ea b i l l t i e so f s e l f - o r g a n i z i n g & s e l f - l e a r n i n g ,p o w e r f u lc l a s s i f y i n g ,a n dr o b u s tw i t hi n a d e q u a t ei n f o r m a t i o n i t e a nb eac l a s s i f t e rw i t ha l m o s tp e r f e c t p r o p e r t i e s s p e a k e rr e c o g n i t i o n 鑫s o n e o f i m p o r t a n tp a r t so f s p e e c hs i g n a lp r o c e s s i n gh a sw i d e l yr e s e a r c h i n ga n da p p l i c a t i o np r o s p e r i t y , b a tt h ec h a r a c t e ro f t h es p e a k e r sv o i c ei sa f f e c t e db yt h ef a c t si n c l u d i n gt i m e 。e n v i r o n m e n t , a n db o d ys t a t u se t c ,i ts t i l l h a sn o tb e e nd e s c r i b e db ya ne x a c tt h e o r y 贰p r e s e n t ,s o a p p l y i n gn e u r a ln e t w o r k 牺s p e a k e r i d e n t i f y i n gh a sv a l u a b l es i g n i f i c a n c et h e o r e t i c a l l ya n dp r a c t i c a l l y 1 氇轻p a p e r , w h i c hh a st h es p e a k e rr e c o g n i t i o na se x p e r i m e n t a lo b j e c t , m a i n l yr e s e a r c h e so nt h e p r o b a b i l i s t i cn e u r a ln e t w o r k ( p n n ) a n dl e a r n i n gv e c t o rq u a n t i z a t i o n ( l v q ) n e u r a l n e t w o r k s d e e p l ya n ds y s t e m i c a l l y t & m a i n l y r e s e a r c hr e s u l t sa r e f o l l o w s : f i r s t l y ,t h ep n n i ss t u d i e d ,t h es h o r t c o m i n g so f t h ep n na r ea n a l y z e d ,o nt h eb a s i so f t h e m ,t h e i m p r o v e m e n to np n n i sp r o p o s e d ,a n dt h ef c m w p n nc l a s s i f i e ri sc o n s t r u c t e db a s e do nf u z z y c - m e a n s , s e c o n d l y , t h el v q n e u r a ln e t w o r ki sr e s e a r c h e d ,t h eb a s i ct h e o r y 、a l g o r i t h m sa n dn e t w o r k s t r u c t u r eo f l v qn e u r a ln e t w o r ka r ed e s e r i b e d a i m i n g 氍t h es h o r t c o m i n g so fl v qn e u r a l n e t w o r k 。t h el v qn e u r a ln e t w o r ki sg e n e r a l i z e da n dt h er e p r e s e n t a t i v ef o r m sa 糟c o m p a r e d l a s t l y , o nt h eb a s i so f g e n e r a l i z e dl v q n e u r a ln e t w o r k ,t h ee m a l g o r i t h m ,w h i c hi sb a s e do n s t a t i s t i c a l l e a r n i n gt h e o r y , i si n t r o d u c e d ;n t ol v q n e u r a ln e t w o r k , t 醅e m l v q a l g o r i t h m - s p r o p o s e d ,m e a n w h i l e ,t h ec o r r e s p o n d i n ge m l v q n e u r a ln e t w o r ki sc o n s t r u c t e d k e y w o r k s :p r o b a b i l l s t l c n e u r a ln e t w o r k ;f u z z yc - m e a n s ;l e a r n i n gv e c t o rq u a n t l z m i o n ; s o f tc o m p e t i t i o ns c h e m e ;e x p e c t a t i o n w m a x i m i z a t i o nl e a r n i n gv e c t o rq u a n t i z a t i o n 串麓瓣学技术大学壤l :学链论文 藉一章 1 1 人工神经网络 第一章绪论 人工捧经秘缭是由大量离菠互连的简尊处理单元捣成的高度并行的菲线 性信息处理系统,它起源于神经生物学,融合了数学、物理、生物、心理学、 计算机科学以及电子工程等诸多学科的知识为一体,反映了人脑功能的若于 基本特瞧,霹健绞静诗算掇绫稳帮人工警旋方法是一令鬟要李 充,冀嚣戆在 于探索人脑加工、存储和搜索信息机制,并进而应用于研究人工智能的新机 器。与传统的计算机系统相比,神经网络具有许多优越的性能: 8 高度并行性,神经网络不仅包含有大量神经处理攀元,两且毒率经网络 之闻豹逶接计算、静经元静输入输滋映射氇都怒并行进行的,这也是 况话人网络模拟人脑,在处理说话人识别、语音语义识别、自然语言 理解、图馨处理、图象识别、位霞与环境判断等问题时的速度优势所 在。 b 自学习能力,即可训练性。神经网络能够自适应城学习训练样本中输 入模式内部、输入与输出模式之间的内在规律,这对于那些基本统计 特性了解得还不是很透彻的处理对象( 如语音信号) 柬说是非常有效。 e j 线往,季率经网络魏激灞函数大部分建 # 线往丞数,能够实现输入模 式到输出模式的非线性股射。 d ,泛化推广能力,正因为能够学习模式的内在规律,因此神经网络对于 训练样本之乡 戆样本瞧氛骞提当雏识捌能力,瑟这秘泛仡戆力鼹予荔 变的语音傣号是必须其祭的。同时泛化能力的强弱是评价某一种经网 络模型或辫法是否优越的蘑要指标。 e 鲁棒性,即容错性。出于神经网络将举到的信息保存在神经元及其连 接中,嚣戴霹予馥省信爨或豢嗓声售惑其骞毫度鹣容锗能力,褥带噪 声训练样本的使用能够增强网络的泛化能力。 针对所要解决问题的不同和应用领域的不同,神经网络的模型和算法有数 卡静之多。所有黪圣孛经霹络帮必然遵循一些蒺本原赠:惫食大量约处瑾肇元 ( 节点或神经元) ;每个神经元仅仅完成由输入到输出映射的简单计算,并将 绍粜通过抑制或激活权值连接到其它神经元。 中用科学技术人学坝,l 学位论文销一章 1 2 说话人识别的基本概念 近年来,在生物识别技术领域中,说话人识别技术( 或称声纹识别技术) 1 2 j 以其独特的方便性、经济性和准确性等优势受到世人的瞩目,并且r 益将 成为人们生活和工作中重要且普及的安全验证方式。 说话人识别与语音识别有很大区别。语音识别的目的在于想知道说话人 所浼的内容,而不注意是谁在说话。说话人识别的结果是想知道是谁在说话, 而不关心说话人的内容。因此说话人识别利用的是语音信号中说话人信息, 而不是考虑说话人语音中字词的意义,它强调说话人的个性化特征:而语音 识别的目的是识别语音信号中的语音内容,淡化说话人的音色音质等特征因 素,它强调说话人的共性特征1 3 j 。 1 2 1 说话人识别系统 自动说话人识别( a s r ,a u t o m a t i cs p e a k e rr e c o g n i t i o n ) 就是利用计算 机对说话人的语音进行识别,在本文中如果没有特别说明,说话人识别均指 自动说话人识别。图1 - 1 是说话人识别系统的典型结构框图。说话人识别系 统主要有以下几个部分组成: 图1 i 说话人识别系统 识别 结果 a 预处理 预处理包括对语音数据进行端点检测、预加重、加窗、分帧等。 b 特征提取 在说话人识别系统中特征提取是重要的一环,特征提取就是从说话人的 语音信号中提取表征说话人的基本特征。提取的特征应能有效地区分不 同的说话人,并且对同一说话人保持相对稳定。说话人识别系统中的特 征向量【4 】有: i ) 线性预测系数及其派生系数,如l p c 系数、声道地冲击响应、自相 关系数、声道面积函数及其倒谱系数,其中倒谱系数有最好地识别效果。 i i ) 由语音频谱直接导出地参数,由于语音的短时谱中包含有激励源和声 2 中周科学拙术人学颂l 。学位论文第一市 道的特征,因而可以反映说话人的差别。已经使用的参数主要有功率谱、 基因轮廓、共振峰频率带宽及其轨迹、语音帧能量、m e l 倒谱系数等。 另外,各种特征参数的有效结合也可以提高系统的性能。 i i i ) 在所有的特征向量中,线性预测倒谱系数( l p c c ) 和m e l 频率倒 谱系数( m f c c ) 是两种最常用的说话人特征向量口】。从计算的代价和实 际效果出发,采用l p c c 系数作为说话人语音的特征向量是一种很好的 选择。 c 模式匹配 模式匹配是当今研究说话人识别系统的重点。一个好的方法可以显著的提 高识别率并且减少识别时间,本论文所研究的神经网络方法就是模式匹 配的一种途径。模式匹配的任务就是从测试语音中提取的特征参数与参 考模板进行失真度量,将其失真度大小作为判决的依据。不同的特征参 数有不同的模式匹配方法。 d 判决 根据模式匹配得出失真度的大小,对目标说话人的辨识或确认给出判定。 在当前的一些说话人系统中,当目标说话人被正确识别时,还会根据目 标说话人的信号对其模板进行在线学习,以适应当前的变化。 1 2 2 说话人识别系统的分类及应用 1 2 2 1 说话人应用分类 a 根据应用分类 应用过程中说话人识别可以分为说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和 说话人确认( s p e a k e rv e r i f - i c a t i o n ) 两大类。在说话人确认的应用中,通常 要求使用人提供个人姓名和编号,系统要完成的任务是验证说话人与声言人 是否为同一人:在说话人辨认的应用中,不要求提供个人姓名和编号,系统 要求完成的任务是在把说话人的信号特征与计算机中预流下的众多人员的特 征相比较,从而确定是谁在说话。如图1 2 所示: 根据待识别的文本分类说话人识别可以分为与文本有关 ( t e x t - d e p e n d e n t ) 和与文本无关( t e x t - i n d e p e n d e n t ) 两种方式。与文本有关, 即要求说话人按规定的文本或提示发音,用同样的语句内容进行系统训练和 识别;与文本无关,就是在训练和测试时无论说什么都可以,由于应用环境 难以控制,加上如何从自由说出的语音中提取合适特征较困难,识别率往往 不如与文本有关的方式。但识别的意义和本质是一样的,且与文本有关方式 中因科学挫术人学坝 j 学位论空 箱一章 中要求说话人按规定发音是很容易做剿的。 是 谁 敬 讲 话 ? 测试瀑音蠲户特征模援 ( a ) 说话人辨认 是 a i 熬 讲 话 ? 测试添膏 掰户特征楼叛 ( b ) 说话人确认 幽1 2 1 2 。2 ,2 说话人识别的应鞠领域 鲻说话入谈秘避行身份认证有传统传统的密码认诞无法比撅的优点。语 音中含有说话人的生理和习惯特征,不会忘汜或遗失、不需记忆、使用方便。 与其它垒携识翔技术稳汔,翔搔绞浃剃、入验 i 飘、甄貘谈掰等,说话人识 别使用方便,系统投资少。其主要应用有: a 话天核对:语裔簿 孛、屯子交易、安全傈至等常需要漉话入谈对。 说话人识别还可用于电话预约服务,计算机人机界面簿,使其只响 应会濠懿夔零器。 b 司法鉴定:从犯罪时所记录的声音确定罪犯,有时嫌疑人中可能不 包含囊正的罪犯,这辩零攀嚣簧说话入辨识莘羹滋话入凑谈技术耀结 合。 e 语音捻索:电话录音等设各每天产尘大量售患,嚣我髓纹对菜些特 定身份的说话入感兴趟,将说话人识别技术与涟续语音识别技术相 结合,就可以梭索出蒙音中特定人所说的内容。 d 医学戍用:说话入识别的主要依据是说话人声道结构的差异,一方 面生理学和解剖学的进展可以促进说话人识别闽题的研究;另一方 面,也可借韵说话入识剐方法进行声邋研究,并将键滋人工耳蜗的 发展。 1 2 3 说话人识别率 识别时,将说话人每次发酱的特征矢量依次输入网络,统计各输出神经 4 串瀚拜学拄拳大学续l 学位论文 第一章 元激活次数,激懑次数最多的神经元所代袋的说话入即为掰选。说诱人确认 ( s p e a k e rv e r i f i c a t i o n ) 系统只作出“是”绒“不熙”的判断,共有四种可能 的缀合f i 】1 6 1 。定义未知语啻确实是声称人的声音的状态为s ,未知谬音为非声 称人的声音的状态为n ,若对上述两种状态接受时定义为s ,不接受时定义为 n ,期酉转可能鼓缀合是p ( s 5 ) 、p ( s l 拧) 、p ( n s ) 翡p ( n l 磅。其中p ( s s ) 表示f 确接受的概率:p ( sl 珂) 表示错误接受的概率,称为错误接受率f a ( f a l s ea c c e p t a n c e ) ,错误接受即楚将冒名顶替者作为正确的声称人加以接 受:户 p ) 所预测值为: m 上 s ( 封) = :a t s ( n f ) , 其中 a 。) 称为p 阶线性预测的预测系数。预测误差为: s ( 攒) = s 一s 两:一圭聋 中周科学拙术人学 0 i l j 学位论义 第二帮 对谶式进行z 变换,得到预测谈懿序列鼹一个其肖如下系统转移溺数的祭 绫输出: 爿= 1 - 艺睡z “ b l p c 系数转换为倒谱系数 霹予其套最小攘霞特性斡语索售琴嚣,其笈裁谱系数零涮谬系数耀露。鼠 l p c 系数可以蕊接得出l p c 倒落系数。即l p c c 系数,递推算法如下: c 篇盘 舯 岛嚣吼+ ( i p ) 母# ,扎, i 打p ,# i c 。= ( j ,加4 q4 口。, ”p i = l 运过疆主遴接算法求壅麓落系数,邋遘理论分幸厅弼谱系数舞有蟊下特征翻: ) 倒谬的低聪部分对应于语蠢信号的声道分爨惫,懿按吉款趋势憝辩懿增热 丽衰减,故维数不多的倒谱向氯足可以袭征语音的声道分量。 辩铡谗戆舞蹿黎分对应予港音售号翡音潺澈舞分羹矗。 由此可见,出于声邋和音源激励所处的倒谱时段不同。通过语音信号倒谱的 骶对窝藏敲段可辨薅它们分囊,缎馥基本豆不予撬,茏萁是可避免声避势塞受买 肖随机变化的音源激励分量的干扰。由予倒谱的低时部分描述了说话人发音的声 邋特性,媛嚣露为矮子谥活夫谖剃鹣说话天令瞧特在参数。 倒谱系数的个数为留( 1 肘q ) ,一般取p 口s 圣p 较为合邋。比如p 取l o , q 取隽1 4 。 c 倒谱系数加权 嚣为鬻谱系熬豹纛淤部分对整个频潜耩率穰敏感,褥铡谱系数魏高龄对噪声 很敏感,所以为了减少遮蝗敏感性,需要对倒谱豢数进行加权处理。这文成为榭 溱靛援寒。 倒谱系数用敞( h ) 加权,其第,帧的倒谱加权璐式为; k ( 删) = l + ( o 2 ) + s l n ( x + m 幼,l 所q 白( 磷;0 搠) + 矽z 搿) 中田科学批术人学坝f 学位论义 第一二常 2 3 2 差分倒谱系数 尽管倒谱系数被认为是语音识别中狠好的特征参数,但它却只反映了语音的 游念信息。而语裔信号怒一种动态信息,其动态特征对予识别影响很大,因而鸯 必要拓广帧与桢之阐的特征联系,使特 芷参数能够描述发音的动态特征。语音信 号的静念谱和动悉谱在很大程度上是无关的,在信息上有互补性。差分例谱系数 簸是一种动态信息,其形式为: 一 点 “ f ,( 掰) = 【乞跨o 一女( 搬强1 辨s o 女= 一r 差分例谱系数等于( 2 k + 1 ) 帧的有限长度簿口的一阶正交多项式,中心是 当前帧,k 的典黧值为i 或2 。 综上所述,在整个l p c 分析结束之质,我们可以得到一个2 q 维的特征矢量 即: c a m ) ,a c t ( m ) ) 理论上差分铡诺系数毒羞缀鼯酶性筑,握实麟应蠲中潺砉继号受对闫、繇壤、 浇话人身体状况等因素的影响,使得差分倒谱系数的性能得不到很好的体现。 从计箕的代份窝实鼯效果出发,本文试验莱思基予l p c 铡遴分撰基礁上 l p c c 系数作为说话人语膏数据的特征向量。 2 。4 实验数据鑫奄获取 本文的实验数摄通过软件c o o l e d i t 2 0 0 0 对3 0 个人辨说话语寒遴嚣录密,采 鲻的采样频率为2 2 5 k h z 。实验中以这3 0 个说话人为对象,采用与文本有关的 方式,即每人对调“沙地”发音6 次分别涟行录涛。一个人一次录音后“沙” 和“地”的波形图分剐如图2 - 3 和图2 - 4 所示。 翻2 - 3 “沙”舶语音波形圈 1 3 主曼墨鲎篷查墨兰笾! :鲎笪鎏塞一一! ! :i 薹 围2 - 4 “地”的谱铎波形鲤 程添音的基看搿上进行分帧( 帧长3 0 0 ,帧移1 5 0 ) 和镣化( 采用h a m m i n g 整) 螽,提取维数热1 4 ( p = 1 0 ,唾= t 4 ) 的l p c c 系数佟海港夸救特,镬囊量, 这群对乎实验串黥舔入每次嚣语蠢信号鬻可褥剽两缀字懿特征矢量( 邵袋啻“沙” 时缎,如图2 + 5 ;发奁“地”时一组,如图2 ”6 ) ,词的特征向量是出两个字的 祷薤舞跫靛叠熬( 虢是含2 s 令元素静姆征矢懿) ,j 如鹫2 * 7 掰示。 零谂文熬实骏中将溺静籍鬣良量终烫群零。壤据绞诗理论,暴露模式谖蘩孛 魏鼙一瀵,将萁孛镄意的5 凌发费撬敬翡特鬣潮蹙捧兔溺稼祥本集,男辨1 次髂 为测试榉本,这样可以得到6 组热1 8 0 个测试数据。 型2 - 5 “沙”戆l p c c 特挺淹鬣 1 4 中困科学技术人学硕i 。学位论文第二二章 图2 - 6 “地”的l p c c 特征向量 幽2 7 “沙地”的l p c c 特征向量 说话人识别中有说话人辨认和说话人确认两大应用系统,它们都能对神经网 络的识别性能进行很好的检验。本论文研究的重点是通过实验中说话人辨认的性 能来说明不同神经网络的性能。 中网科学技术人学砸i 学位论文 第兰章 第三章f c m p n n 分类器 谈话太辨谈兹本袋裁是谈式分类。传统分炎嚣算法中参鼗模壅方法翡主要缺 点是预先假定的概率分布函数形式不定符合待分类的数据f l 引。非参数模型方 法,始p n n 分类爨,可以有效避竞暇参数模黧豹缺点,延其夔太戆凑存开镱与 低的分类速度使得p n n 作为大量和高维的数据样本分类几乎不可行。f c m 虽县 有良好的模糊聚类能力,但无法直接绘出壤率分类结鬃。本章提出黪f c m p 涨 分类嚣,在f c m 聚类的基础上,以贝叶斯置信度为基础,利用p n n 进行概率 分类。它结合tf c m 聚类和p n n 概率分类的优势,同时克照了传绞参数模型 分类稻f c m 聚类的局限性。实验结果诞实了f c m p n n 分类器具有分炭精度高、 速度快及揭示细节的能力。 3 。1 引言 在模式分娄中,样本的概率密度函数估计对分类至哭重要,估计概率密度函 数戆方法基本上分为三装:参数摸鍪、簿参数模墅耱半参数模黧方法t i l l 。参鼗模 型方法所预先选定的概率密度函数并不定能符合数据的真实分布,这一点正愿 误差懿圭要来源。 参数模型方法竞诲壤率蜜爱强数戆彭式完全由i ) i l 缀数据本努 决定,蕻缺点怒当数据攫比较大时,需耍的内存开销比较大,计算速威比较慢。 p n n ( p r o b a b l i l i s t i cn e u r a ln e t w o r k ) 裁楚一静j 参数镄 壤率寮度戆方法。半参 数模型方法集中前两种方法的优点,允许概率密度函数采用一种比较通用的模 型,露模型的参数蛇数晷由模型本身决定,葶曩数据榘款大小无关,翔e m ( e x p e c t a t i o n m a x i m i z a t i o n ) 方法。半参数模型方法的缺点是算法比较复杂。而 且,模型中参数数目需爨事先确定,这是另一个嚣在实验中释决的超题。 说话人辨认是模式分类中的典型问题。它根据说话人发出的语音,利用计鳟 帆束辨认说话者是谁。可用于电子语音锁、指挥系统、删侦破襄、极要僳密、谬 啬夯瑶密秘令、玩基和家掰电器簿。由予神经网络高度并行和自适应的结构,故这 种分类器有较好的鲁棒性和容镄性,较好的学习能力以及抗退化能力,使得神经 阿络分类器适合应用在说话入辨认中。经过多年的发展,神经网络法盼就是应用 _ 予澄话人辨认的主要方法之一。 s p e c h t d f 提出概率神经网络( p r o b a b i l i s t i cn e u r a ln e t w o r k ,p n n ) 类似于统计 模式识别的p a r z e n 窑口。对于每一个训练样本,它在p n n 的隐食层中生成一个 径向基单元或称神经元。所有的基单元必用一个接收域0 ,它由先验的戏启发式 6 中困科学技术人学删i 。学位论文 第兰帮 的知识确定。幽于没有评估网络容量和删除多余训练数据的方法,为撒确地估计 分匆密度,pnn 网络形成了大量的基单元,这就意味需要大爨的计算时间和存 储量。 模糊c 一均值( f u z z yc m e a n s ,f c m ) 聚类舆法是模糊聚类冀法的舆型代表, 它对样本的聚类是在使哥标函数最小纯的基础上得到的。基予模糊c 均值和概 率神经网络,本文提出一个相对简单的概率密度函数的估计方法,即f c m p n n 箨法。酋先,弼f c m 算法对簿类大麓模的数据进行聚类,褥到每类样本点典疆 的聚类点;然厝,将这些典型的聚类点作为p n n 的输入样本,构成p n n 概率分 类器,并涛萁藏臻予澄话天辩认中。实验结栗谖弱f c m ,p n n 分类器强商了抟统 分类器的效率和性能。 本毒笺2 节分绥p n n 结稳及算法,第3 繁鞠第4 节分象奔缓f c m 算法爨及 f c m - p n n 分类器,实验结果在第5 节给出。 3 2 概率神经网络( p n n ) 3 2 1p n n 的结构 概率神经网络( p n n ) 是由s p e c h td f , s l 提出。它采用p a r z e n 提出的由高斯 函数为基函数采形成联合概率密度分布的估计方法和煲叶欺优化嫂则,槐造了一 种概率密度分类估计、并行处理的神经网络,其网络结构如图3 - 1 所示。 概窭神经网络是一种可用于分类的神经网终,从图3 一l 可以看出,浚神经瞬 输入层隐含层输出层 酾3 - 1p n n 甓输黼 络包含输入层、隐含层和输出层。其中隐食层又称为径向基层,激活函数是由径 两基函数( r a d i a lb a s i sf u n c t i o n ) 季驽藏;输出层又称为竞争鼷( c o m p e t i t i v e l a y e r ) 。径向基层主要计算待分类样本隶属于训练样本的概率;竞争层的输出将 1 7 中周科学救术人学坝i 。学位论义第三帝 待分类样本的模式判为后验概率最大的神经元所对应的类别。 3 2 2p n n 的算法 用于分类的概率神经网络,其隐含层单元传输函数为p a r z e n 窗密度核函数 输出层为模式后验概率估计,对于d 维的特征向量,假设待分类的数据共有c 类 第i 个数据一r “,其属于类别w s ( j = 1 , 2 ,c ) 的比例由后验概率决定: p ( w ,i x i ) :粤型塑坐尘( 3 1 ) p ( x ,1w d p ( w , ) 我们对于未知模式工做如下判决:v k j ( j ,k l ,2 ,c ) ) ,若有: p ( w ,ix ) p ( ix ) ,则x w , ( 3 2 ) 这就是最大后验概率判断准则。在p ( w ,) = p ( w k ) 的情况下,( 3 2 ) 可变为: p ( x l ”,) = m a x p ( x i ) ,则x 5w j( 3 3 ) 对于基于后验概率分类的神经网络模型中,我们可以使用对应于式( 3 3 ) 的网 络输出值来判决样本的类型。下面是p n n 算法来估计条件概率密度函数。 给定c 个类别的训练数据集x = “,x :,x 工。 ,其条件概率密度函数估 计为: m ,= 击誊f c 掣, c s 叫 其中x r “,盯是尺度因子,| v ,为第j 类类别的训练样本个数,通常核函数取 为: t j 2 ,( d 2 南” 代入( 3 - - 4 ) 式有: 砸= 击誊d 可e 譬 c 。吲 由( 3 5 ) 式得到数据的第,类的条件密度概率p ( 工1 w ,) 之后,根据贝叶斯 最优判断标准,则样本x 应属于类别一,如果对所有k - ,则有 辛箨科学控零
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年实验诊断学临床检验解读考试答案及解析
- 2025年全科医学高血压患者五年随访计划制定模拟考试卷答案及解析
- 2025年血液科疾病诊断和治疗能力考核试卷答案及解析
- 2025年理化专业考试试题及答案
- 2025年心血管科常见高血压急症处理模拟考试答案及解析
- 2025年砌筑工(中级)职业技能鉴定试题及答案详解
- 2025年五官科听力检测设备操作准确性评估试卷答案及解析
- 绿色供应链弹性构建与可持续发展-洞察及研究
- 家长教师培训考试题及答案
- 2025年肝病学肝脏影像学诊断与处理模拟考核卷答案及解析
- 20G520-1-2钢吊车梁(6m-9m)2020年合订本
- 中心静脉深静脉导管维护操作评分标准
- 某地区地质灾害-崩塌勘查报告
- 导尿术操作护理课件
- 推进班组信息化建设:利用信息技术提高工作效率
- 2023年上海市虹口区初三一模语文试卷(含答案)
- 优势视角课件完整版
- 花城版音乐课时15-第12课 走近戏曲(一)观赏京剧学习念白-京剧丑角的念白《报灯名》-课件
- 《食品安全法》与粮食质量安全专题培训课件
- 2023年安康市交通建设投资集团有限公司招聘笔试题库及答案解析
- 文理分科心理测试问卷
评论
0/150
提交评论