已阅读5页,还剩49页未读, 继续免费阅读
(应用数学专业论文)基于数据挖掘技术的金融风险分类预警研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:j 碴址 日期:幽殳心 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有 权保留、送交论文的复印件,允许沦文被台阅和借阅;学校可以公布沦文 的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 馨差差导师签名: 摘要 会融j x l 险预警是会融数据挖掘中的一个重要研究方向,由于金融数据具有类型多样、 关系复杂、数据动态性、数据量大等一般特征,此外还有高噪音、非讵态等特征。因此, 盒融风险预警更有挑战性。运用数据挖掘技术能够从海量的金融数据中发现隐藏在其背后 的规律,有效地降低金融机构的运营风险,因此会融风险预警有着广阔的应用价值和市场 前景。 本文的研究工作共分为六个部分,其具体的结构安排如下: 第一章首先介绍本课题研究的历史背景及意义,同时回顾了关于金融风险预警和数据 挖掘技术的国内外研究现状,并在此基础上提出了本文的研究目的与意义。 第二章在主要介绍了关于金融j x l 险基本概念及其风险预警的一般步骤。 第三章系统的分析了数据挖掘的方法及其特点,并对其在金融领域中的应用进行了分 析,通过与会融领域中传统方法的对比,证明了数据挖掘技术是可行的。 第四章重点研究了模糊聚类模型,在传统的模型上添加了聚类数c 和权指数m 的改进 方法。考虑到即神经网络模型的收敛速度慢,目标函数存在局部极小点,隐含层数和隐 节点数难以确定等缺点,本文采用增加动量项的改进b p 模型。将两种模型组合而成的混 合模型应用到在会融风险预警领域。 第五章根据第四章建立的混合模型进行了实证分析,并与卯算法分析的结果进行了 误差对比,结果表明了混合模型的优越性。 第六章是本文的最后一章,在这一章中,我们首先对本文的所有工作进行了总结。同 时,我们也指出了仍然有待解决的几个问题以及本课题今后的研究方向。 关键词:金融风险,数据挖掘,预警 a b s t r a c t t h es t u d yi np r e w a r n i n gs y s t e mo ff i n a n c i a lr i s ko c c u p i e sa s i g n i f i c a n tp o s i t i o ni nt h ef i e l d o ff i n a n c i a ld a t a - m i n i n g d u et oi t sd i v e r s i t y , c o m p l i c a t i o ni ni n t e r r e l a t i o n s h i p s ,i n n a t ed y n a m i c s a n dh u g e n e s si na m o u n t ,a sw e l la si t s n o i s i n e s sa n dn o n n o r m a l i t y , w h i c ha r eg e n e r a l c h a r a c t e r i s t i c so ff i n a n c i a ld a t a t h es t u d yo ff i n a n c i a le a r l y - w a r n i n ga p p e a r st ob e e s p e c i a l l y c h a l l e n g i n g i m p l e m e n t i n gt h et e c h n i q u eo fd a t a m i n i n gt od i s c o v e rt h eu n d e r l y i n gl a w sw i t h i n t h ei n n u m e r a b l ef i n a n c i a ld a t ac a n e f f i c i e n t l yr e d u c et h eo p e r a t i o n a lr i s k so ff i n a n c i a li n s t i t u t i o n s t h e r e f o r e ,t h es t u d yi np r e w a r n i n gs y s t e mo ff i n a n c i a lr i s kh a sa l le x t e n s i v ea p p l i c a t i o nv a l u e a n dm a r k e tp r o s p e c t t h i st h e s i si sd i v i d e di n t os i xp a r t s ,w h i c hi so r g a n i z e da sf o l l o w s : c h a p t e ro n ew o u l df i r s t l yo f f e rs o m eb a c k g r o u n di n f o r m a t i o no ft h er e s e a r c ht o p i c ,a sw e l l a si t si m p l i c a t i o n s ;a n db a s e do nt h er e v i e wo ft h ep r e s e n t s t u d y i n gs i t u a t i o ni nt h i st o p i ch o m e a n da b o a r d ,t h i sp a r tw i l lb r i n go u tt h ea i ma n di m p l i c a t i o no ft h i st h e s i s c h a p t e rt w om a i n l yp r o f f e r sf u n d a m e n t a lc o n c e p t i o n sr e l a t i n gt of i n a n c i a lr i s ka n dt h e g e n e r a lp r o c e d u r e so fe a r l y w a r n i n gs y s t e m c h a p t e rt h r e ea n a l y z e st h ef e a s i b i l i t yo fi m p l e m e n t i n gd a t a - m i n i n gi nt h ef i e l do ff i n a n c e ; b ym a k i n gac o m p a r i s o nb e t w e e nt r a d i t i o n a lm o d eo fd a t a p r o c e s s i n gi nf i n a n c i a la r e aa n d d a t a p r o c e s s i n ga p p l y i n gt h et e c h n i q u eo fd a t a - m i n i n g ,a n da n a l y z i n gt h ep e c u l i a r i t i e so f f i n a n c i a ld a t a , t h ev a l u eo f i m p l e m e n t i n gd a t a m i n i n gi nt h ef i n a n c i a la r e at h u sb e c o m e s o b v i o u s c h a p t e rf o u rf o c u s e so nt h es t u d yo ff u z z yc l u s t e r i n gm o d e l ;w h i l ea d d i n gc l u s t e r i n g n u m b e ra n di n d e xi n t ot r a d i t i o n a lm o d e ,t h i s p a r ts u g g e s t sw a y sf o ri m p r o v e m e n t s l o w c o n v e r g i n gs p e e d ,t h ee x i s t e n c eo fal o c a im i n i m u mp o i n ti nt a r g e tf u n c t i o n t h ed i f f i c u l t yi n d e t e r m i n i n gt h eh i d d e nl a y e rn u m b e rs a n dh i d i n gn o d e sa r ea l ls h o r t c o m i n g so fb pn e u r a l n e t w o r km o d e l s w h i l et a k i n gt h e s ei n t oc o n s i d e r a t i o n ,t h i st h e s i s p r o p o s e st oe m p l o yt h e i m p r o v e db pm o d e la t t a c h e dw i t ht h em o m e n t u ma n dt oi m p l e m e n tah y b r i do ft h o s et w o m o d e l si nt h ef i e l do f e a r l y - w a r n i n gi nf i n a n c i a lr i s k s c h a p t e rf i v e ,a c c o r d i n gt oc h a p t e rf o u ro ft h eh y b r i dm o d e lt oe s t a b li s ha ne m p i r i c a l a n a l y s i s ,a n dw i t ht h ea l g o r i t h ma n a l y s i sc o m p a r i n gt h er e s u l t so ft h eb pn e u r a ln e t w o r kt h e r e s u l t ss h o wt h es u p e r i o r i t yo ft h eh y b r i dm o d e l c h a p t e rs i xi st h el a s tc h a p t e ro ft h i st h e s i s ,w h i c hs u m m a r i z e st h ew h o l et h e s i s ;m e a n w h i l e , i tp o i n t so u tt h ee x i s t i n gp r o b l e m sa sw e l la si t sr e s e a r c hd i r e c t i o ni nf u t u r e k e y w o r d s : f i n a n c i a lr i s k ,d a t am i n i n g ,e a r l yw a r n i n g 目录 摘要1 a b s t r a c t :i i 第章绪论、1 1 1 会融风险研究背景1 1 2 会融风险研究现状1 1 3 数据挖掘研究现状3 1 4 研究目的与意义4 第二章金融风险介绍5 2 1 风险综述5 2 1 1 风险的定义5 2 1 2 会融风险的特征6 2 2 金融风险预警概述8 2 2 1 会融风险预警概念8 2 2 2 会融风险预警的目标和原则8 2 3 会融风险预警系统的结构9 2 3 1 预警系统的基本结构。9 2 3 2 完善金融风险预警指标体系1 2 第三章数据挖掘技术在会融领域的分析及其特点1 5 3 1 数据挖掘的基本概念1 5 3 2 数据挖掘的任务1 6 3 - 3 数据挖赫l i 常用的方法及特点1 7 3 4 数据挖掘在会融领域中的优势1 8 3 4 1 传统会融数据分析特点与问题1 8 3 4 2 数据挖掘与传统分析方法的区别1 9 第四章模糊聚类与神经网络2 0 4 1 聚类分析2 0 4 1 1 聚类分析的定义与划分的方法2 0 4 1 2f c m 聚类算法2 1 4 1 3 聚类有效降指标。2 3 4 2 f c m 算法的改进2 6 4 2 1 聚类数c 的确定。2 6 4 2 2 权指数m 的确定2 8 4 3 神经网络3 0 4 3 1 神绛i 叫络技术3 0 4 4 基十模糊聚类删神绛例络的混合模型3 7 第九章实证分析3 8 5 1 数据的p 二1 一化处理3 8 5 2f c m 算法聚类。3 9 5 3 颅警4 2 第六章总结与展望j 4 5 6 1 研究工作:4 5 6 2 不足与展望4 5 参考文献4 6 致谢4 9 武汉理i :人学硕十学位论文 第一章绪论 1 1 金融风险研究背景 金融是现代经济的核心,金融市场是整个市场经济体系的动脉。但是金融 本身具有的高风险性和在发生会融危机的连锁反应使得余融的稳定和发展至关 重要。例如起源于美国次贷危机的美国金融危机已演变成为2 1 世纪的第一场波 及全球的金融危机,这次金融危机的影响程度之深、影响范围之广可以说是史 无前例的。回顾会融危机发展史,可以发现每次危机都造成了很大危害,即使 是每次危机给所在国家造成的影响不同或者发生的情形不一样,但是这几次危 机起因几乎相同:金融机构对信贷条件的过度放松、过度违规操作的金融机构、 滞后而无效的金融监管、过于放宽的政府货币政策、透支的消费传统和低利率、 全球化自由化的经济会融等。 金融风险伴随着会融危机,长远看,危机是长期存于风险中的,只不过是 被经济发展掩盖了。会融危机的发生,也给我国及投资者造成了一定的损失, 并使我们及早地认识到会融全球化时代巨大的金融风险和余融危机的破坏力, 对于我国余融机构今后的稳健运行也带来了经验教训和启示:危机的存在需要 引起人们的重视,面对危机我们要采取一系列的措施,例如对经济制度的改进, 可以制定出更加正确的经济政策。回顾历史,我们可以发现历次金融危机多以 共同或者相似的情形发生,从历次余融危机的历史原因和解救方法上,通过对 会融系统中存在的问题,对其及时发现,并有针对性的提出解决方法。 而数据挖掘技术,可以从海量的数据中获取有用的信息和知识,具有不需要 依靠假设条件、能够处理大规模数据等优点1 。将数据挖掘技术应用到余融领域, 对会融i f f 场进行析、建模和预测,并进行风险评估和客户关系管理,为会融企业 运营提供决策支持,其具有一定的j :! j ! 警作用。 1 2 金融风险研究现状 金融j x l 险足指。定命融资产在未水时期内预j n j 收入遭受损失的町能性,也 足指f 【何午j l l j 能导敏氽, i k 或存财务损失的风险,它是存扫! 和发,l 红资会的借贷 武汉理i :人学硕 学何论文 和经营活动中的。对金融风险的研究可以分为两个方面:( 一) 从经济学的角度 出发,研究和探讨为什么会发生会融危机及其针对金融危机应该采取的对策; ( 二) 通过建立数学模型,将会融j x l 险量化。 。 其实余融危机可以说一种经济周期,作为其研究的理论基础一经济周期也 称商业周期、景气循环,它是指经济运行中周期性出现的经济扩张与经济紧缩 交替更迭、循环往复的一种现象,是国民总产出、总收入和总就业的波动,是 国民收入或总体经济活动扩张与紧缩的交替或周期性波动变化。 金融危机的频繁发生引起各国会融学界的广泛重视,很多学者或多或少地 进行了一些实证研究。例如在1 9 7 5 年,s i n d e y 首先提出什么叫金融预警,并在 此基础上形成了四代货币危机理论。随着研究的不断深人,金融危机预警的模 型也越来越契合现有的风险预警。1 9 9 8 年,k l r 模型也就是“信号法 被 k a m i n s k y ,l i z o n d o 和r e i n h a r t p 三人创建,在此基础上,1 9 9 9 年k a m i n s k y p l 对 这个模型进行了进一步的改进,改进后的模型也更加受到重视。1 9 9 6 年f r a n k e l 和r o s e p l 创建了f r 法,也就是概率单位模型。该模型的思想是:首先确定一些 监测指标,这些指标不是任何经济变量都可以,它们必须是对金融危机的发生 具有重要影响的。其次,利用对数方程,求出各变量对应的权重向量。最后, 根据求出的权重向量,对变量进行加权平均计算,从而得到会融危机的发生概 率p j 。1 9 9 5 年斯坦福大学的刘遵义教授p 1 ,针对东亚国家金融危机的发生,通 过选用一些金融指标,以“一国表现较差的指标个数总指标个数”的主观概 率分析了金融危机发生的可能性,取得了很好的成果。2 0 0 2 年m o o r t h y 、k u m a r 、 p e r r a u d i nl s i 提出s i m p l el o g i t 模型,该模型是以滞后的宏观经济和金融数据为基 础,用来对投机冲击进行预测。s a c h s ,t o m e l l & v e l a s c o 1 等人创建了s t v 法,即 横截面回 模跫,并对其模型进行了实证分析,取得了很好的效果。 会融危机的影响足连锁的,处在会融全球化的时代,我国并不能独身事外, 对余融风险预警模型的研究显得十位重要,如何建立一套适合于我国的顶警体 系也足迫切需要的,我困的学者们也为此而在不断的深入研究中。例如在预警 指丰,j :体系的选墩上的研究:1 9 9 9 年刘忠强p 1 设汁了危机颅警指标体系;同年蔡 则十f ,殷盂波提出了构造我幽金融风险监测! j 颅警系统的原则,并指出目自订我 国金融风险监测与预警机制的三个f 1 28 1 2糊 2 42 0 2 41 5 2 0 5 0 3 0 4 0 2 0 3 0 1 28 1 24 8 4 6 银行风不良贷款率 2 2 险指标 存贷款l - l t 歹0 8 5 中k j 贷款比例 2 0 ( 3 ) 数据处理 会融j x l 险预臀的信息资料米源于金融监测。通过金融监测活动取得人最有 价值的监测信息,并采用一定最化模型对监测结果进行评价分析,搜集未宋运 行念辨颅测信息和分析评价的反馈信息,将所搜集的信息进t ? l j 【ij :整理,即计 算各指标变动率或增率,编制增牢时i h j 序列、剔除不舰则,变动要素,得到整理 1 0 武汉理i :人学硕十学位论文 后的时序资料,作为预警的依据。一般数据预处理的方法有如下几种: 1 ) 极差标准化 一i - n i n x 膻) 将数据变成:l m a x e 寿三翮1 n i xv l kl m i ki 经变换所得数据x 名,其值o s x :s 1 ,且与量纲无羞 2 ) 标准差标准化, 设置一b n ,t :,) 是具有p 个属性变量的n 个样本,现对第七个变量进行 标准化,就是将数据变成,即: f x i k x k x a ki i 二生土 & 其中,i 为第七个变量的平均值,耳l j x k 。一1 罗,& 为第七个变量的标准 门舒 差,最口驴瞧k i 下。经过这样变化后,数据其每个变量的均值是为 o ,标准差为1 ,且与单位和量纲没有关系。 3 1 取对数以缩小变量i 脚的数量级 将数据变成:一i g x , k ( 4 ) 灯号显示 我们可以结合国家统计监测预警的做法,参照交通管制的方法,用蓝灯、 绿灯、黄灯、红灯信号来分别表示金融安全、会融基本安全、金融警惕和金融 危机四种不同等级的警度,直观预报不同类型的警情。与此同时,针对金融风 险的四种不同态势,对其赋予不同的分值范围,分值越高,说明会融稳定状况 越好,分值越低,说明会融风险越大,会融稳定状况越差。具体见表2 2 。 表2 2 余融状态划分 s 值安全状况风险状况金融运行状况 符项风险指标均 i :安全区内;金融1 1 j 场 8 0 s 1 0 0 金融安全 无明硅风险 稳定,金融运i j :宵序,金融 i i 管订效, 金触q k 稳健发腱。 5 0 s 8 0 金融鹾本安全 轻叟风险 箨项风险 千畅i 均 l :安全i 爱内;金融lr j 场 稳定,金融选fj :仃金融雌铃:彳j 效, 武汉理i :人学硕斗:学位论文 金触业稳健发展。 人部分金融指标恶化;人多数金融机构 2 0 s 5 0 金融警惕严匝风险有不同稃度的不良资产问题:有较多的 金融机构倒闭:货币较人幅度贬值;金 融动荡、经济衰退。 金融不安全状况累积的结果,爆发严重 s 。 ;用矩阵r “表示所有的实 c s 阶矩阵集合,令,( ,。,v :,k ) 7 e r “是聚类中心,其中v ,e r 5 是类f ( 1s isc ) 的中心,则f c m 的价值函数( 目标函数) 可表示为: 厶( “,v ) = 善善( ) i ,r0 一v 4 2 ( 4 4 ) 其中,i k v | | 2 一( 吒- - 1 ,i ,以- - v i ) ,1s 肌s + 。 b e z d e k 的定理证明,- ,v ) 是厶( 材,v ) 的局部极小值的必要条件是: 。挲坚 荟( ) f c m 算法如f : ( 4 5 ) ( i 。1 ,2 ,c ;k 。1 , 2 ,刀) ( 4 6 ) 武汉理l :人学硕十:学位论文 1 、初始化聚类别数c ( 2scs ,足数据个数) 和权指数m ,设定迭代 停止阈值,以及终止条件,如i i v ( 一1 ,( “1 忙。 2 、选择初始的聚类中心v 一 v 1 ) v ,v : 3 、根据设定的聚类中心,通过公式( 4 6 ) 计算或更新隶属度函数: 4 、用计算出的隶属度函数,通过公式( 4 5 ) 更新计算各类聚类中心: 5 、当终止条件满足时,算法停止,反之继续重复步骤( 4 5 ) 和( 4 6 ) 的 运算,直到满足终止准则。 由以上算法不难看出,整个计算过程就是反复修改聚类中心和分类矩阵的 过程,因此也常称这种方法为动态聚类或逐步聚类法。 4 1 3 聚类有效性指标 对k m e a n s ,f c m 等基于划分的聚类算法,如何根据数据样本自身的特点 自动确定最佳聚类数c 是非常有意义的研究【3 1 | ,至今研究人员提出了各种有效 性指标函数用来在给定的范围内选择合适的聚类数,如最早的和k ,x i e 和 b e n i 于1 9 9 1 年提出的基于“紧凑度”和“分离度”比值的有效性指标以,等,这 些基于几何结构的聚类指标的理论基础就是类内应该是紧凑的,类问是分离的。 下面分别对一些常用的基于模糊划分聚类指标进行介绍: ( 1 ) x i e - - - b e n i 有效性吲 c ,c ,= 焉搿 其中函数,2 吉荟善甜z l l c l - x k l l ”是用束衡量类内紧凑度的,其值越小越好, 函数j 。;。一m i n i | ic ,一c j l l 用来衡最内问的分离度数,值越大越好,圪,c , c ) 就是 伍紧凑度和分 咖i - 、f 度之i n j 找一个r 平衡点,使其达剑最小,以捩得最f 【f 的聚类结果。 ( 2 ) f l l k u y a m a s u g e n ( ) 有效。t t - 巧、1 3 3 i _ 、( u ,c ,c ) t 砉砉甜篡( i i - 一c ? 1 1 2 一l i ( ? 一虿o :) 其中,一c 。! 萝c ,_ 、( 乙,( ,c ) 足类内紧凑度tj 类l 日j 分离度的差,最小的 2 3 武汉理1 :人学硕十学何论文 杉n 妙,c ,c ) 对应于最好的聚类结果。 ( 3 ) r h e e h o 有效性 妙,c ,c ) 一 丽:而2 ) n 刍- i 。;n ,套d 2x j ,托h d 2 ( x j ,th : l 其中,w l = m i n 协, ,w 2 - m i n m a xu 。, m p a ,xu 。- 。妙,c ,c ) 也是类 内紧凑度与类间分离度的比例。一 毫d 2 k ,丘h 用来衡量类 内紧凑度,其值越大越好,函数丁一嘉薹。善n ,2 k ,置k 用来衡量类问的分离 度,其值越小越好。因此越大的妙,c ,c ) 代表越好的聚类结果。 ( 4 ) r e z a e e - - l e t l i e v e l d t r e i b e r 有效性r 1 3 5 1 y 赢月( u ,c ,f ) 一口口,( c ) + d i s ( c ) 其中:a d i s ( c 。x 2sc 。;。 c 。 行) ,;。* nc 。是最佳类数c 选择范围 口,( c ) 一 御仃( g 】1 0 0 ( x l l 这罩:。( c f ) 一p ( c i 。) 口( c :) ,仃( c ,。) ) ,口( c 妒) 一专薹( 一q ) 2 口( x ) = b ( _ ) ,口( :) ,口( 以) ) ,仃似,) = 专塞即一巧) 2 跳一d m a x 毫:c , 、一l - ( 川) 这咀:d m i n lm i n6 , - ( ,l | ( f ,阶d ,d 。m ,a x 忙- ( 川( ,d 2 4 卟 七 y 角 一2 1一 小m v 智 一“= 、 一一2 一 一,i、 一 武汉理l :人学硕十学何论文 & 讲( c ) 表示类内紧凑度,更小的口,( c ) 意味着更紧凑些。d 括( c ) 表示类问 分离度,权重因子a d i s ( c 。) 用来补偿口,( c ) 和d 括( c ) 之问的度量差别。最小 的凡对应最好的聚类。 ( 5 ) s u n h - s w a n g q j i a n g 有效性附1 3 6 1 珞附p ,c ,c ) 一 其中:讲0 ) 的定义见月,s e p ( c ) 一 黝( c ) + 砑s e p a ( c ) 、一1 一q l l l 1 巩。和d 舳。的定义见月,k 时是对凡的改进,同样最小的k 附对应最 好的聚类。 ( 6 ) d a e w o nk i m 有效性吃吲 ( u ,c ,c ) 一弋o v e r 丽l a p x ( u , c ) 其中:们p 却( u ,c ) 一丽o v e r 面l a p ( _ u , c ) o v e r l a p ( u ,c ) 一 仃g :巧,亏) 碉1 荟。善。;善n 仃b ,躬 f lf , ,r b ,) 矿b 巧b ,) “卢玎d l0 0 o t h e r w i s e 酬吣掣 瓦,i 比,) b 巧b 屉“j 却( ) 小嘶 噼m i n x ) ( x ) ) 】 o v e r l a p n ,c ) 表示类内紧凑度,s e p 、,c ) 表示类问分离度。最小的。对 应最好的聚类。 g 。y 角 。孓智堕屹 武汉理i :人学硕+ 学位论文 4 2 f c m 算法的改进 虽然f c m 算法已得到人们广泛的、高效性的应用,但是此类算法也还存在 着以下弱点: ( 1 ) f c m 算法是聚类分析中的一种划分方法,不管数据集在特征空间中 是否存在自然结构,给定一个分类数c ,就输出数据集的c 划分。因此算法存在 一个不合理的假设:待分析的数据集是可聚的。 这个不合理的假设的存在使得现有的f c m 算法不分析数据集的可聚性,而 硬性对数据施加一定的隶属关系,这就造成了数据在特征空间内的分布是均匀 的,不存在任何聚类结构。因此很难对聚类结果做出合理的解释,也就无从揭 示数据中包含的信息,进而帮助用户产生新的观念,形成新的假设。 ( 2 ) f c m 算法中,聚类数c 要求事先给定,以方便它需要有关数据集的知 识,从而影响聚类算法的无监督学习,另一方面存在聚类结果的有效性判别问 题,包括分类的j 下确性和聚类数目的合理性。 ( 3 ) 现有的f c m 算法只能检测类内紧致、类i 日j 较好分离以及球形聚类子 集。这使得f c m 算法不能直接检测不规则的模式子集。 ( 4 ) 对于加权指数m ,它是一个控制算法的柔性的参数,如果m 过大,则 聚类效果会很次,而如果m 过小则算法会接近h c m 聚类算法。但是在f c m 算 法中,加权指数的确定常是通过研究者的经验来确定。由于缺乏理论指导,对 于该算法,要想得到好的聚类结果,则需要花费很长时问选择参数。 ( 5 ) 在f c m 算法中,它的目标函数存在许多局部极小点,当算法的每一 沿着目标函数减小的方向进行的一步一步迭代时,一旦初始化是落在个局部 极小点附近,就可能使算法收敛到局部最小值,这在聚类数比较大的情况下尤 其突出。 根据以上讨论,本文引入对聚类数c 和加杖指数m 的改进,从而提高f c m 算法的有效性。 4 2 1 聚类数c 白勺确定 对于f c m 算法中聚类数的确定,通常是采川试凑法,但是这种方法缺乏科 学依锯,会导敛聚类结果的土脱性和随意惟。山于实际l 口j 题中样本量人,聚类 数f 无法有效地确定,如果聚类样本过人时,需嘤消耗人精的窄i h j 和时问,并且 武汉理i :人学硕 学何论文 聚类有效性是用来衡量各聚类之l 日j 的独立性和聚类模式的紧密性。本文采用 三骞斛川1 2 “m p s e p - # c 。唧一吉毫鼽i i x , 叫i 2 称之为聚类的紧密性【弼l ; s e p = ( d 。;。) 2tm i ni v ,一v , i 2 j ( 4 7 ) ( 4 8 ) 数的最小化,当s 印增大时,( d 。;。2 随之变大,si g d 、。从而对s 的最小化就实现 将上跏唧重新定姚c o m p 一丢1 喜扣掣 9 , 将上述,印重新定义为: 一一罗罗仃膻监b 一 ( 4 9 ) 刀子= f 聋= 彳“店 其中,函数口庸= 器篓主7 一,作用是删除一些不需要的数据,的 变化是为了加强紧密性。此时,甜詹的变化方向就与c 一致,即u ,。越大,模式与 聚类中心v ,越接迥,此时,印的变化方向也与s 一致,当都足减小时,就代表 贝。s 重新定义为:s 三毒群 。4 。, m l nm u0 2 7 武汉理i :人学硕十学位论文 则通过新的s 确定c 算法为:( c 初始值为2 ) : ( 1 ) 初始化聚类中心m ,f = 1 ,2 ,c ; ( 2 ) 迭代次数p ;0 ,计算各个数据到聚类中心的距离以,计算隶属函数 矩阵u ( o ) = ( 甥) ,其中,一1 2 ,c ,ka 1 ,2 刀,约束关系为( 4 3 ) 。 ( 3 ) 再次计算c 各聚类中心v ,f 一1 , 2 ,c ; ( 4 ) 再次计算隶属函数矩阵u ; ( 5 ) 计算目标函数出( 甜,v ) ,如果i 出( 1 d ,v ) 一出- 1 ) ( ,v ) i s 占,迭代结束, 否则,p p + 1 ,继续步骤( 3 ) ; ( 6 ) 若s 达到最小值,过程结束,反之c c + 1 ,继续( 1 ) 。 4 2 2 权指数m 的确定 权指数m 的引入必然会对f c m 算法的聚类效果产生影响,最直接的影响是 把数据集的硬划分扩展为模糊划分,而取不同的n l 值就会产生不同的模糊程度 的数据划分。因此,选择得合适与否,直接关系着是否会使妙,xj 成为f c m 的 解。其中妙,x ) 是一个特殊的不动点,x 。y :x k 肪,当f c m 算法收敛于该不 、 7么一r。l , 动点,此时数据集的划分只有唯一的一个类,并且质心作为其聚类中心,此种 情形意味着f c m 将失去其聚类划分的实用性。 加权指数坍作为f c m 算法的一个重要参数,它不仅统一了f c m 算法和 h c m 算法,决定了聚类的模糊程度,控制了样本在空间的分享程度,抑制了噪 声,而且还影响着目标函数的f u l 凸性及算法的收敛性等方面。理论上讲m 的取 值范围为1 1 ,l ,但是,在讨论聊可行解两端的情况,我们有如下定理: 定理4 1 :对于me 1 ,+ ) 的f c m 算法,存在以下情况: ( 1 )当,一1 时,f c m 算法变成了肌m 算法; ( 2 )当朋一1 + 时,凡1 m 算法以概率l 退化为肌m 算法; ( 3 ) 当掰_ + o o 时,凡m 算法失去划分功能,有u - - ,j = 1 i c 。 既然力权指数聊的选取对f c m 算法有着雨嘤的影响,而i 要调用心m 算 法进i 模糊聚类义必须得给参数m 赋一个合适的值,| 大j 此m 得优选l u j 题变得很 钉意义。本义将介缁,种琏j 二h 卡,j i 函数拐点的办法水扶墩棚的最优值。并u 说 武汉理i :人学硕十学位论文 明脚的最佳取值也可能不在人们所常定的区l 日j 1 5 ,2 5 内。 那什么时候的加权指数是最好的呢? 通过上述可以直到有效函数s 可以由 。式( 4 9 ) 确定,同样对于m 的确定归结于聚类的有效性f j 题。 定义矩阵e 为:e 一蹇垒寨 甲 c 4 - , k ,( c ) 是矩阵e 的最大特征值,已证明的结论如表4 1 : 表4 1 妙,;) k ( e ) 0 5 且黔1 勘三。( e ) 稳定不动点 k ,( c ) 0 5 1 卜稳定不动点 由表4 i 我们可以直接得出一个选取权指数朋的新方法:当k ,( e ) j v t l y l + e l 汀) 计算网络输出矢量与训练队的期望输出矢量问的误差: 设误差评价函数为平方误差,如下: e 一三军( ,一z ,) 2 一三军( ,一厂( ;只+ 研) ) 2 ;互1 罩( 。一厂( ;( ;+ q ) + 研) ) ( 5 ) 调整连接权值 由。一,7 警,屹。叩警对连接权值进行修订: d d v ,( 七+ 1 ) 一v ,( 七) + k ( 七)( 七+ 1 ) 一( 七) + ( 七) 其中r l 为学习率。学习率是很重要的参数,它和负梯度的乘积决定了权值和 阈值的修正量,学习率越大,调整步伐越大。学习率过大,算法会变得不稳定: 学习率过小,算法收敛的时i 日j 会增加。 循环利用p 个学习样本重复( 2 ) ,( 3 ) ,( 4 ) ,( 5 ) 步,对网络权值修正, 直至整个训练集误差最小( 网络达到稳定状态) 。 传统的b p 算法虽然在诸多领域得到广泛的应用,也取得了一定的成效,但 在实际应用中有时处理结果并不理想,还有诸多问题。究其原因,主要是b p 网 络还存在许多固有的缺点,这不只是多层丽向b p 的问题。 1 b 尸算法的学习速度慢,其原冈主要有: ( 1 ) h t t 于8 尸算法本质i 二为梯度下降法,而它所要优化的目标函数又非常 复杂,凶此必然会_ 现“锯衡形现象”,这使得即算法低效。 ( 2 ) 存在麻痹现象。由于优化的 i 标函数很复杂,它必然会在神经元输 j 接 近0 或1 的情况1 - t p , 现一些平【遥。在这止哇区域内,权值误差改变很小,使训 练过程几乎停顿。 ( 3 ) 为了使网络执行8 尸算法,刁i 能用传统的一维搜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某石油厂危险作业管理制度
- 2026中铝数为(成都)科技有限责任公司社会招聘考试备考试题及答案解析
- 2026银川北塔中学临聘教师6人考试参考题库及答案解析
- 华海清科股份有限公司2026届校园招聘考试参考题库及答案解析
- 2026广东珠海市香洲暨大幼教集团新城园区(新城幼儿园)合同制工作人员招聘2人笔试参考题库及答案解析
- 2026山东菏泽鲁心医院人才招聘17人考试备考试题及答案解析
- 2026四川凉山州西昌市文化馆招聘群文活动辅助人员1人笔试参考题库及答案解析
- 2026安徽省建筑设计研究总院招聘74人考试参考题库及答案解析
- 2026年上半年四川事业单位统考省退役军人事务厅招聘30人笔试参考题库及答案解析
- 成都市温江区 下属事业单位2026年上半年公开考试招聘工作人员(24人)笔试参考题库及答案解析
- 工商管理专业 酒店业人力资源流动管理分析
- 船舶机舱监控系统教学课件
- 外国文学史(下)-马工程
- 住院医师大课-糖尿病病人的麻醉-罗贞
- GB/T 42061-2022医疗器械质量管理体系用于法规的要求
- 丁往道英语写作手册课件
- 创新型城市建设的工作思路课件
- EHS有感领导(培训)
- 化工过程数值模拟及Aspen-Plus软件应用
- 苏教版一年级科学下册全册教案(常用)
- 2008年全国中学生生物竞赛(试卷及答案解析)
评论
0/150
提交评论