(机械电子工程专业论文)基于模糊聚类算法对心电数据典型特征分类研究.pdf_第1页
(机械电子工程专业论文)基于模糊聚类算法对心电数据典型特征分类研究.pdf_第2页
(机械电子工程专业论文)基于模糊聚类算法对心电数据典型特征分类研究.pdf_第3页
(机械电子工程专业论文)基于模糊聚类算法对心电数据典型特征分类研究.pdf_第4页
(机械电子工程专业论文)基于模糊聚类算法对心电数据典型特征分类研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着科学技术的迅速发展,数据量急剧增加,数据的时间性和复杂性远远超 过目前人们所掌握的数据处理能力和发现知识的能力,这是廿一世纪面临的挑战 和显现的重要特征。由于人们产生数据和搜集数据的能力迅速提高,而处理能力 相形见拙,出现了“数据爆炸”或“信息爆炸”的危机局面。于是,需要有抛弃 冗余信息相应的数据的要求,希望尽可能减少甚至免除低层次上的数据处理和分 析,在高层次上直接获得数据的知识。 应该着重指出,虽然当今的信息社会充斥着各类海量的数据,尤其在某些情 况下,其中有用的数据只占了很少的一部分,如何从大量的冗余数据信息中提取 有用的信息并把它转化为知识是本文研究很有实用意义的课题。 聚类分析足降低数据复杂性的有效方法,也是有利于稀有数据及时知识化的 有力手段,可用在生物科学、医学、会融、电信、商业和科学研究等诸多领域。 稀有数据是指它本身的数据量占有总体数据中的比例极小,但富含有用的信息, 因而具有很高的研究价值。是否能对稀有数据进行有效的知识化是评判一种聚类 方法是否有效的重要标准。 模糊聚类算法试图模拟人类区分模式和获取知识的方式。不同于以往的聚类 算法,模糊聚类算法是模糊数学和聚类算法的结合,在聚类过程中它对样本的划 分不再是绝对的,而可以是模糊的,不确定的,因而使算法有弹性,能有效提高 抗干扰的能力,也就更适用于稀有数据的分类。 文中算法以美国麻省理工学院的成熟心电数据库m i t b i h 为检测算法有效 性的对象,在如何提高聚类的总体准确率及对稀有数据的分辨率方面进行了深入 的研究,首先对q r s 波的精确定位过程未采用小波检测算法,而是根据心电规 律采用了差分结合多特征模式识别及统计方法,不仅在检测过程中不需要进行信 号预处理,而且达到了很高的精度,与m i t 准确注释相比其准确率较高。然后 由每个q r s 波群提取的2 6 个典型特征组成了聚类所需的特征矢量。在聚类结构 上采用加入法结合基于目标函数的模糊聚类方法。最后的结果表明本方法在聚类 的总体准确度方面有较大改善,对稀有的病理数据具有较高的捡出率。 全文共分为五章: 第一章:课题的研究背景,研究范围,问题的提出; 第一二章:模糊聚类分析; 第三章:模糊聚类算法设计; 第四章:心电信号基本特征; 摘要 第五章:模糊聚类算法应用; 第六章:总结了本文的模糊聚类算法在心电自动分析应用中的不足及改进方 案。 关键字:模糊聚类分析,数据知识化,心电图数据,稀有数据 n a b s t 阳c t a b s t r a c t a ss c i e n c e sa n dt e c h n o l o g i e sa r eu n d e rv i g o r o u sd e v e l o p m e n t ,d a t as i z ea r e s h a r p l yg r o w i n g ,b o t ht h et i m i n ga n d t h ec o m p l e x i t yo fd a t aa y eb e y o n dt h ec a p a b i l i t y o ft h et e c h n o l o g yo fd a t ap r o c e s s i n ga n dk n o w l e d g ed i s c o v e r y n o w a d a y sw eh a v e t h i si sab r i l l i a n tc h a r a c t e r i s t i co f2 1 t hc e n t u r ya n dw h i c hp o s e dag r e a tc h a l l e n g et o t h ed e v e l o p m e n to fo u rc i v i l i z a t i o n t h es oc a l l e d “d a t ae x p l o s i o n o r i n f o r m a t i o n e x p l o s i o n i se m e r g e db e c a u s et h ec a p a b i l i t yo f d a t ap r o c e s s i n gi sd w a r f e db yt h o s e o fd a t ap r o d u c i n ga n dd a t ae o u e e t i n g t h u st h e r ea 1 c r e q u i r e m e n t st oa b a n d o n r e d u n d a n td a t aa n de x p e c tt or e l i e v ef r o mp r o c e s s i n ga n da n a l y z i n gd a t ao nl o wl e v e l , t h e na c q u i r ek n o w l e d g eo n ar e l a t i v eh i g hl e v e l w ew a n tt om a k ei tc l e a rt h a te v e nd a t aa r ee x t r e m e l yp l e n t i f u l ,t h o s eu s e f u la r e i nl i t t l ep r o p o r t i o ne s p e c i a l l yu n d e rc e r t a i nc o n d i t i o n s i ti sas u b j e c tf u l lo fs i g n i f i c a n t m e a n i n gt od r a wu s e f u lr a r ed a t af r o md a t aw i t hr e d u n d a n c ya n dt h e nt oo b t a i nn o v e l k n o w l e d g eb yt h e m c l u s t e r i n gi sa ne f f e c t i v em e t h o dt o r e d u c et h ec o m p l e x i t yo fd a t a ,a n da p o w e r f u lm e a s u r et ot r a n s f e rr a r ed a t ai n t ok n o w l e d g e ,i ti sa p p l i e ds u c c e s s f u l l yi n m a n yd o m a i ns u c ha sb i o l o g i c a ls c i e n c e s ,m e d i c i n e s ,f i n a n c s ,t e l e c o m ,c o m m e r c ea n d s c i e n t i f i cr e s e a r c h e se t c r a r ed a t ar e f e rt ot h o s ed a t ah a v er a r ep r o p o r t i o ni nw h o l e d a t aw h i l et h e yc o n t a i nv a s tu s e f u li n f o r m a t i o n h e n c ei sv a l u a b l ef o rr e s e a r c h i ti sa i m p o r t a n tp r i n c i p l et oj u d g ew h e t h e raa l g o r i t h mi se f f e c t i v eo rn o tb yi t sc a p a b i l i t y t ot u r nr a r ed a t ai n t ok n o w l e d g e f u z z yc l u s t e r i n ga l g o r i t h mt r i e st os i m u l a t et h ew a yh u m a nr e c o g n i z i n gp a t t e m sa n d a c q u i r i n gk n o w l e g e s f u z z yc l u s t e r i n ga l g o r i t h m i sac o m b i n a t i o no ff u z z y m a t h e m a t i c sa n dc l u s t e r i n g ,i ta l l o w se a c hs a m p l en o th a st oa t t a c ht oac e r t a i nc l a s s d u r i n gc l u s t e r i n gp r o c e s sa n dt h er e l a t i o nb e t w e e ns a m p l ea n dc l a s sc o u l db ev a g u e w h i l em o s tt r a d i t i o n a lc l u s t e r i n ga l g o r i t h mc l a i me v e r ys a m p l es h o u l da b s o l u t e l y a t t a c ht oac e r t a i nc l a s s ,w h i c hm a k et h ef u s s yc l u s t e r i n ga l g o r i t h mf l e x i b l ea n d i m m u n et om a n yd i s t u r b a n c e s ,t h u st h ef u s s yc l u s t e r i n gi sm o r ea d a p t i v et op a t t e m r e c o g n i z eo fr a r ed a t a t h ef u z z y c l u s t e r i n ga l g o r i t h mb a s e do no u ri n v e s t i g a t i o nt a k e st h ef a m o u s m i t b i hd a t a b a s ea st h em e a n st ot e s tc l u s t e r i n gp r e c i s i o na n dt h ep e r f o r m a n c eo f a b s t r a c l d e t e c t i n gr a r ed a t a i ti sm a d eu po f t h r e em o d u l e s - - t h eo r sl o c a t i o ns e a r c h i n g m o d u l e ,t h ec h a r a c t e rd e t e c t i n gm o d u l ea n de c gi n f o r m a t i o nc l u s t e r i n g m o d u l ea sw e l l i nt h eq r sl o c a t i o ns e a r c h i n gm o d u l e w ed i d n ta d o p t w a v l e td e t e c t i n ga l g o r i t h m ,h o w e v e rw ec o m b i n ed i f f e r e n c ed e t e c t t e c h n o l o g yw i t h s t a t i s t i cm e t h o dw h i c he v e n t u a l l yp r o v i d eq u i c ka n d a c c u r a t eq r sl o c a t i o ns e a r c h i n gp e r f o r m a n c ew i t hg o o da c c u r a c ya f t e r c o m p a r ew i t hm i tc o m m e n t i nt h ec h a r a c t e rd e t e c t i n gm o d u l e ,w ep i c k e do u t 2 6t y p i c a lc h a r a c t e r sf r o m e a c hq r sw a v ew h i c hf o r mav e c t o ru s e db y c l u s t e r i n gm o d u l et oe v a l u a t e d i s t a n c eb e t w e e ne a c hs a m p l e a n di nt h e c l u s t e r i n gm o d u l e ,w ea d o p t e dt h es t r u c t u r eo fa d dc l u s t e r i n gc o m b i n e d w i t hf c m ( f u z z yc - m e a n s ) ,t h e nw ef i n dw i t ha 1 1t h o s ea b o v ee f f o r t sw ec a n a c h i e v eh i g hp r e c i s i o na n dg o o dp e r f o r m a n c eo fr a r ep a t h o l o g i c a ld a t a c l a s s i f i c a t i o nd e t e c t i n g t h et h e s i sw a sc o n s i s to ff i v ec h a p t e r sa sf o l l o w s : c h a p t e ro n ei n t r o d u c e st h eb a c k g r o u n d ,a r r a n g eo ft h i sp r o j e c ta n d p r e s e n t a t i o no fs t u d y i n gp r o b l e ma sw e l l t h es e c o n dc h a p t e rw a sf u z z yc l u s t e r i n ga n a l y s i s t h et h i r dc h a p t e rd e s i g nf u z z yc l u s t e r i n ga l g o r j t h m t h ef o u r t h c h a p t e rp r e s e n t s a ne n s s i c i a lc h a r a c t e r so f e l e c t r o c a r d i o g r a ms i g n a l t h ef i f t hc h a p t e rt a l k sa b o u ta p p l i c a t i o n so ff u z z y c l u s t e r i n g a l g o r i t h m ,a n dg i y e sa na n a l y s i so nt h er e s u l t f i n a l l y ,w et a k ea1 0 0 ko nt h ed e f i c i e n c yo ft h ea l g o r i t h ma n dg i v e s o m ev i e w p o i n ta b o u ti m r p v i n gi nf u t r e k e y w o r d s :f u z z y c l u s t e r i n ga n a l y s i s ,d a t ak n o w l e d g ed i s c o v e r y , e l e c t r o c a r d i o g r a p h d a t a ,r a r ed a t a i v 学号2 0 4 0 8 0 9 3 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝姿盘鲎或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 钠懂耷 签字日期:加年f 月fj 日 学位论文版权使用授权书 本学位论文作者完全了解迸鎏盘堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权逝姿i 垦鲎可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:岔1 乜露障 导师签名: 阳珊 签字同期:年月 日 签字日期: 以年o - 月9 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 绪论 第一章绪论 1 1 研究背景 早在1 9 8 2 年1 “,趋势大师约翰奈斯比( j o h n n a i s b i u ) 在他的首部著作大 趋势( m e g a t r e n d s ) q b 就提到:“人类正被信息淹没,却饥渴于知识。”计算机硬 件技术的稳定进步为人类提供了大量的数据收集设备和存储介质;数据库技术的 成熟和普及已使人类接触和积累的数据量正在以指数方式增长;i n t e m e t 技术的 出现和发展已将整个世界连接成一个地球村。二十一世纪的标志性问题之一是数 据量的极大增长,其增长速度大大超过人们现代化的处理能力。面对着浩瀚无垠 的信息海洋,人们呼唤着一个去粗取精、去伪存真的能将浩如炯海的数据转换成 知识的技术,有人称为数据知识化( k n o w l e d g ed i s c o v e r y ) 。海量增长的数据充 满着我们的现实生活,科研机构,政府部门和企业,在许多情况下,这些数据中 只有一小部分将被使用,因为有可能数掘量太大,难于管理和利用,不能即时分 析,传统的考虑方法重视数据的存储效率,没有很好考虑有用信息如何使用和分 析。 实际上,海量的数据必然隐藏着丰富的信息,这对任何一个领域都是一种潜 在的资产。当今的竞争焦点首先是获取海量数据,然后是力求快速有效地提取隐 含信息,尤其是稀有数据的隐含信息力求及时实行数据知识化。 1 1 1 面向知识应用的数据处理 从理论上说1 2 1 ,数据处理,有人称为数据挖掘就是在操作者的主动参与下 进行的知识发现的过程。但是,数据处理或挖掘是有不同内涵的。这是在积累了 大量的经验和方法学后,从数据中识别出有效的、新颖的、隐含的、最终可以理 解并加以有目的运用的知识,是信息化社会发展到一定程度的必然产物,是从宏 观角度利用积累数据进行知识抽象的高级阶段。数据处理技术具有如下特点: ( 1 ) 过程特点。数据处理的主体是具有一定知识背景、知识结构和知识创新 能力的“算法”,动态和静念的信息资源是数据处理过程中知识运用的基础和载 体。利用已有信息资源、结合背景知识、借助计算工具、实现已有信息资源的分 解和综合,是面向知识运用的数据处理技术的主要特点; ( 2 ) 结果特点。数据处理的结果,是从经验着手,经过思考、选择、决策和 绪论 应用数学方法,通过算法设计对信息进行“聚类”形成的“产物”,而不是通过 简单继承或信息过滤得到的由信息堆积而成的。 ( 3 ) 环境特点。鉴于数据处理知识背景和知识结构的不同,知识化必须提供 一种高度柔性的和进一步可以实行机器学习的应用工具,提供数掘处理运用自身 知识的空间和环境。 ( 4 ) 资源组织特点。数据处理的结果,除新的信息资源外,更主要的是新的 信息组织模式和结构。 识别和提取数据中隐含信息的任务就是发现隐藏在数据中的模式i l 】。其可以 发现的模式一般分为两大类:描述型( d e s c r i p t i v e ) 模式和预测型( p r e d i c t i v e ) 模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般 特性;预测型模式则是以时问为关键参数,对于时间序列型数据,根据其历史和 当前的值去预测其未来的趋势。根据模式特征,可将模式大致细分如下: ( 1 ) 分类模式( c l a s s i f l 雌t i o n ) 分类就是构造一个分类函数( 分类模型) ,把具有某些特征的数据项映射到 某个给定的类别上。在分类之前,要划分的类别是已经初步确定的,并可以通过 机器学习自动增加或更新。通常分类模型是以分类规则、决策树或数学表达式的 形式给出的。 ( 2 ) 聚类模式( c l u s t e r i n g ) 聚类就是将数据项分组成多个类或簇,类之| 日j 的数据差别应尽可能大,类内 的数据差别应尽可能小,即为“最小化类问的相似性,最大化类内的相似性”原 则。与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预 先定义的类和带类标号的训练数据集的非监督( u n s u p e r v i s e dl e a m i n g ) 算法, 无需背景知识,其中类的数量由系统按照某种性能指标自动确定。 ( 3 ) 回归模式( r e g r e s s i o n ) 回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预 测值( 例如类标号) ,而回归模式采用连续的预测值。 ( 4 ) 关联模式( a s s o c i a t i o n ) 关联模式是数据项之间存在的关联规则,是在同一事件中出现的不同项之 间的相关性。 ( s ) 序列模式( s e q u e n t i a l ) 序列模式是描述基于时问或其他序列的经常发生的规律或趋势,并对其建 模。 ( 6 ) 偏差模式( d e v i a t i o n ) 偏差模式是对差异和极端特例的描述,如聚类外的离群值。 绪论 1 1 2 聚类分析算法及简介 根据聚类分析的目的可以分为定性分析和定量分析,定性分析只需要知道 信息中各成分的结构和比重以及类似的一些统计结果,对聚类的准确率没有较高 的要求;在定量分析的情况下,需要对某类样本进行分析,所以对聚类分析结果 的准确率提出了较高的要求。在这里聚类分析结果的准确率包含两部分的内容, 其一是指所分的类别数量正确;其二是指样本的划分准确。当类别的数量不正确 时必然导致某些样本划分的不准确。 稀有数据是指在总体的信息中占有很少比例的组成成份,但这部分成份往 往包含了重要的研究价值,例如,在心电数据中,只有很少一部分的心搏属于病 理信息,全体心搏的大多数样本往往属于正常心搏,这种心搏是不含病理信息的, 所以能否对稀有数据进行有效聚类是判别一种聚类算法准确程度的重要标准之 一,有的聚类算法虽然总体的准确率较高,但如果对稀有数据的捡出率不高的话, 这样的聚类算法在稀有数据占主要内容的情况下,其实际应用价值并不大。 本文在过去心电图模式识别和特征提取研究成果基础上1 2 ”,考虑到稀有数据 分类算法研究必须采用某种标准测试数据进行有效性、精确度等性能测试这正好 把两者结合起来将本文的研究:t :作得到更有效的开展。为此,在文中将利用 m i t b i h 数据库对如何提高聚类分析的总体准确率同时也包括稀有数据的捡出 率方面可作深入的研究和细致的探讨,并争取在以下几个方面都能达到具有较高 的水平: 1 特征的选择和定义,信息的特征一般都是很多的,特征的选取应满足以下几 个原则i j 刮: 所选的特征变量不尽满足稀有数据分类,而且尚能够提供给足够的辅助诊 断信息; 灵敏地稀有数据分类,并能反映在辅助诊断上有意义及可检测的波形信 息; 减少特征变量之间的相关性; 对测量误差和噪声不敏感; 在保证分类精度的前提下,减少特征变量的维数。 2 特征的币确提取; 3 聚类方法的系统误差较小; 4 聚类参数的最佳确定,包括特征加权系数。 绪论 1 1 3 聚类方法的基本原理 到目前为止聚类分析已经形成了许多种算法加上各种算法的变种1 3 , 7 川】,则更 是不胜枚举,以下将提出与本文研究有关的几种比较重要的算法: 1 聚合法 聚合法在初始时认为各样本自成一类; 然后计算样本之问的距离( 距离的定义有很多种) ,将最近的两样本并成 一类; 计算新类与其余各类的距离( 这里涉及到类与类之间的距离计算,这种距 离定义也有很多种) ,再将距离最近的两类合并,当现存的类别数大于预定的 类别数时继续重复上述步骤。 2 离差平方和法 这种方法由w a r d 首先提出,其思想来自方差分析,如果类分得正确, 同类样本的离差平方和应较小,而类之间的离差平方和应较大。设从第一个 母体中抽取了仇个样本,从第二个母体中抽取了玎:个样本,依次类推从第p 个母体中抽取了行。个样本,各母体中抽出的样本的均值分别是i ,x 一2 ,x p 即 i = f - 1 扣,p ( 1 - 1 ) 则各个母体内的离差平方和之总和为: = ( 一i ) 2 ( 1 _ 2 ) 各母体间的离差平方和为: b = _ ( i 一刁2 n o e n = i = 亡( 1 - 3 ) p 1 p ? t tp lr = l,= l = 1 以及在方差分析中有 ( 一i ) 2 = w + b ( 1 - 4 ) 如果各母体间有显著差异,b 应较大,w 较小。将这个思想用于聚类分析中, 就是在归类时设法使w 尽可能地小,相应的b 尽可能地大。设将n 个样本分成 k 类,g 。,g :,g 女,用x 。表示g ,中第i 个样本( x 。为m 维向量) ,_ 表示g 的 样本个数,i 是q 的重心,则在g f 中样品的离差平方和为: s ,= ( 矗一i ) 7 ( b i ) ( 1 5 ) 总的类内离差平方和是: 4 s 2 ( x 。一i ) ( 矗一i ) = z s ,= d 2 帅) ( 1 - 6 ) 考虑到将n 个样本分为k 类,可能的分法有: w ) = 去扣广” ( 1 ,) 可知当n 或可较大时,要选出最小的s 是不可能的。只能有相对较好的解,即局 部最小解: 由 d 2 。= - r l p - r l ql _ 一瓦) ( 乃一i ) ( 1 - 8 ) 以及递推公式 :竺盟d 2 妒+ 三盟d z 幻一! l d z 。( 1 - 9 ) n r + r l k n r + n kn r + n k 其v p n v ,厅, 分别为g ,g q ,g ,g 的样本数,每次聚类过程都要使类内离差 平方和f 式1 - 6 ) 的增量最小。 3 爬山法 爬山法可以视为改进的离差平方和法,记离差平方和的解g 。,g 2 , - - , g ;所对 应的离差平方和是s ,s 2 ,s 。,目标函数为s = s ,( 式1 6 ) 。用1 ( t ) 表示 样本x ,所属类的编号,对某个类“l ( t ) 。如将x t 从g ,【,划分到g 。中,将对s 产 生微小的变化,这个变化可以用下式来表达: 设将x ,从g m ) 中去掉,用s ,( ,) 表示自g ,( f ) 去掉i t 后相应的离差平方和,i ( ,) 表示g ,( n 的重心,取g ,= g 。( ,) ,g p = ) ,g g = g 柙) 一) 代入式( 1 8 ) 得 强,) - 希( x t ( ) ) ,( 矿w ( 1 - 1 0 ) 现将一:j n x 多j g 。中,相应得离差平方和由s 。变成s :,类似可得: 瓯= 瓯+ ( 一一瓦) ( 一一瓦) a s = s 而+ - s t , ) - s 。= q + u1 ( 一一副( 矿瓦) 一希( 一电,) ) 融r 吨一 ( 1 1 2 ) 若a s 0 表明x ,放在原类比放在g 。中好;反之,若s 巩,令k k = ,回到步骤。 1 2 研究范围 数据处理的关键技术有: ( 1 ) 实时数据流在线分析、数据库系统或数据仓储数据分析; ( 2 ) 机器学习; ( 3 ) 统计和数据分析方法; ( 4 ) 可视化技术; ( 5 ) 数学规划; 6 ( 1 1 5 ) ( 1 - 1 6 ) ( 1 1 7 ) ( 1 - 1 8 ) 绪论 ( 6 ) 高效能计算。 所以,本课题的知识面涵盖了以上所有6 个方面,限于论文时间,本课题 的研究重点放在两个方面: 1 、高聚类算法的总体准确率; 2 、当数据结构包含稀有数据时,能够提高稀有数据的捡出率及准确率。 1 3 问题的提出 在总体数据中,稀有数据的模式和特征的快速和正确检出是一项极具挑战性 的研究工作,存在多种算法,其中包括模式识别和特征提取,以及分类归纳。显 然聚类分析可以同时完成上述基本要求,因为聚类分析是按照事物问的相似性进 行区分和分类。其中除了己认识到的模式和特征外,随着事物的发展必然会产生 新的模式和特征,为此要采用开始时的模糊方法和在聚类过程中不断精确化,以 达到最终的正确分类归纳。这是本文作者考虑将模糊理论束处理聚类问题的依 据,并拟开展模糊聚类算法的研究。 在模糊聚类算法设计过程中,需要采用权威性标准数据的检澳1 3 , 3 5 , 3 6 】,以便 对所设计的算法进行评估,优化设计算法。为此,在本文中将在过去研究基础上 采用麻省理工学院的m i t - b i h 标准心电数据库数据,该库的数据共有4 8 个病例, 每例数据各长3 0 分钟,总计有1 1 6 1 3 个心搏,包含有两通道的正常心搏和各种 稀有异常心搏的数据,分别由心电专家对每个心搏作了识别并加以注释。通过本 文的具体研究,可以揭示该库蕴含的典型的稀有病理数据( 具体的数据将在第五 章给出) 有效应用。 另一方面,在临床上采用的实时心电分析算法中,当前的算法尚不完全满足 实际应用的需要,其表现为特征提取误差较大,分类结果尚不够准确,而且对稀 有的疑难病理特征提取效果较差,通常要通过临床上由经验丰富的医生作回顾性 分析来处理。本课题的研究,希望在一定程度上可以改善心电分析算法,为心电 实时监护的i 临床应用提供参考。 模糊聚类分析 2 1引言 第二章模糊聚类分析 诊断过程的病理特征在一开始是比较模糊的,而且具有较强的个体性,所以属于 稀有病理数据的分类,运用模糊理论及其方法学,有利于获得性能良好的分类结果。 此外,其实不少事物之间的界线往往也是不分明的,这样的聚类问题同样需要借 助于模糊数学和模糊聚类分析。模糊聚类与一般的聚类方法最大的不同是其在空间划 分中打破了非此即彼的准则,每一个样本在聚类过程中对某一类的归属可以是模糊 的,不确定的( 当然最后的结果还是确定的) ,这样的聚类方法更加贴近人类的思考 过程,更符合类似诊断过程中稀有数据数据的分类特点,因而能够取得更好的结果。 2 2 聚类分析的数学模型 设x = k ,x 2 ,- o - 9 是待聚类分析的对象的全体7 ,剐( 称为论域) ,x 中每个对象( 称 为样本) x k ( k = 1 , 2 ,n ) 常用有限个参数值束刻画,每个参数值刻画x k 的某个特征。 于是对象x k 就伴随一个向量p ( x k ) = ( 耳1 ,x k 2 ,) ,其中( ,= 1 ,2 ,s ) x k 在第j 个特征上的赋值,p ( x k ) 称为x k 的特征向量或模式矢量。聚类分析就是分析论域x 中 的n 个样本所对应的模式矢量问的相似性,按照各样本间的亲疏关系把葺,而,矗分 为多个不相交子集x ,x :,x 。,并满足下列条件: x 1 u x 2 u u x ,= x ,x ,n x ,= m ( 2 - 1 ) l ,j s f 样本h ( 1 k 胛) 对子集( 类) x ,( 1 i c ) 的隶属关系可用隶属函数表示为 硝班心= 器i i 岱z , 其中,隶属函数必须满足条件e ,也就是说,要求每一个样本能且只能隶属于 某一类,同时要求每个子集( 类) 都非空。称为硬划分( h a r dp a r t i t i o n 或c r i s pp a r t i t i o n ) 。 e = 似i t , 。 o ,l ;t , k = 1 ,v k ;o t , k ”,v 外 ( 2 - 3 ) 模糊划分中( f u z z yp a r t i t i o n ) ,样本集x 被划分成c 个模糊子集艾,又:,x 。而且样 模糊聚类分析 本的隶属函数从0 ,1 扩展到【0 ,1 】满足条件: 一= o ,1 a , k = l , v k ;0 t , k ,v i ( 2 - 4 ) l 忙ll j 显然,由上式可得u s u p p ( i ) = x ,这里s u p p 表示取模糊集合的支撑集。 2 2 1 距离及相关系数 1 ) 变量类型 问隔尺度 问隔尺度指用连续的量来度量指标,如长度,重量,压力,元素含量,电阻率 等。 有序尺度 有序尺度指度量指标时不用明确的数量,而是划分一些等级,等级之间有次序 关系,如可将矿石分成富,中,贫三级。 名义尺度 名义尺度指度量时既不用数量表示,各指标之间也没有次序关系。 2 ) 距离 距离应符合以下四个条件: ( a ) 谚,= 0 等价于和x ,相等; ( b ) 矿,o 对于v f ,; ( c ) 以= d ,对一切f ,- ,; ( d ) 三角形不等式巩sd , k + 氏对于v f ,j ,七; 距离又可分为样本间的距离和类之问的距离,样本问的距离计算样本之间的亲疏 关系,而类之间的距离计算类之间的亲疏关系。 样本问的距离中使用最多,理论最为成熟的是明考斯基距离,明考斯基距离又可分为 以下3 种: m q 吒( 口) = 【l 一h i 】“9 ,以g = l ,2 ,0 0 时用得最多 ( 2 5 ) k = l q = l 时,砖( 1 ) = i 靠一bi 绝对距离 ( 2 - 6 ) k = l m l 2 q = 2 时,以( 2 ) = l ( 一x j k ) 2l 欧几早德距离 k = l q = 。o 时,d ,( o o ) = 。m a 。x x k 一靠i 切比雪夫距离 9 ( 2 - 7 ) ( 2 8 ) 模糊聚类分析 明氏距离与各指标的量纲有关,为克服这个缺点,常使数据标准化。标准化的方法有: 标准差标准化 = 罕上,矧加,珂;,= 协一,聊( 2 - 9 ) u j 式中t 为各维特征标准差。i 2 i l 智 x ,为第j 维特征的均值,这时每个变量的子样标 准差都化为1 ,标准化的数据kj 就与量纲没有关系了。 归一标准化 = 鱼, i = 1 , 2 , - - - , n ;川,2 ,研 式中= m 。i n x r ,= m 。a ;x 。扛, 一m 。i n x ,j ( 2 - l o ) 这时每个变量的子样级差都化为1 ,也摊除了量纲对的干扰。明氏距离的另一个缺 点是没有考虑变量之间的相关惟。 类别之问的距离计算类别之间的亲疏关系,类别问的距离可以考虑的主要有以下 几种: 1 最短距离法 假设a 和b 是两个聚类,则两类的最短距离定义为 见,口= r a i n 乜 i 口a ,b b j ( 2 - 1 1 ) 如果b 类是由e 和f 两类合并而成, 则有见。= m i n 乜。i 见,d 。j ( 2 1 2 ) 2 最长距离法 见口= m a x 乩6i 口a ,6 b : ( 2 - 1 3 ) 同样如果b 由e ,f 两类合成, 则见,b = m a x 娩6i 见f ,d k ; ( 2 1 4 ) 3 中间距离法 如果b 由e 和f 合并而成则 见j = 也比e + 抄,+ 丢如;( 2 - 1 5 ) 3重心法 见s = 4类平均法 巩s = 去h a 。澎2 ma e j - e 口 ( 2 - 1 6 1 ( 2 一1 7 ) 模糊聚类分析 并有递推公式: 见。 居n e i 虿2= 氐寥 ( 2 1 8 ) 值得注意的是重心并不代表类的一切特征,相对而言,类平均法克服t 重心这个缺点。 3 )相关系数 用g 表示变量q ,h 2 的相似系数,一般要求: g = l 即e = o t h j ,口0 是一常数; b l i v i ,j ; c 。l = c i ? i 囊 k i 越接近i ,h , 丰1 1 h j 的关系越密切,q 越接近于0 ,两者关系越远。对于间隔尺 度变量,常用的相似系数有: 1 夹角余弦 x k t x k ) g = 2 相关 q = 1 专1 亍一 接x 2 k , 1 蕃焉 系数 ( x k ,一i ) ( 一一) 1 亍亍一 1 ( 一i ) 2 ( 一i ) 2 y 扣1k = i 3 指数相似系数 1m 3 扣 一j p ) : q 2 去著e 4 , 4 非参数方法 令巧= 屯一弓 i = 1 , 2 ,丹;,= 1 , 2 ,m 砸) = 锯= 记以= 芝k = l 聪m 垃= 善艿( 掣一) 即_ 为矗与x :。符号相同的个数,垃为两者符号相异的个数。 定以相似系数为: e :r + - - r ( 2 1 9 ) ( 2 2 0 ) ( 2 - 2 1 ) ( 2 - 2 2 ) f 2 2 3 ) ( 2 - 2 4 ) 模糊聚类分析 2 3 模糊聚类理论 2 3 1 模糊理论基础 在自然界中,几乎处处是模糊现象f 3 7 , 3 8 1 。例如,“下雨”这一自然现象,从“绵 绵细雨”到“倾盆大雨”,各种程度的雨都在经常不断地发生,它不是以固定不变的 一种或几种方式出现,以致人们很难用确定的模型来刻画它,这样的现象就是模糊现 象。 模糊数学决不是把已经很精确的数学变得模糊,而是用精确的数学方法来处理无 法用数学描述的模糊事物,实际上也就只能将所谓的不准确度降到无关紧要的水平罢 了。当前模糊数学的研究领域可大体上分成三个方面:模糊数学理论,模糊逻辑和模 糊语言,模糊数学的应用等。 1 ) 普通集合 被讨论的令体对象或范围叫做论域( d o m a i n ) ,论域中的每个对象称为元素。给 定论域x 和某一性质或属性p ,x 中满足性质p 的所有元素组成的全体叫集合( s e t ) , 简称集。普通集合的表示方法可分为一下三种: 列举法( 枚举法) 对于有限集,如a = h ,a 2 ,a n 描述法( 定义法) 对于无限集,如a = x l 尸( x ) ,其中,p ( x ) 足指“x 具有性质p ” 特征函数法 特征函数法用解释形式掐述元素属于集合的程度。设a 是论域x 上的集合, 记 聃) = 艺暑 ( 2 2 5 ) 特征函数1 2 ( 工) 表征了元素x 对集合a 的隶属程度。i t a ( x ) = 0 表x 芒a ,反之儿( x ) = l 表示x a 这样,对于定义在论域x = k ,x 2 ,x 3 ,x 4 ,而 上的集合a = k ,x 3 ,而 ,我们又 可以把它表示成: a = 以( ) + u a ( x 2 ) x 2 + j u , , ( x 3 ) x 3 + a ( x 4 ) x 4 + 月( x o x 5 = o x i + 1 x 2 十l 屯+ o + l x 5 i 模糊集合 论域x 上的模糊集合彳由隶属函数j ( x ) 来表征,其中心( x ) 在实轴的闭区间【0 ,1 】 上取值,心( x ) 的值反映了x 中元素x 对j 的隶属程度,j ( x ) 的值接近于1 ,表示 隶属于j 的程度越高;j ( x ) 的值接近于0 ,表示x 隶属于彳的程度很低;当心( x ) 的 模糊聚类分析 值域为 o ,l 二值时,u j ( x ) 演化为普通集合的特征函数儿( 工) ,a 便演化为一个普通集 合a 可以认为模糊集合是普通集合的一般化。对于任给x x ,都有唯一确定的隶属度 函数如( j ) 【o ,l 】与之对应。 隶属度函数 对于n 次随机试验,计算:4 发生的频率:笙笙燮 n 其中国是可变的,a 是固定的。实践证明,随着n 的增大,通常会呈现频率的稳 定性。频率稳定所在的那个数字,就叫a 在s 下的概率。 对于模糊统计试验,鳓固定,4 是可变的。作n 次试验,计算 风对彳的隶属度频率:兰址至尘皇丛,试验表明,随着你的增大,隶属度频率也 n 会呈现稳定性,频率稳定所在的那个数字,叫做坞对一的隶属度。 2 3 2 聚类分析方法 目前的聚类分析存在着两个主要的缺陷:其一,聚类结果的准确率不高,导致目 前聚类很大的一部分只应用在趋势性分析一l 。也就是说通过聚类分析能够回答某几种 物种之间是否存在亲缘关系或者经过技术改良后产品的性能是否得到了改善等等,但 如果作进一步的研究就必须指出到底哪几个样本的性能得到了改善,或者哪几个样本 的基因比较接近,这时聚类的结果可能存在较大的误差并最终影响分析的结果;其二, 一般的聚类方法对稀有数据的分析存在盲区。所谓的稀有数据指在所有的样本中出现 的概率很低的类别,而往往在所有样本中占有极少百分比的稀有数据代表了所有信息 中最有价值的一部分,具有非常重要的研究意义。举例来说,心电专家正是通过对稀 有数据的分析才能找

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论