(计算机科学与技术专业论文)多路异质聚类在中医临床数据中的应用及其研究.pdf_第1页
(计算机科学与技术专业论文)多路异质聚类在中医临床数据中的应用及其研究.pdf_第2页
(计算机科学与技术专业论文)多路异质聚类在中医临床数据中的应用及其研究.pdf_第3页
(计算机科学与技术专业论文)多路异质聚类在中医临床数据中的应用及其研究.pdf_第4页
(计算机科学与技术专业论文)多路异质聚类在中医临床数据中的应用及其研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 近几十年来,随着计算机技术的迅猛发展,越来越多的数据被存入计算机, 但是由于缺乏有效的工具从大量的数据中发现潜在的规则和信息,导致数据不能 有效的被利用,浪费了很多获取知识的机会。然后随着数据挖掘技术的提出,人 们才有机会在海量的数据中找到自己想要的知识。 中医是以临床医学为基础的学科,中医临床数据具有复杂的相互关系,并蕴 含着大量的医学知识。中医临床数据涉及的属性很多,包括患者,症状,用药信 息,疗效信息,药物分类信息等等。同时考虑中医临床数据中多种异质的属性特 征,进行聚类分析是有望发现中医临床数据中隐含结构知识的可行方法,本文对 此进行了初步的尝试和探索。 论文做出的工作包含以下几个方面: 1 由传统聚类方法的不足引入了一种更加新颖的,应用范围更广的异质聚类 算法,并根据异质聚类算法能够解决多关系数据聚类的特点,重点介绍了两种不 同的多路异质聚类方法,突出多路异质聚类算法在处理此类问题上的优势。 2 结合中医临床数据集,对临床数据中的病人一症状,症状一药物,药物一 药效等多种相关信息加以综合考虑,建立两种相关度模型:属性间的相似度模型 和考虑不同影响因素的类内的相关度模型。 3 将异质聚类算法应用到临床数据中,根据建立的数据模型设计多路聚类的 算法程序,并最终由临床数据得出相应的聚类结果,验证了多路聚类算法的正确 性,并初步发现中医临床数据中隐含结构知识,为临床诊断提供了理论依据。 关键词:中医临床数据;异质聚类;互信息量;相似度建模 分类号:t p 1 8 1 a b s t r a c t i nr e c e n td e c a d e s ,谢t l lt h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , t h em o r e d a t ai sp l a c e di n t ot h ec o m p u t e r , b u td u et ot h el a c ko fe f f e c t i v et o o ld i s c o v e r i n gt h e p o t e n t i a lr u l e sa n di n f o r m a t i o nf r o mt h ea m o u n to fd a t a , d a t ac a nn o tb eu s e de f f e c t i v e l y 8 0t h a tw a s t eal o to fo p p o r t u n i t i e st oo b t a i nt h ek n o w l e d g e t h e nw i t ht h ed a t am i n i n g t e c h n o l o g y , p e o p l eh a v et h eo p p o m m i t y t of i n dt h ek n o w l e d g ew h a tm e yw a n tf t o mt h e m a s sd a t a t r a d i t i o n a lc h i n e s em e d i c i n e ( t c m ) i sb a s e do nt h ec l i n i c a lm e d i c i n e t c m c l i n i c a ld a t ah a sc o m p l i c a t e di n t e r a c t i o n s ,a n dc o n t a i n sal a r g ea m o u n to fm e d i c a l k n o w l e d g e b u tf r e q u e n t l yt h et c m c l i n i c a ld a t ai n v o l v el o t so fa t t r i b u t e s ,i n c l u d i n g p a t i e n t s ,s y m p t o m s ,d r u gi n f o r m a t i o n ,d r u gc l a s s i f i c a t i o ni n f o r m a t i o n , e t c i ti sa f e a s i b l em e t h o dt od ot h ec l u s t e r i n ga n a l y s i st of i n dt h ek n o w l e d g es t r u c t u r et h a ti s i m p l i e d i nt h et c mc l i n i c a l d a t a ,c o n s i d e r i n gt h et c mc l i n i c a ld a t ao fv a r i o u s h e t e r o g e n e o u sa t t r i b u t e s a c c o r d i n gt ot h i s ,t h i sp a p e rm a k e ss o m ep r e l i m i n a r ya t t e m p t a n de x p l o r a t i o n p a p e rw o r ki n c l u d e st h ef o l l o w i n ga s p e c t s : 1 w ei n t r o d u c eam o r ei n n o v a t i v ea n dw i d e l yu s e dh e t e r o g e n e o u sc l u s t e r i n g a l g o r i t h mb e c a u s eo ft h es h o r t a g eo ft h et r a d i t i o n a lc l u s t e r i n gm e t h o d a n dt h e nm a i n l y i n t r o d u c e st w od i f f e r e n tm e t h o d sa c c o r d i n gt ot h ef e a t u r e st h a th e t e r o g e n e o u sc l u s t e r i n g a l g o r i t h mc a ns o l v et h ed a t aw i t hm a n yr e l a t i o n s 2 a c c o r d i n gt of e a t u r e so ft h ec l i n i c a ld a t as e t s ,w es e tu pt w ok i n d so fd a t a m o d e l 3 w ea p p l yt h eh e t e r o g e n e o u sc l u s t e r i n gt ot h ec l i n i c a ld a t aa n dd e s i g nt h e a l g o r i t h mp r o g r a ma c c o r d i n gt od a t am o d e lw es e tu p a n df i n a l l yo b t a i nt h er e s u l tt o p r o v i d ec o n v e n i e n c ef o rc l i n i c a ld i a g n o s i s k e y w o r d s :t c mc l i n i c a ld a t a ;h e t e r o g e n e o u sc l u s t e r i n g ;m u t u a li n f o r m a t i o n ; s i m i l a r i t ym o d e l i n g c l a s s n 0 :t p 1 8 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位做作者躲芳吏签字吼秒年月枷 4 5 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字醐。刁“肚佣 名:确 签字日期:矽年月日 致谢 本论文的工作是在我的导师于剑教授的悉心指导下完成的,于剑教授严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来于剑 老师对我的关心和指导。 周雪忠老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向周雪忠老师表示衷心的谢意。 贾彩燕老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期间,庄力、程新宇、恽佳丽等同学对我论文中的 算法理论研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人,我的父亲、母亲,他们的理解和支持使我能够在学校专心 完成我的学业。 1 1 研究背景 1 绪论 中医学是以观察型临床研究为基础的临床医学,反复的临床实践和临床经验 理论提炼形成了中医学发展的基本模式。“症一作为“病 人的临床表现,是形 成“证 的重要客观依据,是连接“病 、“证 的客观载体和唯一中介。临床 上医生往往从“病出发,利用四诊等方法,对病人的客观存在“症”感知 与搜集,同时在中医理论的指导下结合自己临床诊治的经验,对“症 辨识,形 成对病因、病机、病位以及病势等方面的认识,并进一步做出定性与定量的判断 形成“证 ,并依次立法选方进行治疗,是从古至今中医诊疗的基本模式。 既往的中医临床诊断,一直无规范、科学的方法和标准,其根本原因在于对关 键环节一症”缺乏客观、科学的依据和标准,因而诊断时不可避免的带有人为的 主观因素。随着社会经济发展,生活方式改变,影响疾病发生发展的因素更加复 杂和多样。新近研究提示5 5 岁以上成年人近5 0 患有3 种或3 种以上的慢性疾病, 且因年龄、性别、人群差异而呈现出健康状况的不均衡性,这为病证结合研究带 来一定的难度和挑战。既往“症状证候证型 推理模式,由于不能准确 的把握疾病的症状特征,导致证候提取及证型判断很难客观、科学的反映疾病在 某一阶段本质。即使在科研领域,涉及疾病的证候研究多是理论探讨或小样本研 究,即使是涉及大样本、前瞻性的临床研究,尚无关于其证候归纳的科学模式, 也未见对具体疾病症状的结构进行客观分类的研究报道。因此,如何科学的处理 病症间的关系,客观,合理的诊断及用药,是目前急需解决的难题。这就要求我 们从数据着手,建立科学的分析方法。 数据是中医临床研究中首先需要把握和处理的对象,由于中医辨证论治个体 化诊疗的特点,单个病例样本数据的多样性和复杂性是中医临床研究中面临的主 要课题。如何在这大量的数据资源中挖掘深层次的、隐含的、有价值的知识,是 我们面临的一个难题。 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随 机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动 辄以t b 计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就 是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 的关键步骤。因此对于临床数据的分析, 我们可以采用数据挖掘的相关算法,通过建立合理的模型,挖掘出临床数据中 对于病,症,用药信息的相关知识,通过分析数据之间的联系,为客观的中医诊 断提供科学的依据。 1 2 数据挖掘技术 1 2 1数据挖掘技术简介 随着数据库技术的广泛应用和互联网的快速普及,企业以及个人在决策时所 能获取的数据量急剧地增长,真正体会到了数据海洋的无边无际。海量数据既给 人们带来方便,也带来了许多问题;我们在惊叹信息爆炸的同时又不得不面对知 识贫乏的苦恼:信息过量难以消化、信息不能以快捷有效的方式提炼为直接作为 决策依据的知识。因此,人们迫切需要一种新技术和自动工具,能够帮助我们将 巨大的数据资源转换为有用的知识资源。在这种情况下,数据挖掘( d a t am i n i n g ) 技术应运而生,并显示出强大的生命力。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。数据挖掘充分利用了机器学习、数理统计、人工智能、模糊逻辑、神经网 络、进化计算等理论和方法,它是应用需求推动下多种学科融合的结果。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学等 技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在 的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正 确的决策。 1 2 2数据挖掘技术的主要应用方法 从功能上可将数据挖掘分析方法划分为:关联分析( a s s o e i a t i o n s ) 、序列模式 分析( s e q u e n t i a lp a t t e r n s ) 、分类分析( c l a s s i f i e r s ) 、聚类分析( c l u s t e r i n g ) 。 数据挖掘涉及的学科领域很多,很多方面都可以用到数据挖掘的相关方法。 其挖掘对象可分为有关系数据库、面向对象数据库、空间数据库、时态数据库、 文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网w e b 。 临床数据是大量的文本数据及有关系数据库,在研究中我们需要对这些数据 进行机器学习,采取数据挖掘中的哪一种算法,如何选择,是我们需要考虑的。 2 一般来说,分类和聚类的算法都常用于文本数据的分析,分类的目的是学会一个 分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中的数据项映射到给 定类别中的某一个类中。聚类的目的是使得属于同一个簇的样本之间应该彼此相 似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将 要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目 的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学 方程来表示。分类算法数据有监督的学习方法,而聚类算法属于无监督的学习方 法。而临床数据大而复杂,在对数据进行学习以前不可能有相应的训练集,也不 可能知道可以将数据划分成几类,因此我们可以选择聚类算法作为研究分析的主 要方法。 在临床医学实践中也经常需要做聚类工作,如根据病人的一系列症状、体征 和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果, 将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检 查,等等。聚类分析被广泛研究了许多年。基于聚类分析的工具已经被加入到许 多统计分析软件包或系统中,如s p l u s 、s p s s ,以及s a s 。 1 3 论文的主要研究内容 1 本文介绍了数据挖掘中的相关聚类算法,并针对文本聚类高维稀疏的问题, 提出了同时聚类行和列的异质聚类的概念。通过介绍异质聚类的相关算法,并结 合中医临床数据具有复杂的相互关系的特点,得到可以用异质聚类处理中医临床 数据的结论。 2 针对中医临床数据不止两个待聚类属性的特点,引入了异质聚类中“多路 的概念,并重点介绍了两种可以处理多关系数据集的异质聚类算法,突出多路异 质聚类算法在处理此类问题上的优势。 3 结合中医临床数据集,对临床数据中的病人一症状,症状一药物,药物一 药效等多种相关信息加以综合考虑,建立多种属性间的相关度模型,以适应算法 的需要。 4 使用相关度模型,将上面介绍的两种多路异质聚类算法在临床数据中加以 应用,验证了多路聚类算法的正确性,并初步发现中医临床数据中隐含结构知识, 为临床诊断提供了理论依据。 3 1 4 论文的主要结构 论文共分五章,下面为各章的简要概述: 第一章为绪论,介绍了临床数据的研究背景和目前分析临床数据的主要方法, 概括介绍了数据挖掘技术的主要应用,并提出的本人认为适合处理临床数据的方 法。 第二章为异质聚类算法综述。由于论文主要研究的是异质聚类算法在处理临 床数据中的应用,所以在论文的第二种章首先介绍几种常用的传统聚类算法,并 提出传统聚类方法的不足。介绍异质聚类算法的知识,现状及发展,介绍几种目 前比较常用的异质聚类算法。 第三章介绍了本文的一些核心算法。首先我们引入多路这个概念,并介绍了 多路异质聚类的研究意义和发展前景。然后重点介绍了两种新颖的能够处理多关 系数据的多路异质聚类算法。通过对这两种方法的学习,找到处理具有多种相关 关系的临床数据的途径 第四章介绍了多路聚类在临床数据中的应用,通过分析临床数据,建立属性 间和类内的相似度模型,使用上述两种方法对临床数据进行分析,得出分析结果。 第五章为结论。通过回顾整篇论文的相关研究及实验结果,对自己的研究进 行概括分析,并提出未完成的工作和对未来研究的展望。 4 2异质聚类算法综述 2 1 传统聚类方法简介 2 1 1聚类的定义 聚类( c l u s t e r i n g ) 是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同 的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过 程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼 此相似,与其他簇中的对象相异。 聚类的数学过程描述如下: 设被研究的样本集为尼类c 定义为x 的一个非空子集,即c x 且c 聚类的最终目的就是把样本剿分成l 价分割c 脯( m = 1 ,k ) ) 也可能有些对象不 属于任何一个分割,这些就是噪声。所有这些分割与噪声的并集就是样本集疋并 且这些分割之间没有交集,即: 1 guc 2u u gu e = x 2 qn c ,= ( 对任意f j ) 这些分割c 就是聚类。由第二个条件可知,样本集x 中的每个样本最多只属于一 个类。但是,在模糊聚类中,每个对象不再仅属于单个聚类,而是以不同的隶属 度属于多个聚类。 2 1 2经典聚类算法 聚类的计算方法主要有以下几种: 1 划分法( p a r t i t i o n i n gm e t h o d s ) :给定一个有n 个元组或者纪录的数据集,划 分法将构造k 个分组,每一个分组就代表一个聚类,k 是y 的,个簇;巳和c y 是两个映射 q :“,x 2 ,) 专 l ,z 2 ,茸) , ( 2 - 7 ) c y :饥,y :,儿) 专反,鹑,霸) , ( 2 8 ) 我们经常简写为舅= q ( x ) ,穸= c r ( y ) ,岩和,分别是x 和y 的确定性函数 的随机变量。p ( x ,y ) 是t i x 刀矩阵,表示在x 和y 之间的联合概率分布。给定聚 类的类别数,聚类质量用互信息损失来衡量j ( x ,】,) 一j r ( j ,罗) ( 在行簇数和列簇数 给出的约束下) ,目的是最小化这个损失,也就是最大化,( 戈,) 。可以证明: z ( x ,】,) 一,( x ,y ) = d ( p ( x ,】,) 0q ( x ,y ) ) ,( 2 - 9 ) 其中d ( 1 1 ) 表示k u l l b a c k - l e i b l e r 散度( 交叉熵) ,q ( x ,】,) 是形式为 q ( x ,j ,) = p ( 舅,y ) p ( xi 舅) p ( j ,i 夕) ,工舅,y 夕( 2 1 0 ) 的分布。算法迭代的运行如下步骤:初始化x 和】r 的聚类方案;修正x 的聚 类方案并更新分布函数;修正y 的聚类方案并更新分布函数;当目标函数值不再 下降时停止迭代。 2 5 本章小结 本章对异质聚类算法提供了一个综述性的介绍。使读者对于异质聚类方法的 相关原理及研究的问题有一个初步的认识。本章首先介绍了传统聚类的基本概念, 包括聚类的定义以及经典的聚类算法。然后由传统算法在分析高维稀疏数据的不 足,引入了异质聚类算法的概念,并进一步介绍了异质聚类算法的发展历程,且 分析了异质聚类算法中具有代表性的两种方法。 1 2 3 异质聚类中的多路算法分析 3 1多路算法的提出及研究意义 3 1 1多路的概念 传统的聚类算法,如k - m e a n s ,k m e d i o d s 等,在文本聚类时使用向量空间 模型,只能对文档进行聚类,属于“单路 ( o n e - w a y ) 的聚类。而上文提到的联合 聚类( c o c l u s t e r i n g ) ,凝聚式聚类算法 9 ( a g g l o m e r a t i v ec l u s t e r i n g ) ,用于基因数据的 b i c l u s t e r i n 9 9 2 j 算法,都是属于用词簇聚类文档的算法,同时考虑词和文档的聚类, 属于“二路 ( t w o w a y ) 的聚类算法。如果可以对多种( 两种以上) 的关系进行聚 类,同时考虑几种不同属性间的相关信息进行聚类分析的算法,我们可以称作多 路聚类算法( m u l t i w a yc l u s t e r i n g ) 。 3 1 2多路聚类算法的应用前景 多路聚类是同时考虑多种关系的聚类方法,属于异质聚类算法的一个分支, 随着计算法技术的发展,可以存储的数据量也越来越大,数据量也体现出繁杂的 相互关系。如何利用这些相互关系进行数据分析,是多路聚类的一个最主要的应 用方向。二路,三路乃至n 路聚类,将大大提高了数据的分析能力和聚类效果。 考虑目标类和其他多种关系类之间的联系,而取得的聚类结果将更有意义,其聚 类含义也更加具有科学性。 许多现实生活中,大量的统计需要用到多路的算法,例如一个电影评价系统, 它就包含了多种属性,如观众,演员,电影,及评语。属性间的关系构成了评价 的主题,如:( 1 ) 观众对某演员参演的电影的反馈率可以用r a t i n g ( m o v i e ,v i e w e r , a c t o r ) 的一个三元关系表示( 2 ) 二元关系( m o v i e ,a c t o r ) 表示了某演员参演了哪部电影( 3 ) 对某部电影的评价可以用( m o v i e ,r e v i e ww o r d ) 进行表示。如此多的关系构成了电影 评价系统,如何对这么多的电影进行聚类,分析其好看与否,多路异质聚类可以 做到这一点。同样,对于临床数据来说,属性间的复杂关系比起电影评价系统有 过之而无不及,如何在临床数据中应用多路聚类算法,我们在下一章作具体介绍。 根据模型选择,目标函数的不同,多路异质聚类也可以有多种不同的算法, 1 3 下面我们分别介绍两者算法,看它们是如何从不同的角度出发,对多个关系进行 聚类的。 3 2 基于成对关系的多路异质聚类算法 基于成对关系的多路聚类算法【1 7 ( m u l t i w a yd i s t r i b u t i o n a lc l u s t e r i n gv i a p a i r w i s ei n t e r a c t i o n s ,m d c ) 由二路聚类衍生而来,它也是通过利用二元关系进行聚 类的一种方法,和二路聚类不同的是他利用了多个两两之间的关系,然后通过设 计目标函数将两两之间的关系加以集成,经过最优化目标函数,形成最终的聚类 结果。 3 2 1算法要素 基于成对关系的多路聚类算法是一种新颖的算法,算法理论的实现主要是基 于两大因素,第一是一种扩展的信息论目标函数,引入多个成对关系而不仅限于 一个,第二是聚类算法,是一种沿不同聚类方向的混合算法。这种算法的目的是 为了局部最优化目标函数。算法在聚类不同变量( 数据类型) 的时候,使用了凝聚与 分裂混合的聚类方法,即对一些变量采用自底向上的凝聚过程,对另一些变量采 用自顶向下的分裂过程,凝聚与分裂的过程受目标函数的指导。 所谓分裂的过程,是初始化所有的数据点为一个聚类簇,通过在当前层次的 迭代随机分裂,并随即进行聚类簇的修正,进行层次聚类。同理聚合的过程,是 初始化所有的数据点每一个为一个单独的聚类簇,然后在当前层次进行聚合,并 通过修正程序取得当前层次的最优聚类簇进行迭代聚合。 之所以采取这种基于层次的方法是因为比起一般的启发式算法,它更具有鲁 棒性。而凝聚与分裂聚类方法的组合基于如下考虑,首先,凝聚过程是代价昂贵 的,特别当要求的簇的数量远小于数据点数目时,分裂过程可以产生更高的效率, 因此,从计算复杂性的角度考虑,自顶向下的方法是更有利的;但是,单纯采用 分裂过程不能产生有意义的结果。所以我们采取两种方式混合的方法来解决问题。 3 2 2互信息量 信息论是由香农( c e s h a n n o n ) = = 2 0 世纪4 0 年代末创立的关于信息通信的 学理论,它是一门用数理统计方法来研究信息的度量、传递和变换规律的科学, 主要研究通讯和控制系统中普遍存在着信息传递的共同规律以及研究最佳解决信 1 4 息的获限、度量、变换、储存和传递等问题的基础理论。 信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的 方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传 输定理、信源一信道隔离定理相互联系。 香农被称为是“信息论之父”。人们通常将香农于1 9 4 8 年1 0 月发表于贝尔系 统技术学报上的论文am a t h e m a t i c a lt h e o r yo f c o m m u n i c a t i o n ) ) ( 通信的数学理 论) 作为现代信息论研究的开端。这一文章部分基于哈里奈奎斯特和拉尔夫哈特 利先前的成果。在该文中,香农给出了信息熵( 以下简称为“熵”) 的定义: h = 一奶l o g p i 互信息( m u t u a li n f o r m a t i o n ) 来源于信息论,用来测量一个随机变量包含另一个 随机变量的信息量的总和或者是两个随机变量间的统计相关性。两个事件x 和y 的互信息定义为: i ( x ,】,) = 日( x ) 1 - 日( y ) 一日( x ,】,) 其中h ( x 是联合熵( j o i n te n t r o p y ) ,其定义为: h ( x ,y ) = 一p ( x , y ) l o g p ( x , y ) 3 2 - 3目标函数 基于成对关系的多路聚类算法的目标函数是根据用于一般二路聚类的信息论 目标函数扩展而来的。 考虑一个关于共生统计变量x ,y 的关系表,x 标记行,y 标记列,表里的元 素( x ,y ) 代表x 和y 共同出现的次数,其中x x ,y y ,我们的目标是以一个有用 的规则将行和列同时聚类,我们用足和歹分别表示行和列的划分,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论