




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 基因表达数据是通过d n a 微阵列技术获得的关于一组基因表达过程及其调 控信息的定量描述。研究基因表达数据,获取有意义的基因簇,对于研究生物现 象背后的本质、遗传性疾病的诊断等有着重要意义。然而,由于基因表达数据中 样本数远远小于观测的基因个数的特性及其在采集过程中产生的噪音数据使得 单一依靠该数据源进行的聚类分析往往缺乏稳定性、可靠性,从而影响了预测的 准确性。 本文从多源信息融合的角度来研究基因表达数据的聚类分析技术,融合基因 本体( g o ) ,k e g gp a t h w a y 等信息,以求获得稳定、可靠、共表达的基因类簇。 其主要工作如下: 1 选择网上公用的y e a s t 基因组数据作为测试数据,采用潜在语义分析方 法对y e a s t 基因组的基因表达数据进行降维和去噪处理,并用欧氏距离的方法 对数据相似性进行了度量;我们采用语义相似性度量的方法计算基因本体数据的 相似性,并用b i o c o n d u c t o r 软件对基因本体数据的相似性进行了度量。 2 使用线性融合方法,从相似性度量的角度融合y e a s t 基因组的表达数据、 本体数据,并用p a m ( 中心点划分) 算法对基因表达数据,融合数据分别进行 了聚类。结果表明线性融合算法可以大大提高基因表达数据的聚类效果。 3 针对线性融合方法无法确定融合系数的问题,提出一种新的基于排列的融 合方法。该方法将基因表达、基因本体的相似性度量值按大小排列的顺序给定序 号,将序号作为融合系数进行数据的融合。从而可以自动获得融合的系数,算法 上更具操作性。 4 针对普通评价方法无法从功能上来评价基因表达数据聚类的有效性问题, 提出用k e g gp a t h w a y 数据从生物的生化功能上来评价聚类结果的有效性和意 义。使用k e g gp a t h w a y 方法进行评价时,证明半数以上的类别是可学习的。 本文从多源信息融合的角度对基因表达数据进行聚类分析和评价,获得了较 好的实验结果。然而融合的策略相对来说,还是比较简单,对各部分数据源在聚 类效果中所起的作用还缺乏系统的理论证明。所以下一步的工作是:一方面,通 过实验的方法,对更多的基因组数据进行测试,来验证算法的有效性;另一方面, 运用信息论的方法,研究多源信息证据在基因表达数据聚类中的作用,为实现更 加有效的融合策略提供理论依据。 关键词:聚类线性融合基于排列的融合方法基因表达数据基因本体 k e g gp a t h w a y a b s t r a c t g e n ee x p r e s s i o nd a t ai st h eq u a n t i t a t i v ed e s c r i p t i o no fag r o u po fg e n ee x p r e s s i o n a n dr e g u l a t i o ni n f o r m a t i o nb yd n a m i c r o a r r a yt e c h n o l o g y i t sv e r yi m p o r t a n tt o s t u d yt h eg e n ee x p r e s s i o nd a t aa n dg a i nt h em e a n i n g f u lg e n ec l u s t e r si nd i s e a s e d i a g n o s i sa n dr e s e a r c ho nt h en a t u r eb e h i n db i o l o g i c a lp h e n o m e n a ,h o w e v e ga st h e c h a r a c t e r i s t i ct h a tt h en u m b e ro fs a m p l e si sf a rs m a l l e rt h a no b s e r v e dg e n e si ng e n e e x p r e s s i o nd a t aa n dn o i s ep r o d u c e dd u r i n ga c q u i s i t i o np r o c e s s ,c l u s t e ra n a l y s i sb a s e d o ng e n ee x p r e s s i o nd a t ai so f t e nl a c ko fs t a b i l i t y , r e l i a b i l i t y a n di ta f f e c t st h e a c c u r a c yo fp r e d i c t i o n i nt h i sp a p e r , w es t u d yc l u s t e ra n a l y s i st e c h n o l o g yb a s e do ng e n ee x p r e s s i o nd a t a f r o mm u l t i s o u r c ef u s i o n ,a n df u s eg o ( g e n eo n t o l o g y ) ,k e g gp a t h w a y , e t ct o a c q u i r es t a b l e ,r e l i a b l e ,c o e x p r e s s i o n i n gc l u s t e r s i t sm a i nw o r ki sa sf o l l o w s : 1 w ec h o o s et h eo n l i n ep u b l i cy e a s tg e n o m ed a t aa st h et e s td a t a ,u s el s a ( l a t e n ts e m a n t i ca n a l y s i s ) m e t h o dt od od i m e n s i o nr e d u c t i o na n dd e n o i s i n go fg e n e e x p r e s s i o nd a t ao fy e a s tg e n o m ea n dm e a s u r et h es i m i l a r i t yb ye u c l i d e a nd i s t a n c e m e t h o d w eu s et h em e t h o do fs e m a n t i cs i m i l a r i t yt om e a s u r et h es i m i l a r i t yo fg o ( g e n eo n t o l o g y ) ,a n du s eb i o c o n d u c t o rs o f t w a r et oc a l c u l a t et h ev a l u e 2 w eu s el i n e a rf u s i o nm e t h o dt of u s eg e n ee x p r e s s i o nd a t aa n dg e n eo n t o l o g y f r o ms i m i l a r i t ym e a s u r e ,a n du s ep a m ( p a r t i t i o na r o u n dm e d o i d s ) a l g o r i t h mt o c l u s t e rg e n ee x p r e s s i o nd a t aa n dg e n eo n t o l o g y r e s u l t ss h o wt h a tl i n e a rf u s i o n m e t h o dc a l li m p r o v ee f f e c t i v e n e s so fc l u s t e r i n gr e s u l t sg r e a t l y 3 f o rt h ep r o b l e mt h a tl i n e a rf u s i o nm e t h o dc a nn o td e t e r m i n ef u s i o nc o e f f i c i e n t , w ep r o p o s ean o v e lf u s i o nm e t h o d :p e r m u t a t i o n b a s e df u s i o n t h em e t h o dg i v e sa n u m b e rt oe v e r ys i m i l a r i t yv a l u eo fg e n ee x p r e s s i o na n dg o ,w h i c ha r es e q u e n c e di n ad e s c e n d i n go r d e r ,a n du s e st h en u m b e ra sc o e f f i c i e n tt oc a l c u l a t et h ef u s i o nd a t a t h i sm e t h o dc a no b t a i nf u s i o nc o e f f i c i e n ta u t o m a t i c a l l y ,a n di sm o r eo p e r a t i o n a li n a l g o r i t h m 4 f o rt h ep r o b l e mt h a tg e n e r a le v a l u a t i o nm e t h o dc a n tv a l i d a t et h ee f f e c t i v e n e s s o fc l u s t e r i n gr e s u l t so fg e n ee x p r e s s i o nd a t af r o mg e n ef u n c t i o n ,w ep r o p o s eam e t h o d t h a tu s e sk e g gp a t h w a yd a t aw h i c hc a ne v a l u a t et h ee f f e c t i v e n e s sa n ds i g n i f i c a n c e o f c l u s t e r i n gr e s u l t sf r o mb i o c h e m i c a lf u n c t i o n w h e nw eu s ek e g gp a t h w a ym e t h o d t oe v a l u a t et h er e s u l t s ,m o r et h a nh a l fc l u s t e r sc a l lb el e a r n e d i nt h i sp a p e r ,w eu s em u l t i s o u r c ef u s i o nm e t h o dt oc l u s t e rg e n ee x p r e s s i o n d a t aa n dg e tb e t t e rr e s u l t s h o w e v e r , t h ef u s i o ns t r a t e g yi sr e l n i v d ys i m p l ea i l dt n e m n c t i o no fd a t as o u r c ei nc l u s t e r i n gi sl a c ko fs y s t e m a t i ct h e o r e t i c a lp r o o i s ot h e n e x ts t 印i n c l u d e st w oa s p e c t s o n ei sd o i n gm o r er e s e a r c ho nd i f f e r e n td a t a t o v a l i d a t et h ee f f e c t i v e n e s so ff u s i o nm e t h o d s ;t h eo t h e ri su s i n gi n f o r m a t i o nt h e o r y n l e t h o d st os t u d yt h er o l em u l t i s o u r c ep l a y e di ng e n ee x p r e s s i o nd a t ac l u s t e r i n ga n d t op r o v i d eat h e o r e t i c a lb a s i sf o rm o r ee f f e c t i v ef u s i o ns t r a t e g i e s k e yw o r d s :c l u s t e r i n g l i n e a rf u s i o n p e r m u t a t i o n - b a s e df u s i o n g e n ee x p r e s s i o nd a t a g e n eo n t o l o g y k e g g p a t h w a y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤生态堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:译遵j 垒 签字日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘鲎有关保留、使用学位论文的规定。 特授权苤壅盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:礞遮垒 导师签名: 签字日期:年月日 签字日期:钌留年彩月曰 刀矿 弘玛 ) 7 珍 ,p 第一章绪论 1 1 课题研究背景 第一章绪论 随着2 0 世纪9 0 年代初期人类基因组计划( h u m a ng e n o m ep r o j e c t ,简称h g p ) 的全面启动,生物信息学( b i o i r f f o r m a t i c s ) 这一新兴的交叉学科应运而生。生物信 息学研究利用生物学、数学、统计学、计算机科学等分析工具与方法研究复杂生 物系统的活动现象,揭示生命规律。从此人类可以从分子角度来研究生物,这一 突破也使得生物科学技术飞速发展。同时,功能基因组和蛋白质组的大量数据开 始涌现,d n a 微阵列技术的发明使得同时研究和比较大量基因的特性成为可能。 d n a 微阵列( m i c r o a m y ) 是一种利用一定的理化过程对基因表达的过程进行 定量的描述和刻画,从而获得基因功能和基因表达调控信息数据的技术。它使得 人们可以同时监测成千上万个基因的表达水平,对不同发展阶段、组织类型、临 床条件及不同有机体的基因表达水平进行监测,从而有助于理解基因功能与协助 疾病诊断、确定治疗效果等。但是基因芯片实验所产生的大量复杂数据给研究者 也带来了严峻的挑战。面对随之产生的海量的基因表达数据,如何运用信息科学 与计算机技术对这些数据进行分析处理,从中挖掘出对生物学实验有指导意义的 信息或知识成为当前生物信息学研究的一大新课题。 数据挖掘( d a mm i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机 的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识 的过程。数据挖掘作为知识发现的重要手段,近年来已经在越来越多的领域得到 广泛地应用。而在生物信息学领域,已有多种数据挖掘和信息处理技术应用于基 因表达数据分析,主要包括:聚类分析、分类分析、多元统计、模式识别及神经 网络几大类。其中,聚类分析能够检测具有相似表达谱的基因群,并将功能相关 的基因按表达谱的相似程度归纳成类,有助于对未知功能的基因进行研究,是目 前基因表达分析研究的主要计算技术之。基因芯片实验得到的大量数据通过聚 类分析,可以得到很多有用的信息,其成功应用已广泛涉及到生物医学研究中的 各个领域。通过对基因的聚类,研究具有相似性结构和功能的基因簇,能深刻理 解引起某种生物现象的基因类别,从而理解基因在生物活动过程中所起到的作 用。 第一章绪论 1 2 选题动机 近年来,人工智能及模式识别技术在基因表达数据的研究中受到越来越多的 重视,其研究的核心问题是如何选择有效的聚类算法,来提高结果的精度和效率。 相对于其他领域的应用,基因表达数据主要有以下特点: ( 1 ) 基因表达数据中,用于聚类的基因个数远远大于观测样本的数量。为 方便起见,我们称这种现象为特征非平衡问题。 ( 2 ) 基因表达数据聚类中,不仅关注于结果的精度与效率,而且关注于具 有相似结构和功能的基因簇。因为后者更有助于理解聚类背后生物现象的本质。 对特征非平衡问题而言,传统的基于统计学习的数据挖掘技术由于相应的样 本或者特征过少,而缺乏真正意义上的统计重要性( s t a t i s t i c a ls i g n i f i c a n c e ) 。而 用多源信息融合的方法来研究基因表达数据,融合其它重要基因信息( g o , k e g gp a t h w a y 等) 对表达信息进行补充,不仅可获得较好的聚类效果,还可以 从生物功能方面对获得的聚类类别进行解释,并可能进而解释这些类别在生物现 象中所可能起到的作用。 1 3 论文工作与组织结构 本文使用数据融合的方法,选择网上公用的y e a s t 数据作为测试数据,融 合了基因表达数据和基因本体数据,对基因表达数据、基因本体数据、和融合数 据分别进行了聚类。同时使用k e g gp a t h w a y 信息对聚类得到的结果进行了评 价,结果表明超过半数的类别是可学习的,比仅使用基因表达数据聚类得到的结 果要好的多。然后比较了数据融合的两种算法,线性融合算法和基于排列的融合 算法,实验表明两者的聚类结果相差不大,但后者不需要人为的设定融合系数旯, 使得其在聚类方面有一定优势。最后还就k e g gp a t h w a y 信息的评价方法能够较 好的解释聚得的类别的意义这一点做了详细的解释。 下面介绍一下本文的组织结构。第二章是有关基因表达数据研究方法的一些 介绍,主要包括各种传统的聚类方法、多源信息融合的方法,和在此基础上前人 做过的一些研究工作以及遇到的一些问题。第三章是本文研究的重点之一,主要 讲述使用到的研究数据,如何对这些数据进行预处理,并计算基因表达和基因本 体的相似性等等。第四章主要讲述本文中使用到的融合算法,包括线性融合算法 和基于排列的融合算法两种,以及如何使用k e g gp a t h w a y 对聚类结果进行评 价。第五章讲述本文研究得到的结果,和对研究结果所做的一些讨论,这些讨论 包括三种数据之间聚类结果的比较,两种融合算法之间的比较和用k e g g 第一章绪论 p a t h w a y 进行评价得到的具体的聚类效果和意义。最后第六章是全文的总结,在 此我们对全文工作做一个总结并简要介绍一下接下来将要做的一些研究工作。 第二章研究方法概述 2 1 引言 第二章研究方法概述 目前对基因表达数据的研究主要采用聚类的方法。通过对基因表达数据进行 聚类,将具有相似性结构的基因聚到同一个类别中,从结构或功能上来理解基因 信息。这类方法为研究基因表达数据提供了一个方向,但其只利用了基因信息的 一个方面,且对聚类结果的评价缺乏有效性。 基于多源信息融合的方法试图从基因表达数据信息,基因本体信息等多个方 面来对基因的聚类进行综合的考量,取得了一些令人信服的进展 1 3 】。但是研究 还处于探索性阶段,缺乏广泛接受的信息融合策略及融合哪些信息。比如目前大 部分方法借助于基因本体信息( g e n eo n t o l o g y ) ,而k e g g 、m i p s 及g e n eb a n k 序列信息等数据库,同样含有大量的有价值信息。如何融合这些信息,推导出稳 定的、生物意义上一致的基因类族,仍然是生物信息学研究的一个挑战性任务。 本章内容安排如下:2 2 节先介绍一下传统的一些聚类方法,及其各自的优 缺点,以及当前针对基因表达数据的特点提出的一些聚类方法,2 3 节则先概述 一下多源信息融合方法的历史以及其在基因聚类分析中的应用,2 4 节则讲述目 前的研究还存在哪些问题。 2 2 聚类分析概述 聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的 重要手段和方法。从内容上看,将物理或抽象对象的集合分组成为由类似的对象 组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这 些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。聚类分析能作为 一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些 簇做进一步的分析等( 在这里将一个簇中的数据对象作为一个整体来看待) 。 传统上的一些聚类算法有:k m e a n s 算法【4 j ,层次聚类方法【5 】和s o m ( 自组 织映射) 方法【6 j 等,使用这些方法在对基因表达数据聚类时取得了一定效果,但 也有其本身的缺点。以上算法都是针对一般聚类的目的而设计的算法,而基因表 达数据本身的一些特点:比如特征非平衡性、所得数据含有大量的噪音、缺值等, 第二章研究方法概述 以上这些聚类算法在处理这样一些问题时就遇到很大的困难。于是研究者们针对 基因的特点又提出了些新的聚类算法,主要有基于图理论的方法,它包括两种 算法:c l i c k ( c l u s t e ri d e n t i f i c a t i o nv i ac o n n e c t i v i t yk e r n e l s ) 算法【7 1 、c a s t ( c l u s t e ra f f i n i t ys e a r c ht e c h n i q u e ) 算法 8 】和d h c ( 基于密度的层次分类) 算法 【9 】竺 寸o 2 2 1k - m e a n s 算法 k m e a n s 方法【4 】,又称k 一均值法,是一种基于划分的聚类算法。它的特点在 于:给定某个初始类别k ,然后迭代地找出使目标函数取极值的最好聚类结果, 因此k m e a n s 方法的基础就是误差平方和准则,其值为样本到中心的误差平方和 ( 见公式2 1 ) 。 层:ky 1 0 一“f f = jo ec 公式( 2 一1 ) 其中d 为c ,类中的数据,u ,是c ,的质心。 k m e a n s 算法的优点是简单并且收敛数度快,但也有一些缺点,首先基因的 类别数目k 未知,要找到最优的聚类数目,要重复使用该算法,比较k 不同的情 况下的聚类结果。对于有着几千,甚至几万的基因序列来说,显然这是不切实际 的。此外k m e a n s 算法对噪音比较敏感,而基因表达数据又包含大量的噪音、缺 值,这样就影响了聚类的精度。 2 2 2 层次聚类 层次聚类【5 算法不同于以上划分的聚类方法。它重在建立一系列层次嵌套的 类别,并把它们表示成一棵树的形式,通常叫做系统树图。树图的子树不仅包含 了类别信息还有类之间的相似性的信息。通过对树图在某一层的剪枝,可以得到 一定数量的类别。层次聚类可进一步分成两类,一种是自下而上的凝聚 ( a g g l o m e r a t i v e ) 似的聚类,另一种是自上而下的分裂( d i v i s i v e ) 似的聚类。前一种 方法是把每个数据看作是一个类别,在每一步中把最相似的类别聚到一类,直到 聚成一个类别为止。它需要计算类别之间的相似性,由于计算相似性的不同,产 生出很多不同的算法。后一种方法正好相反,它是从一个类别开始,在每一步把 一类分成新的两类,直到只留下含有单个数据的类别为止。它主要采用基于启发 式规则的方法来选择把类别分开的算法。 层次聚类法有如下优点:第一,适用于任意形状;第二,适用于任意形式的 第二章研究方法概述 相似度或距离形式;第三,固有的对聚类粒度的灵活性。同时层次聚类也有其缺 点:第一,终止条件不很精确;第二,一旦聚类结果形成,一般不能重新构建聚 类来提高聚类性能;第三,难以适应动态数据集。 2 2 3 自组织映射方法 自组织映射【6 j ( s e l f - o r g a n i z i n gm a p ,简称s o m ) 网络是聚类分析中广泛使用 的一种无监督学习的神经网络,它通过自组织方式用大量的训练样本数据来调整 网络的权值。网络输出层不但能判断输入模式所属的类别,还能够得到整个数据 区域的大体分布情况,提取一组数据中的重要特征或某种内在规律性( 如分布特 征,或按某种特征聚类) 。而且自组织映射聚类分析允许将部分结构强加于簇中, 结果直观、易于理解,适合于复杂的数据,但作为神经网络算法,s o m 要确定的参 数太多,而且这些参数具有一定的经验性。 2 2 4 图理论算法 图理论算法【7 ,8 j 的原理就是把一个数据集彳,构建成一个邻接图的形式 g ( v ,e ) ,每一个数据点对应其一个顶点。一些聚类算法把数据点之间的相似度 的值赋作其边的权值,也有一些算法以极值0 或1 来表示,只有当两个数据点之 间的值是1 的时候,边才存在。这样聚类的问题就可以转换成在图中找其最小的 分割,或找最大团的问题。 ( a ) c l i c k 算法( c l u s t e ri d e n t i f i c a t i o nv i ac o n n e c t i v i t yk e r n e l s ) c l i c k 算法假设经过标准化之后,数据之间的相似性值呈正态分布。通过迭 代发现邻接图中最小的分割,把数据分成一系列相关的部分。它还采用两种方法 来更新分好的类别。接收( a d o p t i o ns t e p ) 方法将数据集中单个的数据类包括在 一个类中,并更新结果。聚合( m e r g i n gs t e p ) 方法就把两个超过预先设定的阙 值的两个类聚在一起。在s h a i n i r 7 这篇论文中作者将c l i c k 方法和s o m 方法,层 次聚类方法做了比较,发现c l i c k 方法在基因表达数据上的聚类性能要比另两种 要好。但是c l i c k 方法也存在一些问题,即容易产生聚堆。结果中产生的聚类划 分之间不平衡,有一个类的数据很多,其余只有一小部分。 ( b ) c a s t 方法( c l u s t e ra f f i n i t ys e a r c ht e c h n i q u e ) b e n d o r 8 首先引入了有关受噪声污染的团的模型( c o r r u p t e dc l i q u eg r a p h ) 。 他在这个模型中提出基因表达实验的复杂过程使得获得的表达数据产生了随机 的错误。他假设没有受过噪声影响的数据可以构成一个假设的图日( c l i q u eg r a p h 第二章研究方法概述 h ) ,这个图的每个完全子图都可以构成一个类别。图g 是由实际数据构成的图, 它可以看作是对图日的每一个边乘以一个系数口而派生出来的。现在的问题可 以归结为以最少的错误为代价从图g 中找到图h 。随后b e n d o t t 8 】在其论文中 给出了c a s t 算法。c a s t 算法不基于开始给定的类别的个数,只和定义的口有关。 2 2 5d h c 算法 j i a n 9 1 9 在其论文中提出了一个基于密度的新聚类算法来确定基因信息间的 类别。其基本思想是把基因想象成是一个很高维空间的致密区域。在其核心区, 数据紧靠在一起,有着很高的密度。外围则比较稀疏。一旦确定了核心区的数据, d h c ( d e n s i t y b a s e d ,h i e r a r c h i c a l ,c l u s t e r i n gm e t h o d ) 算法将聚类的结构描述成一个 二层的层次结构。第一层构造一个a t t r a c t i o n 树来描述致密区数据之间的关系。如 果数据越来越大的,就引入d e n s i t y 树,它包括了所有的a t t r a c t i o n 树。即每一个 d e n s i t y 的节点代表一个致密区域( a t t r a c t i o n 树) 。开始整个数据集是一个d e n s i t y 树,然后按某个标准来划分成几个子树。每个子树是原树的一个子节点( a t t r a c t i o n 树) ,然后再分直到每个子树只含有一个类别。d h c 算法能很好地把相互联系的 基因从噪声点中分离出来,因此抗噪能力强。但两层的层次结构使得其要考虑类 与类之间的关系,还要考虑数据之间的关系。因此复杂度比较高,并且需要两个 阙值口,五来表示致密区和稀疏区的划分,其值也比较难以确定。 2 3 多源信息融合 2 3 1 多源信息融合概述 多源信息融合l lo 】是指对多组传感器数据进行多级别、多方面、多层次的处理 和组合,从而产生新的有意义的信息。这里的传感器是广义的,泛指各种数据获 取系统和相关数据库等。 早在2 0 世纪7 0 年代末期,在一些公开出版的文献中就开始出现有关信息融 合的概念或名词。在其后的较长一段时期,人们普遍使用“数据融合”这一名词。 信息融合的功能可以概括为:扩大时空搜索范围,提高目标可探测性,改进探测 性能;提高时间或空间的分辨率,增加目标特征矢量的维数,降低信息的不确定 性,改善信息的置信度:增强系统的容错能力和自适应能力;随之而来的是降低 推理的模糊程度,提高了决策能力,从而使整个系统的性能大大提高。 近2 0 年来,人们提出了多种信息融合模型,其共同点或中心思想是在信息融 第二章研究方法概述 合过程中进行多级处理。现有系统模型大致可以分为两大类:一是功能型模型, 主要根据节点顺序构建;二是数据型模型,主要根据数据提取加以构建。在2 0 世 纪8 0 年代,比较典型的功能型模型主要有,u k 情报环、b o y d 控制回路( o o d a 环) ;典型的数据型模型则有j d l 模型,到2 0 世纪9 0 年代又发展了瀑布模型和 d a s a r a t h y 模型。 2 3 2 多源信息融合与数据挖掘 数据挖掘( d a t am i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) ,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可 理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘” 知识。数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏 差分析等。 数据挖掘着重模式的发现,而数据融合则着重于运用模式( 模型) 作识别。当 前的数据融合主要依赖于凭直觉建立的模型,但实际目标的行为相当复杂,难以 检测和分析,建模非常困难。利用数据挖掘的自动建模能力能有效地解决这个问 题。此外数据挖掘主要研究的是静态、单一数据集的挖掘。而实际应用中,数据 采集和组织也是一个重要问题。实际数据往往来自多个地方,并要付出代价。这 些数据不但结构不同,语义也不同,更可能是来自不同的样本,因而数据组合相 当困难。对此可以采用数据融合中常用的统计匹配的方法。因此需要数据挖掘和 数据融合技术全面集成,实现更高层次的智能分析,满足新的应用需求。 目前数据融合方法在数据挖掘中已经有着广泛的应用。 马玉祥等在文纠1 1 】中将数据融合技术用于网络故障管理数据的预处理阶段, 并通过定义与深入分析故障告警中的关联规则和情节规则,提出了一个基于数据 融合和数据挖掘技术的网络故障管理的架构模型。 胡英等在文章【l2 】中提出了一种结合数据融合和数据挖掘技术的信息智能处 理平台。文章中他们阐述了平台的功能和组成、知识表达和建模、知识推理和决 策,并介绍了其在目标检测识别和医疗监护等领域的应用。 邱生春在文章【1 3 】中从数据挖掘和数据融合技术应用的角度,结合天气预报和 决策气象服务的实际工作特点,探讨了数据挖掘和数据融合在新一代天气预报和 决策气象服务平台应用的系统框架。 2 3 3 在基因聚类分析中的应用 2 0 世纪9 0 年代初期人类基因组计划( h u m a n g e n o m ep r o j e c t ,简称h g p ) 的全 第二章研究方法概述 面启动,生物信息学( b i o i n f o r m a t i c s ) 这一新兴的交叉学科应运而生。随着生物信 息学的诞生及发展,使得基因、蛋白质的结构和功能数据,各种疾病相关数据及 生物文献数据都飞速增长。聚类作为数据挖掘中一种重要的知识发现模式,被用 于d n a 微阵列数据的分析,预测基因的功能和结构,或从d n a 序列中识别编码蛋白 质的基因,以及调控基因表达的各种信号,预测蛋白质的功能和结构等。 由于d n a 微阵列数据的复杂性( 随机性,噪音,缺值等) ,没有一种聚类算 法对所有的情况都是适合的,并且聚类方法往往只是从基因表达数据一个方面来 分析基因的结构和功能,仅仅一方面的知识还无法很好地来理解一个基因组的复 杂信息。此外有关基因信息的描述除了d n a 微阵列数据以外,还有g e n e o n t o l o g y ( 基因本体数据) 、各种p a t h w a y 数据、蛋白质数据、基因序列以及相 关的文献数据等等。如何将这些与基因有关的数据应用到对基因信息的聚类中 去,获得有意义的簇,这也是一个值得研究的问题。 于是有人提出了将多源信息融合的方法应用到基因表达数据的聚类中来,从 而可以从多个角度来了解基因组,对其结构和功能有更全面的分析和判断。 随着研究的深入,信息融合不仅仅只局限于使用不同方法对同一数据进行处 理,使用得到的结果来支持基因表达数据的聚类,此外还可以把信息融合技术用 在一个大的系统范围的应用上。比如对一个基因组数据的分析,不同的数据就可 以用不同的分析方法。 目前研究者们提出了一系列融合多源数据来支持聚类的方法。 a i d o g nz h a n g 等提出了一种结合g e n eo n t o l o g y 和m i c r o a r r a y 数据的特征选 择方法【l 】。该方法首先计算注释基因的g ot e r m 的重要性。较高分值的g ot e r m s 表示与样本类别具有高的相关性。从而被较高分值的g ot e r m s 注释的基因具有高 的信息量而被保存下来。 k u s t r a 等提出了一种组合基因表达相似和g e n eo n t o l o g y 相似两种度量的 p a m ( p a r t i t i o n i n ga r o u n dm e d o i d s ) 算、法 1 4 。组合的相似性度量公式为: d i s c 。6 = 五d i s 。x p ,+ ( 1 一兄d i s g d ) 公式( 2 2 ) 其中如。与咖g d 分别表示基因表达数据的相似性和g e n eo n t o l o g y 注释基 因的相似性,名是两种度量在组合相似性中所占的比例。该公式对植入更多的相 似性度量具有很好的扩展性。 z h u of a n g 等【3 j 提出了基于生物领域知识指导的基因表达数据聚类方法。该 方法借助于构造注释基因的g e n eo n t o l o g yt e r m s 树,来指导聚类过程的进行。对 y e a s ts a c c h a r o r n y c e sc e r e v i s i a e 数据集的测试实验,取得了较好的效果。 第二章研究方法概述 w e ip a n 提出了一种植入基因功能信息作为先验概率的基于模型的 m i c r o a r r a y 数据聚类分析【l5 1 。该方法将从m i p s 数据库获得的基因功能信息作为先 验信息,利用基于混合模型的贝叶斯聚类方法来聚类m i c r o a r r a y 数据。模拟试验 结果明显优于单纯的模型聚类方法。 n o r a 【l6 】等提出了一种结合最小生成数算法和局部搜索的超启发式算法 m s t - m a ( m i n i m u ms p a n n i n gt r e e s m e m e t i ca l g o r i t h m s ) 。这种算法融合了基因表 达信息和基因本体信息,取得了很好的效果。 具体方法如下: d c o r a b ( z f ,x ,) = w e x p ,d 。咿( x f ,x ,) 。m + u 。以。( 石f ,x ) ,删 公式( 2 3 ) 在文献中系数w 。叫= w s 。= 0 5 。d e x p r ( x ,x a 。m 和d , e m ( 薯,x 。m 分别表示 基因表达信息和基因本体信息的相似性度量距离,其度量采用的是皮尔森相关系 数的方法。 c h e n g y o n gy a n g 等采用了基因表达信息和基因文本信息构造了一个新的聚 类算法m s c 1 7 】。它扩展了k m e a n s 算法,并且可以从多个资源中随机搜索获得数 据信息,实验表明其性能比特征层次的融合更加优秀。 m a r k u s 和c a r s t e n 在其文献 18 】中使用了两种不同的方法来对基因表达信息和 基因本体信息进行c o c l u s t e r i n g 。一种是简单的线性组合方法( 公式2 4 ) ,另一 种是基于两次的层次选择方法。 1 d w ( g ,e ) := ( 1 一们d ( g ,g ) + w d g d ( g ,g ) 公式( 2 4 ) 其中0 w 1 ,d ( g ,e ) 和d g 0 ( g ,c ) 分别表示基因表达距离和基因本体距离。 2 对所有的类别c ”,e ,将其按照基因表达距离d ( g ,e ) 的长度进行由高到 低的排列,然后在其前研个类别中,选择最短本体距离d g o ( g ,c ,) 的类别。这样 在结构相似的基础上再选择功能相似的类别,同时保持了两者在c o c l u s t e r i n g 中 的重要性。 2 4 现存方法存在的问题 a 由于基因表达数据的特征非平衡问题,使得普通的聚类算法对基因聚类的时 候所得到的效果不是很明显;无法对聚得类别进行有效的评价以判断聚类的 第二章研究方法概述 有效性,只能和已有的结果做比较提出算法的精确和速度上的优势。然而对 基因的聚类不仅仅局限于其精确和速度,更在乎研究基因结构和功能上的特 性,为进一步的研究做好基础。 b 基于基因融合的基因聚类方法虽然提出了一些融合的策略和关于有效性的 评价的一些方法,但目前的研究还处于探索性阶段,缺乏广泛接受的信息融 合策略及融合哪些信息。比如目前大部分方法借助于g e n eo n t o l o g y ,而 k e g g 、m i p s 及g e n eb a n k 序列信息等数据库,同样含有大量的有价值信 息。如何融合这些信息,推导出稳定的、生物意义上致的基因类族,仍然 是生物信息学研究的一个挑战性任务。 第三章多源数据的获取 3 1 引言 第三章多源数据的获取 多源信息融合方法是将各种数据获取系统和相关数据库的数据进行多级别、 多方面、多层次的处理和组合,从而产生新的有意义的信息的一种信息处理方法。 如何从多个数据源中获取自己所需要的数据是应用该方法的重要环节。 本文从网上分别获取y e a s t 基因组的基因表达数据,基因本体数据和 k e g gp a t h w a y 数据,并对其进行的相应的预处理,使得满足实验的需要。本文 研究的主要内容如下图: 图3 1 多源信息融合流程图 首先是网上公用y e a s t 数据的获取,这里包括基因表达数据、基因本体数据 第三章多源数据的获取 和k e g gp a t h w a y 数据三大类。其中k e g gp a t h w a y 数据和基因本体数据是以映 射文件形式存在的,每一个k e g gp a t h w a y 类别包含一个到几十个基因本体数 据。然后对得到的数据需要先进行预处理,然后才能进行数据的相似性度量。接 下来是基因本体和基因表达数据的相似性度量,前者使用b i o c o n d u c t o r 软件来计 算相似性,后者则使用欧氏距离的方法来计算。再后是结合相似性度量的聚类, 包括数据融合和聚类两部分。融合算法主要有线性融合算法和基于排列的融合算 法两种,我们将会给出详细的介绍。聚类算法采用的是基于划分的p a m ( 中心 点划分) 算法,它和k m e a n s 算法类似,在已知聚类类别k 的情况下,收敛速 度快,执行时间短。最后是对聚类结果进行评价,本文中我们用k e g gp a t h w a y 信息对聚类结果进行评价。k e g gp a t h w a y 将基因从生物生化的功能上进行划分, 可以比较好的了解基因参与了哪些细胞的活动,从而研究其在生物学上的意义。 本章的安排如下:3 2 节介绍本文研究所使用到的数据源,3 3 节介绍实验的 数据准备工作:包括数据的下载,数据预处理,以及处理数据时用到的一些软件, 3 4 节是本章重点,介绍一下两种数据的相似性度量方法。 3 2 数据源介绍 本文中我们用到了基因信息的三种数据:基因表达数据、基因本体数据、 k e g gp a t h w a y 数据。基因表达数据是用d n a 微阵列技术在各个实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 党校试讲题库及答案
- 期末冲刺考试题(押题卷)
- 2025年新能源汽车自动驾驶技术发展与车险产品市场潜力研究报告
- 2025年新能源汽车电池供应链绿色化发展报告
- 2025年智能电网行业市场前瞻:智能电网在电力系统安全防护中的应用报告
- 2025年泰州音乐美术试卷及答案
- 宠物食品OEM市场细分需求与OEM产品创新研究报告
- 2025年新能源企业危机公关处理策略与案例解析报告
- 潞河招生考试题目及答案
- 贵州公共基础试题及答案
- 安静与智慧主题班会课件
- 危险货物道路运输规则第4部分:运输包装使用要求(JTT617.4-2018)
- 2024年四川省成都市中考数学真题及答案解析
- 部队军事体能训练课件
- 狗猫鼠全文赏析课件
- 国有企业外部董事个人履职报告
- 船舶拆解资金管理办法
- 增值税发票培训知识课件
- 家政服务企业社会责任报告样本
- 2025年对酒驾醉驾问题谈心谈话记录内容范文
- 【《以儿歌为载体的小班幼儿生活自理能力提升路径分析》11000字】
评论
0/150
提交评论