(系统分析与集成专业论文)基于数据挖掘的基因调控网络集成分析系统的算法设计与实现.pdf_第1页
(系统分析与集成专业论文)基于数据挖掘的基因调控网络集成分析系统的算法设计与实现.pdf_第2页
(系统分析与集成专业论文)基于数据挖掘的基因调控网络集成分析系统的算法设计与实现.pdf_第3页
(系统分析与集成专业论文)基于数据挖掘的基因调控网络集成分析系统的算法设计与实现.pdf_第4页
(系统分析与集成专业论文)基于数据挖掘的基因调控网络集成分析系统的算法设计与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(系统分析与集成专业论文)基于数据挖掘的基因调控网络集成分析系统的算法设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 0 0 4 年上海大学硕士学位论文 摘要 近几年生物芯片技术的发展,积累了大量的基因表达数据,扩大了基因表达数据库 的规模。这为基因组水平上研究基因表达调控关系奠定了基础。 基因调控网络的重构是一个崭新的研究领域。基因调控网络的研究不仅面临着重构 分子通路的问题,而且对揭示基因的功能和疾病的诊断具有十分重要的意义。 从基因表达数据到基因调控网络是一个数据挖掘的过程。分类、聚类、回归预报和 贝叶斯方法是基因表达数据挖掘的得力工具,对基因调控网络的建模和分析具有重要应 用价值。基因调控网络研究的方向包括对调控区的数据挖掘和在全局层次上或某特定的 局部对调控网络的建模和推断。从基因表达数据到基因网络分子通路重构必须完成数据 预处理、分类聚类和预报推断的过程。 已有的基因调控网络建模分析方法存在若干问题:采用静态模型,没有引进概率 选择;采用线性模型,难以反映真实复杂的调控关系;采用贝叶斯网络模型时,引 入多种假设为前提以及较大的计算量增加了应用和求解的困难和负担。 p b n 模型可以克服上述问题,它在标准布尔网络的基础上引进对父代基因集合的 概率选择,克服了模型的静态问题。p b n 模型遵循聚类和回归的思路,给模型的选择 留有宽阔的空间。但应用中的p b n 模型存在如下问题:1 在聚类技术上,大多采用硬 划分聚类方法。然而,来自基因表达数据库的连续表达数据经离散化处理后却带有模糊 性;2 在回归技术上,多采用参数回归的形式。在不清楚基因调控网络关系信息的情况 下,事先设定模型形式,存在背离实际的危险;3 建模分析过程未把数据处理环节涵括 在内:4 建模过程中对先验信息利用不够。 为克服上述问题l 、2 ,我们提出一种采用f c m 聚类和非参数回归结合的建模分析 方法。 在此基础上,考虑了上述问题3 、4 ,并基于数据挖掘的系统化思想,我们在p b n 的框架下了设计了一种用于基因调控网络推断的分析系统模型,其结构包括数据过滤 器、基因分类器和网络关系预报器。我们用经组合设计的基于互信息的模糊聚类方法, 完成分类任务;用组合了的具有探索性数据分析性质的核回归和p p 回归方法实现了基 因调控网络关系的预报。 我们的试验表明,选用最大树、f i s h e r 分类法和模糊f c m 聚类结合的方法构造分 类器,用核回归和p p 回归结合的方法构造预报器形成的用于基因网络推断的集成分析 系统具有较好的分析效果。 基因调控网络的研究尚处尝试阶段,我们的建模分析也是一种方法的尝试。我们将 进一步努力,致力于方法的改进和应用。 关键词:数据挖掘;基因调控网络;p b n 模型;f c m 聚类;p p 回归 2 0 0 4 年上海大学硕士学位论文 a b s t r a c t i nt h er e c e n ty e a r s w i t l lt h ed e v e l o p m e n to f b i o l o g i c a lc h i p st e c h n o l o g y , t h ed a t ao f g e n ee x p r e s s i o n ,w h i c h a c c u m u l a t e si n c r e a s i n g l y , e n l a r g e st h es i z eo fg e n e - e x p r e s s i o n d a t a b a s e t h i sl a i dt h ef o u n d a t i o no fs t u d y i n gg e n er e g u l a t o r yn e t w o r k sf r o mt h eg e n o m e l e v e l an o v e lr e s e a r c hr e a l mm a k e p l a c ef o r t h er e c o n s t r u c t i o no f t h eg e n er e g u l a t o r yn e t w o r k t h e s t u d yo f t h eg e n e r e g u l a t o r yn e t w o r k sr e q u i r e sr e b u i l d i n g m o l e c u l a rp a t h w a y , e s p e c i a l l y , f r o mw h i c ht h ei n f o r m a t i o na b o u tg e n ef u n c t i o nc a nb eo b t a i n e da n dp r o m o t et h ed i a g n o s i s o f d i s e a s e s d a t am i n i n gc a nf i n dt h eu s ei nt h e p r o c e s s f r o mg e n e - - e x p r e s s i o nd a t at o g e n e r e g u l a t o r yn e t w o r k a st h es 仃o n gm a t h e m a t i c a lt o o l s ,t h ea l g o r i t h m ss u c ha sc l a s s i f i c a t i o n , c l u s t e r i n g ,r e g r e s s i o na n df o r e c a s t ,a r eo fg r e a ti m p o r t a n c ei nm o d e l i n g a n di n f e r e n c eo ft h e g e n er e g u l a t o r yn e t w o r k s t h e r ea r et w od i r e c t i o n s a t p r e s e n tt os t u d yg e n er e g u l a t o r y n e t w o r k s :t h ed a t a - m i n i n gi nt h er e g u l a t o r yr e g i o na n dm o d e l i n gt h er e g u l a t o r yn e t w o r kf r o m g l o b a lo rl o c a ll e v e l t h et a s ko f d a t a p r e t r e a t m e n t ,c l a s s i f i c a t i o no rc l u s t e r i n g ,a n dp r e d i c t i o n a n di n f e r e n c em u s tb et a k e nf r o mg e n e - e x p r e s s i o nd a t at op r o b a b i l i s t i cg e n en e t w o r k so r m o l e c u l a r p a t h w a y t h e r ea r es o m ep r o b l e m sa n dd e f e c t si nt h ea l r e a d ye x i s t e dm o d e l sa n dm e t h o d so f t h e r e c o n s t r u c t i o no f g e n er e g u l a t o r yn e t w o r k s f i r s to f a 1 1 t h es t a t i cm o d e li sa d o p t e dw i t h o u t c o n s i d e r i n gp r o b a b i l i t yc h o i c e ;s e c o n d ,t h el i n e a rm o d e l i ss ou s e dt h a tt h em o d e lw h i c hh a s b e e nr e b u i l tc a n n o tr e f l e c tt h er e a la n dc o m p l i c a t e dr e g u l a t o r yn e t w o r k ;l a s tb u tn o tl e a s t , s e v e r a la s s u m p t i o n sa r ei n t r o d u c e dw h i c hb r i n g sa b o u ts o m ei n c o n v e n i e n c ei na p p l i c a t i o n b a y e s i a n b e l i e fn e t w o r ki su t i l i z e d ,a n dt h eb a y e s i a nb e l i e fn e t w o r ka sal e a r n i n gm o d e li t s e l f h a sal a b o r i o u s c o m p u t a t i o nd u r i n gt h ep r o c e s so f r e s o l v i n g t h ep r o b l e m s p b nm o d e lo v e r c o m e st h o s e p r o b l e m s m e n t i o n e da b o v ew h i c hi n t r o d u c e s t h e p r o b a b i l i t yc h o i c ef o rf a t h e rg e n es e tb a s e do n t h es t a n d a r db o o l e a nn e t w o r ka n da v o i d st h e s t a t i cp r o b l e mo f t h em o d e l p b n m o d e l ,c o n f o r m i n g t ot h et h o u g h t so f u s i n gm e t h o do f t h e c l u s t e r i n ga n dr e g r e s s i o n t or e c o n s t r u c tt h eg e n en e t w o r k ,h a sac o m m o d i o u ss p a c et oc h o o s e m o d e l s b u tw ea l s oc a r ls e et h ep r o b l e m se x i s t i n gi nt h ep b nm o d e li na c t u a la p p l i c a t i o n f i r s t ,t h er i g i dp a r t i t i o ni so f t e na d o p t e dw h e nc l u s t e r i n gi st a k e n ,b u tt h ed i s c r e t et r e a t m e n t o ft h ec o n t i n u o u sg e n ee x p r e s s i o nd a t am a k e sf u z z y s e c o n d ,t h ep a r a m e t r i cr e g r e s s i o nu s e d i nt h e r e g r e s s i o ns t e p ,b r i n g s o m er i s k st od e v i a t ef r o mt h er e a l i t yb e c a u s ew es e t a h y p o t h e s i z e df o r mo f t h em o d e li na d v a n c ei nl a c ko ft h ei n f o r m a t i o no f t h er e l a t i o n s h i po f i i 2 0 0 4 年上海大学硕士学位论文 g e n er e g u l a t o r y 1 1 l i r d t h es t e po f d a t ap r e p r o c e s s i n gi sn o ti n c l u d e di nt h ea n a l y s i so f m o d e l f o u r t h ,t h ep r i o ri n f o r m a t i o ni sn o tm a d eg o o du s eo fi nt h ep r o c e s so fc o n s t r u c t i n gt h e m o d e l i no r d e rt og e to v e rt h ef i r s ta n ds e c o n dp r o b l e ma b o v ew e p r o p o s et h ec o m b i n a t i o no f f c m c l u s t e r i n ga n dn o n p a r a m e t r i cr e g r e s s i o nt os e tt h e m o d e l w i m c o n s i d e r i n gt h e t h i r da n df o u r t hp r o b l e mw e d e s i g na ni n t e g r a t i v ei n f e r e n c em o d e l f o ra n a l y s i so f g e n er e g u l a t o r yn e t w o r kb a s e do nt h es y s t e m a t i ct h e o r yo fd a t a - m i n i n g ,w h i c h i sc o m p o s e do fad a t af i l t e r , ag e n ec l a s s i f i e ra n dan e t w o r kc o r r e l a t i o np r e d i c t o r af u z z y c l u s t e r i n ga l g o r i t h m w h i c hi sc o m b i n a t i o no faf e wa l g o r i t h m sb a s e do nt h em u t u a l i n f o r m a t i o n ,i sd e s i g n e dt oc l a s s i f yt h eg e n e s ,p p ri sc o m b i n e d 、i t l lk e r n e lr e g r e s s i o nt o f u l f i l lt h ef u n c t i o no f p r e d i c t i o nf o rt h ec o r r e l a t i o no ri n t e r r e l a t i o nb e t w e e no ra m o n g t h e g e n e s o u re x p e r i m e n tg i v e so u tt h ev a l i dr e s u l t so ft h ec l a s s i f i e ra n dp r e d i c t o rw eh a v e d e s i g n e dw h e n i ti su s e di nt h er e a lg e n ee x p r e s s i o nd a t a :m y e l o i dl i n eg e n e se x p r e s s i o nd a t a a tp r e s e n t , t h er e s e a r c ho fg e n er e g u l a t o r yn e t w o r ki si nt h es t a g eo fe x p l o r a t i o na n d e x p e r i m e n t ;o u r m e t h o di sa l s oa n a t t e m p t w ew i l lc o n t i n u e t oa p p l yo b rm i n dt ot h es t u d yo f t h em e t h o d k e yw o r d s :d a t am i n i n g ;g e n er e g u l a t o r yn e t w o r k ;p b nm o d e l ;f c mc l u s t e r i n g ;p p r e g r e s s i o n i i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特另, j j n 以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:日期 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:日期 本文的研究工作受上海市重点学科 建设项目及国家8 6 3 高技术研究发展计划项 h ( 2 0 0 2 a a 2 3 4 0 2 1 ) 资助。 2 0 0 4 年上海大学硕士学位论文 1 1 课题提出的背景 第一章绪论 如果说2 0 世纪是物理世纪的话,那么2 l 世纪可喻为生物世纪。上世纪八十年代末 启动的人类基因组计划将生命科学研究推向了大科学范畴。历时十年的人类基因组计划 在现代生物技术的支撑下不仅产出了海量的生物学数据,丽且孕育了- - f q 崭新的学科一 生物信息学。如何从海量的生物学数据中有效地挖掘信息,揭示生命的奥秘,是生物信 息学研究必须面对的重大课题。 目前,基因调控网络的预测和重构是生物信息学研究中的一个崭新的研究领域。它 试图利用基因表达数据,运用数据挖掘技术,反向挖掘基因间的关联信息,通过可视化 技术再现基因间相互作用的网络拓扑结构,揭示基因复杂的作用机理及基因功能信息。 近年来,癌症和肿瘤研究的一个重要动向,是借助基因调控网络,分析细胞代谢通路, 在分子水平上弄清癌症和肿瘤发生过程中到底发生了什么,这对于揭示癌症和肿瘤的 “奥秘”非常重要。基因调控网络的重构是一个富于探索性的研究课题,它尚处于研究 的初期阶段。基于系统科学的观点,基因调控网络的研究是借助于数学、统计学、计算 科学、智能科学、信息学的方法,从数据出发,层层深入,最终生成关系网络。从数据 到网络是一个数据预处理,分类、聚类和预测的过程,在此过程中,须根据实际需要选 用合适的算法,优化组合,完成数据处理和信息开采、知识挖掘的任务。 随着后基因组时代对功能基因组研究的深入,重构基因表达调控网络的需求日益增 加。本文正是基于这样的需求,进行了一些尝试。 1 2 数据挖掘及方法概述 计算机科学的进步有力地促进了数据采集、处理和储存技术的发展。目前,全球为 各行各业服务的数据库数量和规模日益庞大。生物数据库尤其如此。面对庞大的数据资 源,一般管理系统的查询检索机制和统计分析方法已无法有效地满足应用的需要。数据 挖掘正是在这样的应用需求背景下产生并迅速发展起来的一个重要的研究领域。 数据挖掘的提出始于1 9 8 9 年3 月在美国底特律召开的第1 l 届国际人工智能联合会 议。1 9 9 3 年i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 率先出版了k d d ( k n o w l e d g e d i s c o v e r y i nd a t a b a s e s ) 专刊。1 9 9 5 年召开了第一届知识发现和数据挖掘国际学术会议该 会议,1 9 9 8 年建立了新的学术组织a c m s i g k d d ( s p e c i a li n t e r e s t e dg r o u p o n k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,a c m 下的数据库中的知识发现专业组) ,其发展非 常迅速。我国对数据挖掘的研究较晚,但发展较快。目前,国内许多高等院校和科研单 2 0 0 4 年上海大学硕士学位论文 位,如清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等都开 展该方面的研究。他们研究的内容包括模糊方法在知识发现中的应用、数据立方体代数、 对关联规则开采算法的优化和改造,非结构化数据的知识发现以及w e b 数据挖掘等。 随着数据挖掘研究的深入和应用,数据挖掘越来越受到人们的重视。 1 2 1 数据挖掘的概念及过程 数据挖掘( d a t am i n i n g ,d m ) ,简单地说,就是从大量数据中提取或“挖掘”知识【l 】, 由于与数据库密切相关,数据挖掘又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,k d d ) 。但就某种意义上说数据挖掘只是知识发现过程中的一个基本步骤。 数据挖掘比较公认的定义是由wj f r a w l e y , gp i a t e t s k y , s h a p i r o p 等【2 j j 提出的: 数据挖掘就是从大量的数据中提取出入们感兴趣的知识。这些知识是隐含的、事先未知 的潜在有用信息,并将提取的知识表示为概念、规则、规律、模式等形式。 该定义指出了数据挖掘的对象、特征、及结果形式。数据挖掘是从大量的、不完全 的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道 的、但又是潜在有用的知识的过程,这些知识包括信息、模式和趋势。 人们把数据挖掘看作从矿石中采矿或淘金一样地从数据中获取知识。因此称为数据 挖掘。挖掘的原始数据可以是结构化的,如关系数据库中的数据:也可以是半结构化的, 如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是 数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于 信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数 据挖掘是一门交叉学科,它涉及数据库技术、人工智能技术、数理统计、可视化技术、 并行计算等众多领域。 数据挖掘着重于设计高效的算法以达到从巨量数据中发现未知的知识的目的。这也 是本文着重强调的方面。 数据挖掘是个复杂的、动态的数据分析处理过程。由u m ,f a y y e d , g p i a t e t s k y s h a p i r o 等人提出的多处理阶段模型( 参见文献 4 】) 是数据挖掘过程的重要 的概括,但我们认为这应该被看作知识发现的全过程,本文着重强调如下几个方面: 1 数据预处理 主要是对采集的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪 音进行处理,对丢失的数据可以利用统计方法进行填补;把加工后的数据进行适合于挖 掘的形式转换等。 2 数据挖掘 根据知识发现任务的要求,选择合适的数据挖掘算法( 包括选取合适的模型和参 数) ,从数据中提取出有趣的知识,这些知识可以用一种特定的方式表示或使用一些常 2 2 0 0 4 年上海大学硕士学位论文 用的表示方式。 3 模式解释 对发现的模式进行解释。在此过程中,为了取得更为有效的知识,可能会返回到前 面处理过程中的某些步骤以反复提取,从而挖掘出更有效的知识。 4 知识评价 将发现的知识以可理解的方式呈现出来。也包含对知识的一致性的检查,以确信本 次发现的知识不与以前发现的知识相抵触。 1 2 2 数据挖掘的方法及应用 数据挖掘是建立在关系数据库、事务数据库和数据仓库的基础上的,任务一般可分 为两类:分类和预测。在进行数据挖掘之前未必必须建立数据仓库,但需完成数据集成、 数据清理等数据预处理的任务。 挖掘技术和算法的研究是目前最集中的研究领域。数据挖掘功能以及可以发现的模 式包括:概念类描述、关联分析、分类和预测、聚类分析、孤立点分析和演变分析等 概念类描述:特征化和区分。这主要是指用汇总的、简洁的、精确的方式描述每个 类和概念。 关联分析:关联分析即是发现关联规则,这些规则展示属性值频繁的在给定数据 集中一起出现的条件。 分类和预测:分类指找出描述并区分数据类或概念的模型( 或函数) ,以便能够使用模 型预测类标记未知的对象类。导出模型是基于对训练数据集( 即其类标记己知的数据对 象) 的分析。 聚类分析:与分类和预测不同,聚类分析,不考虑已知的类标记。对象根据最大化 类内的相似性、最小化类闯的相似性的原则进行聚类或分组,使得每个组内的对象具有 很高的相似性,而与其它组中的对象很不相似。 孤立点分析:数据库中包含的一些与其它数据的一般行为或模型不一致的数据对 象称为孤立点,在一些应用中。罕见的事件可能比正常出现的那些更有价值,孤立点分 析即是对孤立点进行挖掘。 演变分析:数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。 尽管这可能包括前述的些功能,但这类分析的不同特点包括时间序列数据分析、序列 或周期模式匹配和基于类似性的数据分析。 数据挖掘吸纳各个学科中的技术成果成为挖掘的技术和方法。传统的统计方法、决 策树、聚类、集合论、关联规则,近年来,还有一些软计算方法也引入到数据挖掘领域 中来,如粗糙集理论、人工神经网络、遗传算法和机器学习等等。其方法、技术在不断 地创新之中。 2 0 0 4 年上海大学硕士学位论文 数据挖掘作为- - f l 新兴而飞速发展的学科,在其成功应用的同时还面临着许多挑战 性的课题和有前景的发展方向。尤其如下两个方面格外引人注目: 应用领域的探索:这是数据挖掘最吸引人的地方,也是推动数据挖掘发展的根本动 力。一方面,数据挖掘需要向更多的应用领域渗透和扩展。另一方面,需要开发更多面 向应用的数据挖掘系统和产品,适应人们对隐含于海量数据中的知识的需求。 挖掘技术和算法的研究:它包括为各种各样的挖掘任务寻找好的算法以及算法的改 进与优化、新技术新方法在数据挖掘中的应用、并行算法的设计与实现等。此外,数据 挖掘往往直接面对的是现实数据,因此对不完整、不确定或有噪声的数据以及各种不同 类型的数据进行处理也是数据挖掘必须解决的问题。 总之,现实中提出的新问题和面临的新课题,不断推动数据挖掘向更多学科寻求新 技术、新方法,这为数据挖掘提供了广阔的应用空间,也使数据挖掘有着广阔的发展前 景。 1 3 基因的表达调控和基因调控网络 1 3 1 基因的表达调控 基因表达的过程是首先由d n a 转录成r n a ,再由r n a 翻译成蛋白质。转录和翻译构 成了基因表达的过程。一个基因转录时,一组转录因子作用于该基因的启动子区域,调 控该基因转录,而这些转录因子同时又可能是其它基因的产物。因此,基因的表达和调 控形成一个复杂的网络系统,这个网络系统的正常运行维持着生物体的生命 基因的表达调控具有时一空两重性。时序控制包括基因表达的先后次序和相对强 弱;空间控制包括基因表达的区域( 细胞器,细胞,组织) 和环节。基因表达调控模式 实质上是核酸和蛋白质彼此内部和相互之间的相互作用。 生命活动中基因表达的改变是生物学研究的核心问题。对基因差异表达的研究可以 推断基因与基因的关系,细胞分化中基因“开启”和“关闭”的机制;揭示基因与疾病 的发生、发展及转归的内在联系。d n a 芯片技术可检测大量的m r n a 的转录,直接快 速地检测出极其微量的m r n a ,且易于同时检测成千上万的基因。 1 3 2 基因调控网络 从系统学的角度看,基因的表达调控是一个错综复杂的关系网络。一个基因通过表 达产物影响另一个基因及其表达。调控过程也是物质迁移、能量交换、信息交流的过程。 可以通过基因表达的量的关系反推基因网络。 基因网络的研究始于2 0 世纪6 0 年代,r a t e r 描述了控制原核生物的分子基因系统 组织的特点。另一项研究是通过简单的逻辑规则研究基因网络动力学( 1 9 6 9 , 2 0 0 4 年上海大学硕士学位论文 k a u f f m a n ) 。2 0 世纪9 0 年代实验数据的增加加速了基因网络理论的研究。到目前为止 已发展了很多研究基因网络的方法。如随机模型,布尔网络,门限模型以及基于微分方程 的方法等。 从基因表达数据研究基因调控网络被称为“逆向工程”i6 1 。基因调控网络研究的假 定前提是t 6 , 7 1 :如果两个基因序列谱( g e n ep r o f i l e s ) 相似,则这两个基因协同调控,并 可能功能相近:有同样表达模式的基因可能有同样的表达过程。这也是进行各种分析, 建立各种模型的前提。虽然该假设并不总是成立,但在揭示基因调控的重要潜在机制时 却很有用。在高等多细胞生物中,每个基因或蛋白质估计平均与4 8 个其它基因相互 影响,其中涉及1 0 项生物学功能。因此,整体的基因表达模式是局部调控催化反应的 联合作用的结果。在高度连通的细胞环境中把基因调控网络作为一个整体来理解是非常 重要的。 利用基因芯片进行数据采集和信息提取,进而研究基因调控网络,在生物学和医学 上具有重要意义。这主要表现在以下几个方面: 1 发现致癌基因群【g 】( g e n ec l u s t e r ) 。 现己确定在基因表达调控、机体免疫及细胞分化等重要生命过程中有许多相关基因 是成簇分布的,它们可以分布在染色体的不同区域上或不同的染色体上,在基因表达调 控的机制方面具有明显不同于单个基因的特性。其中各个基因是作为统一的整体进行调 节的,各基因在细胞分化,个体发育过程中保持高度的时空以及表达量的协调性。在肿 瘤发生、发展的复杂过程中,很可能存在着这样的相互协调的共表达基因群体。将肿瘤 生长的各个环节和阶段中的共表达的众多基因作为一个“基因群”进行研究,筛选与肿 瘤相关的多个环节上起作用的分子和起关键性调控作用的基因,在基因组水平上揭示肿 瘤的本质,对于控制肿瘤发展,开展有效的治疗具有重要意义。 2 研究基因功能 研究基因功能,确定基因与基因间的相互关系,从而揭示疾病发生、发展的分子机 制是基因表达芯片的最重要的用途之一。基因芯片的数据可以是来自不同个体,不同细 胞周期,不同分化阶段,不同病变,不同刺激的肿瘤组织或细胞内m r n a 的丰度水平, 依据这些数据进行聚类分析( 根据类别提供的基因功能线索提示) 可以绘制基因在不同 组织或条件下的特征图谱,并根据其图谱一致( 类似) 的已知基因的功能,推测来知基 因的功能。观察基因被阻断后在细胞和整体产生的表型变化即功能缺失突变 ( 1 0 s s o f - f u n c t i o nm u t a t i o n ) 研究。利用基因芯片对不同病理状态下基因差异表达进行 比较,可研究不同病理过程的肿瘤细胞中各种基因的表达情况,从而确定基因与既定病 变的关系。 3 发现非显性致癌基因 在癌症的研究中,所有的试验工具都偏向于显性致癌基因,在很大程度上忽视了非 2 0 0 4 年上海大学硕士学位论文 显性致癌基因的协同作用。实际上,往往是好几种基因的协同作用才导致了肿瘤的形成。 识别协同作用的非显性致癌基因,就需要搜集大量的实验信息,借助功能强大的计算机 实现对基因网络中复杂的基因调控关系的分析研究0 3 。通过研究基因调控网络可以识别 癌症治疗的药物靶标。 日趋完善的基因芯片技术为在基因组水平上研究基因调控网络提供了可能。到目前 为止已制备出几乎包含所有的酿酒酵母e d n a 芯片,使得在基因组水平上研究基因表 达改变与代谢途径变化的联系成为可能。 1 4 数据挖掘技术在基因调控网络方面的应用现状 1 4 1 生物信息学的知识发现 生物信息学自诞生以来,大体上经历了三个阶段:( 1 ) 基因年代的生物信息学:主 要是序列分析、数据库的查寻、蛋白质结构预测 ( 2 ) 基因组年代的生物信息学:主要 是基因的寻找、数据与数据之间的比较等;( 3 ) 后基因组年代的生物信息学,即功能基 因组学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分析的总结与分 析。功能基因组学的研究要将已知基因的序列与功能联系在一起:在疾病研究上,要从 单个基因致病机理的研究转向多个基因发病机理的研究:研究多基因病发病机理有必要 研究基因调控网络。 为了对多元基因及相应蛋白质问的功能和作用进行整体分析,弄清基因和相应蛋白 之间庞大而复杂的关联网,必须进行功能基因组的系统研究,必须有效地进行数据的采 集、收集、整理、检索、分析,引进新的方法进行算法的高效设计,从数据中提取知识 和规律。 1 4 2 功能基因组的基因表达分析 功能基因组学【l o 作为后基因组研究的核心内容,它强调发展和应用整体的( 基因组 水平或系统水平) 实验方法,分析基因组序列信息,阐明基因功能,其特点是采用高通 量的实验方法结合的大规模数据统计计算方法进行研究,其基本策略是从研究单一基因 或蛋白质上升到从系统角度次研究所有基因或蛋白。随着功能基因组实验研究的深 入,大量的数据不断的涌现,数据挖掘技术将在功能基因组学研究中的扮演重要角色。 人类基因组测序的完成,使科学家发现获得完熬的基因图谱离理解生命活动仍有千 里之遥。研究基因表达成了下一步研究的重要内容。而获得基因表达的信息比d n a 序 列测定艰巨的多,因为基因表达依赖于许多因素的动态过程。 国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层次上 的c d n a 芯片( e d n a 微阵列) 技术和蛋白质层次上的二维凝胶电泳和质谱技术,即蛋 6 2 0 0 4 年上海大学硕士学位论文 白质组( p r o t e o m e ) 技术。d n a 芯片技术能够在基因组水平分析基因表达,检测许多 基因的转录水平。对大规模基因表达谱的分析存在新的方法学问题,需要发展新的方法 和工具。同时,在芯片等的设计上,也需要有理论和软件的支持。 芯片分析能够检测不同条件下的基因转录变化,能够显示反映特征组织类型、发育 阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现后,产生了新的问题: 如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到己知功能分类 中? 能否将基因表达与基因功能联系起来? 能否发现新类型的共调控基因? 能否从芯 片表达数据中得到完整的基因调控网络? 这些唯有通过计算的方法。与基因制图及测序 所面临的问题相比,大规模基因表达分析的数学问题异常突出。这种新类型的表达数据 使我们直接面对生物系统和基因组水平功能的复杂性,从生物系统单个成分的定性发展 到完整生物系统行为的描述上来,这方面困难重重,目前只有很少的分析工具可用。 聚类分析是目前在大规模基因表达谱分析中使用最广泛的统计技术。斯坦福大学的 m i c h a e le i s e n 开发的w i n d o w s 平台芯片数据分析共享软件c l u s t e r 和t r e e v i e w , 采用配对平均连锁( p a i r w i s ea v e r a g e 1 i n k a g e ) 聚类分析。在这种方法中,每个不同的基 因与其他的基因进行比较,鉴定最相关的基因对。将这样的基因对的数据用平均数替代, 再重新计算关系矩阵,不断重复这个过程。t r e e v i e w 软件将c l u s t e r 的计算结果 处理成图形输出,将芯片中的每个基因的表达比值用彩色方块表示。 c l u s t e r 软件可以提供免费的在线聚类,使用起来很方便,并且结果以图形形式 输出,比较直观。但该软件的聚类算法存在缺陷。缺陷主要表现在:在计算中,实际数 据由每次重复的平均数据替代,这样不能保证聚类结果的准确;它将等级模型用于非等 级过程,也不能避免聚类效果的失真;另外,在计算中要反复进行矩阵的成对比较运算, 加重了计算的负担等。因此,采用自组织映射、二进制决定退火算法、k - m e a n s 聚类等 方法效果会更好一些。 发展数据可视化方法和工具是大规模基因表达数据挖掘的另一重要方面。上述 t r e e v i e w 软件已经发展了用简单的图形显示表示聚类结果的途径。对大规模基因表 达原始数据,研制高保真可视化计算显示并建立与注释过的序列数据库的链接,可为基 因表达分析提供非常有价值的工具,有助于从新的视角考察基因组水平的转录调控并建 立有效模型。 斯坦福大学已经建立了较大规模的基因表达数据库,这些数据库在基因表达研究方 面具有十分重要的价值( h t t p :w w w g e n o m e s t a n d f o r d e d u ) 。 1 _ 4 _ 3 数据挖掘在基因调控网络研究中的应用 当前,基因组数据挖掘研究的一个热点是:探索多基因相互作用的机制,揭示重大 疾病发生的基因组原理,即基因网络作用原理。这些研究将打破传统的“1 种疾病一1 个 2 0 0 4 年上海大学硕士学位论文 基因”的研究格局,逐步建立起“疾病基因组学”的研究大框架。 分类和聚类,回归和预测,神经网络,贝叶斯网络,支持向量机等这些技术已经应 用于基因调控关系的数据挖掘。并且已在基因网络的研究中发挥了重要的作用。也显示 了一些初步的成效。 对于基因的数据挖掘与通常的数据挖掘相比,无论在数据的复杂程度、数据量、分 析和建立模型的算法方面,都要复杂得多。从算法分析上讲,更需要一些新的和好的算 法。现在很多机构正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟 的地步。 1 5 本文的任务和工作 本文把数据挖掘的分类、聚类、预测和贝叶斯方法与基因表达调控网络的研究相结 合,在分析已有的基因调控网络建模分析方法的基础上,提出了一个基于p b n 模型的 集成分析系统的设计思路,设计了一种基因调控网络集成分析系统,并组合算法、用真 实数据予以实现。本文结构安排如下; 第一章绪论部分,首先简要地提出课题背景;然后,概述了数据挖掘的概念、方 法及发展概况;接着阐述了基因表达调控及研究基因调控网络的实际意义;最后叙述了 数据挖掘技术在基因调控网络方面的应用现状。 第二章研究了基因表达的数据挖掘技术。探讨了基因表达数据的形式和内容,讨 论了从数据学习网络的方法,阐述了基因调控网络统计分析的一般框架,分析了调控区 的数据挖掘和分子通路的重构问题,定义了基因表达的熵和互信息,把信息论的概念引 入基因表达的数学描述。 第三章分析了基因调控网络的建模分析方法,结合数据挖掘的分类聚类、回归预 报技术和贝叶斯方法,提出了用数据过滤器、数据分类器和网络关系预报器集成的方法 完成基因调控网络的分析建模,建立基因调控网络推断分析系统的系统化思路。 第四章在上述章节分析的基础上,设计了一种用于基因调控网络推断的集成分析 系统。采用适当的方法组合设计了用于数据预处理的过滤器、设计了用于基因分类的分 类器,设计了用于网络关系预报的p p 预报器,并用贝叶斯推断对判别规则进行了修正。 第五章利用真实的基因表达数据实际检验了第四章设计的基因调控网络集成分析 系统的分析推断功能。 第六章在对本文进行总结的基础上提出了以后的工作。 2 0 0 4 年上海大学硕士学位论文 2 1 基因表达数据 第二章基因表达的数据挖掘 r n a 水平上的表达数据可以通过从数据库或序列文库的数字表达读数器或 s a g e 【l i j 等技术获得,但大部分r n a 表达数据来自微阵列实验的信号强度。d n a 微阵 列广泛地应用于监控r n a 水平的基因表达,d n a 微阵列采用探针杂交和荧光技术获取 信息,提取原始数据( r a wd a t a ) ,目前d n a 表达数据主要来自:s p o t t e dd n a 微阵列 和高密度寡核苷酸基因芯片。无论用哪种实验平台,都要进行数据处理,把杂交信号转 换为数字,生成基因表达矩阵。基因表达矩阵的行表示基因,列表示实验条件。 c lc 2 龋璺辍 鞲 瞳2 1 1 基因衰达微阵尹4 如图2 1 1 所示,行代表3 个基因( g 1 ,g 2 ,g 3 ) ,列是实验 条件( c 1 ,c 2 ,c 3 ) 。阴影部分表示表达水平,颜色越深表明 0 1 表达水平越高。其对应的基因表达矩阵如下: 0 2 0 3 2 2 从表达数据学习网络 x 1 【1 】 x 2 【1 】 x 3 【1 】 x l 【2 厶【2 】2 屯 2 】 x 1 【3 1 x 2 【3 】 x 3 【3 】 其中g 3 在c 1 和c 3 及g 1 在c 3 下的表达水平( 或m r n a 的丰度) 比其他的情况下高,体现在表达矩阵的数值上就 不同。 学习网络问题解决的是如何从基因表达数据出发推断网络结构和关系。应该说基因 表达数据中蕴含着错综复杂的调控网络。网络的复杂主要包括网络关系的复杂和网络结 构的复杂。这些关系大部分都通过数据量化了。学习网络,更确切地说,从数据到得出 网络的过程,其中包含着大量的数据处理和信息挖掘的工作。但这个数据挖掘的过程并 不就是学习网络的问题。学习网络实际上是集成数据蕴含的信息,从中挖掘出数据中蕴 涵的调控规律。这个挖掘更具有探索性和前瞻性。 学习网络包括学习网络参数和学习网络结构。学习基因调控网络一般是“无监督学 习”,从平行的时间序列出发,把连续的时间序列谱离散化,通过聚类,获得每个选定 的靶基因的关联子集,再根据来自数据的确定度,确定基因的相互调控关系。调控关系 一旦获得,就可运用这种关系研究实际的需要解决的问题,譬如人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论