(系统分析与集成专业论文)dccluster软件的设计与开发.pdf_第1页
(系统分析与集成专业论文)dccluster软件的设计与开发.pdf_第2页
(系统分析与集成专业论文)dccluster软件的设计与开发.pdf_第3页
(系统分析与集成专业论文)dccluster软件的设计与开发.pdf_第4页
(系统分析与集成专业论文)dccluster软件的设计与开发.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(系统分析与集成专业论文)dccluster软件的设计与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 随着人类基因组计划( h g p ) i 鬟j 完成以及分子生物学等相关学科的发展,基 因组学的研究重心从揭示生命的所有遗传信息转移到分子水平的功能研究上。 后基因组学强调发展和应用整体的实验方法,分析基因组序列信息、阐明基因 功能。其任务是进行基因组功能注释,了解基因的功能,认识基因与疾病的关 系,掌握基因的产物及其在生命活动中的作用。生物信息学的研究重点也从基 因组序列转移到序列的生物学意义的研究上。在后基因组时代,生物信息学主 要研究基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信 息,分析基因及其产物的功能。随着功能基因组研究的深入,产生了海量的生 物数据。如何有效地利用这些数据,研究基因的表达调控机制,研究基因在生 物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,已经成为 生物信息学在功能基因组学研究的重要任务。 生物信息学是处理生物分子信息、揭示生物分子信息内涵的一种技术,它 在基因芯片研究与应用中起着重要的作用。从确定基因芯片检测对象到基因芯 片设计,从芯片检测结果分析到实验数据管理和信息挖掘,无不需要生物信息 学的支持和帮助。 生物信息学现有的许多方法都可以直接应用于基因芯片,如序列比较方法、 片段组装方法、聚类方法等。然而,基因芯片研究与应用又对生物信息学提出 了许多新的问题。数据挖掘问题就是其中之一。基因芯片所产生的数据相当多, 并且与其他数据有关联,如何分析这些数据之间的关系、挖掘其中的知识,是 一个十分重要的问题,而目前生物信息学中数据挖掘也是一个有待发展的研究 方向。 目前,基因芯片的数据挖掘已成为生物信息学研究的热点之一,引起了广 泛的重视。特别是高密度的d n a 微阵列,由于其荷载了成千上万个d n a 片段, 可用于高通量的生物学检测,其开发和利用已进入商业化阶段,而其数据处理 和数据挖掘更受关注。鉴于此,我们开发了一个处理和分析基因芯片数据的完 全自动化的系统d cc l u s t e r 。文中的第五章详细介绍了用c c + + 语言编码的 d c 系统的总体设计流程,从软件系统结构、数据文件的格式、基因_cluster v 上海丈学硕士学位论文 表达谱聚类分析、基本表达差异的显著性分析等几个方面对软件的设计和实现 功能进行了详细阐述,着重介绍了聚类分析、基本表达差异的显著性分析所应 用的相关算法和设计过程。并且用酵母基因芯片对系统的预测精度进行了检验, 检验证明系统分析结果的正确性达到分析要求。因此它将是基因芯片研究中有 用的辅助工具。 关键词:生物信息学、基因芯片、聚类分析、差异基因; 上海大学硕士学位论文 a b s t r a c t g e n ee x p r e s s i o nm i c r o a r r a y sa r eap r o m i n e n te x p e r i m e n t a lt o o lf u n c t i o n a l g e n o m i c s t h e yh a v er e v o l u t i o n i z e db i o l o g i c a lr e s e a r c hb yp r o v i d i n gg e n o m e w i d e s n a p s h o t so ft r a n s c r i p t i o n a ln e t w o r k st h a ta r ea c t i v ei nt h ec e l l t h i so p e n st h e o p p o r t u n i t yf o rg a i n i n gg l o b a l ,s y s t e m s - l e v e lu n d e 塔t a n d i n go fc e l l u l a rp r o c e s s e s m i c r o a r r a yp l a t f o r m sf o rm e a s u r i n gt h ee x p r e s s i o nl e v e l so fm o s to ra l lg e n e so fa l l o r g a n i s ma r ea v a i l a b l ef o rav a r i e t yo fo w 卿s m sr a n g i n gf r o my e a s tt oh u m a n e x p e r i m e n t st h a tu s et h i st e c h n o l o g yt y p i c a l l yg e n e r a t eo v e r w h e l m i n gv o l u m e so f d a t a , u n p r e c e d e n t e di nb i o l o g i c a lr e s e a r c h , w h i c hm a k e st h et a s ko fm i n i n g m e a n i n g f u lb i o l o g i c a lk n o w l e d g eo u to ft h er a wd a t aam a j o rc h a l l e n g e h e n c e , e x p l o i t a t i o n o fg e n ee x p r e s s i o nd a t ai s f u l l yd e p e n d e n to nt h ea v a i l a b i l i t yo f a d v a n c e dd a t aa n a l y s i sa n ds t a t i s t i c a lt o o l s m a n ya l g o r i t h m sa n ds o f t w a r et o o l sf o r a n a l y s i so fm i c r o a r r a yd a t aw e r ed e v e l o p e di nr e c e n ty e a r s ,i n c l u d i n gs o p h i s t i c a t e d m e t h o d sf o rs i g n a le x t r a c t i o na n da r r a yn o r m a l i z a t i o nc l u s t e r i n ga n ds t a t i m i c a l i d e n t i f i c a t i o no fo v e r - r e p r e s e n t e df u n c t i o n a lc a t e g o r i e sa n dp r o m o t e rm o t i f s a t p r e s e n t , o fs p e c i a ln e e da l ei n t e g r a t i v es o f t w a r ep a c k a g e st h a tp r o v i d eu s e 髂w i t ha s e to fa l g o r i t h m sc o l l e c t i v e l yc o v e r i n gt h ew h o l er a n g eo fs t e p si nm i c r o a r r a yd a t a a n a l y s i s , t h e r e b ys i g n i f i c a n t l yb o o s t i n gt h ea n a l y s i sf l o wa n dt h er e s e a r c h e r sa b i l i t y t od e d u c em e a n i n g f u lb i o l o g i c a lc o n c l u s i o n sf r o mt h eo v e r w h e l m i n gv o l u m eo f r e c o r d e dd a t a h e r ew ep r e s e n tt h ed c _ c l u s t e r ( d n ac h i po u s t e 0s o f t w a r ep a c k a g e d cc l u s t e ri sa ni n t e g r a t i v ep a c k a g ef o rt h ea n a l y s i so fg e n ee x p r e s s i o nd a t a , d e s i g n e da sa o n e s t o ps h o p t o o lt h a ti m p l e m e n t sv a r i o u sd a t aa n a l y s i sa l g o r i t h m s r a n g i n gf r o mt h ei n i t i a ls t e p so fn o r m a l i z a t i o na n df i l t e r i n g , t h r o u g hc l u s t e r i n gt o h i g h l e v e lf u n c t i o n a le n r i c h m e n t a n a l y s i st h a tp o i n t st ob i o l o g i c a lp r o c e s s e st h a t a l ea c t i v ei nt h ee x a m i n e dc o n d i t i o n s d e _ c l u s t e r i n t e g r a t e dc a p a b i l i t i e s a n di t sb u i l t i n s u p p o r t o f v i i 上海大学硕士学位论文 m u l t i p l eo r g a n i s m sm a k e i tav e r yp o w e r f u l t o o l f o ra n a l y s i so fm i c r o a r r a y d a t a k e y w o r d s :d n a c h i p ;m i c r o a r r a y ;b i o i n f o r m a t i o n ;c l u s t e r a n a l y s i s ;d i f f e r e n t g e n e ; v 1 1 1 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:一导师签名:日期: i l 上海大学硕士学位论文 第一章绪论 生物信息学和基因芯片是生命科学研究领域中的两种新方法和新技术。生 物信息学与基因芯片密切相关,生物信息学促进了基因芯片的研究与应用,而 基因芯片则丰富了生物信息学的研究内容。 生物系统通过存储、复制、修改、解读遗传信息和执行遗传指令进行特定 的生命活动,产生生物进化。从信息学的角度来看,生物分子是生物信息的载 体,如d n a 序列存储了蛋白质序列的编码信息,蛋白质序列决定蛋白质在生物 体中的结构,而蛋白质结构又决定了蛋白质的功能。因此,归根到底,d n a 序 列包含了最基本的生物信息。生命的信息存贮在由a 、t 、c 、g 这4 个字符所表 征的核苷酸组成的d n a 序列中。基因芯片是一种提取生物分子信息的有力工具, 通过基因芯片可大规模并行提取d n a 或r n a 信息。对基因芯片所获取的信息进 行分析和处理,可以发现信息之间的关系,挖掘隐含的生物学知识呻1 。 i 1 生物信息学简介 1 1 1 什么是生物信息学 随着人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 的顺利实施和各种后 基因组计划的开始,涌现出海量的生物分子数据。目前,生物分子数据量每1 5 个月就要翻一番。这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前 尚不知道的生物学知识。充分利用这些数据,通过数据分析,揭示这些数据的 内涵,获取对人类有用的信息,是科学家们所面临的一个严峻的挑战。生物信 息学就是为迎接这种挑战而发展起来的一门新兴学科,它是由生物学、数学、 计算机科学相互交叉所形成的学科,是当今生命科学和自然科学的重大前沿领 域之一脚。它所研究的材料是生物学的数据,而它进行研究所采用的方法,则 是从各种计算技术衍生出来的”。 什么是生物信息学哪? 生物信息学是研究生物信息的采集、处理、存储、 上海大学硕士学位论文 传播、分析和解释等各方面的一门学科,它通过综合利用生物学、计算机科学 和信息技术,揭示大量而复杂的生物数据所蕴藏的尘物学奥秘。基因组信息学、 蛋白质空间结构模拟以及药物设计构成了生物信息学的3 个重要组成部分。从 生物信息学研究的具体内容上看,生物信息学的应用与发展包括三个主要部分: ( 1 ) 新算法和统计学方法的研究;( 2 ) 各类数据的分析和解释;( 3 ) 研制有效运用和 管理生命科学数据的新工具。 生物信息学这一术语在不同场合下被赋予不同含义。广义上说,生物信息 学可指利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的 范围相当广泛,从人工智能、机器人一直到基因组数据分析。就基因组数据分 析这一角度来看,生物信息学主要是指核酸和蛋白质序列数据的计算机处理和 分析 4 。自上世纪9 0 年代以来,在人类基因组计划的带动下,d n a 序列、r n a 序列和结构、蛋白质序列和结构、表达图谱等生物信息如巨潮涌来。生物原始 数据的激增,需要强大的工具来对其进行收集、整理、分析和信息挖掘,这为 生物信息学的产生提供了内在动因。与此同时,信息学和计算机技术以及互联 网的迅猛发展则为生物信息学的快速崛起壮大插上了翅膀。生物信息学就是一 门信息及计算机科学、数学同现代分子生物学相结合的新兴交叉学科。它的目 的在于运用信息技术收集、存储、管理和传播生物学信息资源,并利用各种可 行的数学方法和模型来处理、分析和挖掘生物学数据以破解其中蕴涵的具体生 物学意义,同时为实验生物学、医学、农业、环境等相关学科的发展提供帮助 5 。6 。生物信息学狭义的概念是指应用信息科学的理论、方法和技术,管理、 分析和利用生物分子数据。通过收集、组织、管理生物分子数据,使研究人员 能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据, 得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学的研究和 应用中,利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性 及效率,如根据基因功能分析结果来检测与疾病相关的基因,根据蛋白质分析 结果进行新药设计。一般提到的生物信息学”是就指这个狭义的概念,更准确 地说,应该是分子生物信息学( m o l e c u l a rb i o i n f o r m a t i c s ) 。 2 上海大学硕士学位论文 1 1 2 生物信息学的研究意义 生物信息学的研究是从理论上认识生物本质的必要途径,通过生物信息学 研究和探索,可以更为全面和深刻地认识生命科学中的本质问题,了解生物分 子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。破译和阐 明生物信息的本质将使得人类对生物界的认识跨越一个新台阶。 生物信息学的出现将改变生物学的研究方式。传统的生物学是一门实验科 学,传统的分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手 工分析完全能够胜任。然而,随着分子生物学技术的发展,已经出现一些高通 量的实验方法,如基因芯片,利用基因芯片一次可以获取上万个基因的表达数 据。生物学已经从一次只分析一个生物分子的时代跃进到同时分析成千上万个 生物分子的时代。对于高通量的实验结果,必须利用计算机进行自动分析。因 而,在高通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验。 再者,从生物分子数据本身来看,各种数据之间存在着密切的关系,如d n a 序 列与蛋白质序列、基因突变与疾病等,这些关系反映了生物学的规律。但是, 这些关系可能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析 的。对于这些复杂的关系,必须运用现代信息学的方法去分析,去研究。因而, 随着分子生物学研究的深入,必然需要生物信息学。另外,现在全世界每天都 会产生大量的核酸和蛋白质序列数据,不可能用实验的方法去详细研究每一条 序列,必须首先进行信息处理和分析,去粗取精,去伪存真。通过预处理,发 现有用的线索,在此基础上进行有针对性、有明确目的的分子生物学实验。因 而,生物信息学在指导实验、精心设计实验方面将会发挥重要的作用“1 。 生物信息学研究在医学上也有重要的意义。通过生物信息学分析,可以了 解基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据。 研究生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用 的目标和作用的方式,从而为设计新药提供依据,揭示人类及重要动植物种类 的基因的信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在 迅速发展的自然科学领域最重大的课题之一。这方面的研究不仅对认识生物的 起源及对认识生物遗传、发育与进化的本质有重要意义,而且将为人类疾病的 上海大学硕士学位论文 科学诊断和合理治疗开辟全新的途径,还可为动植物的物种改良提供坚实的理 论基础。 1 1 3 生物信息学在基因芯片中的应用 生物信息学在基因芯片中的应用主要体现在三个方面,即确定芯片检测目 标、芯片设计和实验数据管理与分析埘。 ( 1 ) 、确定基因芯片检测目标。利用生物信息学的方法,查询生物分子信 息数据库,取得相应的d n a 序列数据,通过序列对比分析,找出特征序列,作 为芯片设计的参照序列。此外,通过数据库搜索,还可以得到关于序列突变的 信息及其他信息嗍。 ( 2 ) 、芯片设计。芯片设计的目的在于:通过设计,提取更多的生物分子 信息,并提高信息的可靠性。对于寡核苷酸芯片,根据参照序列设计探针,并 将各个探针布局在芯片上。尽可能使最终芯片的结果是形成芯片合成方法和步 骤,产生制作掩模板的描述。在芯片设计的不同阶段,都需要用到信息学中的 优化方法,在探针设计方面,通过优化使芯片上的探针具有相近的杂交解链温 度;在探针布局方面,将a t c g 含量相近的探针排布在芯片相邻的区域,而这 种布局结果与杂交时施加在芯片上的温度场相对应;在掩模板方面,通过优化 减少制作芯片所需要的掩膜板个数,以提高芯片制作效率”。 ( 3 ) 、实验数据管理和分析。对基因芯片杂交图像处理,给出实验结果, 并运用生物信息学方法对实验结果进行可靠性分析,将实验结果及分析结果存 放在数据库中,尽可能将基因芯片数据与公共数据库进行链接。数据分析有两 个层次,一是局部的、具体的基因芯片实验结果分析,得到基因序列变异分析 结果或基因表达分析结果。另外一个层次是全局分析,将基因芯片实验数据与 公共数据库中的信息相关联,利用数据挖掘方法,揭示各种数据之间的关系, 发现新的生物学知识。另一方面,在实际应用中,为了设计实用的芯片,往往 需要收集一些与人类重大疾病相关的基因信息,建立为设计疾病检测基因芯片 而服务的专用数据库。1 。 4 上海大学硕士学位论文 i 2 基因芯片简介 i 2 i 基因芯片简介 生物芯片随着人类基因组计划的启动和实施应运而生,它是为满足人类对 数以万计基因的研究和应用的迫切需要而发明出来,被评为1 9 9 8 年度世界十大 科技突破之一。 生物芯片的概念源自于计算机芯片。计算机芯片是指将不同功能单元集 成在一块微型器件上,生物芯片借用了计算机芯片的继承化的特点,是把生物 活性大分子( 目前主要是核酸和蛋白质) 或细胞等密集排列固定在固相载体上 所形成的微型检测器件。固相载体通常是硅片、玻片、聚丙烯或尼龙膜等,因 此狭义的生物芯片也称微阵列芯片,主要包括c d n a 微阵列、寡核苷酸微阵列、 蛋白质微阵列和小分子化合物微阵列。生物芯片能同时检测样本中的多个生物 大分子,检测原理是利用特异性的分子间相互作用,如核酸杂交、抗原一抗体 特异性结合、蛋白一蛋白间特异性结合等,将待测样品标记后与生物芯片反应, 样本中的标记分子与芯片上的探针“对号入座”,标记的待测样本与之结合、反 应后,通过激光共聚焦荧光扫描仪等检测手段获取信息,经电脑系统处理,分 析得到信号值。信号值代表了结合在探针上的待测样本中的特定大分子的信息。 由于芯片上可以固定成千上万的探针,因此可以同时检测样本中成千上万的生 物大分子,而传统的检测方法一次只能检测一个生物大分子,因此一次芯片实 验就完成了成千上万个传统实验,即一次生物芯片反应是多次传统实验的集成。 生物芯片是高度集成的、机电一体化的检测系统,借助计算机自动收集、 储存、分析和报告检测信息,其主要特征是:高通量一一提高信息量:平 行化一一提高信息的可比性;微量化一一降低待检样品用量;自动化一一 提高工作效率;低成本一一可迅速普及推广“” 生物芯片技术发展迅速,在原来的微阵列芯片基础上,产生了新的生物芯 片类型,如微球体芯片( m i c r o s p h e r e s ) 、微流体芯片和芯片实验室 ( 1 a b o n - a - c h i p ) 等,因此广义的生物芯片是指能对生物成分或生物分子进行 快速并行处理和分析的厘米见方的固体模型器件“”。 上海大学硕士学位论文 1 2 2 基因芯片对于生物分子信息检测的作用和意义 基因芯片技术以其可同时、快速、准确地分析大量基因组信息的特点在诸 多领域得到应用。在生命科学领域中,基因芯片为分子生物学、生物医学等研 3 究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不 同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常 和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多 基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗 传过程中的规律。基因芯片技术的发展将大力推进包括人类基因组计划和人类 后基因组计划在内的各类基因组研究,它使生命科学的研究从单个基因、孤立 地研究发展到多基因、基因组整体性研究的崭新阶段“”。 当人类基因组计划完成后,人们逐步关注不同人群、正常与疾病状态下d n a 序列的变化。d n a 序列的变化是有机体种属之间存在差异或者属内存在差异的 根本原因,也是影响有机体正常状态和疾病状态的关键因素。对这些基因型差 异进行定位、识别以及分类有重要的意义,这是研究基因型变化与表型变化关 系的第一步,是由针对性地预防和诊疗疾病的基础。单核苷酸多态性( s n p ) 是 人类基因组中最常见的一种变化“。 获得一个基因的序列后,下一个问题自然是:该基因产品的作用是什么? 为了了解一个基因的功能,必须知道该基因所对应的m r n a 产生的时间和环境条 件以及m r n a 的数量。这些问题是针对单个基因而言的,然而任何一种生理现象 都是多个基因协同作用的结果。为全面认识生命现象,还必须了解各个基因之 间的关系,了解他们是如何协同作用的。要回答这些问题,就需要对基因进行 表达水平的监控,而高密度基因芯片由于可同时检测成千上万个基因,非常适 合用于上述方面的研究“。 随着分子生物学的发展,我们将迸一步认识和了解疾病。对于复杂的疾病, 由于存在着许多影响因素,如不同细胞类型、特定细胞中的基因表达等,用一 般技术难以全面了解这些相关信息,而基因芯片作为一种大规模并行序列分析 技术,将有利于深入了解基因,积极推动医学诊断技术的发展,大大提高医学 遗传检测的能力和遗传研究的水平。 6 上海大学硕士学位论文 生物医学研究表明,人类大多数疾病的发病机制根本上来说都和基因有关。 因此,基因芯片在医学应用上有着重要的意义,它可快速检测与疾病相关的基 因及突变。基因芯片为在分子层次上进行基因诊断和基因治疗提供了依据。利 用基因芯片可以分析基因与疾病( 如癌症、传染病和遗传病) 的相关性,使得 我们可以深入地认识疾病产生的根源。基因芯片在医学诊断中最直接的应用就 是检测与疾病相关的基因“”。 基因芯片不仅可以提高疾病诊断的科学性,而且对于治疗疾病也有着指导 意义,他们可以根据与疾病相关基因的检测结果,制定有针对性的治疗方案。 1 2 3 基因芯片的应用 美国科学促进会将基因芯片技术列为1 9 9 8 年度自然科学领域十大进展之 一,足见其在科学史上的意义。基因芯片应用主要分为两大类,一是用于研究 基因型,一是用于监控r n a 表达。从本质上来讲,前者实际上是利用基因芯片 进行序列分析,其中包括识别d n a 序列的突变和研究d n a 的多态性:而后者则 是利用基因芯片研究基因的功能“”。基因芯片的应用范围越来越广,在基因发 现与分类、新药发现、基因表达与疾病诊断、基因测序、遗传作图与多态性检 测、毒理基因组学等方面均展示了广泛的应用前景1 5 , 1 6 。d n a 微阵列或芯片几乎 可用于所有核酸杂交技术的各个方面,能够同时比较各组织或同一组织在不同 状态下上成千上万个基因的表达状况,在基因功能研究等方面具有极大的优越 性删。 基因芯片除了应用在序列测定中,在基因表达检测的研究上人们已比较成 功地对多种生物包括拟南芥,酵母及人地基因组表达情况进行了研究眨“2 。在 肿瘤发病机制的研究中,基因芯片技术为识别出与肿瘤发生密切相关的基因、 了解各基因之间复杂的关系提供了强有力的手段。s h i m a d a 啪1 等利用芯片技术, 分析了异位表达a m l l - e t o 融合基因的鼠粒祖细胞l - g 的6 5 0 0 个基因的表达情 况,识别出3 2 个候选基因,其中2 3 个基因过去并不知道受到a m l l - - e t o 的调 节。a m l l - - e t o 能提高许多与粒细胞分化有关的基因的表达,特别是编码嗜天 青颗粒蛋白的基因,如组织蛋白酶g 、髓过氧化物酶、溶菌酶等。这就为携带 上海大学硕士学位论文 a m l l 一e t 0 融合基因的a m l 发病机制研究开辟了新的领域。基因芯片技术在临 床工作中也显示出光明盼景。如果能从基因表达谱中提取有用的信息,进行肿 瘤的临床诊断和细致分型,将对肿瘤的诊断和治疗提高巨大帮助。y e o h 叫1 等利 用含有1 2 6 万个基因探针的寡核苷酸芯片分析了3 6 0 例儿童急性淋巴细胞白血 病( a l l ) 标本,识别出6 个主要的白血病亚型:t a l l ,e 2 a p b x l ,b c r a b l ,t e l 一 m l l 札l 重排和超二倍体 5 0 的a l l ,而上述白血病亚型在临床治疗中确实 显示出突出的反应特点。 由最新报道可以发现,运用生物芯片分析单核苷酸多态性( s n p ) 的研究发 展得如火如荼,一方面可以用芯片大规模筛选新得s n p ,更重要的是以此为基 础的药物基因组学研究有助于新药的开发,还可以针对不同基因型的个体采取 不同的治疗方法和用药,以获得最佳疗效。t e m p f e r 嘲在2 5 0 7 例女性乳腺癌的 研究中发现,在6 6 的患者中,发现至少存在有两种以上同源的s n p s ,而其中 9 9 与血栓形成倾向相关,至少有两种s n p s 与高风险乳腺癌相关基因 ( c 0 m t ,c y p l 7 ,c y p l 9 ,c y p l a l ,a n dc y p l b l ) 相关的占到2 3 ,在1 2 3 的患者中 发现了与心血管病诱发因素( 如,a p o e ,a g t ,e n o s 和p a l l ) 相关的s n p s ,在2 6 7 的患者中发现携带有与绝经早期骨丧失和骨质疏松症诱发因子相关的s n p s 。 另一个研究热点是毒理基因组学吼”“,为了获得一种更加精确和快速的方 法来检测一种化合物的毒理特性,现在许多毒理学研究者都在利用d n a 微阵列 技术从基因组水平的基因表达分析来研究毒理学。研究者还试图通过这种新型 的方法来开发毒物的调节剂。利用d n a 微阵列技术,一个单一的毒理基因组分 析就可能产生出成千上万个数据供研究分析化合物的毒理机理,并阐明其毒理 特性。这种高通量和迅捷精确的方法在d n a 微阵列技术出现之前是不可想象的。 通过这种毒理基因组分析,药物开发公司在新药研发中就可以比传统方法更早 地了解一个化合物地毒理,以及潜在地副作用和危险性。这样可以为新药研发 节约大量的时间和资金。进一步可以降低新药研发的成本,给市场带来更为廉 价高效的药物。 基因芯片最令人振奋的应用是药物基因组学,这是生物医学中的一个介于 药理学和基因组学的新领域。许多药物作用在蛋白质水平,阻断或改变蛋白质 8 上海大学硕士学位论文 的功能。完整的基因组序列提高了所有可能的药物作用目标,而基因芯片可进 行快速的、大规模的基因表达监控和序列分析,有利于促进新药发现过程。在 毒理学研究方面,已经提出了毒理基因组学,即分离对人类和环境有害的有毒 成分,以及通过基因组资源的应用来确定它们的作用机制。例如,用d n a 芯片 同时检测上千条基因的表达水平,寻找到某些对毒物高度敏感的基因,有可能 成为c d n a 芯片的一种普遍应用。 1 2 4 基因芯片研究与应用中要解决的信息学问题 生物信息学现有的许多方法都可以直接应用于基因芯片,如序列比较方法、 片段组装算法、聚类方法等。然而,基因芯片研究与应用又对生物信息学提出 了许多新的问题。我们认为在基因芯片信息学方面要解决以下几个关键的问题。 第一是芯片设计问题。探讨如何充分利用现有的生物信息数据库确定芯片检测 对象,研究探针优化设计方法,第二是可靠性分析问题。目前基因芯片仅限于 科学研究,尚没有推广应用,其关键在于基因芯片目前检测的可靠性还不高, 因此在芯片设计时就要考虑到可靠性问题,尽可能通过设计提高芯片的信号噪 声比,提高芯片的辨别能力。第三是数据挖掘问题。基因芯片所产生的数据相 当多,并且与其他数据有关联,如何分析这些数据之间的关系、挖掘其中的知 识,是一个十分重要的问题,而目前生物信息学中数据挖掘也是一个有待发展 的研究方向“”。 1 3 论文工作与安捧 目前,基因芯片的数据挖掘已成为生物信息学研究的热点之一,引起了广 泛的重视。而基因芯片数据分析的一个重要工具是聚类分析。近几年,在生物 信息学领域中,高性能的生物序列聚类算法取得了很大成功,这些算法都能较 好的处理数量非常庞大的基因数据,它们是基因芯片研究中的重要工具。本论 文总结了基因芯片的研究现状及进展,介绍了各种基因芯片中的聚类算法及其 应用,重点讨论了适合于基因表达数据分析的常用聚类算法,包括层次聚类算 9 上海大学硕士学位论文 法、k 均值算法、自组织映射法等:并分析了聚类应用中的数据预处理、相似 性度量以及聚类有效性等问题。同时,为了能够自动化地完成对基因芯片中的 大量数据进行预测和聚类分析以及对基因表达差异的显著性分析,我们开发了 应用软件系统i ) c - - c l u s t e r 。通过大量试验证明,该系统可以用于基因芯片的 数据分析,是基因芯片研究中有用的辅助工具。 本论文共分六章,具体安排如下: 本章,阐述了生物信息学的背景,简要地介绍了基因芯片;然后阐述了生 物信息学在基因芯片中的作用和基因芯片对于生物分子信息检测的作用和意 义,并介绍了基因芯片中的研究与应用中所要解决的信息学问题。 第二章,介绍了聚类方法。首先,我们介绍了什么是聚类分析。接着介绍 了聚类分析的应用范围,并说明了聚类分析面临的挑战。然后,介绍了聚类分 析的相似性度量标准,包括距离尺度、相似系数等;最后介绍了一些常用的聚 类方法,如系统聚类法、动态聚类法等; 第三章,详细介绍基因芯片生物信息学。首先,介绍了基因芯片中聚类分 析,和基因芯片中聚类分析的作用。接着介绍了基因芯片数据的预处理,包括 芯片数据的质量、弱信号处理、数据的校正。然后介绍了基因芯片数据聚类算 法,包括层次聚类法、k 均值算法、自组织映射算法、主成分析法等,并分析 了结果。最后,介绍了聚类有效性评价指标,包括f o m 方法的定义与计算和 r a n di n d e x 指标。 第四章,介绍了在基因表达差异的显著性分析中常用的三种方法:倍数分 析、t 检验和贝叶斯分析。 第五章,介绍了基因芯片的数据分析工具d c c l u s t e r 系统的流程、 实现算法、使用方法以及功能。 第六章,对全文工作进行总结,指出存在的问题,并对今后的研究工作进 行了展望。 上海大学硕士学位论文 第二章聚类 本章将介绍聚类分析及聚类分析相关的一些问题。在2 1 节介绍聚类分析 的一些基本概念、应用范围和面临的挑战。在2 2 节介绍相似性度量的一些方 法。在2 3 节介绍一些常用的聚类方法。 2 1 聚类分析 2 1 1 什么是聚类分析 将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚 类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼 此相似,与其他簇中的对象相异。在许多应用中,可以将一个簇中的数据对象 作为一个整体来对待。聚类分析是一种重要的人类行为。早在孩提时代,一个 人就通过不断地改进下意识地聚类模式来学会如何区分猫和狗,或者动物和植 物。聚类分析已广泛地应用在许多方面,包括模式识别,知识发现,数据分析, 图像处理,以及市场研究等等。通过聚类,人能够识别密集的和稀疏的区域, 因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。 2 1 2 聚类分析的应用范围 在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群, 并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植 物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类也能 用于对w e b 上的文档进行分类,以发现信息。作为数据挖掘的一个功能,聚类 分析能作为一个独立的工具获得数据分布的情况,观察每个簇的特点,集中对 特定的某些簇做进一步的分析。此外,聚类可以作为其他算法的预处理步骤。 作为统计学的一个分支,聚类分析已经被广泛地研究了许多年,主要集中 在基于距离的聚类分析,基于k - m e a n 、k - m e d i a s 和其他一些方法的聚类分析工 1 1 上海大学硕士学位论文 具已经被加入到许多统计分析软件包或系统中,例如s - p l u s ,s p s s ,以及s a s , 在统计方法中,聚类亦称聚类分析,它是多元数据分析的三大方法之一( 其他 两种是回归分析和判别分析) 。它主要研究基于几何距离的聚类,如欧氏距离, 闵可夫斯基距离等,传统的统计聚类分析包括层次聚类法、分解法、加入法、 动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种 基于全局比较的聚类,它需要考察所有的个体才能决定类的划分,因此它要求 所有的数据必须预先给定,而不是动态增加新的数据对象、聚类分析方法不具 有线性的计算复杂度,难以适用于数据库非常大的情况。 在机器学习领域,聚类是无监督学习,因为和分类学习相比,分类学习的 例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算 法来自动确定。很多人工智能文献中,聚类也称为概念聚类,因为这里的距离 不再是统计方法中的几何距离,而是根据概念的描述来确定的,当聚类对象可 以动态增加时,概念则成为概念形成。 在数据挖掘领域,研究工作已经集中在为大型数据库的实际的聚类分析寻 找适当的方法。活跃的研究主题集中在聚类方法的可伸缩性,对聚类复杂形状 和类型的数据的有效性,高维聚类的分析技术,以及针对大型数据库中混合数 值和分类数据的聚类方法。 2 1 3 聚类分析面临的挑战 聚类是一个富有挑战性的研究领域,其潜在的各种应用对聚类提出了各自 特殊的要求。具体如下: 可伸缩性:许多聚类算法在小于2 0 0 个数据对象的小数据集合上工作得很 好;但是,一个大规模数据库可能包含几百万个对象。基因数据库中包含的基 因个数也可能上万个,在这样的大数据集合样本上进行聚类可能会导致偏差的 结果,需要开发有高度可伸缩性的聚类算法。 处理不同类型属性的能力:许多算法被设计用来聚类数值类型的数据。但 是,具体应用时往往要求聚类其他类型的数据,如二元类型数据,分类标称类 型( c a t e g o t i c a l n o r m i n a l ) 、序数类型数据( o r d i n a l ) 或者这些数据类型的混 上海大学硕士学位论文 合。 发现任意形状的聚类:许多聚类算法基于欧几里德距离或者曼哈顿距离度 量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的 球状簇。但是,一个簇可能是任意的形状。研究可发现任意形状簇的算法是很 重要的。 , 领域知识最小化:许多聚类算法在聚类分析中要求用户输入一定的参数, 例如希望产生的簇的数目等。聚类结果对于输入参数往往非常敏感。参数通常 很难确定,特别是对于包含高维对象的数据来说,更是如此。要求用户输入参 数不仅加重了用户的负担,也使得聚类的质量难以保证。 处理噪声数据的能力:绝大多数现实世界中的数据库都包含了孤立点、空 缺、未知数据或者错误数据。一些聚类算法处理这样的数据比较敏感,可能导 致低质量的聚类结果。 对于输入记录的顺序不敏感:一些聚类算法对于输入数据的顺序是敏感的。 例如,同一个数据计划,当以不同的顺序提交给同一个算法时,可能生成差别 很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要意义。 高维性:由于数据库或者数据样本可能包含若干维。许多聚类算法擅长处 理低维的数据,可能只涉及两到三维。人类最多在三维的情况下能够很好地判 断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,由于高维空间 中的聚类数据可能非常稀疏,而且高度偏斜。 可解释性和可适用性:用户希望聚类结果是可解释的,也就是说,距离可 能需要和特定的语义解释及应用相联系。应用目标如何影响聚类方法的选择也 是一个重要的研究课题。 2 2 聚类分析的相似性度量标准 研究变量或样本的亲疏程度的数量指标有两种,一种叫相似系数,性质越 接近的基因( 样本) ,它们之间的相似系数接近于1 ( 或一1 ) ,而彼此无关的 基因( 样本) ,它们之间的相似系数则接近于零,在进行聚类处理时,比较相似 的基因( 样本) 归为一类,不怎么相似的样本归为不同的类;另一种是距离, 上海大学硕士学位论文 它是将每一个基因( 样本) 看成m 维空间( m 种实验( 变量) ) 的一个点,再这 m 维空间中定义距离,距离接近的点归为同一类,距离较远的归于不同的类。 2 2 1 距离尺度 巴习。 设弓为平均值o - 1 , 2 , 坍) ;s j 为标准差o - 1 ,2 m ) 表示f 个基因( 样本) 的第,个指标,第,个指标的均值和标准差分别记 为弓和5 ,;用略表示f 个基因( 样本) 和j 个基因( 样本) 之间的距离。 距离九应满足如下几个条件: d 口0 ( - - t :j j i ,) ; 略- 0( 样本f 和样本,的各指标相同,即f 一,) ; d # - d f ( 一切f ,) ( 对称性) ; 吒g “+ d 暂 ( 一切,) ( 三角不等式) 。 d q ) - 【薹卜* 一工雎1 4 】; g ,1 1 ,2 ,苊 ( 2 ) 欧氏距离( 二阶m i n k o w s k i 度量) 欧氏距离是聚类分析中用得最广泛的距离。欧几里得距离测量空间中两点 1 4 上海大学硕士学位论文 蹦2 ) 。弘) z j ( f ,j - 1 , 2 ,1 ) ( 3 ) 绝对值距离( 又称m a n h a t t a n 度量或网格度量) , 度量。 d “( 1 ) 荟k l ( 4 ) 切比雪夫距离 d 。( m ) - m a x k 。一工雄 ( 5 ) c a n b e r r a 度量( 又称兰氏距离) 0 只是一阶m i n k o w s k i ( f ,一1 ,2 席) ( f ,一1 2 ,忍) 这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别 适合高度偏倚的数据。 上述各种距离是假定变量之问相互独立,即在正交空间中讨论的距离,但 在实际问题中,变量之间往往存在着一定的相关性,为克服变量的相关性影响, 可以采用马氏距离。 ( 6 ) 马氏距离( p c m a h a l a n o b i s ) 基因( 样本) t 与工,的马氏距离为: d ;- ) 一石( ) y 伍“) 一石,) x “1 ( f * 1 , 2 , ) 为基因( 样本) 而的埘个指标所组成的向量。s 1 为基因 ( 样本) 协方差的逆矩阵。协方差矩阵s - l 。, 这里- 击毫g m 一置如暂一刁) ( f ,= 1 ,2 ,雄) 马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但 是在聚类分析处理之前,如果用全部数据计算的均值和协方差阵来计算马氏距 离,效果不是很好。比较合理的办法是用各个类的样本来计算各自的协方差矩 阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。 上海大学硕士学位论文 ( 7 ) 斜交空间距离 由于各变量之问往往存在着不同的相关关系,用正交空f h j 的距离来计算样 本间的距离易变形,所以可以采用斜交空间距离。 ”薹扣- x s 。) r a 】啦 当各变量之间不相关时,斜交空间退化为欧氏距离。 2 2 2 相似系数 聚类分析方法不仅用来对样本进行分类,而且需要对变量进行分类,在对 变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。 相似系数定义如下: 设c f 表示变量) ,;和y ,间的相似系数,则q 应满

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论