




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于struts的基因表达数据分析管理平台的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘耍 摘要 基因芯片技术是二十一世纪影响最深远的重大科技进展之一。基因芯片使得 同时研究成千上万个基因的表达成为可能。如何对基因芯片实验产生的海量数据 进行有效的管理和分析己成为使用这一高通量技术的瓶颈。一方面,已有的分析 软件虽然提供了聚类分析和一定程度的数理统计分析,但仍然很难从结果中得到 有价值的生物学知识及数据背后隐含的相互联系;而另一方面,这些分析软件大 多集成度较差,生物学研究者在处理数据时常常需要在多个程序之间进行切换, 不仅使用不便也带来了数据交换及安全性方面的隐患。目前,国外很多大学、研 究机构和软件公司已相继开发了生物信息集成系统。作者在攻读硕士学位期间参 加了北京市嵌入式系统重点实验室与美国g o l d e n c o m 公司合作研发的基因表达 数据分析管理平台研发项目。 本学位论文以聚类分析算法为基础,对基因表达数据聚类分析及分析管理平 台进行了深入的研究。研究的内容和取得的研究成果主要包括以下四个方面: ( 1 ) 在对模糊聚类分析算法深入研究的基础上,将模糊聚类算法应用于基因 表达数据分析领域,提出了基于属性的模糊聚类算法。 ( 2 ) 在r 语言平台上实现了基于属性的模糊聚类算法,通过合成数据和典型 数据集的实验对算法的性能进行了分析。 ( 3 ) 采用j 2 e e 平台开发工具实现了基因表达数据分析管理平台。集成了统计 软件r 语言和b i o c o n d u c t o r 软件包,实现了数据的持久化。 ( 4 ) 运行该平台进行数据分析实验,并对平台的完善和进一步发展进行了展 望。 关键词基因芯片;基因表达;s t r u t s ;聚类分析 a b s t r a c t t h em i c r o a r r a yt e c h n o l o g yi so n eo ft h em o s te x c i t i n gs c i e n t i f i ca d v a n c e m e n t s s i n c e2 0 0 0 ,w h i c hm a k e si t p o s s i b l et os i m u l t a n e o u s l ys t u d yt h ee x p r e s s i o no f t h o u s a n d so fg e n e si nas i n g l ee x p e r i m e n t m a n ys o f t w a r et o o l sh a v eb e e nd e v e l o p e d t o s u p p o r tm i c r o a r r a yd a t aa n a l y s i sb ym e a n so fc l u s t e r i n ga n ds t a t i s t i ca n a l y s i s h o w e v e r ,i ti sb e c o m i n go n eo ft h em a j o rb o t t l e n e c k si nt h ea p p l i c a t i o no ft h i s h i g h t h r o u g h p u tt e c h n o l o g yt om a n a g ea n da n a l y z et h eh u g ea m o u n t so fd a t a p r o d u c e db ym i e r o a r r a ye x p e r i m e n t s t h e r ea r et w or e a s o n s f i r s t l y , i ti si n c o n v e n i e n t a n di n e f f i c i e n tt od e t e c tt h er e l a t i o n s h i pf r o mt h em i c r o a r r yd a t a s e c o n d l y ,a n a l y s t s h a v et os w i t c hb e t w e e nm a n ys o f t w a r es y s t e m st h a tr e q u i r ed i f f e r e n td a t af o r m a t s d a t ae x c h a n g ea l s or a i s e sc o n c e ma b o u td a t as e c u r i t y a tp r e s e n t ,m a n yp u b l i c m i c r o a r r a yg e n ee x p r e s s i o nd a t as y s t e m sh a v eb e e ne s t a b l i s h e db yu n i v e r s i t i e s , r e s e a r c ho r g a n i z a t i o n sa n ds o f t w a r ec o r p o r a t i o n s d u r i n gt h ep e r i o do fl e a r n i n g ,t h e a u t h o rh a sa r e n d e dt h eg e n ee x p r e s s i o nd a t aa n a l y s i sa n dm a n a g e m e n ts y s t e mp r o j e c t , w h i c hi s d e v e l o p e db yb e i j i n g e m b e d e ds y s t e m k e yl a b ,c o o p e r a t e d w i t h g o l d e n c o m c o r p i nt h i sd i s s e r t a t i o n ,g e n ee x p r e s s i o nd a t ac l u s t e r i n gi ss t u d i e dd e e p l y , a n da n a l y s i s a n dm a n a g e m e n tp l a t f o r ma r ed e v e l o p ,b a s e do nc l u s t e r i n ga l g o r i t h m t h ec o n t e n to f t h i sr e s e a r c ha n dr e s u l ti sa sf o l l o w : ( 1 ) f u z z yc l u s t e r i n ga l g o r i t h mi sa p p l i e di nt h eg e n ee x p r e s s i o nd a t aa n a l y s i s ,a n d an e w f u z z yc l u s t e r i n ga l g o r i t h mb a s e do na t t r i b u t e si sp r o p o s e d ( 2 ) f u z z yc l u s t e r i n ga l g o r i t h mb a s e do na t t r i b u t e si sr e a l i z e di nrp l a t f o r mi nc o d e a tt h es a m et i m e ,s y n t h e t i cd a t as e ta n dt y p i c a ld a t as e ta r ea n a l y z e db yt h ea l g o r i t h m t oe v a l u a t et h ep e r f o r m a n c eo f a l g o r i t h m ( 3 ) t h eg e n ee x p r e s s i o nd a t ap l a t f o r mi sd e v e l o p e db yj 2 e ed e v e l o p m e n tt o o l s , f o c u s i n go nd a t ap e r s i s t e n c e rl a n g u a g ea n db i o c o n d u c t o ra r ei n t e g r a t e di n t ot h e p l a t f o r m ( 4 ) f i n a l l y , m a n yd a t aa n a l y s i se x p e r i m e n t sa r er u no i lt h ep l a t f o r m a n df u t u r e i m p r o v e m e n t sa r ep r e s e n t e d k e y w o r d s g e n ec h i p ;g e n ee x p r e s s i o nd a t a ;s t r u t s ;c l u s t e r i n g - 1 1 i - 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示了谢意。 獬:埤咎臁珥口 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容, 可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名导9 雠磁蹴型丛! j 1 1 生物信息学 第1 章绪论 生物信息学是计算机和网络大发展、各种生物数据库迅猛增长形势下如何组 织数据,并从数据中提取生物学新知识的学问。它是一门新的交叉学科,其包含 了生物信息的获取,处理、存储、分配、分析和解释等所有方面,综合运用数学、 计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义 ”j 。生物信息学把d n a 序列、氨基酸序列,以及其它相关数据信息作为分析对 象,力求揭示蛋白质和r n a 基因的编码区以及基因组中非编码区的信息实质。 目前归入生物信息学研究领域的大致有各种生物数据库的建立和管理、数据 库接口和检索工具的研制、序列分析、d n a 芯片和微阵列的发展、统计模型和 算法研究几个方面弘j 。 美国洛斯阿拉莫斯国家实验室1 9 7 9 年开始建立g e n b a n k 数据库,随后基因 组信息出现了爆炸性增长。根据国际数据库的统计,基因组数据大约每1 4 个月 增加一倍,到1 9 9 9 年1 2 月其数目己达3 0 亿。因此,迫切需要对海量生物信息 进行处理。目前在数据库中己经有越来越多的模式生物全基因组序列,这无疑给 基因组组织结构和信息结构的研究工作提供了大量的第一手资料,同时也为基因 组研究取得突破性进展提供了可能。人类对基因的认识,将从以往对单个基因的 了解上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间 在位置、结构和功能上的相互关系。 在生物工程领域,目前国际上已经拥有若干生物基因分析软件,如r , b i o c o n d u c t o r ,d n a s t a r 等,这些分析软件可以用于基因序列的同源性分析,构 建基因系统结构树以及基因特性比较。国内中科院基因组信息学中心所研制的 1 人类基因组数据库系统正在实施中,该系统实现了基因组信息存储、检索、 可视化和应用集成,旨在建立一个大基因组注释信息生物信息平台。 1 2 基因芯片技术概述 1 2 1 基因芯片技术及其应用 基因芯片( g e n ec h i p ) ,又称d n a 微阵列( d n am i c r o a r r a y ) ,是由大量d n a 或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测 信息。基因芯片将大量己知序列探针集成在玻璃片等固相表面,经过标记的若干 北京1 :业大掌i 学帧卜学位论文 靶核酸序列通过与芯片特定位置上的探针杂交,便可根据碱基互补匹配的原理确 定靶基因的序列。通过处理和分析基因芯片杂交检测图像,可以对生物细胞或组 织中大量的基因信息进行分析【3 j 。 基因芯片技术可以一次性对大量序列进行检测和分析,从而解决了传统核酸 印迹杂交技术操作繁杂、自动化程度低、检测效率低等不足。在生命科学领域中, 基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技 术,可以研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个 体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异1 2 】。基因 芯片技术还有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功 能,研究生物体在进化、发育、遗传过程中的规律。 基因芯片的应用主要分为两大类【3 j ,一是用于研究基因型,二是用于监控基 因表达。从本质上来讲,前者实际上是利用基因芯片进行序列分析,其中包括识 别d n a 序列的突变和研究d n a 的多态性;而后者则是利用基因芯片研究序列 的功能。通过研究基因功能,确定基因与基因间的相互关系,从而揭示疾病发生、 发展的分子机制,是医学研究的重要内容,也是基因表达芯片最重要的用途之一。 微阵列技术的价值不仅在于它是一种快速鉴别单个基因表达的方法,通过分析它 还可以使研究人员研究基因间的平行相互作用。基因表达微阵列使得生物学家能 够在基因组层次上研究任何种类细胞在任何时间、任何给定条件下的基因表达模 式。这些微阵列产生出的大量数据可以帮助我们深入地认识生物过程的本质,如 基因功能、发育、癌症、衰老和药理等。 此外,生物医学研究表明,人类大多数疾病的发病机制从根本上来说都和基 因有关。因此,基因芯片在医学应用上也有着重要的意义,它可快速检测与疾病 相关的基因及突变。基因芯片为在分子层次上进行基因诊断和基因治疗提供了依 据。利用基因芯片可以分析基因与疾病的相关性,使得我们可以深入地认识疾病 产生的根源。 1 2 2 微阵列基因表达数据 本文研究的对象是微阵列基因表达数据,也可以简称为基因表达数据。目前, 微阵列基因表达数据主要为数值型并以矩阵的方式存储。矩阵的行数据为一个基 因在不同环境条件下或不同时间点的表达值,列数据为同一环境或时间所有样本 的表达情况。矩阵中数据点的数目等于n g x n c ,其中n g 为行数,即基因的个数 ( 微阵列上的基因点数) ;n c 为列数,即设置的实验条件数或时间点数。矩阵中的 元素a i j 表示为第i 个基因在实验条件j 下的相对表达值。在进行分析过程中,通 常需要对基因芯片实验得到的原始实验数据进行对数变换,经过变换后,上调的 第1 章绪论 基因具有正值,而下调的为负值。基因表达数据通常都是多维的,表1 1 中是酵 母基因表达微阵列数据的部分片断,该数据为在五个不同时间点测量得到的基因 表达数据值。 表1 1 酵母基因表达微阵列数据值 t a b l e1 - 1g e n ee x p r e s s i o nd a t a a r r a yo f s o u r d o u g h p r o b e t 1t 2t 3t 4t 5 1 0 0 0 0 3a t1 5 7 7 71 1 9 2 08 8 2 41 3 0 8 71 3 3 5 l 1 0 0 0 1 0a t1 7 9 2 41 6 4 8 62 2 4 0 12 3 8 8 22 4 4 2 4 1 0 0 0 1 1 砒2 5 6 2 53 2 8 3 53 1 9 0 74 0 6 1 43 6 4 7 2 1 0 0 0 1 5a t3 0 5 8 23 5 0 8 7 3 8 7 2 2 2 6 2 1 93 1 3 8 3 1 0 0 0 2 2a t5 5 2 2 64 8 7 2 03 7 0 6 54 5 2 4 75 6 2 4 7 1 0 0 0 2 4a t1 3 4 6 7 01 3 8 2 1 71 5 4 0 9 89 3 6 3 41 3 7 0 9 2 1 0 0 0 4 8a t2 9 1 9 02 8 4 2 63 1 9 1 83 0 3 9 72 8 7 9 8 1 0 0 0 5 9a t9 8 9 2 9 8 4 5 8 28 8 5 7 11 0 7 8 1 4 1 2 0 5 4 8 1 0 0 0 8 9a t1 0 7 4 5 79 5 6 8 21 1 2 3 8 88 7 7 2 07 6 7 5 4 1 0 0 0 9 la t1 7 6 7 6 31 8 9 5 8 41 7 8 9 8 81 9 8 1 1 81 7 1 9 6 9 1 0 0 1 1 5a t7 2 7 6 35 6 0 5 14 9 4 5 46 0 8 0 54 9 8 3 0 1 0 0 1 3 4a t 4 3 8 8 9 34 4 5 4 ,7 54 1 8 6 0 85 0 1 7 2 63 7 1 0 3 5 1 0 0 1 5 1a t6 1 8 1 6 88 0 1 7 9 86 7 5 7 1 65 1 1 0 2 l4 8 7 2 8 8 1 0 0 1 5 5a t1 0 2 4 0 77 7 84 69 1 2 6 29 9 1 0 31 1 4 1 1 0 1 0 0 2 9 3a t2 5 8 2 7 3 1 2 6 8 2 9 9 0 2 2 4 3 2 43 6 2 9 2 1 2 3 基因表达数据的分析 微阵列基因表达数据一般可以在三个复杂性依次递增的层次上进行分析【4 】: 第一个层次是单基因层次,主要研究单个基因在处理条件和对照条件下是否有不 同的表达;第二个层次是多基因层次,主要从共同功能、相互作用、共调控等角 度研究基因族;在第三个层次上,人们试图推测出隐藏在我们观察到的基因表达 模式背后的基因或蛋白质调控网络。 目前基因芯片数据分析有两个主要的研究方向 5 1 : ( 1 ) 分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析。多种 基因在基因组表达水平上具有或强或弱的表达相关性,同一种样本在不同的生理 和病理状态下也具有基因表达的相关性,这些就是基因和样本间聚类分析的基 础。在基因聚类中,聚类在一起的基因是在多个样本中具有相似表达模式的基因, 这些基因表达上的相似性可能是由于其中一个基因引起其它基因的表达改变,或 者这些基因在生理或病理条件下受相似的基因调节。 ( 2 ) 检测基因在不同组织样本中的表达差异,例如正常细胞和肿瘤细胞之间的 差异。如果以某些在不同样本中表达差异显著的基因作为模板,则可以通过判别 分析来建立有效的疾病诊断模型。在最近的一项研究中,基因表达模式用来区分 北京工业大学t 学硕 。学位论文 两个经常被误诊的淋巴瘤( 弥漫型大b 细胞和滤泡性b 细胞淋巴瘤) ,带有来自 6 8 1 7 条人类基因的微阵列显示,这两种肿瘤中有3 0 个基因的表达差异很大。通 过综合考虑,根据这3 0 个基因的表达模式的差异能够对7 7 例肿瘤中的7 1 例( 9 1 ) 进行正确分类,与细胞学方法相比有了很大程度的提高6 1 。 1 3 数据挖掘技术在生物信息学中的应用 数据挖掘,又称为数据库中知识发现( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e , 简称k d d ) ,它是从大量的、有噪声的、随机的数据中抽取挖掘出未知的、有价 值的模式或规律等知识的复杂过程【7 1 。数据挖掘的过程可粗略的分为:问题定义、 数据收集和预处理、数据挖掘算法行以及结果的解释和评估,如图1 - 1 所示。 问题定义蚓数嚣鉴集及吲数赫莩算吲结鬻和吲知识 图l 一1 数据挖掘过程 f i g u r e l 1p r o c e s so f d a t am i n i n g 数据挖掘技术是一种先进的数据分析和知识发现技术,其本质就是知识发 现,在生物信息学领域,数据挖掘已显示出了强大的能量。目前即使对于了解最 多的生物体,科学家也只是知道- d , 部分基因功能的信息,并且这些信息通常是 不完整的。随着基因表达数据库的不断发展,需要更加先进的分析工具,以从大 量的数据之中提取隐含的信息。根据生物学理论,一方面同一物种的不同基因存 在相似与变异,另一方面,不同物种从低等发展到高等也都多少保留了一些相似 之处。也就是说,在寻找新的基因或基因的未知功能时,可充分利用已知的同一 物种或其他物种的基因信息。因此数据挖掘技术在用于基因功能预测和发现薪基 因方面有着巨大的潜力。 以前生物信息学的数据挖掘工作主要集中在序列信息方面,而现在分析处理 基因功能信息己成为生物信息学研究的一个重点。数据挖掘常用的方法有:统计 分析、决策树、自组织映射、人工神经网络、聚类分析以及遗传算法等。统计方 法可以用于探查和提取数据之间的因果关系;决策树主要应用于分类数据和归纳 决策规则;自组织映射、遗传算法、神经网络都属于仿生计算方法。聚类分析是 目前运用最多的一种表达数据分析方法,在基因表达研究中,有一个基本假设, 就是基因在何时何地表达的信息都携带了关于当时基因功能的信息。这样,基因 表达数据分析的第一步就是按照基因表达的模式对基因进行聚类。 生物信息的分析己成为计算机研究人员的重要课题,数据挖掘技术作为其中 的重要分析技术,在生物信息学领域具有良好的研究与应用前景,生物信息学中 的数据挖掘研究仍然处于起步阶段,有很多问题需要解决。如何将众多的数据挖 4 第1 审绪论 掘技术应用于生物信息分析是当前的研究热点,包括适合生物信息处理的数据挖 掘体系架构、算法的开发、新的数据挖掘分析功能的研究等。 1 4 基因表达数据分析软件的研究意义 随着国际上大规模的基因测序计划的爆炸性发展,对基因的研究工作已经从 单纯的测序转向进行基因功能研究的时代 8 】。面对浩如烟海的序列信息,生物芯 片以其并行、高通量的特点当之无愧地成为后基因组时代的首要研究工具。 由于基因芯片的高集成性,每个基因芯片上包含了大量的基因数据信息。而 对生物芯片数据进行生物学功能注释的速度远远落后于芯片数据扫描仪每次扫 描所产生的大量分析数据的速度1 9 】,使得对生物芯片的需求没有真正地形成市 场。尽管期望使用生物芯片的用户群极为庞大,但生物芯片数据分析的复杂性和 专业性已经成为首要的制约瓶颈一j 。 现存的开源生物芯片数据分析软件要求研究人员具备生物学和较高的计算 机与统计方面的知识,在分析数据时能够自己编写程序指令,按照自己设定的算 法来控制分析过程。这显然大大增加了广大生物学研究者的工作效率。 本课题使用j 2 e e 结构集成基因数据分析软件,搭建基因表达数据分析管理平 台,该工作具有如下的研究意义: ( 1 ) 在基因数据分析领域中对统计软件的集成具有重大的研究价值。基因数 据分析软件可以使广大研究人员从浩如烟海的基因表达数据中找出有用信息,研 究基因及其变化与生理和病理状态的关联,探索人类未知领域,从而为生物及医 学研究开辟了新途径。 ( 2 ) 将简化生物学元数据集成于实验室数据的分析。基因数据量庞大,数据 采集过程不同,需要进行分析处理的步骤的差异造成了基因数据分析过程的复杂 化。如何简化数据获取过程、分析过程是我们面临的主要问题。分析管理平台研 究制定了规范化的分析过程和方法,将使研究人员可以对基因数据进行统一的处 理操作,从而摆脱了复杂的处理命令,将精力更集中在实验的设计与结果的分析 中。 ( 3 ) 为基因组数据分析提供更大范围、更强有力的统计和图形化方法。基因 数据分析平台中嵌入多种数据分析方法,并可以随时更新,使用更先进的分析软 件帮助研究人员进行分析。平台还提供了友好的图形用户界面,使得操作过程简 化,消除了分析中的歧义,保证数据分析的正确性。 ( 4 ) 消除生物芯片应用中生物芯片数据的存储与分析的瓶颈,对于生物芯片 投放市场具有重大的促进作用。基因数据分析管理平台是基因芯片技术发展的薄 弱环节,软件跟不上硬件的发展,如何研究开发功能强大、界面友好的分析软件 是当前迫切需要解决的问题。 1 5 本文工作及组织结构 在本课题的研究开发过程中,本人深入学习了w e b 开发框架、建模知识和 设计模式,在实践的基础上对理论知识进行了深入的理解和运用。在基因表达数 据分析管理平台设计开发时,综合考虑了代码重用、系统管理、操作简便以及应 用安全和后期维护等方面的要求,采用了j 2 e e 平台来开发系统,全面遵循m v c 设计模式。并将系统的w e b 层构建在s t r u t s 框架之上,使用h i b e r n a t e 技术解决 数据持久层问题。 本人主要工作是参与基因表达数据分析管理平台的系统设计与实现工作,主 要包括系统结构的设计、用户界面的设计与实现、基因表达数据分析模块的设计 与实现,在基因表达数据分析模块中,着重进行了聚类分析的研究,提出了基于 属性的聚类分析算法并对其进行了实现。 全文的组织结构如下: 第一章绪论。对生物信息学、基因芯片和基因表示数据分析管理平台的研 究意义进行了简要介绍。 第二章基因表达数据分析技术。讨论了基因表达数据分析的相关问题,包 括数据预处理、相似性度量和聚类分析问题。介绍了常用的聚类分析算法,并进 行了分析比较。 第三章基于属性的基因表达数据模糊聚类算法。详细描述了基于属性的模 糊聚类算法原理,提出了关联冗余值的概念来表示基因之间的关联程度,设计并 实现了分析算法模型,探讨了最佳分组情况、分析了算法复杂度。 第四章基因表达数据分析管理平台的设计与实现。详细介绍了基因表述数 据分析平台的设计与实现细节。根据系统需求,对系统结构进行分析设计;按照 业务流程,分别介绍了模型层、视图层、控制层的具体实现方法。 第五章基因表达数据分析实验。介绍了基于属性的模糊聚类算法的实验数 据和分析结果,并与多种算法进行分析比较。 6 第2 章基因表达数据分析技术 基因表达数据能产生基因表达的全局图谱,可用于多个方向的研究,数据挖 掘技术的应用可发现新的功能信息,得到新的生物学规律。聚类分析是基因表达 分析中使用最广泛的技术,可用来识别多种实验条件下表达相似的基因。 本章介绍了聚类分析及其在基因表达数据挖掘上的应用。 2 1 基因表达数据标准化 基因芯片实验中的变异来源很多,如荧光标记效率、扫描参数的设置、空间 位置的差异等,都可能对基因表达水平的测量产生影响。因此,原始数据需经过 标准化,以消除由于系统变异引起的误差,确保基因表达数据真实地反映测量样 品的生物学差异。常规标准化方法包括: 1 均数或中位数中心化 包括基因中心化和序列中心化。通常在实验中使用的共同参照样本与实验本 身是独立的,而分析时也应该把参照样本表达水平的影响去除,基因中心化就可 以实现这一目的。基因中心化是把每个基因在各实验中的表达值减去该基因在各 实验中表达值的均数或中位数。基因中心化后的值就反映了该基因在不同序列下 的变异。而当参照基因是实验的一部分,或要了解基因差异表达的程度时,不适 宜进行中心化。 序列中心化也很重要,可以消除某些类型的偏倚,如基因在芯片的不同空间 位置造成的影响,背景的差异造成的影响。消除不同实验间偏移的常用方法还有 “管家基因”法。这些基因在所研究的生物学过程中具有恒定的表达。 2 除以标准差 除以标准差的作用在于把数据的变异设定在与感兴趣的基因变异相同的范 围内,放大弱信号而抑制强信号,但同时存在把噪声纳入真实信号中的危险。 最近研究表明,系统误差与点的荧光强度和空间位置相关。强度依存偏倚的 消除一般采用强度依存散点图平滑法对表达比拟合非线性回归模型,如局部加权 回归方法:l o w e s s ( l o c a l l yw e i g h t e dl i n e a rr e g r e s s i o n ) ,这是一种非参数回归方 法,也称为平滑方法,在计算两个变量的关系时采用开放式算法,不套用现成的 函数公式,所拟合的曲线可以很好的描述变量之间关系的细微变化【l o 】。 2 2 基因表达数据聚类的相似性度量标准 为了获得功能相似的基因,需要将这些“相似的”基因放在同一组。首先选 北京t 业大学丁学硕_ 学位论文 择一个计算基因表达相似性的度量。在任何聚类算法中,两个对象之间“距离” 的计算是将它们放入同一聚类的根据。般用距离( d i s t a n c e ) 来度量基因之间的相 似度。越相似的基因,其距离越小,而差别越大的基因其间的距离越远。目前在 基因表达数据分析中,常见的相似性度量包括如下方法:欧几里德距离、曼哈顿 距离、p e a r s o n 相关系数、未中心化的p e a r s o n 相关系数、平方p e a r s o n 相关系数、 平均内积、余弦相关系数、协方差、互信息、s p e a r m a n 等级相关等。目前使用 最广泛的距离定义如下: 明考斯基( m i n k o w s k i ) 距离:d y ( q ) = ( 芝l 以一x j k l 4 ) “9q o ,当q 分 k = l 别为1 ,2 ,时,明氏距离即为: 哈曼坦距离:d e ( 1 ) = 芝i x 。一x 业i k * l 欧几里德距离:d y ( 2 ) = ( 艺防。一x 止1 2 ) “2 t = l 切比雪夫距离:d y ( 。) = m 。啦a x 。x m 一以l 2 3 基因表达数据聚类分析技术 2 3 1 聚类分析技术 数据挖掘可以分为以下几种类型【1 1 1 : 1 探索性数据分析( e x p l o r a t o r yd a t a a n a l y s i s ,e d a ) 目的是对数据进行探索,通常e d a 的主要技术是交互式和可视化技术。 2 描述建模( d e s c r i p t i v em o d e l i n 9 1 描述建模的目的是描述数据( 或产生数据的过程) 的所有特征。这样的例子包 括数据的总体概率分布建模( 密度估计) ;把p 维空间划分成组( 聚类分析) ;以及 描述变量间的关系( 依赖建模) 。 3 预测建模( p r e d i c t i v em o d e l i n g ) 预测建模的目的是建立一个模型,通过该模型来预测未来数据的某个属性 值。代表性技术有分类技术和回归( 预测技术1 技术。 4 寻找模式和规则 目的是在数据中直接建立关联规则。代表性技术有关联规则挖掘技术。 5 基于内容的检索 第2 章基i 习表达数据分析技术 目的是根据所提供的模型进行内容检索。如w e b 搜索和图像搜索。 将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚 类【1 2 l 。由聚类所生成的簇是一组数据对象的集合,这些对象与同个簇中的对象 彼此相似,与其它簇中的对象相异。在许多引用中,可以将一个簇中的数据对象 作为一个整体来对待。 聚类分析是一种重要的人类行为。早在孩提时代,一个人就通过不断地改进 下意识中的聚类模式来学会如何区分猫和狗,或者动物和植物。聚类分析己经广 泛地应用在许多方面,如模式识别、知识发现、数据分析、图像处理,以及市场 研究等等。 通过聚类,人能够识别密集的和稀疏的区域,从而发现全局的分布模式,以 及数据属性之间的有趣的相互关系。 2 3 1 1 聚类分析的应用范围 在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并 且用购买模式来刻画不同的客户群的特征。 在生物学上,聚类可用于推导植物和动物的分类,通过对基因的分类,获得 对种群中固有结构的认识。 聚类也能对w e b 上的文档进行分类,以发现信息。作为数据挖掘的一个功 能,聚类分析可作为一个独立的工具获得数据分布的情况,观察每个分组的特点, 集中对特定的某些分组做进一步的分析。此外,聚类分析可以作为其他算法的预 处理步骤,聚类分析己经成为数据挖掘领域中一个非常活跃的研究课题i 】“。 作为统计学的一个分支,聚类分析己经被广泛地研究了许多年,主要集中在 基于距离的聚类分析。基于k 平均值( k m e a n s ) ,k 中心点( k m e d o i d s ) 和其他一些 方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,如s - p l u s s p s s ,以及s a s 。在统计方法中,聚类也称聚类分析,它是多元数据分析的三 大方法之一( 其它两种是回归分析和判别分析) 。它主要研究基于几何距离的聚 类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、 分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类等。这种聚类方法是 一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分,因此它要 求所有的数据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具 有线性的计算复杂度,难以适用于数据库非常大的情况。 在数据挖掘领域,活跃的研究主题集中在聚类方法的可伸缩性,聚类复杂形 状和复杂类型数据的有效性,高维聚类的分析技术,以及针对大型数据库中混合 数值和分类数据的聚类方法等。 2 3 1 2 聚类分析面临的挑战 9 北京t 业大学t 学硕f 。学位论文 聚类是一个富有挑战性的研究领域,其潜在的各种应用对聚类提出了各自特 殊的要求。具体如下【l3 j : 1 可伸缩性:许多聚类算法在小于2 0 0 个数据对象的小数据集合上工作得 很好;但是,一个大规模数据库可能包含几百万个对象,基因数据库中包含的基 因个数也可能上万个,在这样的大数据集合样本上进行聚类可能会导致偏差的结 果,需要开发有高度可伸缩性的聚类算法。 2 处理不同类型属性的能力:许多算法被设计用来聚类数值类型的数据。 但是,具体应用时往往要求聚类其他类型的数据,如二元类型数据( b i n a r y ) ,分 类标称类型( c a t e g o t i c a l l n o m i n a l ) 、序数类型数据( o r d i n a l ) ,或者这些数据类型的 混合。 3 发现任意形状的聚类:许多聚类算法基于欧几里德距离或者曼哈坦距离 度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的 球状簇。但是,一个簇可能是任意的形状。研究可发现任意形状簇的算法是很重 要的。 4 领域知识最小化:许多聚类算法在聚类分析中要求用户输入一定的参数, 例如希望产生的簇的数目等。聚类结果对于输入参数往往非常敏感。参数通常很 难确定,特别是对于包含高维对象的数据集来说,更是如此。要求用户输入参数 不仅加重了用户的负担,也使得聚类的质量难以保证。 5 处理噪声数据的能力:绝大多数现实世界中的数据库都包含了孤立点、 空缺、未知数据或者错误数据。一些聚类算法对于这样的数据敏感,可能导致低 质量的聚类结果。 6 对于输入记录的顺序不敏感:一些聚类算法对于输入数据的顺序是敏感 的。例如,同一个数据集合,当以不同的顺序提交给同一个算法时,可能生成差 别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要意义。 7 高维性:一个数据库或者数据样本可能包含若干维或属性。许多聚类算 法擅长处理低维的数据,可能只涉及两到三维。人类最多在三维的情况下能够很 好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,特别是考 虑到这样的数据可能非常稀疏,而且高度偏斜。 8 可解释性和可适用性:用户希望聚类结果是可解释的。也就是说,聚类 可能需要和特定的语义解释及应用相联系。应用目标如何影响聚类方法的选择也 是一个重要的研究课题。 2 3 2 聚类分析算法 对于基因表达数据的分析是生物信息学的研究热点和难点。分析任务是从数 1 0 剪2 帝幕冈表达数据分析技术 据矩阵中找出显著性结构,结构类型包括全局模型( m o d e l ) 和局部模式( p a t t e r n ) 。 对基因表达数据的分析通常使用聚类分析的方法【1 钔。 从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此 相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物 学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。尽管有 许多意外的情况存在,但大量功能相关的基因,在相关的一组条件下有非常相似 的表达谱,特别是被共同的转录因子调控的基因,或者产物构成同一个蛋白复合 体,或者参与相同的调控路径。因此,在具体的应用中,可以对相似表达谱的基 因进行聚类,从而指派未知基因的功能。 目前,基因的聚类处理已广泛应用于海量基因表达数据分析中,被视为一种 很有前途的基因表达数据分析方法。大量的新算法、新软件包不断出现。由于基 因表达数据的具有数据量大、数据维数高、要求聚类结果易于理解,现有的方法 都是基于这三点来设计的l ”】。1 9 9 9 年,a g g a r w a l 首先提出了p r o j e c t e dc l u s t e r i n g 的概念,它的目的是在低维子空间中分组高维数据,每个不同的簇投影高维数据 点到不同的低维子空间中,在维减小的过程中最小化信息的丢失。随后就出现了 很多寻找p r o j e c t e dc l u s t e r i n g 的算法,这些算法都可以用来聚类基因表达数据【l ”。 我国部分高校和研究部门也在致力于基因表达聚类的研究。2 0 0 4 年清华大学 x i n g l a ij i 和y u a n y u a n 等人提出了h m m g e p 算法,该算法采用隐氏马尔可夫模 型来聚类基因表达数据。 通过基因聚类可以得到一组或多组基因,在每组内,基因的表达非常类似, 具有相似的表达模式。另外,通过样本聚类,可以发现样本间的类型关系,或者 发现新的样本类型,这对确定和发现新的肿瘤类型,相应的诊断、治疗和预防方 法有很大帮助。 2 3 2 1k 均值( k - m e a n s ) 聚类算法 k m e a n s 算法的主要思想是:首先从n 个数据对象任意选择k 个作为初始聚 类中心,对于剩下的其他对象,则根据它们与这些聚类中心的相似度,分别将它 们分配给与其最相似的聚类,然后计算每个所得新聚类的聚类中心,不断重复这 一过程直到标准测度函数开始收敛为止。算法步骤如下: ( 1 ) 从n 个数据对象任意选取k 个对象作为初始聚类中心; ( 2 ) 循环下述流程( 3 ) 一( 4 ) ,直到每个聚类分组不再发生变化为止; ( 3 ) 根据每个聚类对象的均值( e e 心对象) ,计算每个对象与这些中心对象的距 离,并根据最小距离重新对相应对象进行划分; ( 4 ) 重新计算每个聚类的均值( 中心对象) 。 北京工业大学t 学硕l + 学位论文 一般可采用均方差作为标准测度函数,其定义为:e :圭i x - p , 1 2 ,其中, x 为代表对象的空间中的一个点,p 。为聚类c ,的均值。 k m c a n s 算法的计算复杂度为o ( ”幻) ,n 、k 、t 分别为样本数、类别数和迭 代次数,通常j j + ”,t + 胛,因此k m e a n s 聚类可应用于数据量较大的情况, 这是其优点之一。算法的关键问题是如何初始化质心,由于有多种初始化的可能, 因此难以得到最优化的结果,且该算法只适合形状为凸形的聚类,与某些复杂形 状的聚类未必相符,此外样本向量各维的重要性也未必相同,算法未加考虑可能 需要通过加权值处理。由于采用一个类中所有对象的平均值作为质心,聚类结果 还易受孤立点的影响。 2 ,3 2 2 基于层次的聚类算法 层次方法对给定数据对象集合进行层次的分解,根据层次的形成方式,又可 分为凝聚的或分裂的层次方法。凝聚方法是初始将每个对象作为单独的一个 簇,然后相继合并最近的对象或组,直到所有的组合并为一个或达到某个终止 条件。分裂方法则刚好相反,一开始将所有对象置于一个簇中,在迭代的每一步 中,一个簇被分裂为更小的簇,直到达到某个终止条件。 凝聚的层次聚类结果由系统树图表示,每个分枝都代表一个有相似行为的 组,聚类过程如下: ( 1 ) 首先计算任意两个对象之间的距离,将距离最小的两个结合在一起,并 生成一个新节点; ( 2 ) 计算剩下的对象中同新节点距离最近的,将其与新节点合并; ( 3 ) 迭代进行距离计算与合并的操作,对于1 1 个对象的情况,该过程最多重 复n 1 次,直至最后剩下一个节点。 层次聚类方法和k - m e a n s 聚类算法的区别在与,它并不是试图寻找最佳的聚 类结果,而是按照一定的相似性判别标准,对最相似的部分进行合并。层次聚类 方法简单直接,易于理解和应用,但它适用于反映真正的层次树结构,而微阵列 的基因表达数据的产生往往并非如此。此外聚类结果还受各个类的大小和其中对 象分布形状的影响,适用于类的大小相似且对象分布为球形的聚类。 2 3 2 3 基于密度的聚类算法 基于密度的聚类算法将分组看作是数据空间中被较低密度的区域分割开的 高密度对象区域,因此可以发现任意形状的分组,并能识别噪声数据。根据实现 方法,该类算法分为基于局部连通性和基于密度函数两种。前者将局部范围内密 第2 章基冈表达数据分析技术 度相对高的区域联通起来,形成一个分组,代表算法有:d b s c a n 算法、o p t i c s 算法等。后者用密度函数来模拟数据集的密度分布,代表算法有d e n c l u e 算 法等。 2 3 8 基因表达数据聚类算法比较研究 对上面介绍的应用于基因表达数据的几种聚类算法从总体上做一个比较分 析如下: k 均值聚类算法预先需要输入划分的块数即k 值,输入的k 值对聚类的结 果影响非常大,并且分类的结果很可能陷入局部极值,无法找到全局最优解,最 后k 一均值聚类对噪声点很敏感。 层次聚类算法最终结果实际上是自动生成一棵系统生成树,但对于这棵树如 何显示结果以及如何选取类别( 即如何分割m s t ) 仍然是个问题。这一步往往是需
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广西庆海建设发展有限公司招聘工作人员1人考试参考试题及答案解析
- 2025重庆重医附二院康复医学科技师(编外)招聘1人笔试备考试题及答案解析
- 工厂安全培训照片素材课件
- 2025青岛市市南区公立社区卫生服务中心招聘外包人员2人备考考试题库附答案解析
- 2025广西河池市住房保障和房产管理中心招聘工作人员1人备考练习题库及答案解析
- 2026中国建设银行海南省分行校园招聘130人笔试参考题库附答案解析
- 光笔相位成像技术-洞察及研究
- 工厂安全培训教案模板课件
- 营销号管控方案设计
- 建筑装修初步方案设计合同
- GB/T 27696-2011一般起重用4级锻造吊环螺栓
- GB/T 10781.1-2021白酒质量要求第1部分:浓香型白酒
- 2023-瑞幸咖啡vi手册
- 实用英语口语900句
- 风机运行记录表
- 2021新高考语文Ⅰ卷现代文阅读Ⅱ小说《石门阵》赏析及试题详细解析
- 高中必修人教A版高中数学必修1指数函数一 完整版课件PPT
- 法律谈判实务完整版课件全套教学ppt教程
- 2022藤椒油炒饭抖音推广方案-57P
- 报废机动车拆解有限公司应急预案
- 资产评估重点公式
评论
0/150
提交评论