




已阅读5页,还剩95页未读, 继续免费阅读
(生物物理学专业论文)est转录组功能差异的数据挖掘系统及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
e s t 转录组功能差异的数据挖掘系统及应用 e s t 转录组功能差异的数据挖掘系统及 应用 摘要: 大规模的c d n a 测序得到了数量庞大的e s t 序列,这些e s t 序列代表了不同 物种不同组织在不同环境和生理状态下的基因表达情况,为比较转录组学的研究 提供了宝贵的资源。为了将转录组比较所得的差异表达的基因转化为对生物学意 义的更深入的理解,生物芯片的后续分析方法经常将基因表达谱和生物学功能描 述体系例如g e n eo n t o l o g y ( g o ) 整合起来,从而得到相应的功能谱分布情况。但 是,对于由e s t 得到的基因表达谱,目前并没有合适的算法和软件来实现这一过 程。 在本论文中,我们描述了g o - d i l l 。第一个以g o 为基础的对e s t 的表达谱进 行功能比较分析的一种新的方法,并提供了相应的软件。通过利用完整的基因表 达信息,将e s t 的频率( e s t 的基因表达度量) 转化为每个g ot e r m 所覆盖的e s t 个数,同时计算出不同e s t 库的对应量的比值( e c r 6 ) 。最后我们对每个g ot e r m 的e c r g 值进行统计检验,并对得出的p 值进行多重检验( m u l t i p l et e s t i n g ) 的校正 为了显示和验证g o - d i f f 的可靠性和实用价值,我们在三个例子中应用了 g o - d i f f :物种内的比较;综合多次比较的结果( m e t a - a n a l y s i s ) 来检验某一假 说;跨物种的转录组功能差异的数据挖掘。最后我们将6 0 - o i f f 应用到挖掘南极 鱼d i s s o s t j c h u sm a w s o n i 适应寒冷的生物学特征中。 g o - o i f f 首次将基于e s t 的表达谱和g 0 知识库相整合从而挖掘不同转录组在 功能分布上的差异,例如同一物种的不同组织或者不同物种的对应组织。随着公 e s t 转录组功能差异的数据挖掘系统及应用 共数据库里e s t 数据的快速增长和e s t 测序在普通实验室的大量普及,g o - d i l l 将日益成为基因表达数据挖掘的有力的方法和工具。 关键词:g e n eo n t o l o g y ,转录组,e s t ,g o - d i f f ,数据挖掘 2 f 3 t 转录组功能差异的数据挖掘系统及应用 a d a t a - m i n i n gp l a t f o r mf o r f u n c t i o n a l d i f f e r e n t i a t i o na n a l y s i sb e t w e e ne s t - b a s e d t r a n s c r i p t o m e s l a r g e - s c a l es e q u e n c i n ge f f o r t sp r o d u c e dm i l l i o n so fe x p r e s s e ds e q u e n c et a g s ( e s t s ) c o l l e c t i v e l yr e p r e s e n t i n gd i f f e r e n t i a t e d b i o c h e m i c a la n df u n c t i o n a ls t a t e s a n a l y s i so ft h e s ee s tl i b r a r i e sr e v e a l sd i f f e r e n t i a lg e n ee x p r e s s i o n s , a n dt h e r e f o r e e s td a t as e t sc o n s t i t u t ev a l u a b l er e s o u r sf o rc o m p a r a t i v et r a n s c r i p t o m i c s t o t r a n s l a t ed i f f e r e n t i a l l ye x p r e s s e dg e n e si n t oab e t t e ru n d e r s t a n d i n go ft h eu n d e r l y i n g b i o l o g i c a lp h e n o l i l 翎_ a e x i s t i n gm i c r o a r r a ya n a l y s i sa p p r o a c h e su s u a l l yi n v o l v et h e i n t e g r a t i o no fg e n ee x p r e s s i o nw i t l lg e n eo n t o l o g y ( g o ) d a t a b a s e st od e r i v e c o m p a r a b l ef u n c t i o n a lp r o f i l e s h o w e v a , m e t h o d sa l en o ta v a i l a b l ey e tt op r o c e s s e s t - d e r i v e dt r a n s e r i p t i o nm a p st oe n a b l eg o - b a s e dg l o b a lf u n c t i o n a lp r o f i l i n gf o r c o m p a r a t i v et r a n s c r i p t o m i c si nah i g ht h r o u g h p u tm a n n e r h e r ew ep r e s e n tg o d i i f , ag o - b a s e df u n c t i o n a lp r o f i l i n ga p p r o a c ht o w a r d sh i g h t h r o u g h p u te s t - b a s e dg e n ee x p r e s s i o na n a l y s i sa n dc o m p a r a t i v et m n s c f i p t o m i c s u t i l i z i n gh o l i s t i cg e n ee x p r e s s i o ni n f o r m a t i o n ,t h es o f t w a r eo o n v e r t se s tf r e q u e n c i e s i n t oe s tc o v e r a g er a t i o so fg ot e r m s t h er a t i o sa r et h e nt e s t e df o rs t a t i s t i c a l s i g n i f i c a n c e st ou n c o v e rd i f f e r e n t i a l l yr e p r e s e n t e dg ot e r m sb e t ) i ,e e nt h ec o m p a r e d t r a n s c r i p t o m e s , a n df u n c t i o n a ld i f f e r e n c e sa r et h u si n f e r r e d w ed e m o n s t r a t e dt h ev a l i d i t ya n dt h eu t i l i t yo ft h i ss o f t w a r eb yi d e n t i f y i n g d i f f e r e n t i a l l yr e p r e s e n t e d g ot e r m si nt h r e e a p p l i c a t i o nc a s e s :i n t r a - s p e c i e s c o m p a r i s o n ;m e t a - a n a l y s i st ot e s tas p e c i f i ch y p o t h e s i s ;i n t e r - s p e c i e sc o m p a r i s o n g o - d i f ff i n d i n g sw e r ec o n s i s t e n tw i t l lp r e v i o u sk n o w l e d g ea n dp r o v i d e dn e wc l u e s 3 璧坚笪墨望垫墼茎墨竺墼塑垫塑墨竺丝壁旦 f o rf u r t h e rd i s c o v e r i e s f i n a l l y , w ea p p l i e dg o - d i f fi nt h ed a t am i n i n go ft h e t r a n s c r i p t o m eo f a n t a r c t i cf i s hd i s s o s a c m sm a w s o n it os e a r c ht h eb i o l o g i c a lf e a t u r e o f c o l da d a p t a t i o n g o - d i f fi st h ef i r s ts o f t w a r ei n t e g r a t i n ge s tp r o f i l e sw i t l ig ok n o w l e d g e d a t a b a s e st om i n ef u n c t i o n a ld i f f e r e n t i a t i o nb e t w e e nb i o l o g i c a ls y s t e m s ,e g t i s s u e so f t h es a m es p e c i e so rt h es a m et i s s u eg r o s ss p e c i e s w i t hr a p i da c c u m u l a t i o no fe s t r e s o u r c e si nt h ep u b l i cd o m a i na n de x p a n d i n gs e q u e n c i n g e f f o r t si ni n d i v i d u a l i a b o 俺硎鹤g o - d i f fi su s e f u l a sas c r e e n i n gt o o lb e f o r eu n d e r t a k i n gs e r i o u s e x p r e s s i o ns t u d i e s k e yw o r d s :g e n eo n t o l o g y ,t r a n s c r i p t o m e ,e s t ,g o - d i f f d a t a - m i n i n g 4 里翌生塑堡丝茎墨堕墼塑丝塑墨丝窒里 缩略语表 e s t 咖 s a g e g o g o r g 皿 e c u g i 砸c l g e c r g d m e x p r e s s e ds e q u e n c et a g d i g i t a ld i f f e r e n t i a ld i s p l a y s e r i a la n a l y s i so fg e n ee x p r e s s i o n g e n eo n t o l o g y 6 0o v e r - u n d e r - r e p r e s e n t a t i o n e v a l u a t e g ot e r m s u t i l i z i n g l l o l i s t i c e x p r e s s i o n j n f o r m a t i o n e s tc o v e r a g el e v e lo fag ot e r m r e l a t i v ee s tc o v e r a g el e v e lo fag ot e r m e s tc o v e r a g er a t i oo fag ot e r m d i s s o s t l c h u sm a w s o n i b 幻t h e n l aa n g u s t a t a 5 e s t 转录组功能差异的数据挖掘系统及应用 第一章文献综述 第一节挖掘差异表达的基因 1 高通量的基因表达检测方法 基因表达的调控是生物中最重要的调控机制之一。生物在适应变化的环境, 在发育、生育、疾病、衰老以及癌变的过程中,都涉及到基因表达的调控。高通 量的基因表达检测方法,目前主要有:e x p r e s s e ds e q u e n c et a g ( e s t ) 、s e r i a l a n a l y s i so fg e n ee x p r e s s i o n ( s a g e ) 以及m i c r o a r r a y 。e s t 和s a g e 是通过随 机抽样的方法得到表达标签( t a g ) 的出现频率来衡量基因组的表达情况,而 m i c r o a r r a y 是通过m r n a 与探针杂交的荧光强度来衡量基因表达的强度。由于基 因表达的检测方法不同,它们的后续分析方法也有所差异。 2 寻找差异表达的基因 在得到基因表达的数据之后,最关键的步骤就是寻找差异表达的基因,通过 这些差异表达的基因,人们才可以深入研究基因调控的内在机制。衡量基因是否 差异表达,核心的方法就是计算不同情况基因表达量的比值,在c d n a 的 m i c r o a r r a y 中是红色光和绿色光强度的比值,在e s t 和s a g e 研究中是t a g 的百 分比的比值。除了比值本身以外,需要说明这个比值是由随机原因造成的还是代 表了真正的生物学过程,这就需要统计检验。由于e s t ( 包括s a g e ,下同) 与 m i c r o a r r a y 对基因表达的检测方法不同,它们所需要的统计检验方法也有所不 e s t 转录组功能差异的数据挖掘系统及应用 同 对于m i c r o a r r a y 的结果,最广泛使用的是t 检验,以c d n a 芯片为例,对于 同一基因,通常会得到n ( n = 1 ) 个重复的比值( r a t i o ) ,为r 1 ,r 2 ,i h l ( 有 的取对数) ,i 为它们的平均值,则 ( 1 ) 服从自由度为n 的t 分布。其中,为n u l lh y p o t h e s i s 中的r a t i o 的期望值,取 对数后是0 ,s 是样本的s t a n d a r dd e v i a t i o n s ( 2 ) 对于e s t 的数据,一般进行不同的e s t 库( l i b r a r y ) 之间的两两比较,对 于每一个基因,通过衡量它在不同e s t 库中的相对出现次数来衡量它是否差异表 达。对于每一个基因,首先需要构造一个2 x 2 的表格( 见表l1 ) : 2 兰石 一r 一“ = f e s t 转录组功能差异的数据挖掘系统及应用 表1 1 检测某一基因在两个e s t 库差异表达的显著性 n 。是基因a 在e s t 痒1 中的t a g 数量,n n 是基因a 在e s t 库2 中的t a g 数量,啦。是除了基因a 以外 的其它基因在e s t 库1 中的t a g 总量,慨是除了基因a 以外的其它基因在e s t 库2 中的t a g 总量。 e s tl i b r a r ye s tl i b r a r y 12 基因an un 也 除了 以外的其它基因n 2 tn n l ( = n 1 1 + n ) ( = n 2 l + n 露) n _ t ( = n 1 1 +m 2 ( = n l l +s ( = n l l + n 控+ n 2 i r k l )n 0 基于这个表,可以进行几种统计比较o h nm ze ta l , 2 0 0 0 ) 来检验基因a 在 e s t 库1 和库2 中的比例是否一致: n u l lh y p o t h e s i s :n i i ni = n t 2 m 2 a l t e r n a t i v eh y p o t h e s i s :n l l m l ! =n n n 2( 1 = 代表不等于) 1 ) c h i s q u a r e 检验 z :丝:尘! ! 坠丝:! ! 丝! ! : 1 2 1 2 用报从自由度为1 的f 分布。 2 ) z 检验 z :丝! 三丝 4 p o o p o ) ( 1 n 1 + 1 n 2 1 其中,p l = n 1 m 。 f 2 = n n n2 ( 3 ) ( 4 ) e s t 转录组功能差异的数据挖掘系统及应用 :( p l + p 2 ) 2 现在已经证明,c h i - s q u a r e 检验和z 检验其实是等效的,f = z 。 3 ) f i s h e r se x a c tt e s t 这种检验方法基于超几何分布( h y p e r g e o m e t r i c d i s t r i b u t i o n ) 。它首先固定四个边界值n l 、鞑、n ,和m 2 ,这样表格 内的n 。、n 。、n 2 l 和r 切就有很多中可能的组合方式,对于每种组合方 式,计算其p 值: p :丝:! 丝三:! 型:坐型 n ! n ll l n l 2 f n 2 1 n 2 2 t 则当前的组合的概率为 p v a l u e = p i p - 砌 其中p i l 值当前组合的p 值。 ( 5 ) ( 6 ) 4 ) a u d i c 和c l a v e r i e 的贝叶斯方法( a u d i cs ,c l a v e r i ej m 。1 9 9 7 ) p 仰1 2 i 椰= 旧n 2 “丽丽万( n l 瓦1 + n 鬲1 2 ) t 酽蕊 仁m 2 o p v a l u e = m i n p ( k n 1 1 ) ,p ( k l n l l ) 3 挖掘差异表达基因的e s t 数据库 ( 8 ) 由于本课题的研究对象是e s t ,所以我们仅综述e s t 的数据库。用来挖掘差 异表达基因的e s t 数据库,最权威的数据库包括n c b i 的 n i g e n e ) 和t i g r 的g e n ei n d i c e s ( 垫! i 2 ;! ! ! 婴b ! 垒:d 丝i :b 墼! 些q :! 盘! ! 匹! ) 。 u n i g e n e 通过将同一物种的e s t 按照序列的相似性进行聚类( c l u s t e r ) ,每一 个c l u s t e r 中选取长度最长质量最好的序列作为这个u n i g e n ec l u s t e r 的代表序 4 e s t 转录组功能差异的数据挖掘系统及应用 列,最后通过比较个c l u s t e r 在不同e s t 库中包含的e s t 个数来衡量这个u n i g e n e c l u s t e r 在不同e s t 库中的表达情况。在此基础之上n c b i 发展了一款工具,叫做 d i g i t a l d i f f e r e n t i a l 用前述的f i s h e r se x a c tt e s t 来对u n i g e n e 在不同e s t 库的表达情况进行统计检 验,找出差异表达的u n i g e n e 。图1 1 示例了一个d d d 的比较结果。 s t a t i s t i c a l l ysi g n i f i c a n td i f f e r e n c e s a bg 黜g e n e n e w p o n e w p o , i n d e x d e s c r i p t i o n 7 5 m c n 2 9 。瓣1 2 m o g pm r n af o ro v i d u c t - s p a c i f i c o | o o o 0 , 0 0 8 0 2 # y c o p r o t e i n ( o v g p l ) a a 1 76 m m 3 5 8 9 3 2o o c y t es p e c i f i ch 。豫e 。b 。xl ( o b o x l ) 。m r n a 0 c x 0 8 5 y 晓镬黼4 ( o b o x l ) a m bb b 等表示) 对于t i g r 的g e n ei n d i c e s 。与u n i g e n e 不同的是,它将同一个c l u s t e r 的e s t 拼接成c o n t i g 作为这个c l u s t e r 的代表。这样做的好处在于能够得到一条比较完 整的c d n a 序列,坏处在于拼接过程可能会带来错误,并且可变剪切( a l t e r n a t i v e s p l i c i n g ) 可能会影响拼接的效果。 e s t 转录组功能差异的敦据挖掘系统及应用 第二节利用g e n eo n t o lo g y 对差异表达的基因进行数据挖 掘 对于不同转录组的比较,找到差异表达的基因虽然重要,但并不是我们最终 的目的,最终的目的是挖掘其背后的生物学机制。最普通的办法是一个一个地搜 索差异表达的基因的相关注释,以获知其生物学功能、参与的生物学过程和细胞 定位。对于信息不全的基因,一般通过搜索同源基因来获得相关信息。然而这样 的方法有两个缺陷,首先,这种研究方法的工作量很大,需要对数百基因一一研 究,其次,这样的研究方法并没有统计学意义,例如,如果我们发现一个差异表 达的基因参与了细胞凋亡过程,我们能否由此得出结论说细胞凋亡过程在我们感 兴趣的组织中起了很重要的作用呢? 答案是否定的,因为在那些没有发现差异表 达的基因,同样也可能参与细胞凋亡过程。为了得到有生物学价值的结论,我们 就需要比较差异表达的基因和背景基因,观察细胞凋亡过程是否在差异表达了基 因中出现的更多,由此产生了一类“功能富集( f u n c t i o n a le n r i c h m e n t ) 分析” 的方法,而这类方法通常采用g e n eo n t o l o g y ( g 0 ) ( a s h b u r n e rme t 矗五2 0 0 0 ) 作为功能( 广义) 的描述体系,称为g oo v e r - u n d e r r e p r e s e n t a t i o n 方法( 简 称g o r 方法) 。 i g e n eo n t o l o g y 人类为了交流对客观世界的认识,在长期的实践中,发明和发展了自然 语言。同样,随着分子生物学在最近几十年的发展,生物学界逐渐积累了大 量的词汇用以描述生物分子的特性。随着人类基因组计划以及其它基因组计 划和后基因组计划的成功实施,生物分子的相关信息以指数方式增长,原有 的生物分子的自然语言的描述体系已经不能满足后基因组时代的需要。主要 6 e s t 转录组功能差异的敦据挖掘系统及应用 的原因是自然语言的随意性:对同一个分子特性的描述不同人可能采用不同 的词汇;对同一词汇,其所指对象的范围往往没有很明确的界定:相近的词 汇的相互关系缺乏系统性的界定。这种自然语言的特性,在人们的研究范围 比较小,研究的划分比较细的情况下,并非很严重的问题。但是随着生物学 研究的信息量呈爆炸式增长,生物的不同学科逐渐交叉交融,尤其是计算机 分析逐渐成为生物学研究必不可少的环节的情况下,原有的自然语言的描述 体系已经无法满足这种需求。为此,各个分子生物学数据库建立了各自的人 工语言的描述体系,例如s w i s s p r o t 的关键词。然而各个体系之间彼此并不 融合,为了解决这个问题,g e n eo n t o l o g y ( 6 0 ) 计划应运而生。 g e n eo n t o l o g y ( g 0 ) 计划是一个多个数据库的合作项目,致力于建立一 个跨数据库平台的,对基因产物特性的描述体系。g o 是一个结构化的、受控 的、用以描述基因产物的语汇体系,它包括“分子功能”,“生物过程”以及 “细胞组分”三个相对独立的组成部分。图1 2 是一个“分子功能”局部示 例。不同的g o 节点( n o d e ) 构成了有向无环图( d i r e c t e da c y c l i n eg r a p h , d a g ) ,父子节点之问的关系有两类,第一类是i s _ _ a ,也就是一般和特殊的关 系,子节点是父节点的一个子集,第二类是p a l t _ o f , , 也就是部分和整体的关 系,但这里的关系比较复杂,如果a 是b 的一部分,如果a 出现,则b 必定 出现,但是b 出现则a 不一定出现。这两类父子节点的关系共同构成了所谓的 t r u ep a t hr u l e ,也就是说,如果某一基因个某一个6 0t e r m 相关联,则这 个基因和该g ot e r m 的所有父节点( 包括父节点的父节点,依此类推) 相关 联。 7 e s t 转录组功能差异的数据挖掘系统及应用 圈1 2g e n eo n t o i o g y 的结构示例 2 6 e n eo n t o l o g y 注释 g e n eo n t o l o g y 经成为生物分子数据注释的事实上的标准。世界上的主 要分子数据库大多数都已经由g 0 注释,包括模式生物数据库,例如酵母数据 库( s g d ) 、果蝇数据库( f l y b a s e ) 、小鼠数据库( 糯i ) 、线虫数据库( w o r m b a s e ) 、 拟南芥数据库( l a i r ) ,也包括综合性数据库 和 为了促进资源共享,不同来源的g o 注释文件具有共同的格式,都是由 1 5 列以制表符( t a b ) 分隔的文本文件,每一列的内容和示例如图1 3 所示。 其中比较重要的列包括:第一列d b 表示提供该g o 注释文件的数据库; d b _ o b j e c t i d 表示被注释的分子在该数据库中的i d :d b _ o b j e c t _ s y m b o l 表 示被注释的分子的符号:g o l d 指与该生物分子相关联的g ot e r m 的i d 号; d b :r e f e r e n c e 表示该注释的来源,例如是来源于一个数据库记录或者是一篇 8 e s t 转录组功能差异的数据挖掘系统及应用 论文;e v i d e n c e 表示该注释类型,共有1 2 个类型,分别是,i 肝,i g i ,i p i , i s s ,i d a ,i e p ,i e a ,t a s ,n a s ,n d ,i c ,r c a ,其中t a s 指的是t r a c e a b l e a u t h o rs t a t e m e n t ,表示这个注释的可信度处于最高级别,i e a 表示i n f e r r e d f r o me l e c t r o n i ca n n o t a t i o n ,处于比较低的可信度范围 对于那些数据库没有提供注释、注释不全面或者新测得的序列,需要用 生物信息工具进行电子注释。g 0 的电子注释,大体上分为三类:第一类利用 序列的同源性进行电子注释,利用待注释序列和已注释序列的同源关系,将 己注释序列的g ot e r m 注释到待注释序列上去,这里最广泛使用的同源搜索 工具无疑就是b l a s t ( a l t s c h u l ,s fe ta l1 9 9 7 ) ,第一类方法还包括一种 特殊的同源搜索,也就是寻找待注释序列与某些特征序列( 例如结构域, d o m a i n ) 的同源关系来注释,功能最为强大的工具是 i n t e r p r o s c a n ( q u e v i l l o nee ta 厶2 0 0 5 ) ;第二类方法利用生物分子的非 序列特征,例如表达谱( e x p r e s s i o np r o f i l e ) 或者蛋白质相互作用 ( i n t e r a c t i o n ) 的信息来注释待注释分子;第三类方法通过整合以上两类 方法的各种信息来进行注释,注释时给予各种信息予以一定的权重。对于这 三类方法,使用最为广泛的其实还是相对比较简单的第一类方法,因为除了 有限的模式生物,大部分基因其表达谱和相互作用关系的图谱都是未知的。 9 e s t 转录组功能差异的数据挖掘系统及应用 l 鬻 ;“c o l u m n鬻n t e n t 蓦零薏季蠢蓄蕊p ”繁i e 器饕强“鼍冀嘲 ”、;。嚣戛 l 。d 8 3 d 8 0 b j 冒置j y m b d 1 = 1 - 1 0 3 毛 q u d i f 衙 s g o l d d b :r e f e r e r es g d 肚f t s 0 0 0 0 4 7 7 6 3 1 p m i d :2 6 7 6 7 0 9 ( 1d b :r e f e r e n c e ) 鼍t :。锄鼬聃良 磊一 “”“4=* 8 蝴廿1 ( 0 r ) f 巾m f 1 0 。d b _ o b j e c t _ n a m e a a dp h o s p h a :a s e 1 1 o b _ o b j e c t :_ s y n o n y m is y n o n y m ) 1 2 。 o b _ c 虹j e c t - 啊p eg e r m 1 3 t 拟o n ( 1 t a k o n ) t a x o n :4 9 3 2 1 4 d a t e2 0 0 1 0 n 8 图1 3g o 注释文件每一列的内容及示例 第二列表示注释文件中每一列的内容,第三列是内容的示例。 1 0 e s t 转录组功能差异的数据挖掘系统及应用 3 功能富集分析 为了挖掘差异表达基因背后的生物学意义,需要对这些差异表达的基因 进行统计学分析。目前使用最为广泛的是功能富集分析,通过比较差异表达 基因和背景基因的功能分布,寻找在特定条件下差异表达的基因集合中富集 或者稀少的“功能”。这里的“功能”是一种广义的理解,而不是狭义的生 物分子功能,例如g e n eo n t o l o g y 就包括分子功能、生物过程和细胞定位三 个部分。对于功能富集分析,目前主流的方法是g oo v e r 一眦d e r - r e p r e s e n t a t i o n ( 6 0 r ) 方法,使用极为广泛,生物信息工具多达十几个, 然而其核心算法却大同小异。其算法如图1 4 所示,通过基因芯片的分析, 我们首先可以得到两个基因的列表,一个是背景基因列表,一个是差异表达 的基因的列表,然后将这两个列表与这些基因的g o 注释相整合,这些基因 的g o 注释可能有几个来源,如果是模式生物,或者是商业化的芯片,可能 已经有现成的g o 注释,或者通过基因和蛋白的映射( m a p p i n g ) 关系,将蛋 白质的g o 注释转化成基因或c d n a 的g 0 注释,第二种可能是非模式生物, 而且目前没有提供可直接使用的g o 注释,这就需要用户自己进行g o 注释 将背景基因的列表和差异表达的基因的列表与相应的g o 注释结会以后,分 别得到了这两个列表对应的g o 分布,也就是每个g ot e r m 对应的基因个数, 最后对每一个g ot e r m 进行统计检验找到差异分布g ot e r m ,而这些差异分 布的g 0 提示了在差异表达基因这一列表中富集或者稀缺的功能,从而为深 入挖掘生物学机制提供了重要线索。能进行g o r 分析的软件包括: o n t o e x p r e s s ,f a t i g o ,d a v i d ,g e n e m e r g e ,g o t a t ,g o m i n e r ( z h o n gsp t a , 2 0 0 3 ,d r a g h i c ise t 日五2 0 0 3 ,n a r a s i m h a nse ta l , 2 0 0 3 ,z e e b e r g e s t 转录组功能差异的数据挖掘系统及应用 b re ta 五2 0 0 3 ,a l s h a h r o u rfe tn l , 2 0 0 4 ,b e i s s b a r t hte ta l , 2 0 0 4 , h o s a c kd ae ta l , 2 0 0 3 ) 等等。 图1 4 功能富集分析的基本流程 首先找出差异表达的基因,然后通过统计检验来寻找差异表达的基因和背景基因在功能分布 上的差异 e s t 转录组功能差异的数据挖掘系统及应用 第三节跨物种的转录组比较和数据挖掘 前述的差异基因寻找和挖掘工作都是同一个物种内的不同状态的转录组进 行比较。近两三年来,随着转录组研究技术的日趋成熟,人们开始研究跨物种的 转录组比较研究,从而开辟了一个新的领域一转录组的进化研究。 转录组的进化研究,目前集中在两个热点区域。第一个是研究人类和黑猩猩 的转录组的差异。随着人类基因组和黑猩猩基因组计划的相继完成,人们逐渐认 识到人和黑猩猩在编码区的差异不足以解释人和黑猩猩及其它灵长类动物在表 型上的巨大差异,于是将目光投向了转录组:转录组的进化对于人类和其它灵长 类表型的差异是否有贡献? 在何处和多大程度上有贡献? 第二个研究热点是关 于转录组进化的基本理论,由于转录组是基因组和表型的中问环节,所以研究转 录组的进化对于研究生命的进化具有极为重要的理论意义:转录组进化是否受到 选择压力? 转录组的改变是中性的还是受正选择影响? 转录组的进化和基因序 列的进化有没有相关性? 不同物种的同一组织( o r t h o l o g s ) 的表达谱彼此更相1 似,抑或是同一物种的不同组织( p a r a l o g s ) 的表达谱彼此更相似? 转录组的进 化和性有何关系? 这两大类问题的研究往往交织在一起,前者是一个具体问题,后者涉及到一 般理论,所用的数据一般是灵长类和啮齿类动物及其它模式生物的基因芯片,但 是对得到的结果的数据所提炼出的结果和结论却差异很大,有时甚至是相反的结 论。很早以前人们就开始关注转录组进化对于生物表型进化的重要意义( k i n g 。 m - cp fa , 1 9 7 5 ) 。但是k h a i t o v i c h 等的研究提示转录组的进化对表型的进化 基本没有贡献,他们在2 0 0 4 年发现灵长类动物( 包括人类,下同) 的基因表达 1 3 e s t 转录组功能差异的数据挖掘系统及应用 跟时间成线性关系,并且完整的基因和假基因基因表达的进化速率没有显著差异, 提示基因表达的进化更多的是一个随机过程,而自然选择起的作用很小 ( z h a i t o v i c hp 口ta , 2 0 0 4 a ) ,作者据此提出了转录组进化的中性模型 ( k h a i t o v i c hpp t8 1 , 2 0 0 5 a ) 。y a n n i 等在2 0 0 4 年的研究也支持了这个观点, 他们通过对人和小鼠各3 2 个组织基因表达谱( s ua ip ta 2 0 0 2 ) 的比较,发现 人和小鼠的对应组织的表达谱差异很大,并且基因表达的进化和序列的进化没有 显著的相关性,提示转录组的进化不太受自然选择的影响( y a n a ii p ta , 2 0 0 4 ) l i e u ) 和z h a n g 对此结果进行批驳,认为转录组进化基本不受自然选择 的影响显然不符合常识,他们通过改进的对跨物种转录组比较的方法对同一组人 和小鼠的芯片资料( s ua i 口a l , 2 0 0 2 ) 进行分析,和y a n n i 等的结果相反,得 出了大部分基因表达受到自然选择压力结果( l i a obe ta l ,2 0 0 6 ) 。r i f k i n 等 通过对黑腹果蝇( d r o s o p h i l a m e l a n o g a s t e r ) 的1 2 个变异系及其它果蝇种( 拟 果蝇d r o s o p h i l as i m u l a n s ,果蝇d r o s o p h i l ay a k u b a ) 的转录组比较,同样 认为转录组的进化是受到自然选择压力的( r i f k i ns ae ta l ,2 0 0 5 ) 。而 k h a i t o v i c h 等在2 0 0 5 利用新的转录组数据修正了早先的观点,认为基因表达进 化和基因序列进化的模式是一致的,都符合受选择压力的中性模型,并且存在一 定的正选择( k h a i t o v i c hpe t “,2 0 0 5 b ) 。 1 4 e s t 转录组功能差异的数据挖掘系统及应用 第二章g o d i 雌掘不同e s t 库的功能 差异 第一节背景 第一章综述了本课题所涉及到的相关背景,本节将通过对前面综述的总结来 阐述我们为什么要发展这样一个基于e s t 的转录组功能差异的数据挖掘系统以 及这个系统的主要思路 1 e s t 和m i c r o a r r a y 的比较 与e s t 相比,m i c r o a r r a y 更适于进行基因表达谱的分析研究,因为 m i c r o a r r a y 的通量更高,可以同时检测上万乃至数万个基因表达的情况,而 e s t 受到测序条数的限制,一般很难做到这样的规模。但是e s t 也有其长处, e s t 的好处在于其覆盖的物种比较多,对于一个待研究的物种,能够最先批 量取得的数据往往是e s t 数据,而相关的基因芯片研究往往要建立在这些 e s t 的基础之上。所以,m i c r o a r r a y 往往局限于几个比较有限的模式物种, 而e s t 对不同物种的覆盖程度要大大高于m i c r o a r r a y ,例如d b e s t ( b o g u s k i 赆p t a 1 9 9 3 ) 已经收集到9 7 6 个物种的3 1 ,3 0 7 ,0 3 4 条e s t 序列,其中4 7 4 个物种的序列数超过1 0 0 0 条( d b e s tr e l e a s e1 1 1 1 0 5 ,n o v ,1 1 ,2 0 0 5 ) 。e s t 的第二个长处在于不同来源的e s t 的组织结构比较类似,因此不同来源的 e s t 能够相对容易的被整合到一个统一的架构之中,而m i c r o a r r a y 在这点上 就比较困难,不同来源、不同平台的数据的整合是一项很大的挑战。 这样e s t 就两个天然的优势:第一,可供研究的范围扩大;第二,可以 1 5 e s t 转录组功能差异的数据挖掘系统及应用 整合多个物种的资源进行跨物种的转录组比较分析 2 现有的g o r 方法的不足之处 现有的利用g o r 方法对差异表达基因进行功能挖掘的工具虽然有十几种 之多,但它们具有一个共同的问题:后续的功能挖掘分析和前面的基因差异 表达分析不是偶联的也就是说,整个过程一般分两个步骤,第一步是利用 一定的标准寻找差异表达的基因,第二步是比较这些差异表达的基因与背景 基因在功能分布上的差异,第二步中,没有用到第一步的基因表达信息。这 样就带来两个问题首先,第一步中,寻找差异表达的基因的标准是武断的 ( 例如比值大于2 且p _ v a l u e 小于0 0 5 ) ,一般并不存在一个客观的标准, 这样就会为第二步带来很多人为的影响。其次,由于第二步没有用到第一步 的表达量信息,那么,不同的基因,只要满足这个差异的标准,不论它们各 自差异表达的倍数有多少,它们的权重是一样的 基于这两点考虑,人们就考虑能否将这两个环节整合起来,由此诞生了 一类新的方法,我把他命名为g h e 方法( e v a l u a t eg ot e r m su t i l i z i n g h o l i s t i ce x p r e s s i o ni n f o r m a t i o n ) ,其基本思路是,先不判断差异表达的 基因,而是将与特定功能相关的所有基因的表达量进行整合平均,然后直接 对这些功能的“表达量”进行差异分析,相关的算法和工具有g o - m a p p e r ,g o a l a n dg o d i s t ( s m i d 碓p ta , 2 0 0 4 ,v o l i n i ase ta , 2 0 0 4 ,b e n s h a u lye t a l ,2 0 0 5 ) 。本课题也将采用这类方法,需要说明的是,在笔者开始这项课题 时,以上的算法和工具尚未发表,而且针对的对象也不同。 3 适用于m i c r o a r r a y 的挖掘方法并不能很好的适用于e s t 虽然基于m i c r o a r r a y 的功能差异的挖掘算法和工具已经有很多,但是除 1 6 e s t 转录组功能差异的数据挖掘系统及应用 了本课题的工作之外,尚未有基于e s t 的转
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中国庆课件
- 高中化学电池改造课件
- 高三下期家长会课件
- 高一化学反应与电能课件
- 离婚谈判实战技巧三大策略专业调解合同
- 电动公交充电桩场地租赁及维护保养合同
- 农业粮食仓库租赁合同范本(含仓储设施维护)
- 私人商铺租赁合同范本:包含商铺租赁税费承担条款
- 广告创意版权代理合同
- 骨骼健康养生知识培训总结
- 全过程工程咨询投标方案(技术方案)
- T-CPIA 0056-2024 漂浮式水上光伏发电锚固系统设计规范
- 低应变检测(RSM-PRT)课件
- 玉米脱粒机行业发展分析及投资价值研究咨询报告
- (北师大版)一年级数学上册习题-同步训练(有参考答案)
- 2024年上海杉达学院马克思主义基本原理概论(期末考试题+答案)
- 招标采购业务培训课件
- (多场景)劳务合同(通用)
- 单片机应用课程设计基于电子时钟的设计报告参考模板样本
- 2024年重庆建筑安全员-B证考试题库及答案
- 新生儿护理与安全
评论
0/150
提交评论