(生物物理学专业论文)基于序列信息预测选择性剪接位点和盒式外显子.pdf_第1页
(生物物理学专业论文)基于序列信息预测选择性剪接位点和盒式外显子.pdf_第2页
(生物物理学专业论文)基于序列信息预测选择性剪接位点和盒式外显子.pdf_第3页
(生物物理学专业论文)基于序列信息预测选择性剪接位点和盒式外显子.pdf_第4页
(生物物理学专业论文)基于序列信息预测选择性剪接位点和盒式外显子.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(生物物理学专业论文)基于序列信息预测选择性剪接位点和盒式外显子.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于序列信息预测选择性剪接位点和盒式外显子 基于序列信息预测选择性剪接位点和盒式外显子 摘要 真核生物基因序列包括编码的外显子序列和不编码的内含子序列,在转录过程中内含子 被切除,外显子将有序的拼接在一起形成m r n a 。而选择性剪接使得一个基因序列有多种剪 接方式,并能产生不同的m r n a ,进而编码多种蛋白质,选择性剪接是蛋白质多样性的重要 来源。选择性剪接普遍存在于真核生物基因组中,人类基因组中一半以上基因存在选择性剪 接,而且选择性剪接存在于不同组织细胞和不同发育阶段,贯穿整个生命过程,并与疾病密 切相关。e s t s 和微阵列实验是目前确定选择性剪接事件的主要来源,但这些实验方法操作复 杂,并有很多不足之处。如何用理论和计算的方法识别和预测选择性剪接是目前生物信息学 研究工作的重要任务。 本文将基于基因组局部序列信息,用w e b l o g o 、序列信息参量 厶,和统计检验方法分析序 列,并提取序列特征;用位置权重矩阵、离散增量、支持向量机和马氏距离判别式对选择l 生 剪接事件进行了预测;并对剪接位点竞争机制和回文序列等选择性剪接有关机制进行了进一 步研究。论文主要研究内容如下: 1 首次运用位置权重矩阵和离散增量结合支持向量机的方法,基于序列信息预测分类 了选择性5 3 剪接位点和假剪接位点。结果显示,我们的方法特异性为8 5 6 2 ( 8 1 1 9 ) 时,能 预n 8 8 7 4 ( 9 0 8 6 ) 的选择性5 ( 3 ) 剪接位点。 2 基于剪接位点竞争机制,以序列特征为参数,用位置权重矩阵和离散增量结合支持 向量机的方法预测了人类和小鼠的选择性5 3 剪接位点和组成性剪接位点。我们的方法可以 对6 7 8 8 ( 7 1 6 3 ) 的人类供体( 受体) 位点进行正确分类。供体位点的预测成功率接近目前最好 的预测方法,受体位点的预测成功率高于目前最好的预测方法4 5 。并且我们的方法对小鼠 选择性5 3 剪接位点预测成功率可达到7 2 ,可知我们的方法预测性能好,并具有一定的普适 性和推广能力。 3 以位置权重矩阵打分函数值来表示剪接位点强度,以打分函数相减值来表示剪接位点 竞争机制,并基于剪接位点竞争机制,以打分函数相减值为唯一参数,预测了选择性5 3 剪 接位点。预测成功率与目前最好的预测结果相当。预测结果证明我们找到了表示剪接位点竟 内蒙古大学博士学位论文 争机制的一个最佳参数:打分函数相减值。 4 统计分析了盒式外显子和组成性外显子的序列长度、长度被3 整除序列的比例、两侧 剪接位点保守性等序列特征。用t 检验方法统计计算了左侧内含子序列、右侧内含子序列和外 显子序列的三联体组分信息,得到了c c t 等差异显著的三联体。并基于上述序列特征用位置 权重矩阵和离散增量结合支持向量机的方法,位置权重矩阵和离散增量结合马氏距离的二次 判别方法对盒式外显子进行了预测。两种预测方法均约为6 0 。 5 统计了盒式外显子两侧序列中的回文序列和两侧序列相互之间形成的回文序列,并 与组成性外显子和随机序列的回文特征进行了比较。发现组成性外显子回文密度高于盒式外 显子回文密度,并高于随机序列回文密度2 3 倍。此统计比较结果为选择性剪接来源于组成性 剪接的理论提供了又一个依据。 6 本文还统计了肿瘤特异性剪接位点的序列特征,运用位置权重矩阵和离散增量结合 支持向量机的方法预测了肿瘤特异性剪接位点,其成功率为6 2 ,高于其它文献的结果。 7 本文中首次把不同的选择性剪接模式产生的选择性供体( 受体) 位点归为一类,即把剪 接位点分成选择性供体位点、选择性受体位点、组成性供体位点和组成性受体位点四个大类, 进行了分析和预测。基于线虫选择性剪接数据的预测结果显示,把剪接位点分为四大类是可 行的,这对今后的选择性剪接位点研究工作提供了一个新思路。 关键词:选择性剪接:盒式外显子;保守位点:三联体频率;回文序列;位置权重矩阵; 离散增量;支持向量机 基于序列信息预测选择性剪接位点和盒式外显子 p r e d i c t i o no fa l t e r n a t i v es p l i c es i t e sa n ds k i p p e de x o n sb a s e do n s e q u e n c ef e a t u r e s a b s t r a c t t h ee u k a r y o t i cg e n es e q u e n c e sc o n t a i nt h ec o d i n ge x o n sa n dn o n c o d i n gi n t r o ns e q u e n c e s i n t r a n s c r i p t i o ns t e p ,t h ei n t r o ns e q u e n c e sa r es p l i c e do u ta n dt h ee x o ns e q u e n c e sa r ej o i n e dt o g e t h e r a l t e r n a t i v es p l i c i n gi sam e c h a m s mw h i c hp r o d u c e st h ed i f f e r e n tm r n a sa n dp r o t e i n sf r o ma g e n e a l t e r n a t i v es p l i c i n gi sa l li m p o r t a n tm e c h a n i s mt oi n c r e a s et h et r a n s c r i p td i v e r s i t y a l t e r n a t i v e s p l i c i n g e v e n t so c c l 1 f f r e q u e n t l y i nt h eh u m a ng e n o m ea n do t h e re u k a r y o t i cg e n o m e s t h e g e n o m e - w i d ea n a l y s i so f a l t e r n a t i v es p l i c i n gi n d i c a t e dt h a ta p p r o x i m a t e l yh a f o f h u m a ng e n e sh a v e a l t e r n a t i v es p l i c ef o r m s a l t e r n a t i v es p li c i n go c c u r si nt h ed i f f e r e n tt i s s u e s ,d i f f e r e n tc e l l sa n d d i f f e r e n td e v e l o p m e n t a ls t a g e s i ti si n h e r e n ti nt h ee n t i r el i f ep r o c e s s ,a n di ti sa l s oc l o s e l yr e l a t e d w i t hm a n yd i s e a s e s t h ep r e v i o u ss t u d i e sw h i c ha r eb a s e do ne s t sa n dm i c r o a r r a ya n a l y s i sh a v e i d e n t i f i e dm a n ya l t e m a t i v es p l i c i n ge v e n t s b e c a u s eo ft h ee x p e r i m e n t a ll i m i t a t i o n s , i d e n t i f i c a t i o n o fa l t e r n a t i v es p l i c i n ge v e n t sa l s on e e d sn o n e s t - b a s e dc o m p u t a t i o n a lm e t h o d s i nt h i sd i s s e r t a t i o n ,b a s e do nt h ei n f o r m a t i o np a r a m e t e r sf r o mg e n o m es e q u e n c e s ,t h e a l t e r n a t i v es p l i c i n ge v e n t sa l ep r e d i c t e db yt h ep o s i t i o nw e i g h tm a t r i x , i n c r e m e n to fd i v e r s i t y , s u p p o r tv e c t o rm a c h i n ea n dm a h a l a n o b i sd i s c r i m i n a n ta l g o r i t h m a n dt h ep a r a m e t e r sa r es e l e c t e d b yt h es t a t i s t i c a la n a l y s i so fw e b l o g o 。i n f o r m a t i o n a lp a r a m e t e rm n la n dt - t e s t t h em e c h a n i s mo f s p l i c es i t ec o m p e t i t i o n sa n dp a l i n d r o m i cs e q u e n c e sa r ea l s od i s c u s s e di nt h i sd i s s e r t a t i o n t h em a i n c o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r es u m m a r i z e da sf o l l o w s : 1 t h es u p p o r tv e c t o rm a c h i n em e t h o dw h i c hc o m b i n e sw i t hp o s i t i o nw e i g h tm a t r i xa n d i n c r e m e n to f d i v e r s i t yi sp r o p o s e da st h ec l a s s i f i e rf o ra l t e r n a t i v e5 3 s p l i c es i t e sa n dp s e u d os p l i c e s i t e s o u rm e t h o dc a nr e c e i v et h es p e c i f i c i t yo f8 5 6 2 ( 81 19 ) a n ds e n s i t i v i t yo f8 8 7 4 ( 9 0 8 6 ) f o rt h ep r e d i c t i o no f a l t e r n a t i v e5 ( 3 ) s p l i c es i t e s 2 b a s e do nt h em e c h a n i s mo fs p l i c es i t ec o m p e t i t i o na n ds e q u e n c ep a r a m e t e r s ,a l t e r n a t i v e 5 3 s p l i c es i t e sa n dc o n s t i t u t i v es p l i c es i t e so ft h eh u m a na n dm o u s eg e n o m e sa r ep r e d i c t e db yt h e s u p p o r tv e c t o rm a c h i n em e t h o dw h i c hc o m b i n e sw i t hp o s i t i o nw e i g h tm a t r i xa n di n c r e m e n to f d i v e r s i t y i nt h eh u m a ng e n o m e ,o u rm e t h o dc a nc o r r e c t l yc l a s s i f y6 7 8 8 ( 71 6 3 ) o fd o n o r ( a c c e p t o r ) s i t e si n t oa l t e r n a t i v ea n dc o n s t i t u t i v e ,t h ep r e d i c t i o na b i l i t yo fa c c e p t o rs i t e si s4 - 5 h i g h e rt h a nt h er e c e n tm e t h o d i nt h em o u s eg e n o m e ,o u rm e t h o dc a nc o r r e c t l yc l a s s i f ym o r et h a n 塑鍪查奎堂堡主堂些丝苎 7 2 s p l i c es i t e si n t oa l t e r n a t i v ea n dc o n s t i t u t i v e t h er e s u l t si n d i c a t et h a to u rm e t h o dh a sh i g h q u a l i t ya n dc a nb eu s e di nw i d er a n g e 3 t h ep o s i t i o nw e i g h tm a t r i xs c o r i n gf u n c t i o ni su s e dt or e p r e s e n ts p l i c es i t es t r e n g t h ,a n dt h e m e c h a n i s mo fs p li c es i t ec o m p e t i t i o ni sd e s c r i b e db yo n l yo n ep a r a m e t e r :s c o r i n gf u n c t i o n s u b t r a c t i o n w h i l ea p p l y i n go nt h ea l t e r n a t i v es p l i c es i t ep r e d i c t i o n ,t h ep r e d i c t i o na b i l i t i e sa r e a p p r o x i m a t e l ye q u a lt o t h er e c e n tm e t h o dw h i c hi sb a s e do nt h em e c h a n i s mo fs p l i c es i t e c o m p e t i t i o n t h er e s u l t sr e v e a lt h a tt h es c o r i n gf u n c t i o ns u b t r a c t i o ni so n e o ft h eb e s tp a r a m e t e rt o d e s c r i b et h em e c h a n i s mo fs p l i c es i t e sc o m p e t i t i o n 4 t h es k i p p e de x o n sa n dc o n s t i t u t i v ee x o n sa r ea n a l y z e df o ri t sl e n g t h , t h ed i v i s i b i l i t yb y3 a n dt h es p l i c es i t ec o n s e r v a t i o n t h e3 - m e rf r e q u e n c i e so fl e f ti n t r o n ,r i g h ti n t r o na n de x o n s e q u e n c e s a r ea n a l y z e db yt - t e s t ,a n dw eh a v ef o u n dt h a tc c te ta 1 3 - m e ra r es i g n i f i c a n t l yd i f f e r e n t i i lt 1 1 es k i p p e de x o n sa n dc o n s t i t u t i v ee x o r 塔s e q u e n c e s t h e nt h es k i p p e de x o n sa r ep r e d i c t e db yt w o m e t h o d s ,o n ei sb a s e do np o s i t i o nw e i g h tm a t r i xa n di n c r e m e n to fd i v e r s i t yc o m b i n e w i t hs u p p o r t v e c t o rm a c h i n e ,t h eo t h e ri sb a s e do np o s i t i o nw e i g h tm a t r i xa n di n c r e m e n to fd i v e r s i t yc o m b i n e w i t hm a h a l a n o b i sd i s c r i m i n a n t b o t ho ft h et w om e t h o d sc a nc o r r e c t l yp r e d i c ta l m o s t6 0 o f s k i p p e de x o n sb a s e do nl o c a ls e q u e n c ef e a t u r e s 5 n es t a t i s t i c a la n a l y s i so ft h ep a l i n d r o m i cs e q u e n c e sh a ss h o w nt h a tp a l i n d r o m e 盘e q u e n c y o fc o n s t i t u t i v ee x o n si sh i g h e rt h a ns k i p p e de x o n s ,a n di ti s2 3t i m e sh i g h e rt h a nt h ep a j i n d r o m e 丘e q u e n c yo fr a n d o ms e q u e n c e s t h es t a t i s t i c a lr e s u l tp r o v i d e san e w e v i d e n c ef o rt h et h e o r y :t h e a l t e r n a t i v es t a t ei sad e r i v a t i v eo fa na n c e s t r a lc o n s t i t u t i v ee x o n 6 t h em o n o n u c l e o t i d ec o n s e r v a t i o no fc a n c e rs p e c i f i cs p l i c es i t e si sa n a l y z e d ,a n dt h ec a n c e r s p e c i f i cs p l i c es i t e sa r ep r e d i c t e db yt h es u p p o r tv e c t o rm a c h i n em e t h o dw h i c hc o m b i n e sw i t h p o s i t i o nw e i g h tm a t r i xa n di n c r e m e n to fd i v e r s i t y t h ep r e d i c t i o na c c u r a c yi s6 2 w h i c hi sh i g h e r t h a no t h e rm e t h o d 7 a l la l t e r n a t i v ed o n o r ( a c c e p t o r ) s i t e so fd i f f e r e n ta l t e r n a t i v es p l i c i n gt y p e sa r ec l u s t e r e da s o n ec l a s s ( i ti sm e a nt h a ta l ls p l i c es i t e sa r ed i v i d e di n t of o u rt y p e s :a l t e r n a t i v ed o n o rs i t e s , c o n s t i t u t i v ed o n o rs i t e s ,a l t e r n a t i v ea c c e p t o rs i t e sa n dc o n s t i t u t i v ea c c e p t o rs i t e s ) ,t h e nt h e ya r e p r e d i c t e d t h ep r e d i c t i o nr e s u l to nc e l e g a n sa l t e r n a t i v es p l i c i n gd a t ah a ss h o w n t h a ti ti sf e a s i b l e t od i v i d et h es p l i c es i t e si n t ot h ef o u rc l a s s e s n er e s u l tp r o v i d e san e wi n s i g h tf o rt h ew o r ko f a l t e m a t i v es p l i c i n gp r e d i c t i o n k e y w o r d s :a l t e r n a t i v es p l i c i n g ;s k i p p e de x o n ;c o n s e r v a t i o ns i t e :3 - m e rf r e q u e n c y ;p a l i n d r o m i c s e q u e n c e ;p o s i t i o nw e i g h tm a t r i x ;i n c r e m e n to fd i v e r s i t y ;s u p p o av e c t o rm a c h i n e 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已 经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内鏊直太堂及 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:盔堑绫旦生指导教师签名:辄 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全 部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索, 也可以采用影印、缩印或其他复制手段保存、汇编学位论文为保护学院和导师的知识产权,作者在学期 间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古 大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:楹绉日出 指导教师签名:枥 基于序列信息预测选择性剪接位点和盒式外显子 第一章绪论 自从人类基因组工作框架图完成之后,基因组的研究进入了一个崭新的时代一一后基因 组时代,研究中心开始由序列基因组学转向功能基因组学【l 】。人类以及其它模式生物的基因 组测序工作的顺利完成,使得数据库中d n a 序列的数量呈指数式增长,从而提供了庞大的信 息量。基因功能的研究包括研究一个给定的基因何时、何地表达以及基因实际功能是什么等。 我们利用海量的序列信息,就可以在分子层面上探索生物体的奥秘。后基因组时代的工作将 推进生物工程技术在医药和农业等相关科学领域广泛应用,使人类生存的质量和境况发生革 命性的飞跃。 基因是指染色体上的一段包含了特定的遗传信息的d n a 片段,是控制生物体性状的基本 遗传单位。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的 性状表现。在这一过程中基因服从中心法则:基因载体的d n a 先转录成r n a ,而后再翻译成 相应的蛋白质,蛋白质在生命体中执行特定的生理功能。这是基因决定生物性状的一般途径。 真核生物基因和原核生物基因的最大区别在于真核基因序列含有内含子,而原核生物基因序 列中则没有内含子。真核生物基因序列包括外显子序列和内含子序列,在转录过程中内含子 被切除,而外显子序列则有序的拼接在一起,从而形成成熟的r n a ( m r n a ) 【2 j 。 1 1 真核生物剪接机制 人类基因组中,平均每个基因包含有1 0 4 个外显子【3 】,其它高等真核生物基因中也包括 大量的外显子,每两个外显子中间有一个内含子。真核生物基因中内含子在剪接过程中被切 除,外显子序列有序的拼接在一起。这个剪接过程被一个复杂的分子机制所控制,在这个机 制中,多个小核r n a s ( s n r n a s ) 和1 5 0 种蛋白质共同起作用。这些s n r n a s 与多个蛋白质结合形 成小核核糖核蛋白( s n r n p s ) ,u 1 、u 2 、u 4 、u 5 和u 6 等五个s n r n p s 与剪接过程有关。从序列 信息的角度而言,基因序列的剪接与供体位点、受体位点、多嘧啶区和分枝点序列信号密切 相关【4 】,且这四个区域有较强的序列特征。例如在人类基因供体位点附近一3 + 7 和受体位点附 近- 2 m 1 位点都有碱基保守性【5 】。分枝位点一般在受体位点前4 0 核苷酸( n u c l e o t i d e :n t ) 区域出 现,它的保守序列是y t r a y ( y :c 或t ,r :a 或g ) 【6 1 。在受体位点和分枝位点之间有多嘧啶 区( 示意图见图1 1 ) 。 内蒙古大学博士学位论文 畸子酝爵二一j n t r o n - - 一y t r a y - - y y y y 一一 ffff 图1 1 内含子序列和剪接信号示意图m f i g u r e1 1s c h e m a t i ci l l u s t r a t i o n so f a ni n t r o na n dt h eb a s i cs p l i c i n gs i g n a l s 真核基因剪接过程如下【7 ,8 j : 第一步,u ls 脚与供体位点结合; 第二步,u 2 a f 与多嘧啶区和受体位点结合; 第三步,u 2s 脚与分枝点结合; 第四步,u 4 、u 5 和u 6s n r n p 加入剪接体: 第五步,u 6s n r n p 与供体位点结合,u 1 和u 4 从剪接体脱离; 第六步,r n a 在供体位点处被切开,内含子的5 端附到分枝位点; 第七步,r n a 在受体位点处被切开,内含子两侧外显子拼接在一起,内含子被切除。 1 2 选择性剪接的概念 早在1 9 7 8 年,g i l b e r t 就提出了选择性剪接( a l t e r n a t i v es p l i c i n g ) 这一概刽9 1 。基因转录过程 中一个前体r n a 按不同的方式进行剪接,可以产生出多个m r n a ,此类剪接称为选择性剪接。 相对于选择性剪接,可以定义组成性剪接( c o n s t i t u t i v es p l i c i n g ) :如果某一个剪接模式始终是 不变的,则称之为组成性剪接。一个基因通过选择性剪接可以产生多个蛋白质,这些蛋白质 功能不一定相似,有时甚至相反。研究表明,有些选择性剪接在同一细胞中产生;有些表现 出组织特异性,在不同细胞产生不同的蛋白质;有的表现为在不同的发育时期产生不同的蛋 白质或者表现为不同的表达水平;有些则受不同的温度等外界条件的影响,产生不同的蛋白 质【1 0 1 。 根据最近报道可知,人类编码蛋白的基因有2 0 5 0 0 个f l ,而果蝇的编码蛋白的基因有 1 3 6 0 0 个【1 2 】,线虫编码蛋白的基因有1 9 0 0 0 个【1 3 】,最高等的哺乳动物人类基因数量仅比低 基于序列信息预测选择性剪接位点和盒式外显子 等生物的基因数量高出一小部分,但其生物性状却要比低等生物复杂得多。高等生物之所以 比低等生物复杂,不仅是因为其基因数量多,而更主要是因为其平均单个基因能产生更多数 量的蛋白质,以及蛋白质的交互作用【l4 1 。基因重排,r n a 编辑和选择性剪接等机制可以从一 个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量远远超过基因组中基因的数量。选择 性剪接机制在增加蛋白质组多样性中起了最重要的作用【1 2 , 1 5 - 17 】。 早期研究中推测,高级真核细胞生物只有5 的基因有选择性剪接f 1 8 】。随着基因组测序大 量的完成、e s t 实验数据的增加和微阵列技术的广泛使用,发现一半以上的人类基因中存在 选择性剪接【1 4 , 1 9 - 2 2 1 ,小鼠、线虫、果蝇等其它动物中也存在大量的选择性剪接( 2 2 2 5 1 。现有的 e s t 等实验数据来源于有限的组织和发育阶段,所以现在所得到的数据未能包括所有的选择 性剪接,因此实际选择性剪接发生的频率可能会更高f 2 6 1 。部分真核生物基因有很多种转录产 物,甚至个别基因有上千种转录产物【2 弘2 9 1 ,人类平均每一个基因有四个选择性剪接事件【3 0 , 3 1 】。 以上结果说明,在基因组中选择性剪接是一个通用的生物规律。 选择性剪接发生在所有的组织中,而脑细胞则比其它组织更容易发生选择性剪接【3 2 - 3 4 1 。 在进化分化明显的物种中,如人、小鼠、果蝇及线虫的基因中存在相似水平的选择性剪接, 这表明选择性剪接在整个进化史中都具有重要作用【3 5 1 。通过比较人和小鼠基因的选择性剪接, 发现人和小鼠基因主要的选择性剪接是保守的,但也存在着不共用的选择性剪接,剪接模式 进化上的保守性可用来研究选择性剪接的进化历史【3 6 1 。世界各国有关选择性剪接的研究报道 越来越多,从19 9 8 年到现在每年有近千篇有关研究选择性剪接的文章被s c i 收录,这些文章覆 盖生物化学和分子生物学等多个学科领域。 选择性剪接模式主要包括以下5 类【卅( 见图1 2 ) : 1 ) 选择性5 剪接位点( a l t e r n a t i v e5 s p l i c es i t e s ) :不同的剪接过程选择不同的5 剪接位点 ( 供体位点) ,即内含子的5 剪接位点在变化,从而导致外显子被延长或截短; 2 ) 选择性3 剪接位点( a l t e r n a t i v e3 s p l i c es i t e s ) :与上一种情况类似,这种选择性剪接模 式是选择不同的3 剪接位点( 受体位点) ,即内含子的3 剪接位点在变化; 3 ) 内含子保留( i n t r o nr e t e n t i o n ) :在部分剪接过程中某个内含子未被切除,而当做基因编 码区出现在最终的剪接产物中; 4 ) 盒式外显子( e x o ns k i p p i n g ) :在部分剪接过程中一个外显子连同它两侧的内含子一起 当做一个内含子序列被切除,从而使得该外显子不被表达。 5 ) 互斥外显子( m u t u a l l ye x c l u s i v ee x o n s ) :两个外显子分别在不同的剪接产物中存在,每 次剪接产物必须包括,且只包括其中一个外显子。 内蒙古大学博士学位论文 此外选择性剪接包括发生在5 q 翻译区和3 非翻译区的选择性剪接和多个选择性剪接模 式的组合【3 8 】。 h e m a t 讥y ! 唑竺船a n e n 斌确3 s p l 霉! 粤 i n t r o nm t e n t i o n _ _ ,- _ ,-_ 。- - - l 豳 ,_ i l = 一l l l l l 豳翻嘲一。k ,、,_ 、j 。 = 蜥:;i i i 专一= 事稳畴i 一:;。一。;i;:!iij一:;!i;j;:;i;i:!j;- 图1 2 选择性剪接模式黑色和灰色分别表示组成性外显子和选择性剪接区域;实线表示内含子,虚 线表示剪接行为 f i g u r e1 2t y p e so fa l t e r n a t i v es p l i c i n g c o n s t i t u t i v ee x o n sa n da l t e r n a t i v e l ys p l i c e dr e g i o n sa r es h o w ni nb l a c k a n dg r a y ,r e s p e c t i v e l y ;m t r o n sa r er e p r e s e n t e db ys o l i dl i n e s ,a n dd a s h e dl i n e si n d i c a t es p l i c i n ga c t i v i t i e s 1 3 选择性剪接的调节机制和生物学意义 真核基因在剪接过程中内含子被切除,外显子序列有序的拼接在一起。而选择性剪接则 使一个前体r n a 按不同的方式进行剪接,产生出多个m r n a 。选择性剪接的调节机制非常复 杂,从序列信息的角度而言,基因序列的剪接与供体位点、受体位点、多嘧啶区和分枝点序 列信号密切相关【4 】。此外,剪接位点的选择受到结合到非剪接位点作用元件的多重调节【3 9 1 。 参与选择性剪接调节的r n a 元件包括:外显子剪接增强子( e x o n i cs p l i c i n ge n h a n c e r s :e s e ) 、外 显子剪接沉默子( e x o n i cs p l i c i n gs i l e n c e r s :e s s ) 、内含子剪接增强子( i n t r o n i cs p l i c i n ge n h a n c e r s : i s e ) 和内含子剪接沉默子( i n t r o n i cs p l i c i n gs i l e n c e r s :i s s ) 等顺式作用元件【4 m 】。e s e 、i s e 、e s s 、 i s s 都是很短的序列,一般由6 l o 碱基组成。e s e 和i s e 是剪接因子s r 蛋白结合位点,提高相 邻剪接位点的活性。e s s 和i s s 是h n r n p 蛋白结合位点,抑制相邻剪接位点的活性1 4 5 】。供体位 点、受体位点、多嘧啶区、分枝点、e s e 、i s e 、e s s 、i s s 等的强度变化和相互作用都有可能 导致选择性剪接【3 7 加】。 一个基因通过选择性剪接产生多个转录异构体,而且多数选择性剪接发生在编码区【4 7 1 , 不同的转录异构体编码结构和功能不同的蛋白质。选择性剪接是提高蛋白质组多样性的重要 机制:而蛋白质组的多样性与多细胞高等生物的复杂性相适应【捌。从选择性剪接涉及的基因 分布格局分析,选择性剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体、 基于序列信息预测选择性剪接位点和盒式外显子 信号传导通路、转录因子等,并对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴 奋等的精确调控有重要意义【4 引。从选择性剪接涉及的基因系统的分类分析,选择性剪接多发 生在免疫和神经等复杂系统【4 9 1 。选择性剪接分别在细胞个体分化发育的不同阶段,在不同的 组织,有各自特异的表达和功能。选择性剪接是一种在转录后r n a 水平调控基因表达的重要 机制。例如:果蝇性别决定系统。在此系统中,s x l 等基因的选择性剪接级联反应最终决定了 果蝇雄性和雌性性别特征的表达1 5 0 】。 1 4 国内外研究现状 1 4 1 选择性剪接的数据来源 选择性剪接的数据来源包括三种: 1 ) 用r t - p c r 等方法对某一个或者某一类基因的选择性剪接事件的发现和确认【5 。此类 实验研究的可靠性较高,可以对某个基因的选择性剪接模式与调控机理研究得比较深入、细 致,为我们提供了很多的数据和信息,也为我们从更高的角度上对选择性剪接调控机制的研 究提供了很多有用的线索。但结果过于零散,无法得到对选择性剪接调控机制的更为一般性 的结论 5 2 , 5 3 1 l 。 2 ) 比对已有大量的e s t 、m r n a 、e d n a 和基因组序列确认选择性剪接事件【5 2 】,现有大 部分选择性剪接数据库都基于此类方法( 见表1 1 ) 。此类方法中心数据是e s t ,在下面的1 4 2 小节中我们将进一步叙述基于e s t 数据的建库方法。 3 ) 利用m i c r o a r r a y 等高通量技术识别选择性剪接事件【1 9 】。此类方法速度快,信息量大, 实验结果可靠,是目前验证选择性剪接事件的主要方法。此类方法不足之处是:必须先设计 好探针,但设计好的探针未能包括全部可能的剪接信息。 1 4 2 基于e s t 数据的建库方法 由于人类基因组数据的公布,以及陆续报道的其它模式生物的全基因组数据,特别是大 量的e s t 序列的公布,使以e s t 、m r n a 、c d n a 和基因组序列比对的方法从全基因组的范围 进行选择性剪接的识别成为可能。这也使得选择性剪接数据得到了极大的丰富。 基于e s t 的建库原理:e s t 是从一个随机选择的c d n a 克隆进行5 端和3 端单一次测序获 得的短的c d n a 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从2 0 - 7 0 0 0 n t 不等,平均长度为3 6 0 + 1 2 0 n t t 5 4 1 ,多数在4 0 0 6 0 0 n t z f 司t 5 5 1 。e s t 来源于一定环境下一个组织总 内蒙古大学博士学位论文 m r n a 所构建的c d n a 文库,因此e s t 也能说明该组织中各基因的表达水平【5 4 1 。巨量积累的 e s t 序列是一种宝贵的生物信息资源,在寻找新基因 s 6 - 5 8 1 、疾病相关基因【5 9 】、药物靶点鳓以 及识别选择性剪接f 6 1 6 2 】与s n p 位点f 6 3 】等方面均具有重要应用价值,而正确确定与基因序列真 正相关的e s t 是有效开展这些应用研究的基础。e s t 目前主要用于寻找新基因和了解基因的表 达情况,它具有速度快、规模大、含信息量多等优点。通过待研究的基因序列与e s t 数据的 比对,并对其结果进行分析,有助于发现一些可能的选择性剪接位点,并有助于全基因组范 围内的选择性剪接研究 4 7 , 5 2 。其原理如图1 3 所示。 l 撇二 a a a , 麟辚b 琦姆! 卿e 基l o m i c g a p s i n m 嘶a m n 硎嚣黥烹 厂。未p 广 基于e s t s 的选择性剪接识别的不足点: 1 ) 低丰度的i l l 】险渔很难用于产生e s t ,但这些低丰度的m r n a 对应的基因很可能具有关 键性的功能等【5 4 辩1 ; 2 ) 不同的组织、不同的细胞、不同的发育阶段和不同的外加条件都有可能导致选择性剪 接f 1 0 1 ,我们现有e s t 数据不能包括所有条件下的数据【6 5 】: 3 ) e s t s 是有偏好的,尤其3 尾处有很强的偏好瞰】; 4 ) 有一部分e s t 数据来源于肿瘤【6 4 j ; 5 ) 在获取c d n a 时,前体m r n a 剪接时可能存在变体,因而存在多条c d n a 对应同一基 基于序列信息预测选择性剪接位点和盒式外显子 因,导致来源于同一基因的e s t 存在多样性【5 4 j ; 6 ) 在c d n a 克隆两端测序时是一次性测序,并未经过二次确认,而且一些无法由机械自 动化自动判断的区域可能也未以人工的方式予以校正【5 钔,所以有3 的错误率【5 7 l ; 7 ) 构建c d n a 文库时可能会存在污染问题,如载体d n a 、线粒体d n a 、细菌d n a 等的 污染f 5 4 】。 更为精确地验证所发现的选择性剪接位点是否正确需要进一步实验验证。除了传统的 r t - p c r 方法外,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论