(模式识别与智能系统专业论文)rna前体选择性剪接建模与预报.pdf_第1页
(模式识别与智能系统专业论文)rna前体选择性剪接建模与预报.pdf_第2页
(模式识别与智能系统专业论文)rna前体选择性剪接建模与预报.pdf_第3页
(模式识别与智能系统专业论文)rna前体选择性剪接建模与预报.pdf_第4页
(模式识别与智能系统专业论文)rna前体选择性剪接建模与预报.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(模式识别与智能系统专业论文)rna前体选择性剪接建模与预报.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 选择性剪接是真核生物在后转录过程中最为重要的调控机制之一。经过 二十多年的研究,尽管生物学家们已经初步了解了选择性剪接的模式、过程 以及某些调控因子的功能,但是还远没有掌握选择性剪接的真实调控机理。 近年来,随着科学家们对某些疾病( 尤其是癌症) 研究的深入,选择性剪接作 为导致疾病的重要来源之一越来越得到重视。目前,在高通量芯片技术和高 通量测序技术的推动下,全基因组范围内研究选择性剪接的调控机制正在成 为生物界最为前沿、最为热门的话题之一。然而,目前该领域的研究基本上 还处于生物实验阶段,本文最大的创新之处在于受选择性剪接的分子生物学 过程的启发,首次通过模型来对选择性剪接调控因子及其功能进行预测。 本文首先对选择性剪接的分子生物学过程,最新的研究技术和调控因子 预测方法进行了较为详细的综述。 其次详细设计了基于外显子芯片数据的统计方法和数据处理流程,目标 是找出具有统计意义的发生选择性剪接差异的外显子,这些外显子的表达量 差异和周围区域的候选模体信息将作为下一步模型的输入。 在上述分子生物机理研究和外显子芯片数据分析的基础上,建立了一种 线性的选择性剪接模型,该模型将两种状态下选择性剪接的差异考虑为多个 调控因子的综合作用,通过外显子包含贡献值来评价每个候选模体对剪接差 异的贡献。在搜索调控因子结合模体的环节,如果通过递归最小二乘算法, 计算时间无法接受,因此本文引入了蚁群算法,采用并行计算。这种智能的 启发式搜索算法大大提高了搜索效率。此外,本文还分析了各种参数设置对 模型搜索结果的影响。 线性模型能快速有效地从大量的待选模体中提取出最为重要的调控因 子,这对于从海量的生物数据中提取最为主要的信息来说,是很有意义的。 为了进一步研究提取的调控因子的具体调控功能,基于线性模型预测的结果, 本文设计了基于模糊理论和支持向量机的功能预报模型。该模型经样本训练, 能从以下三个方面对选择性剪接调控因子的功能进行预测、分析与评价: ( 1 ) 预测单个调控因子对剪接差异的调控功能; 哈尔滨工程大学硕士学位论文 ( 2 ) 评价某一调控因子的功能受其他调控因子的影响; ( 3 ) 预测多个调控因子的综合调控功能。 由于选择性剪接机制十分复杂,本文最后简要提出了下一步的研究方向, 并讨论了进一步完善模型的思路和方法。 关键词:选择性剪接;调控因子;高通量外显子芯片;支持向量机 哈尔滨工程大学硕士学位论文 a bs t r a c t a l t e r n a t i v es p l i c i n gi sk n o w na so n eo ft h em o s ti m p o r t a n tr e g u l a t i o n p r o c e s s e s i n p o s tt r a n s c r i p t i o no fe u k a r y o t e s a l t h o u g h t h eb a s i cp a t t e r n s , p r o c e s s e so f a l t e r n a t i v es p l i c i n ga n dt h ef u n c t i o n so fs o m er e g u l a t o r yf a c t o r sh a v e b e e nd e t e c t e db yb i o l o g i s t s ,t h er e a lr e g u l a t o r ym e c h a n i s mo fa l t e r n a t i v es p l i c i n g h a m tb e e nr e v e a l e ds of a r a l o n gw i t hs c i e n t i s t s p r o f o u n ds t u d yo nv a r i o u sk i n d s o fd i s e a s e s ,e s p e c i a l l yc a n c e r s ,a so n eo ft h em a j o rs o u r c e so fd i s e a s e s ,a l t e r n a t i v e s p l i c i n go fp r e - m r n ai sb e i n ge m p h a s i z e db y m o r ea n dm o r es c i e n t i s t s r e c e n t l y , w i t ht h ed e v e l o p m e n to fh i g h t h r o u g h p u te x o na r r a ya n dh i g h - t h r o u t h p u t s e q u e n c i n gt e c h n o l o g i e s ,g e n o m e w i d er e s e a r c h o nr e g u l a t o r ym e c h a n i s m so f a l t e r n a t i v es p l i c i n gi sb e c o m i n go n eo ft h ef r o n t i e r sa n dh o t t e s tt o p i c s t h e c o n t r i b u t i o no ft h i st h e s i si st h a ti ti st h ef i r s tm o d e l b a s e dm e t h o dt op r e d i c tt h e r e g u l a t o r yf a c t o r sa n dt h e i rf u n c t i o n sd u r i n gt h ep r o c e s so f a l t e r n a t i v es p l i c i n g a f t e rt h ei n t r o d u c t i o no ft h eb a s i cm o l e c u l a rm e c h a n i s mo fa l t e r n a t i v e s p l i c i n g ,t h el a t e s tt e c h n o l o g i e sa n dm e t h o d ss t u d y i n g a l t e r n a t i v es p l i c i n ga r e r e v i e w e d a f f y m e t r i xe x o na r r a y , a sw e l la st h es t a t i s t i c a lm o d e l sa n dd a t ap r o c e s s i n g p r o c e d u r e sl e a d i n gt ot h es e l e c t i o no ft i s s u e s p e c i f i ca l t e r n a t i v es p l i c e de x o n sa r e d i s c u s s e di nd e t a i l t h e n ,a l ll i n e a ra l t e r n a t i v es p l i c i n gm o d e li sd e s i g n e d ,w h i c hc o n s i d e r st h e s p l i c i n gv a r i a t i o nb e t w e e nt w od i f f e r e n tc o n d i t i o n sa st h ec o m b i n a t o r i a lf u n c t i o n s o fm u l t i p l er e g u l a t o r yf a c t o r s t h ee x o ni n c l u s i o nc o n t r i b u t i o ns c o r e sa r eu s e dt o e v a l u a t et h ec o n t r o b u t i o no fd i f f e r e n tc a n d i d a t em o t i f sb o u n db ys p l i c i n gf a c t o r s s e p a r a t e l y u s i n ga n tc o l o n yo p t i m i z a t i o na l g o r i t h m ,t h ee f f i c i e n c y o fm o t i f s e a r c h i n gc a l lb eh i g h l yi m p r o v e d ,c o m p a r e dw i t he x h a u s t i v es e a r c h i n gm e t h o d t h el i n e a rm o d e li sc a p a b l eo fs e l e c t i n gt h em o s ti m p o r t a n tm o t i f sf r o mt h e m o t i fc a n d i d a t e s ,v e r ye f f i c i e n t l y t h i sk i n do fm o d e li sv e r yh e l p f u lf o ru st o e x t r a c t i n gt h em a i ni n f o r m a t i o nf r o mt h eh u g e s e to fd a t af r o mb i o l o g i c a l e x p e n m e m s b a s e do nt h er e s u l t so fl i n e a rm o d e l ,am o d e lf o rt h ep r e d i c t i o no f s p l i c i n gf a c t o r s ,f u n c t i o n si s d e s i g n e db a s e do nf u z z yt h e o r ya n ds u p p o r t i n g v e c t o rm a c l l i n e a f t e rt r a i n i n gu s i n gs a m p l e s f r o mp r e v i o u sd a t ap r o t e s s i n g ,t h i s m o d e ic a l lp r e d i c tt h ef u n c t i o n so f s p l i c 崦f a c t o r sf r o mt h ef o i l o 、) i ,i n ga s p e c t s : 俐p r e d i c tt h er e g u l a t o r yf u n c t i o no fa s i n g l es p l i c i n gf a c t o r : ( b ) e v a l u a t et h ea f f e c t i o no ft h i sf a c t o rb yo t h e rf a c t o r s : ( c ) p r e d i c tt h ec o m b i n a t o r i a lf u n c t i o n so f m u l t i p l er e g u l a t o r yf a c t o r s s i n c et h ec o m p l e x i t yo fa l t e r n a t i v e s p l i c i n g ,s o m ei d e a sa 1 1 dm e 吐l o d st 0 1 1 掣o v et h ep e r f o r m a n c ea n da c c u r a c yo fm o d e lp r e d i c t i o na r ed i s c u s s e d i i lt 1 1 e k e yw 。r d s :a l t e m a t i v es p l i c i n g ;r e g u l a t o r yf a c t 。r ;h i g h t h r o u g h p u te x o n 锄y ; s v m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献等的 引用己在文中指出,并与参考文献相对应。除文中已经注明 引用的内容外,本论文不包含任何其他个人或集体已经公开 发表的作品成果。对本文的研究做出贡献的个人和集体,均 已在文中以明确的方式标明。本人完全意识到本声明的法律 结果由本人承担。 作者( 签字) : 互艇工力岔二 日期:厶哟年岁月汐日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 课题研究的背景、目的和意义 选择性剪接( a l t e r n a t i v es p l i c i n g ) 是后转录( p o s tt r a n s c r i p t i o n ) 过程中至关重 要的生物过程之一,是指从m r n a 前体通过不同的剪接方式( 选择不同的剪 接位点组合) 产生不同的m r n a 剪接异构体的过程。m r n a 前体的选择性剪 接已被认为是真核生物的一种基本而重要的调控机制,它精细协调基因的功 能,高效调节基因的定量表达以及蛋白的多样化,对细胞的分化、发育、生 理功能和病理状态都有重要意义3 。研究表明,选择性剪接过程受到多个调 控因子的综合影响,如何在全基因组范围内研究选择性剪接调控因子的调控 机制目前还是生物学的一大难题。 生物芯片技术的飞速发展( 尤其是外显子芯片技术的出现) ,借助生物信 息学、生物统计学以及人工智能等其他学科的方法,可以将生物实验数据和 模型预测相结合,在全基因组范围内研究选择性剪接的综合调控机制,并预 测调控因子在m r n a 前体上的结合模体。与传统研究选择性剪接机制的方法 相比,本文更为关注的是不同物种、不同组织、同一组织的不同发展阶段或 药物刺激前后的选择性剪接差异,以及造成这种差异的调控因子。因此,该 模型不受具体的研究对象限制,更具参考价值和现实意义。 1 1 1 选择性剪接调控机制的研究背景 二十世纪7 0 年代,英国生物学家r i c h a r dj r o b e r t s 和美国生物学家 p h i u i p a s h a r p 各自从一种致感冒的病毒的研究中发现基因在d n a 中可以不 是连续的,这个重大发现直接引导科学家们发现了基因后转录过程中最为 重要的环节之一- m r n a 前体的剪接,而他们也因此于1 9 9 3 获得诺贝尔 医学奖。 1 9 7 7 年,g i l b e r t 在a d e n o v i r u sh e x o n 基因中发现内含子和外显子之后, 提出“一种基因外显子的不同组合方式可以产生不同的m r n a 产物”u ”。2 0 世纪8 0 年代,生物学家们分别在免疫球蛋白m u 基因和降钙素基因中发现选 择性剪接现象n 别。随后几年,科学家们就估计在高等真核生物中大约有5 哈尔滨工程大学硕士学位论文 的基因是选择性剪接基斟们。而本世纪初,生物学家却进一步发现人类5 9 的基因会发生选择性剪型7 1 ,其中,约有8 0 的选择性剪接导致蛋白质产生 变种p 1 。从决定性别到与细胞凋亡有关的基因都存在选择性剪接现象嶂引。 选择性剪接模式的多变性会导致疾病们。研究表明,选择性剪接对人类 神经系统尤其是脑部发育具有重要影响。1 2 o1 5 的点突变导致的遗传疾病与 选择性剪接有关m 1 。其他疾病如生长荷尔蒙缺乏、f r a s i e r 综合症、p a r k i n s o n 综合症、囊肿性纤维化、色素性视网膜炎、脊髓性肌萎缩、肌强直性营养不 良等等都与选择性剪接有关“1 2 1 4 1 。另外,各种类型的选择性剪接都与某些癌 症有关1 。 然而目前科学家对m r n a 前体的选择性剪接的调控机制研究还不是很 深入,大多数都局限于某个具体的研究对象,找到某个或某类调控事件。当 然也有全基因组范围研究某一类调控因子( 如s r 蛋白质家族) 对选择性剪接 的调控机制,但这些只是基于某个时间点上测出的生物数据( 如高通量测序或 外显子芯片数据) 而做的静态的研究。缺点是没有考虑在不同状态下的选择性 剪接差异,在这些剪接差异的背后,到底是由哪些调控因子在起作用。 1 1 2 选择性剪接调控机制的研究意义 本文研究的选择性剪接调控机制有别于传统的静态的研究某一个或某一 类选择性剪接调控因子,而是在全基因组范围内,比较分析不同物种、不同 组织、同一组织不同发展阶段或有无药物刺激下,通过生物信息学以及人工 智能方法,建立模型来预测造成这种剪接差异的潜在的调控因子( 或调控模 体) 。通过这种方法研究选择性剪接调控机制有重要的意义: ( 1 ) 对选择性剪接的研究思路和方法具有参考价值。 本文提出的方法是基于实验数据和模型预测的综合方法。不同于单独从 生物实验或单独从模型预测出发的研究思路,首先从高通量的基因芯片数据 中,比较分析两种状态下的选择性剪接差异,采用的模型则考虑到了多调控 因子( 而不是单个调控因子) 之间的综合作用,所以对以往的研究思路和方法 是一种创新。 ( 2 ) 为疾病研究、治疗以及药物学研究提供新思路。 上一节阐述了m r n a 前体的选择性剪接与疾病之间的关系,应用这种方 2 哈尔滨工程大学硕士学位论文 法,通过比较正常情况和患病环境下的细胞组织的选择性剪接的差异,可以 预测造成这种疾病的潜在原因。另外,在药物设计的阶段,这种方法可以用 来评价该药物的作用。比如可以比较药物刺激前后选择性剪接的差异,预测 那些因药物刺激而使调控作用发生变化的调控因子( 即某种蛋白质) ,从而进 一步评价这种药物的作用。由于这种药物研究和疾病治疗方法是在r n a 层 次上的,而通过1 1 1 节的阐述已经知道选择性剪接的差异性是造成各种疾病 的主要原因之一,所以该方法必将具有深远的意义,长期来讲能有广泛的应 用价值。 ( 3 ) 发掘潜在的选择性剪接调控因子( 蛋白质) 。 由于实验基于的数据为全基因组范围的高通量外显子芯片数据,而不是 小批量的几个基因的生物实验检测出来的数据,所以模型所预测出来的调控 因子具有较强的说服力( 当然,预测出来的调控因子还需要实际的生物实验来 验证) ,能帮助生物学家发掘现在尚未发现的潜在的选择性剪接调控因子。 1 2 选择性剪接调控机制的研究现状 生物技术的发展,生物统计学和生物信息学等多学科的共同参与和推动 下,生物领域研究进入了快速、良性的发展循环。从发现生物问题、提出猜 想和模型、设计生物实验、系统分析和理论形成到利用理论进行预测,然后 设计新的生物实验,当新生物实验结果和理论与以往生物理论发生冲突时, 又进入新的一轮循环( 图1 1 ) 。m r n a 前体选择性剪接的研究正是在这样的大 环境下进行的。相比d n a 和蛋白质,r n a 极不稳定,研究起来十分困难, 许多r n a 领域的研究尚处起步阶段。 目前,许多大学、生物科技企业、生物研究所等研究机构都在从事这个 领域的研究。从研究的方法来看,可以分为生物实验研究、模型预测和综合 性研究( 综合实验与模型预测) ;从研究的范围来看,主要可以分为小规模( 某 一个或几个基因) 和高通量( 整个基因组范围) 研究;从研究的层次来看,可以 分为基础性科学研究和具体应用研究( 如子宫癌、乳腺癌等等) 。受到资金和 技术的限制,许多研究机构和科学家只能进行小规模的研究。但是光从生物 实验角度来研究是不够的,如果能受生物实验结果的启发,利用数学模型、 统计学模型和人工智能算法对该机制进行建模预测,则可以辅助生物实验研 3 哈尔滨工程大学硕士学位论文 究,挖掘潜在的信息。 图1 1 假设数据驱动的生物研究循环【1 真实的m r n a 前体剪接机制要比想象中的远远复杂的多,生物学家们也 只能对某一物种里的某一种或某一类调控因子剪接调控作用进行研究。表1 1 列出了至今已被发现的选择性剪接调控因子【1 6 1 。从表中可以看到: ( 1 ) m r n a 前体、剪接调控因子与剪接体等r n a 结合蛋白质之间有着复 杂的相互作用; ( 2 ) 选择性剪接在不同物种里的调控因子和调控方式也有区别; ( 3 ) 选择性剪接调控因子广泛存在于很多物种里,仅仅靠实验进行逐个检 测是事倍功半的。如果能利用计算方法对调控因子进行预测,将给生物学家 以有价值的参考,有助于发掘潜在的调控因子。 实际上,在过去的二十年里,科学家们一直致力于利用计算方法来研究 选择性剪接的机制,并预测调控因子的结合模体。目前最常用的方法是首先 通过生物实验找到发生选择性剪接的外显子,然后比对发生选择性剪接的外 显子及周围区域中的序列,来搜索剪接增强因子( s p l i c i n ge n h a n c e r ) 和剪接抑 制因子( s p l i c i n gs i l e n c e r ) 。b u r g e 和他的同事们用实验和统计模型相结合的方 法来预测外显子剪接增强因子和外显子剪接抑制因子h7 埔1 。s a k a ih 和 m a r u y a m ao 发现不同的选择性剪接受调控因子的调控机制可能不一样川,所 以他们对不同类型的选择性剪接预测出不同的剪接因子结合模体。目前已经 有一些数据库能对某些调控因子进行预测,如e s ef i n d e r 印1 、r e s c u e e s e n 引、 p e s x 弘“。但是通过这些方法来研究预测选择性剪接调控因子有以下缺陷: 4 哈尔滨工程大学硕士学位论文 表1 1 生物学家己发现的选择性剪接调控因子 蛋白质( 调控因子) 物种作用方式目标剪接体作用域 s x l 【2 2 】 果蝇抑制 u 1 u 2v i as n f r n p c s t r a 【矧 果蝇增强u 2 a f ,u 1 r s t r a 2 阎 多个物种增强 u 2 a f r n p - c s ,r s a s f s f 2 f 2 s l 多个物种增强u 2 a f ,u 1s n r n pr n p - c s ,r s t i a 1 【2 4 ,2 5 】 多个物种增强 u 1 r n 咿一c s h n r n pa 1 f 2 6 - 2 8 多个物种抑制s r 蛋白质,u 2 a f r n p c s p t b 2 9 】 多个物种抑制 r n p g s p s i 3 0 多个物种抑制 u 1k h e t r 3 口t - s 3 。脊椎动物增强 r n p c s n o v a1 1 3 4 】 脊椎动物增强 k h y b1 【3 5 】 脊椎动物增强 c o l ds h o c k b j 瓜n ph 【3 “o 】 脊椎动物增强抑制 r n p c s p 7 2 j 4 1 】 多个物种增强 d e a db o x s r p 3 8 1 4 2 4 4 】 脊椎动物抑制r n p - c s ,r s s r r p 8 6 r 4 5 】 脊椎动物增强抑制s r 蛋白质 r n p - c s ,r s r s f l f 4 6 】 果蝇抑制s r 蛋白质r n p - c s ,r s e l a v 4 7 多个物种抑制 m e c 8 t 4 8 】 线虫 i u 岬c s f o x l 【4 9 】线虫 r n p c :s q u a k i n g t s o :s q 脊椎动物抑制 k h s w a p t 5 2 】 果蝇 r s h a l f p i n t 【5 3 】 多个物种增强 u 2 a f r n p c s p 3 2 t 5 4 】 脊椎动物抑制s r 蛋白质 ( 1 ) 这些方法只适用于研究某一种调控因子,没有考虑其他潜在的调控因 子的综合作用。 ( 2 ) 只是静态的预测调控因子的结合模体,不能对不同物种、不同组织或 同一组织不同环境下的选择性剪接差异进行动态预测。 5 哈尔滨工程大学硕士学位论文 1 3 基于剪接差异的选择性剪接模型的框架流程图 图1 2 基于剪接差异的选择性剪接模型的框架流程图 本文建立的选择性剪接模型总体框架图如图1 2 所示。整个模型分为外 显子数据统计分析与处理、线性选择性剪接模型和基于人工智能方法的调控 因子功能预报模型三大部分。统计分析主要负责将原始的外显子芯片数据的 校正和标准化、外显子与基因表达量的估计与过滤,然后判断外显子在两种 状态下的表达是否有差异:选择性剪接模型则根据输入的外显子表达差异对 数值,对候选模体进行搜索,算法分递归搜索和基于蚁群的启发式搜索两种, 搜索的结果是每个候选模体的外显子包含贡献值,改模型的作用是从大量的 候选模体中粗选出较为重要的少量调控因子;最后,本文建立了一种基于模 糊理论和支持向量机的调控因子预报模型,对单个调控因子和各种组合调控 因子的综合调控功能进行预测。 6 哈尔滨工程大学硕士学位论文 1 4 本文的主要工作 本文的主要工作有: ( 1 ) 系统综述了选择性剪接的分子生物学机理,阐述了选择性剪接调控因 子的作用方式,分析了当前最新的选择性剪接研究领域的现状,概述了最为 前沿的全基因组范围内研究选择性剪接的生物科技; ( 2 ) 设计并实现了海量外显子芯片数据的预处理和统计分析方法; ( 3 ) 研究并设计了基于剪接差异的线性选择性剪接模型,分别采用基于穷 举法和蚁群的启发式搜索算法两种搜索调控因子的方法。并详细分析了参数 设置对于上述两种算法的影响: ( 4 ) 建立了基于模糊理论和支持向量机的非线性调控因子功能预报模型。 讨论了如何基于该模型预测单个调控因子单独及受其他调控因子影响下的功 能,分析了多调控因子综合调控功能的预报方法与参考价值。 1 5 本文的内容安排 本文的内容组织如下: 第1 章介绍课题的研究背景与意义,以及目前的研究现状,概述了本文 的主要研究工作和结构安排; 第2 章阐述m r n a 前体选择性剪接的分子生物学原理,综述选择性剪 接的研究方法与技术; 第3 章系统设计海量外显子芯片数据的统计处理方法; 第4 章研究并建立线性选择性剪接模型,分别采用穷举和蚁群两种搜索 算法: 第5 章研究并建立基于人工智能方法的调控因子功能预报模型。 7 哈尔滨工程大学硕士学位论文 第2 章选择性剪接机制与研究技术 2 1m r n a 前体选择性剪接综述 2 1 1 基因表达与选择性剪接 基因的表达和调控是通过多个层次来进行的,主要包括转录、m r n a 前 体处理( 5 加帽、m r n a 前体剪接和3 加尾) p 扪、r n a 输出、翻译和r n a 的降 解睁q 。在真核生物中,m r n a 前体剪接是不可缺少的重要环节,是指m r n a 前体的内含子在剪接因子( s p l i c i n gf a c t o r ) 的调控被剪接体( s p l i c e o s o m e ) 剪接掉 并将剩下的外显子部分连接起来形成m r n a ( m a t u r er n a ) 的过程。 m r n a 前体剪接分为组成性剪接与选择性剪接两种。组成性剪接是指从 初始转录物中准确地去除内含子,产生m r n a 的过程。虽然原则上该过程需 要非常准确的剪接,但很多情况下,一个初始的转录物会发生不同的剪接情 况,并生成不同的m r n a ,这种剪接被称为选择性剪接。由于选择性剪接打 破了“一个基因对应一个多肽”的思想,即允许一个基因产生多个蛋白质的同 分异构体,所以选择性剪接对蛋白质翻译的多样化是至关重要的0 卯1 。 2 1 2m r n a 前体剪接的分子生物学机理 m r n a 前体剪接是通过剪接体一多成分核蛋白联合体( m u l t i c o m p o n e n t r i b o n u c l e o p r o t e i nc o m p l e x e s ) 来执行的,它包括5 个小核r n a ( s n r n a ) 和其他 大量相关的蛋白质。内含子在被剪接的过程中,最重要的是内含子的识别。 尽管内含子在大小和序列上都很不一样,但它们有一些共同的模体( m o t i f ) , 如绝大多数的5 剪接发射端和3 剪接接收端的二聚核苷酸( d i n u c l e o t i d e s ) 和枝 点( b r a n c hp o i n t ) 的一个腺嘌呤核苷酸( a ) ( 图2 1 ) 。 剪接过程大致有以下几个步骤哆8 5 9 1 ( 图2 2 ) : a 小核蛋白u 1s n r n p 通过s n r n a 和m r n a 间的特定的碱基配对结合 到发射端( 即5 剪接位点) ,同时,异质二聚体u 2 a f 结合到多嘧啶区 和接收端( 即3 剪接位点) ; b u 2s 脚通过碱基配对结合到枝点; c 由u 4 、u 5 和u 6 小核r n a 组成的三聚小核蛋白( t r i s n r n p ) j j n ) k 剪接 8 哈尔滨工程丈学硕士学位论文 体: du 6s m r 3 q p 通过结合到发射端取代u 1 ,u l 和u 4 则从剪接体中释放; e m p - , _ n a 的接收端被剪接掉,上游外显子连接到下游外显子,内含子 被释放。 如果在上述过程中,5 剪接位点或3 剪接位点由于某种原因发生变化时, 就会产生选择性剪接事件。选择性剪接使得同一段m p - , _ n a 前体能产生多个 m r n a 的变体,最终翻译成不同功能的蛋白质( 图2 3 ) 。 t 二一 塑塑望翌n 罐雄i 蠢i 遴 藤潍蠹隧逖篱滋淄 图21 内含子5 ,年口3 剪接位点和枝点处的模体共有序列 s rp r o t e l n s 固l b u 1s n r n po u 2 a f6 5 ,、 a _ 眨。一,篓绣 一寥螃彭嘧 p r e m r n a 叫暖鬟:滋溺貊二二二瞄磊磊嘉= 葫驷一叫雕卜峨滋黼彝滕卜兹瀚鼢嘲戮麓一 v , 一、一,。7 。 v、h ,” m r n a1 圜灞蕊潮嘲缀鬻卜 蛋白质1 辫辫嗣_ 戮攀辫豳 m r n a2 一一 日_ 磊琵籀荔霸鬻瓣一一一一 蛋白质2 癣嘲蕊翻幽黼赫赫赫蕊灞 图2 3m _ r n a 前体由于选择性剪接而产生不同的蛋白质同分异构体 2 1 3 选择性剪接的种类 选择性剪接具有多种模式,一般来说,包括盒式外显子剪接( c a s s e t t e e x o n ) 、5 选择性剪接( a l t e r n a t i v e5 s p l i c i n g ) 、3 选择性剪接( a l t e r n a t i v e 3 s p l i c i n g ) 、内含子保留( i n t r o nr e t e n t i o n ) 和外显子互斥剪接( m u t u a la l t e r n a t i v e s p l i c i n g ) 等等,其中大多数为盒式外显子剪接吲1 ( 图2 4 ) 。 内童子外早子 组成性剪接! 亡二二j 二 二兰 二二 士 组成性剪接1 卜l _ l 一一j 一 a ,_ _ ,。_ - 盒式外显子剪接 二二 二_ i 二= 二 - 二二二卜 ( 5 2 矧 一_ 5 或3 竞争剪仁二工 _ 二= = 卜t e 二二 一 接 、一一、,7 。 ( 2 7 蚴 一一一。一、一 。,一“。 p ,j ,- 。,。 - 内含子保留( 二二:= 二二二= 二二二二i 二二二) 一 ( 1 7 矧 ,一,、 外显子互斥剪接 = = _ 二二】_ 二二 二= 二卜 ( 4 ) _ b 、,。 图2 4m r n a 剪接种类。a 组成性剪接;b 各种选择性剪接及其分布。 1 0 哈尔滨工程大学硕士学位论文 2 1 4 选择性剪接的调控机制 从2 1 2 的论述中可以看到,m r n a 前体的剪接很大程度上与剪接体对 剪接位点和内含子枝点的识别准确率有关系。事实上,这些基本的剪接信号 对准确的识别内含子是不够的陋2 1 。再者,假的剪接位点( 有些序列和剪接位点 序列一样,但实际上从来没用) 比真的剪接位点数目要多好几倍嘟1 ,因此剪接 位点的识别还会受到假剪接位点的干扰。另外,选择性剪接的模式很大程度 上还取决于: ( 1 ) 不同的组织或细胞类型; ( 2 ) 不同的细胞发展阶段; ( 3 ) 外界不同的刺激,如热休克、重压等等唧1 。 所以还需要其他的信号来帮助调控选择性剪接的过程。对该问题最流行 的观点认为,在内含子和外显予上还有其他的序列模体在起调控作用。促进 剪接的模体被称为增强因子( e n h a n c e r ) ,反之,抑制剪接的模体则被称为抑制+ 因子( s i l e n c e r ) 。根据调控因子所在的位置又分为内含子剪接增强因子( i s e ) 、 内含子剪接抑制因子( i s s ) 、外显子剪接增强因子( e s e ) 和外显子剪接抑制因子 ( e s s ) d 耶5 一。增强因子模体经常被丝氨酸精氨酸密集的s r 蛋白质家族结合。 s r 蛋白质集合到增强因子模体上一般会增强对剪接位点的识别,并帮助剪接 体的剪接唧1 。而另一类蛋白质h n r n p 则会结合到抑制因子模体上,阻止s r 蛋白质的剪接促进作用引。其他的剪接信号和剪接因子能够区分真假剪接位 点旧1 。外显子的剪接通常是由多个剪接因子来调控的,最近的研究表明,剪 接过程是由多个剪接因子来进行严格的综合调控的p q ”1 。 2 1 5 选择性剪接调控因子 前面几个小节分析了m r n a 前体剪接的分子生物学机理,并探讨了选择 性剪接的调控机制。目前,研究最为广泛的选择性剪接调控因子就是s r 蛋 白家族( s e r i n e a r g i n i n e r i c hp r o t e i n s ) 。一般认为,s r 蛋白质通过两个区域来 对剪接过程进行调控,一方面,通过r r m ( r n ar e c o g n i t i o nm o t i f ,即r n a 识别模体) 来识别r n a ,另一方面,通过r s 区域与其他蛋白质相互作用来完 成剪接过程口1 1 。图2 5 列出了人体中的s r 蛋白质家族及它们的主要作用区域。 i 1 哈尔滨工程大学硕士学位论文 s i 如:2 0 l 垦垦些l 垦至 s c 3 5 臣亟口卫 s 斛8 臣亟口二玉互 s r 0 5 4 s 勋3 0 e 臣亟 压亟 圈 s f 2 a s f 匝匦 塑盈 s r p 4 0 匪亟口夏匦盈 s r p 5 5 s r p 7 5 匪塑丑叠堕工二二 亘二 8 臣亟 圉口查 图2 5 人体中的s r 蛋白质家族及其所含主要作用区域p u s r 蛋白的具体调控机制十分复杂,生物学家们通过多年研究总结认为, s r 蛋白质的具体功能主要有: ( 1 ) 通过结合到e s e 来帮助结合到3 剪接位点上游的u 2 a f 和结合到5 剪接位点下游的u 1s n r n p 识别外显子位置( 图2 6a ) ; ( 2 ) 5 和3 剪接位点可以在剪接过程的早期通过s r 蛋白和含有u 1s n r n p 和u 2 a f 子单元的r s 区域的内含子桥接合并起来( 图2 6b ) ; ( 3 ) s r 蛋白质能招募u 4 u 6 u 5 三聚小核蛋白加入到剪接体中( 图2 6c ) 。 ( 4 ) 结合到e s e 的s r 蛋白能通过招募u 2 a f 到次优3 剪接位点来调控3 竞争剪接位点的选择性剪接;或者,e s s 招募剪接抑制因子( 如h n r n p a l ) 来 阻止u 2 a f 选择3 剪接位点。而s r 蛋白则和剪接抑制因子的作用相反,能 促进剪接位点的选择( 图2 6d ) 。 2 2 全基因组范围内选择性剪接的研究方法和技术简介 目前在全基因组范围内研究选择性剪接的方法和技术主要有两种:( 1 ) 对 比研究选择性剪接模式。通过不同物种、不同组织、不同药物刺激等条件下 的外显子表达量的差异性来研究不同状态下选择性剪接的模式;( 2 ) 直接研究 某种调控因子。通过抗体( a n t i b o d y ) 来寻找结合在r n a 上的选择性剪接调控 哈尔滨工程大学硕士学位论文 因子( 如s r 蛋白厕经过被称为交叉连接免疫沉淀反应”的实验和高通量测 序并映射回基因组之后,找到调控因子的具体结合位置来研究这些调控因子 的作用方式和作用特征。两种方法和所基于的技术各自有自己的优点和缺陷, 只是从不同的侧面来研究选择性剪接的机制。以下分别简要介绍基于高通量 基因芯片技术和高通量测序技术的选择性剪接研究方法。 一挫一一共 ar 。需繇c 竺当苫 图2 6s r 蛋白质在m r n a 前体剪接过程中的具体作用嗍。 a 帮助识别外显子;b :桥接内含子;c 招募三聚小核蛋白;d 3 剪接 位点的竞争选择。 2 2 1 基于高通量基因芯片的全基因组选择性剪接研究技术 早期的基因芯片用于检测某物种的基因表达信息。随着最近几年生物科 技的发展,基因芯片被拓展到其他应用领域,如单核苷酸多态性( s n p ) 、d n a 甲基化( d n a m e t h y l a t i o n ) 、选择性剪接、小分子r n a ( m i c r o r n a ) 等等的检测。 其中用于选择性剪接的技术主要有法国巴黎的e x o n h i t 公司设计的剪接芯片 技术( s p l i c ea r r a y ) 和美国a f f y m o t r i x 公司设计的外显子芯片技术( e x o n , a r r a y ) 。 7 这两种芯片的设计不同,但思想类似。首先,根据现有的数据库中的r n a 进行比对分析,将同一个基因的不同r n a 变种进行归类,找出可能发生选 垒两终 型 哈尔滨工程大学硕士学位论文 择性剪接的位点,设计不同类型的检测点来监测这些位点的表达量。具体实 验时,通过不同物种、不同组织或不同药物刺激( 或有无药物刺激) 情况下, 比较这些检测点的表达量差异( 反过来说,即剪接差异) ,从而进一步分析造 成剪接差异的原因,分析潜在的对剪接差异起作用的调控因子。图2 7 分别 给出了不同剪接类别下,剪接芯片s p l i c e a r r a y 的监测点设计( 通过a b c d e 五个检测点对选择性剪接进行检测) 。外显子芯片技术则在第3 章具体阐述。 参考m r n a 为短型:变体m r n a 为长型参考m r n a 为长型:变体m r n a 为短型 内含子保留 r e - r e 琵缓黧臻2 黧嚣发轳衙珊瑚榴荆榴燃嚣z 嚣麓貔臻燃 v a 翟臻琵= = 嚣z 茗荔琵荔= z 冤黝:篡琵兹麓荔嚣2 翟 _- 新外显 cb d r e 罄嚣嚣笺滋钟锄帮嗍贼槲糍凇端铆糌黼襞搿缨羰蕊燃 v 囊臻裁乏:艺:嚣一黝? z 彳2 一一搿箍荔耋麓嚣嚣嚣 贯_ 。暑言弓驾 s 境争剪接 r 1 = = _ 。二 r e 篓= 三羔2 墨铀靴t * 铆铆鳓柳獬撕嚣荔缨嬲戮浆 c a 嚣篡糍嚣测a 焉二;毒 拢黝僦黝钟嚣荔貔茹:;翟鬣 _ _ - - m - ac bd d 3 竞争剪接 鼬嚣麓美:躐蜘,鬻麓绘貔燃 l # a 嚣蕊瓣羞怒一琵琵麓= = 0 篆缮獭 f 芍” t 可 基里之处鲍堑筮星至 二 r 荔茹z 茹凇 v a 嚣戮篓:! 嚣制”黼w * “麓鬈竺鬟毵豺2 露蟹 l j r = 一= f 部盆内部处显王剪接 三工二工 r 嚣戮缨鬻篡黧鬻繇缀鞠嚣嚣茹搿燕嚣= 嚣糍嚣燃 v a 誊警嚣:= :嚣荔一栅一弧。戳翟蕊嚣黝 一洲- 竹- 一 a e e 盒式外显子剪接 二o 。丘上工。止 轴箸= 翟黠! 二蠹学“瓣 v az z = z 鬣焉嚣嚣嚣l 篓 育t “”“皇 5 竞争剪接 山工2 。盈 r 嚣警嚣:z := :譬:二:0 删;,耥獭瓣# * 。z 缓端琵l 臻i 糍 77 “。 墨:童垒塑莛 工工工 r i 嚣= = = 麓r 苏翥7 箸z : z 爱麓燃 v a 荔z 誓= 黧荔荔搿鬣獭 贯? ”言 图2 ,7s p l i c e a r r a y 的选择性剪接监测点设计 2 2 2 基于高通量测序的全基因组选择性剪接研究技术 d n a 测序( d n as e q u e n c i n g ) 是指分析特定d n a 片段的碱基序列,也就 是腺嘌呤( a ) 、胸腺嘧啶( t ) 、胞嘧啶( c ) 与鸟嘌呤的( g ) 排列方式。r n a 测序 则通常将r n a 提取后,反转录为d n a 后使用d n a 测序的方法进行测序。 早期应用最广泛的是由f r e d e r i c ks a n g e r 于1 9 7 5 年发明的s a n g e r 双脱氧链终 止法( c h a i nt e r m i n a t i o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论