




已阅读5页,还剩59页未读, 继续免费阅读
(系统工程专业论文)拟南芥poly(A)位点的特征提取和识别算法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 真核生物m r n a 的3 u t r 对基因表达具有十分重要的调控作用,其主要特征 是在转录后的m r n a 前体3 末端分裂处( p o l y ( a ) 位点) 加入一串腺嘌呤尾巴,这 是_ m r n a 成熟过程中的一个关键步骤,称为多聚腺苷化( p o l y a d a a y l a t i o n , 简称 p o l y ( a ) ) 。p o l y ( a ) 对m r n a 的稳定性、可翻译性及从核到细胞质的运输性都有决 定性作用,并且是基因表达调控的一个枢纽。在基因组分析中,对p o l y ( a ) 位点 的正确识别有助于确定基因编码的终止位置,对分析基因的转录过程及探索基因 表达的调控机制都起着十分重要的作用。 哺乳动物p o l y ( a ) 位点信号比较保守,a a u a a a 所占比例达约5 5 左右。而 植物p o l y ( a ) 的顺式元件保守性差,最佳特征序列a a u a a a 也仅占总数的1 0 、, 同时普遍存在多位点现象。因此目前辨识植物p o l y ( a ) 位点的机制完全依赖于对 带有p o l y ( a ) 尾巴的表达序列标签的识别。然而,由于表达方式的不同及e s t 数据 的不完整性,许多p o l y ( a ) 位点无法被明确地识别出来,甚至在许多情况下被错 误标识。至今为止,国内外相关文献绝大多数都是针对动物p o l y ( a ) 位点进行研 究,而对于植物p o l y ( a ) 位点,至今尚未出现除应用生物实验以外的识别方法的 正式文献报道。 本文在“植物p o l y ( a ) 位点识别研究课题组”的原有模型的基础上,进行模 式植物拟南芥p o l y ( a ) 位点的特征提取和识别算法研究。首先,使用基于熵的算 法及熵值分析法对p o l y ( a ) 位点上下游周围序列进行特征提取,并对采用支持向 量机的位点分类方法进行研究。然后以提取出的特征为基础,改进原模型,加入 一阶异构马尔可夫子模型,改进分值公式,并将位点识别范围由t a 丰i i c a 两种模 式扩展到所有可能的双联子情况。同时将h m m 标定技术引入g h m m ,解决了模 型的计算精度问题。为方便多位点序列的测试,编制了e s t 数据集多位点判别整 合程序。最后将原有模型与上述改进相结合,构建t p o l y ( a ) 位点计算机识别系 统:p o l y ( a ) s l e u t h ( 简称p a s ) 。应用p a s 对大量m r n a 序列进行位点识别实验, 实验数据表明,p a s 识别的敏感度和特异度的最优组合分别由原模型的0 8 1 和 0 8 4 提高n o 8 8 和0 9 1 ,达到可以有效辅助生物实验进行位点辨识的水平,更重 拟南莽p o l y ( a ) 位点的特征提取和识别算法 要的是,p a s o b 较准确地对突变后的p o l y ( a ) 位点的使用效率提供量化评估。 本文的p a s 系统是进行选择性p o l y ( a ) 位点大通量分析的有力工具。使用 p a s ,为搜索所有可能的选择性p o l y ( a ) 位点、研究其在基因表达调控中的作用 提供了可能性。因此将本文对拟南芥的识别模型扩展到农业作物( 如水稻、大豆、 玉米等) 上,将对农业作物研究与开发的两个重要方面一一作物基因编译和作物 遗传工程上对转基因的精确设计一一产生一定影响。 关键词:p o l y ( a ) 位点识别;熵;支持向量机;马尔可夫模型 a b s t r a c t a b s t r a c t t h e3 - u t rp r o c e s s i n go fe u k a r y o t i cm r n ai sa l li m p o r t a n tp a r to fg e n e e x p r e s s i o nr e g u l a t i o n m e s s e n g e rr n a ( m r n a ) p o l y a d e n y l a t i o ni s ac r u c i a ls t e p d u r i n gt h em a t u r a t i o no fm o s te u k a r y o t i cm r n a ,i nw h i c hap o l y a d e n i n e p o l y ( a ) 】 t r a c ti sa d d e dt ot h ec l e a v e d3 e n do f ap r e c u r s o r - m r n ap o s t - t r a n s c r i p t i o n a l l y s u c ha m o d i f i c a t i o ni nt h e3 - u t re d s u r e sm r n a sf u n c t i o n a l i t y , s u c ha st r a n s l a t a b i l i t y , s t a b i l i t ya n dt r a n s l o c a t i o nt oc y t o p l a s m m o r ei m p o r t a n t l y , ap o l y ( a ) s i t em a r k st h e e n do fam a t u r em r n a ;h e n c ei tc a nb eu s e da sac r i t e r i o nt oi d e n t i f ya g e n e t h e r ei sac o n s e n s u sh e x a m e re l e m e n ta a t a a aa sam a i np o l y ( a ) s i g n a li n a b o u t5 5 o f m a m m a l i a nm r n a s i n p l a n t s h o w e v e r , o n l y1o m r n a sc o n t a i nt h i s h e x a m e re l e m e n t , a n da l t e r n a t i v ep o l y a d e n y l a t i o n ( u s i n gd i f f e r e n tp o l y ( a ) s i t e so t h e r t h a nt h en o r m a lo n e ) i sc o m m o n c u r r e n tp r o t o c o l so fi d e n t i f y i n gp l a n tp o l y ( a ) s i t e s r e l yh c a v i l yo ne x p r e s s e ds e q u e n c et a g s ( e s t s ) w h i c hh a p p e nt oc a r r yap o l y ( a ) t r a c t h o w e v e r , d u et od i f f e r e n t i a le x p r e s s i o na n di n c o m p l e t ee s td a t a , m a n yp o l y ( a ) s i t e s c a n n o tb ep o s i t i v e l yi d e n t i f i e da n di nm a n yc a s e sa r em i s a n n o t a t e d t i l ln o w , p r e d i c t i o n so fa n i m a lp o l y ( a ) s i t e sh a v eb e e nr e p o r t e d ,w h i l en os u c hap r e d i c t i o n o f 西a n tp o l y ( a ) s i t e su s i n gac o m p u t e ra l g o r i t h mh a sb e e nr e p o r t e d b a s e do nt h ep r e v i o u sm o d e lb yo u ri a b ,ic o n t i n u e dt h er e s e a r c ho ff e a t u r e e x t r a c t i o na n di d e n t i f i c a t i o n a l g o r i t h m o n a r a b i d o p s i sp o l y ( a ) s i t e s u s i n g e n t r o p y - b a s e da l g o r i t h ma n de n t r o p ya n a l y s i sm e t h o d s ,f e a t u r e sa r o u n dt h ep o l y ( a ) s i t e sw e r ee x t r a c t e d t h ep o l y ( a ) s i t ec l a s s i f i c a t i o nm e t h o db a s e do ns v m ( s u p p o r t v e c t o rm a c h i n e ) w a ss t u d i e d b a s e do nt h ef e a t u r e so b t a i n e d , t h es e t t i n go fm o d e l w a so p t i m i z e d ,t w of i r s t - o r d e ri n h o m o g e n e o u sm a r k o vm o d e l sw e r ea d d e dt ot h e o r i g i n a lg h m mm o d e l ,a n dt h es c o r ef o r m u l aw a si m p r o v e d m i m i c k i n gt h er e a l c h a r a c t e r i s t i co f p o l y ( a ) s i t e s ,t h ei d e n t i f i c a t i o nr a n g ew a se x t e n d e df r o mt aa n dc a t oa l lt h ep o s s i b l ed i n u c l e o t i d e sa tt h ec l e a v a g es i t e s i nt h em e a n t i m e h m ms c a l i n g t e c h n o l o g yw a sa p p l i e dt o0 1 3 1 g h m mm o d e lt os o l v et h ep r o b l e mo fc a l c u l a t i n g p r e c i s i o n f o rt h es a k eo fe x p e r i m e n t so nm u l t i p l es i t e s ,id e v i s e dam u l t i p l es i t e s d i s t i n g u i s h i n ga n di n t e g r a t i n gp r o g r a mf o re s t s f i n a l l y , c o m b i n i n gt h eo r i g i n a l m o d e lw i t ht h ei m p r o v e m e n t sa b o v e ,ap o l y ( a ) s i t e sc o m p u t e ri d e n t i f i c a t i o ns y s t e m c a l l e dp o l y ( a ) s l e u t h ( p a s ) w a sb u i l t u p o nt h e s ee n h a n c e m e n to ft h ea l g o r i t h m ,t h eo p t i m a ls e n s i t i v i t ya n ds p e c i f i c i t ) r 拟南芥d o l y ( a ) 位点的特征提取和识月算法 w e r ei m p r o v e df r o mo 8 1a n do 8 4o f t h eo r i g i n a lm o d e lt o0 8 8a n d0 9 1 r e s p e c t i v e l y , r e a c h i n gt h el e v e lo fe f f i c i e n t l ya s s i s t i n gw e te x p e r i m e n t si ni d e n t i f y i n gp o l y ( a ) s i t e s t os h o wt h ee f f i c a c yo fp a s ,w et e s t e d af e wm r n as e q u e n c e si n c l u d i n gt h o s e w i t hm u l t i p l ep o l y ( a ) s i t e s m o r ei n t e r e s t i n g l y ,t h ep o l y ( a ) s i t ee f f i c i e n c i e so ft h e m u t a t i o n sc o n s t r u c t e dt r a d i t i o n a l m u t a g e n e s i s a l s oc a nb e p r e d i c t e d b o t h q u a n t i t a t i v e l ya n dq u a l i t a t i v e l yb yp a s p a ss y s t e mi sau s e f u lt o o lf o r l a r g e s c a l ea n a l y s i so ng e n ea n n o t a t i o na n d a l t e r n a t i v ep o l y ( a ) s i t e s i to f f e r sap o s s i b i l i t yo fe x h a u s t i v es e a r c h i n go fa l lt h e p o s s i b l ep o l y ( a ) s i t e s ,a n a l y z i n gt h e i rf u n c t i o n si ng e n ee x p r e s s i o n t h eu t i l i t yo ft h e a l g o r i t h mc a nb ee a s i l ye x p a n d e dt oc r o pp l a n t ss u c ha sr i c e ,s o y b e a na n dm a i z e 。 a p p l i c a t i o no ft h ea l g o r i t h mw i l lh a v ea ni m p a c to nt w oi m p o r t a n ta s p e c t so fc r o p r e s e a r c ha n dd e v e l o p m e n t :t h ea n n o t a t i o no fc r o pg e n o m e sa n dt h ep r e c i s ed e s i g no f t r a n s g e n e sf o rc r o pg e n e t i ce n g i n e e r i n gb yg e t t i n gr i d eo f u n d e s i r e dp o l y ( a ) s i t e s ,a n d u s i n gr i g h tp o l y ( a ) s i t e s k e yw o r d s :p o l “a ) s i t ei d e n t i f i c a t i o n ;e n t r o p y ;s v m ;m a r k o vm o d e l 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) :稍堍 瑚i 年占月 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其他指定机构送交论文的纸质版和 电子版,有权将学位论文用于非营利目的的少量复制并允许论文进入 学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检 索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密 后适应本规定。 本学位论文属于 l 、保密() ,在年解密后适用本授权书。 2 、不保密( ) 作者签名: 导师签名: 料 捌别 日期:州年 日期:年 z 月 目 月日 第一章绪论 1 1 前言 第一章绪论 2 0 世纪的科学史是数理科学对无生命物质的结构和运动规律进行研究的历 史,从宏观到微观,影响深远。而2 1 世纪是信息的时代,也是生命科学的时代, 数理科学与生命科学的有效结合,使得人类对生命物质与生命规律的研究达到了 前所未有的水平。在过去的6 年里,随着果蝇基因组测序和人类基因组工程第一 个草图的完成,全基因组测序研究蓬勃发展。除此之外,其他一些高通量组合 实验技术,如d n a 微阵列( 基因芯片) 、质谱技术等,都取得了重大发展。这 些高通量的实验技术能够快速产生1 0 ”字节的实验数据,拥有传统生物学方法无 法比拟的优势【”。生物数据量的迅猛增长导致了今天对计算机、统计学和机器学 习技术日益强烈的需求,生物信息学( b i o i n f o r m a t i c s ) 因此应运而生。 生物信息学是在数学、计算机科学和生命科学的基础上形成的一门新型交叉 学科。它为了揭示各种数据所蕴含的生物学意义,综合运用算法学、数据库、统 计和机器学习等信息处理的技术和方法,进行生物信息的收集、加工、存储、传 播、检索与分析【2 】o 如何处理浩瀚的生物数据,从而使生物学家免于陷入信息的 海洋中,对于计算机科学家来说是一个巨大的挑战。生物信息学的主要任务是研 究生物分子数据的获取、存储和查询,发展数据分析方法;包括收集和管理生物 分子数据、开发分析工具和实用软件、进行数据处理和分析三个方面【3 】。 信使r n a ( m e s s e n g e rr n a ,m e a ) 的多聚腺苷化过程是真核生物基因表达 ( g e n ee x p r e s s i o n ) 的一个关键步骤。这一过程的执行由一组多聚腺苷化位点 ( p o l y ( a ) 位点) 特征集合来引导。对这个特征集合的研究和位点的预测识别对于 基因识别有着重要的应用意义,因为p o l y ( a ) 位点是m r n a 的结束部分,即一个 基因的末端。本文采用计算机技术,应用生物信息学的理论方法,针对模式生物 拟南芥的p o l y ( a ) 位点进行特征提取和识别研究。 拟南芥p o l y ( a ) 位点的特征提取和识别算法 1 2 分子生物学基础4 ,5 ,6 t 1 2 1 遗传物质 遗传是物种延续和进化的前提,携带了遗传信息,生命体爿能按照指令币确 地生长、发育并维持其自身结构和功能,并且把这种遗传信息从亲代传递给子代。 基因是遗传的基本单位,现代分子生物学研究已经证实d n a ( d e o x y r i b o n u c l e i c a c i d ,脱氧核糖核酸) 是遗传物质的主要载体,每个基因都是由代表一种特殊蛋 白质信息的d n a 序列组成的。几乎所有生物的遗传物质都是d n a ,只有少数噬 菌体、植物病毒和动物病毒的遗传物质是r n a ( f i b o n u c l e i ca c i d ,核糖核酸) 。生 物体的形态是生物体所具备的全部基因及其发育环境相互作用结果,而当d n a 序列发生变化而引起表型改变时,就揭示了基因对生物体的影响。 生物可以分成两大类一一原核生物和真核生物。原核生物( p r o k a r y o t e ) 是单 个细胞,其遗传物质分布在类核区中。真核生物( e u k a r y o t e ) 中,遗传物质被组 织在细胞核这个轮廓分明的结构部分中,在细胞分裂前及准备细胞分裂时,d n a 被暂时组织成一种紧密结构,称为染色体( c h r o m o s o m e ) 。d n a 是染色体中最重 要的组成部分,它是一种很长的多聚体,叫多核苷酸( p o l y n u e l e o t i d e ) 。核苷酸 ( n u c l e o t i d e ,n t ) 由核糖、磷酸基团及碱基f b a s e ) 三部分组成。碱基是腺嘌呤 ( a d e n i n e ,a ) 、鸟嘌呤( g u a n i n e ,g ) 、胞嘧啶( c y t o s i n e ,c ) 、胸腺嘧啶( t h y m i n e , t 】中的一种。a t c g 在结构上是以成对的方式存在的,a 只与t 配对,c 只与 g 配对,反之亦然。因此,通常称d n a 序列中的一个字符为一个碱基对m a s e p a i r , b p ) ,以此作为d n a 序歹o 的长度单位,例如人类基因组大约共有3 0 亿个碱基对。 核苷酸之间相互由磷酸二酯键连接起来成为长链的d n a 分子。位于核酸链一端 的来端核苷酸有一个游离的磷酸( 5 端) ,另一端的末端核苷酸有一个游离的羟 基( 3 端) 。生物学上对多核苷酸序列的记录通常按照从5 端到3 端的顺序进行, 例如5 一a t g g t c a a c t g 一3 。 r n a 是一种生物化学上欠稳定的较小分子,其核苷酸的数目很少超过几千 个,而一般d n a 中则约达几百万个。在组分上,r n a 具有的是核糖,而d n a 对应所含的是脱氧核糖;r n a 含有尿嘧啶( u r a c i l ,u ) 而不是胸腺嘧啶( t ) ,且 第一章绪论 u 与a 配对。r n a 是单链结构,”是一种具有高度转换速率的多核苷酸,能暂时 与核蛋白体结合;它在结构基因d n a 上合成并反映该d n a 的碱基编码。 r n a 主要在蛋白质合成中起作用,它的一项重要功能是充当信使,将遗传 信息( 来自d n a 编码的指令) 传递到细胞中蛋白质合成的核糖体部位上。这种 形式的r n a 称为信使r n a 。信使r n a 在所有的活细胞中有着确定的目标:通 过遗传密码转译成蛋白质。核糖体含有一类特殊的r n a 称为核糖体r n a ( r i b o s o m a lr n a ,r r n a ) ,构成大部分细胞内的r n a 。第三类r n a 称为转运r n a ( t r a d s 向r n a ,t r n a ) ,连在氨基酸( a m i n oa e i d ) 上,在蛋白质合成过程中,t r n a 用m r n a 复合物作为模板,携带氨基酸到相对其他氨基酸正确的位置上。 所有的细胞r n a 分子是通过转录( t r a n s c r i p t i o n l 由d n a 模板合成的,合成 后的r n a 分子转运到细胞质中,在那里执行蛋白质合成的功能。蛋白质通过翻 译( t r a n s l a t i o n ) 过程,由m r n a 模板合成。这种从d n a 到蛋白质的遗传信息的 传递途径,连同d n a 的复制机制,通常被统称为分子生物学的中心法则( c e n t r a l d o g m ao f m o l e c u l a rb i o l o g y ) 。 1 2 2 基因的结构及表达 化学组成上,基因是一段具有特定结构与功能的连续d n a 序列;结构上, 基因由多个不同的区域组成。一般来说,真核生物的基因组比较大,但基因的密 度小,而原核生物的基因组较小,基因之间只有很小的间隔或几乎没有间隔。但 无论是原核基因还是真核基因,都可划分为编码区和非编码区两个基本组成部 分。编码区是可以被转录的区域,由外显子( c x o n ,编码蛋白质,包含密码子) 、 内含子( i n t r o n ,不编码蛋白质,原核基因无内含子) 、5 端非翻译区( 5 u n t r a n s l a t e dr e g i o n ,5 - u t r ) 和3 端非翻译区( 3 u n t r a n s l a t e x tr e g i o n ,3 - u t r ) 构 成。非编码区则位于蛋白质编码区以外,包含基因调控序列。典型的真核基因的 基本结构如图1 1 所示。 拟南芥p o l y ( a ) 位点的特征提取和识别算法 图1 1 典型的编码蛋白质的真核基因结构示意图 基因的表达过程与其结构密切相关。转录是基因表达的第一个阶段,它由 d n a 模板链借助r n a 多聚酶生成m r n a 前体( p r e - m r n a ) 。剪接( s p l i c i n g ) 和多 聚腺苷化是第二个阶段。经过剪接,可以将p r e - m r n a 中的内含子序列移去,同 时在5 端加上甲基化鸟嘌呤帽子( c a p p i n g ) 。多聚腺苷化是指在p r e - m r n a3 味 端,通过r n a 内切酶的作用,在特定的位点上剪9 1 j ( c l e a v a g e ) 掉一部分以形成 新的末端,同时一串腺嘌呤核苷酸,称为多聚a 尾巴( p o l y ( a ) t a i l ) 被p o l y ( a ) 多聚 酶添加到3 末端,这样才能形成成熟的r n a 。具体步骤如图1 2 ,其中箭头且处 表示相应的p o l y ( a ) 位点。 p r e - m l 矾a m 畦m 奄蝴a 图1 2 真核生物的m r n a 前体处理过程( 重点为3 末端的处理) 4 第一章绪论 多聚腺苷化后的成熟的m r n a 才能保证被运送到细胞质中进入核糖体,然 后被翻译成相应的蛋白质,这是基因表达的第三个阶段。因此,多聚腺苷化是基 因表达过程中的一个关键步骤,对其位点的特征提取和识别也成为本文的研究重 点。 基因的结构、表达和调控都是非常复杂的,本节仅简要介绍了与本文相关的 一些分子生物学基础知识,目的是为后文的阐述建立必要的生物学基础。 1 3 机器学习方法m 7 ,s l 生物分子信息的载体是序列数据。用特定的字母对应不同的信息单位,则可 将序列表征成为一系列的字符串,如d n a 序列是4 种碱基a 、t 、c 、g 在长度 达1 0 6 数量级上的排列组合,而蛋白质序列更由2 0 种氨基酸残基( a ,n ,v ) 组成。这是应用数学和计算机技术对生物信息进行分析的基础。正是遗传物质a 、 t 、c 、g 的这种排列特性,以及长度可变性,也让人联想到应用概率统计理论 的巨大潜力。2 0 世纪8 0 年代晚期产生的用于建模和推断的贝叶斯概率体系,是 一个关于所有机器学习方法的统一的理论体系。正是由于数据、计算机和概率理 论体系三者的交汇,使得机器学习方法在生物信息学和其它领域获得了强劲的发 展动力,并且不断扩展。客观地讲,生物信息学和机器学习方法已经开始在生物 学和医学领域产生显著的影响。 机器学习方法的基本思想是通过推理、模型匹配或样本学习,从数据中自动 学习理论。其在生物信息学中的广泛应用是因为与其它方法相比的独特优势。首 先,生物测量经常包含难以去除的噪声,例如目前的d n a 微阵列或质谱数据等, 使得生物学数据具有噪声性、冗余性等特点。更重要的是,由于漫长的进化过程 对基因的不断修补,导致生命系统内在的复杂性和多样性,并呈现出很高的纬度。 即使能够同时测量数以千计的基因表达的微阵列试验中,我们也仅仅观察到相关 变量的一个很小的子集,而其它绝大部分变量仍然处于隐藏状态,因此我们必须 依赖概率建模来确定它们。机器学习方法( 例如神经网络、支持向量机、隐马尔 可夫模型、置信网络等) 以概率模型为理论依托,正适合生物数据这样数据量大、 含有噪声模式并且缺乏统理论的领域。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m l 是在统计学习理论基础上提出 5 拟南芥p o l y ( a ) 位点的特征提取和识别算法 的一种新型学习方法,是对结构风险最小化原则的近似。它是统计学习理论中最 年轻也最实用的部分,在很多领域得到了成功应用,如人脸检测、手写数字识别、 文本分类、生物信息学等。由于它根据结构风险最小化原则从训练集中自动寻找 那些对分类有较好区分能力的一组样本子集一一支持向量,使得对整个数据集的 分割等于仅仅对支持向量的线性划分,由此构造出的分类器可以最大化类与类之 间的间隔,因而有较好的推广性能力( 避免过学习) 和较高的分类准确率( 真实 风险最小) 。另外s v m 把低维空间中线性不可分的数据通过非线性变换映射到 高维空间,在高维空间内求取最优线性分类面,实现线性可分。在实现非线性变 换时,通过定义适当的内积函数来实现,由于最终的判别函数中实际只包含与支 持向量的内积及待测样本求和运算,因此,进行模式识别的计算复杂度取决于支 瓤 持向量的个数,与变换空间的维数无关,从根本上避免了非线性变换可能导致的 维数灾难。因此上述特点使支持向量机在解决小样本、过学习、非线性和维数灾 难高维模式识别问题中表现出许多特有的优势。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是马尔可夫随机域和贝叶 斯网络的一种特例。它是2 0 世纪7 0 年代提出的一种基于概率的数学模型,具有一 套完整的理论、方法及算法体系,可以很好地描述信号的平稳性和司变性。2 0 世纪8 0 年代中期,b e l l 实验室的r a b i n e r 等人对h m m 做了全面具体的介绍,使 h m m 为世界各国从事语音处理的研究人员所了解和熟悉,并逐渐发展成为现代 语音识别主流技术的基础。由于生物序列( d n a 序列、蛋白质序列) 与语音信 号具有明显的相似性,近年来,人们逐渐开始将h m m 运用于生物序列的分析, 包括序列比对、蛋白质二级结构预测、基因辨识等等。目前,h m m 已成为生物 信息学中应用较广泛的一种方法。 h m m 用于基因识别研究是生物信息学研究的新领域,它应用在基因识别问 题上显出了其突出优势。自从2 0 世纪9 0 年代来,已开发出大量程序运用于基因编 码区域探测。目前国内外利用h m m 进行生物序列分析的主要程序有:使用自定 义的h m m 在真核d n a 序列中寻找基因的v e i l 程序,它对于脊椎动物d n a 序列的 应用尤为突出;基于广义h m m 基因发现器的g e n i e 程序主要用于寻找脊椎动物与 人类d n a 序列中的基因;使用p r o f i l eh m m 搜索敏感数据库的h m m e r 软件包; 使用标准h m m 进行生物序列分析的s a m 系统( 序列联配与建模系统) 等。 6 第一章绪论 1 4p o l y ( a ) 位点识别研究的意义 真核生物m r n a 的3 l u t i t 对基因的表达具有十分重要的调控作用【9 。3 - u t r 不仅调控m r n a 的体内稳定性及降解速率,控制其利用效率,而且还与m r n a 的 翻译效率有关1 0 】。尚处于起步阶段的3 t u t r 序列二级结构的解析,必须以对 3 - u t r 一级结构的分析和认识为基础,从而才能更深刻地理解非编码区的调控特 征【1 1 】。 3 - u t r 中最重要的一个特征是在转录后的m r n a 前体的3 末端分裂处( 即 p o l y ( a ) 位点) 加入一串腺嘌呤尾巴,这是i n r n a 成熟过程中的一个关键的步骤。 几乎所有的真核生物的m r n a 都有p o l y ( a ) 。p o l y ( a ) 除了是个必须的m r n a 识别 因素外,它对m r n a 的稳定性、可翻译性及从核到细胞质的运输性都有决定性作 用 10 1 。更重要的是,多聚腺苷化过程也是基因表达调控的一个枢纽。近年来,这 一过程已被证明与癌症病变、病毒侵染、组织发育有重要关系旧” 。并且,基因 表达的多元化( 一个基因,多个蛋白产物) 与选择性多聚腺苷化( a l t e r n a t i v e p o l y a d e n y l a t i o n ,在非常规位点的腺苷化) 直接相关。当一个基因利用不同的 p o l y ( a ) 位点时,同样一个基因可能有完全不同的蛋白产物。这个现象在动物中 已被广泛确定,特别是在免疫系统中m 抗阵( f gm ) 的产生与调控【l 钔。在植物中, 选择性p o l y ( a ) 被确认与花期调控及抗病基因调控m 1 有重要联系。在拟南芥 基因组中,选择性腺苷化已被估计存在于约2 5 的基因产物中【1 7 】。然而,这些腺 苷化的位点及其可能在基因表达调控中的作用尚不为人知。本文的研究与探讨这 些问题直接相关一一寻找可能的选择性腺苷化位点,并在将来研究这种非常规位 点对基因调控的意义。 m r n a 序列的结束点界定了一个基因单元,对结束点位置的预测( b 1 p o l y ( a ) 位点预测) 可用于基因组分析( g e n ea n n o t a t i o n ) 当中。因此对p l o y ( a ) 信号的精 确识别和定位对难在高速发展中的基因组分析有巨大的应用意义。同时,在遗传 工程中,转基因经常来自别的生物;因此那些基因经常有隐型p l o y ( a ) 信号。这 些信号常导致基因表达的失败( 错误多聚腺苷化改变编码) 。p o l y ( a ) 位点的预测 将对转基因进行选择再改变序列,并可以辅助设计转基因中的有效多聚腺苷化和 转录结束信号。 拟南芥p o l y ( a ) 位点的特征提取和识别算法 1 5 植物p o l y ( a ) 位点识别的现状及存在的问题 目前辨识p o l y ( a ) 位点的机制完全依赖于对恰好带有p o l y ( a ) 尾巴的表达序列 标签( e x p r e s s e ds e q u e n c e t a g s ,e s t s ) 的识别。然而,由于表达方式的不同及e s t 数据的不完整性,许多p o l y ( a ) 位点无法被明确地辨识出来,甚至在许多情况下 被错误标识。在农业作物中尤其如此,因为其可获的e s t 数据十分有限。 m r n a3 - u t r 的处理过程包含两个主要构件。第个构件是顺式元件 ( c i s e l e m e n t s ) ,位于m r n a 前体3 - u t r 序列内。另一个构件是转录因子,它辨认 顺式元件,并在p 0 1 y ( a ) 位点处剪切m r n a 前体并加入p o l y 尾巴f 1 0 】。顺式元件 作为辨识并决定p o l y ( a ) 位点的选择机制的特征信号,由蛋白质式作用的蛋白质 因予来辨认1 0 i s o 因此,如果掌握了p 0 1 y ( a ) 信号特征,就可以准确她辨识出p o l y 位点,也即剪切位点。 有关p o l y ( a ) j 顿式作用元件的数据挖掘研究,文献已提供了大量的研究线索。 这些基本上是对具有p o l y ( a ) e s t 数据集的挖掘,由此鉴别出3 - u t r 的顺式作用 元件,发现和总结出它们的序列特征【1 9 卸1 。目前对3 t u t r 采用的计算机辅助分析 方法主要有对碱基字符串的出现频率进行显著性分析、对位置分布特征的鉴别和 组成序列的比对等 1 9 , 2 0 , 2 1 】。涉及的模型包括统计学模型、分类数学模型和马尔可 夫模型等。 动物基因的p o l y ( a ) 位点的信号特征比较保守( c o n s e r v e d ) ,尤其在哺乳动物 中,六联子序列( 1 l e x a n l e fe l e m e n t ) 从u a a a 所占比例高达5 5 【1 9 】。而植物基 因的p o l y ( a ) 位点具有分散性、多样性及复杂性的特点,位置并非像动物那样固 定不变,其顺式元件保守性( c o n s e r v a t i o n ) 差,最佳的特征序列a a u a a a 也仅 占到总数的1 0 左右【1 1 1 。同时,动物基因转录本中一般只有一个p o l y ( a ) 位点,而 植物中则普遍存在着多位点现象1 7 】,如烟草中一个编码叶绿体m r n a 结合蛋白的 基因中竟发现了1 4 个不同的3 加工位点。因此至今为止,在p o l y ( a ) 位点的计算机 识别方面,国内外的相关文献其绝大多数都是针对动物基因的位点进行研究,其 识别一般可以得到比较高的准确率;而对于植物的p o l y ( a ) 位点,至今尚未出现 除应用生物实验以外的识别方法的正式文献报道。 对植物p o l y ( a ) 位点信号及特征的信息匮乏己成为两个领域一一农业作物基 第一章绪论 因组分析以及对作物基因的注释以及作物遗传学工程上转基因的精确设计一一 发展的瓶颈。因此,本文针对上述植物p o l y ( a ) 位点识别问题展开研究,完成的 主要工作如下文所述。 1 6 本文主要工作 本文以本实验室从2 0 0 4 年8 月份建立“植物p o l y ( a ) 位点识别研究课题组”起 至2 0 0 5 年6 月份的前期工作为基础,进行模式植物拟南芥p o l y ( a ) 位点的特征提取 和识别算法研究。前期工作为设计和实现了一个基于广义隐马尔可夫模型 ( g e n e r a l i z e dh m m ,g h m m ) 的拟南芥p o l “a ) 位点计算机识别方法【2 2 1 。本文主要 的工作如下: ( 1 ) 使用基于熵( e n t r o p y ) 的算法及熵值分析法对p o l y ( a ) 位点上下游周围 序列进行特征提取。 ( 2 ) 采用支持向量机方法对序列中的指定位置进行真假位点的识别研究。 ( 3 ) 改进位点分值公式,提高评估的科学性。 ( 4 ) 改进原方法的模型结构,加入两个阶异构马尔可夫子模型( f i r s to r d e r i n _ h o m o g e n e o u sm a r k o vm o d d ) a ( 5 ) 将p o l y ( a ) 位点识别的范围由t a 和c a 这两种模式扩展到所有可能的双 联子( d i n u c l e o f i d e ) 情况。 ( 6 ) 将h m m 标定( s c a l i n g ) 技术引入g h m m 中,解决模型的计算精度问题。 ( 7 ) 实现拟南芥e s t 数据集的多位点判别和整合方法,提高了原有测试数据 的质量。 ( 8 ) 构建拟南芥p o l y ( a ) 位点计算机识别系统:p o l y ( a ) s l e u t h ( 简称p a s ) , 简化了操作步骤。 ( 9 ) 应用p a s 系统对大量的植物m r n a 序列进行位点识别实验,对p a s 进行 有效性评估。实验处理的m r n a 序列不仅有拟南芥基因组序列,还包括不同物种 的多位点基因序列( 如烟草r n ab i n d i n gp r o t e i n 一3 0 基因) 以及突变( m u t a t i o n ) 序列 如豌豆磷酸五碳抗羧化氧化酶基因( p e f tr u b i s c os m a l ls u b u n i tg e n e ) p o l y ( a ) 信号突变序列、花椰菜花叶病毒( c a u l i f l o w e rm o s a i cv i r u s ) p o l y ( a ) 信号突变序列 等1 。 9 拟南芥p o l y ( a ) 位点的特征提取和识别算 杰 实验数据表明,p a s 系统位点识别的敏感度( s e n s i t i v i t y ) 和特异度 ( s p e c i f i c i t y ) ( 两者是评价模型识别效果的通用指标,数值越高说明模型越精确) 的最优组合分别由原识别方法的0 8 1 和0 8 4 提高n 0 8 8 和0 9 1 ,识别正确率有了较 大提高,达到可以有效辅助生物实验进行位点辨识的水平,一定程度上解脱了生 物研究工作者的数据分析重复劳动,加速对微观世界的认识。 1 7 本文的结构 本文第一章绪论介绍研究的背景、范畴,p o l y ( a ) 位点识别研究的意义和现 状,以及分子生物学、生物信息学的相关知识,并对论文的主要工作做整体介绍。 第二章阐述拟南芥p l o y ( a ) 位点上下游周围序列的各个顺式元件的分布特 征,分析其信号模式,通过基于熵的算法及熵值分析法进行p o l y ( a ) 位点特征提 取。然后描述了采用支持向量机方法对真假位点的分类识别的研究工作。 第三章首先介绍了基于g h m m 的植物p o l y ( a ) 位点识别模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物流破损合同5篇
- 租赁合同范文:临时租车协议4篇
- 专家顾问聘用合同协议书范本7篇
- 金融机构间约期存款标准合同3篇
- 废旧电机购销合同范本
- 租用铺面合同范本
- 天目云雾购销合同3篇
- 厂房转让合同范本
- 借贷合同范本简单版
- 场地出租转租合同范本
- 2024年红河产业投资集团有限公司招聘笔试冲刺题(带答案解析)
- 《HALCON编程及工程应用》课件第9章 HALCON测量
- 医院培训课件:《护理人文关怀的践行-仁心仁护彰显大爱》
- PETS5词汇表总结大全
- 数字谜02-三上08-乘除法填空格
- 应届生培养方案
- 保险代位求偿权答辩状
- 《英语句子成分及基本结构》课件
- 汽修基础理论知识
- 综合实践活动六年级上册全册讲课课件
- 地产交房仪式主题活动方案策划
评论
0/150
提交评论