(分析化学专业论文)人类rna聚合酶Ⅱ启动子识别研究.pdf_第1页
(分析化学专业论文)人类rna聚合酶Ⅱ启动子识别研究.pdf_第2页
(分析化学专业论文)人类rna聚合酶Ⅱ启动子识别研究.pdf_第3页
(分析化学专业论文)人类rna聚合酶Ⅱ启动子识别研究.pdf_第4页
(分析化学专业论文)人类rna聚合酶Ⅱ启动子识别研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(分析化学专业论文)人类rna聚合酶Ⅱ启动子识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要启动子的识别是基因识别的重要组成部分。对启动子区的认识,不仅有助于实验室分析研究,而且还可以为人类认识全基因组功能、基因表达调控机制以及人类疾病与启动子多态性或突变的关系提供很大的帮助。本文旨在对人类r n a 聚合酶( p o l ) i i 启动子数据进行识别分类并提高识别的准确率。我们将创新的编码方法应用在人类启动子序列编码中,建立并使用合适的共识模型,使用支持向量机( s v m ) 的方法对启动子数据进行分类并提高了启动子识别的准确率。首先,我们从真核生物启动子数据库( e p d ) 以及非启动子数据库中得到用于分类研究的d n a 启动子序列数据及非启动子序列数据。正、负数据集均分别被分成5 份和l o 份,用于5 重( 5 f o l d ) 及1 0 重( 1 0 f o l d ) 交叉验证。另外,我们还从转录起始位点数据库( d b t s s ) 中得到了由实验得出的人类染色体启动子数据,准备用于后续的研究。然后,在对数据进行处理后( 包括保证数据的非冗余性等) ,对碱基数据进行编码、选择合适的参数及编码方法。这是本研究的重点和难点。根据采用编码方式的不同,将之分为三步。第一步,本文采用了基于知识的统计编码方法,并将此方法进一步扩展成六种子编码方式,分别是:单碱基统计特征编码、相邻双碱基统计特征编码、隔一位的双碱基统计特征编码、隔两位的双碱基统计特征编码、隔三位的双碱基统计特征编码以及相邻三碱基统计特征编码。编码后在s v m 中进行启动子识别,使用1 0 f o l d 交叉验证的准确率达到了8 9 6 8 ,灵敏性在8 6 2 4 - - 9 0 1 1 ,特异性在8 5 9 1 - 。9 8 3 5 ,与其他利用s v m 进行启动子识别的工具相比,均有5 左右的提高。第二步,本文采用了c p g 编码和五联体( p e n t a m e r s ) 编码,从不同的角度对人类r n a p o l i i 启动子序列进行编码,提取变量信息,找出预报结果最佳及搭配最合理的编码方式用于后面的研究。第三步,本文还尝试了一种新的编码方法一模式字典( p a t t e r nd i c t i o n a r y )的编码方法( 由本实验室开发) ,并且针对启动子数据的特点,将a t c g 四碱基两两结合,扩展成十六种字符进行编码,以增加数据的特征变量。摘要再次,基于上述编码方法的识别结果,根据编码方式的不同、样本选择的不同、核函数选择的不同等等,我们建立出不同类型成员子模型的共识模型,并用双层s v m 进行识别分析。由于共识模型考虑了各子模型的独立性和模型之间的差异性,发挥了各模型之间的互补优势,从而提高了最终的识别准确率。最后,我们将优秀的识别模型及共识模型的思想应用到人类2 2 号染色体启动子数据的识别中,识别准确率达到了9 0 9 8 。关键词:人类r n a 聚合酶i i 启动子识别,支持向量机,共识模型,双层s v m ,生物统计学a b s t r a c ta b s t r a c tp r o m o t e r sr e c o g n i t i o ni sa l li m p o r t a n tp a r to ft h er e s e a r c ho ft h eg e n er e c o g n i t i o n f i n d i n gt h ek n o w l e d g eo f t h ep r o m o t e rr e g i o n sn o to n l yr e d o u n d st ot h ea n a l y s i sa n dr e s e a r c hi nt h el a b o r a t o r y , b u ti sh e l p f u lt ot h eh u m a nk n o w i n gt h ef u n c t i o no ft h ew h o l eg e n o m e ,t h em e c h a n i s mo ft h eg e n ee x p r e s s i o na n dc o n t r o l l i n g ,a n dt h er e l a t i o n s h i po ft h eh u m a nd i s e a s e sa n dt h ep o l y m o r p h i s mo rm u t a t i o no ft h ep r o m o t e r s t h i sp a p e ra i m e dt od ot h er e c o g n i t i o no ft h eh u m a nr n ap o l p r o m o t e r s c l a s s i f yt h ep r o m o t e rs e q u e n c e s ,a n dp r o m o t et h ev e r a c i t yo ft h er e c o g n i z i n gr e s u l t s w ea p p l i e dn o v e le n c o d i n gm e t h o d st 0t h ee n c o d i n go ft h eh u m a np r o m o t e rs e q u e n c e s ,b u i l tu pr i 曲tc o n s e l l s u sm o d e l s ,a n dr e c o g n i z e dt h ep r o m o t e rs e q u e n c e sw i t ht h es u p p o r tv e c t o rm a c h i n e ( s v m ) ,a n df i n a l l yi m p r o v e dt h ev e r a c i t yo ft h er e c o 姚r e s u l t s f i r s t l y , w eg o tt h ep r o m o t e ra n dn o n p r o m o t e rs e q u e n c e sd a t af r o me u k a r y o t i cp r o m o t e rd a t a b a s e ( e p d ) a n dn o n - p r o m o t e rd a t a b a s e s ,w h i c hw e r eu s e df o rt h er e c o g n i t i o nr e s e a r c h b o t ho ft h ep o s i t i v ea n dn e g a t i v ed a t aw e r ed i v i d e di n t o5a n d1 0p a r t s ,f o rt h e5 - f o l da n d1 0 - f o l dc r o s s v a l i d a t i o n o t h e r w i s e ,w ea l s og o tt h eh u m a nc h r o m o s o m ep r o m o t e rd a t af r o mt h ed a t a b a s eo ft r a n s e r i p t i o n a ls t a r ts i t e s( d b t s s ) ,w h i c hw e r eg o tf r o me x p e r i m e n t s t h ed a t aw e r eu s e df o rt h ef o l l o w i n gr e s e a r c h s e c o n d l y , w ed i dt h ep r e p r o c e s s i n go ft h es e q u e n c e sd a t a , i n c l u d i n gg u a r a n t e et h en o n - r e d u n d a n to ft h ed a t a , e n c o d e dt h es e q u e n c e sd a t a , a n ds e l e c t e dt h es u i t a b l ep a r a m e t e r sa n de n c o d i n gm e t h o d s t h i sp a r to fo u rw o r ki st h ee m p h a s i sa n dd i f f i c u l t yo f t h er e s e a r c h , a n dw ed i v i d e di ti n t ot h r e es t e p s :a b s t r a c ts t e po n e ,w ea p p l i e dt h ek n o w l e d g e b a s e ds t a t i s t i c a le n c o d i n gm e t h o d ,w h i c hw e r ee x p a n d e di n t o6s u b e n c o d i n gm e t h o d s ,s u c ha s ,s i n g l e b a s es t a t i s t i c a le n c o d i n gm e t h o d ,a d j a c e n td u a l b a s es t a t i s t i c a le n c o d i n gm e t h o d ,o n e - b a s ea p a r td u a l b a s es t a t i s t i c a le n c o d i n gm e t h o d , t w o - b a s ea p a nd u a l b a s es t a t i s t i c a le n c o d i n gm e t h o d ,t h r e e b a s ea p a r td u a l b a s es t a t i s t i c a le n c o d i n gm e t h o da n da d j a c e n tt e r n a t e b a s es t a t i s t i c a le n c o d i n gm e t h o d t h e nw er e c o g n i z e dt h ed a t a 、i t l ls v m t h ea c c u r a c yo ft h e1 0 f o l dc r o s s - v a l i d a t i o nr e a c h e d8 9 6 8 ,t h es e n s i t i v i t i e sw e r ef r o m8 6 2 4 t o9 0 11 ,a n dt h es p e c i f i c i t i e sw m 疗啪8 5 9 1 t o9 8 3 5 c o m p a r e dt oo t h e rs v mu s e dp r o m o t e rr e c o g n i z i n gt o o l s o u tr e s u l t sh a dn e a r l y5 p r e c e d e n c e s t e pt w o ,w ea p p l i e dt h ec p gi s l a n d sa n dp e n t a m e r se n c o d i n gm e t h o d s ,e n c o d e dt h ep r o m o t e rs e q u e n c e sd a mi nad i f f e r e n tp e r s p e c t i v e ,e x t r a c t e dt h ei n f o r m a t i o no ft h ev a r i a b l e s ,a n ds e l e c t e dt h ee n c o d i n gm e t h o dw h i c hg o tt h eb e s tr e c o g n i z i n gr e s u l t ,u s e df o rt h ef o l l o w i n gr e s e a r c h s t e pt h r e e w et r i c dt h ep a t t e r nd i c t i o n a r ye n c o d i n gm e t h o d a n de x p a n d e dt h e4b a s e si n t o1 6b a s e s ,c o m b i n i n gt h ea r b i t r a r yt w oo ft h e 凡t ca n dgf o u rb a s e s ,t oi n c r e a s et h ea m o u n t so ft h ev a r i a b l e s ,a c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h ep r o m o t e rs e q u e n c e sd a t a t h i r d l y , w eb u i l tu pt h er i g h tc e 啪u sm o d e l s , a c c o r d i n gt ot h er e s u l t so ft h ed i f f e r e n te n c o d i n gm e t h o d s b a s e dt h ed i f f e r e n c e so ft h ee n c o d i n gm e t h o d s ,t h ed i f f e r e n c e so ft h es a m p l es e l e c t i n gm e t h o d s t h ed i f f e r e n c e so ft h ek e m e lf a n c t i o i l s ,e r e ,w eb u i l tu pc o n s e n s a sm o d e l sw i t hd i f f e r e n ts u b m o d e l s ,a n dd i dt h er e c o g n i t i o nw i t hd u a l s v m w ef i n a l l yp r o m o t e dt h ea c c u r a c yo f t h er e c o g n i t i o n , f o rt h ec o n s e n s u sm o d e l si n c l u d e dt h ei n d e p e n d e n c ea n dd i f f e r e n c eo fe a c hs u b m o d e l s a n de x c e e dt h es u p e r i o r i t i e sa n dt h ec o m p l e m e n t a r i t i e so f t h es u b - m o d e l s a tl a s t , w ea p p l i e dt h ee x c e l l e n tr e c o g n i t i o nm o d e li n t ot h eh u m a nc h r o m o s o m e2 2p r o m o t e rr e c o g n i z i n g ,a n dt h ea c c u r a c yo f t h er e c o g n i z i n gr e a c h e d9 0 9 8 a b s 盱a c tk e yw o r d s :h u m a nr n ap o li ip r o m o t e rr e c o g n i t i o n ,s u p p o r tv e c t o rm a c h i n e ,c o n s e n s u sm o d e l ,d u a l s v m ,b i o s t a t i s t i c sv学位论文版权使用授权书本人完全了解同济大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:谁絮、w 扩年习月他日经指导教师同意,本学位论文属于保密,在年艉密后适用本授权书。指导教师签名:学位论文作者签名:年月日年月日同济大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:知翟、一8 ,年弓月日第1 章引言1 1 生物信息学概况1 1 1 生物信息学第1 章引言生物信息学是一门交叉科学,它包含了对生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。其研究重点主要体现在基因组学( g e n o m i c s ) 和蛋白质组学( p r o t e o m i e s ) 两方面。具体说就是从核酸和蛋白质的序列出发,分析序列中所表达的结构功能的生物信息。生物信息学的研究领域很广,很难对其做出完整全面的界定。下面的例子均属于生物信息学的研究内容:l 、序列比对( a l i g n m e n t ) ,比较两个或两个以上符号序列的相似性或差异性;2 、结构比对,比较两个或两个以上蛋白质分子空间结构的相似性或差异性;3 、蛋白质结构预测,包括2 级和3 级结构预测;4 、计算机辅助基因识别,给定基因组序列后,正确识别基因的范围和其在基因组序列中的精确位置;5 、非编码区分析和d n a 语言研究。在人类基因组中,编码部分仅占总序列的3 一5 ,其它称为“非编码”d n a 。d n a 序列作为一种遗传语言,它的作用不仅体现在编码序列之中,而且隐含在非编码序列之中,分析非编码区d n a 序列往往具有更重要的生物学意义;6 、分子进化和比较基因组学,主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。目前既可以用d n a 序列也可以用其编码的氨基酸序列来进行此项研究,甚至于可通过相关蛋白质的结构比对来研究分子进化。另外,基因表达谱分析,代谢网络分析,基因芯片设计和蛋白质组学数据分析等,也逐渐成为生物信息学中新兴的重要研究领域。本文对“d n a 启动子的识别”研究即属于对d n a 非编码区的研究范畴。第1 章引言1 1 2 生物信息学与生物统计学统计学,包括多元统计学,是生物信息学的数学基础之一。随着生物学研究的不断发展,统计学方法已经越来越广泛的运用于认识、推断和解释生命过程中的各种现象。生物统计学( b i o s t a t i s t i e s ) ,有时也称生物计量学( b i o m e t r i c s ) ,从最广泛的意义上讲,就是统计学在生物学中的应用。它用数理统计的原理和方法来分析和解释生命体的各种现象。生物统计能发现生物序列里面潜在的规律。与生物体功能和进化相关的链状分子具有一种基本特性,即它们能够以数字化符号序列的形式表示。d n a 、r n a 以及蛋白质分子中的核苷酸和氨基酸单体是确定的。虽然它们在生理环境中常常会经历复杂的化学修饰,却仍然可以用很少的字符表示其分子链的组成。基于生物序列数据的此种数字化特征,我们可以将计算分析算法应用在对特定序列及其分子的结构和功能的研究中。1 1 3 生物信息学与机器学习大规模的生物信息给数据挖掘提出了新课题和挑战。虽然常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于更加复杂的生物信息的分析,如序列分析等问题。“学习”是系统的变化,这种变化可使系统做同类工作时更有效。机器学习的目的是期望能从数据中自动获得相应的理论,通过采用如推理、模型拟合等方法从样本中学习,尤其适用于缺乏一般性的理论,“噪声”模式,及大规模数据集。因此,机器学习形成了与常规方法互补的可行方法。机器学习使得利用计算机从海量的生物信息中提取有用知识、发现知识成为可能。机器学习方法在大样本、多向量的数据分析工作中发挥着重要的作用。面对大量的数据、快速的数据获取率和客观分析的要求,早期的科学方法观测和假设,已经不能仅依赖于人的感知来处理了。因而,生物信息学与机器学习相结合也就成了必然。机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息。机器学习与模式识别和统计推理密切相关。学习方法包括数据聚类、神经网络分类器和非线性回归等等。隐马尔可夫模型也广泛用于预测d n a 的基因结构。2第l 章引言机器学习加速了生物信息学的进展,也带了相应的问题。机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此。因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构。其次,机器学习方法中常采用“黑箱”操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚。可以说,生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。生物信息学不只是一门为了建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科,也不仅仅是只限于生物信息学这一概念的理论性学科。事实上,它是- - f q 理论概念与实践应用并重的学科。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。1 2 人类r n ap o l 启动子识别问题真核基因的识别问题一直是生物信息学的一个重要内容,基因启动子区的识别是完整基因结构识别中的重要一环。启动子是一段位于结构基因5 端上游的d n a 序列,能活化r n a 聚合酶,使之与模板d n a 准确的结合并具有转录起始的特异性。转录的起始是基因表达的关键阶段,而这一阶段的重要问题是r n a聚合酶与启动子的相互作用。启动子的结构影响了它与r n a 聚合酶的亲和力,从而影响了基因表达的水平。人类启动子区的识别是生物医学研究的基本需要,是构建基因调节网络的一个核心问题。负责m r n a 转录的r n a p o li i 启动子是启动子中数量最多,也是最重要的一类。在早期的启动子预测研究中,隐马尔科夫模型【”、类神经网络【2 ) 、数据挖掘与权重矩阵 3 1 1 4 1 等方法被广泛应用。目前预测启动子主要从鉴定启动子的转录起始位点、核心启动子区域、转录因子结合域和启动子的c p g 岛四个方面出发【5 1 。但是,当用这些启动子预测工具来处理未知的、复杂的d n a 序列时,识别的结果往往是比较严重的遗漏和偏高的假阳性率。3第1 章引言1 3 课题的来源及意义1 3 1 课题的来源在人类基因组全图正式发表后,科学家十分关切一个更为复杂、更富有挑战意义、更有价值的任务由a 、t 、c 、g 这四个碱基构成的人类的d n a 到底有哪些有意义的信息? 如何才能将这些复杂的信息全部注释出来? 人们展开了对基因的识别研究。基因识别,即使用生物学实验或计算机等手段识别d n a 序列上的具有生物学特征的片段,是生物信息学的一个重要分支,也是基因组研究的基础。基因识别的对象主要是蛋白质编码基因,也包括其它具有一定生物学功能的因子,如r n a 基因和调控因子。在早期,基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。然而现在,由于人类已经获得了数量巨大的基因组信息,依靠较慢的实验分析己不能满足基因识别的需要,基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。启动子的识别是基因识别的重要组成部分。虽然生物学家己实验验证发现了很多启动子序列,但是实验过程相当费时费力,而且对于大量且长达数万个碱基对的序列,无法完整通过实验发现。因此人们便发展了一系列用生物信息学的手段来预测启动子序列的方法。但是目前的启动子预测工具在面对极为复杂的基因体序列时,仍无法做出准确的预测,再加上误判率偏高,因而使得启动子的预测仍无法有效成为研究人员在寻找基因时的参考依据。支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一种有监督的构造分类器方法。它有以下特点:1 专门针对有限样本情况;2 算法将实际问题通过非线性变换转换到高维的特征空间( f e a t u r es p a c e ) ,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。与隐马尔科夫模型、神经网络一样,支持向量机作为机器学习方法的一种,在生物信息学的研究中也被广泛的应用。在启动子的识别应用中 6 1 【7 l ,s v m 基于处理高维、复杂的数据时比其它统计学或机器学习的方法效果更好等原因,在识别结果上相对于其他方法有了较大的提高。4第1 章引言但是,这类应用中绝大部分的测试只是针对规模相对较小的数据集。而如何使用s v m 方法在扩大了的启动子数据集的应用中提高启动子识别的准确率还有待进一步的研究。s v m 8 】【9 j 作为一种求解模式识别和参数估计的有效工具,不仅结构简单,而且具有全局最优性和较好的泛化能力。基于以上原因,并以在d n a 剪切位点预报研究中得以成功应用的基于知识的统计编码方法作为基础,我们确定了利用s v m 对人类d n a 启动子进行识别研究这一研究方向。主要解决了以下问题:1 如何找到合适的编码方法,提高启动子识别的准确率;2 如何对现有的s v m 进行进一步的发展,找到并建立合理的共识模型,将双层s v m 方法应用于启动子识别研究中;3 如何将改善后的方法应用在于人类染色体启动子的识别研究中。1 3 2 课题的理论意义和实际研究价值人类基因组测序工作的完成,标志着功能基因组研究将在生命科学领域中占据越来越重要的地位【l “。基因表达水平的分析对于研究及了解生物体的特性和基因功能起着至关重要的作用。对基因表达数据,在大规模数据集上进行分析和归纳可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解遗传网络,提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。除寻找基因编码区外,对基因表达中调控序列的认识将是一个更为艰巨的任务。调控序列包括位于基因编码序列上游的启动子( p r o m o t e r ) 、正调控元件增强子( e n h a n c e r ) 以及负调控元件沉默子( s i l e n c e r ) 等,其中启动子是d n a 序列中r n a 聚合酶i i 的结合部位,也是启动转录的关键性调控序列i j ”。直到最近,人们才能确定真核基因组序列大到足以包含许多基因。数据成为基因搜寻程序的新问题:如何从多基因中准确分割一组外显子。启动子是提供这一生物学功能的富含信息的信号序列。因此对启动子区的认识,不仅有助于实验室分析研究,而且还可以为人类认识全基因组功能、基因表达调控机制以及人类疾病与启动子多态性或突变的关系提供很大的帮助。计算机识别启动子1 1 2 j 部分能在推进基因识别中起到十分重要的作用。与传统的实验研究方法相比,计算机识别启动子的方法具有节省人力和物力资源、5第1 章引言且用较短时间可以预测和研究大量的启动子序列等优点,是目前启动子预测和研究的一个重要手段。本课题研究的内容,包括将本实验室开发的基于统计知识的编码方法应用在人类启动子序列的识别研究中,建立并使用合适的共识模型,使用s v m 的方法对启动子数据进行分类,区分启动子数据与非启动子数据,寻找其中的规律,并利用这些规律对未知的d n a 序列数据进行分类,识别出其中的启动子序列数据。如果在识别精度或分类方法上能够有所提高,则会为此类生物分类问题提供更有效的编码理论,并且对于基因识别研究有重大意义,同时也为生物学家更有效的设计实验方法验证人类启动子、进一步研究启动子的结构和功能提供帮助。1 4 论文的主要内容本文旨在对人类r n ap o li i 启动子数据进行识别分类并提高识别的准确率。我们将创新的编码方法应用在人类启动子序列编码中,建立并使用合适的共识模型,使用s v m 的方法对启动子数据进行分类并提高了启动子识别的准确率。首先,我们从真核生物启动子数据库( e p d ) 以及非启动子数据库中得到用于分类研究的d n a 启动子序列数据及非启动子序列数据。正、负数据集均分别被分成5 份和l o 份,用于5 重( 5 f o l d ) 及1 0 重( 1 0 一f o l d ) 交叉验证。另外,我们还从转录起始位点数据库( d b t s s ) 中得到了由实验得出的人类染色体启动子数据,准备用于后续的研究。然后,在对数据进行处理后( 包括保证数据的非冗余性等) ,对碱基数据进行编码、选择合适的参数及编码方法。这是本研究的重点和难点。根据采用编码方式的不同,将之分为三步。第一步,本文采用了基于知识的统计编码方法,并将此方法进一步扩展成六种子编码方式,分别是:单碱基统计特征编码、相邻双碱基统计特征编码、隔一位的双碱基统计特征编码、隔两位的双碱基统计特征编码、隔三位的双碱基统计特征编码以及相邻三碱基统计特征编码。编码后在s v m 中进行启动子识别,使用1 0 一f o l d 交叉验证的准确率达到了8 9 6 8 ,灵敏性在8 6 2 4 - , 9 0 1 1 ,特异性在8 5 9 1 9 8 3 5 ,与其他利用s v m 进行启动子识别的工具相比,均有6第1 章引言5 左右的提高。第二步,本文采用了c p g 编码和五联体( p e n t a m e r s ) 编码,从不同的角度对人类r n a p o li i 启动子序列进行编码,提取变量信息,找出预报结果最佳及搭配最合理的编码方式用于后面的研究。第三步,本文还尝试了一种新的编码方法一模式字典( p a t t e r nd i c t i o n a r y )的编码方法( 由本实验室开发) ,并且针对启动子数据的特点,将a t c g 四碱基两两结合,扩展成十六种字符进行编码,以增加数据的特征变量。再次,基于上述编码方法的识别结果,根据编码方式的不同、样本选择的不同、核函数选择的不同等等,我们建立出不同类型成员子模型的共识模型,并用双层s v m 进行识别分析。由于共识模型考虑了各子模型的独立性和模型之间的差异性,发挥了各模型之间的互补优势,从而提高了最终的识别准确率( 图1 1 ) 。图l l 本文进行启动子识别研究的主要步骤最后,我们将优秀的识别模型及共识模型的思想应用到人类2 2 号染色体启动子数据的识别中,识别准确率达到了9 0 9 8 。本文主要分为七个部分:第一、二部分系统的介绍了生物基因以及d n a 、启动子的组成、结构特征,相关的数据库以及目前启动子识别研究的主要研究领域及方法。7第1 章引言第三部分介绍了本文的数据来源,数据的特点,数据分析和预处理方法以及结果的评价方法。第四部分提出了基于碱基序列的四种编码方法,分别是基于知识的统计编码方法、c p g 编码方法、p e n t a m e r s 编码方法以及p a t t e r nd i c t i o n a r y 编码方法。这一部分中给出了结合s v m 进行建模和预报的计算结果,对这些编码方法的识别结果以及各编码思想的特点进行了分析,并且在分析的基础上对这些编码方法进行了进一步的优化改进。第五部分介绍了共识模型在人类r n ap o li i 启动子识别中的应用。我们将不同的编码方法相组合,建立适当的共识模型,在双层s v m 中对启动子数据进行识别,得到了更高的识别准确率。第六部分介绍了编码方法在人类2 2 号染色体启动子数据识别中的应用。在本文的末尾,也就是本文的第七部分,我们对识别研究工作进行了总结,对工作中的不足之处进行了探讨,并提出了一些改进的设想。8第2 章启动子及启动子识别第2 章启动子及启动子识别2 1 生物学知识基础2 1 1 核酸的化学组成核酸是生物体内的高分子化合物,包括脱氧核糖核酸( d n a ) 和核糖核酸( r n a ) 两大类。d n a 存在于细胞核和线粒体内,携带遗传信息;r n a 存在于细胞质和细胞核中,参与细胞内遗传信息的表达。核酸经水解可得到核苷酸,因此核苷酸是核酸的基本单位。核酸就是由很多单核苷酸聚合形成的多聚核苷酸。核苷酸可被水解产生核苷和磷酸,核苷还可再进一步水解,产生戊糖和含氮碱基( 如图2 1 ) 。核酸- 核苷酸呻 二:斗_ 二二核苷酸中的碱基均为含氮杂环化合物,它们分别属于嘌呤衍生物和嘧啶衍生物。核苷酸中的主要是鸟嘌呤( g u a n i n e ,g ) 和腺嘌呤( a d e n i n e a ) ,嘧啶碱( p y r i m i d i n e ) 主要是胞嘧啶( c y t o s i n e ,c ) 、尿嘧啶( u r a c i l 。u ) 和胸腺嘧啶( t h y m i n e ,t ) 。d n a 和r n a 都含有鸟嘌呤( g ) 、腺嘌呤( a ) 和胞嘧啶( c ) :胸腺嘧啶( t ) 一般而言只存在于d n a 中,不存在于r n a 中;而尿嘧啶( u )只存在于r n a 中,不存在于d n a 中【1 3 1 。它们的化学结构见图2 2 。9第2 章启动子及启动子识别ot鼎 c ,、也,k 一、矿“0 0 目m 。一“警:铡嘌口争碱( p u r i n c )嘧啶碱( p y r i m i d i n c )图2 - 2 碱基的化学结构2 1 2d 的分子结构d n a 分子是4 种脱氧核苷酸经3 一5 磷酸二酯键聚合而成,所以也称为多核苷酸( p o l y n u c l e o t i d e ) 。d n a 的一级结构是指4 种核苷酸的连接及其排列顺序。1 9 5 3 年w a t s o n 和c r i c k 提出了d n a 分子双螺旋结构模型,指出d n a 分子是由两条平行的多核苷酸链围绕同一中心轴构成的右手双螺旋结构。多核苷酸的方向由核苷酸间的磷酸二酯键的走向决定,一条从5 一3 ,另一条从3 一5 ,两条链反向平行排列( a n t i p a r a l l e l ) ,彼此由氢键相连,g 与c 配对( g c ) ,a 与t 配对( a = t ) 。根据以上原则,只要确定了一条链中的碱基顺序,就可以相应的确定与它互补的另一条链上碱基的顺序。1 个d n a 分子大约有4 千至4 0 亿个核苷酸对,而各种碱基对排列顺序没有限制,即假定某一段d n a 分子链有1 0 0 个碱基对,则该段就有4 1 0 0 种不同的排列组合形式。基因就是d n a 分子链上的一个特定的区段,其平均大小约为1 0 0 0 个碱基对。这说明d n a 分子贮存了大量正常或变异的遗传信息,满足了生物遗传多样性的要求,通过d n a 分子的准确复制,又可使遗传信息得到稳定和连续的传递【1 4 1 。2 1 3 基因从遗传学的角度看,基因是生物的遗传物质,是遗传的基本功能单位、突变单位、重组单位;从分子生物学的角度看,基因是载着特定遗传信息的d n a分子片段,在一定条件下能够表达遗传信息,产生特定的生理功能。基因有三个基本特性:1 、基因可自体复制:2 、基因决定性状,最终表达为某一性状,即基因通过转录和翻译决定多肽链的氨基酸顺序,从而决定某种酶或蛋白质的性质;3 、基因虽很稳定,但也会发生突变。一般来说,由新的突1 0删o 。气oohho、奠o i cn hr kh、ehh、jm 、。ox。鼍,nh足苌第2 章启动子及启动子识别变而来的等位基因一旦形成,可通过自体复制,在随后的细胞分裂中保留下来,提供进化的材料,产生多态性【1 5 】。基因的复制以d n a 复制为基础。生物体的遗传信息表现为特定的核苷酸顺序,并以密码子的形式编码在d n a 分子上。在细胞分裂过程中,通过d n a 准确的自我复制( s e l f - r e p l i c a t i o n ) ,把遗传信息从亲代传给子代,保证遗传物质的连续性和相对的稳定性。由于d n a 分子两条链的碱基是互补的,一条链上的核苷酸排列顺序可以由另一条链上的核苷酸排列顺序决定。d n a 复制过程中,首先碱基间氢键断裂,双螺旋解旋并松开,然后每条多核苷酸链各自以自己为模板( t e m p l a t e ) ,游离核苷酸按碱基互补原则,进行氢键结合;在聚合酶作用下,合成新的互补链,与原来模板单链并列盘旋在一起,形成了稳定的双螺旋结构。新形成的2 个d n a分子与原来d n a 分子的碱基顺序完全一样。每个子代d n a 分子的一条链来自亲代d n a ,另一条链则是新合成的,所以这种复制方式称为半保留复制( s e m i c o n s e v v a f i v er e p l i c a t i o n ) 。所谓基因表达( g e n ee x p r e s s i o n ) 是指细胞在生命过程中,把储存在d n a顺序中的遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子。2 1 4 真核生物的基因结构特征真核生物( 包括人类在内) ,其基因主要存在于细胞核内线状的染色体上。存在于细胞质的基因位于环状的线粒体d n a 上。核内基因的d n a 顺序由编码顺序和非编码顺序两部分构成。编码顺序是不连续的,被非编码顺序隔开【“1 。人类结构基因包括二大区域:1 、编码区,包括外显子与内含子;2 、侧翼顺序,位于编码区上游、编码区下游;基因编码区的两侧,含调控区,包括启动子和增强子等( 如图2 3 ) 。第2 章启动子及启动子识别, 省鞘到童墨翘蒸尊d ,图2 3 真核细胞基因结构示意图2 1 5 基因结构复杂性的认识过程人类基因组序列的研究提出了对基因复杂本质探讨的课题。在此之前,科学家估计人类的基因组包含了数目极多的基因( 用已表达序列聚类进行估计,人类大约有1 5 0 ,0 0 0 个基因) ,而果蝇则约有1 4 ,0 0 0 个基因,简单的模式生物线虫约有1 9 ,0 0 0 个基因。从生物的复杂性来说,这很合理。但是对人类基因数目研究的最终结果显示人类只有约3 2 ,0 0 0 个基因。生物的复杂性与相应基因个数较少,这两者之间似乎产生了极大的矛盾。同时,这个现象也向人们暗示:人类表达序列( m r n a ) 的数目远远大于人类基因的数目。从而把矛头指向了真核生物基因复杂的本性【j 刀。直至2 0 世纪7 0 年代中期,分子生物学家才开始认识到真核生物的d n a 序列由编码序列和非编码序列交错组合起来。诞生了外显子( e x p r e s s e dr e g i o n ) 和内含子( i n t e r v e n i n gs e q u e n c e sr e g i o n ) 的概念。真核生物与原核生物在基因结构的复杂性方面有着本质的差异。对于原核生物来说,基因的结构相对比较简单。原核生物染色体通常只含有一个d n a 分子,而且每个基因在d n a 分子中只出现一个,除了为蛋白质编码的连接结构基因外,只有一小部分是调节序列和信号序列。具体来说,原核生物的基因结构仅包括启动子、起始密码子、编码区、终止密码子。对于真核生物来讲,其基因结构要复杂的多,一些基因在d n a 中可以重复很多次。而且更为重要的是,与原核生物基因是编码d n a 的一个完整片断不同,大多数为蛋白质编码的真核生物基因都含有“居间序列”,这些居问序列不编码蛋白质,被称作垃圾序列,但是这些不编码蛋白质的序列有很重要的功能,特别是在m r n a 前体的加工过程中,发挥着无可替代的重要作用。这些不编码的“非编码序列”的含量和分布在不同的生物中有所不同。1 2第2 章启动子及启动子识别2 1 6 基因识别基因识别,即使用生物学实验或计算机等手段识别d n a 序列上的具有生物学特征的片段,是生物信息学的一个重要分支。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如r n a 基因和调控因子。基因识别是基因组研究的基础。我们在获得一个基因序列后,通常需要基因识别对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子夕h 显子分析、开放读码框( o r f ) 分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、c p g 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能做出推论。在早期,基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。现在,由于人类已经获得了数量巨大的基因组信息,依靠较慢的实验分析己不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。2 2 启动子启动子是一个基因转录开始的信息提供者,通常位于转录起始位点的上游。r n a 聚合酶能够识别并与之结合,从而起始基因转录。转录的起始是基因表达的关键阶段,而这一阶段的重要问题是r n a 聚合酶与启动子的相互作用。启动子的结构影响了它与r n a 聚合酶的亲和力,从而影响了基因表达的水平。转录起始位点是指与新生r n a 链第一个核苷酸相对应d n a 链上的碱基,研究证实通常为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论