




已阅读5页,还剩92页未读, 继续免费阅读
(生物医学工程专业论文)基于机器学习算法的dna重组与非编码rna预测模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学博士学位论文 的能力上优于支持向量回归机( s v r ) 。和现有的打分矩阵方法进行比较,发现我 们的随机森林回归模型在筛选高效率的s i r n a s 上优于这些打分矩阵算法。和其 它的机器学习预测模型进行比较,发现我们的方法优于这些方法。为了方便分 子生物学家设计s i r n a s ,我们开发了计算机辅助s i l 讣l a s 在线设计系统: r f r c d b s i r n a o 它的网址是:h t t p :w w w b i o i n f s e u , e d u c n s i r n a i n d e x h t m 。 r f r c d b s i r n a 与其它在线计算系统最大的差别在于r f r c d b s i r n a 同时结 合了s i r n a s 数据库搜索和s i r n a 降解效率预测这两个步骤。 ( 4 )我们结合了局域相邻j 联结构组成( 1 0 c a lc o n t i g u o u s t r i p l e ts t r u c t u r ec o m p o s i t i o n ) 特征,最小自由能特征和随机化检验特征( r a n d o m i z a t i o nt e s t ) ,建立了随机森 林分类模型来对具有茎环发夹结构的序列进行分类从而区分哪些是真正的 m i r n a 前体( r e a lp r e - m i r n a s ) ,哪些是假的m i r n a 前体( p s e u d op r e m i r n a s ) 。 结果表明我们的方法在预测性能r 显著的超过了t r i p l e t - s v m - c l a s s i f i e r 。为了进 一步研究到底是随机森林算法的本身优于支持向量机还是我们的特征优于 t r i p l e t - s v m - c l a s s i f i e r ,我们用我们建立随机森林相同的特征义建立了支持向量 机模型,结果表明所建的这个分类器模型在性能上比我们的随机森林模型性能 要差,但分类效果又要比t r i p l e t - s v m - c l a s s i f i e r 好,这说明我们的随机森林算法 和特征均对性能的提高有着贡献。我们又开发了m i r n a s 前体预测系统:m i p r e a ( h t t p :w w w b i o i n f s e u e d u c n m i r n a ) 。用户提交一条r n a 序列,m i p r c d 首先 判断它是不是茎环发夹结构,如果是摹环发夹结构它将继续判断这条序列是不 是m i r n a s 前体。 关键词 机器学习d n a 重组非编码r n a 预测随机森林模型 v 东南大学博士学位论文 t h e s i st i t l e : 英文摘要 m a c h i n el e a r n i n gb a s e ds t u d i e so nd n ar e c o m b i n a t i o n a n dn o n - c o d i n gr n a sp r e d i c t i o nm o d e l s g r a d u a t es t u d e n tn a m e :j i a n gp e n g s u p e r v i s o rname:lu z u - h o n g s c h o o ln a m e : s o u t h e a s tu n i v e r s i t y t h ee v e r - e x p a n d i n gb i o l o g i c a le x p e r i m e n t a ld a t am a k e sh o wt or u mt h ed a t at ok n o w l e d g eo r am a t h e m a t i c a lm o d e lw i t hp r e d i c t i o na n dg e n e r a l i z a t i o nc a p a b i l i t yac h a l l e n g i n ga n di m p o r t a n t p r o b l e m t h er a p i dd e v e l o p m e n to fm a c h i n el e a r n i n gt e c h n o l o g yp r o v i d e sap r o m i s i n gw a yf o r t h o s es t u d i e s d n ah o m o l o g o u sr e c o m b i n a t i o na n dn o n - c o d i n gr n a s ,a st w oh o t s p o t si n p o s t - g e n o m i ce r a , a r cw i d e l yc o n c c m e db ys c i o n t i s t sa l lo v e rt h ew o r l d i nt h i sp a p e r , w eu s e dt h e m a c h i n el e a r n i n gm e t h o d st os t u d ys e v e r a lp r o b l e m si nd n ar e c o m b i n a t i o na n dn o n r n a s t h e m a i nc o n t r i b u t i o ni sa sf u l l o w s : 1 d u r i n gt h em e i o t i cp r o c e s s ,s o m er e g i o n so fg e n o m eh a v em o r ep o s s i b i l i t yt oo c c u rd n a r e c o m b i n a t i o n t h o s er e g i o n sa r ec a l l e dr e c o m b i n a t i o nh o t s p o t s a c c o r d i n g l y , s o m er e g i o n s w h i c hh a v el o wf r e q u e n c i e so fr e c o m b i n a t i o na t ec a l l e dr e c o m b i n a t i o nc o l d s p o t s a l t h o u g h o b s e r v a t i o n sc o n c e r n i n gi n d i v i d u a lh o t c o l ds p o t sh a v eg i v e nc l u e sa st ot h em e c h a n i s mo f r e c o m b i n a t i o ni n i t i a t i o n ,t h ep r e d i c t i o no fh o t c o l ds p o t sf r o md n as e q u e n c ei n f o r m a t i o ni s s t i l lac h a l l e n g et a s k i nt h i ss t u d y , w ep r e s e n tan o v e lm a c h i n el e a r n i n gm e t h o d ,r a n d o m f o r e s t ( r f ) m o d e l ,t od e t e c tt h ey e a s tm e i o t i cr e c o m b i n a t i o nh o t s p o t sa n dc o l d s p o t sf r o m g e n o m es e q u e n c e s t oa p p l yt h em o d e lt ot h ef u l lg e n o m e ,w ep r o p o s e da no r f - i n d e p e n d e n t f e a t u r e :g a p p e dd i n u c l e o t i d ec o m p o s i t i o n c o m p a r e dw i t ha na l t e m a t i v em a c h i n el e a r n i n g a l g o r i t h m ,s u p p o r tv e c t o rm a c h i n e ( s v m ) ,t h er fm e t h o do u t p e r f o r m e di ti nb o t hs e n s i t i v i t y a n ds p e c i f i c i t y t h ep r e d i c t i o nm o d e li si m p l e m e n t e da saw e b - s e r v e r ( r f - d y m h c ) a n di ti s f r e e l ya v a i l a b l ea tt h ew e b s i t e :h t t p :w w w b i o i n f s e u e d u , c n r e c o m b i n a t i o w f fd v m h c h t m g i v e nay e a s td n as e q u e n c ea n dp r e d i c t i o np a r a m e t e r s ( r 1v a l u ea n dn o n o v e r l a p p i n gs c a n w i n d o ws i z e ) ,t h ep r o g r a mr e p o t st h ep r e d i c t e dh o t c o l ds p o t sa n dm a r k s t h e mi nc o l o r 2 w ed e v e l o p e dag e n o m e - w i d ed n ar e c o m b i n a t i o nr a t ed a t a b a s e :r e d b ( r e c o m b i n a t l o nr a t e d a t a b a s e ) i tc u r r e n t l ys t o r e st h ef u l lg e n o m er e c o m b i n a t i o nr a t e so f6s p e c i e s ( h u m a n ,r a t , m o u s e ,d m e l a n o g a s t e r , c e l e g a n sa n dy e a s t ) i t i s f r e e l ya v a i l a b l ea t t h ew e b s i t e : h t t p :w w w b i o i n f s e u e d u c n r e d a t a b a s e u s e t sc a nq u e r yt h ed a t a b a s ei ns e v e r a la l t e r n a t i v e w a y s s u c ha st h ec 0 0 r d i n a t e so f t h ec h r o m o s o m e t h er e c o m b i n a t i o nr a t e so rt h er a n k i n go f t h er e c o m b i n a t i o nr a t e s t h ed a t a b a s es t o r e sv a r i o u sd e t a i l sf o re v e r ys e q u e n c e s u c ha s c h r o m o s o m en u m b e r , h y p e r l i n k st ot h er e s p e c t i v er e f e r e n c e a n dt h es e q u e n c ei nf a s t a f o r m a t t h es e q u e n c e sa r ea l s oa v a i l a b l ei nab a t c hd o w n l o a d a b l ef i l ev e r s i o ns ot h a tu s e r s c a l le a s i l ys t o r ea n dp e r f o r ma d d i t i o n a lo p e r a t i o n so nt h e m 3 w ei n t r o d u c e dan o v e ln o n l i n e a rr e g r e s s i o nm e t h o d :r a n d o mf o r e s tr e g r e s s i o n ( r f r ) ,t o q u a n t i t a t i v em o d e ls i r n a se f f i c a c yv a l u e s c o m p a r e dw i t ht h ea l t e m a t i v em a c h i n el e a r n i n g v i 东南大学博士学位论文 r e g r e s s i o na l g o r i t h m :s u p p o r tv e c t o rm a c h i n er e g r e s s i o n ( s v a ) m o d e l ,o u rr f rm o d e l o u t p e r f o r m e di to nm a n y p e c t f l w ec o m p a r e do u rp r e d i c t i o nm o d e lw i t ho t h e rs i r n a d e s i g nr u l e s n er e s u l t si n d i c a t e dt h a to u rm e t h o do u t p e r f o r m e dt h e mi ni d e n t i f y i n gh i 曲i y e 衔c a c i o u ss i r n as e q u e n c e s w ef u r t h e rc o m p a r e do u rm e t h o dw i t ho t h e rm a c h i n el e a r n i n g b a s e da p p r o a c h e d t h er e s u l t ss h o w e dt h a to u rm e t h o dh a dt h eb e s tp e r f o r m a n c eo fa 1 1 a w e b - s e r v e r , n a m e dr f r c d b s i r n 丸h a sb e e nd e v e l o p e da n di ti sa v a i l a b l e 砒t h ew e b s i t e : h t t p :w w w b i o i n f s c u e d u c n s i r n a i n d e x h t m t h em o s td i s t i n g u i s h i n gc h a r a c t e ro fo u r w e b - s e r v e ri st h a tw ei n c o r p o r a t i n gt h es i r n ad a t a b a s es e a r c h i n ga n dt h er f rp r e d i c t i o n m o d e lt oi m p r o v et h es i r n ad e s i g n 4 t od i s t i n g u i s ht h er e a lp r e - m i r n a sf r o mo t h e rh a i r p i ns e q u e n c e sw i t hs i m i l a rs t e m - l o o p s ( p s e u d op r e - m i r n a s ) , ah y b r i df e a t u r ew h i c hc o n s i s t so f l o c a lc o n t i g u o u ss t r u c t u r e - s e q u e n c e c o m p o s i t i o n ,m i n i m u mo ff r e ee n e r g y ( m f e ) o ft h es e c o n d a r ys t r u c t u r ea n dp - v a l u eo f r a n d o m i z a t i o nt e s ti su s e d b e s i d e s 。an o v e lm a c h i n el e a r n i n ga l g o r i t h m ,r a n d o mf o r e s t ( r f ) , i si n t r o d u c e d w h e nc o m p a r e dw i t ht h ep r e v i o u ss t u d y , t r i p l e t - s v m - c l a s s i f i e r , o u rr f m e t h o dw a ss i g n i f i c a n t l yo u t p e r f o r m e di t f u r t h e r m o r e a l t e m a t i v ec l a s s i f i e rw h i c hu s e d t h es v mw i t ht h eh y b r i df e a t u r ew a sa l s oc o m p a r e dw i t ht h et r i i p l e t - s v m - c l a s s i f i e ra n do u r r fb a s e dm e t h o d t h er e s u l t ss h o w e dt h a tt h ea l t e r n a t i v ec l a s s i f i e ro u t p e r f o r m e dt h e t r i p l e t - s v m - c l a s s i f i e r , b u ti tu n d e r p e r f n r m e do u rr fm e t h o d i ti n d i c a t e dt h a tb o t ht h er f a l g o r i t h ma n dt h eh y b r i df e a t u r ec o n t r i b u t e dt ot h ep r e d i c t i o ni m p r o v e m e n t w bd e v e l o p e da w e b - s e r v e r :m i p r e d ( h t t p :w w w b i o i n f s e u e d u c n m i r n a ) g i v e n a s e q u e n c e , m i p r e d d e c i d e sw h e t h e ri ti sap r e m i r n a 1 i k eh a i r p i ns e q u e n c eo rn o t i fm es e q u e n c ei sa p r e - m i r n a l i k eh a i r p i n ,t h er fc l a s s i f i e rw i l lp r e d i c tw h e t h e ri ti sar e a lp r e - m i r n ao ra p s e u d oo n e k e yw o r d s m a c h i n el e a r n i n g ;d n ar e c o m b i n a t i o n ;n o n c e d i n gr n a s ;p r e d i c t i o n ;r a n d o mf o r e s tm o d e l v u 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 研究生签名:! 圣姿e t 期:2 二z = 卫,r 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论 文的复印件和屯子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子 文档的内容和纸质论文的内容相致。除在保密期内的保密论文外,允许论义被查 阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究牛院办理。 一虢毕燧坳飙 1 1 1 i i s 第一章绪论 第一章绪论 在人类的文明史中,人们从未停止过对生命本原的思索和探求。1 9 5 3 年w a t s o n 和 c r i c k 提出了脱氧核糖核酸( d n a ) 的双螺旋模型,阐明了它是遗传信息的携带者,从而 开辟了现代分子生物学的新纪元。六十年代初,随着“遗传密码”的破译,人们发现。尽 管生命现象千姿百态,但生命体的本质却有着高度的一致性。随后的基因工程技术的诞生 则大大加速了分子牛物学的迅猛发展。2 l 世纪初,历时1 0 载耗资2 0 亿美元的人类基因组 计划最终完成海量的d n a 内在信息呈现于世人面前,生物学义迎来了一个重大的分隔 点:前基因组时代的淡去和后基凼组时代的到来。d n a 的同源重组和非编码r n a ,作为 后基因组时代的两个热门话题。受到了各国科学家高度的霞视。d n a 的同源重组与人类的 进化及遗传病休戚相关,而具有调控功能的非编码r n a 的发现则改变了人们对r n a 传统 功能的看法。与此同时又提出了两个棘手的问题:i 在只给定一条d n a 序列的情况下, 如何判断它的哪些区域是重组高发区,那些是小容易发生霞组的区域:2 如何在基因组中 找出具有调控功能的非编码r n a 序列。这些问题用传统的经典统计方法是很难得出满意 的结果的。 机器学习,作为是人工智能的一个子领域,主要关注于开发一些让计算机可以自动“学 习”的技术。它在近代得到了迅猛的发展,并为那砦用传统统计方法难以解决的问题提供了 新的思路。本文正是利用机器学习方法对这两个话题的几个分支问题进行了研究。 1 1 生物信息学 生物信息学是2 0 世纪8 0 年代末随着基因组测序数据迅猛增长而逐渐兴起的一门新兴 交叉学科,它包括生物信息的获取、处理、存储、分发、分析和解释等内在的所有方面, 综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学 意义【l “。 生物信息学以核酸、蛋白质等生物大分子为主要研究对象,以数学、物理、计算机、 信息科学为主要研究手段。以计算机网络为丰要研究环境,以计算机软作为t 要研究工具, 它的研究范畴包括: 对序列数据进行存储、管理、注释、加工; 对各种数据库进行查询,搜索、比较、分析; 构建各种类型的专片j 数据库信息系统; 研究开发面向生物学家的新一代计算机软件: 利用数理统计,模式识别,动态规划、密码解读、词法分析、神经嘲络、遗传算法以及 隐马氏模型等各种方法柬研究生物遗传上的问题,并且不断发现新的、更有效的算法; 对序列、结构数据进行定性和定量分析,从中获取基因编码、基凶调控、序列结构功 能关系等信息; 阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时窄关系; 探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”。 生物信息学是内涵( 图1 1 ) 非常丰富的学科,其核心是基因组信息学,包括基因组 东南大学博士学位论文 信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺 序,即全部基因在染色体上的确切位置以及各d n a 片段的功能;同时在发现了新基因信 息之后进行蛋白质空间结构模拟和预测然后依据特定蛋白质的功能进行药物设计。了解 基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描 述人类疾病的诊断、治疗内在规律。它的研究目标是揭示”基因组信息结构的复杂性及遗传 语言的根本规律”,解释牛命的遗传语言。生物信息学已经成为整个生命科学发展的重要组 成部分,成为了生命科学研究的前沿。 9叩 图1 1 生物信息学的组成 1 2d n a 同源重组的生物信息学分析中面临的问题 在基因组减数分裂过程中,某些区域会发生较其它区域岛的重组发生频率,这蝗区域 被称作减数分裂重组热点( h o t s p o t ) 。与此相对应,减数分裂重组发生频率较低的i ) ( 域我 们称之为重组冷点( c o l d s p o t ) 。这些冷热点在基因组上的分布足不均匀的。许多研究试图 去探寻这些重组热点或冷点足否具有相似的序列或局部结构特征i ,一。研究发现这唑重组热 点区往往具有很高的c + g 含最并且和一定的基l 川表达谱有天。虽然这些对重组冷热点的 影响因素的研究存助于进一步揭示d n a 重组的发乍机制和成因,但是仅仪通过d n a 的序 列来预测其发生重组的概率依然是一项相当具有挑战件的工作。剑目前为止,几乎所有估 测d n a 重组率的方法都是基于群体遗传学的数据1 7 一。其原理是通过检测亲代和了代小同 的紧密连锁的遗传标记,来估计重组率。还没有软件或在线估测系统,仪仪通过d n a 序 列本身来预测其发生重组的概率。 另一方面,虽然我们关注的对d n a 重组热点区的研究有助手我们进一步揭示重组的 发生机制,然而全面的了解d n a 罩纽在全基因组的小均匀分布和它的真正本质依然是一 项艰巨的工作【i o l 。我们想要彻底的解决这个问题有两个方案:一个是不仅仅只研究重组热 点区,而是从基因组的层面上研究重组分布不均匀的原因;另一个方法就是通过比较基冈 组学,通过不同物种的d n a 重组数据进行比较分析,从而揭示重组的内在发生机制。这 样我们就急需要一种数据库,既存储的全基因组的重组率数据,而不是简单的重组热点序 2 第一章绪论 列,为从系统的层面理解重组提供数据,又存储了不同物种的重组数据,为比较基因组分 析提供平台。然而遗憾的是至今为止还没有这样的数据库。 1 3 非编码r n a 的生物信息学分析中面临的问题 1 3 1 非编码r n a 简介 长期以来,由于受中心法则的影响,对于r n a 的关注往往局限于m r n a 、t r n a 和r r n a 而其功能则定位于蛋白质的翻译。随着对r n a 研究的深入,一类重要的r n a 非编码 r n a 越来越受到人们的重视。当前,非编码r n a 的研究已经成为生命科学领域中一个十 分活跃的国际前沿课题。非编码r n a ( n o n - c o d i n gr n a ,n c r n a ) 指不编码蛋白质或酶, 以r n a 形式发挥作用的一类分子。研究表明,n e r n a 在细菌、真菌、哺乳动物等许多生 物体的生命活动中发挥着极其广泛的调控作用,对其深入研究可能揭示基因转录后调控、 基因沉默、人类疾病防治及生物进化探索有重要意义。 n c r n a 的种类繁多,但目前还没有一个规范的命名方法,只能根据其大小、位置及功 能等进行描述,据材料报道的n c r n a 大致分为十大类: ( 1 ) 催化r n a ( c r n a ) ,亦称核酶,是r n a 拟酶和其它r n a 自我催化分子; ( 2 ) 类m r n a r n a ,是一类3 端有p o i y a ,无典型o r f ,不编码蛋白质的r n a 分 子,与细胞的生长和分化、胚胎的发育、肿瘤的形成和抑制密切相关的调节子; ( 3 ) 指导r n a ( g u i d er n a ,g r n a ) ,是指导m r n a 编辑的小r n a 分子,多用来指 导在m r n a 转录产物中加入u 的过程; ( 4 ) t m r n a ,功能上既是t r n a 又是m r n a ,翻译时既可以转运氨基酸,又可当作 模板: ( 5 ) 端粒酶r n a ( t e l o m e r a s e r n a ) ,作为真核染色体端粒复制的模板; ( 6 ) 信号识别颗枝( s i g n a lr e c o g n i t i o np a r t i c l e ,s r p ) r n 是s r p 的组成部分,与细胞 内蛋白质的转运有关; ( 7 ) 细胞核小分子r n a fs n r n a ) ,是m r n a 前体剪接体的必要组分; ( 8 ) 核r 小分子r n a ( s n o r n a ) ,参与r r n a 的加工,并指导r r n a ,t 特井位点的甲 基化或似尿嘧啶化; ( 9 ) m i c r o r n a ,南基因组d n a 非编码区转录,长度约2 2n t ,在基因农达、细胞周 期及个体发育等方而发挥重要作用: ( 1 0 ) s i r n a ,是一。种与m i c r o r n a 大小相似的外源性双链r n a 分了,在r n a 干 扰( r n a i l 途径巾介导靶m r n a 的降解。 最近的研究表明n c r n a 的数量和重要性比人们最初想象的要更多、更重要。事实j :, n c r n a 在许多生命过程中,例如染色体复制、转录调节、r n a 加i :与修饰、m r n a 的稳 定性与翻译以及蛋白质降解与转运发挥着重要作用。 1 3 2s i r n a s 设计存在的问题 在r n a i 实验中,基于长双链r n a 的r n a i 技术在大多哺乳动物系统t p 还是很不成功 3 东南大学博士学位论文 主要是因为长双链r n a 导入抑制基因表达被哺乳动物的抗病毒系统包括p k r 和干挠素所 影响。2 0 0 1 年e l b a s h i r 等人和其它的研究者展示了一种利用2 1 - 2 3 个双链r n a 绕过通常 的阻碍的特殊的基因沉默技术l “j 。这种双链r n a 由于其小于3 0 砷将不会引起p k r 系统 的活化。然而这种基于s i r n a 的沉默基因的方法同样存在问题,并不是所有的2 1 - 2 3 b p 的 s i k n a 片段都能达到高效沉默目标基因的效果。如何设计出生物学家所需要的s i r n a s 片 段,成为了生物信息学家所关注的焦点。近几年来。虽然一些设计s i r n a s 的方法 1 2 - 1 6 陆 续被提出,但其中仍然存在大量的问题: ( 1 ) 在这些方法中,大部分是基于小样本集的统计经验规律,冈此它们的范化能 力较差。即在一组数据集上有较好的效果,但是换一组数据集,效果就会很 差。此外,正是用于它们是基于小样本集的,它们之间往往自相矛盾。 ( 2 ) 由于近代机器学习理论的发展,一些生物信息学家试图把s i r n a 的设计问 题转化为s i r n a 模式分类问题,即把s i r n a s 分为高降解效率的s i r n a s 和 低效率的s i r n a s 。通过建立这种模型来判断未知的s i r n a s 是否为高效率 的片断,从而筛选s i r n a s 。虽然机器学习的两类分类模型为我们设计高效 率的s i r n a s 提供了一条新的思路,然而也存在很多问题。例如模型很难确 定分类的边界问题,即有的算法定义高效率的s i r n a s 为e f f i c a c y 值大于8 0 ,低效率的s i r n a s 为e f f i c a c y 值小于6 0 ;而有的算法则用5 0 来划 分s i r n a s 效率的高低( e f f i c a c y 大于5 0 的为高效率小于5 0 为低效率) 1 1 7 - 1 q 。不同算法对s i r n a s 效率的岛低定义的不同,使得方法之间缺乏可比 性。此外这种方法只能定性的预测s i r n a s 的效率高低而无法精确定量的预 测s i r n a s 的效率值,使得分子生物学家在设计试验时无法得到自己所期望 的试验结粜。 1 3 3 在基因组中搜寻m i r n a s 中存在的问题 m i r n a s 由内源性摹刚编码。可通过诱导m r n a 的切割降解。翻译抑制或者其他形式 的调节机制抑制靶基因的表达。在基因组中搜寻m i r n a s 已成为研究的热点。但是用于受 到客观条件的限制,直接通过实验的方法寻找m i r n a s 就好像足在人海罩捞针,既费时费 力又毫无口标性。日前较常用的研究思路是首先通过计算的方法预测摹w 组中的潜在的 m i r n a s ,然后再通过实验去验证。因此准确的预测m i r n a s 将是颂非常有意义的工作。 据报道,m i r n a s 基因在序列和级结构h 非常的保守1 2 0 2 ”。正是用y - m i r n a s 的这一特 点,使得从比较基i 州组学的角度去寻找m i r n a s 成为,人们广泛火注的热点。虽然这些比 较基因纽学的方法为我们寻找m i r n a s 提供了蓐要的方法,仉足如果在缺乏同源序列可以 比较的情况f ( 物种专一性m i r n a s ( s p e c i e ss p e c i f i cm i r n a s ) ,或没有足够的其它物种的 同源序列) 这类方法将无能为力1 2 z j 。所以不依赖于同源序列的从头( a bi n i t i o ) 预测方法越 来越显得重要。 另一方面,几乎现在所有的预测方法都是基于m i r n a s 的序列和结构特征的,然而一 些研究表明m i r n a s 不仅仅在结构上有着自己独特的特点;茎环发夹结构,而且在热力学 上也有这与众不同的地方 2 3 】。这一发现为我们进一步在全基因纽层面上有效的搜索 m i r n a s 前体提供了重要线索。 4 第一章绪论 1 4 关于本课题 1 4 1 论文的主要创新点 本论文的主要创新点主要是如下四个方面: ( 1 )我们建立了一个随机森林分类模型,来预测酵母基因组中的重组冷热点。为了 把模型应用于全基因组,我们提出了一个独立于开放阅读框的特征:带间隔的 二联碱基丰度。我们用相同的序列特征叉建立了一个支持向量机模型来和随机 森林模型进行比较,发现利用随机森林构造的模型在预测的特异性和敏感性上 均优于利用支持向量机构造的模型。然后我们又开发了重组冷热点在线预测系 统:r f - d y m h c ( h t t p :w w w b i o i n f s e u c d u c n r c c o m b i n a t i o n ) 。用户提交酵母 的d n a 序列和运算参数( 预测可靠性指数阈值和非重叠扫描窗口的大小) , 在线系统将反馈给用户预测到的重组冷热点,并将它们用不同颜色标记出来。 ( 2 ) 我们开发了全基因组d n a 重组率数据库:r e d b ( r e c o m b i n a t i o nr a t ed a t a b a s e ) 。 r e d b 目前存储了六个物种的全基因组重组率数据:人( h u m a n ) ,大鼠( r a t ) ,小 鼠( m o u s e ) ,果蝇( d m e l a n o g a s t e r ) ,线虫( c e l e g s ) 和酵母( y e a s t ) 。r e d b 的网 址是:h t t p :w w w b i o i n f s e u e d u c n r e d a t a b a s e 。用户可以通过不同的方式查询 数据库,例如可以通过染色体坐标,d n a 片断的重组率的相对重组率( t h e r e c o m b i n a t i o nr a t e s ) 或在全基因组上的重组率排名( t h er a n k i n go ft h e r e c o m b i n a t i o nr a t e s ) 等等。数据库存储了每条序列的不同细节信息,例如序列 所在的染色体坐标,与这条序列重组率相应参考文献的超链接,以f a s t a 格 式的这条序列的序列信息等等。用户查询到的序列可以以批量下载的方式进行 下载,这样方便了用户的存储和对序列其它方面的操作。和h u m h o t 【2 ”相比, 我们的r e d b 至少有两方面显著的优势:一,r e d b 存储的是伞基凼组的d n a 重组率数据而不是单单的d n a 重组热点数据;二,r e d b 包含了六个物种的 数据( 人类( h u m a n ) ,大鼠“a t ) ,小鼠( m o u s e ) ,果蝇( d m e l a n o g a s t e 0 ,线虫 ( c e l e g a n s ) 和酵母o e a s t ) ) ,而不是仅仅只有人的数据。 ( 3 ) 我们建垃了一个随机森林回归模型( r a n d o mf o r e s tr e g r e s s i o n ,r f r ) ,来定量的 对s i r n a 的降解效率进行预测,井用相j - j 的特征建立了支持向量回pi 机 ( s u p p o f lv e c t o rr e g r e s s i o n ,s v r ) 与之丰h 比较,发现随机森林川归模删( r f r ) 在定量预测的能力上优于支持向量回归机( s v r ) 。然后我们的方法和现有的打 分矩阵方法进行了比较( r e y n o l d se ta 1 ( 2 0 0 4 ) j ,u i - t e le ta 1 ( 2 0 0 4 ) ”,h s i e ha t a 1 ( 2 0 0 4 ) ”l 。a m a r z g u i o u ie ta 1 ( 2 0 0 4 ) i ”1 ) ,发现我”j 的随机森林刚归模,性在筛 选高效率的s i r n a s 上优于这些打分矩阵算法。我们的方法义和j c 它的机器学 习预测模型1 2 6 , 2 7 1 进行了比较,发现发现我们的方法优于这些办法。为了办便分 子生物学家设计s i r n a s ,我们开发了计算机辅助s i r n a s 在线设计系统: r f r c d b s i r n a ( h t t p :w w w b i o i n f s e u e d u c n s i r n a i n d e x h t m ) 。 r f r c d b s i r n a 与其它在线计算系统最大的差别在于r f r c d b s i r n a 同时结 合了s i r n a s 数据库搜索和s i r n a 降解效率预测这两个步骤。 ( 4 ) 我们结合了局域相邻三联结构组成( 1 0 c a lc o n t i g u o u st r i p l e ts t r u c t u r e 东南大学博士学位论文 c o m p o s i t i o n ) 特征,最小自由能特征和随机化检验特征( r a n d o m i z a t i o nt e s t ) , 建立了随机森林分类模型来对具有茎环发夹结构的序列进行分类,从而区分哪 些是真正的m i r n a 前体( r e a lp r e - m i r n a s ) ,哪些是假的m i r n a 前体( p s e u d o p r e - m i r n a s ) 。结果表明我们的方法在预测性能上显著的超过了 t r i p l e t - s v m - c l a s s i f i e r l 2 s 。为了进一步研究到底是随机森林算法的本身优于支 持向量机还是我们的特征优于t r l p l e t - s v m c l a s s i f i e r 我们用我们建立随机森 林相同的特征又建立了支持向量机模型,结粜表明所建的这个分类器模型在性 能上比我们的随机森林模型性能要差,但分类效果又要比 t r i p l e t - s v m - c l a s s i f i e r 好,这说明我们的随机森林算法和特征均对性能的提高 有着贡献。我们又开发了m i r n a s 前体预测系统:m i p r e d (httd:wwwbioinfseueducnmirna)。用户提交一条rna序列,mipred首 先判断它是不是茎环发夹结构,如果是茎环发夹结构它将继续判断这条序列是 不是m i r n a s 前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 皮料烫印技术考核试卷及答案
- 综采集控工理论知识考核试卷及答案
- 饮料制作工职业考核试卷及答案
- 2025颅内动脉粥样硬化性狭窄诊治指南解读课件
- 信息技术教招试题及答案
- 橡塑制品公司合同付款管理办法
- 银行职业道德试题及答案
- 银行债务员面试题及答案
- 耳鼻喉专业试题及答案
- 护士专业试题及答案
- 新收入准则下游戏公司收入确认问题研究-以完美世界为例
- 临床胸腔闭式引流护理-中华护理学会团体标准
- 电气自动化基础知识课件
- 2025年住建部:房屋租赁合同的新规定
- 铸铁机安装方案
- 甘肃省合理用药管理办法
- 重症科健康宣教专题
- 软件升级与迭代更新协议说明
- 第十三章 三角形 单元测试 2025-2026学年人教版(2024)八年级数学上册
- (2025)学宪法讲宪法知识竞赛试题库及参考答案
- 女生的青春期健康教育
评论
0/150
提交评论