(生物医学工程专业论文)非编码rna的生物信息学研究.pdf_第1页
(生物医学工程专业论文)非编码rna的生物信息学研究.pdf_第2页
(生物医学工程专业论文)非编码rna的生物信息学研究.pdf_第3页
(生物医学工程专业论文)非编码rna的生物信息学研究.pdf_第4页
(生物医学工程专业论文)非编码rna的生物信息学研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(生物医学工程专业论文)非编码rna的生物信息学研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 a b s t r a c t t h e s i st i t l e :s t u d yo nn o n - c o d i n gr n ab yb i o i m f o n n a t i c s g r a d u a r es t u d e n tn a m e :m aw e i s u p e r v i s o rn a m e :l uz h u h o n g ( p r o f e s s o r ) s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y n o n - c o d i n gr n a sp l a yr e g u l a t o r yr o l e sc o m p r e h e n s i v e l yi nl i f ec y c l eo f m a n yo r g a n i s m ss u c ha s b a c t e r i a , f u n g ia n dm a m m a l s s m a l li n t e r f e r i n gr n a ( s i r n a ) ,a st h ei n t e r m e d i a t eo fr n a i n t e r f e r e n c e ,c a rs i l e n c es p e c i f i cg e n eb yt a r g e t i n ga n dd e s t r u c t i n gt h eh o m o l o g o u sm r n a h o w e v e r , t h es i r n at a r g e t i n gd i f f e r e n tp o s i t i o n sw i t h i nt h es a m em r n av a r yw i d e l yi nt h e i r a c t i v i t i e s i nt h i ss t u d yw eh a v ed e v e l o p e das u p p o r tv e c t o rm a c h i n e ( s v m ) - b a s e dm e t h o df o rt h ep r e d i c t i o n o fs i r n ae f f i c a c yc o m b i n i n gf e a t u r e so fc o m p o s i t i o n ,p o s i t i o na n dt h e r m o d y n a m i cs t a b i l i t y p r o f i l e t h i sa l g o r i t h m , w i t ha l la c co f 7 4 a n d a l la u co f 0 7 7 ,a c h i e v e sab e t t e rp e r f o r m a n c e t h a ns e v e r a lp r e v i o u s l yp u b l i s h e dm e t h o d s , b yi m p l e m e n t i n go u rs v m - h a s e da l g o r i t h mw ec o n s t r u c t e da no n l i n ea s s i s t a n ts y s t e m , s i r n a d e s i g n e r , w h i c hm a yg u i d et h er e a c h e r sw o r k i n gi nr n a ia p p l i c a t i o nt od e s i g ns i r n a sw i t hh i i g h e f f i c a c y s c r e e n i n ga n dc a l c u l a t i n gt h et a r g e tm r n as e q u e n c es u b m i t t e db yt h eu s e r s ,t h es y s t e m p r o v i d e st h ea n t i s e n s es e q u e n c eo f a l lp o s s i b l ef u n c t i o n a ls i r n a s 勰w e l l 船t h e i rs c o r e si no t h e r a l g o r i t h ms u c ha sr e y n o l d s , u i - t c i ,h s i e ha n da m a r z g n i n u i m i c r o r n a s ( m i p 2 q a 、p l a yi m p o r t a n tm l e si ng e n er e g u l a t i o nb ut a r g e t i n gm r n a sf o rc l e a v a g e o rt r a n s l a t i o n a lr e p r e s s i o n p r e - m i r n a a st h ep r e c r 一- o ro f m a t u r em i r n a i ss i g n i f i c a n tf o rn e w m i r n ad e t e c t i n g i nt h i ss t u d yw eh a v ed e v e l o p e dar a n d o mf o r e s t ( r f ) - b a s e dm e t h o df o rt h e c l a s s i f i c a t i o no fr e a la n dp s e u d op r e - m i r n a sc o m b i n i n gf e a t u r e so fs t r u c t u r ea n de n e r g e t h i s a l g o r i t h ma c h i e v e sa no u t s t a n d i n gp e r f o r m a n c ew i t h9 1 2 9 a c c ,9 3 2 1 s pa n d8 9 3 5 s e b e s i d e s , w ei n v e s t i g a t e dt h ei m p o r t a n c eo f e a c hf e a t u r et h a tu s e di nt h ea l g o r i t h m , w h i c hi n d i c a t e s pa n dm e ea r et h em o s ti m p o r t a n tf e a t u r e st od i s t i n g u i s h p t e - m i r n aa n do t h e rh a i r - p i n s e q u e n c e s k e y w o r d :b i o i n f o r m a t i c s ,s u p p o r tv e c t o rm a c h i n e ,r a n d o mf o r e s t , n o n - c o d i n gr n a , s i r n a , m i i 丸 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 9 第一章绪论 第一章绪论 人类作为地球上最活跃的生命之一,自文明建立以来从未停止过对生命本原的思考与探 究。早在1 5 0 多年前,孟德尔遗传学说的基本定律就为我们开启了研究生命繁衍规律的第一 扇门。1 9 5 3 年w a t s o n 和c r i c k 提出了脱氧核锗核酸( d n a ) 的双螺旋模型,阐明其为遗传 信息的携带者将人们对生命的探究引入了分子世界,开辟了现代分子生物学的新纪元。随 后的遗传密码的解析、基因工程技术的诞生则大大加速了分子生物学的迅猛发展。2 l 世纪 初,历时l o 载耗资2 0 亿美元的人类基因组计划最终完成,海量的d n a 内在信息呈现于世 人面前,生物学又迎来了一个重大的分隔点:前基因组时代的淡去和后基因组时代的到来。 站在2 l 世纪后基因组时代的我们,面临爆炸式增长的数据,以信息技术为手段探索生命本 原成为必要。在大量数据的基础上运用先进的信息技术探索生命起源、生物进化、个体发育 等生命科学重大问题,不仅会对生命科学的发展产生巨大推动,也必将深入影响人类自身的 生命活动。 1 1 研究背景州 遗传信息的载体是d n a ,亲代d n a 必须以自身分子为模板准确地复制两个拷贝,并 分配到两个子细胞中去。完成其遗传信息载体的使命。d n a ( 脱氧核糖核酸) 分子极为庞 大,一般至少在百万以上,主要组成成分是腺嘌呤脱氧核苷酸( a ) 、鸟嘌呤脱氧核苷酸( g ) 、 胞嘧啶脱氧核苷酸( c ) 和胸腺嘧啶脱氧核苷酸( t ) 。四种脱氧核糖核苷酸的区别仅在于碱 基的不同,四种碱基按照不同顺序捧列形成不同的d n a 片段,构成一个完整的基因组。基 因是具有遗传效应的d n a 片段,每个基因都是碱基按照不同顺序排列的结果。生命形状就 是通过染色体上的基因由亲代传递给子代,实际上就是通过碱基的捧列顺序来传递遗传信息 的。人体大约有3 0 至4 0 的基因与人类疾患有关,其中有上千基因与肿瘤有关。长久以 来,对于这些基因d n a 序列的研究一直是现代生命科学的重点。 2 0 0 1 年2 月,美、英、中等七国已于宣布完成人类基因组测序及分析初稿。2 0 0 2 年2 月1 2 日,历时l o 载耗资2 0 亿美元的人类基因组计划最终完成,并报道了9 9 的人类基因 组序列。在测定的2 4 条染色体的3 1 0 9 脱氧核苷酸对( b a p a i r , b p ) 的序列中。人们发现只有 不到1 0 的d n a 序列参与了编码蛋白质或酶,其余9 0 * 的序列都属于非编码区。在非编码 区中通常包括基因的启动子以及转录因子结合位点等调控元件,这些元件有控制基因的表达 或其它功能。但是,目前已知功能的非编码区的序列仍然很少,面对大量的非编码区序列, 人们依然无法解读,到底它们有什么功能,或者是没有任何功能的“垃圾”? 随着研究的 深入,人们逐渐意识到非编码区序列并非“垃圾”,这部分基因中包含非常重要的调控元件, 掌握他们之间的关系,可以从根本上提高对生命规律的基本认识。因为d n a 序列本身处在 不断的演化过程中;本身的自我复制,插入生成新的基因还有受环境的影响发生基因突变。 所以这是一个复杂系统的演化过程。需要用系统的角度,把单个基因还原到基础,再综合 起来。 r n a 曾被认为仅是d n a 和蛋白质之闻的“过渡”,从d n a 获得遗传信息再转化为蛋 白质,起到遗传信息的“桥梁”作用。然而越来越多的研究清楚地表明,r n a 尤其是非编 码r n a 在生命进程中扮演的角色远比人们设想的更为重要。r n a 干涉的发现是的人们对非 编码r n a 调控基因表达的功能有了全新的认识。2 0 0 2 年,小r n a ( m i c r o r n a ,一种非编码 r n a ) 被评为国际十大科技新闻之首,并被 s c i e n c e 杂志评为年度分子。随着对非编码 东南大学硕士学位论文 r n a 研究的深入,人们开始意识到这一看似不重要的非编码世界其实非常丰富。 1 2 非编码r n a 研究现状 长期以来,由于受中心法则的影响,对于r n a 的关注往往局限于m r n a 、t r n a 和r r n a 而其功能则定位于蛋白质的翻译。随着对r n a 研究的深入,一类重要的r n a 非编码 r n a 越来越受到人们的重视。当前,非编码r n a 的研究已经成为生命科学领域中一个十分 活跃的国际前沿课题。非编码r n a ( n o n - c o d i n gr n a ,n c r n a ) 指不编码蛋白质或酶,以 r n a 形式发挥作用的一类分子。研究表明,n c r n a 在细菌、真菌、哺乳动物等许多生物体 的生命活动中发挥着极其广泛的调控作用,对其深入研究可能揭示基因转录后调控、基因沉 默人类疾病防治及生物进化探索有重要意义。 1 2 1 非编码r n a 的种类 n c r n a 的种类繁多,但目前还没有一个规范的命名方法。只能根据其大小,位置及功 能等进行描述,据材料报道的n c r n a 大致有十种:( 1 ) 催化r n a ( c r n a ) ,亦称核酶,是 r n a 拟酶和其它r n a 自我催化分子;( 2 ) 类m r n a r n a ,是一类37 端有p o l y a ,无典型 o r f ,不编码蛋白质的r n a 分子,与细胞的生长和分化、胚胎的发育、肿瘤的形成和抑制 密切相关的调节子:( 3 ) 指导r n a ( g u i d er n a ,g e , n a ) ,是指导m r n a 编辑的小r n a 分 子,多用来指导在m r n a 转录产物中加入u 的过程:( 4 ) t m r n a ,功能上既是t r n a 又是 m r n a ,翻译时既可以转运氨基酸,又可当作模板;( 5 ) 端粒酶r n a ( t e l o m e r a s e r n a ) ,作 为真核染色体端粒复制的模板;( 6 ) 信号识别颗粒( s i g n a lr e c o g n i t i o np a r t i c l e ,s r p ) r n a 。是 s r p 的组成部分,与细胞内蛋白质的转运有关;( 7 ) 细胞核小分子r n a ( s n r n a ) ,是m r n a 前体剪接体的必要组分:( 8 ) 核仁小分子r n a ( s n o r n a ) ,参与r r n a 的加工,并指导r r n a 上特异位点的甲基化或假尿嘧啶化;( 9 ) m i c r o r n a ,由基因组d n a 非编码区转录,长度 约2 2m ,在基因表达,细胞周期及个体发育等方面发挥重要作用:( 1 0 ) s i r n a ,是一种与 m i c r o r n a 大小相似的外源性双链r n a 分子,在r n a 干扰( r n a i ) 途径中介导靶m r n a 的 降解。 1 2 2 非编码r n a 在生命过程中的作用 最近的研究表明n c r n a 的数量和重要性比人们最初想象的要更多、更重要。事实上, n c r n a 在许多生命过程中。例如染色体复制、转录调节、r n a 加工与修饰、m r n a 的稳定 性与翻译以及蛋白质降解与转运发挥着重要作用i i “。 在昆虫和灵长类动物细胞中检测到多种极长的n c r n a ,它们通过与染色体上较大范围 的区域结合,来改变染色体结构,影响基因表达,导致基因沉默。如人类的x i tr n a ,长约 1 65 0 0 n t ,能使x 染色体失活,它本身来源于失活的x 染色体,并能沿着x 染色体顺式扩散 1 2 , t 3 。 有些 n c r n a 参与转录的调节,在e c o i l 中,6 sr n a 可通过与6 ”结合来对启动子进行调节【1 4 l ,从而影响转录。还有一种n c r n a s l 认r n a ,能与孕酮类固醇激素受体结合,通过和其 它一些蛋白因子起激活转录i l ”。参与r n a 的加工和修饰的n c r n a 中最典型的代表是广泛 存在于整个生物界的核糖核酸酶,它负责对一些r i a ,t r n a 的5 端进行加工修饰。s n o r n a 还参与指导r r n a ,t r n a c d 盒中核糖亚基2 d 的甲基化及h a c a 盒中有关碱基的假尿嘧啶 化。n c r n a 还可以通过与某些位点附近的序列特异结合,而完成对这些位点的识别和修饰 2 第一章绪论 1 1 6 o 在负责蛋白质跨膜运输的信号识别颗粒( s r p ) 中,也发现了n c r n a 。s r p 中的n c r n a 与组成s r p 的有关蛋白因子一起负责蛋白质的运输。 n c r n a 在生命过程中的另一重要作用是参与m r n a 稳定性的调节。小r n a ( m i c r o r n a , m i r n a ) 通过调控m r n a 水平调节动植物的生长发育,至今研究最清楚的是t i n 2 4 和l e t 2 7 在线虫发育过程中的作用。l i n 2 4 与1 i n 2 1 4 、l i n 2 2 8 m r n a 的3 端非翻译区( u t r ) 互补,从 而短暂下调l i n2 1 4 蛋白的表达水平,使线虫由l 1 期向l 2 期转化。l e t 2 7 r n a 为2 1 个核 苷酸长度,在l l 、l 2 期都不存在,在l 3 早期出现,在l 4 和成虫期到达表达高峰。与1 i n 2 1 4 , l i n 2 4 1 、l i n 2 4 2 和d a f 2 2 的3 端非翻译区( u t r ) 互补,下调l i n 2 4 1 蛋白水平而解除对1 i n 2 2 9 的抑制,促进线虫由l 4 向成虫转化。另外,m i r n a 还可以通过与目标m r n a 特异配对, 而是后者降解。在生物体内还存在一种非常重要的n c r n a 小于扰r n a fs m a l li n t e r e r i n g r n a s i r n a ) ,它参与生物体生长发育过程中的多种调控途径,是生物体内诱导基因沉默的 必要条件。有关s i r n a 的功能和作用机制将在第三章详细论述。 1 2 3 非编码r n a 研究的网络资源 在生物信息学和分子生物学研究的有力支持下,非编码r n a 序列及其相关数据近年来 增长很快,出现了许多n c r n a 相关数据库与网络站点( 表1 1 ) 。 数据库名称网址 r f a m n o n c o d e r n a d b n c r n a d b n c r n ai np l a n t s s m a l lr n ad a t a b a s e m i r b a s e 蚰o r n ad a t a b a s e h t t p :w w w s a n g e r a e u k s o f l w a r e r f a m h t t p :n o n e o d a b i o i n f o o r g c n h t t p :r c s c a r c h i m b e d u a u m a d b h t t p :b i o b a s e s i b c h p o z i l a l l p l n e r n m h t t p :w w w p r l ,m s t l e d u p l a n t n c r n a s h t t p :e o n d o r b c m t m e e d u s m a l i r n a s m a l l r n a h t m l h t t p :m i c r o m a s a n g c r a c u k s e q u c n c e s i n d e x s h u n l h t t p :i o w e l a b u e s c e d a s n o r n a d b 其中,r f a m 是由t r u s ts a n g e r 研究所和华盛顿大学联合开发的数据库软件系统,包含 5 0 3 个n c r n a 家族的序列信息,可以对给定的序列( 包括完整的基因组) 通过与己知n c r n a 的同源性比对给出注释和家族定位。n o n c o d e 是中国科学院生物物理研究所设计的n c r n a 数据库,涵盖了8 6 1 种有机体的5 3 3 9 个n e r n a 序列,包括真核生物、真菌、古细菌、病毒 和类病毒等。根据n e r n a 在细胞中的具体功能将其分为2 6 类,每一类给予一个p f c l a s s 号, 同时列出了相应的n c b l 分类号;并对n c r n a 的“传统”类别,p l c l a s s 分类、n c r n a 的大小、 位置、功能和作用机制等进行统计分类。r n a d b 是i 刍i m b 研究所开发的r n a 数据库,包括 2 1 2 0 0 多条哺乳动物非编码r n a 的信息,这些信息是从8 0 0 多个针对n c r n a 研究的独立实验 中获得,很多研究与疾病或生长发育过程有关。n c r n a d b 是一个提供n c r n a 的细胞调控信 息的数据库,包括脊椎动物、植物、细菌、昆虫四类n c r n a 序列,提供它们与功能和表达 相关的信息。但不包括m i r n a 和s n o r n a 序列。n c r n ai np l a n t s i 扫密歇根州立大学植物学研 究所建立,专门收集植物中的n c r n a ,目前有c r 2 0 g u t l 5 家族、m t 4 t p s i 基因家族,j a w , 类n c r n a 的e s t 和e d n a 、反义转录物等几大类别。 此为,还有一些不同类别n c r n a 专门的数据库,如s m a l lr n ad a t a b a s e 、m i r b a s e 、 s n o r n ad a t a b a s e 等。总之。对n c r n a 的研究,尤其是对与m r n a 稳定性相关的m i r n a 3 东南大学硕上学位论史 和s i r n a 的研究已成为r n a 研究中的重点,新的数据和结果不断涌现。 1 3 关于本课题 本论文主要利用机器学习的方法,包括支持向量机( s u p p o r tv e c t o rm a c h i n e s v m ) 和 随机森林( r a n d o mf o r r e s t , r f ) 理论,对非编码r n a 主要是与r n a 干涉相关的s i r n a 及 m i r n a 进行了生物信息学的研究。 随着人类基因组计划的顺利实施和各种后基因组计划的开始。生物学数据的积累出现了 前所未有的飞跃,涌现出许多开放型的大型生物分子数据库。这些生物分子数据具有丰富的 内涵,其背后隐藏着人类目前尚不知道的生物学知识。为了分析,理解,提取这些海量的与 复杂的生物学数据中所隐含的有生物学意义的目标,需要综合运用分子生物学,数学,物理 学,计算机科学,电子学,自动化等领域的知识理论和方法技术。这也是生物信息学的主要 任务。生物信息的大规模对数据挖掘提出了新课题和挑战,需要新的思想加入。常规的计算 机算法越来越不适用于序列分析问题,究其原因,是由于生物系统本质上的模型复杂性及缺 乏在分子层上建立的完备的生命组织理论,常规的方法已经无法满足这样的需要。因此,需 要发展相应的计算方法和数学模型来应用于生物信息学。 本课题的工作重点是利用机器学习的方法,主要是包括支持向量机( s u p p o r tv e c t o r m a c h i n e ,s v m ) 和随机森林( r a n d o mf o r r e s t 。r f ) 理论进行s i r n a 效率预测和m i r n a 的 前体预测,提取有效的特征信息得到较好的预测算法,并将算法应用实现。 除绪论外,本论文的结构主要分为以下几部分: 1 对支持向量机和随机森林理论方法的介绍,作为本论文研究方法的基础。 2 基于支持向量机技术,使用碱基频率、碱基位置和热力学参数的联合特征,对s i r n a 的抑制效率进行预测,得到优化算法。 3 建立s i r n a 辅助设计系统。将s i r n a 效率预测优化算法应用实现,搭建在线平台。 4 基于随机森林技术,结合结构和能量特征,对m i r n a 前体进行预测,得到优化算 法。 4 第二章生物信息学基础 第二章生物信息学基础 后基因组时代,探索和解释隐藏在分子生物学数据库中的有用信息是对生物信息学的巨 大挑战。为了解决分子生物学遇到的这些难题,有效及便利的方法是非常必要的。机器学习 是一种自动的、具有智能学习技术的方法,有助于我们利用已有的先验知识来挖掘新的信息, 而支持向量机和随机森林算法正是近年来发展迅速的机器学习的新方法。 2 1 生物信息学研究内容及意义n 删 生物信息学是2 0 世纪8 0 年代末随着基因组测序数据迅猛增长而逐渐兴起的一门新兴交 叉学科,它包括生物信息的获取,处理、存储、分发、分析和解释等内在的所有方面,综合 运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 2 1 1 生物信息学的研究内容 生物信息学以核酸,蛋白质等生物大分子为主要研究对象,以数学、物理、计算机、信 息科学为主要研究手段。以计算机网络为主要研究环境,以计算机软件为主要研究工具,它 的研究范畴包括: 对序列数据进行存储,管理、注释、加工: 对各种数据库进行查询、搜索、比较、分析; 构建各种类型的专用数据库信息系统; 研究开发面向生物学家的新一代计算机软件; 利用数理统计、模式识别、动态规划、密码鳃读、词法分析、神经网络、遗传算法以及 隐马氏模型等各种方法来研究生物遗传上的问题,并且不断发现新的、更有效的算法; 对序列、结构数据进行定性和定量分析,从中获取基因编码、基因调控、序列结构功 能关系等信息: 阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时空关系: 探索生命起源、生物进化、生命本质等重大理论问题,最终建立。生物学周期表”。 生物信息学是8 0 年代末伴随着基因组研究而产生的,它的研究内容紧随基因组的研究 进展而发展。9 0 年代初期存在大量新测定的d n a 序列,而关于基因的信息很少,因此生物 信息学的研究重点在于分析序列以寻找新基因以及数据库搜索:而随着多种生物物种全基因 组完整序列的测定,序列分析的重点从基因预测转为生物体间的序列比较和全基因组比较; 近年来,随着微阵列技术的出现和快速发展,使得大规模检测基因表达成为一种方便快捷并 易行的常规实验技术,这就产生了大量的基因表达数据,相应的,与微阵列相关的分析也成 为生物信息学的研究重点之一。生物信息学的主要研究内容还包括:核算序列的装配,非编 码区域的结构和功能研究,单核苷酸多态性的研究,分子进化研究,蛋白质结构预测,药物 分子设计和系统生物学等领域。 5 东南大学硕士学位论文 99 图2 - 1 生物信息学组成 生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、 处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因 在染色体上的确切位置以及各d n a 片段的功能:同时在发现了新基因信息之后进行蛋白质 空间结构模拟和预测。然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理 也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治 疗内在规律。它的研究目标是揭示”基因组信息结构的复杂性及遗传语言的根本规律”,解释 生命的遗传语言。生物信息学已经成为整个生命科学发展的重要组成部分,成为了生命科学 研究的前沿。 2 1 2 生物信息学的研究意义 生物信息学研究是从理论上认识生物本质的必要途径。通过生物信息学研究和探索。可 以更为全面和深刻地认识生物科学中的本质问题,了解生物分子信息的组织和结构,破译基 因组信息,阐明生物信息之间的关系,使得人类对生物界的认识跨上一个新台阶。生物信息 学的出现将改变生物学的研究方式。随着分子生物学技术的发展,出现了一些高通量的实验 方法,如基因芯片。对于高通量的实验结果必须利用计算机进行自动分析,生物信息学必 然要介入生物学研究和实验。再一方面,从生物分子数据本身来看,各种数据之间存在着密 切的关系。对于这些复杂的关系,必须运用现代信息学的方法去分析研究。另外,生物信息 学在指导实验、精心设计实验方面将会发挥重要的作用。在进行生物实验前首先要通过生物 信息学的方法对实验材料进行预处理,然后再进行有针对性的分子生物学实验。生物信息学 研究在医学上也有重要的意义。通过生物信息学分析,可以了解基因与疾病的关系,了解疾 病产生的机理,为疾病的诊断和治疗提供依据。研究生物分子结构与功能的关系将是研制新 药的基础,可以帮助确定新药作用的目标和作用的方式,从而为设计新药提供依据。 2 2 机器学习 机器学习是人工智能的中心问题。它是人工智能领域的重要分支。机器学习的基本目标 6 第一二章生物信息学基础 是使计算机具有学习能力,模拟或实现人类的学习活动。其主要工作是发展学习的计算理论, 建造学习系统。计算机系统改善自身性能的任何过程都成为学习。如获取知识、积累经验、 发现规律,适应环境等。 2 2 1 机器学习系统 机器学习的核心是学习。美国心理学家 l a ,s i m o n 曾指出学习是系统中的任何改进, 这种改进使得系统在重复同样的工作或进行类似的工作时能完成的更好。事实上,学习是 系统适应环境的动态过程。根据s i m o n 对学习的阐述,我们可以得出,一个学习系统应该 满足的一些基本要求。 1 具有合适的学习环境。所谓学习环境就是指学习系统进行学习时的信息来源。 2 具有一定的学习能力。学习环境为学习系统提供了相应的信息和基础。学习系统还 必须具备一定的学习能力和适当的学习方法否则也学不到知识或不会有好的学习 效果。 3 能够运用所学到的知识来求解问题。学习系统的意义就在于可以学以致用。学习系 统应该能够将所学到的信息用于未来的孤寂分类、决策和控制,以便改进系统的 性能。 4 通过学习提高自身的性能。改进系统性能是学习的三个要点之一,一个学习系统应 该能够通过学习增长知识,提高技能,改进性能,使自己能够做一些原来无法作到 的事,或者可以将原先能做到的事做得更好。 通过以上分析,可以得出一个学习系统至少应该包括四个重要环节:环境、学习单元、 知识库和执行单元,他们之间的关系如图2 2 所示。 图2 - 2 机器学习的基本模型嘲 图2 - 2 中给出学习系统的基本模型,它由四个部分组成,其中环境是向系统提供信息, 它可以是系统的工作对象,也可以是工作对象或客体所处的外界条件。环境所提供信息的水 平和质量适应新学习系统设计的一个非常重要的因素。所谓信息水平是指学习的普遍化程 度,环境所提供的信息无论水平高低,它们与执行单元所需要的信息往往都是有差距的,学 习单元就是要缩小这种差距。信息的质量是指信息的正确性以及组织上的合理性。知识库里 存放的是指导执行单元动作的一般规则,但环境向学习系统提供的信息是多样的。信息质量 高,与一般规则的差别小,则学习单元比较容易处理,如果信息质量低,例如向学习系统提 供的示例有干扰,或示例的次序不合理,则学习单元则很难进行归纳。 知识库是影响学习系统设计的第二个重要的因素。知识库的形式与知识的表示直接相 关,常用的表示方法有特征向量、谓词逻辑、产生式规则、语义网络和框架等。在选择表示 方式时要兼顾四个方面:表达能力要强,易于推理,知识库要易于修改,知识的表示方法易 于扩展。一个学习系统不能在全然没有任何知识的情况下凭空获取知识,它总是在具有一定 知识的基础上,根据环境所提供的信息,理解、分析和比较,做出假设,检验并修改这些假 设。因此,学习系统实质是对现有知识的扩展和改进。 执行单元时整个学习系统的核心。学习单元的目的是改善执行单元的动作,执行单元的 7 东南大学硕士学位论文 反馈作用又反过来影响学习单元。与执行单元相关的问题有任务的复杂性,反馈和透明性。 复杂的任务需要更多的知识。所有学习系统都必须要有从执行单,到学习单元的反馈信息, 即以某种方式评价学习单元提出的假设。这种反馈信息是根据执行单元的执行情况对学习单 元所提出的假设进行评价。学习单元根据这些反馈信息决定是否还需要从环境中进一步获取 信息,以修改、完善知识库中的知识。透明性是指系统执行单元的动作效果是否可以很容易 地对知识厍幻规则进行评价。显然,执行单元的透明性越高越好。 2 2 2 机器学习的主要策略 正如人类有各种各样的学习策略,机器学习也有很多策略。学习是一项复杂的智能活动, 学习过程和推理过程是紧密相连的,按照学习中使用推理的多少,机器学习策略大体可分为 五类:机械学习、传授学习、演绎学习、归纳学习、类比学习。机器学习中所使用的推理越 多,系统的学习能力越强。 2 2 2 1 机械学习 机械学习( r o t el e a r n i n g ) 是一种最基本的学习策略。这种学习策略就是记忆,不需 要任何推理过程,也就是死记硬背式的学习。它把环境提供的知识存储起来,外界输入知识 的表示方式与系统内部表示方式完全一致,不需做任何处理扣转换,以后所做的工作只是检 索,不需要任何计算和推理。 机械学习的过程是这样的:当机械学习系统的执行单元解决好一个问题后,系统就会记 住这个问题和它的解。当以后再遇到这类问题时,系统就不必重新进行计算,只要直接找出 原来的解去使用。如果我们将学习系统的执行单元抽象成一个函数f ,将由环境得到的输入 模式记为( x l ,x 2 ,。x ) ,由该输入模式经f 计算后得到输出模式记为( y l ,y 2 ,y n ) 。 机械学习就是要将这一输入输出模式对f ( x i ,x 2 ,x j ,( y l ,y 2 ,y n ) 】存储到 知识库中。机械学习简单的工作模型如图2 3 所示。 图2 - 3 简单的机械学习模型阎 机械式学习是基于记忆和检索的方法,学习方法很简单,但学习系统需要几种能力: 能实现有组织的存储信息;能进行信息结合;能控制检索方向。对于机械式学习,需要 注意三个重要的问题:存储组织信息、环境的稳定性与存储信息的适用性以及存储与计算之 间的权衡。机械式学习的学习程序不具有推理能力,只是将所有的信息存入计算机来增加新 知识,其实质上是用存储空间换取处理时间,虽然节省了计算时间,却过多占用了存储空间。 当因学习而积累的知识逐渐增多时,占用的空间就会越来越大,检索的效率也将随之下降。 所以,在机械式学习中要全面权衡时间与空间的关系。 2 2 2 2 传授学习 教授学 - ( l e a r n i n gb yb e i n gt o l d ) 方式下,由外部环境向系统提供一般性的指示或建议, 系统把它们具体地转换为细节知识并送入知识库。在学习过程中要反复对形成的知识进行评 8 第二章生物信息学基础 价,使其不断完善。 对于使用教授学习策略的系统而言,外界输入知识的表达方式与内部表达方式并不完全 一致,系统在接收外部知识时需要一点推理、翻译和转换工作。m y c i n ,d e n d r a l 等专 家系统在获取知识上都采用这种学习策略。一般地说,教授学习系统需要通过如下步骤实现 其功能:请求征询指导者的指示或建议:解释消化吸收指导者的建议并把它转换成 内部表示:实用化把指导者的指示或建议转换成能够使用的形式;并八并入到知识 库中;评价评价执行部分动作的结果,并将结果反馈到第一步。 教授学习是一种比较实用的学习方法,可用于专家知识获取。它既可避免由系统自己进 行分析、归纳从而产生新知识所带来的困难,又无需领域专家了解系统内部知识表示和组织 的细节,因此目前应用得较多。 2 2 2 3 演绎学习 演绎学习( d e d u c t i v el e a r n i n g ) 是指以演绎推理为基础的学习。演绎推理是从已知的一 般性知识出发,推出蕴含在这些已知知识中的适合于某些个别情况的结论。它是一种由一般 到个别的推理方法,其核心是三段论,常用的三段论是由一个大前提、一个小前提和一个结 论三部分组成的。其中,大前提是已知的一般性知识或推理过程得到的判断;小前提是关于 某种具体情况或具体实例的判断:结论是由大前提推出的,并且适合于小前提的判断。在演 绎学习中,学习系统由给定的知识进行演绎的保真推理,并存储有用的结论。 2 2 2 4 归纳学习 归纳学习( i n d u c t i v e l e a r n i n g ) 是指以归纳推理为基础的学习,它是从某个概念的一系列正 例和反例中归纳出一个一般的概念描述。根据学习过程有无导师。归纳学习可分为有导师学 习和无导师学习。 有导师学习又称为示例学习( l e a r n i n g f i o me x a m p l e ) 。它给学习者提供一组正例和反例, 学习者归纳出一个总的概念描述,使其覆盖所有正例,捧除所有反例。由于导师没有提供总 的概念,也没有与新概念类似的旧概念。因此推理旦较多。根据学习中可用例子的类型,示 例学习可以分为:仅用正例的示例学习和利用正例和反例的示例学习,后者是示例学习的典 型方式。它用正例来产生概念,用反例来防止概念外延的扩大化。 无导师学习又称为观察与发现学习( 1 e a m i n gf r o mo b s e r v a t i o na n dd i s c o v e r y ) 。它通过由 环境提供的观察来进行学习,并且这些观察是未经指导者分类的例子。观察与发现学习不需 要为学习者提供特定概念的示例、也不需要提供如何将内部产生的例子归类到某一概念的正 例或反例的途径。因此,同其他学习方法相比,它需要学习者进行更多的推理。 2 2 2 5 类比学习 类比学习( 1 e a m i n gb ya n a l o g y ) 是一种利用相似性来认识新事物的学习方式,其基础是类 比推理。类比推理是人们常用的一种推理方式。它是指根据一个已知事物,通过类比去解决 另一个未知事物的推理过程,即当一个新的事物和另一个已知事物在某些方面相似时,可以 推出这个新的事物和已知事物在其他方面也相似。类比推理的基础是相似性。 类比学习也可以看成是演绎学习与归纳学习的组合。类比学习系统只能得到完成类似任 务的有关知识。因此,类比学习系统必须能够发现当前任务与已知任务的相似之处,由此制 9 东南大学硕士学位论文 定出完成当前任务的方案,显然这种学习策略需要更多的推理。类比学习的学习过程如图 2 _ 4 所示。 无 用其他方 法求解并 把解法归 入知识库 1 对已知问题及算法进行搜索 2 从数据库中搜索与新问题相似的问题 3 针对新问题改造类似问题解法 4 用新解法解新问题 失败 把新解法及问题规范化并入知识库 图2 4 类比学习的模型【2 回 2 2 2 6 解释学习( e x p l a n a t i o n b a s e dl e a r n i n g ,e b l ) 知 识 库 学生根据教师提供的目标概念以及此概念的一个例子、领域理论和操作准则,首先构造 一个解释来说明该例子满足目标概念,然后将解释推广为目标概念的一个满足可操作准则的 充分条件。和类比学习相反,解释学习第一步是演绎,第二步是概括,并用领域知识指导概 括,增强结果的可信度。k b l 己被广泛应用于知识库求精和改善系统的性能。著名的e b l 系 统有t m i t c h e l l 的l e x i i 和l e a p ,g d e j o n g 的g e n e s i s ,以及s m i n t o n 等的p r o d i g y 。 在机器学习中通常会根据具体问题设计一个函数,并以这个函数的最大值( 或最小值) 作 为学习的目标。最经常而且最容易也理论上分析与处理约是均方差函数。理论上,机器学习 中的搜索策略与优化理论中的搜索策略并没有本质的区别,梯度法是最简单也是最经常使用 的方法。由于受到计算复杂度的限制,这种方法对海量数据的学习往往是不现实的,因此, 在考虑解空间中个可接受解的时候,搜索策略是十分必要的。搜索理论是计算机科学的一 个重要的研究分支,虽然存在着大量有效的搜索算法,但机器学习中所使用的搜索策略与搜 索理论研究还有相当的距离,如何借鉴搜索理论,更多地借用搜索算法以改善机器学习算法 的性能,是机器学习研究的一个重要课题。 2 3 支持向量机2 7 - 柚1 支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 是2 0 世纪9 0 年代中期发展起来的,以统 计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y ,s l t ) 为基础的新的通用机器学习技术。它与传统 的统计学习理论不同,是由于它基于结构风险最小化( s r m ) ,而不是传统统计学的经验风 险最小化( e r m ) 。与传统的统计学习理论相比。其性能的优越性在于结构简单,技术性能 尤其是推广能力明显提高,能够解决好大量现实中的小样本学习问题。目前s v m 已经成为 1 0 第二章生物信息学基础 国际上机器学习领域新的研究热点。 2 3 1 支持向量机原理 支持向量机是从数据分类问题的研究中发展起来的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论