(计算机应用技术专业论文)仿生计算在生物信息学中的应用.pdf_第1页
(计算机应用技术专业论文)仿生计算在生物信息学中的应用.pdf_第2页
(计算机应用技术专业论文)仿生计算在生物信息学中的应用.pdf_第3页
(计算机应用技术专业论文)仿生计算在生物信息学中的应用.pdf_第4页
(计算机应用技术专业论文)仿生计算在生物信息学中的应用.pdf_第5页
已阅读5页,还剩121页未读 继续免费阅读

(计算机应用技术专业论文)仿生计算在生物信息学中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要: 在过去的几年间,计算机仿生计算在生命科学和医学的各个领域愈来愈起着 前所未有的重要作用。计算机在序列分析中的应用,掀起了生物信息学的第一个高 潮,但这个方面至今还有许多重要的问题尚未解决,其中的一个重要原因是计算的 速度和效率还不能满足数据处理的需要。 随着基因组和其它测序项目的不断进展,研究的重点正逐步从积累数据转移 到如何来解释这些数据。生物学的新发现将极大地依赖我们在多个维度和不同尺度 下对多样化数据进行组合和关联的分析能力。 在数据量呈几何级数增长的情况下,生物信息的存储、获取、联网、处理和 浏览以及可视化等方面,都对理论、算法和软件的发展提出了迫切的需求。 计算机科学也从生命系统中获得启示,通过对生命活动的分析和模仿,产生 了许多新的概念,包括:遗传算法、人工神经网络、计算机病毒和人造免疫系统、 d n a 计算、人工生命。这样的学科交叉丰富了各个相关领域,将在未来的岁月中得 到进一步的发展。 在本文中,结合生物信息学中的应用,我们使用了基于生物启发的仿生计算 方法,如遗传算法,覆盖算法,蚁群算法等。这些构成了一个有趣的循环,从生命中 来,到生命中去,这是本论文的研究特色和中心任务。 在本文中,我们以分子生物学的核心定律中心法则为框架,简要介绍了 生物信息学研究所牵涉到的生物学概念,对生物信息学的研究内容、研究方法作了 概要的介绍。着重研究了生物信息学的一个重要研究对象蛋白质的性质和特点,以 及蛋白质研究的结构分类方法;介绍了蛋白质结构研究的现状,综合研究和分析了 蛋白质研究中所采用的各种方法的技术特点。同时对微阵列基因芯片的原理和作用 给予扼要的介绍。 本文具体分析了人工神经网络中的一种f p 神经网络的覆盖算法,讨论了 它的原理、特性,并提出了一种贪婪覆盖算法,通过加州大学尔湾分校( u c i ) 所提供 的机器学习数据集进行测试,验证了其有效性,并把它具体应用于蛋白质二级结构 的划分和基于基因芯片的疾病分类。 蛋白质二级结构是蛋白质分析的重要一环,是对更高级蛋白质结构进行分析 的基础研究。对蛋白质二级结构,我们对它的序列编码作了仔细的研究,比较了各 种编码方法的特点,采用了一种包含遗传信息特点的p r o f i l e 编码方法。在此基础上, 针对该问题的特点,用覆盖算法进行了分类的研究。 微阵列是基因分析和疾病诊断的一个重要分析工具,它具有数据量大而复杂 的特点。我们对数据的特征进行了研究,先采用t 统计法,剔除其中无用的数据, 然后用覆盖算法进行分类,并与采用其它技术的分类方法对结果作了比较分析。 遗传算法是一种使用广泛,具有很强适应性的算法,尤其适应于可用序列表 示的问题的优化。而我们的研究对象蛋白质正好是由氨基酸组成的序列,我们提出 了一种具有二维变异算子和附加操作的遗传算法应用于蛋白质结构的二维h p 模型 分析,根据二维h p 折叠模型的特点,采用了便于保持蛋白质优良折叠结构的局部 ( 相对) 坐标表示方法,设计了适合于此模型的变异算子,给出了求解优化结构的 方法和步骤,分析了所得结果的特点。 另一种生物启发的算法蚁群算法,是近年来一个热门的研究领域,它在 诸如t s p ( 旅行商) 问题、网络路由等领域已经获得了满意的结果。我们给出了使 用它来获取三维蛋白质简化模型优化结构的思路和构建方法,提出了基于矩阵的快 速坐标系统的“右手法则”转换方法,减少了计算的时间,为提高优化速度,防止 过早收敛,给出了三种局部搜索的办法;针对蛋白质折叠过程中容易出现死锁的问 题,提出了一种解决自回避无效构像的方法,并对三维折叠时的一些特有情况进行 了细致的分析,设计了能减少计算规模的一些措施。综合这些步骤,对三维h p 折 叠进行了优化,取得了较好的结果,发现了能量极低的三维构像。 关键词:神经网络,覆盖算法,蚁群算法,遗传算法,蛋白质 a b s t r a c t : i nr e c e n ty e a r s ,s i m u l a t i o nc o m p u t a t i o np l a y sm o r ea n dm o r ei m p o r t a n tr o l ei nt h e d o m a i no fb i o l o g ya n dm e d i c i n er e s e a r c ht h ea p p l i c a t i o no fc o m p u t e ri n s e q u e n c e a n a l y s i si st h ef i r s tg r e a ts u c c e s si nb i o i n f o r m a t i c sb u ti nt h i sd o m a i n , t h e r ea g es t i l l m a n yu n s o l v e dp r o b l e m so n eo ft h er e a s o n si st h a tt h es p e e da n dt h ee f f i c i e n c yo f c o m p u t i n gi sn o te n o u g ht of e e du pw i t ht h en e e d so f d a t ap r o c e s s i n g w i t ht h ec o n t i n u o u sp r o g r e s so ng e n o m ea n do t h e rs e q u e n c ep r o j e c t ,t h ee m p h a s i si s g r a d u a l l ys h i f t i n gf r o mt h ea c c u m u l a t i o no fd a t at oe x p l a i n a t i o nt ot h e s ed a t at h en e w d i s c o v e r i e so fb i o l o g yw i l lg r e a t l yd e p a n do nt h ea n a l y s i sa b i l i t yo fc o m b i n i n ga n d c o n j u n c t i n gt h e s ed i f f e r e n tm u l t i d i m e n t i o na n dm u k i - m e a s u r ed a t a s i n c et h ea m o u n to f b i o l o g yd a t ai n c r e a s e si nag e o m e t r i cs e r i e sm a n n e r , f o rt h es t o r e , t h ea c q u i s i t i o n ,t h en e t w o r kc o m m u n i c a t i o n ,t h ep r o c e s s i n g ,t h ed a t ae x p l o r i n ga n d v i s u i a l i s a t i o no fb i o l o g yi n f o r m a t i o n , t h e s ew i l lb r i n gf o r w a r dt h ee x i g e n tr e q u e s t si n t h e o r y , a l g o r i t h ma n ds o f t w a r e c o m p u t e rs c i e n c ea c q u i r e si n s p i r a t i o n sf r o ml i f es y s t e mm a n yn e wc o n c e p t sa r e p r o p o s e d i ti n c l u d e st h eg e n e t i ca l g o r i t h m ( g a ) ,a n i f i c a ln e u r a l n e t w r o k ( a n n ) , c o m p u t e rv i r u sa n di m m u n i t ys y s t e m , d n ac o m p u t i n g ,a r t i f i c i a ll i f e t h e s ec r o s so f d i f f e r e n ts t u d i e se n r i c hr e a l t i v ed o m a i na n dw i l lh a v eg r e a tp r o g r e s si nt h ef u t u r e i nt h i sd i s s e r t a t i o n , c o m b i n i n gw i t ht h ea p p l i c a t i o ni nb i o i n f o r m t i c s ,w eh a v eu s e d s e r v e r a lc o m p u t i n gm e t h o d si n s p i r e df r o ml i f e ,s u c ha sg 气c o v e r i n ga l g o r i t h m ,a n t c o l o n ys y s t e mt h e s ef o r mai n t e r e s t i n gl o o p ,f r o ml i f e ,t ol i f e t h i si st h ec h a r a c t e r i s t i c a n dc e n t r a lt a s ko f t h ed i s s e r t a t i o n w i t ht h eh e l po ft h ek e r n e lr u l eo fm o l e c u l a rb i o l o g y - - c e n t r a ld o g m a ,w eb r i e f l y i n t r o d u c es o m eb a s i cc o n c e p t so fb i o l o g yi nb i o i n f o r m a t i c sa n ds u m m a r i l yi n t r o d u c e dt h e s t u d yc o n t e n t sa n dm e t h o d sw eh a v es t u d i e dt h ep r o p e r t i e sa n dc h a r a c t e r i s t i c so f p r o t e i n 一一o n ei m p r o t a n ta n a l y s i so b j e c to fb i o i n f o m a t i c sa n dw ea l s os t u d i e dt h e s t r u c t u r ec l a s s i f i c a t i o nm e t h o d sw ei n t r o d u c e dt h es t u d yl e v e lo fp r o t e i ns t r u c t u r e , a n a l y s i st h et e c h n i c a lc h a r a c t e ro fv a r i o u sm e t h o d st h et h e o r ya n da c t i o no fm i c r o a r r a y c h i p si sa l s ob r i e f l yp r e s e n t e d o n eo f t h ea r t i f i c i a ln e u r a ln e t w o r k s ,t h ec o v e r i n ga l g o r i t h mo f f pn e u r a ln e t w o r ki s a n a l y s e dc o n c r e t e l y w ed i s c u s s e di t sp r i n c i p l e ,f e a t u r e ,a n dp r o p o s e da ni m p r o v e d a l g o r i t h m - g r e e d yc o v e r i n ga l g o r k h r ni ti sp r o v e dt oh a v ei t sv a l i d i t yb yv e t i f y i n gw i t h u c im a c h i n el e a r n i n gd a t as e tw ea p p l yi ti n t ot w oa p p l i c a t i o n so fb i o i n f o r m a t i c :t h e c l a s s i f c a t i o no fs e c o n d a r ys t r u c t u r eo fp r o t e i n sa n dt h ec l a s s i f i c a t i o no fc a n c e r sh a s e do n m i c r o a r r yc h i p s t h es e c o n d a r ys t r u c t u r eo fp r o t e i ni sa ni m p r o t a n tp h a s eo fs t r u c t u r ea n a l y s i so f p r o t e i ni ti st h eb a s ef o rh i g h e rs t r u c t u r ea n a l y s i so fp r o t e i nt os e c o n d a r ys t r u c t u r e , w e s t u d i e dt h ec o d i n gm e t h o dc a r e f u l l y , c o m p a r e dt h ed i f f e r e n tc o d i n gs c h e m e s ,a n da d o p t e d as c h e m e ,w h i c hc o n t a i n sg e n ei n f o r m a t i o n :p r o f i l eo nt h eb a s e ,w ec l a s s f i e dt h e s e c o n d a r ys t r u c t u r ec l a s sw i t hc o v e r i n ga l g o r i t h m m i c r o a r r a y , w h i c hc o n t a i n sl a r g en u m b e rc o m p l i c a t e dd a t a ,i sa ni m p o r t a n ta n a l y s i s t o o lt og e n ea n a l y s i sa n dd i s e a s ed i a g n o s i s c l a s s f i c a t i o nw i t hc o v e r i n ga l g o r i t h m p r o v e st h a ti ti su s e f u lt ob eac l a s s f i c a t i o nt o o l g ai saw i d e l yu s e do p t i m a la l g o r i t h m ,a n dh a ss t r o n ga d a p t a b i l i t y i ti se s p e c i a l l y s u i t e df o rt h ep r o b l e mw h i c hi se a s i l ye x p r e s s e di nas e q u e n c et h eo b j e c to fo u rs t u d y , p r o t e i ni sj u s ts u c has e q u e n c ec o m p o s e dw i t ha m i n oa c i d sw eu s eg at os e a r c hf o rt h e o p t i m a lf o l d i n gs t r u c t u r eo f2 dl i pm o d e la c c o r d i n gt ot h ef e a t u r eo f2 dl i pm o d e l ,t h e l o c a l ( r e l a t e d ) c o o r d i n a t es y s t e mi su s e dt oh o l dt h eg o o dl o c a ls t r u c t u r e ,a n dm u t a t i o n o p e r a t e r sa r ea s s i g n e dt ot h em o d e lt h em e t h o d sa n dt h es t e p so fa c q u r i n go p t i m a l s t r u c t u r ea r ep r e s e n t e da n dt h er e s u k sa r ed i s c u s s e d a n o t h e ra l g o r i t h mi n s p i r e db yl i f e ,a n tc o l o n ys y s t e m ,i sah o ts t u d yd o m a i ni nr e c e n t y e a r si th a ss u c c e s s e di nt s pp r o b l e m ( t r a v e ls a l s m a np r o b l e m ) ,n e t w o r kr o u t i n gi n t h ed i s s e r t a t i o n , w ep r o p o s e dag e r n e r a li d e aa n dc o n s t r u c t i n gm e t h o do fg e r i n g3 d p r o t e i nl a t t i c em o d e lw ep r o p o s e dar a p i dt r a n s f e r i n gm e t h o do fd i f f e r e n tc o o r d i n a t e s y s t e m , a n dd e c r e a s e dt h ec o m p u t i n gt i m et oi n c r e s et h eo p t i m a ls p e e da n dt op r e v e n t p r e m a t u r e ,t h r e el o c a ls e a r c hm e t h o d sa r ep r e s e n t e d an e wm e t h o dt os o l v et h es e l f - w a l k i n gp r o b l e mi sp r o p o s e dw ea l s oc a r e f u l l ya n a l y s e ds o m es p e c i a lf e a t u r e so f3 d p r o t e i nf o l d i n gp r o b l e ma n da d o p t e ds o m em e a s u r et od e c r e a s ec o m p u t i n gt i m e c o m b i n i n gt h e s es t e p s ,w eo p t i m i z e dt h es t r u c t u r eo ft h e3 dh pl a t t i c em o d e l , g o tg o o d r e s u l t s ,a n df o u n ds o m e3 dc o m f o r m t i o nw i t hv e r yl o w e rd e g r e eo fe n e r y k e y w o r d s :n e u r a ln e t w o r k ,c o v e r i n ga l g o r i t h m , a c o ,g e n e t i ca l g o r i t h m , p r o t e i n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得塞徵盍堂或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名 ( 孑j 签字日期:易一g 年岁月弓日 学位论文版权使用授权书 本学位论文作者完全了解塞邀太堂有关保留、使用学位论文的规定 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权塞筮盘堂可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:7 、土 签字日期:山一6 年歹月多日 学位论文作者毕业去向:宣篮 导师签名 签字日期: 褓 伊6 年5 月牛日 工作单位: 塞徵太堂 电话:! q i s ! ! 通讯地址:塞煎佥壁垄塑整! 曼让簋狃堂瞳 邮编:13 1 11 1 第一章绪言 在计算机应用和生物科学之间,有一个有趣的现象,一方面,自然界的生物 现象给计算机科学工作者很多启发,创造了许多来自生命现象的计算方法,同时, 人们又将这些方法应用于生物科学中,揭示出更多的生命的奥秘。 在人工智能经历2 0 世纪8 0 年代整整十年后的繁荣后,由于方法论上没有革 命性的突破,曾出现了短暂的停滞现象。与此同时,由于人们对生命本质的不断了 解,生命科学却以前所未有的速度飞快发展。在此情况下,人工智能研究也开辟了 一些新的非经典计算途径。人工智能先驱m i n s k y 认为:“我们应该放弃唯理主义哲 学,从生物学而不是物理学受到启示 ”】。 在这种背景下,一些以社会性动物的自组织行为进行仿真及数学建模,并用 计算机进行仿真,出现了一批新的算法。 另一方面,近年来,随着人类基因组测序工作的完成和大量的其它物种的基 因测序的快速进展,大量的分子生物数据需要处理,从中分析、归纳并挖掘出有用 的信息,高性能的计算方法为这些工作提供了有力的工具。 本论文讨论的就是基于生物启发的计算在生物信息学中几个研究问题中的应 用。 1 1 基于生物启发的仿生计算 目前,在我们常用的算法中,有不少是来自生命科学中的现象启示。对生命 机理的研究和对生物活动的观察给一些睿智的人以启发,创造出多种基于生物启示 的仿生算法。 最为成功的算法有神经网络【3 、遗传算法等等。 1 9 4 3 年,m c c u l l o c h 和p i t t s 发表文章,提出m p 模型,描述了一个简单的人 工神经元模型的活动是服从二值( 兴奋和抑制) 变化的,总结了神经元的基本生理 仿生计算在生物信息学中的应用 特性,提出了神经元的数学描述和网络的结构方法,这标志着神经元的开始。1 9 5 7 年f r a n kr o s e n b l a t t 定义了一个神经网络,称为感知器( p e r c e p t r o n ) 。第一次把设计 网络研究从纯理论的探讨向工程实现,从而掀起了神经网络研究高潮。1 9 8 2 年,美 国物理学家j o h njh o p f i e l d 提出了全连接网络模型,这是一种全新的具有完整理论 基础的神经网络模型,并且从理论上证明了网络可达到稳定的离散和连续两种情况。 1 9 8 6 年美国的一个并行计算研究小组提出了前向反馈神经网络的b p ( b a c k p r o p a g a t i o n ) 学习算法,它成为当今使用晟广泛的前向神经网络的学习方法之一。 神经网络已成为科学计算的一个非常重要的工具,在计算机领域及其多个应用中发 挥了非凡的作用。同时,围绕着m p 神经元模型也不断有新的设计方法出现,例如 张铃教授提出的覆盖算法就是其中一种重要的算法。 美国m i c h i g a n 大学的h o l l a n d 教授及其学术受到生物模拟技术的启发,创造 出了一种基于生物遗传和进化机制的适合于浮在系统优化的自适应概率优化技 术一一遗传算法。1 9 6 7 年,h o l l a n d 的学生b a g l e y 在其博士论文中首次提出了“遗 传算法”一词,并发展了复制、交叉、变异、显性、倒位等遗传算子,给出了遗传 算法的框架结构和算法流程,使遗传算法迅速普及开来【4 】。 这些算法已被广泛接受并成功地用于多个领域,充分证明了它们的有效性。 同时,一些新的算法受到大自然的启发不断地被创造出来,例如: 受到自然界真实蚁群集体行为的启发,意大利学者md o r i g o 于1 9 9 1 年,在 他的博士论文种首次系统地提出了一种基于蚂蚁种群的新型优化算法一一蚁群算法 ( a n t c o l o n y o p t i m i z a t i o n ,a c o ) ,并用该方法解决了一系列的组合优化问题。 美国学者j a m e s k e n n e d y 和r u s s e l e b e r h a r t 受他们早期对许多鸟类的全体行为 进行建模和仿真研究结果的启发,提出了微粒群算法( p a r t i c l es w a r mo p t i m i z a t i o n , p s o ) 。目前已在多目标优化,整数规划等方面获得应用。另外,通过对生物免 疫机制的研究,经过抽象化和建模,1 9 8 6 年f a r m e r 首次将免疫机制和人工智能结 合起来,在智能计算,网络算法,模式跟踪等方面逐渐应用口】。 蚁群算法,微粒群算法,免疫算法等这些启发于生命现象的仿生算法已陆陆 续续应用于各个方面,其解决问题的能力逐渐引起人们的重视并投入更多的注意去 研究。 第一章绪言 1 2 生物信息学 生物信息学( b i o i n f o r m a t i c s ) 是一门比较新的学科,是计算机,数学,生物 学多种学科共同研究的交叉性学科,主要是用计算机来研究生物学中的课题。 生物信息学这个名词有许多不同的定义口】。从字面上来看,生物信息学是将信 息科学和技术应用于生物学。生物信息学广义的概念是指应用信息科学的方法和技 术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分 析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可 以说成是生命科学中的信息科学。生物信息学狭义的概念是指应用信息科学的理论、 方法和技术,管理、分析和利用生物分子数据。通过收集、组织、管理生物分子数 据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生 物分子数据,得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学 的研究和应用中,利用生物分子数据及其分析结果,可以大大提高研究和开发的科 学性及效率,如根据基因功能分析结果来检测与疾病相关的基因,根据蛋白质分析 结果进行新药设计。一般提到的”生物信息学”是就指这个狭义的概念,更准确地说, 应该是分子生物信息学( m o l e c u l a rb i o i n f o r m a t i c s ) 。 生物信息学以计算机:网络为工具,采用数学和信息科学的理论、方法和技 术去研究生物大分子,其研究重点主要落实在核酸和蛋白质两个方面,包括它们的 序列、结构和功能。生物信息学以基因组d n a 序列信息分析作为出发点,破译遗 传语言,认识遗传信息的组织规律,辨别隐藏在d n a 序列中的基因,掌握基因调 控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药 物分子设计。与生物信息学相关的概念还有计算分子生物学( c o m p u t a t i o n a l m o l e c u l a rb i o l o g y ) ,计算分子生物学主要研究分析方法,开发分析工具,促进生物 分子数据的分析。与生物信息学相关的另一个名词是生物计算( b i o c o m p u t i n g ) ,生 物计算特指用计算机技术分析和处理生物分子数据。 生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人 类基因组计划的实施。其实,早在2 0 世纪5 0 年代生物信息学就已经形成萌芽,2 0 仿生计算在生物信息学中的应用 世纪7 0 年代就已经产生生物信息学的基本思想,但是生物信息学的真正发展则是在 2 0 世纪的9 0 年代,在人类基因组计划的推动下,以及在计算机软硬件能力迅速提 高的情况下,生物信息学才得以迅猛发展。人类基因组计划产生的生物分子数据是 生物信息学的源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动 力。 1 3 论文主要内容和章节安排 第一章对总体做了综述性的介绍。 第二章介绍了生物信息学的基本概念,包括重要的生物学定理中心法则。以 此为中心,介绍了一些在本文中涉及到的生物学知识和概念。同时,对生物信息学 的研究内容、研究方法和研究意义做了简单的说明。 第三章主要结合后面章节的相关应用,介绍氨基酸和蛋白质的知识和蛋白质 一级、二级、三级和四级结构的定义、背景知识以及目前的研究方法和现状。 第四章介绍了神经网络、覆盖算法,并利用覆盖算法分析处理了蛋白质二级 结构预测,微阵列基因芯片的数据分类的问题。 给出了一种改进的覆盖算法一贪婪覆盖算法,这种方法以减少覆盖为目的, 缩短了分类识别时间。 蛋白质二级结构预测有两个主要关键:一是编码方案,二是分类算法。我们 采用了含有遗传信息的p r o f i l e 编码方案,在此基础上,使用覆盖算法进行分类,由 于覆盖算法可以直接进行多类型分类,而二级结构预测是一个多分类问题。对蛋白 质二级结构进行预测的结果证明了覆盖算法的有效性。 微阵列芯片具有大数据量的特点,我们在采用t 统计进行处理的基础上,再使 用覆盖算法,证明了覆盖算法可适合多种生物信息学的应用。 第五章总结了遗传算法的工作原理和流程,结合二维i - i p 蛋白质结构的特点, 提出了具有二维变异算子以遗传算法,采用具有保留局部结构特征的相对坐标系统, 并给出了附加操作以提高收敛的速度,作了二维i - i p 蛋白质折叠的优化。 第六章介绍了蚁群算法的原理、特点,提出了一种新的自回避问题的解决方 第一章绪言 案,提出了采用“右手法则”的坐标系统的快速矩阵转换方法,设计了些减少计 算规模的方法,用蚁群算法为工具对三维h p 模型进行了研究,对一些标准测试序 列进行测试,发现了能量值极低的构像。 第七章是总结和展望,分析了论文的特点,总结了论文的创新点,并提出了 以后的研究内容和方向。 第二章生物和生物信息学概念 生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能 量的支持。生物体同时也是一个信息系统,该系统控制着生物的遗传、生长和发育。 所有的信息都存贮在生物体内的遗传物质中。在生命科学的研究中,人们已经逐渐 认识到,小仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代 谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、复制、传 递、表达及其作用,否则难以理解生命的工作机制,难以揭示生命的奥秘。从生物 学的州点来看,细胞是生命的基本单位,而从信息科学的观点来看,细胞则足存贮、 复制和传递遗传信息的系统。 2 1 概述 生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活 动,促使生物体生长发育,产生生物进化。从信息学的角度来看,生物分子是生物 信息的载体,生物信息学主要研究两种载体,日ld n a 分子和蛋白质分子。生物分 子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。 图2 - 1d n a 和蛋白质结构 f i g2 - 1t h es t r u c t u r eo f d n a a n dp r o t e i n 第二章生物和生物信息学概念 d n a 是遗传信息的载体。d n a 的核苷酸序列上存储着蛋白质的氨基酸序列编 码信息,存储着基因表达调控的信息,存储着遗传信息。遗传信息存储在d n a 四 种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达。因此, 可以说d n a 序列包含着最基本的生命信息。存储在d n a 中的信息使无活力的分子 组织成有功能的活细胞,进而构成能进行新陈代谢、生长和繁殖的生物体。人们已 经认识到遗传信息的载体主要是d n a ( 在少数情况下核糖核酸( r n a ) 也充当遗传 信息的载体1 ,控制生物体性状的基因是一系列d n a 片段。一方面,d n a 通过自我 复制,在生物体的繁衍过程中传递遗传信息。另一方面,基因通过转录和翻译,使 遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因 表达过程中,基因上的遗传信息首先通过转录从d n a 传到r n a ,然后再通过翻译 从r n a 传递到蛋白质。基因控制着蛋白质的合成,从基因的d n a 序列到蛋白质序 列存在着一种明确的对应关系,而这种对应关系就是我们所知道的第一遗传密码。 蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养物质 的输运、信号的识别与传递等。蛋白质的功能多种多样,但是必须注意一点,即蛋 白质功能取决于蛋白质的空间结构。要了解和掌握蛋白质的功能必须首先分析蛋白 质的结构,对于其它生物大分子也一样。因此,蛋白质结构是一种重要的生物分子 信息。然而,蛋白质结构决定于蛋白质的序列( 这是目前基本共认的假设) ,蛋白质 结构的信息隐含在蛋白质序列之中。 作为信息的载体,d n a 分子和蛋白质分子都打上了进化的烙印。通过比较相 似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进 化证据。比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质 甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。生物分子信息具体表 现为d n a 序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等。 序列数据、结构数据是非常直观的,但是功能数据却是多变复杂的,如关于蛋白质 功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网 络等。在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据。 仿生计算在生物信息学中的应用 图2 - 2 生物分子数据及其关系 f i g2 - 2t h ed a t ao f b i o l o g ym o l e c u l ea n dt h e i rr e l a t i o n s h i p 对生物分子数据及其关系的概括见图2 2 。遗传信息从d n a 序列向蛋白质序 列的传递是人类已经基本了解的第一部遗传密码,然而蛋白质序列与蛋白质结构也 存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将从蛋白质序列到 蛋白质结构的关系称为第二部遗传密码。 第一部遗传密码已被破译,但是,对于密码究竟处于d n a 序列的哪些区域还 了解得不全面,对密码的转录过程还不清楚,对大多数d n a 非编码区域的功能还 知之甚少,对d n a 遗传语言还有待于进一步探索。对于第二部密码,目前则基本 只能用统计学的方法进行分析。无论是第一部遗传密码,还是第二部遗传密码,都 隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿, 等待我们去挖掘和利用。 与一般信息相比,生物分子信息具有明显的特征。首先,生物分子信息数据 量大,例如d n a 序列以千兆碱基( g i g ab a s e ,g b ) 为单位。随着信息处理技术进 入现代生物学研究领域,随着互联网在全球的贯通,各种生物信息学数据库迅速发 展,生物分子数据积累速度成倍增长。其次,生物分子信息复杂,既有生物分子序 列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信 息,如基因表达信息。生物分子信息另一个重要的特征是,生物分子信息之间存在 着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之 第二章生物和生物信息学概念 间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。 对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现 隐藏在这些信息之中的内在规律。同时,对于生物分子信息,仅靠某一学科的专家, 也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数学家和 计算机科学工作者协力合作,发展新的分子生物学计算理论和方法,运用先进的计 算机技术收集、集成和分析处理生物信息。 2 2 分子生物学的核心一中心法则 生物学的知识是一个浩瀚无际的海洋,在这么多的知识里,我们以分子生物 学的核心一一中心法则吲来建立本论文所需要的生物学基本知识的框架。 d n a 是遗传物质,是携带遗传信息的载体。信息从基因的核苷酸序列中被提 取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家 称之为中心法月1 j ( c e n t r a ld o g m a ) 。生物体的遗传信息以密码形式编码在d n a 分子上, 表现为特定的核苷酸排列顺序,并通过d n a 的复制( r e p l i c a t i o n ) 使遗传信息从亲 代传向子代。 在后代的生长发育过程中,d n a 分子中的遗传信息转录( t r a n s c r i p t i o n ) 到r n a 分子中( 即r n a 聚合酶以d n a 为模板合成r n a ) ,再由r n a 翻译( t r a n s l a t i o n ) 生成体内各种蛋白质,行使特定的生物功能。翻译过程是在核糖体上进行的。这样, 通过遗传信息从亲代传向子代,并在子代表达,使得子代获得了亲代的遗传性状。 r n a 也能通过复制过程合成出与其自身相同的分子。此外,生物界还存在由r n a 指 导下的d n a 合成过程,即逆转录,这一过程发现于逆转录病毒中。通过基因转录 和翻译得到的蛋白质分子可以反过来作用于d n a ,调控其它基因的表达。 分子生物学的中心法则见图2 - 3 ,它说明遗传信息由d n a 分子到r n a ,再到 蛋白质的传递过程,它揭示了d n a 、r n a 和蛋白质之间相互错综复杂的关系。 仿生计算在生物信息学中的应用 复制 图2 3 中心法则及其演变 f i g2 - 3c e n t r a ld o g m a 2 2 1d n a 的复制 d n a 的复制,即d n a 的生物合成,就是指以原有d n a 分子为模板按照碱基 配对原则合成出相同分子的过程。d n a 的自我复制是细胞周期中的重要事件。一旦 复制开始,细胞当然就不能分裂。而d n a 复制结束,就会触发细胞的分裂。 所有的d n a 复制过程都是以半保留方式进行的。在d n a 复制过程中,双螺 旋解开,两条d n a 单链都可作为模板在其上形成新的互补链,这样形成两个与亲 代d n a 结构完全相同的子代d n a 链,并且由于子代d n a 中一条链来自亲代d n a , 另一条链是新合成的,故该复制方式称为半保留复制。1 9 5 8 年,m e s e l o n 和s t a h l 利用”n 同位素标记大肠杆菌d n a 最早证明了d n a 的半保留复制。 在d n a 的复制过程中,有许多酶参与,其中最重要的是d n a 聚合酶。该酶 以d n a 链为模板,以d a x p 、d t t p 、d c t p 和d g t p 四种脱氧核糖核苷三磷酸( 由 脱氧核糖核苷酸与焦磷酸p p i 形成) 为原料,按照碱基配对原则合成与模板d n a 链互补的新链,这一过程即聚合反应。d n a 聚合酶有两个特性,一是其作用的方向 只能从5 - 端往3 - 端发展,二是它不能从头合成d n a 链,它必须以一条单链作为 模板,催化脱氧核糖核苷酸加到已有核酸链的3 羟基端,即它的催化需要引物链的 存在。有些种类的d n a 聚合酶还兼有核酸外切酶的活力,在复制过程中行使切除引 物等功能。d n a 连接酶催化双链d n a 切口处的5 磷酸基和3 一羟基生成3 ,5 磷酸 二酯键,使两个d n a 片段得以连接,此反应需供给能量( a t p ) 。 在d n a 的复制过程中,先由多种蛋白质因子识别复制起点,在d n a 解旋酶 作用b - ,d n a 双链解螺旋。双链解开后,单链结合蛋白( s s b ) 与单链d n a 结合, 使其稳定化,两条链各自成为复制的模板。引物合成酶与复制起始点局部d n a 结 1 0 第二章生物和生物信息学概念 合,合成与局部d n a 链互补的引物,在d n a 聚合酶的作用下,在引物3 一端加入 脱氧核糖核苷酸( 二者以磷酸二酯键相连) 。以此类推,使d n a 链不断延伸。两条 链中一条模板链是3 一5 。走向,在其上d n a 能以5 - - - * 3 方向连续合成,该模板链称 为前导链;另一条模板链是5 - - - - 3 l 走向,在其上d n a 也是从5 - - * 3 方向合成,但是 与解链方向相反,而且随着解链的推进,形成许多不连续的片段,最后再连成一条 完整的d n a 链,该链称为后随链。合成完成后,由另一类d n a 聚合酶切除引物并 填补切除后的空隙,缺口的两端由d n a 连接酶催化生成磷酸二酯键,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论