生物信息学研究进展.docx_第1页
生物信息学研究进展.docx_第2页
生物信息学研究进展.docx_第3页
生物信息学研究进展.docx_第4页
生物信息学研究进展.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

陕西理工学院课程论文LOGO题 目 生物信息学的研究现状及其发展问题的探讨 学生姓名 XXX 学号 XXXXXXXXXXX 所在院(系) XXXXXXXXXXXXXXXXXXX 专业班级 XXXXXXXXXXXXXXXXXXXX 指导教师 XXXXXX 2015年12月28日 生物信息学的研究现状及其发展问题的探讨XXX(地址,邮编)摘要 结合生物信息学产生的历史条件,对生物信息学的定义进行了介绍;归纳总结了现代生物信息表述、采集、储存、传递、检索的表现形式-生物学数据库的分类与分布;着重介绍了生物信息学的主要研究内容和基本的分析方法,阐明了生物信息的分析和解读模式;强调了生物信息学与其他相关学科的相关性,提出了生物信息学发展的一些亟待解决的问题及其相应的解决方案。关键词 生命科学;生物信息学;数据库;相关性前言生物信息学是伴随着人类基因组计划发展而产生的一门涉及生物学、数学以及计算机科学与的交叉学科。关于生物信息学的定义,20世纪90年代,美国人类基因组计划曾经给出一个比较完整的解释:生物信息学是一门交叉学科,包含了生物信息的获取、加工、储存、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据说包含的生物学意义。生物信息学旨在揭示“基因组信息结构的复杂想及遗传语言的根本规律”,是21世纪自然科学和技术科学领域中“基因组”“信息结构”和“复杂性”这三个重大科学问题的有机结合生物信息学的形成和发展对目前在全球范围内广泛开展的各物种的基因组学、蛋白组学、信息科学、计算机与网络技术、新药开发等多个领域将产生重大影响,并将成为21世纪生命科学的基石3。1 生物信息学的基本范畴“生物信息学”是英文单词“Bioinformatics”的中文译名,它是由美国学者Lim在1991年发表的文章中首次使用的4。生物信息学是它包含了生物信息的获取、处理、储存、分析和解释等在内的所有方面的一门交叉学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解和阐明大量生物学数据所包含的生物学意义。具体来讲,生物信息学是把核酸、蛋白质等生物大分子数据库作为主要研究对象,用数学、计算机科学等为主要研究手段,对巨量生物学原始实验数据进行存储、管理、注释、加工,使之成为具有明确生物学意义的生物信息;通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等知识;在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题2-3。2 生物信息学的基本分析方法随着生物信息的急剧增长,如何从浩瀚的数据库中获取有用信息,怎样处理提取的数据,进而从中获得与生物结构、功能相关的信息是一个使理论生物学家感到棘手的难题2-3。借助于计算机科学、信息科学及其它学科的共同参与,人们发展了生物信息的多种分析方法,其中最基本的方法有序列对比、结构对比及功能对比预测法等。2.1 序列比对预测法序列比对是以核酸和蛋白质序列为依据,来比较两个或两个以上核酸或蛋白质在碱基(A,T,C,G)、氨基酸(20个氨基酸)水平上的相似性和不相似性。序列比对是生物信息学最基本的分析方法。常用的序列比对方法有两两序列比对和多序列比对7。两两序列比对是比较两序列之间的相似性区域和保守位点来寻找两序列可能存在的历史进化关系。两两序列比对又分为总体序列比对和局部序列比对。两个序列的比对有较成熟的动态规划算法:总体序列比对是以Needleman-Wunsch的算法为理论体系发展的完善的比对方法;当两个序列总体并不很相似,但某些局部片段相似性较高时,Smith-Waterman算法是解决局部比对的好算法,局部序列比对正是以Smith-Waterman动态规则算法为理论依据的比对方法。多序列比对是以两两序列比对为基础,逐步优化两条或多条序列比对结果的方法,其目的是建立两条以上序列可能存在的进化关系。最常见的多序列比对方法有Pileup算法和Clustalw算法8。2.2 结构比对预测法结构对比的基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性;蛋白质结构预测包括2级和3级结构预测9。从方法学上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。以核酸和蛋白质的序列为基础,来预测其生物学结构,是生物信息学的核心研究内容10。基于核酸序列的预测分析方法就是以核酸序列为基础,来分析预测其功能基因的位置。其分析内容常常包括:密码子的偏向、内部重复序列、特殊位点、编码蛋白区和二级结构的预测。2.3 功能比对预测法组成蛋白质的氨基酸序列不仅决定着蛋白质的三维结构,而且也决定着它的功能3。首先以蛋白质的序列为依据,来预测蛋白质的物理性质,如分子量、等电点、亲水性和疏水性、跨膜区域、信号肽和蛋白定位等。蛋白质的功能预测是以目的蛋白为线索力图发现它和功能已知蛋白质的相似性。蛋白质的功能预测主要侧重在序列同源性和功能区序列的保守性11。蛋白质二级结构预测有两种策略:以单一序列为基础和以多重序列对齐为依据的分析方法。常用的三级结构预测方法有同源模建和穿针引线算法。2.4 核酸序列分析2.4.1 序列比较与进化树构建序列比较是一项基本的生物信息学技术,其应用很广,形式多样。可分为基于一个序列的重复片段或反向重复片段查找、两序列比较和多序列比较等。常用软件为Biosun1、MatLab、EBI主页上的工具Tools、NCBI主页上的工具Blast。构建进化树是从序列中发现进化关系,分析物种的同源性。常用软件为Biosun、clustalW2以及phylip进化分析软件包。2.4.2 DNA序列翻译为蛋白质序列根据密码子与氨基酸之间的对应关系将DNA序列翻译为蛋白质序列。常用软件为Biosun、DNAStar、DNAMAN和NCBI上的ORF查找工具。2.4.3 限制性酶切位点分析可以通过文本编辑器软件来查找,也可以通过专门的软件3:如Biosun、NEBcutterV20和PrimerPremier50。2.4.4 转录因子结合位点预测通过预测分析目标基因转录调控区中顺式原件的组成和分布情况,可以从理论上了解目标基因的表达情况,从而指导后续实验的设计4。常用软件为Biosun、PMATCH和MatrixCatch。2.4.5 启动子预测大量基因组序列被破译,使得不仅要预测分析新基因的编码区结构,还要分析预测其转录起始位点及启动子序列,从而规模化地了解其编码的基因及表达方式。启动子是DNA序列中RNA聚合酶的结合部位,也是启动转录的关键性的调控序列5。目前常用的启动子预测的软件分别是GENESCAN、Promoter和DragonPromoterFinder。2.4.6 PCR实验设计根据引物设计规则进行引物设计6。常用软件为PrimerPremier50、Oligo50、Biosun和GeneFisher2。2.4.7 RNA二级结构预测RNA许多功能的实验需要借助一定的二级结构,但是用实验方法测定其结构比较困难,应用计算机软件预测RNA二级结构是一种可行方法。常用软件为Biosun、DNASIS25、RDfolder和Mfold。Mfold网站还提供了丰富的RNA二级结构预测资料,可作参考。2.4.8 核酶、反义核酸及siRNA设计核酶是一种具有核酸内切酶活性的RNA分子,可特异性地切割靶RNA序列7。根据碱基互补原则,对任何细胞或病毒的RNA都可设计出相应的核酶。理想的核酶应符合高效、特异和稳定的特点。常用软件为RNAstructure。需要注意此核酶设计是经验性的,需要实验验证。反义核酸是指与靶DNA或RNA碱基互补、并能与之结合的一段DNA或RNA序列。反义核酸通过与靶序列杂交,抑制或封闭目的基因的表达,使其丧失活性,达到基因控制和治疗的目的8。目前已发展出一些用于反义核酸预测的核酸设计工具,如瑞典科学家开发的免费在线反义核酸设计工具AOSVM。siRNA即RNA干涉,是抑制基因表达的重要工具。目前RNAi已广泛应用于基因功能分析,并作为潜在的治疗策略应用于病毒性疾病、药物靶标发现和癌症治疗9。目前使用最多的设计软件是由Naito等10开发的在线设计软件siDirect。3 生物信息学的研究热点生物信息学的研究内容几乎涵盖了生命科学的各个领域,它的发展给生命科学研究带来重大的变革。生物信息学的发展将对生命科学本身的发展产生革命性的影响,其研究成果将大大地促进生命科学其他研究领域的进步4。生物信息学是目前基因组学、蛋白组学、生物芯片等生命科学前沿研究领域发展的直接推动力。基因组学、蛋白组学、分子进化、生物芯片等成为了现代生物信息学研究的热点内容。3.1 基因组学研究某种生物的全部遗传构成被称为该种生物的基因组。基因组学的实质就是分析和解读核酸序列中所表达的结构与功能的生物信息。这方面的研究已成为生物信息学的主要研究内容之一,生物信息学也成为基因组研究中必不可少的工具。生物信息学在基因组和蛋白组研究中所起的作用主要有:(1)基因组信息结构的计算分析;(2)模式生物全基因组信息结构的比较研究;(3)功能基因组的相关信息分析。其中,序列基因组学主要研究测序和核苷酸序列;结构基因组学着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学则研究以转录图为基础的基因组表达图谱;比较基因组学的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较3,12。在人类基因组中,编码部分仅占总序列的3-5%,其它通常称为“垃圾DNA”。但DNA序列作为一种遗传语言,不仅体现在编码序列之中,还隐含在非编码序列之中,因而分析非编码区DNA序列则需要大胆的想象和崭新的研究思路与方法。3.2 蛋白组学研究蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的13。蛋白组的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量,基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的。在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组成及其作用方式。有关蛋白组的研究称为蛋白组学14。目前蛋白组学研究的常用技术是利用双向聚丙烯酰胺凝胶电泳分离复杂的蛋白质组分,并利用专用软件采集和分析凝胶电泳图谱资料,结合氨基酸组成分析和质谱分析对蛋白质斑点进行精确鉴定,以获得蛋白质组成、表达差异和修饰情况等方面的大量信息。研究蛋白质间相互作用的主要方法有酵母双杂交系统、亲和层析、免疫沉淀、蛋白质交联等15。蛋白质组学的研究也同样离不开生物信息学对庞大的数据量进行分析、处理、存储和挖掘。各具特色的蛋白质组数据库的建立标志着蛋白质组的研究水平,其中最有代表性的是SWISS-PROT3,16。3.3 分子进化研究通过比较不同物种基因组中DNA或氨基酸序列的异同来研究生物的进化,称为分子进化。由于蛋白质的结构比序列更为保守,因而通过比较蛋白质空间结构上的异同来研究分子进化,往往能得到更多的信息。早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化17。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。3.4 生物芯片研究生物芯片通常指通过微加工技术和微电子技术在固体芯片表面构建的微型生物化学分析系统,能够高速率、高通量地完成对细胞、蛋白质、DNA以及其他生物组分的检测并实现分析过程的连续化、集成化、微型化和自动化2,3。生物芯片技术主要包括芯片方阵的构建、样品的制备、生物反应和信号检测及分析等环节18。信号检测是将芯片置入专用扫描仪中,通过采集各反应点的荧光位置、荧光强弱再经相关软件分析图像,以快速准确地获取样品中的生物信息19。因此,生物芯片技术中整个检测及分析技术环节都属于生物信息学的研究领域。生物芯片主要包括基因芯片、蛋白芯片和芯片实验室等。其中,基因芯片是利用核酸双链的互补碱基之间的氢键作用,形成稳定的双链结构,通过检测目的单链上的荧光信号而实现样品的检测。生物芯片将改变生命科学的研究方式,是继大规模集成电路之后的又一次意义深远的技术革命。4 生物信息学发展问题探讨4.1 生物信息学与其它学科的关系生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。统计学、概率论与随机过程理论、运筹学、最优化理论和算法、拓扑学、函数论、信息论、计算数学、群论和组合数学等是生物信息学中常用的数学理论与工具。根据量子化学算法,预测生物大分子的空间结构需要大量的计算20。计算技术包括机器学习、知识重现、随机模型、字符串和图形算法等,这些都与数学的发展密切相关;国际互联网是生物信息学获取信息资源的主要手段。生物信息学从产生到发展都和计算机科学息息相关,诸如数据库的建立和维护、生物信息学软件的开发和利用、序列比较和结构功能预测等等21。总之,离开数学和计算机科学的支持与发展,生物信息学就成了无水之源,无本之木,因而要发展生物信息学还要大力发展与之相关的其它学科。4.2 生物信息数据库的共享问题为了便于信息搜索与查询及国际间的共享,世界各国建立了不同类型的基本数据库和二级数据库,但令人高兴的是,几乎所有这些数据库对学术研究部门或人员来说都是免费的。但是鉴于相当多的数据库的经营者们面临着财务紧缺的境地,这种免费的局面还能维持多久就不得而知了。如果一些重要的数据库对学术研究部门开始收费,这对于我国生物信息学的发展是非常不利的3。中国是一个基因信息资源大国,因而我们应当抓紧建设自己的数据库,在世界上做出我们自己的贡献,在平等的基础上与国外共享生物信息资源。21世纪是生命科学的时代,生物信息学为生命科学的发展提供了便利和强有利的技术支持,它不仅有重要的基础研究价值,同时还有光明的产业化前景。在应用研究方面,生物信息学在寻找人类疾病基因、预测基因和蛋白质表达的结构及功能和合理设计药物等方面都起着至关重要的作用。随着生物信息学的发展,其影响力将远远超出生命科学领域。在推动生命科学相关学科的同时,生物信息学的研究成果也将带来重大的社会效益和经济效益。生物信息学的发展将对农学、医药、食品和环境科学等领域产生巨大的影响,很有可能引发新的产业革命。此外,生物信息学所积极倡导的全球范围的资源共享也将对整个自然科学乃至人类社会的发展产生深远的影响。参考文献1Sasaki T,Burr B. International rice genome sequencing project: Theeffort to completely sequence the rice genomeJ. Current Opinion inPlant Biology, 2000,(2):138- 141.2王亚辉.世纪之交生物学发展的主要趋势 J.中国科学基金,2000,(3): 167- 168.3张春霆.生物信息学的现状与展望J.世界科技研究与发展,2000,(6):17- 20.4C RCantor, HA Lim. Electrophoresis, Supercomputing and the Hu-man genomesM.World Scientific Publishing Co., 1991.5李勇,倪福太,贺福初,英特网上生物信息资源的利用J.生物化学与生物物理进展,1999,(3): 295- 296.6Dicks J, Anderson M,Cardle L, et al. UK Crop Net: A collection ofdatabases and bioinformatics resources for crop plant genomicsJ.Nu-cleic Acids Research,2000,(1):104- 107.7Amand K B, Terrance E M. Evolutionary analysis by whole genomecomparisonsJ.Journal of Bacteriology,2002,(8):2260- 2272.8Andrada M A,Sander.Bioinformatics from genome data to biologicalknowledgeJ.Current Opinion Biotechno1, 1997,(6):675- 683.9Persson B. Bioinformaticsin protein analysisJ.EXS,2000,(88):215- 231.10Silveira, N J, Freitas U, Hugo B, et al. Structural bioinformaticsstudy of PNP fromSchistosoma mansoniJ.Biochemical and Biophysi-cal Research Communications,2004,(1):100- 104.11Papin, J., Subramaniam, S. Bioinformatics and cellular signalingJ.Current Opinion in Biotechnology,2004,(1): 78- 81.12Rudert FG, Ilag L. Functional genomicswith protein- protein inter-actionsJ.Biotechnol.Annul. Rev,2000,(5):45- 86.13Samuel A, Jarrod C,Elia S, et al.Whole- genome shotgun assemblyand analysisof the genome of Fugu rubripesJ.Science

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论