基于测序软件进行生物信息学中数据分析_第1页
基于测序软件进行生物信息学中数据分析_第2页
基于测序软件进行生物信息学中数据分析_第3页
基于测序软件进行生物信息学中数据分析_第4页
基于测序软件进行生物信息学中数据分析_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于测序软件进行生物信息学中数据分析    摘要:概迷了生物信息学中的一些研究方向及分析方法,介绍了用于大挽模DNA浏序的分析软件系统Phred/Phrap/Consed。通过利用Phred/phrap/Consed等各种分析软件,对基因组学、蛋白质组学和基因芯片研究中巨1原始实脸数据进行分析、处理,使之成为具有明确生物学意义的生物信息。关健词:生物信息学;基因组学;蛋白质组学;Phred/Phrap/Consed生物信息学是20世纪80年代末开始,随着基因组侧序数据迅猛增加而逐渐兴起的一门新兴学科,是利用计算机对生命科学研究中的生物信息进行存储、检索和

2、分析的科学。诺贝尔奖获得者W.Gilbert在1991年曾指出:“传统生物学解决问题的方式是实验的。现在基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”生物信息学最终是一门研究生物系统中信息现象的学科,目前的生物信息学基本上只是分子生物学与信息技术的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。换句话说,生物信息学的研究主要是利用计算机存储核酸和蛋白质序列,研究科

3、学的算法,编制相应的软件对序列进行分析、比较与预测,找出规律。1生物信息学的研究方向生物信息学的研究内容几乎涵盖了生命科学的各个领域,它的发展给生命科学研究带来重大的变革。生物信息学的发展将对生命科学本身的发展产生革命性的影响,其研究成果将大大地促进生命科学其他研究领域的进步。生物信息学是目前基因组学、蛋白组学、生物芯片等生命科学前沿研究领域发展的直接推动力。基因组学、蛋白组学、生物芯片等成为了现代生物信息学的研究方向。1.1甚因组学研究基因组学的主要工作是大量核昔酸序列的侧定,新基因的发现和鉴定,与之相应的基因组信息的收集、存储、管理。大量基因组数据的获得促进了数据库、分析工具以及网络连接的

4、迅速发展。1.1.1生物信息数据库的建立建立数据库是存储基因信息的重要步骤,在大量原始数据的基础上将数据进行分类建库,可方便用户查询、检索。同时,以互联网为基础的基因组信息学传输网络的形成也缩短了不同研究单位之间的时空距离,使资料、信息的共享与交流扩展到前所未有的宽广领域,促进了生物信息学自身的发展。1.1.2基因组序列信息的提取及分析对新基因的发现与鉴定正通过一系列手段加快进行,如从表达序列标志(EST)数据库、从基因组DNA测序数据中确定编码区等。同时,对具有重要生物功能的非编码区及各种组分进行分类,通过确定、寻求新的非三联体的编码方式及编码区与非编码区中信息调节规律,力求尽快找到这些区域

5、的编码特征、调节信息及表达规律。1.2蛋白组学研究蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的川。蛋白组的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量,基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的。在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组成及其作用方式。有关蛋白组的研究称为蛋白组学。目前蛋白组学研究的常用技术是利用双向聚丙烯酞胺凝胶电泳分离复杂的蛋白质组分,并利用专用软件采集和分析凝胶电泳图谱资料,结合氨基酸组成分析和质谱分析对蛋白质斑点进行精确鉴定,以获得蛋白质组成、表达差异和修饰情

6、况等方面的大量信息。研究蛋白质间相互作用的主要方法有酵母双杂交系统、亲和层析、免疫沉淀、蛋白质交联等。蛋白质组学的研究也同样离不开生物信息学对庞大的数据进行分析、处理、存储和挖掘。各具特色的蛋白质组数据库的建立标志着蛋白质组的研究水平,其中最有代表性的是Swiss一Prot。1.3生物芯片研究生物芯片通常指通过微加工技术和微电子技术在固体芯片表面构建的微型生物化学分析系统,能够高速率、高通量地完成对细胞、蛋白质、DNA以及其他生物组分的检测并实现分析过程的连续化、集成化、微型化和自动化。生物芯片技术主要包括芯片方阵的构建、样品的制备、生物反应、信号检测及分析等环节。信号检测是将芯片置人专用扫描

7、仪中,通过采集各反应点的荧光位置、荧光强弱,再经相关软件分析图像,以快速准确地获取样品中的生物信息川。因此,生物芯片技术中整个检测及分析技术环节都属于生物信息学的研究领域。生物芯片主要包括基因芯片、蛋白芯片和芯片实验室等。其中,基因芯片是利用核酸双链的互补碱基之间的氢键作用,形成稳定的双链结构,通过检测目的单链上的荧光信号而实现样品的检测。2生物信息学的分析方法随着生物信息的急剧增长,如何从浩瀚的数据库中获取有用信息,怎样处理提取的数据,进而从中获得与生物结构、功能相关的信息是一个使理论生物学家感到棘手的难题沁5。借助于计算机科学、信息科学及其他学科的共同参与,人们发展了生物信息的多种分析方法

8、,其中基本的方法有序列比对、结构比对及功能比对预测法。2.1序列比对预测法序列比对是以核酸、蛋白质序列为依据,来比较两个或两个以上核酸、蛋白质在碱基(A,T,C,G),氨基酸(20余种氨基酸)水平上的相似性和不相似性。序列比对是生物信息学最基本的分析方法。常用的序列比对方法有两两序列比对和多序列比对困。两两序列比对是比较两序列之间的相似性区域和保守位点来寻找两序列可能存在的历史进化关系。两两序列比对又分为总体序列比对和局部序列比对。总体序列比对是以Neodleman-Wunsch动态规则算法为理论体系发展的比对方法;局部序列比对是以Smith一Waterman动态规则算法为理论依据的比对方法。

9、多序列比对是以两两序列比对为基础,逐步优化两条以上序列比对结果的方法,其目的是建立两条以_L序列可能存在的进化关系。常见的多序列比对方法有Pileup算法和Clustalw算法7。2.2结构比对预测法结构对比的基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性;蛋白质结构预测包括2级和3级结构预测川。从方法学上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质,的结构和折叠过程。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。以核酸和蛋白质的序列为基础,来预测其生物学结构,是生物信息学的核心研究内容。核酸序列的预测分析方法

10、是以核酸序列为基础,来分析预测其功能基因的位置,其分析内容包括:密码子的偏向、内部重复序列、特殊位点、编码蛋白区和二级结构的预测。2.3功能比对预测法组成蛋白质的氨基酸序列不仅决定着蛋白质的三维结构,而且也决定着它的功能固。首先以蛋白质的序列为依据,来预测蛋白质的物理性质,如分子量、等电点、亲水性和疏水性、跨膜区域、信号肤和蛋白定位等。蛋白质的功能预测是以目的蛋白为线索力图发现它和功能已知蛋白质的相似性。蛋白质的功能预测主要侧重于序列同源性和功能区序列的保守性。蛋白质二级结构预侧有两种策略:以单一序列为基础和以多重序列对齐为依据的分析方法。常用的三级结构预侧方法有同源模建和穿针引线算法。3生物

11、信息学的软件利用实例测序分析软件Phred/Phrap/Consed是华盛顿大学开发的用于大规模DNA侧序的分析软件系统。该系统运行于UNIX环境下,包括Phred碱基读取程序、Phrap序列组装程序和Consed图形化视图,。3.1Phred喊荟读取程序Phred采用快速傅立叶变换分析技术,从DNA测序所得到的图形数据中提取DNA碱基排列顺序信息(Base-Calling)。Phred对序列中的每个数据产生一个被广泛接受的带有质量控制标准的Base-Call.Phred质量指标x就相当于约10一/10的误差概率。因此,Phred质量指标20就相当于在原始数据中一个Base-Call的精确度为

12、99%。简言之,Phred可以读取DNA测序仪生成的色谱图文件,通过分析每个碱基的质量信息,输出每个测序反应的碱基序列和质量信息文件。数据准备在用户目录下有一个峰图文件所在的目录chromat一dir,共有25条序列。先用mkdir命令来建立两个子目录:phd一dir和edit_dir。运行Phred程序在当前目录下翰人:Phred一idehromat_dir一PdPhd_dir一trim_eut-off0.05一trimsealt。运行结果25个phd文件,对应各自的峰图文件。结果分析(使用Phdzfasta或Cross_mateh分析软件)PhdZfasta从phd文件中读取序列及质量值;

13、Cross一match是一个载体标记软件,利用swat算法(Smith一Watermanalgorithm)实现序列的比较,通过序列文件与载体序列库比对寻找载体序列(如Puc18),将其屏蔽,不参与拼接,从而提高拼接的质量。3.2Phrap序列组装程序Phrap也是一个基于Swat算法实现序列比较的软件.Phrap是目前比较成功的拼接软件,有较高的精确度,它能寻找序列间的重登部分,将高质量嵌合匹配的片段拼接成contig序列,最后生成完整的DNA序列。该序列能够提供与拼接相关的其他信息,如。ntig质量等,查找拼接出现的问题。数据准备在edit_di:目录下有两个文件:lesson.seq.s

14、ereen是序列文件,共有23条序列;lesson.seq.sereen.qual是序列质t文件,共有23条序列的质量.运行phraP程序在当前目录下输人:PhraPlesson.seq.sereen一view一new_aee>PhraP.out。运行结果新生成的结果文件lesson.seq.sereen.。ontigs:拼成的eontig序列文件;lesson.seq.sereen.eontigs.qual:相对eontig序列的质量值;lesson.seq.sereen.singlets:没有拼到的eon-tig中的单独reads序列;lesson.seq.sereen.aee:生成

15、的ACE格式文件,lesson.seq.sereen.109:包括各种诊断信息和拼接的一部分概要;lesson.seq.sereen.view:当有参数一view使用时,会生成.view文件,用于phrapview的翰人;phrap.out:在phraP拼接过程中记录拼接结果的日志文件,包括输人的参数、打分矩阵、中间结果分析等。结果分析在lesson.seq.sereen.eontigs中可以看到从23条序列中拼成T4条。ontigs;在lesson.seq.sereen.singlets中可以看到有7条序列没有参与拼接。3.3Con别泪圈形化视圈Consed是图形化软件,可用于进一步分析ph

16、rap拼接的结果,检查phrap拼接中的错误,从而提高拼接结果的质量。4结语21世纪是生命科学的时代,生物信息学为生命科学的发展提供了便利和强有力的技术支持,它不仅有重要的基础研究价值,同时还有光明的产业化前景。在应用研究方面,生物信息学在寻找人类疾病基因、预测基因和蛋白质表达的结构及功能和合理设计药物等方面都起着至关重要的作用。随着生物信息学的发展,其影响力将远远超出生命科学领域。在推动生命科学相关学科的同时,生物信息学的研究成果也将带来重大的社会效益和经济效益。生物信息学的发展将对农学、医药、食品和环境科学等领域产生巨大的影响,很有可能引发新的产业革命。此外,生物信息学所积极倡导的全球范围

17、的资源共享也将对整个自然科学乃至人类社会的发展产生深远的影响。本文认为,当前生物信息学的主要研究方向应该集中于分子遗传学、统计生物学、基因组学及其与计算机科学和多元统计学紧密结合的综合研究发展方面。而计算机科学工作者应该努力研究开发出生物信息集成软件和生物信息集成数据库。同时还应该不断地提高生物数据的质量监控和已有数据的可信度等。多学科科学家的协同合作,必将使生物信息学得到更快的发展。参考文献:1张阳德.生物信息学M.北京:科学出版社,2004:3一4.2SamuelA,JarrodC,Eli。S,。tal.Whole-genomeshotgunassemblyandanalysisofthegenomeofFugurubripesJ.Scieoe。,2002,297:1301一1310.【3倪青山,王正志,李冬冬一种基于预侧搜索的荃因芯片优化方法【J.生物信息学,2004,(3):28一30.4王亚辉.世纪之交生物学发展的主要趋势【J.中国科学基金,2000,(3):167一168.【5张春理.生物信息学的现状与展望【J.世界科技研究与发展,2000,(6):17一20.6AmandKB,TerraneeEM.Evolutionaryanalysi:bywholegenome。omparisonsJ.J

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论