生物信息学引论PPT幻灯片_第1页
生物信息学引论PPT幻灯片_第2页
生物信息学引论PPT幻灯片_第3页
生物信息学引论PPT幻灯片_第4页
生物信息学引论PPT幻灯片_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关信息关于教材

关于教学“虽然生物信息学已经在国外得到蓬勃的发展,但是国内相关书籍的水平还十分参差不齐,至今仍没有一本非常翔实的中文教材。”——《生物信息学与功能基因组学》中文译者,2006年本教材(《生物信息学应用技术》王禄山主编)仅作为教学参考用书。本课程的教学参考了“BioinformaticsandFunctionalGenomics”(Wiley,2ndedition2009)及其网络教程:Whatyouneedbeforethecourse?AdesktopPCorlaptophookedtotheInternetGoodbackgroundofmolecularbiology

Abilitytoread

andwriteinEnglishAtleastanother6hourstostickontheInternetdoinghomeworkofthecourse

—AppliedBioinformaticsCourse,CBI

授课教师:刘红美授课时间:2016年9月绪论:什么是生物信息学?生物信息学绪论:什么是生物信息学?生物信息学产生的背景生物信息学的定义生物信息学研究的主要内容绪论:什么是生物信息学?生物信息学产生的背景生物信息学的定义生物信息学研究的主要内容一、生物信息学产生的背景

大自然这部书是用数学文字写成的(伽利略)数——科学的语言

一门成功的科学对现象必须有定量的认识近代科学从根本上是对自然的数学化认识为什么科学需要数学或数学化?数学是精确的,即数学是明确无歧义的,数学是描述量的通用语言。

近二十年来生物信息学的成长基于一个简单的原因:数据数据数据数据数据数据一、生物信息学产生的背景

DNARNAphenotypeprotein分子生物学数据:主要指核酸和蛋白质的序列数据以及蛋白质三维结构数据DNAsequencesarethemothersofallsequences!一、生物信息学产生的背景随着人类基因组计划的实施,通过基因组测序产生了大量的分子生物学数据,需要利用计算机技术对这些原始数据进行收集、整理、储存、管理以便于检索使用。而为了解释和理解这些数据,还需要对数据进行比较、分析,建立数学模型,进行仿真、预测与验证。生物信息学应运而生。一、生物信息学产生的背景《Science

》杂志在2001年2月16日人类基因组专刊上配发了一篇题为“生物信息学:努力在数据的海洋里畅游”的文章。文章写道:“我们身处急速上涨的数据海洋中……,我们如何避免生物信息的没顶之灾呢?”一叶轻舟或许可以救命!生物信息学便是我们找到的这样一条“轻舟”。一、生物信息学产生的背景

截止2009年8月,NCBI的GenBank数据库已收录了20万种以上的物种,1亿多条序列,总长度超过1000亿个碱基。以2007年12月到2008年12月的数据为例,GenBank数据库平均每天大约增加4200万个碱基。信息时代、网络时代、生物技术时代GrowthofGenBankYearBasepairsofDNA(millions)Sequences(millions)198219861990199419982002Mega-(百万)>360亿bps36G硬盘,2002年GrowthofGenBank+WholeGenomeShotgun(1982—November2008)NumberofsequencesinGenBank(millions)BasepairsofDNAinGenBank(billions)BasepairsinGenBank+WGS(billions)0204060801001201401601802001982199220022008Giga-(十亿)>1800亿bps180G硬盘,2008年Arrivalofnext-generationsequencing:approaching100terabases(100,000gigabases)in2009Tera-(万亿)100万亿bps100T硬盘,2009年GENBANKANDWGSSTATISTICSGenBankWGSReleaseDateBasesSequencesBases3Dec198268033860614Nov19832274029242720May19843002088366524Sep19843323270413525Oct19843368765417526Nov19843689752439332May19854211931495436Sep19855204420570040Feb19865925429664242May19866765476741644Aug19868442357882346Nov19869615371997848Feb1987109613801091350May1987130484731253452Aug1987148551451402053Sep1987155147761458454Dec1987167528721546555Mar1988191560021704756Jun1988207952791822657Sep1988220196981904457.1Oct1988238000002057958Dec1988246908762124859Mar19892638249122479/genbank/statistics180Oct201011855164108612576438417533905912959397637181Dec201012208281271912990227617738529715659608311182Feb201112427781831013201505419003446279762349795183Apr201112655150114113544092419140139318862715288184Jun201112917829295814048226820048707818463735078185Aug201113067123380114228460820831583113264997137186Oct201113206741337214445864821866636805668330215187Dec201113511773137514641379823986830960973729553188Feb201213738488978314981924626137051267578656704189Apr201213926648139815182442127269335154880905298190Jun201214134324075515413021028757736711682076779191Aug201214308176523315642403330819641190584020064192Oct201214543096126215788973733388184645186480509193Dec201214839086390416114032535600292283892767765194Feb2013150141354858162886727390900990416103101291195Apr2013151178979155164136731418026593606110509314196Jun2013152599230112165740164453829752320112488036197Aug2013154192921011167295840500420412665124812020198Oct2013155176494699168335396535842167741130203205199Dec2013156230531562169331407556764321498133818570200Feb2014157943793171171123749591378698544139725795201Apr2014159813411760171744486621015432437143446790202Jun2014161822845643173353076719581958743175779064203Aug2014165722980375174108750774052098731189080419生物信息学基本思想产生

生物信息学迅速发展二十世纪50-60年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动一、生物信息学产生的背景

ProteinDNAF.Sanger(19581980)HGP生物数据的激增生物学家数学家计算机科学家生物信息学诞生一、生物信息学产生的背景

一、生物信息学产生的背景诺贝尔奖获得者W.Gilbert在1991年曾经指出“传统生物学解决问题的方式是实验的,现在基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的,一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”生物信息学将传统生命科学的“二元研究”分化为“三足鼎立”状态理论实验理论传统实验计算机实验invivo

invitro

insilico绪论:什么是生物信息学?生物信息学产生的背景生物信息学的定义生物信息学研究的主要内容二、生物信息学的定义生物信息学(bioinformatics)指生命科学与数学、计算机科学以及信息学等交融在一起形成的一门交叉学科。它应用先进的数据管理技术、数学分析模型和计算机软件对各种生物信息(特别是分子生物学信息)进行储存、提取、处理和分析,旨在掌握复杂生命现象的形成模式和演化规律。二、生物信息学的定义以核酸、蛋白质等生物大分子为主要研究对象以信息学、数学、计算机科学为主要研究手段以计算机网络为主要研究环境以计算机软件为主要研究工具对序列数据进行存储、管理、注释、加工对各种数据库进行查询、搜索、比较、分析构建各种类型的专用数据库信息系统研究开发面向生物学家的新一代计算机软件绪论:什么是生物信息学?生物信息学产生的背景生物信息学的定义生物信息学研究的主要内容三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容1、序列重叠群(contigs)装配根据现有的DNA测序技术,每次反应最多只能测出1000bp的序列,这就要求把大量的短序列构成重叠群,再逐步把它们拼接起来形成骨架

(scaffolds),直至得到完整的序列。由深圳华大基因研究院发起,中国科学院昆明动物研究所等参与的合作研究成果《Thesequenceanddenovoassemblyofthegiantpandagenome》于2010年1月21日以封面故事发表于《nature》杂志。本研究是全球第一个完全使用新一代合成法测序技术完成的基因组序列图,该成果证明了短序列也能组装成完整基因组,并将成为基因组绘图的国际标准。SOAP基因组序列分析软件包可以高效地处理第二代测序技术产出的巨大数量的短序列,并完成其参考序列的定位上,短序列的组装以及序列差异分析等。三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容2、序列比对和结构比对在生物信息学研究中,比对是最常用和最经典的研究手段。最常见的比对是蛋白质或核酸序列之间的两两比对或多重比对,通过比较两个或多个序列之间的相似区域,寻找它们共同的保守结构域和可能的分子进化关系。算法和软件(如:Blast)序列比对要考虑的问题之一

如何排列比较?(寻求序列之间最大相似性匹配!)

我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

10条氨基酸序列的多重比对肌红蛋白β球蛋白β球蛋白与肌红蛋白重叠三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容3、计算机辅助基因识别由于人类已经获得了巨大数量的基因组信息,依靠较慢的传统生物学实验分析已不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。算法和软件(如:ORFFinder)使用NCBI的ORFFinder发现一条DNA序列有3个可能的蛋白编码区三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容4、基因组非编码区分析及DNA语言研究在人类基因组中,基因仅占总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且也隐含在非编码序列之中。三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容5、分子进化和比较基因组学利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,这方面可做的工作很多。Pace(2001)describedatreeoflifebasedonsmallsubunitrRNAsequences.该分子进化树提示:与细菌相比,古细菌在进化关系上与真核生物更为接近。细菌古细菌真核生物人类1号染色体与小鼠1-19、X和Y染色体之间约44000个同线性关系桔黄色连线突出显示小鼠4号染色体与人类1号染色体上的所有同线性关系三、生物信息学研究的主要内容序列重叠群(Contigs)装配序列比对和结构比对计算机辅助基因识别基因组非编码区分析及DNA语言研究分子进化和比较基因组学蛋白质结构预测基于结构的药物设计三、生物信息学研究的主要内容6、蛋白质结构预测要想了解蛋白质的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其高级结构来执行的。目前除了通过诸如X射线晶体衍射、核磁共振等物理方法得到蛋白质三维结构之外,另外一种广泛使用的方法就是通过计算机辅助预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论