生物信息学 第一章 生物信息学概述.ppt_第1页
生物信息学 第一章 生物信息学概述.ppt_第2页
生物信息学 第一章 生物信息学概述.ppt_第3页
生物信息学 第一章 生物信息学概述.ppt_第4页
生物信息学 第一章 生物信息学概述.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学Bioinformatics,生物科学与技术学院,初步计划讲授内容,第一章概论(2)第二章生物学基础(略)第三章生物信息数据库及其信息检索(4-6)第四章序列比对与算法(6)第五章核酸序列分析(6)第六章蛋白质结构预测和分子设计(4-6)第七章基因组信息学(4)第八章蛋白质组信息学(4)第九章生物信息学前沿(自学),参考书籍,1、生物信息学教程蔡禄.化学工业出版社,20072、生物信息学(第二版)张阳德主编.科学出版社,20093、生物信息学陶士珩主编.科学出版社,20074、生物信息学应用技术王禄山,高培基.化学工业出版社,20075、生物信息学与功能基因组学(美)乔纳森佩夫斯纳著

2、;孙之荣译.化学工业出版社,2006,网上资源,1、华中农业大学国家精品课程生物信息学网站(,期刊,生物信息学、Bioinformatics、BMCBioinformatics,生物信息学概述,什么是生物信息学:,生物信息学(Bioinformatics):是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的学科。是随着生命科学和计算机科学的迅猛发展而快速突起的一门学科。是生命科学、生物统计学、现代数学、信息科学和计算机科学的结合学科,可揭示大量而复杂的生物数据所蕴藏的生物学奥秘。,生物信息学?新兴的交叉学科,Mathematicalsciences,Computersciences,

3、Lifesciences,生物学背景?分子生物学基因工程数学?统计学,模型,算法计算机科学背景?Linux/Perl/PHP/JAVA/C+/VisualBasic,生物信息学的学习人员:1)学习生物信息学是为了发展生物信息学计算机科学家2)学习生物信息学是为了应用生物信息学生物学家我们属于,BioinformaticsintheUniverse,Universe(宇宙=空间+时间),Humancivilization,Non-humanworld,生物信息学主要研究两种信息载体,一级结构二级结构三级结构,1、DNA分子2、蛋白质分子,生物分子,一级结构二级结构三级结构四级结构,DNA,前体R

4、NA,mRNA,多肽链,基因的DNA序列,蛋白质序列,对应关系,遗传密码,(1)遗传信息的载体DNA,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息;,DNA,RNA,转录,翻译,蛋白质,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。,复制,(2)蛋白质的结构决定其功能,蛋白质功能取决于蛋白质的空间结构蛋白质结构决定于蛋白质的序列(这是目前基本公认的假设),蛋白质结构的信息隐含在蛋白质序列之中。,三个重要的信息,(3)DNA分子和蛋白质分子都含有进化信息,通过比较相似的蛋白质的核苷酸序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化

5、证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。,总结:生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息,DNA核酸序列,蛋白质氨基酸序列,蛋白质结构,蛋白质功能,最基本的生物信息,维持生命活动的机器,第一部遗传密码,第二部遗传密码,生命体系千姿百态的变化,生物分子数据及其关系,蛋白质结构决定功能,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数

6、据之中。,生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。,生物分子信息,DNA序列数据,蛋白质序列数据,生物分子结构数据,生物分子功能数据,最基本,直观展示生命体系千姿百态的变化,复杂剖析,生物信息学涉及的生物分子数据库,特征:生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系,特征:信息存储量大计算性能高速、有效信息交流方便,生物分子数据与计算机计算,生物信息学的发展历史,生物信息学基本思想的产生,生物信息学的迅速发展,二十世纪50年代,二十世纪80-90年代,生物科学和技术的发展,人类基因组计划的推动,20世纪50年代,生物信息学开始孕育20世纪60年代

7、,生物分子信息在概念上将计算生物学和计算机科学联系起来,是生物信息学形成雏形的阶段1962Zucherkandl和Pauling提出分子进化理论1967Dayhoff研制出蛋白质序列图集,后演变为著名的蛋白质信息源PIR20世纪70年代,核酸测序技术成熟,开始了少量的基因组测序工作,标志着生物信息学的真正开端,(1)前基因组时代(20世纪90年代前),20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法1970Needleman-Wunsch提出序列比对算法1970Gibbs和McIntyre发表矩阵打点作图法1972Gatlin将信息论引入序列分析,证实自然的生物

8、分子序列是高度非随机的1977出现将DNA序列翻译成蛋白质序列的算法。1975Pipas和McMahon首先提出运用计算机技术预测RNA二级结构1978Gingeras等研制出核酸序列中限制性酶切位点的识别软件1981Smith-Waterman算法出现1981Doolittle提出序列模式的概念1983Wilbur和Lipman提出序列数据库的搜索算法1985快速的蛋白质序列相似性搜索程序FASTP/FASTN发布1988Pearson和Lipman发表著名的序列比较算法FASTA,20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库1982GenBank数据库(Release3)

9、公开1986日本核酸序列数据库DDBJ诞生1986出现蛋白质数据库SWISS-PROT1988美国国家生物技术信息中心NCBI创立1988成立欧洲分子生物学网络(EMBnet),专门发布各种生物数据库,20世纪90年代后,HGP促进生物信息学的迅速发展,标志工作是人类基因组测序,基因寻找和识别等。1986“基因组学”概念产生,研究基因组的作图、测序和分析1990国际人类基因组计划启动1993成立Sanger中心,专门从事基因组研究1995第一个细菌基因组测序完成1996酶母基因组测序完成1998第一个多细胞生物线虫基因组测序1999果蝇基因组测序完成2000人类基因组测序基本完成2001人类基

10、因组初步分析结果公布,(2)基因组时代(20世纪90年代后至21世纪初),Saccharomycescerevisiae酿酒酵母(1996-1997),Caenorhabditiselegans秀丽线虫(1998),冲击,我国对人类基因组计划的贡献,人类基因组计划给生物信息学提出挑战,随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作,发现生物学规律,,解读生物遗传密码,认识生命的本质,研究基因组数据之间的关系,分析现有的基因组数据,利用数学模型和人工智能技术,(3)后基因组时代(21世纪后至今),21世纪后,发展重点逐渐转移到功能基因组学研究领域,主要标志技术是进行

11、高通量基因组分析(megabace、3700、454测序技术)、蛋白质组分析和各种数据的比较整合等,出现了转录组、蛋白质组和代谢组等各种组学概念。,megabace,3700,Sanger,UK,大规模测序基本策略,逐个克隆法:小片段针对图谱的!全基因组鸟枪法:大片段-测序-组装(美国Celera公司)Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。,A,B,C,D,E,F,G,H,I,J,K,L,CONTIG,GAP,基因组比较,蛋白质结构,蛋白质序列,蛋白质功能关系,核苷酸序列,高通量测序技术,注释、解析,预测,验证,基于生物信息学的新药设计,基因组

12、数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,(1)生物分子数据的收集与管理,生物信息学的主要研究内容,EMBL欧洲分子生物学实验室,于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。,GenBank是美国国家生物技术信息中心建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划。,DDBJ日本DNA数据库,于1984年建立,是世界三大DNA

13、数据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库。,SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。,PIR全称TheProteinInformationResource,是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组/蛋白质组研究。PIR与MIPS(theMunichInformationCenterforProteinSequences)、JIPID(theJapanInternationalProteinInformationDatabase)合作,共同构成了PIR-国际蛋白质序列数据

14、库(PSD):一个主要的已预测的蛋白质数据库,包括250000个蛋白。,蛋白质数据库PDB是由美国国家科学基金会、能源部的生物和环境研究所、国家健康组织中的两个单位:药品科学研究所和医药图书馆共同资助的。它们设立这个机构的共同目标是通过PDB尽量广泛地传播其收集的信息。,通过数据库搜索可以找到目的基因的相关信息通过序列比较寻找同源基因,(2)数据库搜索及序列比较,AAGCTTAACGTAATCTTA-CGT,(3)基因组序列分析,基因组结构分析、基因识别、基因功能注释基因调控信息分析、基因组比较,UTR内含子启动子基因之间的序列,基因的相关信息,基因组结构分析,基因表达数据分析是目前生物信息学

15、研究的热点和重点。对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。,(4)基因表达数据的分析与处理,蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。,(5)蛋白质结构预测,各种基序(motif)的识别酸/碱性氨基酸的位置和统计富含某种氨基酸的特性亚细胞定位的预测分子进化蛋白质互作等等,生物结构的组成蛋白质与蛋白质之间的相互关系,(6)生物信息分析的技术与方法研究,改进和创造一些理论分析方法统计方法、模式识别方法、多序列比较方法等多种算法开发分析工具和实用软件序列比较工具基因识别工具生物分子结构预测工

16、具基因表达数据分析工具等,生物信息学的基本方法和前沿技术,建立生物数据库数据库检索如BLAST序列分析技术建立统计模型算法开发数据库管理技术数据库分析技术图像处理和可视化技术,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。改变生物学的研究方式改变传统研究方式,引进现代信息学方法在生命科学、农学、医学、食品、环境等领域具有重要意义,可能会引发新的产业革命,生物信息学将是21世纪生物学的核心,生物信息学研究意义,曼哈顿原子弹计划(1942-46),阿波罗登月计划(1961-69),人类基因组计划(1990-2003),人类的三大计划,验证、指导,生物信息学与生物

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论