生物信息学绪论.ppt_第1页
生物信息学绪论.ppt_第2页
生物信息学绪论.ppt_第3页
生物信息学绪论.ppt_第4页
生物信息学绪论.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学概论,生物信息学,说文解字:生物 + 信息 + 学 (bioinformatics) biology + information + theory 广义 应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。 狭义 应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。,A marriage of ,Biology,Information technology,生物信息学研究分类,算法开发,生物学研究应用,Blast,Blast,收集、

2、整理、储存、加工、发布和分析生物学数据,3、生物信息学的研究内容,发展新的数理和信息科学的技术和方法用于管理和分析生物数据,(生物工作者),(数理和信息科学工作者),2、生物信息学基本方法和技术,建立生物数据库,各种公共数据库 本地化数据库,数据库检索,各种数据检索工具的开发和使用,Entrez检索体系 BLAST检索体系,生物大分子序列分析,Homologous sequence analysis(同源序列分析) Multiple sequence alignment(多序列对位(对齐)排列) Evolution analysis(进化分析),Phylogenetic prediction(

3、系统发育预测) 进化方式分析 进化位点分析,基因组分析,序列拼接 序列注释,基因功能、结构分析,蛋白质功能、结构分析 蛋白质三维结构预测 蛋白质修饰 Electronic PCR,统计模型,Hidden Markov model(HMM,隐马尔可夫模型) 基因识别和药物设计 Maximum likelihood model(最大似然模型) 序列进化分析,数学算法,自动序列拼接 外显子预测 同源序列比较,人类基因组: 3.2109 bp,已测序的重要模式生物:,H.inf全基因组,Saccharomyces cerevisiae 酿酒酵母,Caenorhabditis elegans 秀丽线虫,

4、大肠杆菌及其全基因组,水稻基因组计划,Drosophila melanogaster 果蝇,Arabidopsis thaliana 拟南芥,基因组演化与物种演化 (生命之树),怎样利用数据库?,寻找基因序列信息,序列比较分析,生物信息学的发展过程,大致经历了3个阶段: 前基因组时代-生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列; 基因组时代-基因寻找和识别、网络数据库系统的建立、交互界面的开发; 后基因组时代-大规模基因组分析、蛋白质组分析。,生物信息学的研究内容,1、 生物分子数据的收集与管理 2、 数据库搜索及序列比较 3、 基因组序列分析 4、基因

5、表达数据的分析与处理 5、蛋白质结构与功能预测 6、基因-蛋白相互作用网络 7、整个系统调控网络,基因组 数据库,蛋白质 序列 数据库,蛋白质 结构 数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,生物分子数据的收集与管理,数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述 多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索

6、基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,基因组序列分析,遗传语言分析天书 基因组结构分析 基因识别 基因功能注释 基因调控信息分析 基因组比较,基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热 点和重点 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能 所用方法主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法 等 表达数据缺点:仅反映mRNA丰度,噪声,,基因芯片基因微阵列或DNA芯片(gene microarray 或DNA chips

7、)的原理是将几万个寡核苷酸或DNA作为探针,密集排列于硅片等固相支持物上,将研究样品标记后与微点阵杂交并进行检测。根据杂交信号强弱及探针位置和序列,可以确定靶DNA的表达情况以及突变和多态性存在与否。,DNA 微阵列(基因芯片),基因表达的层次聚类分析,新陈代谢:116, 环境信息处理:24, 细胞信息处理:20, 遗传信息处理:10; 碳水化合物代谢:36, 信号传导:17, 二次新陈代谢生物合成:16, 能量代谢: 11, 细胞生长与死亡基因:11, 多糖合成与代谢; 10, 生物异源物质的降解:10 氨基酸代谢: 9, 辅因子与维生素的代谢:9。,表达基因的功能分类,协同表达基因的聚类分

8、析,蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径 蛋白质结构预测分为: 二级结构预测 空间结构预测,蛋白质折叠,二级结构预测,在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有: 立体化学方法 图论方法 统计方法 最邻近决策方法 基于规则的专家系统方法 分子动力学方法 人工神经网络方法 预测准确率超过70%的第一个软件是基于神经网络的PHD系统,空间结构预测,在空间结构预测方面,比较成功的理论方法是同源模型法 该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质10-

9、30%的空间结构预测工作,基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构,蛋白质结构,另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构,新药设计,蛋白质与DNA 的结合,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论