(分子生物学本科生课件)生物信息学_第1页
(分子生物学本科生课件)生物信息学_第2页
(分子生物学本科生课件)生物信息学_第3页
(分子生物学本科生课件)生物信息学_第4页
(分子生物学本科生课件)生物信息学_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、( (分子生物学本科分子生物学本科生课件生课件) )生物信息生物信息学学 2、基因进化基因进化 生物信息学的根本目标是探究隐藏在生物数据后生物信息学的根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说,一个重要的面的生物学知识。对于基因组研究来说,一个重要的研究方向就是分子序列的进化。通过比较不同生物基研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。这项研究已逐步形成一个称为比较基物进化的认识。这项研究已逐步形成一个称为比较基因组学的新学科。从各种基因结构与成分的进化,密因组学

2、的新学科。从各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的研究。验上的课题都等待生物信息学家的研究。 3、药物设计药物设计 生物信息学所提供的数据资料,可以指导对药生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。它的研究包括物作用靶位的选定和药物分子的设计。它的研究包括大分子结构功能的模拟和预报,药物分子与大分子结大分子结构功能的模拟和预报,药物分子与大分子结合的模拟,关键性基因的致病机制,以及生物分子同合的模拟,关键性基因的致病机制,以及生物分子同源性的分析,生物

3、分子在指定细胞的分布和位点等。源性的分析,生物分子在指定细胞的分布和位点等。人类基因组及其他基因组测序工作的进行,为新药研人类基因组及其他基因组测序工作的进行,为新药研制提供了许多潜在的靶点。后基因组时代为我们提供制提供了许多潜在的靶点。后基因组时代为我们提供了大量靶点的信息,同时这些信息又是不完整的,很了大量靶点的信息,同时这些信息又是不完整的,很多时候甚至对于靶点的结构和功能还不清楚。因此迫多时候甚至对于靶点的结构和功能还不清楚。因此迫切需要发展能够适应这种要求的新的药物设计方法。切需要发展能够适应这种要求的新的药物设计方法。 4、基因区域预测基因区域预测 所谓基因区域的预测,一般是指预测

4、所谓基因区域的预测,一般是指预测DNA顺序中顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构这些预测综合各种外显子预测的算法和人们对基因结构信号信号(如如TATA box和加尾信号和加尾信号)的认识,预测出可能的完的认识,预测出可能的完整基因。预测外显子的基本算法,早期有最长整基因。预测外显子的基本算法,早期有最长ORF(openreading frame)法。近年来同源比较算法也法。近年来同源

5、比较算法也被应用于预测可能的基因。许多基因预测的程序都已经被应用于预测可能的基因。许多基因预测的程序都已经整合了同源比较算法,比如著名的整合了同源比较算法,比如著名的GRAIL 程序。除程序。除上述提到的算法之外,目前被应用于基因预测的算法还上述提到的算法之外,目前被应用于基因预测的算法还有:法则系统有:法则系统( rule2based system);语言学;语言学(linguistic)系统;线性判别分析系统;线性判别分析(Linear DiscriminantAnalysis,LDA);决策树;决策树( decision tree);spliced align2ment算法;傅利叶分析算

6、法;傅利叶分析(Fourier analysis)等。等。 5、基因功能预测基因功能预测 基因功能预测常用的方法有:序列同源比基因功能预测常用的方法有:序列同源比较,同源比较的发展方向,寻找蛋白质家较,同源比较的发展方向,寻找蛋白质家族保守顺序。用于将序列在序列数据库中族保守顺序。用于将序列在序列数据库中进行同源比较的进行同源比较的3 种流行算法是:种流行算法是:Smit2Waterman 算法,算法,FASTA 算法和算法和BLAST算法。算法。Feng2Doolittle 算法是较常算法是较常用的多序列对齐算法。其他的新算法包括用的多序列对齐算法。其他的新算法包括HMM 方法,方法,Gib

7、bs sampling以及处理多以及处理多结构域蛋白质家族的算法。结构域蛋白质家族的算法。 6、蛋白质结构预测蛋白质结构预测 生命活动的执行者是基因的表达产物生命活动的执行者是基因的表达产物蛋白蛋白质,而研究基因的根本目的在于解释整个生命活质,而研究基因的根本目的在于解释整个生命活动的规律。因此,随着大量基因的破译及鉴定,动的规律。因此,随着大量基因的破译及鉴定,这些基因编码的蛋白质正成为下一步研究的热点。这些基因编码的蛋白质正成为下一步研究的热点。后基因组中一个重要的方面是蛋白质功能的研究。后基因组中一个重要的方面是蛋白质功能的研究。随着结构基因组的进行,越来越多的蛋白质在测随着结构基因组的

8、进行,越来越多的蛋白质在测定空间结构后尚不清楚其生物功能,因此蛋白质定空间结构后尚不清楚其生物功能,因此蛋白质功能预测日益受到重视。研究者将利用所发展的功能预测日益受到重视。研究者将利用所发展的基于关键作用部位的筛选方法进行蛋白质功能的基于关键作用部位的筛选方法进行蛋白质功能的预测。这不仅是分子生物学实验问题,也是一个预测。这不仅是分子生物学实验问题,也是一个生物信息学问题。生物信息学问题。 三、后基因组时代三、后基因组时代( post - ( post - genome era) genome era) 的基因组信息的基因组信息学学 1、从结构基因组、从结构基因组( structural g

9、enome) 到功到功能基因组能基因组( f unctional genome) (1)DNA芯片芯片(DNA chips)和微阵列制样和微阵列制样(microarray) (2)蛋白质组)蛋白质组(proteome)研究技术研究技术 2、后基因组时代的基因组信息学研究重点、后基因组时代的基因组信息学研究重点 (1)完整基因组的比较研究完整基因组的比较研究 (2)基因表达网络)基因表达网络 (3)非编码区功能预测)非编码区功能预测 1、从结构基因组从结构基因组( structural genome) 到功能基因组到功能基因组( f unctional genome) 当前当前,虽然包括构建遗传

10、连锁图、物理图、确定新基因以及测序虽然包括构建遗传连锁图、物理图、确定新基因以及测序在内的任务还没有最终完成在内的任务还没有最终完成,但完成这些任务只是时间和投入的问题但完成这些任务只是时间和投入的问题,并不存在学术障碍。可是我们虽然知道了基因并不存在学术障碍。可是我们虽然知道了基因,知道了核酸序列知道了核酸序列,但我但我们不知道它们是如何发挥功能的们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、或者说它们是如何按照特定的时间、空间进行基因表达的空间进行基因表达的,表达量有多少。很多实验表明表达量有多少。很多实验表明,在不同的组织中在不同的组织中表达基因的数目差别是很大的表达基因

11、的数目差别是很大的,脑中基因表达的数目最多脑中基因表达的数目最多,约有三万个。约有三万个。有的组织中只有几十或几百个基因表达。即使同一组织在不同的个体生有的组织中只有几十或几百个基因表达。即使同一组织在不同的个体生长发育阶段表达基因的种类、数量也是不同的。因此获得基因的功能表长发育阶段表达基因的种类、数量也是不同的。因此获得基因的功能表达谱达谱,将存在于人类基因组上的静的基因图谱将存在于人类基因组上的静的基因图谱,向时间、空间维上展开向时间、空间维上展开是新一阶段基因组研究的核心。如果把前一阶段的人类基因组研究称为是新一阶段基因组研究的核心。如果把前一阶段的人类基因组研究称为结构基因组结构基因

12、组( st ruct ural genome),那么下一个研究阶段那么下一个研究阶段(post-genome era)应转入功能基因组研究应转入功能基因组研究(functional genome)。 为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。在核酸层次上的新技术是发展了新技术。在核酸层次上的新技术是DNA芯片,在蛋白质层次上芯片,在蛋白质层次上则是二维凝胶电泳和测序质谱技术。则是二维凝胶电泳和测序质谱技术。 (1)DNA芯片芯片(DNA chips)和微阵列和微阵列制样制样(microarray) 所谓所谓

13、DNA 芯片是一类生物芯片芯片是一类生物芯片(biochips),它,它是按特定的方式在每平方厘米范围内固定有几万到几是按特定的方式在每平方厘米范围内固定有几万到几十万个十万个DNA探针的硅片、玻片或金属片。由于探针的硅片、玻片或金属片。由于DNA芯片具有高集成度,高并行处理能力,可自动化分析,芯片具有高集成度,高并行处理能力,可自动化分析,因此它可对不同组织来源,不同细胞类型,不同生理因此它可对不同组织来源,不同细胞类型,不同生理状态的基因表达进行监测,获得基因表达的功能谱。状态的基因表达进行监测,获得基因表达的功能谱。现在监测酵母基因组功能的芯片已经完成。与此同时,现在监测酵母基因组功能的

14、芯片已经完成。与此同时,DNA芯片还可用来进行芯片还可用来进行DNA的快速测序,的快速测序,DNA突变突变检测,药物筛选等。检测,药物筛选等。 (2)蛋白质组蛋白质组(proteome)研究技术研究技术 蛋白质组就是基因组的蛋白质产物。近几年在蛋白质组就是基因组的蛋白质产物。近几年在DNA芯片发展的同时,也发展了一套在蛋白质水平芯片发展的同时,也发展了一套在蛋白质水平上研究功能基因组的技术上研究功能基因组的技术,这就是二维凝胶电泳和测这就是二维凝胶电泳和测序质谱技术。序质谱技术。1996年已经实现了在一个年已经实现了在一个1618cm的凝胶上分离的凝胶上分离3000个蛋白质个蛋白质, 有了这样

15、的技术有了这样的技术, 一些一些简单有机体象简单有机体象M. genitalium (生殖道枝原体生殖道枝原体) 或或H. influenzae (噬血流感菌噬血流感菌) 的整个蛋白质组可展现在的整个蛋白质组可展现在一个二维凝胶片上。测序质谱技术发展也很快一个二维凝胶片上。测序质谱技术发展也很快, 当前当前MALDI-TOF MS(matrix-assisted laserdesorption/ ionisation time-of-flight mass spectrometry)已可在一天之内分析几千个蛋白质。已可在一天之内分析几千个蛋白质。无论是生物芯片还是蛋白质组技术的发展都更强烈无论

16、是生物芯片还是蛋白质组技术的发展都更强烈地依赖于生物信息学的理论与工具。地依赖于生物信息学的理论与工具。 2、后基因组时代的基因组信息学研究后基因组时代的基因组信息学研究重点重点 随着功能基因组实验技术的深入随着功能基因组实验技术的深入,大量的数据库将大量的数据库将成为支持这些技术的必然组分成为支持这些技术的必然组分,象蛋白质序列数据库象蛋白质序列数据库(如如SWISS-PROT)、核酸序列数据库、核酸序列数据库(如如GenBank)、结构域数据库结构域数据库(如如PROSITE)、三维结构数据库、三维结构数据库(如如PDB)、二维凝胶电泳数据库、二维凝胶电泳数据库(如如SWISS-2DPAG

17、E)、翻译后修饰数据库翻译后修饰数据库(如如O-GL YCBASE)、基因组数据、基因组数据库库(如如OMIM)、代谢数据库等。没有这些数据库、代谢数据库等。没有这些数据库,新技新技术是很难应用的。另外在芯片设计以及数据分析上术是很难应用的。另外在芯片设计以及数据分析上,也也需要从理论到软件的支持。除了为实验服务之外需要从理论到软件的支持。除了为实验服务之外,基因基因组信息学本身也面临新的重要研究课题和方向。组信息学本身也面临新的重要研究课题和方向。 (1)完整基因组的比较研究完整基因组的比较研究 在后基因组时代在后基因组时代,生物信息学家面对的不仅是序列和基因生物信息学家面对的不仅是序列和基

18、因而是越来越多的完整基因组。科学家们对最早的七个完整基因而是越来越多的完整基因组。科学家们对最早的七个完整基因组所做的分析就得到了很多有意义的结论。这些生物体都是能组所做的分析就得到了很多有意义的结论。这些生物体都是能独立存活的独立存活的, 最大的是啤酒酵母最大的是啤酒酵母, 它有它有5932个基因个基因, 最小的是生最小的是生殖道枝原体殖道枝原体, 它只有它只有470个基因。有了这些资料人们就能估计个基因。有了这些资料人们就能估计,最小独立生活的生物至少需要多少基因最小独立生活的生物至少需要多少基因,这些基因是如何使它这些基因是如何使它们活起来的们活起来的? 基因组研究还发现基因组研究还发现

19、, 鼠和人的基因组大小相似鼠和人的基因组大小相似, 都都含有约三十亿碱基对含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确基因的数目也类似。可是鼠和人差异确如此之大如此之大,这是为什么这是为什么?当我们比较鼠和人的基因组就会发现当我们比较鼠和人的基因组就会发现,尽尽管两者基因组大小和基因数目类似管两者基因组大小和基因数目类似,但基因组的组织却差别很但基因组的组织却差别很大。例如存在于鼠一号染色体上的基因却分布到人的一、二、大。例如存在于鼠一号染色体上的基因却分布到人的一、二、五、六、八、十三、十八号七个染色体上了。或许鼠与人的表五、六、八、十三、十八号七个染色体上了。或许鼠与人的表型差异

20、就来自基因组的组织。同样型差异就来自基因组的组织。同样, 有的科学家估计不同人种有的科学家估计不同人种间基因组的差别不大于间基因组的差别不大于0. 1 %; 人猿间差别不大于人猿间差别不大于1 %。因此其。因此其表型差异不仅应从基因、表型差异不仅应从基因、DNA序列找原因序列找原因,也应考虑染色体组也应考虑染色体组织上的差异。总之织上的差异。总之, 由完整基因组研究所导致的比较基因组学由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。必将为后基因组研究开辟新的领域。 (2)基因表达网络基因表达网络 长期以来令人惊异与困惑的是长期以来令人惊异与困惑的是:生命并不是一群分生命并不

21、是一群分子的堆积子的堆积,它是高度有组织的。那么这种有序性的起源它是高度有组织的。那么这种有序性的起源是什么是什么? 自本世纪六十年代开始于物理学领域的非平衡自本世纪六十年代开始于物理学领域的非平衡与非线性研究说明与非线性研究说明:正常的生物体是一个不断地与外界正常的生物体是一个不断地与外界进行物质和能量交换的开发系统进行物质和能量交换的开发系统, 生物体是远离热力学生物体是远离热力学平衡的平衡的, 生物体中大量的过程是不可逆的。因而生物才生物体中大量的过程是不可逆的。因而生物才能生长、发育、繁殖和新陈代谢能生长、发育、繁殖和新陈代谢, 能进化能进化,是有序的。在是有序的。在分子水平对基因表达调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论