




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
揭开生命奥秘的新兴交叉学科
生物信息学主讲人:11023205刘哲
揭开生命奥秘的新兴交叉学科
生物信息学主讲人:11
计算机学、计算机网络
医学生物学、分子生物学生物信息学数学、
统计学生物信息学和其它学科的关系生物信息学是一门边缘学科,它位于生物、医学、计算机、数学等多个领域的交叉点上生物信息学
计算机学、计算机网络
医学2内容生物信息学的涵义生物信息学的基本研究方法生物信息学的主要研究内容内容生物信息学的涵义3人类基因组计划的完成,后基因组计划及蛋白质组计划的实施,出现和积累了与日俱增的信息,生命科学将全面进人信息提取和数据处理的全新阶段。早在20世纪80年代末,在美国工作的马来西亚华人林华安博士就认识到将计算机科学与生物学结合起来的重要意义,并首次提出了“生物信息学(bioinformatics)”的概念,并因此而获得“生物信息学之父”的美誉。生物信息学的涵义人类基因组计划的完成,后基因组计划及蛋白质组计划的实施,出现4生物信息学著名科学家、诺贝尔奖获得者Gilber提出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物学属于实验性的,那就称它为实验生物学。新的学科领域:生物学与计算机科学、信息科学和统计科学相结合的领域,也称其为理论生物学,这是生命科学走向现代化的一个重要标志。生物信息学生物信息学著名科学家、诺贝尔奖获得者Gilber提出:“传统5一、生物信息学的涵义生物信息学是用数理和信息科学的观点、理论和方法,以计算机为工具对生物信息进行收集、加工、储存、传播、检索和分析的科学。研究材料和结果是各种各样的生物学数据一、生物信息学的涵义生物信息学是用数理和信息科学的观点、理论6生物信息学的基本研究方法生物学数据库的建立数据的检索数据的处理数据的利用生物信息学生物信息学的基本研究方法生物学数据库的建立生物信息学7生物学数据库的建立生物学数据库的建立一般由专门的机构来完成。这些机构包括一些国家支持的非盈利性机构和一些知名大学的研究机构。有的实验室为了研究工作的需要也可建立一些小型的数据库。数据库可分为一级数据库和二级数据库,一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整理和分析;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标而建立的。目前,世界著名的三人核心数据库是PDB生物大分子结构数据库、SWISS-PROT蛋白质序列数据库和GenBank核酸序列数据库。生物信息学生物学数据库的建立生物信息学8数据的检索在研究中根据不同的实际需要,检索不同的数据库。如查找DNA序列即选择核酸序列数据库,查找蛋白质序列则选择蛋白质序列数据库等。生物学数据库的检索包括收集和筛选两个方面,根据研究者的实际需要而加以应用。生物信息学数据的检索在研究中根据不同的实际需要,检索不同的数据库。如查9无论是实验中产生的数据,还是在数据检索中查得的数据都要经过处理,一般先是对数据进行格式编辑,然后对大量的数据进行分类和整理。为了使用的方便,根据需要也可建立一个自己的小型数据库,以便于使用。数据的处理生物信息学无论是实验中产生的数据,还是在数据检索中查得的数据都要经过处10
对生物学数据的利用就是使用各种统计模型和算法,以便对数据进行分析。如核酸和蛋白质序列相似性比对分析、蛋白质空间结构比对分析、不同发育阶段比对分析,正常与异常比对分析、生物进化分析等。从这些分析研究中得出结果、疑问,为下一步研究提供参数等。数据的利用
对生物学数据的利用就是使用各种统计模型和算法,以便对数11三、生物信息学的研究内容
--基因组测序的信息分析用于发现新基因非编码区结构与功能研究生物进化的研究比较基因组学研究--基因功能的研究--大分子结构模拟与药物设计遗传疾病的研究三、生物信息学的研究内容--基因组测序的信息分析12无论人或模式生物的基因组研究,都涉及大规模的测序,它的每一步都与信息分析紧密相关。在对一个基因组的测序中,首先必须将基因组打碎,再对每一个小片段测序,然后把它们重新拼接起来。如果将这些片段拼接成完整的DNA序列是测序研究中的一个难点,尤其是重复序列,在人基因组中有大约30%的重复序列,这就更增加了难度。在这种情况下借助生物信息学就显得更重要了。生物信息学提供了自动而高速地拼接序列的算法,根据数据库和相关软件提供的信息进行计算即可得出结果。不过,这个工作需要高性能计算机的大规模并行运算,因此,实际上只有一些测序中心拥有这种计算能力。基因组测序的信息分析无论人或模式生物的基因组研究,都涉及大规模的测序,它的每一步13用于发现新基因在基因组研究中,大部分新基因是靠理论方法预测出来的。例如酿酒酵母完整基因组(约1300万碱基对)所包含的6000多个基因,大约60%是通过信息分析得到的。用理论方法预测基因使用的序列数据主要来自EST序列数据库和基因组测序数据库。目前,用生物信息学寻找新基因的方法有以下两种。通过计算分析,从表达序列标志(EST)序列库中拼接得到完整的新基因编码区。由于ESf是随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志,就可以把不同的EST序列连起来,直到获得全长基因。通过计算机分析,从基因组DNA序列中确定新编码区。这主要是根据编码区与非编码区的特点,将二者进行区别而鉴定新基因。有两种方法,一种是基于编码区所具有的独特信号,如起始密码子、终止密码子等;另一种是基于编码区的碱基组成与非编码区的差异。现已有许多有效算法和软件用于识别编码区。
用于发现新基因在基因组研究中,大部分新基因是靠理论方法预测出14
从高等和低等生物的基因组比较发现,从生物进化、生物体功能的完善和复杂化,基因组的非编码序列明显增加的趋势提示,这部分序列必定有重要的生物功能。在细菌中非编码区序列占整个基因组序列的10-20%,而人的基因组中约占95-97%。至今已知,这些序列包括内含子、卫星DNA、小卫星DNA、微卫星DNA、短散布重复兀件(shortin-terspersedelements,SINE)、长散布重复元件(longinterspersedelements,LINE)、伪基因(pseudogenes)等。如果把不同成分的序列分别搜集起来,建立专门的数据库,对于了解非编码区的功能将是十分有用的。
非编码区结构与功能研究从高等和低等生物的基因组比较发现,从生物进化、生物体15生物进化的研究
…由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种的发育和生理,因此,不同物种的基因组总是存在差异,用生物信息学研究比较不同物种的核酸和蛋白质的序列差异,在一定程度上可反映物种的进化。基于此,当前生物进化在分子水平的研究(称为分子进化)已建立了一套依赖于核酸和蛋白质序列信息的理论方法,包括序列相似比较、序列同源性分析、构建系统进化树和稳定性检测等。在生物进化的研究中,相似性(similarity)和同源性(homology)是两个不同的概念。相似性只反映两类类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。相似性研究是将待研究序列与DNA序列库或蛋白质序列库比较,用于确定该序列的生物种属,用的力法是两两序列比较算法;同源性研究是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。生物进化的研究由于基因组是物种所有遗传信息的储藏库,从根本16
随着基因组序列研究的广泛开展,各种生物的完整基因组数据越来越多,生物信息学的研究不仅对单个基因,而且可以对不同生物的全基因组进行比较分析,可能从遗传本质上解释一些重大生物学问题。如生命是如何起源的,生命是怎样进化的,遗传密码是如何起源的,最小独立生活的生物体至少需要多少基因等。只有通过在基因组水平上的比较分析才能解答这一系列重人问题。鼠和人的基因组人小相似,都含有约30亿碱基对,基因的数目也类似,而且大部分同源。但人和鼠差异是如此之大,为什么?通过比较基因组学研究发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体的基因却分布在人的7个染色体上。不同人种间基因组的差别仅为0.1%,人与猿间的差别约为1%。但表型上的差异却十分显著。因此,表型差异不仅应从基因、DNA序列方面找原因,看来更应当考虑它们在基因组上的差异。此外,科学家通过几个完整基因组的比较研究,统计出维持生命活动所需要的最少基因的个数为250个左右,并且从对多种细菌核糖体蛋白基因研究发现,这种蛋白基因序列的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。比较基因组学研究随着基因组序列研究的广泛开展,各种生物的完整基17
通过基因组计划,科研人员知道了基因,知道了核昔酸序列,但却并不知道它们是如何发挥功能的。基因在什么情况下和什么时间表达,表达产物的浓度是多少;是否存在翻译后修饰,若存在是如何修饰的。这些研究内容属于后基因组计划的范畴,在这个计划执行中必定又产生大量的生物信息,必然应用生物信息学的理论和规律来处理,才能了解某些基因的功能。实验表明,在不同组织中表达基因的数目差别很大,脑中表达基因的数目最多,可达3万左右,有的组织中只有几十或几百个基因表达;同一组织在不同的个体生长发育阶段表达基因的种类、数量也不相同,有些基因在幼年时期表达,有些在中年阶段表达,有的则在老年阶段才表达;同一组织在不同环境条件下基囚表达的种类和数量也有很大差异。所有这些内容除了基因组学研究外,还需要蛋白质组学、生物芯片等方面的研究,最后由生物信息学的研究来加以解决,甚至可以预测基因的功能。基因功能的研究通过基因组计划,科研人员知道了基因,知道了核昔18大分子结构模拟与药物设计由序列测定和序列数据库知道氨基酸的序列对了解蛋白质的功能是不够的,还必须知道它们的三维结构,因为“构象决定功能”。目前虽有x射线衍射、多维核磁共振、二维电子衍射和三维图像重构等技术为蛋白质空间结构研究提供了有效手段,但这些方法仍存在一定的局限性,现在还不能估计究竟有多少蛋白质最终仍不能由实验测定。此时,理论模拟与结构预测就显得十分重要了。理论研究不仅可提供生物大分子空间结构的信息,而且还能够提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用以及动力学行为等的信息。如生物化学反应中的能量变化、电荷迁移、构象变化等,这是难以直接用实验手段加以研究的。大分子结构模拟与药物设计由序列测定和序列数据库知道氨基酸的序19遗传疾病的研究
据估计,约有6000种以上的人类疾患与人类各种基因的变化相关联,寻找各种疾病的相关基因及其相互作用与致病的关系,是分子生物学特别是医学分子生物学的重大课题之一。随着人类基因组计划研究的深人,在了解了人类全部基因在染色体上的位置、它们的序列特征以及它们表达产物的特征以后,就可以有效地判断各种疾病的分子机制,进而发展合适的诊断和治疗手段。在这方面生物信息学有两项工作要做:是构建与疾病相关的人类基因信息数据库(包括SNP数据库)是发展有效地分析基因分型数据的生物信息学算法,特别是将SNP数据与疾病和致病因素相关的计算方法。软件和数据库遗传疾病的研究据估计,约有6000种以上的人类疾患与人类20生物信息学研究是利用数理统计、模式识别、动态规划、密码解读、语意解析、信令传递、神经网络、遗传算法以及隐马氏模型等各种方法对序列、结构数据进行定性和定量分析,从中获取基因编码、基因调控、序列-结构-功能关系等理性知识探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”小结生物信息学研究是利用数理统计、模式识别、动态规划、密码解读、21谢谢再见谢谢22
揭开生命奥秘的新兴交叉学科
生物信息学主讲人:11023205刘哲
揭开生命奥秘的新兴交叉学科
生物信息学主讲人:123
计算机学、计算机网络
医学生物学、分子生物学生物信息学数学、
统计学生物信息学和其它学科的关系生物信息学是一门边缘学科,它位于生物、医学、计算机、数学等多个领域的交叉点上生物信息学
计算机学、计算机网络
医学24内容生物信息学的涵义生物信息学的基本研究方法生物信息学的主要研究内容内容生物信息学的涵义25人类基因组计划的完成,后基因组计划及蛋白质组计划的实施,出现和积累了与日俱增的信息,生命科学将全面进人信息提取和数据处理的全新阶段。早在20世纪80年代末,在美国工作的马来西亚华人林华安博士就认识到将计算机科学与生物学结合起来的重要意义,并首次提出了“生物信息学(bioinformatics)”的概念,并因此而获得“生物信息学之父”的美誉。生物信息学的涵义人类基因组计划的完成,后基因组计划及蛋白质组计划的实施,出现26生物信息学著名科学家、诺贝尔奖获得者Gilber提出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物学属于实验性的,那就称它为实验生物学。新的学科领域:生物学与计算机科学、信息科学和统计科学相结合的领域,也称其为理论生物学,这是生命科学走向现代化的一个重要标志。生物信息学生物信息学著名科学家、诺贝尔奖获得者Gilber提出:“传统27一、生物信息学的涵义生物信息学是用数理和信息科学的观点、理论和方法,以计算机为工具对生物信息进行收集、加工、储存、传播、检索和分析的科学。研究材料和结果是各种各样的生物学数据一、生物信息学的涵义生物信息学是用数理和信息科学的观点、理论28生物信息学的基本研究方法生物学数据库的建立数据的检索数据的处理数据的利用生物信息学生物信息学的基本研究方法生物学数据库的建立生物信息学29生物学数据库的建立生物学数据库的建立一般由专门的机构来完成。这些机构包括一些国家支持的非盈利性机构和一些知名大学的研究机构。有的实验室为了研究工作的需要也可建立一些小型的数据库。数据库可分为一级数据库和二级数据库,一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整理和分析;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标而建立的。目前,世界著名的三人核心数据库是PDB生物大分子结构数据库、SWISS-PROT蛋白质序列数据库和GenBank核酸序列数据库。生物信息学生物学数据库的建立生物信息学30数据的检索在研究中根据不同的实际需要,检索不同的数据库。如查找DNA序列即选择核酸序列数据库,查找蛋白质序列则选择蛋白质序列数据库等。生物学数据库的检索包括收集和筛选两个方面,根据研究者的实际需要而加以应用。生物信息学数据的检索在研究中根据不同的实际需要,检索不同的数据库。如查31无论是实验中产生的数据,还是在数据检索中查得的数据都要经过处理,一般先是对数据进行格式编辑,然后对大量的数据进行分类和整理。为了使用的方便,根据需要也可建立一个自己的小型数据库,以便于使用。数据的处理生物信息学无论是实验中产生的数据,还是在数据检索中查得的数据都要经过处32
对生物学数据的利用就是使用各种统计模型和算法,以便对数据进行分析。如核酸和蛋白质序列相似性比对分析、蛋白质空间结构比对分析、不同发育阶段比对分析,正常与异常比对分析、生物进化分析等。从这些分析研究中得出结果、疑问,为下一步研究提供参数等。数据的利用
对生物学数据的利用就是使用各种统计模型和算法,以便对数33三、生物信息学的研究内容
--基因组测序的信息分析用于发现新基因非编码区结构与功能研究生物进化的研究比较基因组学研究--基因功能的研究--大分子结构模拟与药物设计遗传疾病的研究三、生物信息学的研究内容--基因组测序的信息分析34无论人或模式生物的基因组研究,都涉及大规模的测序,它的每一步都与信息分析紧密相关。在对一个基因组的测序中,首先必须将基因组打碎,再对每一个小片段测序,然后把它们重新拼接起来。如果将这些片段拼接成完整的DNA序列是测序研究中的一个难点,尤其是重复序列,在人基因组中有大约30%的重复序列,这就更增加了难度。在这种情况下借助生物信息学就显得更重要了。生物信息学提供了自动而高速地拼接序列的算法,根据数据库和相关软件提供的信息进行计算即可得出结果。不过,这个工作需要高性能计算机的大规模并行运算,因此,实际上只有一些测序中心拥有这种计算能力。基因组测序的信息分析无论人或模式生物的基因组研究,都涉及大规模的测序,它的每一步35用于发现新基因在基因组研究中,大部分新基因是靠理论方法预测出来的。例如酿酒酵母完整基因组(约1300万碱基对)所包含的6000多个基因,大约60%是通过信息分析得到的。用理论方法预测基因使用的序列数据主要来自EST序列数据库和基因组测序数据库。目前,用生物信息学寻找新基因的方法有以下两种。通过计算分析,从表达序列标志(EST)序列库中拼接得到完整的新基因编码区。由于ESf是随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志,就可以把不同的EST序列连起来,直到获得全长基因。通过计算机分析,从基因组DNA序列中确定新编码区。这主要是根据编码区与非编码区的特点,将二者进行区别而鉴定新基因。有两种方法,一种是基于编码区所具有的独特信号,如起始密码子、终止密码子等;另一种是基于编码区的碱基组成与非编码区的差异。现已有许多有效算法和软件用于识别编码区。
用于发现新基因在基因组研究中,大部分新基因是靠理论方法预测出36
从高等和低等生物的基因组比较发现,从生物进化、生物体功能的完善和复杂化,基因组的非编码序列明显增加的趋势提示,这部分序列必定有重要的生物功能。在细菌中非编码区序列占整个基因组序列的10-20%,而人的基因组中约占95-97%。至今已知,这些序列包括内含子、卫星DNA、小卫星DNA、微卫星DNA、短散布重复兀件(shortin-terspersedelements,SINE)、长散布重复元件(longinterspersedelements,LINE)、伪基因(pseudogenes)等。如果把不同成分的序列分别搜集起来,建立专门的数据库,对于了解非编码区的功能将是十分有用的。
非编码区结构与功能研究从高等和低等生物的基因组比较发现,从生物进化、生物体37生物进化的研究
…由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种的发育和生理,因此,不同物种的基因组总是存在差异,用生物信息学研究比较不同物种的核酸和蛋白质的序列差异,在一定程度上可反映物种的进化。基于此,当前生物进化在分子水平的研究(称为分子进化)已建立了一套依赖于核酸和蛋白质序列信息的理论方法,包括序列相似比较、序列同源性分析、构建系统进化树和稳定性检测等。在生物进化的研究中,相似性(similarity)和同源性(homology)是两个不同的概念。相似性只反映两类类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。相似性研究是将待研究序列与DNA序列库或蛋白质序列库比较,用于确定该序列的生物种属,用的力法是两两序列比较算法;同源性研究是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。生物进化的研究由于基因组是物种所有遗传信息的储藏库,从根本38
随着基因组序列研究的广泛开展,各种生物的完整基因组数据越来越多,生物信息学的研究不仅对单个基因,而且可以对不同生物的全基因组进行比较分析,可能从遗传本质上解释一些重大生物学问题。如生命是如何起源的,生命是怎样进化的,遗传密码是如何起源的,最小独立生活的生物体至少需要多少基因等。只有通过在基因组水平上的比较分析才能解答这一系列重人问题。鼠和人的基因组人小相似,都含有约30亿碱基对,基因的数目也类似,而且大部分同源。但人和鼠差异是如此之大,为什么?通过比较基因组学研究发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体的基因却分布在人的7个染色体上。不同人种间基因组的差别仅为0.1%,人与猿间的差别约为1%。但表型上的差异却十分显著。因此,表型差异不仅应从基因、DNA序列方面找原因,看来更应当考虑它们在基因组上的差异。此外,科学家通过几个完整基因组的比较研究,统计出维持生命活动所需要的最少基因的个数为250个左右,并且从对多种细菌核糖体蛋白基因研究发现,这种蛋白基因序列的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。比较基因组学研究随着基因组序列研究的广泛开展,各种生物的完整基39
通过基因组计划,科研人员知道了基因,知道了核昔酸序列,但却并不知道它们是如何发挥功能的。基因在什么情况下和什么时间表达,表达产物的浓度是多少;是否存在翻译后修饰,若存在是如何修饰的。这些研究内容属于后基因组计划的范畴,在这个计划执行中必定又产生大量的生物信息,必然应用生物信息学的理论和规律来处理,才能了解某些基因的功能。实验表明,在不同组织中表达基因的数目差别很大,脑中表达基因的数目最多,可达3万左右,有的组织中只有几十或几百个基因表达;同一组织
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电工程发展的学术研究与试题及答案
- 西方国家政治家的人格特征研究试题及答案
- 机电工程考试成功经验2025年试题及答案
- 软件开发生命周期管理及试题与答案
- 网络工程师考试准备技巧与试题及答案
- 西方政治制度与教育科技融合的研究试题及答案
- 机电工程知识传承与试题及答案总结
- 网络工程师个案研究试题及答案
- 常见网络协议解析试题及答案
- 网络工程师职业发展的外部环境分析试题及答案
- 2023年四川省水电投资经营集团普格电力有限公司招聘笔试题库含答案解析
- (完整版)高级法学英语课文翻译
- 无人机项目融资商业计划书
- 食品营养学(暨南大学)智慧树知到答案章节测试2023年
- GA 1810-2022城镇燃气系统反恐怖防范要求
- GB/T 2518-2008连续热镀锌钢板及钢带
- 商户撤场退铺验收单
- 部编版小学道德与法治三年级下册期末质量检测试卷【含答案】5套
- 断亲协议书范本
- 五年级语文下册第八单元【教材解读】课件
- 外科围手术期患者心理问题原因分析及护理干预
评论
0/150
提交评论