




免费预览已结束,剩余22页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 生物信息学引论第一节 引言二十世纪是科学技术迅速发展的世纪,物理和化学的发展使我们可以清楚地认识物质的组成,从分子、原子、电子等各层次上深入地了解微观世界,而天文技术、空间技术的发展则使得我们可以了解地球以外的客观世界,以电子信息技术为龙头的工业技术的飞速发展,使得我们可以不断地改造世界,甚至为人类更加舒适地生活创造新的世界。生物科学在二十世纪同样也得到了发展,细胞学、遗传学、分子生物学等学科的发展使我们已经从组织、器官、细胞、生物大分子等各个层次认识了生命的物质基础。生物与其它物质有本质的区别,生命并非是简单的物质堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过程。目前我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知之甚少。既然牵涉到信息的组织、传递和表达,我们未尝不可用信息科学的方法和技术来分析和认识生命信息。1、生物信息学概念传统的生物学是一门实验科学,生物学研究依赖于对实验数据的处理和分析。生物学也是一门发现科学,通过实验发现新的现象、新的生物学规律,经过分析和归纳总结,提炼出新的生物学知识。在这个过程中,需要对实验数据进行处理和理论分析,在此基础上解释实验现象,认识实验现象发生的本质,探索固有的生物学规律,进而了解和掌握生命的物质基础和生命的本质。随着生物科学和技术的迅速发展,生物数据积累速度不断加快,因此也就对生物数据的科学分析方法和实用分析工具提出了更新、更高的要求。人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。人类基因组计划顺利实施,产生了大量的生物分子数据。据权威机构统计,目前生物分子数据量每15个月翻一翻,生物分子数据发展的速度超过了摩尔定律(即半导体芯片上的晶体管数量每18个月翻一翻)。这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,是生物学家、数学家和计算机科学家所面临的一个严峻的挑战。生物信息学就是为迎接这种挑战而发展起来的一门新型学科,它是由生物学、应用数学、计算机科学相互交叉所形成的学科,是当今生命科学和自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一(Benton,1996;Baxevanis et al.,1998;Attwood et al.,1999)。生物信息学(Bioinformatics)这个名词有许多不同的定义。从字面上来看,生物信息学是将信息科学应用于生物学。生物信息学广义的概念是指应用信息科学研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程的中各种生物信息,或者说是生命科学中的信息科学。狭义的概念是指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学研究和应用中利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。一般提到的“生物信息学”是指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)。生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究生物大分子,其研究重点主要落实在DNA分子和蛋白质分子两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为源头,破译遗传语言,认识遗传信息的组织,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据特定蛋白质的结构和功能进行药物分子设计。与生物信息学相关的概念还有计算分子生物学(Computational Molecular Biology),计算分子生物学主要研究分析方法,开发分析工具,促进生物分子数据的分析。与生物信息学相关的另一个名词是生物计算(Biocomputing),生物计算特指用计算机技术分析和处理生物分子数据。生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人类基因组计划的实施。其实在二十世纪50年代就已经产生了生物信息学的基本思想,但是生物信息学的真正发展则是在80年代到90年代之间,在人类基因组计划的推动下,生物信息学得以迅速发展。人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动力。2、生物分子信息生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能量的支持。生物体也是一个信息系统,该系统控制着生物的遗传、生长和发育。所有的信息存贮在生物体内,存贮在遗传物质中。在生命科学研究方面,人们已经逐渐认识到,不仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、复制、传递、表达及其作用,否则难以理解生命的工作机制,难以揭示生命的奥秘。从生物学的观点来看,细胞是生命的基本单位,而从信息科学的观点来看,细胞则是存贮、复制和传递遗传信息的系统(钟义信,1996)。生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,生长发育,产生生物进化。从信息学的角度来看,生物分子是生物信息的载体,生物信息学主要研究两种载体,即DNA分子和蛋白质分子。生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。DNA是遗传信息的载体。DNA的核苷酸序列上存在着蛋白质氨基酸序列编码信息,生命的信息存储在DNA四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达,DNA序列包含着最基本的生命信息。人们已经认识到遗传信息的载体主要是DNA(在少数情况下RNA也充当遗传信息载体),控制生物体性状的基因是一系列DNA片段。一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息。另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成,基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的遗传密码。蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养的输运、信号的识别与传递等。蛋白质功能的多种多样,但是必须注意一点,即蛋白质功能取决于蛋白质的空间结构。要了解和掌握蛋白质的功能必须首先分析蛋白质的结构,对于其它生物大分子也一样。因此,蛋白质结构是一种重要的生物分子信息。然而,而蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。作为信息的载体,DNA分子和蛋白质分子都打上了进化的烙印。通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等。序列数据、结构数据是非常直观的,但是功能数据却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等。在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据。对生物分子数据及其关系的概括见图1.1。遗传信息从DNA序列向蛋白质序列的传递是人类已经基本了解的第一部遗传密码,然而蛋白质序列与蛋白质结构也存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将蛋白质序列到蛋白质结构的关系称为第二部遗传密码。第一部遗传密码已被破译,但对密码究竟处于DNA序列的哪些区域还了解得不全面,对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对DNA遗传语言还有待于进一步探索。对于第二部密码,目前则只能用统计学的方法进行分析。无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。与一般信息相比,生物分子信息具有明显的特征。首先,生物分子信息数据量大,如DNA序列以千兆(GB)为单位。随着信息处理技术进入现代生物学研究领域,随着Internet在全球的贯通,各种生物信息学数据库迅速发展,生物分子数据积累速度成倍增长。其次,生物分子信息复杂,既有生物分子序列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信息,如基因表达信息。生物分子信息一个最重要的特征是,生物分子信息之间存在着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。图1.1 生物分子数据及其关系DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现隐藏在这些信息之中的内在规律。同时,对于生物分子信息,仅靠某一学科的专家,也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数学家和计算机科学工作者协力合作,发展新的分子生物学计算理论和方法,运用先进的计算机技术收集、存储、集成和分析处理生物信息。3、生物信息学的目标和任务揭示生物分子数据的内涵是生物信息学的长远目标。生物分子数据具有深刻的内涵,数据之间存在着复杂的联系,这些数据中蕴涵着丰富的生物学知识和生物学规律(Botstein and Cherry,1997)。生物信息学的发展将揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递及表达,从而加快人类了解自身的进程。目前生物信息学的主要研究任务有三个。第一个任务是收集和管理生物分子数据,使得生物学研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础。生物分子数据来自于生物学实验,应用信息学技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统,并提供数据查询和数据通讯工具。生物信息学的第二个任务是进行数据处理和分析。通过信息分析,发现数据之间的关系,发现本质规律,进而上升为生物学知识。在此基础上解释与生物分子信息复制、传递、表达有关的生物过程,解释生物过程中出现的故障与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基础。生物分子信息处理流程见图1.2。目前生物信息学的主要研究对象是DNA和蛋白质。在DNA分析方面,着重分析DNA序列中的基因信息及基因表达调控信息,分析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组。在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的功能,研究蛋白质家族关系,开展进化分析。生物信息学的第三个任务是开发分析工具和实用软件,解决具体的问题,为具体的生物信息学应用服务,如生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。随着生物技术特别是分子生物学技术的发展,目前已经积累了大量的生物信息学数据,表1.1列出至2001年初已经得到的各类数据量及生物信息学对各类数据处理的基本任务(Luscombe et al.,2001.)。生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学的研究与应用,生物信息学研究成果不断涌现,各种生物信息源如雨后春笋层出不穷,而各种生物信息分析算法和工具也日益更新。 实验 数据 信息 知识收集 表示 分析 建模 刻画特征 比较 推理图1.2 生物分子信息处理流程应 用基因工程蛋白质设计疾病诊断疾病治疗开发新药掌握Internet上各种生物信息学数据库以及相关软件的使用已成为生物学和医学工作者的迫切需要(欧阳曙光等,1999)。尤其是分子生物学的三大核心数据库GenBank核酸序列数据库、SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,不仅是全世界分子生物学工作者获取生物分子的序列、结构和其他信息的基本来源,而且是发表自己的序列或结构测定结果的重要媒体。而围绕这三大核心数据库还有上百个衍生库,这些数据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释。表1.1 至2001年初已经得到的各类数据及基本数据处理任务数据源数据量生物信息学任务DNA序列11.5百万条序列125.0 亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析蛋白质序列40.0万条序列(每条序列平均有300氨基酸)序列比较多重序列比对识别保守的序列模式进化分析大分子结构1.5 万个结构(每个结构平均1000个原子坐标)二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟基因组300个基因组标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析基因表达酵母6000个基因在约20时间点表达值基因表达模式相关分析基因调控网络分析表达调控信息分析4、生物信息学研究对象及研究意义生物信息学研究是从理论上认识生物本质的必要途径。通过生物信息学研究和探索,可以更为全面和深刻地认识生物科学中的本质问题,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。基因序列到蛋白质序列的三联密码关系是众所周知的,也是非常简单、非常确定的。然而基因调控序列与基因表达之间的关系、蛋白质序列与蛋白质结构之间的关系则是未知的,也一定是非常复杂的。破译和阐明生物信息的本质将使得人类对生物界的认识跨越一个新台阶。生物信息学的出现将改变生物学的研究方式(郝柏林等,2000)。传统的生物学是一门实验科学,传统分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手工分析完全能够胜任。然而随着分子生物学技术的发展,已经出现一些高通量的实验方法,如基因芯片(Chee,et al.,1996;Marshall and Hodgson,1998),利用基因芯片一次可以获取上千个基因的表达数据。生物学已经从一次只分析一个生物分子的时代跳跃到同时分析成千上万个生物分子的时代。对于高通量的实验结果,必须利用计算机进行自动分析。因而,在高通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验。再一方面,从生物分子数据本身来看,各种数据之间存在着密切的关系,如DNA序列与蛋白质序列、基因突变与疾病等,这些联系反映了生物学的规律。但是这些关系可能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析的。对于这些复杂的关系,必须运用现代信息学的方法去分析,去研究。因而,随着分子生物学研究的深入,必然需要生物信息学。另外,现在全世界每天都会产生大量的核酸和蛋白质序列,不可能用实验的方法去详细研究每一条序列,必须首先进行信息处理和分析,去粗取精,去伪存真。通过预处理,发现有用的线索,在此基础上进行有针对性、有明确目的的分子生物学实验。因而,生物信息学在指导实验、精心设计实验方面将会发挥重要的作用。科学家预言:生物信息学将是21世纪生物学的核心。生物信息学研究在医学上也有重要的意义。通过生物信息学分析,可以了解基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据(Jimenez-Sanchez et al.,2001;Futreal et al.,2001)。研究生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用的目标和作用的方式,从而为设计新药提供依据(Lyall,1996;赵善荣等,1997;李伟章等,1999;Drews,2000)。揭示人类及重要动植物种类的基因的信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在迅速发展的自然科学领域最重大的课题之一,不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础。第二节 生物信息学的发展历史早在19世纪,人们就已经知道蛋白质在生命活动中的作用。1883年,Curtius首先提出蛋白质线性一级结构的假设。1933年,Tiselius首次通过电泳将溶液中的蛋白质分离出来。在20世纪50年代前后,已经通过实验测定一些蛋白质的序列,如1947年测出短杆菌(gramicidine)的五肽结构(Consden et al.,1947),1951年重构胰岛素的30个氨基酸(Sanger and Tuppy,1951)。几乎同一时期,科学家认识到DNA是遗传物质。1949年,发现了DNA链中A=T、G=C的规律(Chargaff et al.,1949),1951年,Pauling和Corey提出蛋白质的a螺旋和b折叠结构,1953年Watson和Crick根据Franklin和Wilkins得到的X-射线衍射数据提出DNA的双螺旋结构模型(Watson and Crick,1953),它揭开了分子生物学研究的序幕。在其后的20年中,科学家们逐步地认识了从DNA到蛋白质的编码,掌握了三联密码子的本质(Trifonov,2000)。1961年,Jacob和Monod发现大肠杆菌的lac操纵子中存在调控元件,证实非编码序列并不是垃圾序列。1962年,Khesin等人发现噬菌体中的基因转录表达具有定时调节机制。60年代出现通用的核酸测序技术,70年代中期开始进行基因组规模的测序工作(Trifonov,2000)。早在20世纪50年代,生物信息学就已经开始孕育,1956年在美国田纳西州的Gatlin burg召开了首次“生物学中的信息理论研讨会”。在20世纪60年代,一些计算生物学家开始进行相关研究,虽然当时没有具体地提出生物信息学的概念,但是做了许多生物信息搜集和分析方面的工作。在这个时期,生物大分子携带信息成为分子生物学的重要理论(Hagen JB. 2000),生物分子信息在概念上将计算生物学和计算机科学联系起来。大量的生物分子序列成为丰富的信息源,科学家们开始应用计算方法分析这些信息。相关或者同源蛋白质序列之间的相似性首先引起人们的注意,1962年,Zucherkandl和Pauling研究了序列变化与进化之间的关系(Zuckerkandl and Pauling,1962),开创了一个新的领域分子进化(molecular evolution)。随后,通过序列比较确定序列的功能及序列分类关系成为序列分析的主要工作。氨基酸序列的收集是这个时期的一个重要工作,1967年,Dayhoff研制出蛋白质序列图集(Dayhoff 1969),该图集后来演变为著名的蛋白质信息源PIR。20世纪60年代是生物信息学形成雏形的阶段。然而就生物信息学发展而言,它却是一门相当年轻的学科,一般认为,生物信息学的真正开端是20世纪70年代。从70年代到80年代初期,随着生物化学技术的发展,产生出大量的序列数据,而在这个阶段数学统计方法和计算机技术都得到较快的发展,于是促使一部分计算机科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。他们开始研究生物分子序列,研究如何根据序列推测结构和功能。这时,生物信息学开始崭露头角。从70年代初期到80年代初期,出现了一系列著名的序列比较方法,其中Needleman和Wunsch于1970年提出的序列比对算法是对生物信息学发展最重要的贡献(Needleman and Wunsch,1970)。同年,Gibbs和McIntyre发表的矩阵打点作图法也是进行序列比较的一个著名方法,该方法可用于寻找序列中的重复片断,从而推测其功能(Gibbs and McIntyre,1970)。Dayhoff提出的基于点突变模型的PAM矩阵(Dayhoff 1969;Dayhoff et al.,1978)是第一个广泛使用的氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。Science期刊于1980年第209卷发表了关于计算分子生物学的综述。1981年Smith和Waterman提出了著名的公共子序列识别算法(Smith and Waterman,1981),同年,Doolittle(Doolittle,1981)提出关于序列模式(motif)的概念。1983年,Wilbur和Lipman发表了数据库相似序列搜索算法(Wilbur and Lipman,1983)。1985年,出现快速的蛋白质序列搜索算法FASTP/FASTN,1988年,Pearson和Lipman发表了著名的序列比较算法FASTA(Pearson and Lipman,1988)。1990年,快速相似序列搜索算法BLAST问世(Altschul et al.,1990),1997年,BLAST的改进版本PSI-BLAST投入实际应用(Altchul et al.,1997)。在20世纪70年代,还不断涌现出许多生物信息分析方法。1972年,Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的(Gatlin,1972)。1977年,出现了将DNA序列翻译成蛋白质序列的算法(Korn et al.,1977;McCallum and Smith,1977)。1975年,继第一批RNA(tRNA)序列的发表之后,Pipas和McMahon首先提出运用计算机技术预测RNA二级结构(Pipas and McMahon,1975)。1978年,Gingeras等人研制出核酸序列中限制性酶切位点的识别软件(Gingeras,1978)。20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。1982年核酸数据库GenBank第3版公开发行。1986年,日本核酸序列数据库DDBJ诞生。1986年,出现蛋白质数据库SWISS-PROT。1988年,美国国家卫生研究所和美国国家图书馆成立国家生物技术信息中心NCBI。同年,成立欧洲分子生物学网络(EMBnet),该网络专门发布各种生物数据库。在20世纪90年代后,科学家们开始大规模的基因组研究。1986年,出现基因组学(Genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动,该计划被誉为生命科学的“阿波罗登月计划”。1993年,成立Sanger中心,该中心专门从事基因组研究。1995年,第一个细菌基因组被完全测序,1996年,酵母基因组被完全测序。1996年,Affymetrix生产出第一块DNA芯片。1998年,第一个多细胞生物线虫的基因组被完全测序。1999年,果蝇的基因组被完全测序。1999年年底,国际人类基因组计划联合研究小组宣布人类第一次获得一对完整人染色体第22对染色体的遗传序列。2000年6月24日,人类基因组计划协作组的6个国家研究机构在全球同一时间宣布已完成人类基因组的工作框架图。与此同时,生物信息学在人类基因组计划的促动之下迅速发展。图1.3 描绘了从1973年以来生物医学文献数据库PubMed中搜集的与生物信息学相关论文的历年统计结果。这张图从有关生物信息学论文数量的变化说明了何时是生物信息学的形成初期,何时是生物信息学的迅速发展期。无论从理论上来讲还是从实际情况来看,生物信息学的实质就是利用计算机科学和技术来解决生物学问题。生物信息学的诞生是生物学对大量数据处理和分析的需求而引发,是历史的必然。作为一门交叉学科,生物信息学的发展依赖于计算机科学技术和生物技术的发展,而生物信息学的研究成果又促进了生物学特别是分子生物学的发展。关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:/Education/BLASTinfo/milestones.html、/bioinformatics/。与生物信息学相关文章的篇数在PubMed中所占比例2.0%1.8%1.6% 1.4%1.2%1.0%0.8%0.6%0.4%0.2%0.0%在PubMed中所占比例在PubMed中的文章数00999897969594939291908988878685848382818079787776757473900080007000600050004000300020001000 0 年 份图1.3 PubMed中与生物信息学相关论文统计第三节 人类基因组计划和基因组信息学目前,生物信息学的核心是基因组信息学,生物信息学在人类基因组计划的大力推动下迅速发展。人类DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。人类为了探索人体自身的奥秘,把研究目标对准在基因上。在人类基因组计划以前偏重于研究单个基因,但人体的生长发育是基因组各个基因相互作用、协同工作的结果,人的疾病也往往与多基因相关,因此人类基因组计划将目标对准整个基因组,从整体水平去考虑基因的存在、基因的结构与功能、基因之间的相互关系等。1、人类基因组计划简介人类基因组研究又称“基因组学”(genomics)。人类基因组研究是在人类迫切需要认识自身的前提下产生的(李伟等,2000)。人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大科学计划(Collins et al.,1998),与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划,该计划在世界各国引起了很大反响。人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息(杨焕明等,2000;贺林,2000;Baltimore,2001)。人类基因组计划的具体任务可以概括为建立四张图谱,分别是遗传图谱、物理图谱、序列图谱和转录图谱。遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。限制性酶切图谱是一种高分辨率的物理图谱,它显示的是各种限制酶切点的相对位置,限制性酶切点是物理图谱中最主要的界标。人类基因组计划中用的是基于STS(sequence tagged site)的物理图谱,在这一图谱中基因组的某些区段比其它区段得到更详细的绘制。物理图谱中STS标记的平均间隔可以为寻找和分离目的基因以及DNA测序提供重要基础。物理图谱是以核苷酸的长度为单位绘制而成的。完成遗传图谱和物理图谱是建立序列图谱的前提条件。人类基因组全部DNA序列的测定是HGP的核心部分。随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作,而大规模测序技术的改进及分析大片段DNA序列的生物信息技术的进步,对完成人类基因组全部核苷酸序列的测定起着决定性作用。测序的完成依赖物理图谱上排序的DNA片段分子克隆,这些分子图谱通常是在较短的时间由一个研究组从单一分离群体中获得的。为了充分利用所有的信息,要对其全部标记同时进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。现在多采用凝胶电泳法进行测序,但由于每次测序的DNA片段长度仅为几百到一千个碱基,故大片段DNA测序必须分解为一系列小片段进行。因此,利用定向和随机测序方法获得连续的小片段是大规模DNA测序的关键。随着自动化技术的迅猛发展,测序反应的许多步骤已实现自动化。例如应用自动测序仪可将凝胶电泳、初始信息收集、碱基阅读等步骤自动化,具有手工测序不可比拟的可重复性和高效性,适用于人类基因组的大规模测序。通过测序得到基因组的序列图谱。图1.4 细胞、染色体和HGP所要得到的四张图谱(引自贺林,2000,经过编辑)细胞核细胞染色体遗传图谱物理图谱序列图谱转录图谱0.7cM或1kb100kbSTS map转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。因为人类基因组中有许多不参与蛋白质编码的内含子,所以只有识别出其中的蛋白质编码序列,才能够做到基因识别(gene identification)。基因识别包括识别基因组编码区或称“开放阅读框架 (open reading frame,ORF)”,识别基因结构。基因识别是HGP的重要内容之一,其目的是识别全部人类的基因,即基因组在生命活动中发生转录表达的DNA片段,并对其结构进行研究。基因识别需采用生物信息学、计算生物学技术和生物学实验手段,并将理论方法和实验结合起来。基于理论的方法主要从已经掌握的大量核酸序列数据入手,发展序列比较、基因组比较及基因预测理论方法。基因识别目前常采用的有二种方法:一是从基因组序列中识别那些转录表达的DNA片段;二是从cDNA文库中挑取并克隆。两种方法都必须依靠生物信息学的帮助即信息系统的建立,前者需要对基因组进行分析,后者要对基因文库进行分析,甚至还要进行分类分型,建立二级库,才能有效地挑取到所需要的DNA分子克隆。将已知基因定位于物理图谱和DNA序列图谱是基因识别的另一个前提,对此通常采用染色体荧光标记原位杂交的方法。除此之外,还必须确定特定基因在生物体的那些组织、细胞里表达,也就是基因的表达模式问题,这是对基因的可能功能进行推测必不可少的信息。DNA微阵列或基因芯片是进行基因表达分析的关键技术。图1.4显示了细胞、染色体和人类基因组计划的四张图。模式生物基因组在HGP中占有重要的位置。模式生物基因组结构相对比较简单,单位DNA片段上基因的密度高,易于进行基因的识别。从进化角度讲,生物的许多基因有很大的同源性,对模式生物基因的分析有助于阐明人类基因的结构与功能。人类基因组计划中包括5种模式生物,分别是大肠杆菌、酵母、线虫、果蝇和小鼠。这5种模式生物具有代表性,其中大肠杆菌是经典的实验材料,是基因工程和蛋白质工程中常用的生物。酵母是最简单的真核生物,只有一个细胞,一个细胞就组成一个独立的生物体,研究中选用的酵母是啤酒酵母。对线虫的发育过程进行研究,可以知道成虫的每一部分是怎么发育起来的。果蝇是经典遗传学家喜欢的实验生物,摩根就是根据果蝇实验而发现遗传学中著名的“连锁交换律”。小鼠作为实验动物,也不知道为人类作出了多少贡献,它是人类的近缘亲戚,也是哺乳动物,只有几亿年的进化距离,其基因组规模与人类差不多,基因的数目与人也差不多。对致病基因的克隆也是人类基因组计划的内容。疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或调控,即可达到治疗某一疾病的效果。如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断,甚至治疗。人类基因组计划的实现将对医学事业(陈竺等,2001)、生物学的研究乃至人类生活的各个领域产生不可估量的影响,这一点已不容置疑。人类的任何疾病都与人类的基因有关,都是人类基因组与病原基因组中的有关基因相互作用的结果。例如,所有癌症都是由于DNA序列的变化引起的,在人的一生中,细胞中的DNA不断受到癌诱导物质的侵扰,同时也处于自身复制错误的危险之中,每个细胞中DNA都可能发生变化,在大部分情况下这些变化不会对人体产生太大的影响,但是在极端的情况下,DNA序列的变化可能会导致关键基因功能的变化,引起细胞增殖的失控。上个世纪中叶,特别是70年代,人类组织的攻克肿瘤的尝试,建立了“基因病”的概念,即不仅疾病与基因相关,而且所有药物都是通过基因起作用的,都是通过修饰基因的本身结构、改变基因的表达调控、影响基因产物的功能而起作用的。要认识疾病,就一定要认识致病基因。例如,比较正常细胞的基因组和癌细胞基因组可以发现引发癌症的基因突变、基因组紊乱。又如,通过家系寻找与疾病相关的基因,图1.5表示通过定位克隆技术寻找遗传疾病基因的过程(Schuler et al.,1996)。对疾病基因按产物功能分类,并进行统计分析,可以发现酶或者调控蛋白影响疾病的可能性最大。粗略估计,大约10%的人体基因是可能的药靶,这3000个候选基因具有重要的社会经济价值,国际上每个大的制药公司只能掌握其中的几个,制药业面临着新的挑战。图1.5 通过定位克隆技术寻找疾病基因的过程(Schuler et al.,1996)家系研究 染色体水平 寻找克隆片段 候选基因 发现与疾病相关的突变遗传图谱物理图谱转录图谱 基因测序人类基因组计划得到的是人类基因组的蓝图,但是个体基因组之间并非完全相同,存在着大约0.1%的差距,这就是所谓的基因多态性。这种基因组之间的差异规定了人与人的不同,利用基因多态性可以进行亲子分析,实现个人身份鉴别。对基因多态性的分析将会使我们能够揭示个人能力的遗传学基础,这些个人能力包括计算能力,记忆能力,身体协调性,甚至可能是创造力。基因多态性在医学上表现为不同的人对基因的易感性或抵抗性,同时也表现为针对同样疾病同样治疗的效果不一样,有的人病愈,有的人则治疗效果不明显。基因组计划(特别是即将进行的人类基因变异图谱计划)将促进个体化治疗的发展,在不久的将来,我们可以根据不同患者的致病基因,研制出适合于他们的治疗药物。如果真能做到“因人施药”,可能是基因组研究给患者带来的最大福音。人类基因组计划建立的人类基因组图,可以理解成“人体第二张解剖图”。人体解剖图告诉我们人体的构成、主要器官的位置、结构与功能,了解所有组织与细胞的特点,这才有了现代医学。而人类基因组计划绘制成的第二张解剖图将成为疾病的预防、预测、诊断、治疗及个体医学的参照,为在分子层次上进行生物医学研究提供了科学依据。这张新的解剖图将使人类的医学水平上一个新台阶,将促进产生新的生物医学技术。人类基因组计划进行得非常顺利,原定于2005年的完成时间已提前到2003年,目前高分辨率的遗传图谱和物理图谱已构建成功,一些模式生物的基因组测序工作已经完成。1999年底科学家成功地确定了人类第22条染色体上所有核苷酸的成分,人类第一次破译出人的一对染色体的全部遗传密码。我国于1999年9月正式参与人类基因组计划,并承担了1%的测序任务,成为国际上承担HGP任务的6个国家之一。人类基因组计划的实施还有着许多重要的意义。第一,人类基因组是用遗传语言书写的一本“天书”,为了研究遗传语言,我们必须首先要得到这本天书。人类基因组计划提供给我们这本天书,为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便。通过人类基因组计划得到存在于天书中的调控人体生长、发育的整套指令,使人类对自身有一个根本的了解。第二,人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。第三,同时研究多种模式生物基因组将有助于研究地球生物的进化史。2、人类基因组计划给生物信息学提出挑战随着HGP的提出和实施,实验数据和可利用信息急剧增加,HGP提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为HGP的一项重要的工作,HGP向信息学提出了巨大的挑战。值得庆幸的是,HGP一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。早在HGP提出时人们就预示到生物信息学的重要性,当时成立了由几十位著名专家组成的生物信息学研究组,而在基因组计划实施后,生物信息学的重要性也真正地展示出来了。生物信息学应用于基因组研究,成为基因组信息学。基因组信息学的主要任务是收集和管理基因组数据,分析和处理DNA、RNA、基因表达等各类信息,对照比较基因组数据,发现新的基因,阐明基因的结构和基因的功能(Lim and Canto,1995;陈润生,1999;刘洪斌,2000)。信息的收集、储存、分发、分析是人类基因组计划最初提出时确定的基本任务。计划实施后,每天都有成千上万条基因组数据,数据的取舍非常重要,数据的标准化和检验成为信息处理的第一步工作。在此基础上建立数据库,存储和管理基因组信息。人类基因组计划产生多种信息,需要对大量原始数据进行分类,建立具有特定功能的数据库。处理原始的数据库,通过分析、分类,按照需要建立二级数据库。二级数据库是进一步研究开发基因组的重要手段,通常是封闭的,不对外开放,仅供内部使用。基因组数据必须提供给广大的科学工作者使用,基因组数据管理系统要提供友好的数据查询界面,使得一般科学工作者能够非常方便地获得相关生物分子信息,这样才能有效地利用已有信息,使人类基因组数据真正地造福于人类。另外,基因组数据复杂,为了便于理解这些数据,需要借助于计算机可视化技术,通过表格、图形、图像、动画等各种方式形象地表示基因组数据。当然,从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。这需要开发分析软件,分析软件是有效利用基因组信息的工具,同时分析软件也是构建二级、三级数据库的条件和手段。分析软件还可将不同性质数据库中的数据结合一起,综合分析,如将基因组序列数据和蛋白质数据结合计算,可以推断结构和功能的关系,从而成为一种发现新信息的快捷方法。进行大规模基因组序列测定的基本条件是构建能够覆盖每条人类染色体而重叠度又最小的连续克隆系。这些克隆系所包含的大片段DNA无法一次测序,需要随机剪切成有重叠区的小片段,然后逐段测序,并根据各片段之间的重叠关系再装配成全序列,这就涉及到非常复杂的计算数学问题,研究新算法是解决DNA序列拼接自动化的关键。从酿酒酵母的全基因序列测序中,可以看出生物信息学在基因组信息数据分析的作用。90年代初,全世界600名科学家联合起来,在短短几年内完成12的酿酒酵母的全基因组测序,找出5885个编码蛋白质的基因,390个转录Rrna、snRNA和tRNA的基因。这些基因大约60 %是通过信息分析得到的。如此迅速的进展得益于生物技术的发展,得益于信息科学的渗透,得益于生物信息学方法和技术的发展和应用。HGP即将完成,我们即将进入“后基因组学”(post-genomics)时代。基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,这种转向的一个标志是产生了功能基因组学(functional genomics)这一新学科。基因组学实际上是为功能基因组学做准备,一旦功能基因组学进入实质性的发展阶段,人类将可以从中获得更大的利益。功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用(Gershon,1997;解涛,2000;赵剑华等,2000;Peltonen and McKusick,2001)。功能基因组学从基因组整体水平上对基因的活动规律进行阐述,这从根本上改变了传统生物学的思维方式。传统的“还原论”方法是一种假设驱动的方法,即反复验证已经存在的关于特定基因或蛋白质功能的假设,但是不能产生新的假设。随着生物学技术和计算技术的发展,逐渐形成一种新的全局方法:基因组表达图谱(转录分析,如在mRNA水平上通过DNA芯片技术检测大量基因的表达模式)和大规模蛋白图谱(蛋白组分析)方法。在使用全局方法进行研究时,研究人员同时检测大量基因的表达水平,从而在整体水平上获得关于基因功能及基因之间相互作用的信息。与还原论不一样,这种研究方法能够积极地产生许多新的假设。如果说生物信息学在HGP中的着重点是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。在功能基因组时代,应用生物信息学方法,高通量地注释基因组所有编码产物的生物学功能是一个重要的特征。功能基因组学的研究主要包括以下几个方面的内容,并且这几方面都与生物信息学密切相关。(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图;(4)比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能(Pellegrini et al.,1999)。在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。基因组是生物进化史的记录,是生物物种的数据库。目前,我们有了越来越多的模式生物全基因组序列数据,因而,对于基因的比较研究,也必须从单个基因的比较上升到对不同进化水平的生物在全基因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高铁站台安全知识培训课件
- 集安市2025-2026学年七年级下学期语文月考模拟试卷
- 电路基础自锁知识培训课件
- 电芯厂消防知识培训课件
- 高边坡施工安全知识培训课件
- 电脑贴膜专业知识培训课件
- 高血压病课件
- 电脑知识培训活动课件
- 电脑知识培训实施方案课件
- 智慧化工园区数字孪生应用方案
- 石料场开采方案
- 苏教版 六年级数学上册全套下载(全册)合集(含整理与复习)课件
- 2019三福百货品牌介绍51P
- 《安徒生童话》读书分享名著导读ppt
- 部编版五年级上册语文 第10课 牛郎织女(一) 课后习题重点练习课件
- 第1章制图基础-金大鹰
- 清欠工作管理制度管理办法
- (高清版)GB_T 40921-2021发泡聚丙烯(PP-E)珠粒
- 护理质量管理会议记录范文
- 干砌石护坡施工工艺标准
- 教育资料(2021-2022年收藏的)有色金属国际贸易操作实务概要
评论
0/150
提交评论