版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人类基因组计划与生物信息学之间的关系摘要:生物信息学是20世纪80年代末随着人类基因组计划启动而兴起的一门新的交叉学科。本文回顾了人类基因组计划与生物信息学的发展过程,梳理了两者之间的关系。1 人类基因组计划人类基因组计划(Human Genome Project, HGP 由美国科学家Rena to Dulbecco 于1986年率先提出,旨在阐明人类基因组3×109核苷酸序列,破译人类全部遗传信息,使得人类第一次在分子水平上全面认识自我。人类基因组研究的主要任务有两个:(1 “读出” 人类基因组全部ATCG 语言,即全基因组核苷酸顺序测定;(2 “读懂” 人类基因组全部ATCG
2、语言, 即人类全部基因的编码及功能的研究1。1990年美国首先正式启动“人类基因组计划” (HGP , 决定在15年内提供30亿美元的资助, 完成人类全部DNA 分子核苷酸序列的测定。随后, 英国、法国、日本、加拿大、前苏联、中国等许多国家积极响应。1993年马里兰州Hunt Valley 会议上经美国人类基因组研究中心(CHGR 修订后的HGP 内容包括:人类基因组作图(遗传图谱、物理图谱 及序列分析;基因的鉴定;基因组研究技术的建立、创新与改进;模式生物(主要包括大肠杆菌、酵母、果蝇、线虫、小鼠、水稻、拟南芥等 基因组的作图和测序;信息系统的建立,信息的储存、处理及相应的软件开发;与人类基
3、因组相关的伦理、法律和社会问题的研究;研究人员的培训;技术转让及产业开发;研究计划的外延等几方面。HGP 计划前5年的重点是制作遗传图谱和物理图谱,在此过程中不断发展出新的作图、DNA 测序、基因鉴定等实验技术,使研究速度不断加快2。随之而来的是信息的爆炸性增长,迫切需要对海量生物信息进行处理。2001年的春天,科学家公布了人类基因组的绝大部分序列。即:人类基因组的工作草图,这意味着基因组的研究进入信息提取和数据分析的崭新阶段。根据国际数据库的统计1999年12月DNA 碱基数目为30亿,2000年4月DNA 碱基数目是60亿,大约每14个月翻一番。面对如此庞大的数据量,只有通过计算机才能够有
4、效地管理和运行。基因组研究最终是要把生物学问题转化成对数字符号的处理问题,要解决这样的问题就必须发展新的分析理论、方法、技术、工具和依赖计算机的信息处理3。2 生物信息学主要研究内容生物信息学是本世纪80年代末开始随着基因组测序数据迅猛增加而逐渐兴起的一门新兴学科领域, 它的核心是基因组信息学。基因组信息学作为一个学科领域, 包括基因组信息的获取、处理、存储、分配、分析和解释。基因组信息学的关键是“读懂”人类基因组的核苷酸顺序, 即全部基因在染色体上的确切位置及各DNA 片段的功能4。它的内涵包括:要发展有效的能支持大尺度数据需要的软件和数据库; 需产生若干数据库工具, 包括电子网络等远程通讯
5、工具, 能容易地处理日益增长的物理图、遗传图、染色体图和序列信息, 并在这些数据资料中进行比较。要研究算法和分析技术, 用于解释基因组信息, 例如预测功能基因等。不言而喻, 与之相应的计算很多都是大规模的, 有些甚至需要发展新一代巨型机才能完成5。生物信息学的另一个重要任务是进行蛋白质、RNA 等的结构模拟和分子设计以及随之而来的药物设计。它是一门以知识为基础的学科, 关键资源是知识, 关键技术是信息处理。这门新兴学科是由生物学、数学、物理学、化学和计算机科学诸学科交叉发展而成的崭新学科, 是揭示人类及重要动植物种类的基因组信息继而进行生物大分子结构模拟和药物设计的基础, 为天然生物大分子的改
6、性和基于受体结构的药物分子设计提供依据。它不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质具有重要意义, 而且可为人类疾病的诊断和防治开辟全新的途径, 还可为动植物的物种改良提供坚实的理论基础。通过对影响药物代谢或效应通路有关基因的编码序列的再测序, 有可能揭示个体对药物反应差别的遗传学基础6。2.1序列比对(Alignment 。基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础, 非常重要。两个序列的比对有较成熟的动态规划算法, 以及在此基础上编写的比对软件包BLAST 和FASTA , 可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有
7、时两个序列总体并不很相似, 但某些局部片段相似性较高。Smith -Waterman 算法是解决局部比对的好算法, 缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。多重序列对比是指三个以上序列的相似度比较。多重序列对比方法与寻找基因序列的功能区密切相关, 其目的是为了揭示一族功能或进化上相关的序列间的结构相似性。一级多个序列间的相似性在序列的成对比较中通常无法表现出来。一般来说, 把两个序列的比较方法用于几个序列的比较也是不切实际的, 因为这将需要大量计算机内存和运算时间。隐马尔可夫模型近来已用于多重DNA 、蛋白质序列的比较, 并达到了目前流行的标准方法所取得的准
8、确率。吉布斯采样方法也被用来检测微弱序列信息7。2.2 结构预测蛋白质结构预测, 包括2级和3级结构预测, 是最重要的课题之一。从方法学上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属于这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading 方法属于这一范畴。虽然经过30余年的努力, 蛋白质结构预测研究现状远远不能满足实际需要。确定大分子结构X 射线晶体学和核磁共振是在原子水平上推导大分子结构的主要方法。两种方法都产生极大数量的数据, 这些数据的解释完全依
9、赖于高性能的计算机和复杂的处理算法。综合多项实验技术得到的结构信息是分析结构问题的基础。实验数据分析的发展正导致蛋白质结构预测新方法的产生。改进后的预测算法为解决晶体学中的数据分析问题开辟了新的途径, 新的更精细的蛋白质结构使我们能够更为深入地了解蛋白质折叠问题, 这是结构预测的核心8。2.3 分子进化早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化, 构建进化树。既可以用DNA 序列也可以用其编码的氨基酸序列来做, 甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成, 为从整个基因组的角度来研究分子进化提
10、供了条件。序列对比算法确定了两个序列的最大匹配路径, 使得一个序列以最少的变化转变成另一个序列。研究人员常常构建这个编辑 距离函数来摸拟序列在自然进行过程中发生的变化。给定进化上相关序列的一组变异距离, 可以重建表示序列之间进化关系的进化树。这需要快速、高效, 稳定、容错的进化树重建算法。目前, 这些要求是不相容的, 最快的算法不够稳定, 而且不能有效利用序列中的信息。近来的发展产生了推导进化树的新方法, 以及评估进化树可靠度的方法, 并且增进了对方法的总体特性的认识9。3 生物信息学在人类基因组计划中的作用3.1基因组数据获取人类基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32
11、亿个碱基,而早期的DNA 测序仪每个反应只能读取几百到上千个碱基。要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。2003年初在自然、科学两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了3万4万个编码蛋白质的基因。在基因组大规模测序的每一个环节都与信息分析紧密相关10。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖
12、生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的11。3.2 基因的电脑克隆发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。利用EST 数据库发现新基因也被称为基因的电脑克隆。EST 序列是基因表达的短cDNA 序列,它们携带着完整基
13、因的某些片段的信息。2001年10月Genbank 的EST 数据库中人类EST 序列已超过380万条,大约覆盖了人类基因的, 90%以上。我国早在1996年就开始了通过电脑克隆寻找新基因的研究。 原理是找到属于同一基因的所有EST 片段,再把它们连接起来。由于EST 序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST 序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST 连起来,直到发现了它们的全长,这样就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那么就是一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。3.3 发现单核苷酸的多态
14、性(SNP )有的人吸烟喝酒却长寿, 也有人自幼就病痛缠身,同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效,这是他们基因组中存在的差异! 这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP现在普遍认为SNP 研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP 将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP 在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP 位点使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变。从实验操作来看,通过SNP 发现疾病相
15、关基因突变要比通过家系来得容易。有些SNP 并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP 在基础研究中也发挥了巨大的作用,近年来通过生物信息学对SNP 的分析,使得科学家在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。3.4 从功能基因组到系统生物学在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有3万至4万个转录子,有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的。有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基
16、因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱,这就是通常所说的功能基因组研究。为了得到基因的表达谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片(或称DNA 芯片 技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质组技术。由于芯片上样品点的密度很大,可以达到每片几十万,因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。3.5 基
17、于结构的药物设计人类基因组计划的目的之一在于阐明人的约10 万种蛋白质的编码序列, 从而了解蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系, 寻求各种治疗和预防方法, 包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性, 在已知其3 级结构的基础上, 可以利用分子对接算法, 在计算机上设计抑制剂分子, 作为候选药物。这种发现新药物的方法有强大的生命力, 也有着巨大的经济效益。3.6 界面和可视化工具大量复杂的全基因组数据引发了数据可视化描述工具的发展, 在生物信息学中主要见于:(1进行序列操作和分析的图形用户界面, 通过便捷的桌
18、面工具进行数据的浏览和与数据间的互动;(2专门的可视技术, 灵活运用图形、颜色和面积等方法对大量的数据进行描述, 最大限度地利用人类的感官对特征和模式进行挑选;(3可视编程, 属于特殊的、高级的、领域专有的计算机语言中的图形描述算法。虽然已经有几十种综合的图形界面用于基因组数据的处理, 但是它们中有显著效果的并不多, 较多见的是ACEDB , 它那令人印象深刻的具有生物学意义的可视界面为它赢得了第一批用户, 现在它与Java 合用称为JADE(/jade。私人企业正在致力于应用熟练的用户界面建立综合的桌面工具包, 如DNASTAR 、NetGen
19、ics 、InforMax 、DoubleTwist 和Genomia 。可以确定的是, 一些用作基因组注释的系统, 正在进行图形界面的建设。除了发展高度集中的整体系统外, 还有一种向“ 轻量级” 的界面组件发展的趋势。这种理论促进了可重组和可重复利用的软件模块(如多重排列浏览器CINEMA 和其它类似的窗口文件, 可以装配在即插即用的系统内, 迅速地建立新的界面, 例如bioWidgets 系统, 这个系统和其它系统一样执行Java , 它已经产品化, 并且贯穿了以CORBA 为标准进行对象管理的生命科学研究组(http:/ www.lsr .ebi .ac .uk 的工作, 该系统为通用性
20、的工业化标准做出了贡献。3.7 相关软件(1 DNA 序列测序软件:Staden 程序包, 下载网址:http:/www.mrclmb.cam. ac. uk/pubseq/downloads.html。(2DNA序列分析软件:Artemis 是DNA 序列显示和注释工具。网址:http:/www.sanger.ac.uk/software/Artemis/。Genescan 是基因判认工具。网址:/GENSCAN.html。(3PCR和测序所需引物的设计程序:primer3。其网址:/
21、cgibin/primer/ info.cgi/, 也可下载源程序:(/pub/software/。Primer- Design为引物设计程序Ftp:/ftp.chemie.un-imarburg.de(/pub/PrimerDesign/。(4 序列相似性和同源比较:同源比较最常用的软件是CLUSTAL(ftp:/ftpigbmc.ustrasbg.fr/ pub/clustalw。相似性比较最常用的软件是BLAST( blast/和FASTA(http:/www2.ebiac.uk/fasta3/。(5 DNA 序列获取:Retrievehttp
22、:/ /Retrieve/, 通常采用E-mail 方法给这两个服务器发一封带有特定格式和命令的E-mail(R, 很快就可收到带有详细查寻结果的回信。(6 系统进化树构建和稳定性分析:PYLIP(http:/evolution. /phylit.htmlMEGAT( 。人类基因组计划所有工作都涉及到大量数据的处理工作,生物学已不再是仅仅基于试验观察的科学,理论和计算将越来越发挥巨大的作用。人类基因组计划为生物信息学创造了施展身手的巨大的空间。科学家们普遍相信本世
23、纪是人类基因组研究取得辉煌成果的时代,也是它创造巨大的经济效益和社会效益的时代。参考文献1蔡立羽,王志中. 人类基因组计划中的生物信息学J.国外医学生物医学工程分册, 1998,21(1:44-47.2李晋楠. “人类基因组计划”研究进展综述J.浙江师大学报 (自然科学版 ,1999,22(3:69-72.3罗世炜. 生物信息学与人类基因组计划J.生物学通报 ,2005,40(1 :13-14.4张树庸. 人类基因组计划J.实验动物科学与管理, 2003,20(2:41-43.5曹泽虹,高明侠.人类基因组计划的现状及发展趋势J.常州工学院学报,2002, 16(2:61-64. 6 陈润生.生物信息学J. 生物物理学报,1999,15(1:5-12. 7 贺林.解码生命-人类基因组计划和后基因组计划M.北京:科学出版社,2000.8. 8 Waterston RH, Lander ES, Sulston JE.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 退货商品抽样检测协议
- 企业绩效考核方案编制及指标设置
- 冷链物流前置仓运输协议
- 网络营销推广服务协议
- 2025中国南方航空航医岗位社会招聘3人考试笔试备考试题及答案解析
- 配送背包快递服务合同协议
- 企业品牌建设与市场营销综合方案
- 水利工程施工设计与组织方案
- 货物分时配送协议
- 2025福建厦门市集美区杏东小学非在编教师招聘1人考试笔试备考题库及答案解析
- 自动化生产线调试与安装试题及答案
- 2025年国家开放大学《法学导论》期末考试备考题库及答案解析
- 物业公司动火安全管理制度
- 一堂有趣的实验课作文(6篇)
- 幕墙创优工程汇报材料
- 2025年铁岭银行见习生招聘50人笔试备考试题及答案解析
- 老年人穿衣搭配课件
- 【2025年】嘉兴市委宣传部所属事业单位选聘工作人员考试试卷及参考答案
- 二手房意向金合同范本
- 充电桩与后台服务器通讯协议V2G
- 抵御宗教极端思想课件
评论
0/150
提交评论