生物信息学在人类基因组计划中的应用

上传人：m*** IP属地：天津上传时间：2022-03-09 格式：DOCX 页数：12 大小：27.54KB 积分：18 举报 版权申诉

免费预览已结束，剩余7页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、生物信息学在人类基因组计划中的应用作者：佚名来源：生命经纬 2005-4-8 16:03:00生物信息学是当前牛物学领域的研究热点,预计在未来的若干年它将变得越来越重要、越来越引起人们的重视。近期任务由于未来几年蛋白质和核酸的测序数据将以指数方式增加，近期生物信息学将在以下几方面迅速发展：大规模基因组测序中的信息分析大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设

2、讨和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列，这在含有约30%重复序列的人类基因组中显得尤其突出。新基因和新SNPs （单核甘酸多态性）的发现与鉴定人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含的6千多个基因，大约60%是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。"这就是通常所说的 SNPs (单核甘酸多态性)。构建SNPs

3、及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以 EST为主发现新Spps的研究。在我国开展中华民族 SNPs研究也是至关重要的。完整基因组的比较研究现在，生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析，比如：研究生命是从哪里起源的？生命是如何进化的？遗传密码是如何起源的？估计最小独立生活的生物至少需要多少基因，这些基因是如何使它们活起来的？比如，鼠和人的基因组大小相似，都含有约三十亿碱基对，基因的数目也类似。可是鼠和人差异确如此之大，这是为什么？同样，有的科学家估计不同人种间基因组的差别仅为0. 1%;

4、人猿间差别约为I%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA序列找原因，也应考虑到整个研究组、考虑染色体组织上的差异。总之，这些例子说明由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。大规模基因功能表达谱的分析随着人类基因组测序逐渐接。近完成、一些学者就提出如下的问题：即使我们已经获得了人的完整基因图谱，那我们对人的生命活动能说明到什么程度呢？于是他们提出了一系列由上述数据所不能说明的问题，例如：基因表达的产物是否出现与何时出现；基因表达产物的浓度是多少；是否存在翻译后的修饰过程，若存在是如何修饰的；基因敲出(knock-out)或基因过度表达的影

5、响是什么；多基因的表现型如何，等。概括这些问题，其实质应该是：我们虽然知道了基因，知道了核酸序列，但我们不知道它们是如何发挥功能的，或者说它们是如何按照特定的时间、空间进行基因表达的，表达量有多少。为了得到基因表达的功能谱，国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的 DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质遣技术，也称蛋白质组技术。生物大分子的结构模拟与药物设计随着人类基因组计划的执行，估计几年之内就可找到人类的8万到10万个基因，也就是发现它们的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础，必须进一步知道它们的三维结构。与此同时，要

6、设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。远期任务生物信息学的远期任务是读懂人类基因组，发现人类遗传语言的根本规律。从而阐u若干生物学中的重大自然哲学问题，像生命的起源与进化等。这一研究的关键和核心是了解非编码区。非编码区信息结构分析近年来完整基因组的研究表明，在细菌这样的微生物中非编码区只占整个基因组序列的10%到20%。而高等生物和人的基因组中非编码区都占到基因组序列的绝大部分。从生物进化的观点看来，随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明：这部分序列必定具有重要的生物功能。普遍的认识是，它们与基因在四维时空的表达调控有关。因此寻找

7、这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。对人类基因组来说，迄今为止，人们真正掌握规律的只有DNA上的编码蛋白质的区域（基因），很多资料说u这部分序列只占基因组的 3%到5%,也就是说，人类基因组中多达 95%到97%是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。遗传密码起源和生物进化的研究自1859年Darwin的物种起源发表以来，进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史（系统进化树）和探索进化过程的机制。自本世纪中叶以来，随着分子生物学的不断发展，进化论的研究也进入了分子水

8、平。当前分子进化的研究已是进化论研究的重要手段，并建立了一套依赖于核酸、蛋白质序列信息的理论方法。近年来，随着序列数据的大量增加，对序列差异和进化关系的争论也越来越激烈。不少的研究结果并不支持分子钟的假设。因为基于某一种分子序列所重构出的进化树，只能反映这种序列的系统发育关系，并不一定能代表物种之间真正的进化关系，即可能存在着基因树与物种树之间的差异。同时，对垂直进化和水平演化之间关系的讨论正逐渐引起人们的重视。当前的资料给了我们。一个更为复杂也更为丰满的进化模式，它启示我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。总之，当前是生物信息学研究的一个有活力的新时代

9、。不少科学家还说它是人类基因组研究的收获时代，它不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长，这是一个难得的机会，我国应尽早利用这些数据就可能走在国际科学界的最前沿。论文关键词生物信息学生命科学论文摘要生物信息学是80年代以来新兴的一门边缘学科，信息在其中具有广阔的前景。伴随着人类基因组计划的胜利完成与生物信息学的发展有着密不可分的联系，生物信息学的发展为生命科学的发展为生命科学的研究带来了诸多的便利，对此作了简单的分析。、生物信息学的产生21世纪是生命科学的世纪，伴随着人类基因组计划的胜利完成，与此同时，诸如大肠

10、杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施，使分子生物数据以爆炸性速度增长。在计算机科学领域，按照摩尔定律飞速前进的计算机硬件，以及逐步受到各国政府重视的信息高速公路计划的实施，为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源，已经成为生命科学和生物技术研究开发的必要手段，从而诞生了生物信息学。二、生物信息学研究内容（一）序列比对比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现

11、在已有较成熟的动态规划算法，以及在此基础上编写的比对软件包 BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似，但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法，缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。（二）结构比对比较两个或两个以上蛋白质分子空间结构的相似性或不相似性O（三）蛋白质结构预测从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白

12、质结构规律出发来预测未知蛋白质的结构。同源模建和指认（Threading）方法属于这一范畴。虽然经过 30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。（四）计算机辅助基因识别给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。（五）非编码区分析和 D

13、NA语言研究在人类基因组中，编码部分进展总序列的 35%,其它通常称为垃圾" DNA其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆DNA序列作为一种遗传语言，不仅体现在编码序列之中,的想象和崭新的研究思路和方法。而且隐含在非编码序列之中。三、生物信息学的新技术(一)Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用 DNA探针阵列进行基因组研究的方法，其原理是通过更有效有作图、表达检测和多态性筛选方法，可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核甘酸探针的阵列，这种

14、通过软件包件设计的寡核甘酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析，以获得序列、表达和基因分型信息。Milosavljevic(CuraGen, Branford, CT, USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统，以及一种发现基因的系统 GeneScapa为了有效地抽样表达，特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证，并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。(二)基因的功能分析Overton(University of P

15、ennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB ,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶，制药业所感兴趣的是全新的药物靶， EpoDB提供了这样一个机会，这可能是它最

16、令人激动的地方。Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解，要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现，因而区分得分低(low-scoring )但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。Babbit证明了通过使用 BLAST检索，可以在数据库搜索所得的低得分区识别远缘关系(distant relationship ) o Levitt(Stanford

17、 univeersity,Palo Alto,CA,USA) 讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因编码的蛋白质的三级结构，但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能，结构必须确定。同源模建和从头折叠( ab initio folding )方法是两种现有的互为补充的蛋白质结构预测方法；同源模建是通过片段匹配( segment matching )来完成的，计算机程弃SegMod就是基于同源模建方法的。(三)新的数据工具Letovsky(Johns hopkins University,Baltimore,MD,USA) 介

18、绍了 GDB 数据库，它由每条人类染色体的许多不同图谱组成，包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容，以及由不同研究者用同种方法得到的图谱。就位置查询而言，如果不论其类型(type) 和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的，该数据库使用了一种公用坐标系统( common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。Candlin(PE appli

19、ed Biosystems,Foster City,CA,USA)介绍了一种新的存储直接来自AB IPrism dNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成，并可方便地与其它软件包自动调用，为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。参考文献：1Lim HA,Batt tR.TIBTECH,1998;16(3):104.2Williams n.Science,1997;277(5328):902.计算机技术和人类基因组计划的发展，应运而生了一门新兴的学科一一生物信息学，该学科包含了两个交叉领域的工作：用于建立现代生物学所需信息系统框架

20、(支持生物学的信息管理系统、分析工具和通讯网络)的研究开发工作，即传统意义上的生物信息学(bioinformatics )；旨在理解基本生物学问题的基于计算的研究工作，即计算生物学(computational biology )。生物信息学和基因组研究( Bioinformatics and Genome Research) 系列会议于1990年开始举办，1997年6月1112日在美国加州旧金山举办了第六届国际生物信息学和基因组研究年会，年会的主要议题包括正在出现的新技术、基因的功能分析、新的数据工具和制药先导的基因和蛋白质发现1。现将有关内容简介如下：、正在出现的技术Klingler(L

21、ncyte pharmaceuticals,PaloAlto,CA,USA)强调基因组学正推动制药业进入信息时代。随着不断增加的序列、表达和作图数据的产生，描述和开发这些数据的信息工具变得对实现基因组研究的任务至关重要。他谈到了 Incyte pharmaceuticals对大规模基因组数据和生物信息学的贡献。Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法，其原理是通过更有效有作图、表达检测和多态性筛选方法，可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核甘酸探针的阵列，这种通过软件包

22、件设计的寡核甘酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA 杂交分析，以获得序列、表达和基因分型信息。 Milosavljevic(CuraGen, Branford, CT, USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统，以及一种发现基因的系统GeneScape为了有效地抽样表达，特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证，并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。、基因的功能分析Overton(University of Pennsy

23、lvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务一一基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB ,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的 bioWidget图形用户界面。EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶，制药业所感兴趣的是全新的药物靶，EpoDB提供了这样一个机会，这可能是它最令

24、人激动的地方。Sali(Rockefeller university,New York,NY ,USA)讨论了同源蛋白质结构模建。比较蛋白质模建(comparative protein modeling )也称为同源模建(homology modeling ),即利用实验确定的蛋白质结构为模式(模型)来预测另一种具有相似氨基酸序列的蛋白质(靶)的构象。此方法现在已经具有了足够的精确性，并且被认为效果良好，因为蛋白质序列的一个微小变化通常仅仅导致其三维结构的细微改变。Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜

25、索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解，要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现，因而区分得分低(low-scoring )但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。Babbit证明了通过使用 BLAST检索，可以在数据库搜索所得的低得分区识别远缘关系(distant relationship ) o Levitt(Stanford univeersity,Palo Alto,CA,USA) 讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因

26、编码的蛋白质的三级结构，但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能，结构必须确定。同源模建和从头折叠( ab initio folding )方法是两种现有的互为补充的蛋白质结构预测方法；同源模建是通过片段匹配( segment matching )来完成的，计算机程弃SegMod就是基于同源模建方法的。三、新的数据工具Letovsky(Johns hopkins University,Baltimore,MD,USA) 介绍了 GDB 数据库，它由每条人类染色体的许多不同图谱组成，包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容，以及由不同研究者用

27、同种方法得到的图谱。就位置查询而言，如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的，该数据库使用了一种公用坐标系统( common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。Markowitz(Lawrence berkeley Laboratory,Berkeley,CA,USA)讨论了分布式数据库与局部管理的关系，以及用基于工具的方法开发分子生物

28、学数据库( MDBs)的问题。许多方案当前正在促进搜索多种不同来源MDBs的数据，包括建立数据仓库；这要求对各种MDBs的组合有一种全局观，并从成员MDBs中装填数据入中心数据库。这些方案的主要问题是开发整体视图(global views),构建巨大的数据仓库并使集成的数据库与不断发展中的成员 MDBs同步化的复杂性。 Markowitz还讨论了对象协议模型(object protocol model,OPM ), 并介绍了支持以下用途的工具：建立用于文本文件或者关系MDBs的OPM视图；将MDBs作成一个数据库目录，提供MDB名称、定位、主题、获取信息和MDB间链接等信息；说明、处理和解释

29、多数据库查询。Karp(SRI international,Menlo Park,CA,USA) 解释了 Ocelot, 一种能满足管理生物学信息需求的面向对象知识陈述系统(一种面向对象系统的人工智能版)。Ocelot支持略图展开(schema evolution)并采用一种新的最优化并行控制机制(同时进行多项访问数据的过程)，其略图驱动图形编辑器提供了交互式浏览和编辑功能，其注释系统支持数据库开发者之间的结构通讯。Riley(Marine biological Laboratory,Woods Hole,MA,USA)在讨论大肠杆菌蛋白质的功能同时，特别提到了 GPEC数据库，它包括了由

30、实验确定的所有E.coli基因的功能的信息。该数据库中最大比例的蛋白质是酶，其次则为转运和调控蛋白。Candlin(PE applied Biosystems,Foster City,CA,USA) 介绍了一种新的存储直接来自AB IPrism dNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成，并可方便地与其它软件包自动调用，为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。Glynais(NetGenics,Cleveland,OH,USA)认为生物信息学中最关键的问题之一是软件工具和数据库缺乏灵活性。但是，软件技术的发展已得到了其它领域如

31、金融业和制造业的发展经验的借鉴，可以使来自不同软件商的运行于各种硬件系统的软件共同工作。这种系统的国际标准是CORBA ,一种由250多个主要软件和硬件公司共同合作开发的软件体系。联合使用CORBA和Java可以开发各种通过一个公用用户界面访问任何种类的数据或软件工具的网络应用软件，也包括生物信息学应用软件。Overton不同意Glynias的这种想法，他强调说CORBA仅对软件集成有用，不兼容的数据库软件可能是计算生物OCRBA链接不同的学所面临的最困难问题，一些制药公司和数据库仓库最近资助了一项用数据库白计划2,3。四、制药先导的发现Burgess(Sturctural bioinf

32、ormatics,San Diego,CA,USA)讨论了填补基因组学和药物设计之间鸿沟的蛋白质结构中的计算问题。在缺乏主要疾病基因或药物靶的精确描述数据的情况下，药物设计者们不得不采用大规模表达蛋白质筛选方法；而结构生物信息学则采用一种更为实用有效的计算方法直接从序列数据中确定靶蛋白质的活性位点的精细结构特征，它利用一种集成专家系统从现实的或虚拟的化学文库中进行迅速的计算筛选，可以达到一个很大的规模。Elliston(Gene logic,Columbia,MD,USA) 讨论了治疗药物开发中发现新的分子靶的过程，着重讨论了基因发现方法。他认为，随着日益临近的人类基因组测序的完成，几乎全

33、部基因的特征将在序列水平得到揭示。但是，对基因的认识将有赖于更多的信息而不仅仅是序列，需要考虑的第一类信息是转录表达水平信息，而Gene logic公司的GeneExpress就是一个由mRNA表达谱、转录因子位点、新基因和表达序列标签组成的数据库。Liebman(Vysis,Downess grove,IL,USA)介绍了 Vysis公司开发的计算和实验方法，这些主法不仅用于管理序列数据，而且被用于以下用途：分析临床数据库和自然一突变数据库；开发新的算法以建立功能同源性(区别于序列同源性)模拟生物学通路以进行风险评估；药物设计的靶评估；联系复杂的通路特性以便识别副作用；开发疾病发展的定性模型

34、并解释临床后果。随着发现的新基因的日益增多，这个问题显得格外重要：基因的功能是什么？Escobedo(Chiron technologies,Emeryville,CA,USA)提出了这个问题的一种方法：将分泌蛋白质的基因的功能克隆与筛选这些克隆(可能的药物靶)结合起来。在这种方法中，在微粒体cDNA文库池中进行体外翻译避免了劳动密集的克隆、表达和纯化步聚，对文库池中的翻译产物在细胞水平进行筛选，测试其在细胞增殖和分化中的作用。例如，在用这种方法识别的111个克隆中，56个属于已知的分泌蛋白质，25个为膜相关蛋白，另外 30个功能未知，可能是新的蛋白质。一种相似的方法在转移到小鼠模型系统中的

35、基因传导载体中构建分泌蛋白质的cDNA文库来克隆特定的功能基因。Ffuchs(Glaxo Wellcome Research Triangle Park,NC,USA)讨论了生物信息学更为广义的影响：它不仅影响到新药物靶基的发现，还对改善药物开发的临床前期和临床期的现状极具重要性。众所周知，涉汲数以千计病人的临床试验(可能是药物开发最为花钱的部分)的设计不论多么仔细，也不能为正确的药物选择正确的病人。而在基因组水平划分病人群体的方法可以大大改善发现新药的效率。Fuchs介绍了一种将病人的基因型和表型标志结合起来以改善临床前期和临床期药物开发过程的系统Genetic information System.他强调将遗传学和生物信息学数据同化学、生物化学、药理学和医学数据连接起来的集成信息管理和分析方法是极其重要的。Green (Human Genome Sciences,Rockville,MD,USA)介绍了他的测序工作中采用的数据管理工具。基于 EST的测序方法所面临的挑战是，在对几百个cDNA克降重复测序之后，产生的数据堆积如山。由于大多数人类基因都是用这种方法发现并在么有数据库中分类编排的，面临的识别开放读框、重叠序列的重叠图谱、组织特异表达和低丰度mRNA基因的任务是令人生畏的。 Human genome Sciences公司开发了一些可用

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物信息学在人类基因组计划中的应用

文档简介

温馨提示

最新文档

评论

生物信息学在人类基因组计划中的应用

文档简介

温馨提示

最新文档

评论

相关文档