生物信息学简单介绍_第1页
生物信息学简单介绍_第2页
生物信息学简单介绍_第3页
生物信息学简单介绍_第4页
生物信息学简单介绍_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学生物信息学Bioinformaticscontent 1.1.生物信息学简介生物信息学简介 2.2.生物信息学数据库生物信息学数据库 3.3.生物信息学软件生物信息学软件 4.4.生物信息学门户网站生物信息学门户网站 5.5.生物信息学在基因芯片技术中的作用生物信息学在基因芯片技术中的作用1.生物信息学简介1.1 1.1 生物信息学(生物信息学(BioinformaticsBioinformatics)这一名词的由来)这一名词的由来1.2 Bioinformatics1.2 Bioinformatics的定义的定义1.3 1.3 获取生物的完整基因组获取生物的完整基因组1.41.4发

2、现新基因和新的核苷酸多态性发现新基因和新的核苷酸多态性1.51.5基因组中非编码蛋白质区域的结构与功能基因组中非编码蛋白质区域的结构与功能1.1 1.1 生物信息学生物信息学(BioinformaticsBioinformatics)这一这一名词的名词的由由来来 八十年代末期,马来西亚的美籍学者林华八十年代末期,马来西亚的美籍学者林华安(安(Hwa A. Lim)认识到将计算机科学与生物)认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。构思一个合适的名称。 因此不久,他便进一步把它更改为因此不久,他便进一步把它更改

3、为“bio-informatics(或(或bio/informatics)”。但由于当。但由于当时的电子邮件系统与今日不同,名称中的时的电子邮件系统与今日不同,名称中的-或或/符符号经常会引起许多问题,林博士于是将其去除,号经常会引起许多问题,林博士于是将其去除, “bioinformatics”就正式诞生了,林博士也因此就正式诞生了,林博士也因此赢得了赢得了“生物信息学之父生物信息学之父”的美誉。的美誉。 2020世纪世纪5050年代以来,生命科学进入了前所未有的年代以来,生命科学进入了前所未有的高速发展阶段,在短短几十年积累了大量的数据。高速发展阶段,在短短几十年积累了大量的数据。据不完全

4、统计,目前在国际数据库中记录的据不完全统计,目前在国际数据库中记录的DNADNA序序列的碱基早已超过了列的碱基早已超过了100100亿;亿; 而随着人类和其他模式生物基因组测序的完成,而随着人类和其他模式生物基因组测序的完成,可以预计今后可以预计今后DNADNA序列数据的增长将更为惊人;序列数据的增长将更为惊人; 与此同时,蛋白质的一级结构,即氨基酸序列的与此同时,蛋白质的一级结构,即氨基酸序列的数据的积累也随之增加,迄今已测定一万多种蛋数据的积累也随之增加,迄今已测定一万多种蛋白质的不同分辨率的空间结构。白质的不同分辨率的空间结构。 这一切构成了一个生物学数据的海洋。这一切构成了一个生物学数

5、据的海洋。6What is Bioinformatics?如何从海量数据中发掘出人类生存和发展所需的知识,诞生了一门新兴如何从海量数据中发掘出人类生存和发展所需的知识,诞生了一门新兴的交叉科学生物信息学。的交叉科学生物信息学。1.2 定义定义广义:广义: 指对基因组研究中的相关生物信息的获取、加工、存储、指对基因组研究中的相关生物信息的获取、加工、存储、 分配、分析、和解释。分配、分析、和解释。 它包括了两层含义:它包括了两层含义:一是、对海量数据的收集、整理与服务;一是、对海量数据的收集、整理与服务;二是、从中发现新的规律。具体来说,生物信息学是把基因组二是、从中发现新的规律。具体来说,生物

6、信息学是把基因组DNA序列信息序列信息作为源头,找到基因组序列中代表蛋白质和作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区,同时阐明基基因的编码区,同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言序列中的遗传语言规律。在此基础上归纳、整理与基因组遗传信息释放及调控相关的转录普和规律。在此基础上归纳、整理与基因组遗传信息释放及调控相关的转录普和蛋白质普的数据,从而认识生物有机体的代谢、发育、分化、进化规律。蛋白质普的数据,从而认识生物有机体的代谢、发育、分化、进化规律。 狭义:采用信息科学技术,借助数学、生狭义

7、:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科分析、解释的一门学科。1.3 1.3 获取生物的完整基因组获取生物的完整基因组 酵母、线虫、果蝇、细菌、拟南芥等共约酵母、线虫、果蝇、细菌、拟南芥等共约已完成,已完成,正在进行。目前总量已达正在进行。目前总量已达碱基对!碱基对! 基因组研究的首要目标是获得生物体的基因组全部核苷酸序列。基因组研究的首要目标是获得生物体的基因组全部核苷酸序列。humanArabidopsisThermotoga ma

8、ritimaEscherichia coliBuchnerasp. APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Myco

9、bacterium tuberculosis virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs (base-pairs)10410810510610710111010109bony fishamphibiansEscherichia coli大肠杆菌大肠杆菌是研究得最为详尽的一个模式生物。这种大肠杆菌是研究得最为详尽的一个模式生物。这种只有只有1.61.6微米长的、可以迅速繁殖的单细胞原核生物,微米长的、可以迅速繁殖的单细胞原核生物

10、,已经成为实验室和基因工程的重要工具。已经成为实验室和基因工程的重要工具。Escherichia coli O157:H7Escherichia coli K12Drosophila melanogaster果蝇果蝇繁殖很快、容易诱发变异的小昆虫。繁殖很快、容易诱发变异的小昆虫。总长达总长达1.81.8亿核苷酸。亿核苷酸。 Arabidopsis thaliana拟南芥拟南芥个体生活周期只有个体生活周期只有6 6周的十字花科周的十字花科小草,是一种理想的模式植物。小草,是一种理想的模式植物。 基因组大小与人类相近,约基因组大小与人类相近,约30亿个核苷酸对;亿个核苷酸对;1.41.4发现新基因

11、和新的核苷酸多态性发现新基因和新的核苷酸多态性 发现新基因是当前国际上基因组研究的热发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因点,使用生物信息学的方法是发现新基因的重要手段。比如啤酒酵母完整基因组所的重要手段。比如啤酒酵母完整基因组所包含的基因约包含的基因约60006000个,大约个,大约60%60%的基因是通的基因是通过信息分析得到的。过信息分析得到的。.1基因的电脑克隆基因的电脑克隆 利用利用ESTEST数据库发现新基因也被称为基因的数据库发现新基因也被称为基因的电脑克隆。电脑克隆。ESTEST序列是基因表达的短的序列是基因表达的短的cDNAc

12、DNA序列,它们携带着完整基因的某些片段的序列,它们携带着完整基因的某些片段的信息。目前,信息。目前,GenbankGenbank的的ESTEST数据库中水稻数据库中水稻ESTEST序列已达序列已达124124万条,拟南芥达万条,拟南芥达8080万条,万条,而人类的而人类的ESTEST序列已超过序列已超过957957万余条,它大万余条,它大约覆盖了人类基因的约覆盖了人类基因的90%90%以上。以上。 基因的电脑克隆原理很简单,就是找到属于同一基因的电脑克隆原理很简单,就是找到属于同一基因的所有基因的所有ESTEST片段,再把它们连接起来。由于片段,再把它们连接起来。由于ESTEST序列是全世界

13、很多实验室随机产生的,所以属序列是全世界很多实验室随机产生的,所以属于同一基因的很多于同一基因的很多ESTEST序列间必然有大量重复小片序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的段,利用这些小片段作为标志就可以把不同的ESTEST连接起来,直到发现了他们的全长,这样就可以连接起来,直到发现了他们的全长,这样就可以通过电脑克隆到一个基因。通过电脑克隆到一个基因。 如果这个基因以前未曾发现过,那它就是一个新如果这个基因以前未曾发现过,那它就是一个新基因。基因。 但是进行电脑克隆基因的程序设计复杂,计算量但是进行电脑克隆基因的程序设计复杂,计算量巨大。巨大。1.2.2 1.2.

14、2 从基因组从基因组DNADNA中预测新基因中预测新基因 从基因组序列预测新基因,本质上是把基从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新基因。基因数据库进行比较,就可以发现新基因。.3发现核苷酸多态性发现核苷酸多态性 核苷酸多态性(核苷酸多态性(single nucle

15、otide single nucleotide polymorphism ,SNPpolymorphism ,SNP)是指基因组内)是指基因组内DNADNA中某一特中某一特定核苷酸位置上存在转换、颠换、插入、缺失等定核苷酸位置上存在转换、颠换、插入、缺失等变化。变化。 现在普遍认为现在普遍认为SNPSNP研究是植物基因组计划走向应用研究是植物基因组计划走向应用的重要步骤之一。因为的重要步骤之一。因为SNPSNP将提供一个强有力的工将提供一个强有力的工具,用于与重要农艺形状相关基因的鉴定以及生具,用于与重要农艺形状相关基因的鉴定以及生物学的基础研究等。物学的基础研究等。1.51.5基因组中非编码

16、蛋白质区域的结构与功能基因组中非编码蛋白质区域的结构与功能 近年来的研究表明,在细菌这样的微生物中,非编码蛋白近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的质的区域只占整个基因组序列的10%10%20%20%。随着生物的进。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占基因组序列的绝大部分。这表明这些非编码序码序列已占基因组序列的绝大部分。这表明这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。的表达调控有关。

17、 对人类基因组来说,迄今为止,人们真正掌握规律的只有对人类基因组来说,迄今为止,人们真正掌握规律的只有DNADNA上的编码蛋白质的区域(基因),最新资料说明这部上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的分序列只占基因组的1.1%1.1%。仅占人类基因组。仅占人类基因组1.1%1.1%的编码区的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,的相关研究已经缔造了数十名诺贝尔奖获得者,98%98%非编非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的的编码特征、信息调节与表

18、达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。热点课题,是取得重要成果的源泉。2.2.生物信息学数据库生物信息学数据库 数据库是生物信息学的主要内容,各种数据库几数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。目前国际上已建乎覆盖了生命科学的各个领域。目前国际上已建立了许多公共生物信息学数据库,包括核酸序列立了许多公共生物信息学数据库,包括核酸序列数据库、蛋白质序列数据库、蛋白质片段数据库、数据库、蛋白质序列数据库、蛋白质片段数据库、生物大分子结构数据库和生物学文献数据库等。生物大分子结构数据库和生物学文献数据库等。这些数据库有专门的机构建立和维护,这些机构这

19、些数据库有专门的机构建立和维护,这些机构负责数据的收集、组织、管理和发布,并提供在负责数据的收集、组织、管理和发布,并提供在线检索和分析工具,向生物学研究人员提供有用线检索和分析工具,向生物学研究人员提供有用的信息。的信息。 生物信息分析已经成为分子生物学研究必须要借生物信息分析已经成为分子生物学研究必须要借助的一种方法。数据及其相关的分析软件是生物助的一种方法。数据及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学信息学研究和应用的重要基础,也是分子生物学研究必备的工具。研究必备的工具。 虽然分子生物学研究各个领域的侧重点有虽然分子生物学研究各个领域的侧重点有所不同,但是研究

20、对象之间存在着密切的所不同,但是研究对象之间存在着密切的内在联系,如内在联系,如DNADNA与蛋白质序列之间、基因与蛋白质序列之间、基因调控与基因表达之间的联系等,因而实验调控与基因表达之间的联系等,因而实验数据之间就必然存在着某些联系。数据之间就必然存在着某些联系。 一个研究领域的相关数据会影响另一个领一个研究领域的相关数据会影响另一个领域的进展。各类数据库已成为联系分子生域的进展。各类数据库已成为联系分子生物学各个方面研究的桥梁和纽带。物学各个方面研究的桥梁和纽带。生物信息学数据库几个明显的特征: (1 1)数据库更新速度不断加快,数据量呈指数增长数据库更新速度不断加快,数据量呈指数增长。

21、如,。如,核酸序列数据以每年翻番的速度增长,而增长更快的则是数核酸序列数据以每年翻番的速度增长,而增长更快的则是数据库的使用频率,每年增长幅度为据库的使用频率,每年增长幅度为200 200 500%500%。 (2 2)数据库的复杂程度不断增加数据库的复杂程度不断增加。除基本数据之外,还包。除基本数据之外,还包括大量的注释、链接、参考文献等信息。括大量的注释、链接、参考文献等信息。 (3 3)数据库使用的高度计算机和网络化数据库使用的高度计算机和网络化。许多数据库服务。许多数据库服务器已从工作站升级到大型服务器,使数据库能够高效地管理器已从工作站升级到大型服务器,使数据库能够高效地管理数据和为

22、用户服务,并在专门的硬件上运行服务程序。数据和为用户服务,并在专门的硬件上运行服务程序。 (4 4)面向应用面向应用。各个数据库除了提供数据外还提供许多分。各个数据库除了提供数据外还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。析工具,如核酸数据库提供的序列搜索、基因识别程序等。 (5 5)二级数据库的开发二级数据库的开发。在原始数据库的基础上进一步开。在原始数据库的基础上进一步开发出许多二级数据库,如蛋白质分类数据库、蛋白质二级结发出许多二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。构数据库等。2.1 核酸序列数据库核酸序列数据库 1.GenBank/EMBL/DD

23、BJ 2.基因组数据库基因组数据库 3.表达序列标签数据库表达序列标签数据库 4.序列标记位点数据库序列标记位点数据库 5.面向基因聚类数据库面向基因聚类数据库 GenBank EMBL DDBJ2.1.1 32.1.1 3大核酸数据库大核酸数据库 Genbank GenbankGenbank是美国国家生物技术信息中心是美国国家生物技术信息中心(NCBI)(NCBI)建立和维护的建立和维护的DNADNA数据库。由按数据库。由按物种及数据获取手段分割成的物种及数据获取手段分割成的1717个子数个子数据库构成。使用据库构成。使用EntrezEntrez数据管理系统,数据管理系统,通过该系统可以检索

24、基本的通过该系统可以检索基本的DNADNA基因图基因图谱、蛋白质序列及结构数据库。谱、蛋白质序列及结构数据库。 其中通过与其中通过与MEDLINEMEDLINE的连接,还能够得的连接,还能够得到关于该序列的更进一步的信息,比如到关于该序列的更进一步的信息,比如有关的文献摘要甚至全文。有关的文献摘要甚至全文。 EMBL核酸序列数据库核酸序列数据库 EMBL是欧洲生物信息学研究所是欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索维护的核酸序列数据构成,查询检索可以通过因特网上的序列提取系统可以通过因特网上的序列提取系统(SRS)服务完成。服务完成。DDBJ数据库数据库 日本日本DNA

25、数据仓库数据仓库(DDBJ)也是一个也是一个全面的核酸序列数据库,与全面的核酸序列数据库,与Genbank和和EMBL核酸库合作交换数据。使用核酸库合作交换数据。使用其主页上提供的其主页上提供的SRS工具进行数据检工具进行数据检索和序列分析。索和序列分析。GenBankPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据库之间的关系三大基因数据库之间的关系 这三个机构相互合作互通有无,数据库中的数据基本一致,仅在格式上有些差异,这三个机构相互合作互通有无,数据库中的数据基本一致,仅在

26、格式上有些差异,但对某一特定序列的查询,三个数据库会给出一样的结果。这三个数据库的数据来源但对某一特定序列的查询,三个数据库会给出一样的结果。这三个数据库的数据来源于世界各国众多的研究机构和核酸测序小组以及科学文献。现在,用户可以通过互联于世界各国众多的研究机构和核酸测序小组以及科学文献。现在,用户可以通过互联网将核酸序列数据提交给这三个数据库系统的任何一个。网将核酸序列数据提交给这三个数据库系统的任何一个。/http:/www.ddbj.nig.ac.jp/searches-e.htmlhttp:/www.ebi.ac.uk/embl/2.

27、1.2 基因组数据库 随着核酸测序技术的迅速发展,已经获得一部分随着核酸测序技术的迅速发展,已经获得一部分生物的全基因数据,如人、小鼠、大鼠、拟南芥、生物的全基因数据,如人、小鼠、大鼠、拟南芥、酵母等。这些数据对认识基因组信息的奥秘、了酵母等。这些数据对认识基因组信息的奥秘、了解生物体生长发育的规律至关重要。解生物体生长发育的规律至关重要。 国际上有专门的机构收集和管理这些数据。国际上有专门的机构收集和管理这些数据。Entrez GenomesEntrez Genomes所收集的基因组数据量非常大。所收集的基因组数据量非常大。 该数据库还提供了一个基因组浏览工具该数据库还提供了一个基因组浏览工

28、具Map Map ViewerViewer,利用这个工具,用户可以很方便地得到,利用这个工具,用户可以很方便地得到所需要的数据。所需要的数据。 目前国际上有一些专门的模式生物基因组数据库,这些数据库侧重于收集某种目前国际上有一些专门的模式生物基因组数据库,这些数据库侧重于收集某种生物基因组的相关数据。生物基因组的相关数据。2.1.3表达序列标签数据库(dbEST) 表达序列标签(表达序列标签(ESTEST)方法是识别转录序列的最有)方法是识别转录序列的最有效方法。效方法。ESTEST序列中含有大量的基因信息,利用这序列中含有大量的基因信息,利用这些信息可以发现新的基因,阐明基因的功能。些信息可

29、以发现新的基因,阐明基因的功能。 表达序列标签数据库表达序列标签数据库dbESTdbEST是是GenBankGenBank的一个部分,的一个部分,该数据库包括不同生物的该数据库包括不同生物的ESTEST序列及其他相关信息,序列及其他相关信息,主要是从大量不同的组织和器官得到短的主要是从大量不同的组织和器官得到短的mRNAmRNA片段。片段。 截止截止20042004年年4 4月,该数据库含有月,该数据库含有20002000万个登陆项,万个登陆项,ESTEST数据库的主要作用是通过搜索比较,给实验新数据库的主要作用是通过搜索比较,给实验新得到的一条得到的一条cDNAcDNA序列或基因组序列赋予公

30、认的功能。序列或基因组序列赋予公认的功能。2.1.4 序列标记位点数据库dbSTS 序列标记位点(序列标记位点(sequense tagged sitessequense tagged sites,STSSTS)数据库是)数据库是NCBINCBI的一个数据源,也是的一个数据源,也是GenBankGenBank的一个部分,包含已知序列的序列的一个部分,包含已知序列的序列标记位点组成和定位信息。可以通过标记位点组成和定位信息。可以通过BLASTBLAST搜索搜索STSSTS序列,或者直接通过序列,或者直接通过FTPFTP下载序列。下载序列。2.1.5面向基因聚类数据库UniGene 面向基因聚类数

31、据库面向基因聚类数据库UniGeneUniGene将将GenBankGenBank中的序列进行自动中的序列进行自动分类,形成面向基因群的非冗余集合。分类,形成面向基因群的非冗余集合。 每个每个UniGeneUniGene群包含代表一个惟一基因的多个序列,附有群包含代表一个惟一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱等。该基因相关的信息,如基因表达的组织类型、定位图谱等。除了基因的序列之外,还包括大量的除了基因的序列之外,还包括大量的ESTEST序列。序列。 UniGeneUniGene即可以作为发现新基因的数据源,也可以作为进即可以作为发现新基因的数据源,也可以作为

32、进行大规模表达分析的辅助工具。行大规模表达分析的辅助工具。 需要指出的是,自动分类的过程还有待于进一步发展和完需要指出的是,自动分类的过程还有待于进一步发展和完善。善。 目前,目前, UniGeneUniGene中包括人类、果蝇、拟南芥、水稻等生物中包括人类、果蝇、拟南芥、水稻等生物的相关数据,因为这些生物有大量的的相关数据,因为这些生物有大量的ESTEST数据。数据。2.2 蛋白质序列数据库蛋白质序列数据库 1. 蛋白质信息资源数据库蛋白质信息资源数据库PIR 2. SWISS-PROT 3. TrEMBL 4.蛋白质数据库蛋白质数据库 UniProt这个数据库是一个经过注释的、全面的和非冗

33、余的蛋白质序列这个数据库是一个经过注释的、全面的和非冗余的蛋白质序列数据库。所有序列数据都经过了处理,绝大多数序列已按蛋白质数据库。所有序列数据都经过了处理,绝大多数序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。家族分类,一半以上还按蛋白质超家族进行了分类。为了提高蛋白质预测和实验数据之间的相互吻合度,为了提高蛋白质预测和实验数据之间的相互吻合度,PIR建立建立了一套系统,允许研究者们递交、分类、提取文献信息。了一套系统,允许研究者们递交、分类、提取文献信息。PIR提提供了在供了在超家族超家族、域和、域和模体模体水平上的对蛋白的分类。水平上的对蛋白的分类。PIR同时提供同时提供了

34、蛋白的结构和功能信息,并给出了与其他了蛋白的结构和功能信息,并给出了与其他40个数据库之间的相个数据库之间的相互参考。互参考。PIR还提供了一个非冗余的蛋白质数据库,包括从还提供了一个非冗余的蛋白质数据库,包括从PIR-PSD,SWISS-PROT,TrEMBL,GenPept,PDB收集来的约收集来的约800,000条序列,对每条序列给出了一个符合的名称和相关文献。条序列,对每条序列给出了一个符合的名称和相关文献。为了提高数据库的协同工作能力,为了提高数据库的协同工作能力,PIR采用开发的数据库框架,采用开发的数据库框架,利用利用XML技术进行数据发布。技术进行数据发布。除了蛋白质序列数据以

35、外,除了蛋白质序列数据以外,PIR还包含以下信息:还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源;)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献;)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;翻译后处理、活化等; (4)序列中相关的位点、功能区域。)序列中相关的位点、功能区域。PIR提供三种类型的检索服务:提供三种类型的检索服务: (1)基于文本的交互式查询,用户通过关键字进行数据)基于文本的交互式查询,用户通过关键字进行数据查询。查询。 (2)标准的序列

36、相似性搜索,包括)标准的序列相似性搜索,包括BLAST、FASTA等。等。 (3)结合序列相似性、注释信息和)结合序列相似性、注释信息和蛋白质家族蛋白质家族信息的高信息的高级搜索,包括按注释分类的相似性搜索、级搜索,包括按注释分类的相似性搜索、结构域结构域搜索等。搜索等。主页的导航主页的导航 SWISS-PROT SWISS-PROT 是目前国际上权威的蛋白质序列是目前国际上权威的蛋白质序列 数据库。数据库。 SWISS-PROT SWISS-PROT 中的蛋白质序列是经过注释的。中的蛋白质序列是经过注释的。 SWISS-PROTSWISS-PROT中的数据来源于不同源地:中的数据来源于不同源

37、地: (1 1)从核酸数据库经过翻译推导而来;)从核酸数据库经过翻译推导而来; (2 2)从蛋白质数据库)从蛋白质数据库PIRPIR挑选出合适的数据;挑选出合适的数据; (3 3)从科学文献中摘录;)从科学文献中摘录; (4 4)研究人员直接提交的蛋白质序列数据。)研究人员直接提交的蛋白质序列数据。SWISS-PROT有三个明显特点 (1)注释。)注释。在在SWISS-PROT中,数据分为核心数据和注中,数据分为核心数据和注释两大类。对于数据库中的每一个序列登录项,核心数据释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源包括:序列数据、参考文

38、献、分类信息(蛋白质生物来源的描述)等,而注释包括:的描述)等,而注释包括: 蛋白质的功能描述;蛋白质的功能描述; 翻翻译后修饰;译后修饰; 域和功能位点,如钙结合区域、域和功能位点,如钙结合区域、ATP结合结合位点等;位点等; 蛋白质的二级结构;蛋白质的二级结构; 蛋白质的四级结构,蛋白质的四级结构,如同构二聚体、异构三聚体等;如同构二聚体、异构三聚体等; 与其它蛋白质的相似与其它蛋白质的相似性;性; 由于缺乏该蛋白质而引起的疾病;由于缺乏该蛋白质而引起的疾病; 序列的矛盾、序列的矛盾、变化等。变化等。 (2)最小冗余。)最小冗余。对于给定的蛋白质,许多数据库根据不对于给定的蛋白质,许多数据

39、库根据不同的文献报道设置分立的登录项,而在同的文献报道设置分立的登录项,而在SWISS-PROT中,中,尽量将相关的数据归并,降低数据库的冗余程度。如果不尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注同来源的原始数据有矛盾,则在相应序列特征表中加以注释。释。 (3 3)与其它数据库的连接。)与其它数据库的连接。SWISS-PROTSWISS-PROT目前已经目前已经建立了与其它建立了与其它3030多个相关数据库的交叉索引,即多个相关数据库的交叉索引,即对于每一个对于每一个SWISS-PROTSWISS-PROT的登录项,有许多指向其的登录项

40、,有许多指向其它数据库相关数据的指针,这便于用户迅速得到它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如,根据到蛋白质结构数据库的相关的信息。例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到可以进一步得到其结构。现有的交叉索引有:到EMBLEMBL核酸序列数据库的索引,到核酸序列数据库的索引,到PROSITEPROSITE模式数据模式数据库的索引,到生物大分子结构数据库库的索引,到生物大分子结构数据库PDBPDB的索引等。的索引等。 用户可以通过网络将蛋白质序列数据提交给用户可

41、以通过网络将蛋白质序列数据提交给SWISS-PROTSWISS-PROT,或者对蛋白质数据进行修改。,或者对蛋白质数据进行修改。SWISS-PROTSWISS-PROT提供序列序列查询及相似蛋白质序列提供序列序列查询及相似蛋白质序列搜索工具搜索工具2.2.3.TrEMBL 目前大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。TrEMBL 是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。网址是:(http:/www.ebi.ac.uk/trembl/index.html) 该数据库主要包含从EMBL/ Genbank/DDBJ核酸数据库中根据编码序列(C

42、DS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。 TrEMBL有两个部分,分别是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。 SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的 登录号。这部分数据可以看成是SWISS-PROT数据库的预备库。 REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。 TrEM

43、BL数据库的26.0版(2004年3月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748。 EBI 将上述将上述3个蛋白质数据库(即个蛋白质数据库(即PIR 、SWISS-PROT和和TrEMBL)统一起来,建立了一个蛋白质数据仓库统一起来,建立了一个蛋白质数据仓库UniProt(Universal Protein Resource),其网址为:),其网址为: http:/www.ebi.ac.uk/uniprot/index.html)。)。 UniProt包含包含3个部分:个部分: (1)UniProt Knowledgebase(UniProt),这是蛋白质序列、功能、

44、),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;分类、交叉引用等信息存取中心; (2)UniProt Non-redundant Reference(UniRef)数据库,该数据)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成目前,根据序列相似程度形成3个子库,即个子库,即UniRef100、UniRef90和和UniRef50; (3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序程序搜索数据库,也可以直接通过搜索数据库,也可以直接通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论