(计算机应用技术专业论文)蛋白质序列go注释数据库系统的研究和构建.pdf_第1页
(计算机应用技术专业论文)蛋白质序列go注释数据库系统的研究和构建.pdf_第2页
(计算机应用技术专业论文)蛋白质序列go注释数据库系统的研究和构建.pdf_第3页
(计算机应用技术专业论文)蛋白质序列go注释数据库系统的研究和构建.pdf_第4页
(计算机应用技术专业论文)蛋白质序列go注释数据库系统的研究和构建.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)蛋白质序列go注释数据库系统的研究和构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 i 摘要摘要 生物信息数据库贮存了生物信息学研究的原始数据和各类计算结果数据,可以 提供给生物学家们思考分析以及进一步探究其表达的生物学含义,具有非常重要的 意义。 然而,针对生物信息计算流程的特点建立数据库应用系统还未在计算机界引起 广泛重视。在国际著名生物信息数据库的相关报道中,大多也仅强调其数据的收集 方式和具有的生物信息学意义等。少量文献涉及了数据库系统的存储模式,以及对 数据更新变化的适应性等。 为了更好地进行生物信息数据库系统的研制与开发,针对特定的生物信息大规 模计算分析流程,分析抽象出生物信息数据库系统的特点与功能需求,进而研制相 关的策略与处理技术,是更好地建立生物信息数据库应用系统的一条有效途径。 据此,在总结生物信息数据库特点的基础上,构建了蛋白质序列 go 注释数据 库系统。在针对注释系统的处理流程、原始和计算结果数据进行分析后,得到了数 据库需求分析的结果,包含相应的事务处理要求。建立了以注释工具为核心的存储 模型,并依据需求分析的事务处理要求对存储模型的功能进行了有效性验证。采用 序列分离存放、树型结构的 xml 表示法,以及 mysql 数据存储技巧等措施制定了 数据的存储策略,提高了数据库的导入和查询检索效率。建立了数据库系统数据的 自动更新机制,使得数据能与国际公共共享数据同步,保证了数据库的生命力。 由于分析的特点与采用的策略对于生物信息数据库系统具有一定的普遍性,蛋 白质 go 注释数据库系统的研究也为下一步构建基因组结构注释数据库系统奠定了 坚实的基础。 关键字:关键字:生物信息数据库,需求分析,树形数据结构,数据库版本更新 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 ii abstract bioinformatics database which storing source data of the bioinformatics and various types of annotation results data, available to help biologists analysis and explore the biological meaning of the data, has very important significance. but establishment of database application system, according to bioinformatics analysis and transaction processing function and characteristic etc, has no attention in the computer industry. in the reports of internationally renowned biological agencies, most have only emphasized that its data collection methods and bioinformatics meaning. small amount of documentation involved in a database system for storage model, updated data on changes in the adaptability. in order to better carry out bioinformatics database system research and development, information for a specific large-scale analysis of biological processes, analysis and abstract bioinformatics database system to the characteristics and functional requirements, then develop the strategies and related technology, is a better way to establish biological information database application system. accordingly, based on summing up the characteristics of bioinformatics database establish the protein sequence go annotation database system. after analysis annotation system processing, the original data and results, acquiring the database requirement analysis, including the corresponding transaction processing requirements. establishment storage model of a annotation tool as the core , based on demand and the analysis of the business model calls for the storage functions of the validation and testing. sequence separated storage, xml expression tree data structure, and the mysql data storage skills such measures as a strategy of optimizing database, improving the database for the import and retrieval efficiency. the establishment of a database system data automatically update mechanism, making data can be shared with the international public data synchronization. because of the similarity of bioinformatics databases, the protein structure of the 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 iii notes database is also for the construction of more large-scale genome databases and lay a solid foundation keywords: bioinformatics database, requirement analysis, tree data structure, database version updating 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密,在_年解密后适用本授权书。 不保密。 (请在以上方框内打“” ) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 1 1 绪论绪论 1.1 课题来源 本论文在以下项目的资助下完成: 1. 科技部国家科技基础条件平台建设专项:生物信息学网络计算应用系统(子 课题:基因组结构自动注释系统及其应用) ; 2. 教育部科技基础资源数据平台建设专项(505010) :人类遗传基因信息数据整 合及共享信息平台。 1.2 课题研究背景、目的和意义 生物信息学包含了对基因组研究相关生物信息的获取、加工、存储、分配、分 析和解释等。这一定义包括了两层涵义:一是对海量数据的收集、整理与管理;二 是从中发现新的规律, 也就是用好这些数据1。 数据库技术在这里的重要性不言而喻。 随着各项基因计划越来越快的进程,在近 20 年来国际上已积累了十分巨大的分子生 物学信息,建立起分门别类的数据库,包括核酸序列数据库、蛋白质序列数据库、 基因组数据库、生物大分子三维空间结构数据库等等。 随着大规模数据存贮、处理和传输技术的发展,算法和软件的进步,数据库的 一体化、服务器/客户模式的建立使得包含生物信息数据库、分析软件工具以及生物 信息文献资料等在内的生物信息资源成为生物、医药、农业等学科的强有力工具, 从新基因的发现、蛋白质的结构功能预测、疫苗的筛选到新药研制无不依赖于此, 它在生物、医药、农业、环境等学科的应用已无所不在。 其中蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机 理的研究并最终将帮助人类进行药物设计与疾病治疗。因此,以辨识基因为目标的 基因组结构注释,以及对基因产物蛋白质的功能注释成为研究热点。分析蛋白 质功能过程中一个重要问题就是如何定义功能2。有时, 功能根据生物化学的机制来 定义(例如“腺苷酸激酶”)有时则根据所处的代谢通路或在细胞中的总体作用来定义 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 2 (例如“糖酵解”或者“细胞代谢”);有时会根据生物体的表型来定义(例如“引起 癌症”)。 术语的模糊性给功能注释带来了巨大的困难35,很多数据库都有自己的 注释标准。 基因本体(gene ontology,简称 go)6是一套具有动态形式的控制字汇,来解 释真核生物的基因或蛋白质在细胞内所扮演的角色及生医学方面的知识,同时这些 字汇随著生命科学研究的进步,一直不断的累积与改变。一个本体(ontology)会被 一个控制字汇来描述并给予统一的名称,直到目前为止,在 go 下有三大独立的本 体被建立:生物过程、分子功能以及细胞组成。go 除了在生物词汇上有所标准定义 外,所谓动态形式的结构能够利用有向无环图(directed acyclic graphs)的网状关 联将每一个本体之间联接起来,然后再以树状分层来呈现这些本体间的关系。 go7使用结构化的词汇精确定义了蛋白质的功能以及功能间的关系,在功能注 释中得到了广泛地使用。欧洲生物信息研究所(ebi)开展 goa 工程8,根据 go 定义,利用文献以及多个数据库的资源对基因产物进行功能注释。 为蛋白质 go 注释系统建立数据库模块,以方便管理注释系统产生的数据,以 方便用户对注释结果进行查询检索,并且能够灵活的应对注释工具和匹配数据库的 更新和发展,保持数据的实时性、有效性对于生物信息学发展具有重要的意义。同 时蛋白质 go 注释数据库系统的研究也为下一步研究基因组结构注释数据库系统奠 定坚实基础。 1.3 国内外现状 1.3.1 生物信息数据库现状 生物信息学数据库资源不仅数量众多、种类繁杂,并且其所含的数据的量大、 数据在不断地更新、数据间存在着复杂的关联关系。 1. 生物信息数据库种类繁多 分子生物学数据库资源内容非常丰富, 各种数据库几乎覆盖了生命科学的各个领 域,核酸序列数据库有 genebank、ebi-embl9、ddbj10、refseq1113、dbtss、 epd14等,蛋白质序列数据库有 uniprot15、ncbi protein database,蛋白质特征数据 库有 dbsubloc、psrotdb,蛋白质家族和结构域数据库有 interpro16,蛋白质结构 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 3 数据库有 pdb、cath17、dali database,基因组数据库有 ensembl、ucsc genome browser、 mapviewer, 人类疾病基因相关数据库有 genecards、 genatlas18,19、 omim, 术语数据库有 hgnc database、 go, 基因表达谱数据库 geo20和 arrayexpress 等等。 2. 生物信息数据库数量众多且增长迅速 国际著名杂志核酸研究 (nucleic acids research,nar)分别于 1982、1984、 1986 年第 1 期专集刊登分子生物学数据库以及 dna 和蛋白质序列分析等方面文章。 在中断了 10 年后,1996 年起恢复了这一传统,每年第 1 期专门刊登有关文章,其中 主要介绍各类数据库资源和统计信息,2003 年 7 月起,每年出版一期生物信息 web 服务器专刊。截至 2008 年,其报道的国际共享数据库资源已达到 1078 个 (/cgi/content/full/ gkm1037/dc1/1) 。从 1999 到 2008 年, nar 报道的数据库数量的增长情况如图 1-1 所示。 202 226 281 335 386 548 719 858 968 1078 0 200 400 600 800 1000 1200 1999200020012002200320042005200620072008 年 数据库个数 图 1-1 nucleic acids research中报道的数据库个数和数据库类 3. 数据库数据量巨大且不断增长 分子生物学数据库资源所含的数据量非常巨大。到 2007 年 12 月为止,核酸序 列数据库 genbank(第 163.0 版)收录了超过 16 万个不同物种的数据,包括约 8039 万条序列, 总长度超过 839 亿个碱基 (/genbank/gbrel.txt) 。 genbank 给出的数据量增长情况统计曲线图如图 1-2 所示。 分子生物学数据库还有一个重要特 性是不断增长更新。这一方面表现为数据在不断地增长,uniprotkb/trembl 给出的 数据量增长情况统计曲线图如图 1-3 所示。从图 1-2 和图 1-3 中可以看出,这些数据 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 4 量呈指数增长趋势。 图 1-2 ncbi genbank 给出的数据量增长情况统计曲线 (/genbank/index.html) 图 1-3 uniprot/trembl 给出的数据量增长情况统计曲线 (http:/www.ebi. ac.uk/swissprot/sptr_stats/index.html) 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 5 4. 数据库版本不断更新 由于数据库数据条目中包含的注释、参考文献、软件以及与其它数据库数据条 目间的关联等信息也都在不断地被修整、补充和增加,因此数据库版本在不断地更 新。比如,refseq 参考序列数据库几乎每天更新,每个月发布一次新版;基因组注 释数据库 ensembl 的数据 12 个月更新一次;蛋白质序列数据库 uniprot swissprot 两周更新一次;ncbi 的 blast 数据库数据则 23 天更新一次等。 5. 数据关系复杂 从进化和系统发育的角度看,所有的生物体以及特定的生物学对象间均有着千 丝万缕的联系。而这样的一些关联往往对生物学家们发现知识十分重要。比如,通 过对某基因的同源基因所编码的蛋白质的三维结构进行分析,往往可能提示出其相 关的功能。 1.3.2 生物信息数据库技术发展现状 正是由于如此众多的数据库的存在,构成了整个生物信息学大厦的支柱,但同 时也对数据库技术提出了要求。生物信息数据的查询检索、非线性结构数据的存放、 数据库的版本管理以及对数据的更新变化的适应性等问题都对当今数据库技术提出 的严峻挑战。 1. 查询检索效率的保证 为了支持数据库的检索浏览事务,确保事务处理的高效性,国际著名生物信息 数据库服务系统 ensembl 采用的方式是将所有物种的基因组数据均存储在两类数据 库中,一是所谓的“核心”数据库(core database) ;二是所谓的“轻巧”数据库(lite database) 。核心数据库中包含了所有的数据。lite 数据库中的数据由几个定制的数据 转换脚本(data transformation scripts)从 core 数据库中抽取得到,仅包含核心对象 (如 genes 和 transcripts 等)的非规范化数据,以便满足快速事务处理的数据存取要 求21。 另一个国际著名生物信息数据库服务系统 ucsc 的基因组数据库则采用多种策 略提高基因组数据库服务系统的数据访问效率。一是建立预排序的索引,比如以 chrom, chromstart 数据项作为索引并进行预排序; 二是将数据表分为位置相关的数据 表(positional tables)和非位置相关的数据表(non-positional tables)两类;三是将 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 6 大数据量的基因组数据按染色体号分开存储,即每条染色体数据单独存储一个数据 表,加速数据的可视化浏览22。 2. 非线性结构数据的存放 二维的关系数据表处理线性数据非常方便,但对于非线性数据,由于其复杂多 变,没有通用的方法。在生物信息数据中含有很多树形结构数据,树形结构是一种 典型的非线性数据,对于其处理是一个难题。 对非线性数据存储最方便的是 xml,因为它是一种可以对信息进行自我描述的 语言23。它允许开发人员通过创建格式文件 dtd(document type deftnitions)定制 标记来描述自己的数据,dtd 规范是一个用来定义 xml 文件的语法、句法和数据 结构的标准。目前,xml24, 25, 26在数据库顶级会议出现的频率也越来越高,不少企 业和专家都投入到了xml的研究中, 对xml的检索技术27从dom、 sax到xpath28, 29和 xml query languages30,31,使得 xml 的检索越来越简单、方便。 3. 数据库版本管理 数据库版本管理是生物信息数据库最大的特点,但在数据库的相关文献中少见 报道。在数据库的其它应用领域涉及到版本管理的主要是:计算机辅助设计、地理 空间数据库等工程数据库32。 传统的数据库版本管理的策略有这样两种:一是采用了多源有向无循环图的管 理策略33, 34。它可以反映出多个原始版本下版本的各种变化情况。二是采用面向对 象数据库来对版本进行管理35。然而这两种方法目前对于处理生物信息数据库的版 本管理来说并不太适用。 4. 对数据库中数据更新变化的适应性 通过将软件处理对象分为生物学意义对象(biologically meaningful objects,即事 务对象 business objects)和数据库链接对象两部分(database connectivity objects,即 adaptors) ,ensembl 可以轻松地引入新的数据类型或分析数据,同时维持代码的稳定 性。其实现的基本思想是把数据和 web 服务操作分开,这样当加入新的数据集时, 提供其相应的 adaptors 和 business objects 即可36。 为适应数据的变化, blat 的制作者之一, 同时也是 ucsc 基因组浏览器的主要 开发者 kent wj 研制了 autosql 和 autoxml 两个针对基因组工程的代码生成器 (code generators) 。其中,autosql 生成器可自动生成存取数据库的 sql 和 c 代码,而 autoxml 自动针对 xml 解析器(parser)的 c 代码以产生 xml dtd 文件37。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 7 1.3.3 生物信息领域采用的 dbms 现状 开发数据库应用,选择一个合适的数据库管理系统是非常重要的。现在数据库 管理系统种类繁多,适用面也很广,比较常用的数据库有 access、mysql、sql server、oracle、db2 等。 由于 mysql 是开放源码的结构化查询语言关系型数据库, 符合生物信息学工程 “开放”和“免费共享”的精神;同时也由于其快速和支持长字符串的处理性能, 因而得到基因组大型计算工程的青睐。目前,许多国际知名的生物信息学数据库比 如 ensembl38,39、ncbi40、ucsc41、biopipe42均选用 mysql 作为数据库管理系 统。 1.4 主要研究工作和研究目标 本文的主要研究目标是在了解生物信息相关数据、注释工具的含义及用户需求 的基础上,设计合理的数据模型来存储、管理关系复杂、数量庞大的蛋白质注释信 息,并且能够通过定时监测注释工具或匹配数据库的版本升级自动的进行注释结果 数据的整体更新,保持数据库的实时性和有效性。 本文的主要工作包括以下几个方面: 1. 在生物信息工作者的帮助下,初步了解注释工具和注释数据信息的生物学含 义,理清其中复杂的相互关系。 2. 了解生物信息数据库使用者的需求信息和他们的使用习惯,并制定出相应的 应对方案(主要是用户视图)使用户能够方便、快捷地得到自己想要的信息。 3. 制定出适合的数据模型来存储、管理蛋白质注释信息,并且能够保证合理的 查询、存储效率。 4. 能够应对生物信息学注释工具的不断发展,通过智能更新机制,使得数据库 中的数据版本能够与国际公共共享数据版本同步。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 8 2 数据库构建背景及特点分析数据库构建背景及特点分析 2.1 蛋白质 go 注释系统平台介绍 本文构建的数据库系统的任务是存储和管理蛋白质 go 功能自动分析平台计算 得到的数据,因此有必要对整个平台进行简要的介绍。 2.1.1 注释平台整体框架 由于序列的注释极其耗费计算资源,因此 ncbi、ensembl、ucsc 等机构只 提供自己的注释结果查询, 没有也不可能提供批量数据的注释服务, 甚至 genequiz、 wilm 等注释系统也没有提供。因此,如果要注释自己数据,就必须要有自己的注 释系统,而平台的任务就是基于集群环境,针对自产的基因组基因结构注释结果 批量的蛋白质序列,集成和整合国际共享和自主开发的蛋白质序列功能注释资源 (含软件工具和数据库) ,实现批量蛋白质序列功能的自动注释。平台的整体框架如 图 2-1 所示。 注释平台提供 3 大注释工具:blast, interproscan, gokey 给用户注释序列。用户提 交注释任务后,服务器会对任务进行分割,然后调用集群的计算节点来计算,最后 通过邮件通知用户取结果。服务器会将蛋白质序列和计算结果保存在数据库中,通 过 web 的方式给用户查询。为了让结果显示更加直观明了,平台还提供了图形可视 化的浏览方式。 2.1.2 go 注释工具的选择 1. blast 注释工具 鉴于序列是目前最多的数据,功能注释应该尽可能多地利用序列信息。基于蛋 白质序列相似性的经典方法是利用 blast、 fasta 工具等寻找数据库中的同源蛋白 质,然后利用同源蛋白质的功能推测未知蛋白质的功能。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 9 蛋白质序列蛋白质序列蛋白质序列 输入数据 注释工具 数据库 系统 数据库 web 查询页面 blast结果gokey结果 interproscan 结果 计算结果 blast go 匹配文件 interproscan go 匹配文件 blast go 注释结果 interproscan go注释结果 go 匹配文件 go 注释结果 数据库 系统 interproscanblastgokey 图 2-1 go 注释系统整体框架图 2. interproscan 注释工具 此外,大量证据表明,蛋白质是由一些模块组成的,这些模块是些相对独立的 结构单元并与蛋白质功能密切相关,因此一些研究提出根据蛋白质模块的查找预测 其功能。在序列整体同源性不明显的情况下,通过搜索结构域或模体数据库可以提 高功能预测的灵敏度, 这些数据库包括 pfam、 smart、 prints、 prosite、 profile、 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 10 prodom、tigrfams 等。interpro43, 44将这些数据库进行了整合。这两类功能预测 方法及其相应的工具资源不仅在基因组的人工注释过程中得到广泛应用;同时为 ensembl、ucsc 以及 ncbi 的基因组注释数据库,以及著名的蛋白质序列数据库 trembl 提供了大量的蛋白质功能注释数据;并且还用于构造为基因组提供蛋白质 序列功能注释的系统 genequiz、pedant45系统,以及相应的蛋白质 go 功能注释系 统 blast2go46、goblet47,48、gofigure49等。 3. gokey 注释工具 探索了基于基因产物-蛋白质序列预测其 go 功能的方法, 通过分析氨基酸序列 物理化学性质上的特征,将蛋白质序列转化为固定长度的向量,并使用 svm 方法预 测其 go 功能,开发了蛋白质 go 分子功能预测软件 gokey. gokey 目前已覆盖了 go slim 分子功能编目的 36 个节点,预测总体精度范围为 73.5%99.9%;而且, gokey 可对基因 go 预测结果进行概率评估以及统计显著性分析。此外,本研究还 以编码离子通道蛋白的基因为对象,探讨了基于结构域信息预测蛋白质功能的方法: 用结构域信息将蛋白质序列转化为固定长度的向量, 然后采用 svm 方法进行建模与 预测; 交叉验证结果表明, 在预测敏感度为 95.9%时, 该方法的专一性达到了 98.3%, 优于利用 interpro 与 go 映射规则进行预测的结果。 2.2 生物信息数据库系统的特点 1. 数据库自动版本更新 数据库中的蛋白质序列数据都是由国外著名生物信息网站批量发布;序列注释 结果是由注释工具和匹配数据库经过大规模计算后共同作用产生,注释工具和注释 数据库每隔一段时间有版本更新。当有新版本的注释工具或匹配数据库出现时,要 通过集群或网格等大规模计算技术重新计算,并将结果导入数据库。我们把数据库 的这种改变称为数据库版本的升级,并且由于认识的反复性和研究的需要,通常将 完整保留数据库的历史版本。 2. 数据间关系复杂 从进化和系统发育的角度看,所有的生物体以及特定的生物学对象间均有着千 丝万缕的联系。而这样的一些关联往往对生物学家们发现知识十分重要。比如,通 过对某基因的同源基因所编码的蛋白质的三维结构进行分析,往往可能提示出其相 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 11 关的功能。生物对象间的关联关系有很多种,大致可以分为两类,一是相同对象间 的关联关系, 比如, 由 blast 程序比对得到的相似的蛋白质序列间存在的关联关系; 二是不同对象间的关联关系,比如,针对某核酸序列可以通过剪切得到相应的转录 本,该转录本可以编码相应的蛋白质序列,该蛋白质序列可以与一定的蛋白质结构 域相对应,从而与一定蛋白质家族相关联,同时该蛋白质还可以与一定的三维结构 相关联。 3. 基于 blast 的内容检索 用户输入 fasta 格式的蛋白质序列,然后在依照特定的算法在数据库中找出匹 配结果。这种类型的检索交由 blast 注释工具来完成,但是匹配数据库必须是文本文 件,而且必须满足规定的格式。其中匹配数据库就是由蛋白质序列的 blast 注释结果 经过格式化后产生。但是因为查询的需要,注释结果必须保存在数据库中,这样出 现了重复存储,会带来存储效率的降低。 4. 数据库是“一次生成,多次访问” 蛋白质go注释数据库是由go注释系统经过大规模计算后得到的结果数据导出 生成的。当出现新的方法和注释证据后,需要经过基因组结构注释系统的再次计算, 得到新的结果再次产生新的数据库。因而,数据库具有“一次生成,多次访问”的 特点。由于注释系统提供的是自动注释的结果,不需要人为的修改相关数据,因而, 在一次结果生成之后,数据库维持“只读”的状态,直到下一次生成新的数据为止。 2.3 数据库构建的关键点及应对策略 1. 用户需求的了解 生物信息数据库系统的主要用户群是生物学家,处理的是一系列复杂、抽象的生 物信息数据。对于一个计算机程序员来说,可能很难明白生物信息数据的含义,因 此也就不可能真正理解用户的心理、工作方式、工作习惯等。但如果完全指望通过 用户来了解需求,而由于用户对数据库技术的不了解,有可能会对程序员产生误导, 因而设计的系统难免存在缺陷,不符合用户的心理及工作习惯,于是系统的生命力 注定要打折扣。但是让程序员去学习生物信息的知识也是不切合实际的,这不仅浪 费时间,而且效果也不一定好。 实际上这几乎是所有交叉学科的通病,由于双方的学术背景不同,思考问题的角 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 12 度和方法不一样,导致合作的时候始终不能完全领会对方的意图,做出的成果达不 到预期的目标,造成双方都不满意。 因此弄清楚用户的需求成为了做好数据库系统的关键, 为了与用户之间形成畅通 的交流通道,需要一个复合型人才,他既要拥有计算机方面的知识,尤其是要了解 软件工程和数据库领域的要点,又要清楚生物信息方面的知识,至少能够具备与生 物信息研究者畅通交流的能力。由这样一个人同用户交流,了解他们的需求,然后 站在计算机的立场上将其归纳、总结成程序员能够理解的信息。 2. 设计合理的概念模型 蛋白质 go 注释系统的数据内容庞大、关系复杂。一条只有几十个字节的蛋白质 序列经过 blast 注释后的结果可能会有几 m,也有可能为空。一条序列在注释过程中 若使用了不同的输入参数,产生的结果可能会大相径庭,而用户提供的参数则完全 无法预料。注释结果数据项的含义多种多样,并且会随着用户的要求的不同发生变 化。同时模型的设计还必须较好地描述基因组结构注释数据及其表达的生物学含义, 契合蛋白质结构注释数据事务处理的要求。最后由于数据的规模性非常大,并且在 平台中还要提供图形化的浏览,对查询的响应时间提出了较高的要求。因此设计一 个合理的概念模型来解决以上这些问题成为了数据库成败的关键。 本文最终采用注释工具为核心的概念模型,围绕三大注释工具来组织数据,这 不仅方便于对注释结果数据的分析处理,也直观的表达了生物信息学的含义,最后 对于下面要提到的版本更新问题也可以通过该数据模型来解决。 3. 版本更新的问题如何处理 生物信息数据库与一般数据库之间最大的不同就是存在版本升级的问题,如果 数据库的数据不随着生物信息学的发展而发展,那么就失去了供用户参考的价值, 进而失去了生命力与活力,因此版本升级是数据库能否真正拥有使用价值的关键。 版本的升级来源于 2 个方面的因素:注释工具升级,匹配数据库升级。这 2 个因素 有任何一个出现升级,我们就需要调动集群环境按照升级之后的环境重新计算,然 后将新的注释结果或新的注释序列重新导入数据库。要达到自动升级的目标就必须 要完成以下 3 个任务: (1) 对注释工具和匹配数据库的版本定时监测; (2) 当注释工具或匹配数据库出现更新时,自动下载到集群并完成大规模计算环 境的部署; 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 13 (3) 数据库内部对版本的管理。 注释工具和匹配数据库都是从国外的 ftp 站点上下载下来, 因此我们必须实现 ftp 下载功能,至于定时监测则可以通过 linux 操作系统的计划任务来完成。当下载完成 后,为了不与计算发生冲突,新版本的环境部署必须要在集群机没有计算任务时启 动并完成。因为当计算任务非常密集时,可能抽不出空闲时间来完成升级的工作, 为提高效率,部署要越快越好。当完成新的注释环境的部署后,重新计算注释数据, 导入数据库,为了不与原先的数据相冲突,数据库中专门设计了一张表来管理版本 问题。 2.4 本章小结 本章首先介绍了数据库系统的项目背景蛋白质 go 自动注释平台,阐述了 go 注释的意义和背景,3 大注释工具的选择原因及系统的整体流程框架。然后分析 了生物信息数据库的特点,并根据这些特点提出了建立生物信息数据库的关键点, 并给出了相应的解决方案。最后根据生物信息学数据“开放,共享”的原因,完成 了数据库管理系统的选择。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 14 3 数据库系统需求分析数据库系统需求分析 由于研制数据库的关键是需要把结构(数据)设计和行为(处理)设计密切结 合起来,因此本章的工作主要针对数据设计和行为设计进行,包括源数据的分析处 理和事务处理需求两方面的内容。 3.1 源数据的分析和处理 3.1.1 数据库的数据来源及其包含的相关信息 数据库的数据来源主要分为 3 大块:用户提交的原始蛋白质序列数据,经过注释 工具注释后的结果,由注释结果产生的 go 信息。 每条原始蛋白质序列数据包含的信息有: 蛋白质序列 id, 序列类型(abinitio, novel, known),序列版本号,染色体号,碱基坐标,正负链,基因 id,转录本 id,序列。 每条序列经过 blast 注释后包含的信息有:blast 版本号,被注释的蛋白质序列信 息 (除了序列本体之外的所有信息) ,blast 注释方法(blast 包括 2 个注释方法, blastp 和 blast-psi) ,匹配数据库,匹配到的结果信息(可能会匹配到多条数据,也可能一 条也匹配不到) 。 每条序列经过 gokey 注释后包含的信息有:被注释的蛋白质序列信息(包括序 列 id 和序列本体) ,go id 等 go 注释信息。 每条序列经过 interproscan 注释后包含的信息有:被注释的蛋白质序列 id,经过 各 interproscan 匹配子数据库注释后信息。 此外经由 blast 和 interproscan 注释后的结果与各自相应的 go 文件相匹配会得到 树形结构的 go 信息。 3.1.2 数据文件的具体处理方法 以上数据文件都是以文本文件的形式存在,要将其按数据模型规定的格式导入 到数据库中,就需要对数据进行拆分和抽取。考虑到整个平台系统都是用 java 语言 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 15 来构建,而且 java 的正则表达式也具有强大的文本处理能力,因此采用 java 来对数 据进行抽取。 以抽取 blast 结果文件为例具体阐述抽取分析过程。每条序列在文件中的格式非 常有规律,如下所示,每条序列都以” blastp 2.2.16 mar-25-2007”作为开头,然后 是序列信息,最后是与之相匹配的序列。将一条完整的序列结果信息存储在 stringbuffer 中,再用进一步细分到每条与之相匹配的序列,然后正则表达式进行详 细分析,将有意义的单元进行抽取。 blastp 2.2.16 mar-25-2007 reference: altschul, stephen f., thomas l. madden, alejandro a. schaffer, jinghui zhang, zheng zhang, webb miller, and david j. lipman (1997), gapped blast and psi-blast: a new generation of protein database search programs, nucleic acids res. 25:3389-3402. query= ensp00000354687 pep:known chromosome:ncbi36:mt:3308:4264:1 gene:ensg00000198888 transcript:enst00000361390 (318 letters) database: /home/lufeng/blast/db/fasta/uniprot_sprot 274,295 sequences; 100,686,439 total letters searching.done score e sequences producing significant alignments: (bits) value p03886|nu1m_human nadh-ubiquinone oxidoreductase chain 1 - homo . 495 e-139 q9t9w3|nu1m_pantr nadh-ubiquinone oxidoreductase chain 1 - pan t. 475 e-134 q9t9z0|nu1m_gorgo nadh-ubiquinone oxidoreductase chain 1 - goril. 471 e-132 p03886|nu1m_human nadh-ubiquinone oxidoreductase chain 1 - homo sapiens (human) length = 318 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 16 score = 495 bits (1274), expect = e-139 identities = 260/318 (81%), positives = 260/318 (81%) query: 1 mpmanllllivpiliamaflmlterkilgymqlrkgpnvvgpygllqpfadamklftkep 60 mpmanllllivpiliamaflmlterkilgymqlrkgpnvvgpygllqpfadamklftkep q9t9w3|nu1m_pantr nadh-ubiquinone oxidoreductase chain 1 - pan troglodytes (chimpanzee) length = 318 score = 475 bits (1223), expect = e-134 identities = 246/318 (77%), positives = 253/318 (79%) query: 1 mpmanllllivpiliamaflmlterkilgymqlrkgpnvvgpygllqpfadamklftkep 60 mpm nllllivpiliamaflmlterkilgymqlrkgpn+vgpygllqpfadamklftkep sbjct: 1 mpmtnllllivpiliamaflmlterkilgymqlrkgpnivgpygllqpfadamklftkep 60 blastp 2.2.16 mar-25-2007 3.2 事务处理需求 生物信息数据库具有“一次生成,多次访问”的特点。针对蛋白质 go 注释数 据,需要提供文本检索、文本高级检索、随机检索、基于内容的检索,以及数据的 批量导入等事务处理行为。因为没有修改操作,因此对事务的 acid 特性要求并不 严格。 1. 序列注释结果摘要信息查询 序列注释结果摘要信息牵涉到所有的实体信息, 通过蛋白质序列 id 可以唯一的确 定注释结果。但从用户的角度来看,输入完整的序列 id 查询意义不大,序列 id 必须 支持模糊查询,或是通过碱基坐标或子数据库进行区域检索。 序列 id, 序列 id+碱基坐标 染色体号+碱基坐标 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 17 序列 id+碱基坐标+染色体号 序列 id+go idterm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论