基于Web的基因组序列数据库管理系统的设计与实现.doc_第1页
基于Web的基因组序列数据库管理系统的设计与实现.doc_第2页
基于Web的基因组序列数据库管理系统的设计与实现.doc_第3页
基于Web的基因组序列数据库管理系统的设计与实现.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 7 卷 第 2 期2 0 0 9 年 0 6 月生 物 信 息 学China Journal of BioinformaticsVol17 No12J une ,2009基于 Web 的基因组序列数据库管理系统的设计与实现赵锐1 ,钱震2 ,任双喜2 3(1 . 苏州大学生命科学学院 ,江苏 苏州 215123 ;2 . 国家人类基因组南方研究中心 ,上海 201203)摘要 :设计一种基于网络的可用来存储和注释海量 DNA 数据的数据库模型 。整个过程分为三部分 :首先是构建数据库框架 ,然后对原始基因组序列数据进行批量注释并输出有效格式导入数据库 ,最后通过一个友好的用户交互界面 ,实现对基因组数 据的在线读取 ,查询 ,注释等操作 。设计的数据库用于解决大量产生并有待分析的基因组序列的有效存储和管理问题 。 关键词 :数据库 ;Web 技术 ;序列注释 ;DBMS中图分类号 : TP31文献标识码 :B文章编号 :1672 - 5565 (2009) - 02 - 143 - 03Design and implementation of web ba sed genome sequence data ba semanagement systemZHAO Rui1 ,QIAN Zhen2 ,REN Shuang2xi2 3( 1 . Life Science College of Soochow University , S uzhou 215123 , China ; 2 . Chinese National Human Genome Center at S hanghai , S hanghai 201203 , China) Abstract : This paper aims to develop a web based , database schema that is capable of storing and annotating large amounts of DNA data . The project was broken into three parts : frameset of the database , annotation to the raw genomic sequences and practicable flat - file to be loaded by database , implementation of a friendly graphical user interface to access query or annotate sequence data online . The database designed is applyed to solve problems in storing and management of genome sequences which are rapidly produced and in need of analyse .Key Words :Database ; Web ; Sequence annotation ; DBMS随着越来越多物种的基因组测序的完成 ,生物学研究面临了空前的的生物序列信息爆炸 。同时 ,序列的注释信息变得越来越复杂和大量 。DDBJ 早 在 1995 年就意识到 DNA 序列数据库将面临即将来 到的新的挑战1 。EMBL 、DDBL 、GenBank 核酸数据 库自从 1994 年起 ,其数据量以每 14 个月翻一番增生菌和模式生物 。WGS 为主要的测序方法 。作为重要的模式生物之一 ,基因组测序计划将加快基因 的发现与研究3 。为了适应基因组序列数据结构的重要变化和快 速增长的数据量 ,本文提出了一种新的数据库数据 库模型 。在新的数据库模型下 ,序列数据的结构和注释信息彼此独立存储 ,使得序列数据本身结构的 变化不会影响到对序列的注释 。同时设计一个方便易操作的网络交互平台 ,实现对序列的查询和注释 。长2。如今 ,生物数据库的更新速度不断加快 ,数据量呈指数增长趋势 ,数据库使用频率增长更快 ,数据库的复杂程度不断增加 ,网络化成为趋势 ,应用不断 增强 ,先进的软硬件配置不断更新 。如何有效存储 和管理生物序列数据是生物信息学需要解决的重要 问题之一 。真菌是真核生物的一个庞大门类 。据统计 ,全世界有 150 万种真菌 ,其中已被描述的仅 74 ,000 到120 ,000 种 。基因组信息可以加深人们对真菌遗传 和生理多样性的认识 。截至目前 , 在 NCB I 上已公 布了 141 个真菌基因组测序计划 ( http :www. ncbi . nlm. nih. govGenomes) 。这些真菌基因组大小为 2158115 Mb ,包括重要的人类病原菌 、植物病原菌 、腐系统的架构设计与方法1系统建立在一个真菌基因组序列数据库基础上 。实现对序列及序列的对应注释信息进行有效存 储 ,并实现优化查询 。1 . 1数据来源要实现这个具有注释功能的基因组序列数据 库 ,需要对获得的基因组序列数据进行有效注释 ,并组织成一定格式输入数据库 。收稿日期 :2008 - 04 - 28 ;修回日期 :2008 - 07 - 14 .基金项目 :863 计划 (2006AA02Z188) 资助项目 。作者简介 :赵锐 (19 - ) ,男 ,江苏常州人 ,硕士研究生 。E - mail :zzqr 163 . com.3 通讯作者 : 任双喜 ,e - mail :rensx chgc . sh. cn ,Tel :021 - 38953523 .测试的基因组序列是国家人类基因组南方研究中心原始 Penicillium marneffei4 WGS 数据 。数据包 含每段序列的核酸序列及其测序文件 、染色方案 、测 序时间等有关信息 。通过编写一个 Perl 程序 ,将序 列的纯文本数据转换为可读格式的文件方便直接从数据库管理系统加载 。1 . 2 数据库设计数据库是结构化信息的集合 ,就生物信息学数 据来说一般存储为纯文本文件形式 。单个数据库条 目被称作记录 ,记录由字段组成 。计算机数据库往往和相应的数据库软件相联系 。这种软件被称为数 据库管理系统 (DBMS) ,实现对数据库的读取 、更新 、 查询 和 安 全 性 完 整 性 的 控 制5 。系 统 采 用 MySQL 数据库管理系统6 。MySQL 数据库管理系统是广泛应用的一种数据库软件 ,系统的维护 、开发 、移植 、扩展都很方便 ,安 全性良好且支持中文 。作为开源的数据库软件 ,可 以通过互联网免费获得 ( http :dev. mysql . comdown2 loads) 。根据基因组序列的数据结构及其注释信息的结构 ,需要构建了基因组序列注释信息的实体 - 关系 模型7 (图 1) 。orf 序列及其测序的一些数据被存放 在 dna 数据表中 ,对应的序列测序文件名被存放在 file 数据表中 , 每条序列的 BLAST 搜索结果及匹配 值被被存放载 blast 数据表中 ,每一条 BLAST 的注释 信息 ( 包 括 ACCESSION , SOURCE , DEFFINITIN , GI 等) 被存放载 annotation 数据表中 ,而在线参与注释 的信息 ( 包括注释者和注释的具体信息) 被存放载 annotator 数据表中 。表与表之间通过一对一 、一对 多或多对多的关系联系起来 。数据库的数据彼此联 系而又独立 ,适应于系统的扩展和更新 。(Browser) ,通过 Web Server 同数据库进行数据交互 。用户界面完全通过 WWW 浏览器实现 ,主要事务逻辑在服务器端实现 ,同时数据通过数据库与服务器 相连 ,形成所谓 3 - tier 结构 。BS 结构 ,主要是利用 了不断成熟的 WWW 浏览器技术 ,结合浏览器的多种 Script 语言 ( PHP Script , J avaScript . . . ) 和 ActiveX 技术 。系统网络界面使用 HTML 和 PHP 脚本语言 , 能与 MySQL 数据库管理系统良好的配合 ,实现方法 简单 , 移 植 性 也 很 好 。在 本 地 测 试 时 采 用 通 用 的 Apache 服务器 ,能良好的支持 MySQL 数据库管理系统和 PHP 脚本语言 (图 2) 。图 2 数据库与网络平台的对接Fig12 Access database and Net platform数据库系统的实现与使用2系统主要实现目标是 :a) 批量获取基因组序列及格式转化 ;b) 实现基因组数据库的存储及注释 ;c) 通过用户界面查询序列 ;d) 通过用户界面对序列注释信息进行搜索 ;e) 参与序列的在线注释 ;序列转换与注释获取通过编写 Perl 程序 ,一方面将注释转换为一定2 . 1格式 ,输入数据库 。另一方面 ,利用 NCB I 的 BLAST工具获取 orf 序列的同源序列信息 。程序记录下同 源序列的匹配值和部分注释信息 ,并提供对应序列的 NCB I 链接地址 ,可以方便的转到来源网页查看 。随着 系 统 的 进 一 步 完 善 , 可 以 在 用 户 界 面 提 供BLAST 搜索功能 。2 . 2查询与搜索通过网页界面 , 用户可以对关键字段 ( 如 ORF ID 、序列文件名 、DNA 序列 、BLAST 注释字段等) 进行查询和搜索 。用户查询页面如图 3 。网页的上方 (a) 是一个快速查询栏 ,提供对基本图 1 数据库 E - R 图Fig. 1 Entity - Relationship design of the database1 . 3网络平台的选择系统采用 BS 结构 ,即 BrowserServer (浏览器服 务器) 结构 。相对于 CS 结构 ,即 ClientServer ( 客户 机服务器 ) 结 构 , 客 户 机 上 只 要 安 装 一 个 浏 览 器字段的查询 。( b) 是对序列信息的查询 ,包括 orf id 、核酸序列及测序文件 。(c) 是对注释信息的查询 ,这里包括自动注释的信息和参与添加的注释 ,用户可 以搜索注释信息来比较 orf 序列的功能及保守区域 ,第 2 期赵锐 ,等 :基于 Web 的基因组序列数据库管理系统的设计与实现145图 3 用户查询界面Fig. 3 User Search Page图 5 序列及注释信息Fig. 5 Sequence Information Page或进一步通过其他生物信息工具进行分析 。查询的结果通过一个表格显示 ( 图 4) , 简单的 列出了主要的注释信息 (如匹配最符合的注释信息 、 是否有其他人的注释) 。单击每个结果 ,可以看到完 整的序列及注释信息 (图 5) 。以在线参与有关序列的人工注释 ,以此互相可以的得到信息的交流 ,不断完善注释信息 ( 图 6) 。这有 助于使研究团体们共同参与到基因组的注释 。图 6 参与基因组的注释Fig. 6 Genome annotation affiliation图 4 查询结果表格Fig. 4 Search Result Page在线注释功能的初步实现是建立在对 orf 序列的一对一注释 ,注释的信息会出现在对应 orf 序列的 显示页面 ,注释者的信息也会被记录 ,同一序列的注释者可以参阅其他人的注释 ,也可以通过联系方式与其他研究者进行讨论 。图 5 上面部分 (a) 是 orf 序列的基本信息 ,包括 orfid 、核酸序列长度 、测序时间等 。(b) 是 BLAST 搜索的 得到的前三条结果的信息 , 包括它们与 orf 序 列 的 score , e value 值 ,点击横线处可以进入 GenBank 查看对 应的完整信息 。列出多条结果是为了做互相比对 。同时 ,BLAST 程序在某些情况下 ,排第一的 BLAST 结果可能不是最合适的结果2 。(c) 是参与注释的用户提供的 信息 。最后显示了完整的核酸序列 。2 . 3 参与注释同时 ,作为研究同一基因组研究领域的学者 ,可讨论与结论3本文对生物序列数据的管理方式进行了深入的研究 ,提出了以 Web 应用为基础的生物序列数据库(下转第 149 页)常的指标 ,区别于采用一个全局的指数作为判断的标志 。可以用来测量或判断出一个对象是离群点的 可能程度 ,并能够反映出作为一个离群点关于其局 部领域内密度的异常程度 ,对于挖掘出最突出的离 群点有显著的作用9 。术上得以更大的突破 。结论4基于医学信息数据仓库模型的数据挖掘系统采用了目前比较成熟的挖掘规则和算法 ,以面向临床 应用为目的 ,可以实现诸如对糖尿病患者进行筛查 , 医院内的感染监测进行控制 ,冠心病预测等辅助功 能 ,随着数据的进一步采集与整理以及挖掘算法的 不断完善 ,必能为医院疾病诊断和治疗 、医院管理决 策等带来极大的方便和可观的效益 。参考文献 ( References) :结果与讨论3本系统的实现可以为从错综复杂的 、庞大的医学信息库中提取有价值的决策支持信息提供有效的 途径和方法 :可分析某种疾病治疗过程中诱发其它疾病的概率以及与时间的关系 ; 对患者资料数据库中大量历史数据处理 、提炼其中有价值的信息 ,辅助 临床决策的制定 ; 可分析病人的来源分布 、职业分 布 、身份分布 、年龄分布等 ,便于有针对性的提高医院服务质量 ;可以通过聚类对异常情况进行记录 ,减 少医疗错误的发生 。医学信息数据仓库模型的挖掘是计算机技术 、 人工智能 、统计科学与现代医学相融合的产物 ,是面 向整个医学信息库提取知识的过程 ,是医疗服务整体决策科学化的重要组成 ,医学数据挖掘对象的广 泛性 、算法要求高效性 、提取知识以及决策建议要求 更高的准确性等等因素都需要计算机 、数学 、统计 学 、以及广大医疗工作者的多方协作 ,才能在信息的 多方融合 、算法的高效性 、获取知识准确性等关键技屈景辉 ,廖琪梅 ,许卫中 ,陈汉勇. 医学信息数据库的建立与数据挖掘J . 第四军医大学学报 ,2001 ,22 :88 - 89 .林 宇. 数据仓库原理与实践M. 北京 :人民邮电出版社 ,2003.朱凌云 ,吴宝明 , 曹长修. 医学数据挖掘的技术 、方法及应用J . 生物医学工程学杂志 ,2003 ,20 (3) :559 - 562 .KANTARDZIC M. DATA MINING Concepts , Methods and AlgorithmsM. Newwyork : IEEE Press , 2002 :1 - 269 .张世红 ,徐国恒 ,刘公霞. 数据挖掘在医学上的应用 J . 医学情 报工作 ,2004 ,6 :408 - 410 .徐 蕾 ,贺 佳 , 孟 虹 , 等. 决策树技术及其在医学中应用J . 数理医药学杂志 ,2004 ,17 (2) :161 - 164 .石义芳 ,孔令人 ,于 芳 ,等. 数据挖掘和知识发现技术在病人 流量分析中的应用J . 现代预防医学 ,2006 ,33 (2) :237 - 238 .赵国富. 基于聚类的空间数据挖掘系统的设计与实现 J . 山东 理工大学学报 ,2005 ,11 :41 - 43 .曹洪其 ,余 岚 ,孙志挥. 基于网格聚类技术的离群点挖掘算法J . 计算机工程 ,2006 ,32 :119 - 121 .123456789(上接第 145 页)管理体系为基因组学的研究提供了一个高效 、有力 的生物信息学支持平台 ,为基因组信息的进一步研 究奠定了扎实的基础 。基因组注释是基因组研究的重要方面 ,包括功 能注释和结构注释等多种注释途径 。基因组注释是 一个复杂 、繁琐的过程 ,需要大量的生物学知识 。详 尽 、准确的注释需要经过严格的生物学实验才能获 得 。系统整合公共数据库 ,使注释过程自动进行并把结果存储到数据库系统中 ,最终提供友好的界面 。 系统在一定程度上依赖于现有数据库中的注释信息 。由于各种原因 ,这些注释信息必然有一些错 误 。显然 ,这些错误信息将不可避免地引入新的注 释系统 。所以 ,目前所有计算机注释信息 ,均不能保证完全准确 。因此 ,必要的人工注释 ,可以避免或纠 正自动注释的错误 。系统进一步的设计将整合在线 分析模块 ,强化 BLAST 搜索功能 ,扩展序列信息 ,完 善数据库的设计 。系统有效地实现了基于网络的基因组序列信息 的存储 、查询和注释修改 ,利用网络有效组织资源 ,同时结合公共数据库的注释信息 ,可为同一基因组研究项目的研究人员提供方便的基因组序列注释平台 。这将有利于加快基因组的研究 。数据库的有效 存储 、查询以及良好的扩展性为今后大规模的分析 及分析结果的存储创造了必要的条件 。同时真菌基因组数据库的实现为更为复杂的基因组数据库提供 提供研究模型 。参考文献 ( References) :1T. Koike , T. Okayama , J . Ishii , et al . Development of New DDBJ DNA Sequence Database with Data Annotation T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论