(生物医学工程专业论文)硒蛋白生物信息二级数据库的构建.pdf_第1页
(生物医学工程专业论文)硒蛋白生物信息二级数据库的构建.pdf_第2页
(生物医学工程专业论文)硒蛋白生物信息二级数据库的构建.pdf_第3页
(生物医学工程专业论文)硒蛋白生物信息二级数据库的构建.pdf_第4页
(生物医学工程专业论文)硒蛋白生物信息二级数据库的构建.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(生物医学工程专业论文)硒蛋白生物信息二级数据库的构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to f g e n o m es e q u e n c i n gp r o j e c t s ,l o t so f d a t ai sg e n e r a t e d ,a n d i ta c c e l e r a t e st h er e s e a r c ho fb i o i n f o r m a t i c s b u i l d i n gd a t a b a s ei so n eo fb a s i ca n d i m p o r t a n tr e s e a r c hf i e l d so f b i o i n f o r m a t i c s t h ee s s e n t i a lt r a c em i n e r a l ,s e l e n i u m ,i so f f u n d a m e n t a l i m p o r t a n c e t oh u m a nh e a l t h i ti sac o n s t i t u e n to f s e l e n o p r o t e i n s s e l e n o p r o t e i n s a r ea s s o c i a t e d 、 ,i 也s o m ek i n d so f d i s e a s e s s e l e n o p r o t e i n b i o i n f o r m a t i c s s e c o n d a r y d a t a b a s ei st h ef i r s td a t a b a s eo n s e l e n o p r o t e i n t h ed a t a b a s ei sa i m e dt oc o l l e c ts e l e n o p r o t e i n sa n d t 1 1 e i rg e n e s s e q u e n c e d a t a , f a c i l i t a t e sd a t as h a r i n go fn u c l e o t i d ea n dp r o t e i ns e q u e n c ed a t a , p r o v i d e sp u b l i c s e r v i c e s ,a n db u i l d st h eb a s eo f n e x ts t e pr e s e a r c h i nt h e p r o g r e s s i o n o f s e c o n d a r y d a t a b a s e c o n s t r u c t i o n ,t h e o r i e n t e d - o b j e c t t e c h n o l o g yi s u s e dt oa n a l y z ea n dd e s i g nt h ed a t a b a s ea n dr e l a t e dp r o g r a m w ep a y s p e c i a la t t e n t i o n st os o f t w a r ea r c h i t e c t u r ea n dd e s i g np a t t e r n s ,w h i c hb e l o n gt os o l , w a r e e n g i n e e r i n gt h e o r y t h i sd a t a b a s es y s t e mm a n a g e ss e q u e n c ed a t aw i t ht w od a t a b a s e s : n u c l e o t i d ed a t a b a s ea n d p r o t e i nd a t a b a s e d a t a b a s ea p p l i c a t i o np r o g r a m sa r ed e v e l o p e d 、i t l lm e t h o do fj s p j a v a b e a n s w h i c h 黜d a t ai n p u ts y s t e ma n dw e bd a t aa c c e s s s y s t e m t h ed a mi n p u ts y s t e mi sc sa r c h i t e c t u r e ,p u t t i n ge m b l s w i s s p r o tf o r m a t s e q u e n c ed a t af i l ei n t ot h ed a t a b a s e s w e bd a t aa c c e s ss y s t e mi sb sa r c h i t e c t u r e , d e v e l o p e d w i t hj s pm o d e l2 p a t t e r n a n di tp r o v i d e sw w w s e r v i c e s t h ep r o g r a m s v i e w sa n dt r a r t s a c d o n sa r ei s o l a t e di nt h e d e v e l o p m e n tp r o g r e s s , w h i c h h e l p st or e d u c ep r o g r a m s c o u p l i n g ,a n dt og u a r a n t e ep r o g r a m s m a i n t e n a n c e b u t t h e r ea r es o m ec o m m o np r o b l e m s ,w h i c h u s u a l l y a r i s e d u r i n g t h ec o n s t r u c t i o no f s e c o n d a r yd a t a b a s e i nt h i sd i s s e r t a t i o n , t h e s ep r o b l e m sa r ea m l y z e d , a n do d e s i g n m e t h o di sg i v e n a d d i t i o n a l l y , i td i s c u s s e se j b t e c h n o l o g ya d v a n t a g ea n dd i s a d v a n t a g ei n t h es e r v i c e st h a ts e c o n d a r yd a t a b a s es h o u l d p r o v i d e k e y w o r d s :b i o i n f o r m a t i c s s e l e n o p m t e i n d a t a b a s e s o r w a r ea r c h i t e c t u r e o b j e c t - o r i e n t e d i l 华中科技大学硕士学位论文 1生物信息学和生物信息数据库的研究现状 1 1h g p 与生物信息学 二十世纪八十年代初期,出现了两种重要的观点。第一种观点是:如果能够得 到基因组的全局视图,那么可以让研究者以一种复杂的、无偏见的方式来研究问题, 从而极大的加速生物医学的研究。第二种观点是:不同于生物医学以前的任何研究 方式的是,创建这种全局视图需要基础研究机构的共同努力。在这个时期,生物医 学研究领域有几个意义深远的项目获得了成功。首先是中x 1 7 4 和入噬菌体病毒的测 序,以及动物病毒s v 4 0 和人类线粒体的测序;其次是人类遗传图谱的绘制;酵母 和蠕虫基因组的物理图谱的绘制;用于高通量基因发现的c d n a 鸟枪测序方法。这 几个关键项目的成功,进步明晰了上面两种观点川。 在1 9 8 4 年到1 9 8 6 年期间美国能源部召开的科学会议上,开始讨论人类基因组的 测序工作。在经过了一系列的讨论后,人类基因组计划( h u m a n g e n o m e p r o j e c t ,简称 h g p ) 在1 9 9 0 年成立,为了方便交流,还成立了h u g o ( h u m a ng e n o m eo r g a n i z a t i o n ) 论坛,用于国际基因组研究的合作交流。在美、英、法、日、德和中国六国科学家的 共同努力下,2 0 0 1 年联合公布完成了人类基因组图谱及初步分析结果【l j l 2 】。 人类基因组的成功实施,对生物医学研究产生了重大影响。在二十世纪九十年 代末期,有一批基因组测序项目开始付诸实施。其中不乏极具代表性的生物的基因 组,例如小鼠基因组计划( m o u s eg e n o m es e q u e n c ep r o j e c t ) p j 、大鼠基因组( r a t g e n o m es e q u e n c i n gp r o j e c t ) 1 4 1 、水稻基因组计划( r i c eg e n o m ep r o j e c t ) p - 。与此同 时,为了充分利用基因组测序工作的得到的数据,开发了大量的算法和应用程序, 极大的促进了生物信息学的发展。在基因组计划之后相继提出了蛋白质组 ( p r o t e o m i c s ) 【6 1 、功能基因组( f u n c t i o n a lg e n o m i c s ) 川和结构基因组( s t r u c t u r a l g e n o m i c s ) 嘲等研究计划。随着这些规模宏大的计划的提出,生命科学研究进入了 后基因组( p o s t - g e n o m e ) 时代。在后基因组时代,对生物信息学的需求也更加急迫 和具体,生物信息学开始发挥越来越大的作用嗍【1 川1 1 1 】 1 2 1 。 生物信息学的研究范围很广泛,但是其研究对象都是与数据有关的。可以这么 说,生物信息学的研究工作都是围绕着数据获取、加工和利用来展开的。但是无论 是基因组计划,还是蛋白质组、后基因组计划,都需要大量的人力和物力,也就是 华中科技大学硕士学位论文 说需要开展广泛的合作。为了有效的进行合作,和其他研究机构共享数据成了理所 当然的一项工作了【i 。 根据k e g g 的统计,截止到2 0 0 3 年1 月份,有相当数目的生物已经完成或者 正在进行基因组测序工作。其中,已经完成了1 1 0 种生物的基因组测序工作:真核 生物7 种,细菌8 7 种,古细菌1 6 种。同时,还在进行3 4 1 种生物的基因组测序工 作:真核生物5 8 种,细菌2 5 6 种,古细菌2 7 种【1 4 】。从图1 1 和图l 一2 中可以看 出,基因组测序工作的不断深入,得到了大量序列数据,并且数据的增长速度越来 越快,每年都要翻一番1 1 5 】。 图卜1已经完成测序工作的基因组数量( 1 9 9 5 - - 2 0 0 3 1 ) f i g l lc o m p l e t eg e n o m e sf r o m1 9 9 5t oj a n ,2 0 0 3 图1 - 2 e m b l 数据库在1 9 8 2 年到2 0 0 3 年之间的数据增长情况( 来源于e b i ) f i g1 - 2d a t a g r o w t hi ne m b lf r o m1 9 8 2t o2 0 0 3 ( f r o me b i ) 2 华中科技大学硕士学位论文 基因组测序工作提供的数据量已经是非常庞大的,但是,这还不是生物信息数 据的全部。后基因组时代带来的不仅仅是一些新技术,而且还生成了数量更加庞 大的各种数据,例如,凝胶电泳图谱数据、质谱数据和晶体数据,以及芯片数据。 此外,随着生物信息学研究的深入,以及其他学科的介入,可以利用的数据会越 来越多。海量数据并不是唯一的问题,还有数据种类的复杂化问题。基本上,每 一种新技术的引入,都会带来新的数据种类。和其他学科一样,生命科学的研究 也碰到了如何管理海量异构数据的问题,需要采用合适的技术来应对这一局面。 借鉴其他学科的经验,使用并开发高效的数据管理系统,收集、整理、分析并共 享所得到的海量数据,为生命科学研究提供服务,充分发挥这些数据的价值,加 速科学研究的速度 1 3 】【”l 。 1 2 生物信息数据库 随着数据量的增大,各国的研究机构纷纷构建了种类繁多的生物信息数据库。 归纳起来,大体可以把这些生物信息数据库分为4 个大类,即基因组数据库、核酸 和蛋白质一级结构序列数据库、生物大分子( 主要是蛋白质) - - 维空间结构数据库、 以上述3 类数据库和文献资料为基础构建的二级数据库。 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自x 衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称 为基本数据库( p r i m a r yd a t a b a s e ) ,初始数据库,也称一级数据库。根据生命科学不 同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献 等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级 数据库( s o n d a r y d a t a b a s e ) ,是数据库开发的有效途径。近年来,世界各国的生物 学家和计算机科学家合作,已经开发了几百个二级数据库和复合数据库,也称专门 数据库、专业数据库、专用数据库。 一般而言,一级数据库的数据都直接来源于实验获得的原始数据,只经过简单 的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针 对特定目标衍生而来,是对生物学知识和信息的进一步整理。一级数据库的数据库 量大,更新速度快,用户面广,通常需要高性能的计算机硬件、大容量的磁盘空间 和专门的数据库管理系统支撑。例如,欧洲生物信息学研究所使用o r a c l e 数据库软 3 华中科技大学硕士学位论文 件管理、维护核酸数据库e m b l 。而基因组数据库g d b 的管理、运行则基于s y b a s e 数据库系统,即使是安装其镜象。也需要有s y b a s e 支撑。o r a c l e 和s y b a s e 均为流 行的数据库管理商业软件。而二级数据库的容量则要小得多,更新速度也不象一级 数据库那样快,甚至可以不需要大型商业数据库软件的支撑。许多二级数据库的开 发基于w 曲浏览器,使用超文本语言h t m l 和j a v a 程序编写的图形界面,有的还 带有搜索程序【l7 1 。这类针对不同问题开发的二级数据库的最大特点是使用方便,特 别适用于计算机使用经验并不丰富的生物学家。 国际上最富盛名的基因组数据库为g d b 悸】,随着基因组测序工作的深入,还有 水稻、拟南芥【l ”、小鼠等物种的基因组数据。而著名的核酸数据库有g e n b a n k 数据 库【2 0 1 、e m b l 核酸库【2 1 】和d d b j 库田】等,蛋白质数据库有s w i s s p r o t 2 3 1 、 t r e m b l l 2 3 1 等。蛋白质结构库有p d b 2 4 】等。 国际上二级生物学数据库非常多,它们因为针对不同的研究内容和需要而各具 特色,种类繁多。( n u c l e i ca c i d sr e s e a r c h ) ) 在每年的第一期都用来刊登生物信息 数据库方面的文章。以核酸数据库为基础构建的二级数据库有基因调控转录因子 数据库t r a n s f a c ,真核生物启动子数据库e p d ,克隆载体数据库v e c t o r ,密码子 使用表数据库c u t g 等。以蛋白质序列数据库为基础构建的二级数据库有蛋白质 功能位点数据库p r o s i t e 和i n t e r p r o 等,蛋白质功能位点序列片段数据库p r i n t s ,同 源蛋白家族数据库p f a m ,同源蛋白结构域数据库b l o c k s 。以具有特殊功能的蛋白 为基础构建的二级数据库有免疫球蛋白数据库k a b a t ,蛋白激酶数据库p k i n a s e 等。 以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工 具,如蛋白质二级结构构象参数数据库d s s p ,已知空间结构的蛋白质家族数据库 f s s p ,已知空间结构的蛋白质及其同源蛋白数据库h s s p 等。以蛋白质相互作用 为基础构建的数据库有b i n d 、m i n t 和p r o n e t 等。以生物分子代谢为基础构建的 数据库有e m p 和啊t 等。以信号通路为基础构建的数据库有s p a d 和 t r a n s p a t h 等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计 研究的专门数据库。此外,对于通过整理传统的生物数据,也可以得到很多有用 的生物信息。基于这些数据构建的数据库,如酶、限制性内切酶、辐射杂交、氨 基酸特性表、序列分析文献等,也属于二级数据库或专门数据库。表1 1 给出了部 分常用的生物信息数据库的网址。 4 华中科技大学硕士学位论文 表1 1 常用的生物信息数据库及其网址 数据库名称数据类型网络地址 g e n b a n k核酸序列h t t o :w w w n c b i n l m n i h r o v e m b l核酸序列h t t v :w w w e b i a c u k e m b l d d b j 核酸序列h t l v :w w w d d b i n i 证a c i n , s w i s s p r o t 蛋白质序列 h t t d :w w w e b i a c u k s w i s s d r o f f p d b 蛋白质结构h t t v :1 w w w r c s b o m v c i b p l r蛋白质序列h t t v :d i r g e o m e t o w n e c l u g d b 人类基因组h t t v :w w w a d b 0 1 2 a t d b拟南芥基因组 h t t v :s e a u e n c e - w w w s t a n f o r d e d u a m a m b i d o p s i s s e q s t a n f o r d h t m l r g p水稻基因组h t t o :l l m v d n a a f f r c i v m g j 小鼠基因组h t m :w w w i n f o n n a t i c s j “o m r g d 大鼠基因组h t t v :l l m d m c w e d u i n t e r p m综合数据 h t r o :w w w e b i a c u k i n t e r o r o p r o s l t e 综合数据h t t d :l l u s e x s v o m o m s i t e b i n d 生物分子相互作用网络 h t l v :w w w b i n d c a m n 4 t 生物分子相互作用网络h r v :c b m b i o u n i r o m a 2 i t m i n f f p r o n e t 蛋白质相互作用h t t o :o r o n e l d o u b l e t w i s t c o m t r a n s f a c 转录因子h t t o :t r a n s f a c 立b d e 广r r a n s f a c e p d 真核生物启动子h t t v :l l w w w e n d i s b - s i b c h v e c t o r 载体分子h t t v 朋i f c n t h u e d u t w 厶宦8 5 4 2 0 2 v e c d t b h u n l 1 3 硒蛋白的分子生物学研究现状 硒是生物体必须的微量元素之一。随着人类基因组计划的结束,以及各种研究 手段的发展和完善,在硒的生物化学领域取得了长足进步的同时,关于硒的分子生 物学研究也不断有突破。关于硒蛋白( s e l e n o p m t e i n ) 的实验数据越来越多,但很零 散,研究人员往往要花比较多的精力用于资料搜集工作。因而建立一个关于硒蛋白 的数据库是很有必要的。 5 华中科技大学硕士学位论文 近5 0 年来,硒与人类疾病和健康的关系的研究一直为国内外学者所关注。大量 研究表明,缺硒除可诱发和加剧骨骼肌和心肌坏死( 克山病) 、大骨节病,雄性不育 症,糖尿病、免疫功能下降和肿瘤之外,还与冠心病和动脉硬化等心血管疾病之间 有密切关系。硒蛋白与人体的多种疾病有关,对于不同疾病其影响方式不尽相同。 如:g p x s ,t r s 被认为在基因水平上表现出抗致癌效果;被h i v 感染的t 细胞中主 要硒蛋白( 红细胞谷胱甘肤过氧化物酶c g p x 、磷脂氢过氧化物谷胱甘肽过氧化物酶 p h g p x 、t r 和1 5 k d 硒蛋白) 的含量下降,而低分子量含硒多肽的水平明显提高。 深入研究硒蛋白与疾病的关系,会得到大量有价值的信息。对这些信息加以整理和 分析,将会给研究者提供极大的便利【2 5 l 。 三大数据库( e m b l 、d d b j 、g e n b a u k ) 以及蛋白质库中己收录有一部分生物 的硒蛋白的d n a 、m r n a 序列,还确定了少量的硒蛋白结构【2 6 】。在真核生物中已 经表征的硒酶和硒蛋白有7 类:谷胱甘肽过氧化物酶g p x ( g l u t a t h i o n ep e r o x i d a s e s , 有4 种形式) 、碘甲腺原氨酸脱碘酶( i o d o t h y r o n i n ed e i o d i n a s e s ,共有i 、i i 、三 种形式,分别以5 一di 、5 一d i i 、5 一d 表示) 、硫氧还蛋白还原酶( n i o r e d o x i n r e d u c t a s e s ) 、硒蛋白p ( s e l e n o p r o t e i np ) 、硒蛋白w ( s e l e n o p r o t e i nw ) 、含硒的硒 代磷酸合成酶( s e l e n o p h o s p h a t es y n t h e t a s e ) 和1 5 k d 硒蛋白【2 7 l 口8 l 【2 9 】1 3 0 【3 ”。 硒蛋白既具有一般蛋白质的性质,更具有很强的特异性。生物体内尤其是哺乳 动物体内,硒总是以硒代半胱氨酸( s e e ) 的形式存在,而且这种氨基酸常常位于 硒酶的活性中心。它是一种独特的氨基酸,由阅读框内的u g a 密码子( 通常情况 下,u g a 作为终止密码子出现) 翻译。现在已知道s e e 的生物合成及插入蛋白质 的过程中,需要五种成分:专门携带s e e 的t r n a ( t r n a ”) ,特殊的肽链延 伸因子( s e l b 因子) ,硒代半胱氨酸合成酶,硒代磷酸合成酶( s p s ) 及其产物硒 代磷酸( s p ) ,硒蛋白m r n a 的3 非翻译区( 3 u t r ) 上的“茎一环”( s t e m - - l o o p ) 结构s e c 插入序列( s e l e n o c y s t e i n e i n s e r t i o ns e q u e n c e ,s e c i s ) f 2 7 】0 2 1 d 3 1 口。s e c i s 介导s e e 插入蛋白质的功能已由人和大鼠红细胞谷胱甘肽过氧化物酶 ( e g p x ) 和i 型碘甲腺原氨酸5 - 脱碘酶等基因表达实验证实口扪。此外还发现所 有的s e c i s 都具有三段保守碱基a u g a - - ( a ) a a - - g a ,并且在二维结构中的 相对位置非常稳定,如a u g a 与( a ) a a 相距l l 1 3 个碱基【3 2 1 。虽然现对其调 控机制已有了一定的了解,但还不能完全揭示其调控过程,因而针对硒蛋白的生 物信息学分析是十分重要的。 6 华中科技大学硕士学位论文 硒的代谢一方面依生物物种不同而有所不同,另一方面和硒的化学形式关系极 大,无机硒化合物和有机硒化合物的代谢各有不同【3 6 】。目前对亚硒酸盐代谢的了解 比较多,但不同的研究者对硒代氨基酸代谢的看法则有较大的出入【”】。对硒代谢的 研究推动了硒蛋白的研究。现在已经了解了部分硒蛋白在体内发挥功能时与其他分 子的作用位点【3 6 】。目前国内有人利用生物信息学软件,发现了新的硒蛋白【3 8 j 。生物 信息学的发展,和对其他领域的影响一样,会促进硒蛋白研究,加深人类对硒以及 硒蛋白的认识。 1 4 问题的提出 在生物学信息技术方面,根据各方鉴定,尤其是国际g a s p ( g e n o m ea n n o t a t i o n a s s e s s m e n tp r o j e c t ) 实验评估,目前国际上生物信息学的采集与识别信息的能力如下: ( 1 ) 全基因组测序、集装与a c e d b 面向对象数据库等技术逐渐成熟;( 2 ) 功能诠释的 误差下限是8 ;( 3 ) 功能与结构特征的预测精度小于7 0 ;( 4 ) 基因识别精度大于9 ; e x o n 边界的识别率约为5 0 :( 5 ) 真核p r o m o t o r 预测正确率约为3 5 ,其它调控元 件几乎难辨【3 9 1 。可以说,国际上有关生物信息数据的获取与开发工作也只是起步, 而且建立的二级数据库一般是私有的或者是商业化的,有关这方面实质内容的介绍 还不多见。目前,国际上公认需要解决的两大任务是:( 1 ) 诠释评估g a s p :( 2 ) 功能 解析( f u n c t i o n a la s s i g n m e n t ) 。这两大任务均是生物信息开发方面的难点所在。而 国内在这方面的现状是:( 1 ) 主要力量放在测序,且其硬、软件多数为“拿来”;( 2 ) 没 有自主或独立的基因组诠释系统;( 3 ) 功能解析工作还未大量展开;( 4 ) 信息处理的计 算生物学有待重视( 例如d n a p r o t d nc h i p 必须配备合格的映像软件和实施标准化 才能产业化) 。总之,国内外在生物信息方面的工作目前尚处在摸索阶段,还没有形 成较为统一的认识和标准。 生物信息学的发展很快。功能蛋白质组是现在的一个重要研究领域。从近几年 的文献来看,生物信息学有不断向各个生物学和医学领域渗透的趋势。这种趋势一 方面可以促进该领域的发展,同时可以不断的为生物信息学找到新的应用领域,从 而促进生物信息学的发展。硒蛋白作为一种和人类关系密切的蛋白质,对人体健康 有着重要的影响【2 6 】。虽然有研究者已经引入了生物信息学技术来研究硒蛋白【3 8 】,但 是由于序列数据的分散,给研究人员造成了不必要的麻烦。因此有必要构建硒蛋白 7 华中科技大学硕士学位论文 的序列数据库,为研究人员提供便利条件。 国内建立了水稻矮缩病毒基因组、家蚕蛋白质和蛋白质组图谱等数据库【1 7 1 【4 0 i 4 h 。通过调研我们发现,针对人体必需的微量元素建立的生物信息二级数据库在国 内外尚属空白。但是由于微量元素对人体的重要性,以及生物信息学技术在硒蛋白 研究中的作用,因此建立硒蛋白生物信息二级数据库应该具有重大社会和经济效益 的。本文首次构建了硒蛋白生物信息二级数据库,并结合软件工程,初步探讨以j s p 和j a v a 相关技术为基础构建二级数据库的方法。 1 5 小结 构建生物信息数据库是生物信息学研究的一项基础工作。但是国内在这方面的 工作并不是很多。由于主客观方面的原因,有关生物信息数据库的构建方法的探 讨不是很多。并且硒蛋白对于人体健康有着重要影响,已经有研究人员采用生物 信息技术来进行硒蛋白的研究。构建硒蛋白生物信息二级数据库有助于生物信息 技术在硒蛋白研究中的应用,加速这方面的研究。利用软件工程中的理论,探讨 生物信息二级数据库的构建方法,有利于构建过程的规范化,提高数据库系统的 质量。 论文的其他章节的主要内容安排如下: 第二章介绍了软件工程中的一些理论,并结合生物信息二级数据库的特点,介 绍在数据库构建过程中可能会用到的理论知识和关键技术。 第三章中利用面向对象的分析方法,结合硒蛋白生物信息的特点,构建了两个 数据库:核酸序列数据库和蛋白质序列数据库。 第四章介绍数据库的应用程序的构建。在程序构建过程中,一直注意程序各个 部分之间的耦合性,保证程序的独立性。 第五章针对硒蛋白生物信息二级数据库构建过程中暴露出来的问题,探讨了生 物信息的数据获取问题,并给出了初步的解决方案。同时结合生物信息二级数据库 的特点,探讨采用e j b 技术的利弊。 第六章对本文所作的工作进行了分析和总结,并对下一步工作进行了展望。本 论文的论文内容和文档结构如图1 3 所示。 8 华中科技大学硕士学位论文 图l - 3 论文主要内容及组织结构图 f i g1 - 3m a j o r c o n t e n t sa n df i a m e w o r ko f t h i sp a p e r 9 华中科技大学硕士学位论文 2 二级数据库应用程序的设计理论 面向对象( o b j e c to r i e n t e d ) 、软件体系结构( s o f t w a r ea r c h i t e c t u r e ) 和设计模 式( d e s i g np a t t e r n ) 是近年来在软件工程领域发展迅速且应用广泛的三种软件高层 设计方法。生物信息数据库的设计工作,包括数据库和数据库应用程序的设计两部 分。和其他程序一样,在数据库设计过程中综合使用软件工程中的方法,能够设计 出质量比较好的程序。 2 1 软件体系结构 完成了需求分析后,在设计的起始阶段,就需要考虑将要使用的软件体系结构。 近年来最为常见的两种体系结构为c s 和b s 结构,两种结构都有各自的特点。 c s 结构,即c l i e n t s e r v e r ( 客户机服务器) 结构,通过将任务合理分配到客户端 端和服务器端,降低了系统的通讯开销,可以充分利用两端硬件环境的优势。 b ,s 结构,即b r o w s e r s e r v e r ( 浏览器,服务器) 结构,是随着i n t e m e t 技术的兴起, 对c s 结构的一种变化或者改进的结构。在这种结构下,用户界面完全通过w w w 浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,形 成所谓3 - t i e r 结构。b s 结构利用不断成熟和普及的测览器技术实现原来需要复杂专 用软件才能实现的强大功能,并节约了开发成本,是一种新的软件系统构造技术。 在设计应用程序时,这种结构成为更为常用的体系结构。 比较这两种结构,可以看到b s 结构有下列的优点: 它是有计算技术以来最稳定的技术平台。在c s 时代,用户最苦恼的问题 莫过于如何选择一个稳定的平台。由于以前的技术基础不是网络,因此自 然地发展出众多的互不兼容的技术平台。每种技术平台,从用户应用稳定 性要求来看,都可以说是昙花一现,给用户留下了无奈与苦恼。只有进入 网络计算机时代,由于上亿用户都联在网上,其技术才获得了高度稳定性。 它只能发展,不能被推翻,所有人只能支持和遵循它,不能控制它。 它本质上是一种客户机技术,这对于大中型企业特别合适。在c s 模式下, 每种应用的主要部分是在客户机端。开发出c s 结构的程序后,需要在每 二全查主垫塑室茎垦壁:堡壁= 呈堡盐:墨至茎堑室茎堡生:丝芏箜垡竺 1 0 华中科技大学硕士学位论文 比较大。而i n t e r n e t 技术却不同,上亿个用户只是通过浏览器这个统一界面, 就可享受到无限丰富的,永远在不断变化和发展着的信息服务。i n t r a n e t 原 则上取消了所有在客户机侧的维护工作。 它提供了异种机、异种网、异种应用服务的联机、联网、统一服务的最现 实的开放性基础。通过i n t r a n e t 技术统一访问异种数据库,早已成为现实。 从i s d n 到a t m ,再到现在大行其道的t c p i p ,正是由于i n t e m e t 的大 行其道,宽带i p 将会成为真正的、统一服务的( 数据、语音、多媒体) 网 络基础。 从上面的叙述可以看到,b s 的一个重要用途即是w e b 程序。目前企业w e b 程序的基本工作流程如下: 用户通过网络浏览器对w e b 服务器提出访问请求。 服务器将处理用户的请求,通过c g i 访问d b m s 以进行数据的查询统计或 事务的提交。 c g i 根据d b m s 返回的结果生成h n 舡。文件,经过服务器向客户的网络浏 览器返回结果。 用户通过网络浏览器查看h t m l 结果。 对于上述流程,工作量主要在服务器端。因此,一旦确定使用b s 架构,需要 解决的问题就是如何在服务器端设计高效的程序来分析并处理客户的请求。客户端 基本上不需要实现业务逻辑,一般只需要进行简单的验证等工作。 对于生物信息数据库来说,构建的一个目的就是向公众提供服务,共享数据。 如果采用c s 架构,向用户发送应用程序,服务范围是很有限的。采用b s 架构, 通过w w w 提供服务是一个顺理成章的选择。但是在设计数据导入程序的时候,由 于需要访问大量的本地文件,限制了b s 架构的使用,因此使用c s 方式来进行开 发。 2 2m v c 模型 在面向对象程序设计过程中,常用的模型是m v c 模型。m v c 通过将问题分为 三个类别来帮助解决单一模块方法所遇到的某些问题。 在m v c 模型中,应用程序分为三个组成部分: l l 华中科技大学硕士学位论文 v i e w :这是用户界面部分,主管应用程序与人之间的接口:一个方面它为用户 提供了输入手段,并触发应用逻辑运行;另一个方面,它又将逻辑运行的结果以 某种形式显示给用户。它是应用程序的外观。视图可以访问模型的读方法,但不 能访问写方法。此外,它应该对控制器一无所知。当更改模型时,视图应得到通 知。 图2 - 1m v c 模型 f j 9 2 - 1 m v cm o d e l c o n t r o l l e r :控制器对用户的输入作出反应。它创建并设置模型。该部分是用户 界面与m o d e l 的接口;一个方面它解释来自于v i e w 的输入,将其解释成系统能够 理解的对象,同时它也识别用户动作,并将其解释为对m o d e l 特定方法的调用;另 一个方面,它也处理来自于m o d e l 的事件和m o d e l 逻辑执行的结果,调用适当的 v i e w 为用户提供反馈。 m o d e l :这是整个模型的核心,它表示的是解决方案空间的真正的逻辑。它采用 面向对象的方法,将问题领域中的对象抽象为应用程序对象。在这些抽象的对象中 封装了对象的属性和这些对象所隐含的逻辑。模型封装了应用程序的状态,有时它 包含的唯一功能就是状态。m o d e l 对视图或控制器一无所知。 上面所示的编程模型中,在应用程序执行过程中,数据就保存在m o d e l 的实例 中,也就是保存在内存中。当用户需要保存执行的结果时,将模型中的数据保存为 特定格式的文件。很明显,通过把表示和业务进行分离,这种模型可以提高程序各 个部分的独立性,对一个部分的更改,可以不用涉及到其他部分的更改。 对于生物信息数据库来说,变化最大的部分可能是表示层了。不同的用户出于 不同的目的,可能会需要不同的视图来观察结果。这部分有可能会经常变化,因此 有必要分离不同的功能模块。 1 2 华中科技大学硕士学位论文 2 3 数据库连接技术 w e b 应用程序有着与工具类应用程序不同的特点:数据量大、多用户并行操着。 如果象上面一样采用面向对象模型,则往往是多模型实例同时存在,上面的模型不 再完全适合于这样的w e b 应用程序。 在w e b 程序设计的时候,工作量主要在服务器部分。很多业务都需要范围内数 据库,对该部分的处理目前有好几种方法,有用c g i 访问d b m s ,也有依靠w e b 服 务器自身具有数据库处理能力,也有混合访问d b m s 。总的来说,对工作重点需要 放在w e b 服务器端的应用开发上。在访问后台数据库的时候,很常用的是o d b c 、 d a o 和j d b c 等技术。如果网络的访问量很大的话,使用连接池( c o n n e c t i o np 0 0 1 ) 技术对于性能有较大的提升【4 2 1 1 4 3 。 由于j a v a 及其相关技术所具有的平台无关性,在构建数据库的时候倾向于使用 j a v a 技术来进行开发。在下面的叙述中将只讨论j d b c 来实现数据库的访问,不考 虑o d b c 的方法。 2 3 1 j d b c 驱动程序 一般说来,j d b c 驱动程序有四种类型: 模式1 :通常由s u n 公司提供的j d b c o d b c 桥接器。它提供了经由一种或多 种o d b c 驱动进行访问的j d b c 接1 3 ,而o d b c 驱动,在很多情况下也就是数据库 的客户端,必须加载到客户机。 模式2 :类似于j d b c o d b c 桥接器,需要加载到客户机,却是一个部分用j a v a 实现的驱动接口。它将j d b c 调用转换为对数据库( o r a c l e 、s y b a s e 、i n f o r m i x 、d b 2 等) 客户端接口的调用。 模式3 :纯j a v a 驱动程序,不同于模式4 的是它是基于网络协议的。它的机制 是将j d b c 调用转换为中间网络协议,然后转换为d b m s 协议。中间网络协议层起 到一个读取数据库的中间件的作用,能够连接许多类型的数据库,因而是最灵活的 j d b c 模式。 模式4 :同样是一个纯j a v a 驱动。一般是数据库厂商才能实现的纯j a v a 的基于 本地协议的驱动,直接调用d b m s ( 数据库管理系统) 使用的网络协议。 大部分数据库厂商给他们的数据库提供第三类或者第四类驱动程序。另外,还 1 3 华中科技大学硕士学位论文 有一些第三方公司专门开发驱动程序,他们的驱动程序支持更多的平台,有更好的 兼容性:或者在某些情况下,他们的可靠性高于数据库厂商提供的驱动程序。 利用j d b c 可以实现下列目标: 程序员可以利用j a v a 语言开发这类应用程序,它在遵守j a v a 语言规则的同 时,可以用标准的s q l 语句( 或者s q l 某一扩展版语句) 访问任何数据 库( 所有j d b c 驱动程序必须支持s q l 9 2 的初版) 。 数据库厂商和数据库工具厂商能提供较低层的驱动程序,这样他们可以在 自己的产品中使用优化的驱动程序。 图2 - 2j d b c 驱动程学曰 f i 9 2 - 2 j 妃n i 闷 2 3 2 连接池技术 从定义上来说,一个服务器就是为一个或者多个客户执行服务。随着客户数量 的增加,尽可能高效的服务于客户的重要性也在不断加大。而要高效的服务于客户 请求,采用的技术之一就是尽可能的重用占有昂贵资源的对象。对象池是一种管理 和重用对象的技术。从资源上来说,创建c o n n e c t i o n 对象是最昂贵的操作之一。在 j d b c 中,一个c o n n e c t i o n 对象表示一个本地化的数据库连接,通常建立一个连接 耗费l 或者2 秒的连接时间是很正常的。通过在客户之间共享一组连接,而不是在 1 4 华中科技大学硕士学位论文 每次需要时才创建连接。这样可以提供资源的加载速度,从而提高应用程序的响应 时间。 数据库连接池技术使用数据库连接时不用每次申请、释放数据库的连接,这样 可提高对数据库请求的访问速度,增加数据库的并发请求处理能力,不会因过多的 并发请求而导致数据库服务器的瘫痪。数据库连接池技术在应用程序启动时建立足 够的数据库连接,并将这些连接组成一个连接池,由应用程序动态地对池中的连接 进行申请、使用和释放。此外,应用程序还可以根据池中连接的使用率,动态地增 加或减少池中的数据库连接数目。 数据库连接池的工作原理是首先获得对连接池或管理连接池的一个对象的引 用,这一工作由一个p o o lm a n a g e r 类完成,这个类管理c o n n e c t i o n p o o l 类的多个实 例,每个c o n n e c t i o np o o l 管理着巾b cc o n n e c t i o n 对象的一个池。当有数据库操作 请求时,就从连接池中获得一个连接对象c o n n e c t i o n ,每个对象负责一个j d b cu r l 和相应的数据库登录账户名称、密码。在使用完后将这个连接返还到连接池。这样, 在一个大型的w e b 站点中,当用户请求数量不断增加时,数据库连接技术将使数据 库系统更加有效地运行,保证系统正常工作。 在生物信息数据库中,如果数据库的规模不是很大的话,两种技术方案都能够 胜任需求,采用连接池方法对服务器的要求高于j d b c 方案。但是,如果数据库规 模很大的话,考虑的问题将不再是服务器的配置了,而是重点关注如何有效的提高 服务的质量,这个时候,选择连接池方案明显优于j d b c 方案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论