(计算机应用技术专业论文)计算化学escience中化学数据库管理工具的研究与实现.pdf_第1页
(计算机应用技术专业论文)计算化学escience中化学数据库管理工具的研究与实现.pdf_第2页
(计算机应用技术专业论文)计算化学escience中化学数据库管理工具的研究与实现.pdf_第3页
(计算机应用技术专业论文)计算化学escience中化学数据库管理工具的研究与实现.pdf_第4页
(计算机应用技术专业论文)计算化学escience中化学数据库管理工具的研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)计算化学escience中化学数据库管理工具的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近几十年来,化学数据库已经成为化学研究工作中一个必不可少的工具。随着化 学科学研究的不断信息化,化学数据库的发展也是层出不穷。众多的化学数据库在一 i 定程度上确实方便了化学家的科研工作,但是另一方面,各种数据库之间查询和操作 方式的差异,则严重影响了化学家享受这种数据共享带来的科研便利性。因此,为化 学家提供一种统一的数据查询方式,屏蔽各种化学数据库之间查询和操作方式的差 异,将极大地方便化学工作者的研究工作。 数据是化学科研工作中的核心部分,化学家可以从化学数据库检索到需要的数 据,也可以从具体实验中获得数据。当数据在本地积累到一定数量的时候,如何有效 的组织和管理这些数据将变得异常重要,例如本地数据的查询、查看、分子属性的计 算等,直接关系到能否取得科研成果。因此化学家需要一种统一、高效的方式来组织、 管理和查询本地的化学数据。 本文所做的工作也正是围绕目前化学研究领域内存在的这两个问题而展开,通过 研究和分析典型化学数据库及其管理工具和计算化学e s c i e n c e 建设中对化学数据库 的统一查询及对本地化学数据的管理需求,研究和实现一个个性化的化学数据库管理 工具来解决上述两方面的问题。利用此工具化学家既能建立本地的数据库对本地数据 进行高效的组织和管理,也能在一个统一的查询界面对化学数据库进行查询,屏蔽化 学数据库之间操作的差异性。本文重点实现了本地化学数据的组织和管理,通过利用 内嵌式数据库d e r b y 和开源化学信息开发工具包实现了化学数据在数据库中的存储、 分子结构的查看和编辑、二维分子子结构的查询和分子属性的计算等;然后对化学数 i 据库的统一查询方式方面进行了简单的示范性研究。 关键字:化学数据库、d e r b y 、e c l i p s e 、s m i l e s 、二维分子子结构 a b s t r a c t d u r i n gt h ep a s td e c a d e s ,c h e m i s t r yd a t a b a s eh a sb e c o m ea ni n d e p e n d e n tt o o lf o rc h e m i s t s i nt h e i rd a i l yr e s e a r c h 。黝t h ed e v e l o p m e n to fc o m p u t e r - a i d e dc h e m i s t r yr e s e a r c h , t h e r e c o m e so u tah u g en u m b e ro fc h e m i s t r yd a t a b a s e s i ns o m es e n s e ,t h ea p p l i c a t i o no f d i f f e r e n td a t a b a s e sf a c i l i t a t e st h er e s e a r c ho fc h e m i s t s ,w h i l ei no t h e rp e r s p e c t i v e s ,t h e d i f f e r e n tw a y st oq u e r ya n da c c e s sa m o n gd i f f e r e n td a t a b a s ep r e v e n t st h ec h e m i s t sf r o m s h a i i n gt h ed a t a t h e r e f o r e ,i tp r o v i d e sau n i f i e dd a t aq u e r ym e t h o df o rt h ec h e m i s t s ,w i t h w h i c ht h ea c c e s sm e t h o d sa m o n gh e t e r o g e n e o u sc h e m i s t r yd a t a b a s e sc a i lb eu n i f i e d ,t h u s i n c r e a s i n gt h ee f f i c i e n c ya n de f f e c t i v e n e s so f t h ec h e m i s t s d a t ai so fc r i t i c a li m p o r t a n c et ot h ec h e m i s t r yr e s e a r c h 1 1 l ec h e m i s t sc a l lg e tt h e d e s i r e dd a t af r o mt h ed a t a b a s eo rf r o mt h ee x p e r i m e n t s 1 1 l ep r o b l e mb e c o m e sn o n t r i v i a l w h e nt h en u m b e ro fl o c a ld a t aa c c u m u l a t e st oc e r t a i nq u a n t i t y , f o re x a m p l e ,h o wt oq u e r y a n dv i e wt h ed a t aa n dh o wt oo b t a i nt h es i m p l ep r o p e r t i e so ft h es t r u c t u r e s ,h o we f f i c i e n t l y t h ew a yi ti st om a n a g ea n dh a n d l et h ed a t aw i l ld i r e c t l ya f f e c tt h er e s u l to fr e s e a r c h i ti s d e s i r a b l ef o rt h ec h e m i s t st om a n a g ea n da n a l y z et h el o c a ld a t ai nau n i f i e da n de f f i c i e n t w a y 1 1 :l i sp a p e rf o c u s e so nt h et w op r o b l e m sw ed i s c u s s e di nt h ep r e v i o u sp a r a g r a p h s w e r e s e a r c ha n da n a l y z et h et y p i c a lc h e m i s t r yd a t a b a s e sa n dt h e i rm a n a g e m e n tt o o l sa n dt h e r e q u i r e m e n t so fu n i f i e dd a t a b a s eq u e r ya n de f f i c i e n tw a yt om a n a g et h el o c a ld a t a , t h e n p r o p o s e sap e r s o n a l i z e dd a t a b a s em a n a g e m e n tt o o lt or e s o l v et h et w op r o b l e m s w i t ht h i s t o o l ,n o to n l yc a nt h ec h e m i s t sc r e a t el o c a ld a t a b a s e st oo r g a n i z ea n dm a n a g et h ed a t ai na n e f f i c i e n tw a y , b u ta l s ot h e yc a nq u e r yh e t e r o g e n e o u sc h e m i s t r yd a t a b a s e si nau n i f i e dw a y t i l i sp a p e rm a i n l yi m p l e m e n t st h eo r g a n i z i n ga n dm a n a g e m e n to ft h el o c a ld a t a , w i t ht h e e m b e d d e dd a t a b a s ed e r b ya n ds o m eo p e ns o u r c ec h e m i c a li n f o r m a t i o nt o o l k i t st of u l f i l l t h es t o r a g eo ft h ed a t a , v i e wa n de d i to fs t r u c t u r e s ,q u e r yo ft w od i m e n s i o ns u b s t r u c t u r e s a n dc a l c u l a t i o no fp r o p e r t i e so fs t r u c t u r e s ;a n dt h e nw ed os o m ed e m o n s t r a t i o nr e s e a r c ho n t h eu n i f i e dq u e r yo f h e t e r o g e n e o u sc h e m i s t r yd a t a b a s e s k e y w o r d s :c h e m i s t r yd a t a b a s e ,d e r b y , e c l i p s e ,s m i l e s ,2 - d i m e n s i o nm o l e c u l es u b - s t r u c t u r e n 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行 研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数 据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做 出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:毖 日期: 知武、0 述。 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属 兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同 意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许 论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学 位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论 文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名:扭导师签名:乏垡垫狃日 1 1 研究背景 第一章绪论 科技的发展带来了化学信息数据爆炸性的增长,信息量的剧增带来的最重要问题 是如何进行化学信息的管理、查询和利用。化学是人类最早进行系统性数据搜集和整 理的自然科学领域之一。化学信息可分为与传媒有关的信息( 如文献、图书资料、网 络信息等) 以及与物质有关的信息( 各种实验数据,包括化学反应有关数据,谱学数据, x 射线晶体学数据,化学与物理性质数据,毒性及生物活性数据,与环境有关的数据 等) 1 。化学信息的形式包括:文字、符号、数字、形貌、图形及表格等【2 】。计算机 技术在化学科研领域的应用,特别是数据库技术的发展和应用,使得化学数据库已经 成为这些化学信息最主要的组织和管理形式。最早的化学数据库是各种谱图数据库及 剑桥晶体结构数据库 3 。目前应用最广泛的化学信息系统有m d l 系统,b e i l s t e i n 系统及c a 系统等 4 。据统计,目前化学信息中5 8 已经组织为各种数据库系统 5 。 几十年来各类化学数据库层出不穷,化学已经成为数据库种类最多,数据库需求和应 用最为广泛的自然科学领域之一。通过建立化学数据库可以达到对化学数据的合理化 管理及数据资源的共享,从而为化学工作者开展科研活动提供方便。 化学是自然科学最重要的学科之一,它成功解决了物质世界中的许多复杂的问 题。化学家在解决化学问题时需要的信息甚广,信息量甚大,有时需要同时检索化学 领域中各种类型与内容不同的化学数据库。尽管化学数据库常常具有海量的数据,但 是数据库的管理方式却多种多样,每个数据库的查询和操作方式都不尽相同,这种异 构性严重影响了化学家在科学研究活动中的效率。因此为化学家提供一种统一的数据 查询方式,屏蔽各种化学数据库之间查询和操作方式的差异,将极大地方便化学工作 者的研究工作,从而提高研究效率。 统一的查询方式可以使化学家更快、更多、更好地查询数据库中的数据,但是当 各种各样的化学数据在本地积累到一定数量时,如何组织和管理这些数据就成为科研 中的一个更待解决的问题,例如如何快速的定位经常使用的数据,如何在已有数据中 查找所需的数据,如何对数据进行分类管理,如何获取分子结构的简单属性等等。由 于化学数据的种类繁多和格式各异,单纯的手工管理是一件很费时费力的工作,更甚, 第一章绪论 有些不同格式的数据需要不同的第三方化学软件来打开和查看,这些都将极大地影响 研究的效率,增加使用数据的繁琐度。因此化学家亟需一种统一、高效的方式来组织、 管理和查询本地的化学数据。 1 2 典型化学数据库概述 化学数据表现为两方面:文献资料数据属于“软数据 ,从实验中取得的数据称 为“硬数据 。硬数据有两种:一种是与化学结构有关的数据如各种谱图、x 射线衍 射等;一种是非结构的化学物理参数,如热化学、化学热力学、热质传递及相平衡等 2 。用以存储和提供化学信息的数据库,按功能可分为提供文献检索的文献型数据 库、提供管理信息的咨询管理型数据库以及数值型数据库。数值型的数据库可以处理 和解决未知物及其结构的鉴定、已知谱图的解析、利用谱图匹配与识别来分析混合物 以及确定污染物质和物质基本性质检索等问题 6 。 各种不同的化学数据库其存储和检索方式都具有差异,根据计算化学e s c i e n c e 项目建设的需要和所做示范应用的范围,下面我们主要研究和分析化学领域中一些典 型的数据库系统。 1 2 1c a 数据库 美国化学文摘( c h e m i c a la b s t r a c t s ,简称c a ) ,是世界最大的化学文摘数据库。 它也是目前世界上应用最广泛,最为重要的化学、化工及相关学科的检索工具。创刊 于19 0 7 年,由美国化学协会化学文摘社( c a so f a c s ,c h e m i c a la b s t r a c t ss e r v i c eo f a m e r i c a nc h e m i c a ls o c i e t y ) 编辑出版,c a 被誉为“打开世界化学化工文献的钥匙 。 c a 的内容几乎涉及了化学学科中的所有领域,其中除包括无机化学、有机化学、分 析化学、物理化学、高分子化学外,还包括冶金学、地球化学、药物学、毒物学、环 境化学、生物学以及物理学等诸多学科领域。c a 提供的检索方式:索引浏览式检索 ( i n d e xb r o w s e ) 、词条检索( w o r ds e a r c h ) 、化学物质等级名称检索( s u b s t a n c e h i e r a r c h y ) 、分子式检索( f o r m u l a ) 以及两种辅助检索途径:相关词检索和登记号检 索 7 。为了方便化学家的查询和使用,c a 网络版提供了一个c a 专属的检索工具 s c i f i n d e r ,s c i f i n d e r 可以查找c a s 出版的数据库的内容以及m e d l i n e 数据库 8 】。 2 第一章绪论 1 2 2 谱图数据库 谱图数据库包括各类物质的谱图,有元素和原子的吸收光谱、发射光谱,有机物 的红外、紫外、可见光谱、物质的质谱和核磁共振谱图。b i o m a g r e s b a n k 9 是一个 免费的谱图数据库,它收录了多肽、蛋白质、核酸等的核磁共振数据。w i l e yr e g i s t r y o fm a s ss p e c t r a ld a t a , 第七版的质谱数据库 1 0 3 。s a d t l e r 红外谱图数据库 1 1 是世界 上最大的红外谱图库,收录了2 2 0 0 0 0 种纯有机物的红外光谱。这些谱图数据库都通 过在线的方式给用户提供数据检索的功能。 1 2 3 药物化学数据库 p u b m e d 数据库 1 2 3 是基于w e b 的m e d l i n e ,摘录了自1 9 6 6 年以来7 0 多个 国家3 9 0 0 种生物医药期刊关于化学品和药物方面的文献,目前通过i n t e m e t 提供免 费服务。p u b m e d 支持m e d l i n e 作为文献检索工具,同时也增加了出版商提供的文 章摘要和期刊链接。该数据库提供高级检索模式,用户可对多种字段进行控制检索, 用户如果对检索结果的某一篇文献感兴趣,点击作者姓名的链接,就可得到该文的摘 要信息。 , i d d b 1 3 是c u r r e n td r u g s 公司开发的一个在线药物数据库,包含了药物研制方面 的所有信息,从药物专利、药物、药物使用报告和药物评价信息等。目前,库中包括 约1 0 7 0 0 0 种专利、2 3 0 0 0 种正在研究的药物、8 0 0 0 0 个化学结构和5 3 0 0 0 0 条药物评 价信息。用户通过药物名称、药物评价信息等检索条件可以在线对数据库中的数据进 行检索。 1 2 4 化学物质物性数值数据库 化合物的物性包括很多方面,与此同时化学物性数据库也种类繁多。c h e m i s t r y w e b b o o k c l 4 是美国国家标准与技术研究院( n t s t ) 开发的基于w e b 的物性数据库, 内容包括4 0 0 0 多种有机和无机化合物的热化学数据、1 3 0 0 多个反应的反应热、数 于种化合物的红外和质谱数据。它提供分子式、c a s 登录号、作者、英文名称、结构 或子结构检索等多种检索途径,并提供完整的参考文献。 第一章绪论 1 2 5p d b 数据库 蛋白质结构数据库 1 5 ( p r o t e i nd a t ab a n k ,简称p d b ) ,是全世界最完整的包括 蛋白质、核酸、蛋白质核酸复合物及病毒等生物大分子的三维结构数据库。p d b 生 物大分子结构数据库的内容来自于全世界相关研究者提交的生物大分子的原子坐标、 注释、一级结构、二级机构和晶体结构因子等。p d b 数据库以文本文件的方式存放 数据,每个分子各用一个独立的文件。除了原子坐标外,还包括物种来源、化合物名 称、结构递交以及有关文献等基本注释信息。在p d b 主页提供分子结构信息检索, 可以通过p d b 的i d 编码、生物大分子关键词、原文资料、存储和发布日期以及一些 实验数据进行检索。在p d b 数据库中检索的记录可以下载,下载的数据以纯文本或 者压缩形式保存,用第三方软件查看其三维结构,也可以下载其文本格式的记录。 1 3 国内外化学数据库管理工具现状 1 3 1 国外现状 ( 1 ) s c i f i n d e rs c h o l a r s c i f i n d e rs c h o l a r 1 6 由美国化学协会化学文摘社( c h e m i c a la b s t r a c t ss e r v i c eo f a m e r i c a nc h e m i c a ls o c i e t y ) 1 9 9 8 年编辑出版的网络版,它整合了化学文摘,美国国 家医学图书馆m e d l i n e 生物医学数据库以及欧洲和美国等5 0 多家专利机构的全文专利 资料。它涉及了化学和生物中的很多领域,包括无机化学、有机化学、材料学、分析 化学、物理化学、高分子化学等。用户要使用s c i f i n d e rs c h o l a r j 注行检索时,首先需 要安装它的客户端程序然后进行相应的配置。s c i f i n d e rs c h o l a r 提供文献、化学结构、 分子式、化学反应等检索。对于查询的化学结构,如果要观看三维结构的分子结构, 要安装第三方组件v i e w e r l i t e 才能进行查看。 ( 2 ) s t n 国际科学技术信息网,s t ni n t e r n a t i o n a l ( ms c i e n t i f i c & t e c h n i c a li n f o r m a t i o n n e t w o r k ) 1 7 是多个国家合作开发的国际联机检索系统,专门报道科学技术信息。 该系统于1 9 8 3 年创建,由美国的化学文摘社( c a s ) ,德国的卡尔斯鲁专业情报中心 ( f i zl a r l s r u h e ) 和日本科技情报中心( j i c s t ) 共同联合创建。采用广域网互联方 4 第一章绪论 式将其位于在美国、德国和日本的三大主机系统的所有数据互联,用户需要与其中一 台主机互联才能实现三大主机联机检索,目前系统有2 0 0 多个数据库,主要涉及各学 科领域及综合性科学技术方面的文献和专利,同时提供众多公司、供应商等方面的商 情信息( 如生物商情、化工产品方面等) 。它是世界上第一个实现图形检索的系统,能 够实现化学物质的结构检索,s t n 中的c a 数据库含文摘,由于c a s 是三个服务中 心之一,它生产的所有数据库都放在了s t n 系统中。 ( 3 ) c r o s s f i r eb e i l s t e i n c r o s s f i r eb e i l s t e i n 1 8 数据库为世界上最大的有机化学数值和事实数据库。它的 数据来源于1 7 7 9 - 1 9 5 9 年的贝尔斯坦有机化学手册b e i l s t e i nh a n d b o o ko fo r g a n i c c h e m i s t r y ) ) 、 b e i l s t e i n 有机化学大全从正编到第四补编的全部内容和1 9 6 0 年以来 各种国际性的期刊、专利文献、某些重要的学位论文和会议报告等述及的所有有机化 合物的性质及其制备方法。 c r o s s f i r eb e i l s t e i n 可检索数据包括:( 1 ) 化合物:化合物的结构式信息,及其所有 相关科学事实和数据,包括所有相关化学属性数据、物理属性数据、生物活性数据( 包 括描述药效数据、环境毒物学数据) 。( 2 ) 反应式:反应式,详细记载了化合物的制备 ( 包括反应物及中间产物的合成路线) 、反应条件,方便用户通过反应式检索选择、 研究特定的反应路径。( 3 ) 文献:引文、篇目及文摘,自由与化合物、反应式结果。 ( 4 ) c h e mf i n d e r c h e mf i n d e r 1 9 是c h e mo f f i c e 软件包中的一个组件,c h e mo f f i c e 是美国 c a m b f i d g e s o f e 公司( h t t p :w w w c a n b r i d g e s o f e c o r n ) 的重要产品之一,它是目前化学 工作者桌面应用的一个重要的软件包。c h e mf i n d e r 是c h e mo f f i c e 集成的一个化学 软件系统。它是一个化学信息管理系统,为化学工作者备份整理物质的化学结构、物 理性质、说明和数据表格提供了环境。c h e mf i n d e r 可以帮助化学工作者在相应的位 置作索引,也可以进行化学物质的物理化学数据的查询和化学反应查询,同时建立自 己的数据库,进行管理。 ( 5 ) i n s t a n tj c h e m i n s t a n tj c h e m 2 0 是c h e m a x o n 软件包中的一个组件,c h e m a x o n 是一个著名的 软件公司,其产品涵括大量的化学信息学程序和软件开发模块。i n s t a n t j c h e m 可以创 第一章绪论 建化学数据库,提供相应的工具来存储、搜索和浏览化学结构以及相关的数据。i n s t a n t j c h e m 的前端是一些包含m a r v i nj a v aa p p l e t 的h t m l 的网页。这些页面通过j c h e m c l a s sl i b r a r y 实现用户需求。它的后台结构和数据的存储都是基于关系型数据库。 1 3 2 国内现状 国内化学数据库的建设和管理开始于六十年代,但是各个科研院所的研究重在如 何建设各种不同的数据库方面,主要针对化学数据的收集,分类和存储。工程化学数 据库e c d b 系统是由中国科学院过程工程研究所( 原化工冶金研究所)自7 0 年代 末开始研制的【2 1 】。它是一个无机有机纯化合物、聚合物、混合物体系以及网络计算 和过程系统集成为一体的综合科研系统平台。整个系统包含大约2 5 g b 的物理容量 和超过1 0 0 万条记录,可以进行网上查询的功能。中国基础科学化学数据库的建设是 在原科技部的支持下发展起来的,其中包括原子分子数据库、化学基础性数据和化学 应用性数据库等化学数据库,目前共建设化学领域2 4 个专业数据库,数据总量达到 5 g b ,所有数据均上网公开共享【2 2 】。而对于本地化学数据管理工具以及异构化学数 据库统一查询和使用方面的研究在国内科学领域尚处于空白阶段。计算化学e s c i e n c e 中化学数据库管理工具的研究是结合计算化学e s c i e n c e 领域的具体需求以及国内外 化学数据库管理工具现阶段的发展状况而来的,有一定的理论和应用研究价值。 本文所作的研究工作受到国家自然科学基金重大研究计划“以网络为基础的科研 活动环境研究”的重点项目“计算化学e s c i e n c e 研究与示范应用( 项目编号: 9 0 6 1 2 0 1 6 ) ”,国家自然科学基金面上项目“化学网格通用作业描述语言研究( 项目编 号:6 0 7 7 3 1 0 8 ) 一以及国家科技基础条件平台“生物信息学网络计算应用系统( 项 目编号:2 0 0 5 d k a 6 4 0 0 1 ) 的联合支持。 1 3 3 研究现状分析 随着化学以及生物学、环境科学、计算机、i n t e r a c t 的发展,世界上已经形成了庞 大的化学信息资源系统,各种各样的化学数据库以及相应的数据库操作工具为化学研 究工作提供了极大的方便。然而,化学信息资源虽然极其丰富,但分布却庞杂、无序。 由于不同的化学数据库管理系统的数据存储和管理方式存在差异,例如蛋白质数据库 p d b 采用文本记录的方式存储数据,而化学结构数据库则采用对象模型的方式进行存 6 第一章绪论 储,这样导致的问题就是每个数据库管理系统都有它自己的操作和查询方式。而化学 家在进行科学研究,解决复杂的化学问题时往往需要同时查询很多不同的数据库来获 取需要的数据,因此就必须熟悉各种不同的数据库的操作方式。并且由于化学数据格 式的多样性,不同的数据有时需要化学家使用不同的第三方化学软件来打开和查看, 这样以来严重影响了科学研究的效率。另外一个问题,虽然某些数据库检索工具能够 帮助化学家快速的查询数据,但是当存储在本地的数据种类不断增多、数据量不断增 大的时候,就需要对这些数据进行高效、快速的管理以便更好地利用这些数据,例如 对数据的分类存储,化学分子的简单属性的计算,分子结构的编辑等操作。目前,虽 然已经存在一些大型的检索工具如s c i f i n d e r 、s t n 等可以为化学家提供数据检索的 功能,但是它们大多都是针对特定的化学数据库,没有一个统一的检索方式;也存在 一些桌面的化学管理软件如c h e m f i n d e r ,i n s t a n t j c h e m ,c h e m s t o r 2 3 】,a m b i t 2 4 1 等可以对化学数据进行一些简单的管理,但是它们还是存在一些不足之处,比如它们 都是商用的软件,不允许用户修改代码或按照用户的使用方式来定制操作方式,使用 和操作都比较复杂等。因此,本文所做的主要工作就是针对化学工作者在查询化学数 据库和管理本地数据时存在的问题,为化学家提供一个个性化的化学数据库管理工具 ( m y c h e m d b ) ,利用此工具化学家既能建立本地的数据库对本地数据进行高效的 组织和管理,包括化学数据的存储、分子结构的查看和编辑、二维分子子结构的查询 和分子属性的计算等,也能在一个统一的查询界面对化学数据库进行查询,屏蔽化学 数据库之间操作的差异性。 1 4 本文的研究思路 通过以上对化学常用数据库及相关化学数据库管理工具的国内外研究现状分析 和计算化学争s c i e n c e 建设中化学家对数据库的统一查询以及对本地化学数据的高效 管理的需求,可以看出,在化学科研领域中,亟需为化学家提供一个个性化的化学数 据库管理工具,使其不仅能帮助化学家对本地数据进行高效的组织和管理,也能在一 个统一的查询界面对不同的化学数据库进行查询。化学数据库管理工具的建设是一个 非常复杂的系统工程,从数据库技术到计算化学领域,从典型化学数据库的操作和管 理方式到本地数据库的建设,方方面面都有很多问题需要研究和解决。因此本文的研 究重点是,研究如何实现本地化学数据的组织和管理,包括化学数据的存储、分子结 7 第一章绪论 构的查看和编辑、二维分子子结构的查询和分子属性的计算等;然后对化学数据库的 统一查询方式方面进行简单的示范性研究。本文的主要研究内容将从如下几个方面来 开展: 1 跟踪目前常用化学数据库管理和检索工具,分析国内外化学数据库管理工具 的发展和研究现状。对开发m y c h e m d b 所需的技术基础进行研究,主要阐 述实现m y c h e m d b 所需的系统结构、实现平台的选取以及一些技术方面的 基本概念和基本思想。 2 对内嵌式数据库d e r b y 系统进行了重点研究,研究它与e c l i p s e 的集成以及 底层的结构设计,和相关的a p i 的使用。 3 研究b i o j a v a 、c d k 、j m o l 、j c h e m p a i n t 等开源开发工具包提供的a p i ,掌握 如何解析化学对象从而以图形方式展现给查询用户。这为m y c h e m d b 实现 二维或三维结构化学对象的查看和编辑提供了技术支持。 4 研究化学描述语言s m i l e s 以及分子子结构查询的相关知识,在系统中实现 二维分子子结构的查询。 5 详细设计系统中的主要模块:导航模块、数据显示模块和本地数据查询模块。 6 通过计算化学e s c i e n c e 平台中的配体对接示范应用验证m y c h e m d b 在科学 研究活动中的作用和使用价值。 1 5 论文结构 本文第一章论述了计算化学e s c i e n c e 中个性化的化学数据库管理工具的研究背 景,分析在计算化学e s c i e n c e 中为什么需要研究一个如此的数据管理工具来提供统 一的异构数据库查询方式和实现本地数据管理的功能,并研究了化学领域中常用化学 数据库的结构、管理和检索方式,同时也分析了国内化学数据库管理系统的发展现状, 提出本文的主要关注点是实现本地化学数据的组织和管理。 第二章介绍了个性化的化学数据库管理工具所基于的技术基础,从技术层面上分 析了完成此工具所需要的技术基础和准备工作。 第三章重点研究了在实现此管理工具过程中,所需要解决的关键技术问题。 第四章描述了m y c h e m d b 的体系架构,包括系统架构的设计,导航模块、数据 显示模块以及本地数据查询模块的功能和实现等。 8 第一章绪论 责, 第五章介绍了在计算化学e s c i e n c e 中基于此管理工具实现的一个示范应用。 第六章结论与展望,提出了此管理工具下一步的工作重点和有待完善和改进的地 9 第二章m y c h e m d b 所需的技术基础 2 1 开源化学信息开发工具包 m y c h e m d b 系统需要能够处理蛋白质序列、谱图、二维或三维结构的化学分子 式等的存储、显示、编辑和查询。为了使m y c h e m d b 系统能支持这些特定格式的化 学对象的处理,我们主要参考了b i o j a v a 、c h e m i s t r yd e v e l o p m e n tk i t ( c d k ) 、j m o l 、 j c h e m p a i n t 等开源化学信息开发工具包来处理和实现这些特定格式的化学对象在数 据库中的存储、显示、编辑以及查询。其中b i o j a v a 是一个用于处理蛋白质序列的生 物信息学的基础库;c d k 是用于处理化学信息以及化学计算的j a v a 工具包,它是一 个完全可改写的化学组件包:j c h e m p a i n t 是一个二维分子结构的编辑器,其开发是基 于c d k 工具包完成的;j m o l 可以处理和显示三维分子结构。下面分别阐述这几个工 具包。 2 1 1b i o j a v a b i o j a v a 2 5 是一个开放源码的j a v a 工具包。它支持开发生物信息学复杂的生物序 列分析系统,包含有许多有关序列分析的工具,如序列操作,文件解析,c o r b a 交 互,d a s ( d i s t r i b u t e d a n n o t a t i o ns y s t e m ,分布式注释系统) ,对多种数据库的访问接口, 以及多个序列分析工具的动态规划等。b i o j a v a 是一个完全开源的项目,遵循g n u g p l v 2 1 ,在遵循l g p l 或者g p l 规范前提下可以使用b i o j a v a 提供的a p i 来解析和 处理各种生物信息学相关的分子结构。 2 。1 2c d k c d k 2 6 是一个面向化学信息学、生物信息学、计算化学等学科的开源的开发工 具包,提供较为完整的化学分子结构的描述。c d k 为解决很多化学生物信息学方面 的问题提供了基础,包括化学结构的二维或三维的显示、i o 程序、s m i l e s 的分析 及产生、环查询、结构化图形的生成、q s a r 描述符计算等方面。 目前c d k 是许多开源软件项目的基础。下述的化学编辑器j c h e m p a i n t 就利用了 1 0 第二章m y c h e m d b 所需的技术基础 c d k 并且在其上实现了c d k 的m v c 机制,实现了二维化学结构的查看与编辑。 2 1 3j c h e m p a i n t j c h e m p a i n t 2 7 是由j a v a 语言开发的、开源的用于绘制二维化学结构的软件。它 为客户端提供a p p l e t ,并且这些j a v a a p p l e t 可以被集成到c d k 中。它的独特之处就 是可以为无坐标的化学结构形式生成结构化图形。此外,它还可以渲染以s m i l e s 格式编码的化学结构。j c h e m p a i n t 可支持各种化学结构的格式如:m o l ,p d b ,c m l , x y z ,x m l ,s m i l e s 。 2 1 4j m o l j m o l 2 8 是一个免费的、开源的三维分子浏览器。它包括三部分:j m o l a p p l e t 是 一个可嵌入到网页的网页浏览器,也可以作为开发工具被整合到其它的j a v a 应用程 序中。j m o l a p p l i c a t i o n 是一个可独立运行的桌面应用程序。j m o l v i e w e r 是一个开发工 具包,可以被其它的j a v a 应用所集成。在我们的系统中,将集成j m o l v i e w e r 来显示 数据库中的三维数据。j m o l 可以运行在多个平台上,例如w i n d o w s ,m a co s 和 l i n u x u n i x 系统,跨平台特性是j m o l 借助j a v a 实现的一个关键特性之一。 2 2e c l i p s e 相关知识 e c l i p s e 是一个源代码开放的基于j a v a 的开放式扩展i d e ,最初由i b m 的子公司 o t i ( o b j e c tt e c h n o l o g i e si n t e r n a t i o n a l ) 领导开发。后来,i b m 将e c l i p s e 作为一个开 源项目捐献给了开源组织e c l i p s e o r g ,e c l i p s e 出色的平台特性,吸引了众多大公司加 入到e c l i p s e 这个平台的开发上来,如h p 、o r a c l e 、s y b a s e 、b o r l a n d 、r e d h a t 、r a t i o n s o f t w a r e 、s u s e 、t o g e t h e rs o f t 等【2 9 】。 e c l i p s e 框架的灵活性来源其强大的可扩展性。它们是在x m l 中定义的己知接口, 并充当插件的耦合点。扩展点的范围包括从用常规表述过滤器中的简单字符串,到一 个j a v a 类的描述。任何e c l i p s e 插件定义的扩展点都能够被其它插件使用,反之,任 何e c l i p s e 插件也可以遵从其它插件定义的扩展点。除了由扩展点定义的接口外,插 件不知道它们通过扩展点提供的服务将如何被使用,基于插件的c o r e 架构设计让基 第二章m y c h e m d b 所需的技术基础 于e c l i p s e 的开发变的异常高效和简单。 利用e c l i p s e ,可以将高级设计( 例如u m l ) 与低级开发工具( 例如应用调试器) 结合在一起。如果这些互相补充的独立工具采用e c l i p s e 扩展点彼此连接,那么当用 调试器逐一检查应用时,u m l 对话框可以突出显示正在关注的器件 3 0 】。 e c l i p s e 是以j a v a 语言编写的,并且通常是作为j a v ai d e 来使用的,但它是语言 中立的,j a v a 开发是由一个插件组件来支持的,如上所述,可以添加其它的插件来 支持其它语言的开发,如c c + + ,c o b o l 和c 捍。e c l i p s e 同时也是一种人类语言无 关语言,使用插件机制,可以把不同的语言添加到e c l i p s e 中。i b m 已经捐献出了一 个支持中文( 繁体和简体) 、法语、德语、意大利语、日语、韩语、葡萄牙语和西班 牙语的语言包给e c l i p s e ,这也为e c l i p s e 多语言环境提供了重要的支持。 2 2 1e c l i p s e 体系架构 e c l i p s e 平台由数种组件组成:平台运行时环境、工作空间、工作台、小组支持以 及帮助组件,其它的工具以插件的形式集成到框架以创建应用程序 3 1 。图1 是e c l i p s e 的体系架构图: 图ie c l i p s e 体系架构 平台运行时环境 平台运行时环境的主要工作是发现e c l i p s e 的p l u g i n 目录中哪些插件是可用的。 第二章m y c h e m d b 所需的技术基础 每个插件都有一个x l v i l 格式的说明文件,里面列出连接这个插件的要求,包括提供 给其它插件的扩展点和它所需要的其它插件的扩展点。由于插件的数目可能非常之 多,所以插件只有当它们实际使用时才被装载,这种方法减小了启动时间和资源的需 求。在开发插件的时候,我们只要保证插件的接口x m l 文件符合规范,就可以实现插 件之间的互操作。 工作空间 工作空间负责管理用户资源,组织一个或多个顶级项目。每个项目对应于工作空 间目录中的子目录。每个项目都可以包含文件和文件夹,一般来说,一个文件夹对应 项目的子目录,文件夹也可以连接到文件系统的任何一个目录。工作空间维护资源改 变的一个低等级的历史记录,这使得它能迅速取消变动,恢复到先前保存的状态,这 取决于用户如何配制历史记录的设置。 工作台 工作台是e c l i p s e 的图形用户介面,除了显示相关的菜单和工具栏之外,它被组 织成包含视图和编辑器的透视图。与其它的j a v a 应用程序不同,工作台的一个显著 特性是它看起来非常像一个本地应用程序,这是由于它使用e c l i p s e 自身的s w t ( s t a n d a r dw i d g e tt o o l k i t ) 3 2 和基于s w t 的j f a c e 3 3 用p 界面工具包。与标准j a v a 图形a p i ( a w t 和s w i n g ) 模仿本机图形工具包实现不同,s w t 直接映射本机操作 系统的图形工具接口。简而言之,工作台就是e c l i p s e 的g u i 界面,它负责用户和 e c l i p s e 之间的交互。 小组支持 小组支持插件是一个使用版本控制系统( 或者配置管理系统) 来管理用户项目资 源的工具,它定义了在库中保存和检索所必需的工作流。e c l i p s e 包含了一个c v s ( c o n c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论