(物理化学专业论文)基于动态链接库技术的族性化学结构检索系统.pdf_第1页
(物理化学专业论文)基于动态链接库技术的族性化学结构检索系统.pdf_第2页
(物理化学专业论文)基于动态链接库技术的族性化学结构检索系统.pdf_第3页
(物理化学专业论文)基于动态链接库技术的族性化学结构检索系统.pdf_第4页
(物理化学专业论文)基于动态链接库技术的族性化学结构检索系统.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 药物专利信息的检索在开发新产品和对化学产品实施专利保护时有着重要的作用, 同时它可使情报部门、科研部门及生产单位及时掌握国内外专利的保护情况和新产品的 发展动态。对族性化学结构计算机存储与检索,不但可以提升我国信息资源处理和检索 技术的发展水平和应用层次,更可以为生命科学研究和新药研发提供有力的工具。能否 对族性结构进行科学的拆分与编码,以及建立一个可供药物专利审查与检索的数据库, 对我国的专利申请、审查、与检索有着重要的科学意义和实用价值。 随着专利申请保护内容的增多,以及计算机技术的发展,为了满足日益增长的对专 利检索的需求,有必要建立种更加安全、准确、快捷的药物专利检索系统。本论文主 要包含两方面内容:一是通过对近百篇族性化学专利的处理和分析,依据图形理论,将 化学结构抽象成图,结构中成环部分视为图的顶点,环间的连接片断视为图的边,环上 的片断视为环的属性,对族性结构进行了拆分和存储,生成了用于匹配筛选的分子骨架 图。同时,还针对客户端录入程序在运行中所出现的操作不方便、功能不健全等问题, 采用j a v a 语言对其进行了修改和完善,改进了能够运行于网页的提问结构式录入程序 s t r l l d r a w ,实现了对提问结构式的预处理。 另一方面,鉴于以往采用的动态网页技术( 脚本语言) 所实现的匹配检索中容易出 现安全性低、速度缓慢等不足,本论文使用了一种更加快捷可靠的技术动态链接库 技术,设计了匹配筛选程序出入口的动态链接d l l ,用于对数据库中存储的结构进行解 析。程序的入口用于处理客户端产生的提闯结构式,同时解析数据库中存储的结构式, 构造了用于结构匹配的两棵树图,并采用回溯算法完成了两棵树图的匹配,实现了提问 结构式和存储的族性分子骨架的初步匹配,程序的出口以网页的形式输出匹配的结果。 本论文所采用的动态链接库实现的结构解析方案较之常用的动态网页技术( 脚本语 言) 而言,一方面具有安全、可靠、稳定的优点,更为重要的是它利用了动态链接库的 特点,能够快速解析数据库所存储的结构,有效地保护了检索匹配算法和族性化学结构 处理方案,适合于建立基于服务器的应用程序。 程序采用w i i l d o 、v s ,+ i i s 5 o 的服务器平台,设计并实现了基于w e b 的药物专利检 索系统,能够提供确定结构检索确定和族性结构,族性结构检索族性结构,可用于对药 物专利中族性化学结构的初步筛选。 关键词:族性化学结构;动态链接库;检索系统;药物专利 基于动态链接库技术的族性化学结构检索系统 g e n e d cc h e m i c a ls t r u c t u r e sr e t r i e v a ls y s t e mi m p l e m e n t e db y d y n a m i c l i n kl i b n r y a b s t r a c t t h er e t r i e 涮 o fp h 锄m a c e u t i c a lp a t e ti n f o n n 撕o np l a y sa ni m p o n a n tr o l ei nt h e d e v e l o p i n e n to fn e wd n l g s 越w e l l 髂p r o t e c t i o no fc h e l n i c a lp a t e n t s g e n e r i cs t m c t l l r e s ,a l s o c a j l e dm 剐? k u s hs 仃1 l c 眦s ,w 出c ha r eu s e dw i d e l yi nc h e n l i c a ip a t e n t s ,h a v ea l w a v sb e e no n e o ft t l em o s tc h a l i e g 访ga s p e c t so fp a t e n ti i l 内衄a t i o nr e e v a ld u et 0t h e i ri n 且s i c c o m p l e x i 姆t h ep r o b l e i no f h o w t or e p r e s e n tg e n e r i cs m l c t u f e sb yu s eo fc o m p u t e r sh a sb e e n m ef o c l l so ft l l ef i l e do fc h 哪o i n f 0 肿a t i c s o n e 口r a c t i c a l 删e v a ls y s t e ms h o l l l db ea b l et o p a r s e ,c o d ea n ds t o r eg e n e r 主cs 廿u c 饥l r e si n 吼l c haw a y 也a ti tc o u l dg v o i d 也ep r o b l e mo f c o m b i n a t o r i a ie x p l o s i o n ,t h ee o r r e s p o n d i l l gd a t a b a s eu n d e r l y i n gm er e 缸i e v a ls v s t e mi sm u c h v a l u a b l ef b rt h e o r e t i c a la n dd r a c d c a lr e s e a r h i nc h i l l 如t h e r ei ss d l ln os u c has y s t e mf o rs t o r ea n dr e 试e v a l2 e n e r i cs m l c t u r e sw h i l em o r e a n dm o r ec h e i n i c a lp a t e n t sh a v eb e e ng r a n t e d 1 1 lt l l i s 脚e r ,伽en a t u r e 髓dt h e o r e t i c a l f o u n d a t i o n so fg e n 鲥cs m l c t u r e sd e v i s e dd 血n gs e v e r a lr e s e a r c hg r o u p sf o rt l l es u c c e s s 剐 s o l u d o no ft h ep r o b l e mi no r d e rt op r o v i d eap m c t i c a ls 跚e ma r er “i e w c d as i m p l e s e r v e r - b 髂e dr e t r i e v a ls y s t e l :ni sd e s i g n e d ,w h i c ha c c o m p l i s h e st h ef o l l o 、】l ,i n gt h 】他e 劬c t i o n s , i e ,i n p u t ,m a i l i 叫面o na n do u u t ap m g m ,s 由n j d r a w 删c hi si m p l e m e n 钯d 州t 1 1j a v a a p 叫e ta c c e p t st 1 1 ei n p u tq u e r y 曲m c t u r e k 廿1 i sm e m o d ,ac h 删c a ls 廿u c t i l r ei sr e g a r d e da sa n u n d 沁c t e dg r a p hw i me a c ha t o mb e i i l gn o d ea i l de a c hb o n db e i n ge d g c t h o s en o d e s 谢也 c o n n e c t i v i 谚d e f l e s st h a nt v a r er e c u r s i v e l yd e l e t e dt h u sr e s u m n gt oam o l e c l l l a rs c a f e b l d w h i c hi sa 翮b 擎a p ho f 也e 嘶g i i l a l 吐l c m i c a l 对印h t 1 l em a i 】匠p u l a t i o no fs 1 l c t u r e sa r er e a l i z e db yd y n 锄i c l i n k “b r 8 r y ( d l l ) ,w h i c hh a st 、v o i n 协蠡c e s 谢t ht 1 1 e 敏m t0 n et op a r s ot h eo u t p u to f t h es 扭l i 狮,博删e v ee a c hs 劬c t u r es t o r c d i nd a 衄b 觞ea n dc o m p a r et 1 1 e 仰oc h e m i c a lg r a p l l sb yu s eo f b a c k 仃a c k i n ga l g 耐t 1 1 n 1 n l e o u 咿呲o f t l l e 删s c r e e n i n gr e s u i ti si n 也ef b r i no f w e b d a g e c o m p a r e d 埘啦c o 衄o n l yu s e dt e c h d j q u e s ,s u c ha sc o i n m o ng a t ei i l t c r f a c e ( c g do r a c t j v es e e rp a g e s ( a s p ) ,d l li sm o r es e c l l r e ,r e l i a b l ea n df 弧td u et oi ti si m d l e m e n t e d 、i mc + + ,m a k i n gi tm o r e 印p r o p r i a t ef o rb u i l d i n gs e r v e r b a s e da p p l i c a t i o n s n l ed e s i g n e d s y s t c mi st e s t e do nt h ep l a t f o 瑚o fw 血d o w sx p 埘t hi i s 5 0 ,w 】 1 i c h8 u p p o r t ss e a r c h e s i i l c l u d i n gs p e c i f i ca 1 1 dg e n e r i cq u e r ys 协肥c i l r e s t h er e s u l t sp r o v ei ts u i t a b l et os c r e e n j n go f g e n 嘶cs 订u c t i l r e sb e f b r em ep r e c i s em a t c h i n go f a t o m _ b v a t o m , k e yw o r d s :g 蚰e r i cc h e m i c a ls t 兀i c t i i 抛s ;i y 蚰m i c - l i kl i b r a r y ;r e t r i e v a ls y s t e m ; p h 且m a c e u t i c a lp a t e n t s 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:尘兰f 耋日期: 妒6 j 毛j 诚 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:j 二兰竺乏 导师签名:霾殳丝 7 里l 年上月立日 大连理工大学硕士学位论文 引言 在化工行业,特别是药物和农业以及发展迅速的生物和蛋白质工程领域,专利信息 扮演着重要角色,由于专利文献并不公开发表,许多化学家往往忽视了专利中一些结构 新颖的仡合物,不包含专利资源的文献检索是不全面的。例如,在制药行业,据估计对 卜2 万个化合物进行筛选才能发现一个有活性的先导物,到上市需要8 一1 2 年时间,耗资 0 5 2 亿美元,所以国内外的药物研究机构一方面在设计新的药物,一方面仍然利用积 累的药物专利信息进行结构改造以发现新药。随着越来越多的国外药物专利在国内获得 专利保护,检索药物专利信息能够及时发现是否有创新药物。但我国对药物专利信息的 开发建设起步晚,加工水平还比较落后,大量药物专利信息资源无法查询,直接影响了 药物专利的审查工作,其中一个重要原因是由于药物专利中使用了族性结构。 英国s h e f f i e l d 大学l y n c h 教授的工作组自1 9 8 1 年开始提出关于族性结构的处理 方法,随后开发了用于族性结构外部表达的g e n s a l 语言和内部表达的e c t r 结构。法 国q 呱e s t a l 公司,英国的d 删公司和法国专利局也联合开发了用于药物专利族性结 构检索的曲l s hd a r c 系统。上海有机所陈维明教授、王源教授及其小组提出了 d e l a g e s 形式语言,研究了族性结构的语义分析,将形式描述中的可变取代基转换成 广义连接表内部表示。国家知识产权局与国内的多所大学合作,采用美籍华人科学家徐 峻博士提出的g m a 算法,独立设计实现了化学结构图形形式语言g f l ,完成了国家8 6 3 重大科研课题。大连理工大学的化学信息研究小组在俞飞自和程文堂教授的领导下提出 了一种新的族性紧缩结点关联表( g e l l e r i cs 仇l c n l r er e p r e s c n t a l j o nb yc o m p a c t c o 衄e c t i 、,i t yt 曲l e s ) g s c c t 及关键结构匹配算法,课题组的徐亮提出了用于族性结构 处理的数字编码,并建立了相应的实验数据库。 本论文在回顾国内外族性化学结构处理的发展和现状的同时,建立了基于服务器的 应用程序。在客户端采用ja _ v a 语言完善了能够运行于网页的a p p l e t 程序s t r l o r a w ,对 提问结构式实现结构的预处理,生成了用于筛选的分子骨架图。由于需要对数据库中存 储的结构进行解析,本论文使用了一种更加安全快捷的技术动态链接库,设计了匹 配程序的入口和出口,程序的入口用于处理客户端提交的提问结构式,同时解析数据库 中存储的结构式,构造了用于结构匹配的两棵树图,并采用回溯算法设计并实现了提问 结构式和存储结构式分子骨架的初步匹配,程序的出口以网页的形式输出匹配的结果。 本论文采用动态链接库实现对族性化学结构的解析,解决了以往采用的动态网页技 术( 脚本语言) 进行检索匹配时在安全性、稳定性方面存在的问题,提高了检索的效率和 准确度。 基于动态链接库技术的族性化学结构检索系统 1 文献综述 1 1 药物专利检索研究综述 化学源远流长,积累的知识也浩如烟海,已知的化合物就已超过1 5 0 0 0 0 0 0 种,已 知的化学反应则不计其数。为了记录和交流化学知识,首先必须用一种语言( 术语) 来 描述这些化合物,即所谓的化合物命名。 早在十八世纪末,瑞典化学家b e r g m a n 和法国化学家l a v i o s i e r 首先建议将当时杂 乱的术语统一起来。随着人们对化学结构认识的不断深化,逐渐形成了近代化学结构理 论,特别是k e k u l e 在1 8 6 5 年首次使用了由单短线和双短线交替组成的正六边形来表示 苯的结构以后,结构式己成为化学家最通用的语言和化学知识的载体。然而,化学结构 式也有记录与处理困难的缺点,随着计算机的普及,化学家希望能借助于它来帮助处理 化学结构。 因此,在过去的3 0 多年中,化学结构计算机处理的理论和技术得到了广泛的重视 与深入的研究,不仅形成了计算机化学中的一个重要研究领域,而且也成为计算机化学 应用的基础。 1 1 1 化学结构信息的计算机表示 用元素符号来表示分子中的原子( 顶点) ,用连接原子的直线或曲线来表示它们之 间的键,就可用图形来表示分子结构,称为化学结构式( 图) ,简称化学结构。化学结 构尽管能抓住分子结构的主要特征,给人以十分明确形象的图像,但是受计算机软硬件 条件的制约,最初对化学专利中的结构采用线性符号表示法,在1 9 6 0 到1 9 7 0 之间线性 符号表示法得到盛行。主要有四种最流行的线性符号表示法,分别是w j s w e s s e r ( w l n ) , r o s d l ,s m i l e s 和s y b y l ( s l n ) 。 ( 1 ) w i s w e s s e r 线性符号表示法 1 9 4 6 年,为了用简化法有组织地、系统地描述大量的化合物,而提出了w i s w e s s e r 线性符号表示法( 礼n ) 。它是用字母和数字的序列来表达化学结构的线性符号表示法。 这些序列的计算过程已被计算机大大地简化“。在很多情况下,w l n 采用化学元素的标 准符号。另外,官能团,环系统,取代环的位置和稠合环的位置由单个的字母或者符号 组合表示,如表l - 1 所示。这种化学结构简单线性的表示有利于特定官能团或者分子碎 片的搜索,因此w l n 可用于具有部分特征的分子的机器检索。 大连理工大学硕士学位论文 表1 1 某些重要结构单元的w l n 编码 t 曲l e1 1w inc o d ef o rs o m ei m p o m n ts n u 咖f a l 矗卿n 矗 简单的w l n 是从下面的符号集中用4 0 个符号“: 大写字母:a z 代表元素,原子团,支链和环的位置; 数字:0 9 表示脂肪链的长度和环的数目; 特殊符号“”,“”,“一”和“”( 空格) 表示环和取代基的位置。 基于动态链接库技术的族性化学结构检索系统 w l n 的最大优点就是它的紧凑性。要想同时达到简洁和明确,只能引入一系列复 杂的规则,而这样又会使得符号表示法很难编码,或有错误倾向。虽然在w l n 码中包含 了很多的信息( 官能团,碎片等) ,也投入了不少努力来开发程序实现1 i l n 和链接表之 间的转换。w l n 被应用于科学信息所( i s i ) 的化学结构索引( c s i ) 【6 、化学注册系统 指数( i n d e xc h e m i c u sr e 西s 田s y 北瓯i c r s ) 和帝国化学公司( i c i ) 。1 9 6 5 年美国化学 文摘社( c a s ) 引入了连接表,以及2 0 世纪7 0 年代能直接产生分子连接表的编辑器的 出现,使得w i n 失去了原来的重要性。 ( 2 ) r o s d a l 1 9 8 5 年,b e i l 绯妇学院的s w e l 醯d :0 b a r 衄订和m f l 笋烛提出的关于线性排列的 有机结构描述表征( r 印r e s e n o n0 fo r g a l l i c s n u c n 它sd e s 酾p d o n 椭g e d l i n e 盯1 y ,r o s d a l 系统( b e i s t e i n 在线) 进行数据库检索和结构显示时用来传递结构信 息。用r o s d a l 二进制字符串进行结构信息的交换是相当快的。 r o s d a l 语法是用化学家很容易学的文字数字符号来对化学结构进行简单编码的 一种方法。在线性结构的表示中,结构中除氢原子以外的每个原子都被任意指定了一个 惟一的数。碳原子用阿拉伯数字表示。另外,其他的原子要标明原子符号。为了描述原 子之间的键,键的符号安插在原子数目之间。符号表示法对分支进行标记,并用逗号和 其他部分的编码分开1 1 j 】,图1 1 所示为苯基丙氨酸可能的r o s d a l 码。r o s d a l 线性 符号表示法是无歧义的,但不是惟一的。 7 6 0 1 0 a 1 2 - 3 4 = 5 6 = 7 - 8 = 9 4 ,1 = 1 0 0 ,1 - 1 1 0 ,2 1 2 n : b 1 - 2 3 4 = 9 _ 4 1 - 1 1 0 ,1 = 1 0 0 ,2 - 1 2 n : 图1 1 苯基丙氨酸可能的r o s d a l 码 m 完全的;b 简洁的 f i g 】,le x 枷p l eo f r o s d a lc o d ea f h j lc o d eb c o n c i s ec o d e 建立一个r o s d a l 码的步骤为: 1 画出结构图,对原子任意编数( 每个原予指定一个惟一的数) 大连理工大学硕士学位论文 2 一般原子符号直接写在原子的旁边; 3 通常只有碳原子不显示原子符号,氢原子可以有原子编号,但是不需要; 4 键类型表示如下: “一”为单键 “= ”为双键 “# ”为三键 “? ”为任何连接 5 允许简写,如把单双更替键写成“一= ”; 6 逗号分隔分支和取代基。 r o s n a l 主要作为数据交换形式用于b e i l s t e i n 的d n l o g 系统凡这类编码不仅 能表示整个结构和子结构,还能表示某些类属结构( g e n c r i cs 仃u c 觚_ e s ) 。 由分子编辑器( 如i s i sd l a w ) 产生的结构就是利用r o s d a l 来交换结构信息【1 0 ,1 ”, 通过数据转换程序a m o n o m 能够与i u p a c 名称之间进行相互变换。 ( 3 ) s m i l e s 编码 1 9 8 6 年,d a v i dw e i n i n g e r 在d u l u n lm n 的美国环境研究实验室( 隶属u s e 队) 对 化学数据进行处理时提出了s m i l e s 系统( s i i n p l i f i e dm o l e 叫a ri 印u tl i n ee n 廿ys y s i 锄, 简化的分子线性输入系统) 。此系统高度浓缩和简洁地表达化学结构的信息。它是一种 灵活易学的化学结构的线性符号表示法【1 2 ,1 引。s m i l e s 语言不依赖于软件和硬件,作为 一种表达和交换分子结构信息的化学命名方法在全球得到广泛应用。与m n 和 r o s d a l 相比,s m i l e s 只用6 个基本的规则就把结构转换成字符串。 基本的s m i l e s 规则如下: 1 原子由各自的原子符号表示; 2 氢原子自动的添加直至自由价饱和而省略( 简单的氢连接) ; 3 相邻的原子表示彼此相连; 4 双键和三键分别用“= ”和“# ”表示; 5 分支用括弧表示; 6 环用分配的数字来表示两个“连接”的环原子。 表1 2 所示,为s m 也e s 语法: 基于动态链接库技术的族性化学结构检索系统 表1 2s m l l e s 语法 t a b l e1 2s m 耻sc o d i n g m p l e s s m i l e s 编码化学结构化合物名称 原子:原子用各自的原子符号表示:有歧义的双字母符号必须写在方括弧内( n b 不同 于n b ) ,否则,没有必要另加字母;自由价可由氢原子补足 键:单键,双键,三键或芳香( 或共轭) 键分别表示为“一”、“= ”、“# ”和“:”; 单键和芳香键可以省略 c = c h 2 c - c h 2乙烯 o oh c o o h 蚁酸 分子中不相连的结构:化合物的个别部分用圆点分开。圆点表示原子间或者分子的各 部分没有连接。各部分的排列是随意的。 【n a _ 】【o i q n a o h 氢氧化钠 分支:分支用圆括号表示 c c e o ) o c c ( c ) c ( - 旬) o 环结构:环是通过在两个原子之间 c 1 c c c c c l 芳香性:芳香结构是用小写字母表 o l c c c c l c l c 2 ( c c c c l ) c c c c 2 或者 c l c c 2 c c c c c 2 c c l h 3 c v 洲 乙酸 o 异丁酸 数字表示断开的两个贩子 环己胺 萘 从1 9 8 8 年以后,s 加l e s 得到了扩充。如现在的定义可以在 b 珏p :碰弘3 坠l d a y 【j g b 王q 珈纽a y b l 幽i s m i 】s 6 d d o x i b 地】l 上找到。 另外一些相关的编码语言( x s m 几e s ,s m a r t s ,s m 砌:s ,s t r a p s ,c h u c 融正s , c h o r t l e s , c h a r t s 【1 2 1 ) 都是s m i l e s 的衍生产物。每个都是为了代表特定分子结 构或者允许特定的应用( 聚合物,混合物,反应或数据库处理) 而产生的。其中较为特 6 逑一。一羽 环 芳 i 断 示 大连理工大学硕士学位论文 别的是u s m i l e s ( 有时称为广义s m i l e s ) 1 1 。旧。这种“u n i q l l es m i l e s ”是d a y l i g h t 关于结构的规范表达。就是说不管内部原子的编码顺序如何,通过这种算法总可以得到 关于化合物规范的,无歧义的,惟一的描述。 由于s m i l e s 的简洁文本编码( t c x t u a lc o d i n 曲不需要输入图形而且允许快速转换, 有利于将其应用于互联网和在线服务,亦可作为d a 纠i g h t 的工具箱的结构输入形式。 ( 4 ) s y b y l 线性符号表示法 s y b y l 线性符号表示法( s l n ) 是一种表达分子结构,包括普通的有机分子,大分 子,聚合物和组合库f 1 刀的语言。s l n 是由t r i d 0 s 公司提出并传播的。这可以说是s m 【l e s 的改进版。它与s m i l e s 主要的不同之点就在于其没有认定标准价键的概念,所以,所 有的氢原子必须显示。因此,s l n 也能表达结构碎片,子结构查询( m a r k u s h 结构) 和 组合库。所有这些特性使得该符号表示法适合于数据库的存储和不同程度之间的数据交 换。 s l n 易于学习且用法直观。这种语言只用了6 个基本的成分来表达化学结构。其中 的4 个列于表1 3 中,可直接与表1 2 的s m e s 编码比较。 除了表达原子、键、分支和环路外,s i n 还提供了一些关于原子和键的特性,如电 荷或立体结构。同样用主体后的方括号【】和尖括号 表示。 ( 如反式丁烯: c h 3 c h = 【s = t c h c h 3 ) 。而且,通过对原予基团的规范达到对大分子速记的目的,如氨 基酸,a l a ,蛋白质2 等。关于这些规则、2 d 结构查询或组合库的详细说明都能在文献 【1 7 l 中找到。 s l n 用于互联网上的快速数据交换。大量的商业软件包如 a l c h c m y 2 0 0 0 ( h t t p :w w w s c i 、r i s i o n c o 舭l c h 锄y h 叫) ,c h e m d 肿r ( h t t p :、 兀 n c 跏b r i d g e s o r c o m ) ,c l i f f ( h t t p :v n r m o l n e t d e ) 以及由t r i l ) o s生产的c o 悄c o r d ( h t l p :踟n v w 埘p o s c o m ,s c i t e c h 他s i 五c o d i s c c h e l i n f o ,c o n c o r d h 劬j ) 都采用这一线性符号表 示法。 基于动态链接库技术的族性化学结构检索系统 原子:原子用各自的原子符号表示,第一个字母大写,两个字母的符号中,第二个字母小写。 氢原子必须标明。 c h 4c h 4甲烷 n h 2 n h 2 胺 键:单键省略;双键,三键或芳香键分别表示为“= ”、“# ”和“:”。与s m i l e s 相 比,芳香性不是原子的而是键的属性。圆点表示结构中新的部分的开始 h c ( = o ) o h n a o h 分支:分支用括弧表示 c h 3 c ( 劬) o h h c o o h n a 0 h 蚁酸 氢氧化钠 h 3 c v o h 乙酸 0 o 环结构:环的闭台通过键和前面原子的一个给定的独特数表示。d 数是一个正整数 位于原子的后面的方括号内, 表示环的结束 c 1 5 】h 2 c h 2 c h 2 c h 2 c h 2 c h 2 1 5 o 【6 :c h :c h :c h :c h : 6 o 环己胺 1 1 2 国内外族性结构检索进展 ( 1 ) 国外族性结构检索 早在1 9 2 4 年m d m s h 首先提出用一种化学结构通式来划定其申请专利的化学品的 发明范围。后来这种化学结构标记法被广泛应用于化学文摘( 特别是化学品的专利申请 说明书) 中,被称为m 畦u s h 结构或g e n 甜cs 廿u c t u r c ( 王源翻译为族性结构) 。图i 2 所示为一份发明专利公开申请说明书的一部分( 申请号9 7 1 0 2 2 5 5 0 ) ,图中为该专利申 请用现在熟悉的m a r l a 曲结构表达的形式。 一8 大连理工大学硕士学位论文 5 4 】囊啊编喹啉酮衍生物以及舍有所述喹啉酮睛i 生物作活性戚分的抗过敏性。 5 7 薹 本发明提供了7 嘻谨磅喇鳓 生物及其生理学上可接受的盐类。具有7 油 喹啉 酮衍生物及其生理学上可接受的盐类作为括性成分的抗过敏剂以及7 氡基疃啉酮衍生 物及其生理学上可接受的盐美,其中7 僖趣喇搠黼生物的结构如通式( i ) ,其中t r 4r 1 r 1 为量爵i 子或具有1 1 0 舞_ 子的直链或支链烷基i 园。 肉 r 2 和r 3 互为不同的基鄹,选自董原子,叠基基团,具有1 一1 0 碳劈 子的直链或支链煌基或具有2 - 1 0 碳腰子舶直链或吏鞋 链烯基团一且r 4 和硒夏为不同的或相同的基团- 母个基 团选皇氯愿子,酰基基团,具有1 1 0 碳腰子的重鞋或寅鞋 烷基或具有p l o 碳厦子的直链藏支链链熵差团或芳烷基团 图1 2m a r k m h 结构表达的形式 f 逗i 2e x 锄p l eo f m a r k u s h 栅t u r e o r 3 药物专利申请中采用了族性结构,一方面有效的保护了申请人的权益,避免了大量 仿药在专利保护期限内的出现,另一方面也给专利审查,检索,授权等一系列程序带来 了诸多困难。由于族性结构中含有必须的结构片断和一些可选的结构片断,使得一个族 性结构实际包含有若干个确定的结构,小则几十,大则以千计,甚至不可能完全展开。 对于专利审查而言,如何检索出新申请的专利是全新的还是部分或全部都已经包括在己 经申请的专利之中,无疑存在检索的技术问题。例如,图1 3 “”,图1 4 “”所示为2 个 族性结构和相应变量的描述,图1 5 “”所示为这两个族性结构中重叠部分。 w h o 阳如r n dr 2 肿h o 茸 翰d 删y 曩刚e 删1 r 咖挎 ,舢p c o 啮嘲峭a f 呻由。口巩h 棚0 9 呻 n d 神麓陶憎o f 抽鼍f 婚恻捌i 州研f | 讲瓢。呻b 白u r o 岫矗b 嘛囊耐鼬删 r 4 律h 嘲p 帅d 锋瑚白c 妇喇t 旧m 轴o 单啊咖a 挑喃口口o n 锄d 岫阻蠢对嗵蕾瞳酊d 坩d 蚶k 蚌d l r c 栅。一e b l o w c 甜b o n 融明惜;吖i 毯 f 硪f 硅。钿i 嘲切嘲r _ ;b r m n 础哪_ 帅e c 嘲no f 的m 鼬r l 。一x 锄口协n 脚蕾惦,喇m 付话删价毗 呐黼剐删慰啪嘟峨舯。啪州甜喇。即。粥a 嘣r 4 艚n a t 蛐啤晴岬 图1 3 族性结构1 基于动态链接库技术的族性化学结构检索系统 a c 蝴删n da f t 犯f o 删l 矗 r 1 w h e 嘲nr 1l s l e 西鲥f 帕m 柏eg 删p n o 翻i n go f 岍孽明,c 1 谨皇i 吲。c 1 c 2 毫i 帆h l i o n 斟徊 l 棚u o 限哦 蜘;n 语a ni m 哪睁rb | 岫悖e nz e 胁a 喇2 : d a r i 摹辩惯喇饼饼唰a 恼n e o p 棚蛾y 糊酾时衲m e 协帆e 娜喇 f 舯c 锚蜘l c l 稿硝鳓h l o g n 训 l f t j a m e 蚓 图1 4 与族性结构l 有重叠部分的族性结构2 f 逛1 4a no v e r l 婶l p m gm a r k u s h 姗瓣 对毗a r 也 如何对族性结构,更一般的说,如何对化学结构,无论是确定的或是族性的,进行 检索是一个由来已久的问题。它所涉及的关键问题便是如何处理化学结构信息。 s h e 街e l d 大学处理方案 自1 9 8 1 年起,英国s h e 伍e l d 大学m 1 f l l y n c h 教授的工作组开始提出关于族性结 构的处理方法,随后开发了用于族性结构外部表达的g e n s a l 语言和内部表达的e c t r 结构,之后对整个结构检索系统的开发与设计做了大量有价值的研究工作,他们的研究 方法被许多国际化学组织所借鉴和使用。g e n s a l 研江m a s 系统的建立就是以他们的 理论作为指导的。对于筛选,s h e 衢e l d 大学提出了两步法:第l 步是采用速度较快的位 串( b i t g 面n g ) 筛选方法,用于判断库中的侯选结构是否具有提问结构中所包含的结构特 征( 如原子序列、扩展原子和环属性) ,从而决定其是否参加下一步的筛选。第2 步是速 度较慢的缩略图( r e d u c e dg 饱油) 筛选,判断各侯选结构中族性节点之间是否包含提问 结构所具有的拓扑和逻辑关系。然后再把通过了两次筛选的候选结构作原子级的精确匹 大连理工大学硕士学位论文 配。筛选所产生的信息由两个位串来记录,一个被称为m u s t 串,另一个被成为p o s s 串,m u s t 串用于记录所有结构中基本的,共有的结构片段,p o s s 串则是对摹本结构 和可变结构的综合记录,这样的设计思想为子结构和全结构的检索都提供了方便【l 蛆0 1 。 第1 步的位串筛选包含了两个阶段:片段筛选和环筛选【2 1 1 。片段筛的类型主要有扩展 原子筛、原子序列筛,以及键序列筛。环筛一般分为3 类,分别描述环的大小、组成以 及环的融和度,因为环筛是在筛选过程中直接生成的,所以筛子库中不含有环筛。 筛选过程是从将作为筛子的片段的生成开始的,而片段的生成是在对e c n t 的遍 历中逐渐完成的e c t r ( 扩展连接表) 是s h e 箍e l d 大学提出的m a r k l ) s h 表达式在计 算机内部的存储方式吲,就实质而言,e c t r 是一棵a n d o r 树,它用原子、键、参数 列表来描述予结构的信息,用连接点来表述子结构间的连接关系和逻辑关系。为了处理 的方便s h e 伍e l d 在族性结构的表述上采用了一系列的参数埘j :片段的生成是由一个 称作b u b b l e 2 u p 的子程序来完成的1 2 0 ,25 1 。从e c t r 的叶节点开始生成各子结构的位筛 记录。再根据各节点间的逻辑关系将各自的位筛记录进行各种逻辑操作,并将所得信息不 断向上传递。最后,所有信息上传到根节点处,形成位串筛选阶段的过筛记录。通过对 位串中所使用的每一个筛子的文件反查询可得到一个包含此筛子的侯选结构集,依次下 去,把每一次所得到的结构集和前面的结构集取交集,最后当记录中所有的筛子都处理 完后,这时所得到的结构集即为通过了位串筛选的侯选结构集,它们将进行下阶段的 缩略图的筛选啪柙j 。 在这一阶段中因为首先要将原子级的结构图转化为超原子级的结构图,所以此阶 段的速度较慢。转化为超原子的目的是生成一幅和原结构图具有同拓扑关系的更为简单 的结构图,这幅图中的原子节点数大大减少,将这些超原子按确定原子的方式处理,则 其筛选速度将会有较大提高。同时,能进入下面匹配阶段的候选结构又会大幅度地减少, 从而提高了整体的检索效率。由于原子级的结构图转化为超原子级的结构图的规则有很 多,其转化形式也有很多,这里我们主要介绍其中的两种:( 1 ) 以子结构是环还是非环 原则,把整个结构转化为由r ( 环节点) 和n ( 非环节点) 所表示的结构;( 2 ) 以子结构 是由原子构成还是由杂原子构成为原则,把整个结构转化为由c ( c 原子节点) 和z ( 杂 原子节点) 所表示的结构。这种粗略的分法并没有使检索效率得到多大提高,因而还可 根据需要将这些节点类型再往下细分,以得到满意的结果。s h e m e l d 大学曾就这两种方 法作过比较,由结果可看出若将两种方法结合使用效果将更好【2 “。由此可见,缩略图 筛选在结构检索中的重要作用,如果再加上前一阶段的位串筛选,检索效率将会有大幅度 地提高。 基于动态链接库技术的族性化学结构检索系统 m u k u s hd a r c 系统 m u k u s hd a r c 系统是d j 6 且c 系列中的一员,d 灿诞是第1 个在线结构检索系统, 该系统的建立是以j e d u b i o s 教授工作组多年的理论研究为指导的。m 1 l k u s hd a r c 系统是由法国q u e g t a l 公司,英国的d e n v e n t 公司和法国专利局在族性d a r c 系统的基 础上联合开发的。它的检索过程分为3 步,前两步的筛选又分为f i 汪l ( f m g m e n t r e d u c e dt oa ne n v 的哪e n 砒i c hi si i i i l i t e d ) 筛选和位串筛选i 2 8 】。h 也l 筛选,主要是从 整体结构上对库中的结构块进行筛选,位串筛选和g e n s a l 的位串筛选的作用相似。 f r e l 是d a r c 系统的最基本的元素,后面的检索过程大多数都是以它为基础上完 成的f 2 9 ,3 0 1 。f r e l 实际上是一种通用的结构模板,它由一个中心和其周围的环境构成, 而整个分子结构则是由若干这样的模板组合而成的。为了检索的需要,d a r c 系统引进 一系列的超原子【3 l 】可用来表达不同的族性结构,同时也新引进了模糊f 、l ( 缸z yf i 也l ) 1 3 2 3 ”,也就是族性h 匝l ,这就给族性结构的处理带来了很大的方便。 为了提高准确率m a r k u s hd a r c 在原来的基础上又对部分超原子增加了一些 限制条件( 即超原予属性) 来减小筛选的通过率,同时还提供了一系列的参数来对各超 原子进行描述,让所得到的描述各超原子特征的位串能尽可能地表述该超原子的可识别 的信息【3 1j 4 1 。 通过从原子到超原子的转换,可生成一张比原图简单而又最大限度地包含了相关信 息的超原子结构图,再由此图运用m a r k u s hd a r c 的一系列规则可得到组成该结构 的若千f r e l 。在f r e l 的生成过程中,对于显示超原子( 直接由输入得到) 私隐式超原 子r 由一系列真实原子根据定义转换得到) 要做不同的标记,这些信息将为后面更精确的 检索服务。d a r c 库中的每一个f 砌儿对应结构库中的一系列侯选结构,将由同一个 中心生成的若干f i 也l 所对应的所有侯选结构集进行合并,同时其他的f 砌m 也做类似 处理,然后再将这些结构集进行与操作,那些包括在最后所得的交集中的候选结构 就是f 丑筛选的结果。这些通过了f r e l 筛选的结构集将进入第2 阶段的位串筛选。 在这个过程中各超原子的属性和参数集将发挥很大作用。d a r c 系统的结构库中的各侯 选结构生成的f r e l 都存贮在1 棵分层目录树中,且由下向上不断族性化。当对提问 结构进行了缩略化后,将按一定规则生成相应的f i u z l s ,在这个过程中,各结点( 包括超 原子结点和非超原子结点) 的信息将被充分的记录,并不断汇总最后得到尽可能最大限 度表达该提问结构的所有特征记录的筛选位串。再将该位串与通过了f r e l 筛选的侯选 结构的位串相比较,如果提问结构的位串所表达的信息能被侯选结构的信息所包容,则 表明该侯选结构通过了系统的筛选过程,可进入下面的匹配阶段。 大连理工大学硕士学位论文 c a s 族性结构检索系统 美国的c a s 于6 0 年代末开始致力于这方面的研究,他们开发了一个实验系统用 于检索r e g i s 缸yi i 的结构文件,该系统具有筛选和原子级的检索能力。由于缺乏强大的 计算机硬件以及不能提供结构图作为检索结果,因而未被c a s 使用,但却被国际癌症 研究协会的化学信息系统所采用。后来他们在技术上不断地研究改进,采用拓扑技术研 究开发子结构检索c a sc h e i i l i c a ir e g i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论