(应用化学专业论文)药物专利化学结构匹配检索新方法.pdf_第1页
(应用化学专业论文)药物专利化学结构匹配检索新方法.pdf_第2页
(应用化学专业论文)药物专利化学结构匹配检索新方法.pdf_第3页
(应用化学专业论文)药物专利化学结构匹配检索新方法.pdf_第4页
(应用化学专业论文)药物专利化学结构匹配检索新方法.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(应用化学专业论文)药物专利化学结构匹配检索新方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 为实现对药物专利中使用的族性化学结构进行计算机表达、存储和检索,论文对化 学家和专利代理人员在药物专利中大量使用的族性化学结构的特性进行了研究和总结。 以处理族性化学结构信息的计算机表达式一一族性结构紧缩关联表( g e n e r i cs t r u e t u r e c o m p a c t c o n n e c t i o nt a b l e ,g s c c t ) 为基础,拟定了一套检索族性化学结构的筛选策略, 即从g s c c t 表中提取出主干环节点的预筛选方案。g s c c t 表由计算机在结构图形文 件绘制后自动生成。该结构匹配方法与传统的在原子节点层次上的算法不同,是在紧缩 节点的层次上,提取族性化学结构中的关键信息( 或称指纹信息) 进行筛选,避免由于 大量枚举两产生的组合爆炸。基于该方案用a c c e s s2 0 0 0 建立了药物专利的题录信息数 据库和化学结构信息数据库,并用m i c r o s o f tv i s u a lb a s i c6 0 编写了检索程序,建立了药 物专利化学结构检索试验系统。提供了绘图查询和代码查询两种途径,实现了对药物专 利中族性化学结构进行主干环节点的筛选检索功能。 关键词:族性化学结构检索数据库 a b s t r a c t a s t u d yi sg i v e no f t h ec h a r a c t e r so f g e n e r i cc h e m i c a ls t r u c t u r e su s e db y 也ec h e m i s ta n d b y t h ep a t e n t a g e n ti np h a r m a c yp a t e n t st of u l f i l lt h et a s ko fu s i n gc o m p u t e rt od e s c r i b e ,s t o r e a n ds e a r c ht h ec h e m i c a ls t r u c t u r e b a s e do nt h er e p r e s e n t a t i o no f g e n e r i cc h e m i c a ls t r u c t u r e c a l l e dg e n e r i cs t r u c t u r ec o m p a c tc o n n e c t i o nt a b l e ( g s c c t ) a s t r a t e g yi sp r e s e n t e df o r s c r e e n i n gg e n e r i cc h e m i c a ls t r u c t u r et h a ti ss c r e e n i n g t h es t e mr i n gn o d e sw h i c hi sa b s t r a c t e d f r o mg s c c t , w h i c hi sa u t o m a t i c a l l yc o n d u c t e df r o mt h eg r a p hf i l eo ft h eg e n e r i cc h e m i c a l s t r u c t u r eb y c o m p u t e r t h i ss c r e e n i n ga p p r o a c hi sm a d e o nt h ec o m p a c tn o d el e v e l ,w h i c hi s d i 舵r e n tf r o m 血et r a d i t i o n a ls e a r c hm e t h o do f a t o m b y a t o m i no r d e rt oa v o i de n u m e r a t i o n o ft h ec o m p o u n d s ,w h i c hw i l lc a u s ec o m p o n e n t se x p l o s i o n ,t h es t e mr i n gn o d es t r u c t u r e i n f o r m a t i o no ra sf i n g e rp r i mi n f o r m a t i o ni su s e da ss c r e e n s w eu s ea c c e s s2 0 0 0t oe s t a b l i s h ad a t a b a s eo f p h a r m a c yp a t e n ti nw h i c hi n c l u d e st h et o p i ca n dc a t a l o gi n f o m a a t i o na n dt h e g e n e r i ce h e m i c a l s t r u c t u r ei n f o r m a t i o n u s em i c r o s o f tv i s u a lb a s i c6 0t o p r o d u c et h e s e a r c h i n gp r o g r a m a sw e l l at e s t i n gp h a r m a c y p a t e n t sg e n e r i cc h e m i c a ls t r u c t u r es e a r c h i n g s y s t e mi sd e v e l o p e d i tp r o v i d e st w ow a y so fs c r e e n i n gt h eg e n e r i cc h e m i c a ls t r u c t u r eb yt h e s t e m r i n gn o d e ss t r u c t u r ei n f o r m a t i o n k e y w o r d s :g e n e d c c h e m i c a ls t r u c t u r es e a r c hd a t a b a s e 药物专利化学结构匹配检索新方法 前言 化学结构检索是计算机在化学领域中的一项重要应用研究,是化学信息处理的基 础。随着社会信息化程度不断提高和科学技术的快速发展,化学专利数量不断增加,迫 切需要用计算机对化学专利信息进行统一的存储与管理。由于化学物质命名的困难和不 唯一,化学结构作为一种物质组成的表述形式在化学信息的处理中具有特殊的重要性。 从信息表述方式看,化学结构是一种特殊图形信息,在计算机处理上也有一定的特殊性 和难度。 根据是否包含不确定的结构属性,化学结构可以分成确定化学结构( s p e c i f i c s t r u c t u r e ,s s ) 和族性化学结构( g e n e r i cs t r u c t u r e ,g s ) 两大类。族性化学结构是一种更为 普遍的结构表述形式,特别是它可以表示一类化学结构,在化学信息和化学知识的表达 方面具有重要的意义和应用价值。族性化学结构处理技术除了用于化学和专利文献的处 理之外,近年来的应用已经扩展到组合化学和化学反应的处理中0 - 2 。 族性化学结构的表达、存储、检索和匹配的研究工作,国外已进行了几十年,在国 际专利联机系统中已实现了族性结构的检索,取得了良好的社会效益和经济效益。因为 我国现有数据库的缺陷,我们不得不花费大量外汇到他们的联机系统中去检索相关信 息,甚至要使用外国的数据库系统检索中国的化学和药物专利。这种现状不仅影响了我 国专利的审查工作,更重要的是它削弱了我国在世界知识产权信息资源竞争中的国际地 位。因此我们迫切的需要对我国现有的专利信息系统进行改善,以适应我国科技发展的 需要。 药物专利信息的检索系统主要包括文字信息检索系统和化学结构信息检索系统。其 中文字信息检索是以关键字进行检索,检索出包含该检索项的一系列有关专利信息,该 项检索功能已非常成熟,并广为利用。而结构信息的检索,则是以化学结构图形作为检 索项进行专利检索的,也就是在检索时需进行结构图形的匹配。我国开发的专利数据库 和科学数据库中还没有对化学结构信息作深加工处理,并且在检索系统中没有对复杂化 学结构信息进行处理的手段,所以无法用确定化学结构和族性化学结构来检索数据库中 的信息。 本论文作为国家自然科学基金资助项目( 编号:3 0 2 7 15 4 7 ) 课题的一部分,主 要涉及以下内容: ( 1 ) 药物专利试验用数据库的构建 进行数据库设计。通过a c c e s s2 0 0 0 建立了相应的族性化学结构信息数据库,其中 包括药物专利的简单题录信息和族性化学结构信息。库中处理并录入约5 0 篇药物专利 的相关信息。 ( 2 ) 族性结构筛选检索方法的制定 药物专利化学结构匹配检索新方法 以处理族性化学结构信息的计算机表达式一一族性结构紧缩关联表( g e n e r i c s t r u c t u r e c o m p a c t c o n n e c t i o n t a b l e ,g s c c t l 为基础,拟定了一套检索族性化学结构的 筛选策略,即从g s c c t 表中提取出主干环节点的预筛选方案。该结构匹配方法与传统 的在原子节点层次上的算法不同,是在紧缩节点的层次上提取关键信息,即提取族性结 构中的主要信息环结构信息( 或称指纹信息) 进行预筛选,先不考虑非环节点和叶 节点,以避免大量枚举。 ( 3 ) 药物专利检索系统 建立一套药物专利族性化学结构图形检索系统,以验证筛选检索方法的可行性。用 m i c r o s o f tv i s u a lb a s i e6 0 编写了药物专利检索程序,提供了代码检索和绘图检索两项以 化学结构为检索条件进行检索的功能,实现了对药物专利中族性化学结构进行主干环节 点的筛选检索功能。 i i 药物专利化学结构匹配检索新方法 l 文献综述 1 1 概述 1 1 化学信息学与药物专利信息 化学是一门古老的科学,在漫长的发展进程中,积累了大量的文献。随着以计算机 与网络为标志的现代信息技术的蓬勃兴起,给化学的发展带来了深远影响。化学信息学 ( c h e m i c a li n f o r m a t i c s ) 应运而生。它是以化学、化工、计算机与信息技术为基础的一 门新兴边缘学科,包括:化学、化工文献学;化学知识体系的计算机表示、管理与网络 传输;化学图形学;化学信息的解析与数据挖掘处理;化学知识的计算机推演;化学教 育与教学的现代技术与远程信息资源。近年来,化学信息科学在许多方面都取得了很大 的进展: ( 1 ) 化学结构的计算机编码和图形检索方法的发展使传统的文献信息产品实现了 电子化、网络化; ( 2 ) 化学计量学中的多元统计分析、人工神经网络、遗传算法、小波分析等先进 的数据挖掘技术在化学的许多领域都有成功的应用; ( 3 ) 根据已有知识和定理通过计算机推演、大规模计算预测与模拟可以得到物质 的物理和化学性质,化工仿真也取得了很大成功; ( 4 ) 可视化和虚拟技术影响着化学、化工信息产品的发展,其中有些软件在 i n t e r n e t 上可以免费得到【j j 。 药物专利是一类重要的化学信息,要对其进行充分利用首先就要能够对它进行检 索。药物专利中包含有两种类型的信息:文字信息和结构图形。药物专利中的文字信息 经标引加工以后,产生主题、药物( 化合物) 名称、作用分类和文摘4 种类型数据。这些 数据处理要求与通常的文献资料没有太多的差别,要求提供全文检索和部分致检索能 力。1 份药物专利可能包含多个主体结构,既可以是确定化学结构也可以是族性化学结 构【4 。对于化学结构的检索需要对化学结构图形( 包括确定结构和族性结构) 进行标引, 以得到统一标准的结构信息后才能进行检索。 信息资源是未来发展的战略性资源,谁拥有了信息资源谁就有了发展的制高点。专 利信息作为国家信息资源的重要组成部分,在国民经济和经济发展中占有重要地位。我 国对专利信息的开发建设起步晚,加工水平还比较落后,大量信息资源无法查询,特别 是化学、药物、生物序列等,所以加快我国化学药物专利结构数据库的建设具有非常重 要的战略意义。 第l 页 药物专利化学结构匹配检索新方法 1 1 2 化学结构的匹配与检索技术 随着现代技术的发展。计算机越来越深入地渗透到化学领域中来。在化学信息中, 化合物结构是最重要的信息之一。要用计算机处理化学结构,首先要对化学结构的机器 表述加以研究。 化学结构分为确定结构和族性结构,所以结构匹配分为确定结构匹配和族性结构匹 配。结构匹配又分为子结构匹配和全结构匹配,但因为全结构匹配是子结构匹配的一个 特例,所以以子结构匹配作为主要研究。确定结构匹配检索技术已比较成熟并得到广泛 应用,而族性结构由于其自身的特殊性和复杂性特点,对它的匹配检索技术还在不断研 究提高过程中。 1 1 2 1 化学结构的计算机编码 化合物结构在计算机中的存储形式是多种多样的,如线性码、碎片码、连接表、拓 扑码等吼图1 列出了4 一乙胺基一1 ,2 一二酚的化学结构图及其几种当前应用得比较 普遍的命名和线性码的示例。 :囝r 洲2 系统命名;4 - e t h y | a m i n y l 一1 ,2 - d i p h e n o l 习惯名:d o p a m i n e w l n :z 2 rc qd q s m i l e s :c l c c ( 0 ) c ( 0 ) c c l c c n 图14 一乙胺基一1 ,2 一二酚的化学结构图与它的几种主要命名和线形码 f i g 1s t r u c t u r a ld i a g r a m m a i nn o m e n c l a t u r e sa n dl i n en o t a t i o n so f 4 - e t h y l a m i n y l 一1 ,2 - d i p h e n o l 1 砰片码 碎片码系统是将化学结构首先分割成结构片断,这些片断可以有一定的化学意义, 最常见的为官能团、环系统等,然后再加以表述的一种方法。用碎片码表示化学结构主 要解决3 个问题:( 1 ) 结构碎片的选择:( 2 ) 结构碎片的表示;( 3 ) 代表结构碎片的符 号按何种方式( 常称为句法) 结合起来。结构碎片的选择通常有两种方法:按预先定义 好的结构碎片词典或根据分割规则通过算法来分割结构。为了便于计算机处理,结构碎 片通常用计算机可直接使用的字符来表示。而代表结构碎片的字符还须按某种方式组织 起来以代表整个化学结构,这种组织方式称为句法。实际使用中这种句法可根据实际情 况来采用,它们分为称为有句法、半句法或无句法。表l 总结了碎片码的分类和几种常 第2 页 药物专利化学结构匹配检索新方法 见的碎片码。 表1 几种常见碎片码及其分类 t a b l elu s u a lf r a g m e n tc o d e sa n dt h e i rc l a s s i f i c a t i o n 碎片码虽然基本上能够解决用计算机来处理化学结构的难题,但它难于对用碎片码 描述的结构实现子结构检索,因此它的应用被限制了。 2 线性码 线性码( 或称线性标记) 是将化合物的结构先拆成用符号来代表的碎片,再将它们 排成一长串成为化学结构的线性码。因此线性码可看成碎片码的一种。与碎片码一样, 线性码难于实现子结构检索,但非常适合网络传输。目前得到广泛使用的是w e i n i n g e r 丌发的s m i l e s 系统。s m i l e s 规则如下 1 2 - 1 4 】: 1 、原子:原予用它们的元素符号表示;这是s m i l e s 中唯一要求使用字母的地方。 每个非氢原子用包含在方括号中它的元素符号表示。二个字母的元素符号的第二个字母 必须小写。如果与之相连接的氢原子数符合该原子的正常价键连接,有机物集合中的元 素:b ,c ,n ,0 ,p ,s ,f ,c 1 ,b r ,和i 将不写出括号。芳环上的原子用小写字母表示:例如, 正常碳原子用c 表示,芳香碳用c 表示。因为相连的氢原子能从括号的有无推断出来, 所以下列的原子符号在s m i l e s 编码中是可用的。 c甲烷( c h 4 ) n氨( n h 3 ) 0水( h 2 0 ) p磷化氢( p h 3 ) s硫化氢( h 2 s ) c l氯化氢( h c l ) 非有机物集合中的元素必须写在括号中,例如: a u 金元素 相连的氢原予核形式电荷数通常写在括号中。相连的氢原子数用跟在符号h 后的可选的 数字显示。相似的,形式电荷用“+ ”或“一”表示,跟在后面的可选的数字表示电 第3 页 药物专利化学结构匹配检索新方法 荷数。如果没有指定则括号中的原子的相连的氢原子和形式电荷数被假定为0 。例如 h 十氢离子 o h 一羟基阴离子 o h 3 + 水合羟基阳离子 f e 2 + 铁( i i ) 正离子 n h 4 + 氨根正离子 s m i l e s 程序同样将 f e + + + 与 f e + 3 认为是同义的形式。 2 、键:s m i l e s 有单键,双键,三键,芳香键,分别用“一”,“= ”,“# ”,“:”表 示,一般单键和芳香键省略。例如: c c 乙烷( c h 3 c h 3 ) c = c 乙烯( c h 2 = c h 2 ) c o c 甲醚( c h 3 0 c h 3 ) c c o乙醇( c h 3 c h 2 0 h ) c - - - - o甲醛( c h 2 0 ) o = c = o 二氧化碳( c 0 2 ) o = c o 甲酸( h c o o h ) c # n 氢氰酸( h c n ) h h 氢分子( h 2 ) 对线性结构,除了氢原子能被忽略之外s m i l e s 编码同传统标引语法一样。例如,1 , 4 一己二烯醇能用三个相等的正确s m i l e s 编码表示: c = c c c = c c o c h 2 = c h c h 2 c h = c h 。c h 2 o h c = c c c = c c 0 o c c = c c c - c 结构正确的s m i l e s 编码 3 、支链:支链用一对园括号表示,可以包含嵌套。 4 、环结构:环节构用每个环断丌一个单键( 或者芳香键) 表示。这个键可以用任 何顺序计算,并用一个原子符号后面的数字指明开环( 或闭环) 键的位置。这样得到一 个相应的非环图形,可以用上述的两种规则写出其编码。下面是一个典型的例子: “z c h 2 c c c c h 一 ( a ) c c l = c c ( b r ) c c c l l 一l ( b ) c c l = c c ( c c c l ) b r 通常对同一个结构有许多种但是相等的正确描述。 第4 负 汊c、盯 g冬|百 一 叶 斗刖: 药物专利化学结构匹配检索新方法 5 、离子化合物:将包含正负离子的结构作为单独的结构编码,带电荷原子连同所 带电荷写在方括号中,两部分用“”连接。 6 、芳香环:芳香环的原子符号小写s m i l e s 能够自动识别芳香环。 7 、手性:手性原子有两种类型,其中 表示从s m i l e s 线性编码的第一个原子看 起,其它与手性原子连接的原子或基团逆时针排列; 表示从s m i l e s 线性编码的第 一个原予看起,其它与手性原子连接的原予或基团顺时针排列。 给定一个化学结构,可以写出很多随意的但相等的s m i l e s 编码形式。应该拿其中 的一个“唯一的”来作为数据库和其它计算机应用程序的标识符。这通过一个h q c a n g e n 的方法来完成,c a n g e n 由两个独立的算法组成,c a n o n 和g e n e s 。第一步,c a n o n 将一个结构用规范的标签标记分子结构。分子结构被当成一个有节点( 原子) 和边( 键) 的图形。每个原子根据它的布局有一个数字标签。第二步,g e n e s 生成唯一的描述分子 图形的s m i l e s 树型编码。g e n e s 选择开始的原子并参考规范的标签作出分支的决定。 这个组合的处理过程将每个化学结构表示成一个唯一的s m i l e s 编码,忽视许多输入的 可能相等的结构描述。 s m i l e 编码能够很好的表达确定化学结构,但对族性化学结构这样复杂的结构形式, 其自身没有相应的族性表达,只能枚举为大量的确定结构来处理。 3 拓扑码 拓扑码是直接描述分子中结构单元的性质及其位置( 拓扑) 关系的编码。与碎片码 和其他编码相比,拓扑码可以更好地吸收现代数学重要分支之一的图论成果。化学结构 图可看作数学上的图,结构中的原子对应于图中的节点,化学键对应于图中的边,不同 性质的原子和不同性质的键被想象成不同的颜色,因此,化学结构应看成有序色图。排 序在产生化学结构的拓扑码时起着决定性的作用,不同的排序方式将产生不同的拓扑 码。最著名的拓扑码是美国化学文献社( c a s ) 采用的r e g i s t r yi i i 1 0 1 和法国学者d u b o i s 所创的o a r c 码【1 l 】。 4 连接表 连接表是真正适合于计算机,并能在其上建立化学结构信息系统,实现各种结构检 索功能的。连接表本质上是分子中所有原子性质及其拓扑( 有时包括立体化学) 的一个 列表。同一分子结构中原子采用不同的编号次序将有可能产生不同的单向连接表。为了 保证同一分子结构其连接表的唯一性,常采用各种算法( 如c a s 中的m o r g a n 算法【l 5 j ) 或某些规则( 如d a r c 系统中的优先规则) 来选定一种原子的编号方式,称为规范化 ( c a n o n i c a l i s a t i o n ) 编号,然后再得到单向连接表作为代表分子结构的唯一标准连接 表。 第5 页 药物专利化学结构匹配检索新方法 9 1 2 i2345678 9i oj ii 2 蛩( g r a p h ) 111223345785 - 7 原子0 q o d e l ccoc cocc o ooc 键( b o n d ) s rs rsd rss rsssdss r s r = 环单键;d 严环双键;s = 链单键;d = 双键 图2 一个化学结构及其唯一连接表 f i g 2a c h e m i c a ls t r u c t u r ea n di t su n i q u ec o n n e c tt a b l e 图2 表示一个用m o r g a n 算法排序后,以c a s 采用的方式存储的单向连接表在这种 单向连接表中,所有的键只描述一次,即对每个原子只选与其相邻原子中序号比它小的 原予放在“图”这行中描述如原子3 连有原子1 和原子7 ,在“图”这一行中只描述 了原子3 与原子1 间的键。图3 中的斜体数字实际上是蕴涵表示而不存储的。每个斜体 数字对应的列表示了1 个键和1 个原子的性质( 除1 所对应的第一列之外,它只表示了 原子1 的性质而无键性质) 。例如2 所对应的列,2 看作原子2 ,它下面的1 表示原予2 和原子1 间有一个键,键的性质由最下面的s r 表示( 环单键) 。1 下面的c 表示原子2 是碳原子。由于n 个原子只能表示n 一1 个键( 第一列总不能表示键) ,因此,当结构中的 键数 n 一1 时,还将有键未被描述,这些键常称为闭环键,须另外描述。在图中原子5 和原子7 之间的键即为闭环键,因此放在最后单独描述,即图中的最后一列:5 - 7s r 。 采用何种格式的连接表取决于它的应用。通常,冗余连接表比较适于结构检索,如 原子原子匹配比较时使用,而单向连接表则更适于用作大型结构数据文件的存储格 式。 上述是几种化学结构的经典计算机描述方法。这些方法为今天计算机在处理化学结 第6 负 药物专利化学结构匹配检索新方法 构与化学反应方面的成功奠定了良好的基础。随着计算机处理技术的进步,化学结构的 表述方法也将不断改进。 i i 2 2 化学结构的文件格式 过去的二、三十年中,化学信息检索、计算化学、分子模型化、基于谱图信息和结 晶学数据的结构解析系统已成为化学设计( 分子设计和合成路线设计) 的基本技术,广 泛地应用于化学研究的各个领域。出于这些功能系统当初都是独自开发的,造成了现行 文件格式的多样性,使得已有必要开发一个格式转换软件 1 6 - 1 7 。在众多格式中,s m d 格 式是化学结构协会( c h e m i c a ls t r u c t u r ea s s o c i a t i o n ) 精心设计的一种格式,而m o l 格 式由于分子设计有限公司( m o l e c u l a rd e s i g nl i m i t e d ,简称m d l ) 产品的普及而使得它 的影响特别大,成为一种广泛使用的格式,因此将介绍这两种格式【1 8 l 。 1 、s m d 文件格式 s m d 文件共由7 2 个信息项组成,其中用于2 d 分子结构信息主要有以下1 0 部分( 见 表2 ) 。在专利化学结构信息检索中主要考虑通过使用分子的二维结构信息进行化学结构 检索。 表2s m d 文件格式结构信息表 t a b l e2s t r u c t u r ei n f o r m a t i o ni ns m df i l e 项目名称描述 s m d 文件头信息表示s m d 格式的标志 表示集团中所有原子及其连接关系,其格式为:$ 原子信息块$ 键信 集团信息块 息块 原子信息块表示分子中所有原子的信息,其格式为:原子编号元素符号 表示分子中所有键的信息,其格式为:端点1 的编号端点2 的编号 键信息块 键的性质 自由基信息块表示分子中所有自由基的原子信息,其格式为:原子编号自由基数 电荷信息块表示分子中带电荷的原子信息,其格式为:原子编号电荷数 表示分子中具有特殊化合价的原子信息,其格式为:原子编号化合 化合价信息块 价 同位素信息块表示分子中原子的同位素信息,其格式为:原予编号同位素 立体信息块表示某立体中心的构象或构型 原予坐标 表示分子中所有原子的坐标( 2 d 或3 d ) ,其格式为:在原子编号x 值y 值z 值( 3 d ) 第7 页 药物专利化学结构匹配检索新方法 2 、m o l 文件格式 m d l 表示分子结构的文件称为m o l 文件,其文件格式是在过去十多年中由m d l 的许 多软件开发成员在他们开发化学应用软件产品时定义和不断修改而逐渐形成的l l 引。随着 m d l 公司将它们的结构文件格式的公开和在微机上的化学结构图形输入软件i s i s d r a w 的无偿提供,可以预期将有越来越多的人愿意采用它。m o l 格式和s m d 格式一样,它们 不仅是二维结构连接表的储存格式,而且还可以存储化学反应、确定或族性提问( 予) 结构、三维分子结构等信息。但连接表格式是m o l 文件格式的基本核心单元,也是专利 化学结构检索要考虑的主要内容。下面主要介绍连接表格式。 m o l 文件由三行称为头的块和连接表所组成,文件由头块开始,它们分别为分子名、 用户信息和评述。用户信息行依次包含了用户名( 字母缩写) 、程序名、日期时间、维、 尺度因子、能量、内部登录号。m o l 文件的连接表所包含的信息主要有以下几个部分: 计数行( c o u n t sl i n e ) :主要表达该结构中的原子和键的总数、原子列表数、手性 标志设置和连接表的版本号。 原子信息块( a t o mb l o c k ) :主要表达每个原子的元素符号、同位素、电荷、立体化 学和氢原子数。 键信息块( b o n db l o c k ) :主要表达每根键上的两个原子、键的类型、键的立体化学 性质和拓扑性质( 链或环) 。 结构文字描述块( s t e x tb l o c k ) :这部分信息主要用于化学家个人软件系列。 特性信息块( p r o p e r t i e sb l o c k ) :这部分信息提供更进一步的分子结构信息。主要 是指( 1 ) 原子的次级性质:电荷、自由基、同位素;( 2 ) 分子中其他信息:环键数、 取代基数、不饱和原子、原子清单、官能团信息、超原子信息和分子结构的三维特性等 信息。 不同文件格式问的转换可以使用m d l 公司i s i s d r a w 软件中c o n s y s t a n t 模块,它 提供了z o 余种的格式转换功能。随着化学应用软件的普及,文件格式的标准化或统一 化会得到越来越多的重视。但是,各大公司都愿意放弃自己的格式,对我们来说重要的 是选择或定义一乖l 一适合自己的格式。 1 1 2 3 化学结构的匹配检索方法 化学结构检索( 即结构匹配) 是化学数据库中的一项重要的研究课题,它不同于其 他以字符串比较为基础的数据库,它是以图作为比较的对象。族性结构( 又名m a r k u s h 结构) 作为化学结构表达的一种方式在化学化工中有着特殊的应用,它在专利中有特殊 的应用是因为通过族性结构对一类化合物的描述,可以避免对专利申请的化合物作细小 的修改( 往往化合物的性质不会有大的变化) 来侵犯作者的专利权,这样有效地保护了 第8 负 药物专利化学结构匹配检索新方法 专利申请人的权利。 所谓子结构匹配,简单地说,就是在一套( 或一系列) 结构( 称之为文件结构,f i l e s t r u c t u r e s ) 中查询检索一个已知的提问结构( q u e r ys t r u c t u r e ) ;从图论的角度来看,就 是在一系列拓扑图( g f ) 中测试它们与某个确定的提问e f l ( g q ) 的拓扑子图同构关系: 子图同构:g e c g r 化学结构的匹配实际是进行结构图的同构比较。但因为族性结构是图( 结构) 的集 合,所以族性结构的匹配就不再是简单的同构比较了,它应该是集合的比较,即求提问 结构集( s q ) 与文件结构集( s f ) 之闽的集合关系( 相同、相交或不相关) 。 相同相交 ,一一、 ( 二,j 不相关 图3 族性结构匹配的三种关系 f i g _ 3t h e t h r e e r e l a t i o n s h i po fs e a r c h i n gg e n e r i cs t r u c t u r e 对于一个确定结构与一个族性结构匹配,应该先把确定结构看作一个只含一个元素 的集合,然后同样以族性结构匹配族性结构的方法匹配。 集合的比较最终是要验证集合内元素问的关系,如果能够把族性结构展开,形成一 个一个的确定结构的列表,就可以用成熟的确定结构匹配方法进行族性结构的比较。遗 憾的是族性结构的完全展开实际是不可能的。 己经证明,子结构匹配属于n p 完全问题( n p c o m p l e t ep r o b l e m ) ,这就是说算法 的时间消耗是随节点( 原子) 数的的增加里指数增长的t 2 0 1 。考虑最粗略的匹配方法,匹 配一个具有n o 个原子的提问结构,即在一个具有n f ( n o n f ) 个原子的文件结构中 枚举每一种具有n q 个原子的结构组合,则有 n 。l t n f n 种可能,对于一个存贮了m 个结构的数据库,在最坏的情况下就要尝试 第9 页 药物专利化学结构匹配检索新方法 m 。 盟d t n ,n p 种可能,平均需要尝试的次数为 nh ( ,一n a ) 表2 列出了原子数目与匹配尝试次数的数据。 表2 原子数规模与匹配次数 t a b l e2a t o mn u m b e r sa n d s e a r c h i n g t i m e s 文件结构的原提问结构的原子 匹配次数石瓦n 面t , - ! 子规模( n f )规模( n o ) 37 2 0 1 0 76 0 x 1 0 5 3 6 x 1 0 61 0 36 8 1 0 3 73 9 1 0 s 2 0 1 52 o 1 0 1 6 2 02 4 x 1 0 t 8 2 07 3 1 0 2 5 3 0 3 02 7 1 0 3 2 3 01 3 x 1 0 4 6 5 0 4 08 4 1 0 5 7 1 0 05 03 1 1 0 9 3 2 0 05 2 x 1 0 5 9 0 1 0 0 0 1 0 0 04 0 x 1 0 2 5 6 7 由表中数据可以看出,尝试的次数随原子数急剧上升。因为族性结构包含的确定结 笫1 0 负 药物专利化学结构匹配检索新方法 构的数目很大,甚至是无穷,这就不可避免地会产生组合爆炸( c o m p o n e n t se x p l o s i o n ) 问题,所以完全展开是行不通的。比较要在一定的族性层次上进行。但是,为了匹配算 法的简化以及匹配效率的提高,展开到一定程度是可行的。 消 耗 时 间 最佳展开点展开程度 图4 族性结构的展开曲线 f i g 4m a p p i n g c u r v eo f g e n e r i cs t r u c t u r e 图4 示出了展开程度与匹配消耗时间的关系,从图中可以看出:族性结构的匹配消耗 时间与展开的程度存在一个最佳点,所以,为了得到族性结构匹配最高效率( 即最少消 耗时间) ,需要把族性结构在最佳展开点展开。 在族性结构层次上匹配展开族性结构除了要完成确定原子( r e a la t o m ) 与确定原子 的展开( m a p p i n g ) 外,还要实现确定原子与族性变量、族性变量与族性变量之间的展 丌。因为一个族性变量可能是几个确定原子的组合、确定原子与另一个族性变量的组合、 另外,l 个族性的组合或者是另外一个族性变量的一部分几种情况,所以族性结构的匹配 展开比起确定结构的匹配要复杂很多很多【2 1 。2 2 1 。 族性结构表达式的复杂性在于结构中存在四种类型的不确定因素【2 3 1 : 1 、取代基结构不确定性( s u b s f i t u e n tv a r i a t i o n ) ; 2 、连接位置不确定( p o s i t i o nv a r i a t i o n ) ; 3 、连接个数不确定( f r e q u e n c yv a r i m i o n ) : 4 、具有某种特性的结构( h o m o l o g yv a r i a t i o 山。 专利中的族性结构描述是通过图形和说明文本完成的。图5 是专利中族性结构的例 子。这篇专利结构集中体现了族性结构的四种类型的不确定性。由取代基r 和x 可见, 化学结构具有连接位置不确定和结构性质不确定。( c h 2 ) n 代表了族性结构中连接个数 不确定的特性。x 是有1 - 6 个碳的烷基、烷氧基、烷硫基、卤代烷基、卤代烷氧基,则 表现了族性结构中的具有某种特性结构的特点。 第1 1 页 药物专利化学结构匹配检索新方法 n t s l ,2o f3 j ri s h ,f ,c i ,b to i : i sh f ,c i ,b t ,i0 1 a l k y i ,a l k o x y ,t h i o a l k y l ,h a l o a l b i o fh a l o a l k o x yh a v i n g1 - 6c 图5专利结构实例 f i g 5 ac a s eo f g e n e r i cc h e m i c a ls t r u c t u r ei np a t e n t 由于上述族性结构的复杂特性,实现计算机处理族性结构要通过三个阶段【2 3 1 。首先, 设计一套标记语言,来规范地表达族性结构。它要以化学语言为基础衍生而来,且可被 计算机准确无歧义的识别。然后,使用合适的数据结构存储族性结构。该数据结构要保 证结构信息的完整性。最后,开发检索途径和方法。通常为提高检索效率要先进行筛选, 然后进行更精确的匹配。 族性结构的检索是在确定结构检索的基础上发展起来的,又比确定的结构检索要复 杂很多。由于族性结构的复杂性,因而要求其在精确匹配之前,也必须跟确定结构一样 进行结构筛选,以排除掉库中绝大部分与提问结构无关的结构,从而减少精确匹配次数, 节约检索时间,提高检索效率。有数据显示,如果筛选系统的效率足够高,对于族性检 索系统来说后面的精确匹配可不再需要。 1 2 族性结构国内外发展概况 由于族性化学结构包含许多不确定的结构属性和文字描述,其计算机处理的难度远 远大于确定化学结构。有关的研究开始于8 0 年代初,9 0 年代才形成较为完整的处理方 法。目前主要有英国s h i e f f i e l d 大学、美国化学文摘社、法国巴黎第七大学的三种处理 方案。根据对现有系统的比较和测试表明,族性化学结构处理仍有很多技术问题有待解 决 2 4 - 2 7 l 。 笫1 2 页 药物专利化学结构匹配检索新方法 1 2 1 国外的发展 1 2 1 1 s h e f i e l d 大学族性结构处理方案 英国s h i e f f i e l d 大学l y n c h 最早开始族性化学结构的处理研究,开发了用于族性结 构外部表达的g e n s a l 语言和内部表达的e c t r 结构,提出了一整套族性结构的分级 筛选和精确匹配的解决方案 2 8 - 3 4 】,他们的研究方法被许多国际化学组织所借鉴和实用。 g e n s a l g r e m a s 系统的建立就是以他们的理论作为指导的。可以说他们的理论是现 有处理方案中最为严谨的。方案的要点如下: ( 1 ) 使用形式语言标引和规范族性结构描述中用自然语言表述的部分,形成族性 结构的g e n s a l 表述1 2 8 1 。 ( 2 ) 使用扩展连接表( e c t r ) 描述和存储族性结构1 2 引。就实质而言,e c t r 是一 棵a n d o r 树,它用原子、键、参数列表来描述子结构的信息,用连接点来表述子结 构间的连接关系和逻辑关系。一篇族性结构的确定结构部分以连接表的形式记录,族性 结构部分则用外部语言( 如g e n s a l ) 来描述,并以文本方式进行记录。参数表( 见表 2 ) 就是专门设计用来表示族性结构的符号系统。图6 是a n d o r 树。由于采用了这种 详细的存储方式,对一个完整的结构文件来说,族性结构的大小和复杂性都决定了后续 过程中将会有大量的信息需要处理,也将会消耗大量的时间。为了提高检索效率,因此 必须首先进行筛选,筛掉库中大量和提问结构毫不相关的绝大部分结构,经过这一过程 将会大量减少要进行a t o m b y a t o m 匹配的候选结构,缩短了极为耗时的 a t o m b y - a t o m 匹配的时间。 表3 族性结构参数集 t a b le3s t r u c t u r a lp a r a m e t e r sf o rg e n e r i cr a d i c a lg r o u p s a 原子总数 c原子总数 t 链三连接原子数q链四连接原子数 e 不饱和双键数 y 不饱和三键数 p主链长度z 环杂原子总数 r c环数r n环原子数 r s环取代基数 r f 环融和数 r a芳香环数r z 环杂原子数 第1 3 页 药物专利化学结构匹配检索新方法 图6 与或树 f i g 6 a n d o rt r e e 尹 r 3 7 ,r 2 、r 1 r 1 = b s bk a n d b yl c d s b ( m n ) : r 2 = e : r 3 = ( f ,g ) s b o a n d b y ( p q ) i h ( i ,j ) s b r 图7a n d 0 rt r e e 表达的族性结构 f i g 7g e n e r i cs t r u c t u r ep r e s e n t e db y a n d o rt r e e ( 3 ) 提问族性结构通过结构碎片筛、缩减图筛找到库中符合要求的族性结构作为 候选结构。结构碎片筛由必须结构碎片筛( m u s t ) 和可能结构碎片筛( p o s s ) 两部分组成。 结构碎片筛中的每一位代表3 0 0 0 多个确定结构碎片中的一个。结构碎片可以是一个4 - 6 个原子和键的序列( a t o m sa n db o n d sl i n e a rs e q u e n c e ) 或者是中心原予及其连接的原子和 键( a u g m e n t e da t o m ) 。结构碎片表示了在原子和键或者环级别上的局部结构性质,包括 任意原子类型和任意键类型的描述p 。筛选过程是从将作为筛子的片段的生成丌始的, 而片段的生成是在对e c t r 的遍历中逐渐完成的,片段的生成是由一个称作b u b b l e u p 的予程序来完成的1 3 1j 。缩减图筛中的每一位表示一个由环节点,非环全碳原子节点和非 环杂原子节点组成的简单缩减图。缩减图筛表示了族形结构的整体拓扑和逻辑关系【3 “。 第1 4 页 药物专利化学结构匹配检索新方法 缩减图实际上就是把族性结构族性化到一定程度,然后采用类似确定结构的匹配机理来 匹配两个族性化的缩减化学图。 ( 4 ) 提问族形结构和候选的库族形结构通过原予级的精细匹配完成族形结构的比 较,确认两者是否匹配 3 3 3 4 。 1 2 1 2 m a r k u s hd a r c 系统 巴黎第七大学d u b o i s 建立了可以使用有限族性提问的g e n e r i cd a r e 系统,在此基础 上法国q u e s t a l 公司,英国d e r w e n t 公司和法国专利与商标局( i n p i ) 合作建立了m a r k u s h d a r e 系统以处理专利中的化学结构。m a r k u s hd a r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论