(应用化学专业论文)基于Web的药物专利检索系统.pdf_第1页
(应用化学专业论文)基于Web的药物专利检索系统.pdf_第2页
(应用化学专业论文)基于Web的药物专利检索系统.pdf_第3页
(应用化学专业论文)基于Web的药物专利检索系统.pdf_第4页
(应用化学专业论文)基于Web的药物专利检索系统.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(应用化学专业论文)基于Web的药物专利检索系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 建立基于w e b 的药物专利检索系统的核心问题是药物专利中采用的族性结构的计算 机表示方法的问题。本论文系统的回顾了国内外族性结构处理的发展和现状,吸取众家 之长,提出了族性结构新的表达方案数字编码,从药物分子的危度探讨了数字编码 的理论基础。该处理方案首先利用s m i l e s 线性编码程序对环和非环原子,特别是对芳 香环原子的识别算法,实现了结构式的程序拆分,打断结构式中原子和键的连接关系, 将结构式拆分成r i n g 和f r a g m e n t 两类结构片断,示用生成全结构s m i l e s 编码的算法生 成r i n g 和f r a g m e n t 的唯一s m i l e s 编码:其次,从结构片断编码中提取结构信息,用数 字表示r i n g 和f r a g m e n t 的类型和属性得到r i n g 和f r a g m e n t 的数字编码表达式:最后, 分别按照预先定义的r i n g 和f r a g m e n t 的优先级别排列组合r i n g 和f r a g m e n t 的数字编码 就是全结构的数字编码表达式,重新构建了原结构原予和键的连接关系。数字编码将确 定结构族性化表示,将族性结构适当展开,用有限的数字编码表示可能包含有成百上于 个确定结构的族性结构。用面向对象程序设计方法( o o p ) 实现了数字编码方案的一系 列算法,用j a v a 语言完成了能够运行于网页的a p p l e t 程序s t r u d r a w ,对提问结构式用该 程序实现了结构的拆分和数字编码。由于数字编码规贝q 简单,适用于药物专利标引,建 立供检索的药物专利数据库。本论文基于w i n d o w s 2 0 0 0 + i i s 5 0 平台设计并实现了基于 w e b 的药物专利检索系统,能够提供确定结构检索确定和族性结构,族性结构检索族性 结构,达到了论文的预期目的。 关键词:族性结构;s m i l e s ;检索系统:药物专利 a b s t r a c t a b s t r a c t 1 1 1 ei n d e x i n ga n dr e t r i e v a lo f g e n e r i cs t r u c t u r e sh a sa l w a y sb e e na m o n g t h em o s t p r o b l e m a t i c a s p e c t so fp a t c n ti n f o r m a t i o na n d t h em o s t e x p e n s i v e i nt h i sp a p e r , t h ep r o b l e mp o s e db yt h e r e q u i r e m e n t f o rs t o r a g ea n d m a n i p u l a t i o no fg e n e r i cs t r u c t u r ed e f i n i t i o n si np a t e n t si sr e v i e w e d c h e m i s t sa n d p a t e n t sa g e m s h a v e d e v e l o p e da na r m o r yo f m e t h o d so f r e p r e s e n t a t i o no v e rm a n y d e c a d e ss ot h a tag e n e r i cs t r u c t u r ed e s c r i p t i o nc a nd e s c r i b el a r g ea n do f t e nu n l i m i t e dn u m b e r s o fs u b s t a n c e sa sar e s u l to fc o m b i n a t o r i a lo p p o r t u n i t i e sp r o v i d e d n 圮n a t u r ea n dt h e o r e t i c a l f o u n d a t i o n sd e v i s e dd u r i n gt h es h e f f i e l dp r o j e c t ,c a s ,j a p a na n dc h i n ar e s e a r c h g r o u p sf o r t h e s u c c e s s f u ls o l u t i o no ft h e p r o b l e mi n o r d e rt o p r o v i d et h ed e s i r e da n dp r a c t i c a lr e t r i e v a l f a c i l i t i e sa r er e v i e w e d a ni r m o v a t i v em e t h o do fr e p r e s e n t a t i o nf o rg e n e r i cs t r u c t u r e su s i n g d i g i t a lc o d e si sp r e s e n t e d ,w h i c hc o m p r i s e s t h ef o l l o w i n gt h r e e s t e p s :f i r s t , t h em e t h o da n a l y s e s a 1 1 p o s s i b i l i t i e s o fv a r i a t i o n sd e s c r i b e di n g e n e r i ce x p r e s s i o n sa n d t h e nd i v i d e d g e n e r i c s t r u c t u r e si n t o r i n g sa n df i a g m e n t sb yv i r t u eo ft h ea b i l i t yo fd e t e c t i n gr i n ga n db r a n c h , e s p e c i a l l y a r o m a t i c t i n g s ,o fs m i l e sn o t a t i o n s ;s e c o n d ,b o t hr i n g s a n d f r a g m e n t s a r e r e p r e s e n t e db yt h e i rd e f i n e da t t r i b u t e si nt h ef o r mo fd i g i t a lc o d e s ;f i n a l l y , t h ec o m b i n a t i o no f d i g i t a lc o d e sg e n e r a t e sas e to fl i n e a rd i g i t a lc o d e sr e p r e s e n t a t i o n so fg e n e r i cs t r u c t u r e s n l e w h o l e p r o c e s so fe n c o d i n gw i t hp a r t i c u l a rr e f e r e n c e t op a t e n t sa n dt h e a p p l i c a t i o nt os e a r c h i n g s y s t e ma r ea l s od e s c r i b e d n l ep r o g r a mb a s e do no o p i sd e v e l o p e d w h i c ha c c o m p l i c e st h e d i v i s i o na n dd i g i t a lc o d e so f q u e r ys t r u c t u r e sa u t o m a t i c a l l y 皿er e t r i e v a ls y s t e md e s i g n e di s b u i l to nt h ep l a t f o r mo fw m d o w s2 0 0 0 + i i s 5 0a n dt e s t e do n1 0 c a lm a c h i n e ,w h i c hs u p p o r t s s e a r c h e si n c l u d i n g q u e r i e sc o m p r i s i n gs p e c i f i cs l u c t u r e s ,f o rw h i c hi n c l u s i o na sam e m b e r o fa g e n e r i cc l a s ss h o e db et h ec r i t e r i o nf o rr e t r i e v a l ,g e n e r i cs t r u c t u r e s ,f o rw h i c ha n o v e r l a po f o n e o rm o r es t r u c t u r e sb e t w e e nt h eq u e r ya n dad a t a b a s es t r u c t u r es h o u l d b ed e t e r m i n i n g t h er e s u l t o fs e a r c h e ss e e m st ob es a t i s f i e d k e y w o r d s :g e n e r i cs t r u c t u r e s :s m i l e sn o t a t i o n ;r e t r i e v a is y s t e m ;p h a r m a c e u t i c a p a t e n t s 前言 月i j吾 在化工行业,特别是药物和农业以及发展迅速的生物和蛋白质工程领域,专利信息 扮演着重要角色,由于专利文献并不公开发表,许多化学家往往忽视了专利中一些结构 新颖的化合物,不包含专利资源的文献检索是不全面的。例如,在制药行业,据估计对 1 2 万个化合物进行筛选才能发现一个有活性的先导物,到上市需要8 - 1 2 年时间,耗资 0 5 2 亿美元,所以国内外的药物研究机构一方面在设计新的药物,一方面仍然利用积累 的药物专利信息进行结构改造以发现新药。随着越来越多的国外药物专利在国内获得专 利保护,检索药物专利信息能够及时发现是否有创新药物。但我国对药物专利信息的开 发建设起步晚,加工水平还比较落后,大量药物专利信息资源无法查询,直接影响了药 物专利的审查工作,其中一个重要原因是由于药物专利中使用了族性结构。 化学结构的计算机表示和存储一直是化学信息学研究的一个方向,数据库的登录, 化合物结构的存储、管理和检索,结构解析专家系统,有机合成路线方案选择,计算机 辅助分子设计等诸多方面都和结构编码密切相关。对确定结构,从一维的线性编码,例 如w l n 1 ,2 l 编码、s m i l e s l 3 ,4 线性编码,到二维拓扑连接表,例如邻接矩阵,再到三维 结构编码,都显示了结构编码要求能够如实的再现分子的真实结构信息。 族性结构在化学专利申请中的广泛应用,使专利申请人可以用紧凑模糊的结构式来 保护其发明,却给专利审查和检索出了一道难题。不同于确定结构,族性结构是一个包 含有许多结构的集合,这个集合可以有一定的边界,也可能没有,它所包含的结构可以 是确定的,也可以是模糊的。族性结构的复杂性导致了族性结构计算机表示和存储的复 杂性。早期利用结构片断编码人工完成对族性结构信息的存储,随着专利申请数量的不 断增加,开始借助计算机来辅助分类专利,这大大减轻了专利的查询、审查和分类工作, 提高了专利处理的效率。计算机网络技术的发展使在线联机检索成为可能,文字查询技 术的完善使专利数据库得以进一步发展。目前国外能够实现族性结构检索的商业系统获 得了巨大的经济和社会效益,为提高国内处理药物专利信息的技术水平,有必要对族性 结构进行研究,建立有自身特色的药物专利检索系统。 基于w e b 的药物专利检索系统 1 药物专利检索研究综述 l ,l 药物专利中的族性结构 自从1 9 2 4 年m a r k u s h 打赢了同美国专利局( u sp a t e n to f f i c e ) 的官司后,m a r k u s h 结构,即后来通称的族性结构( g e n e r i cc h e m i c a ls t r u c t u r e s ,或g e n e r i cs t r i c t u r e s ,简写 为g s ) 在药物专利申请中广泛使用开来。图1 1 所示为m a r k u s h 所申请的专利中的c l a i m 1 部分【1 ,2 1 ,在该专利中m a r k u s h 试图在一份申请中包含一个以上的化合物。图1 2 所示 为该专利申请用现在熟悉的m a r k u s h 结构表达的形式闭。 c l a i m1 t h ep r o c e s sf o rt h em a n u f a a t u r o o fd y e sw h i c h o o m p f i s e do o u p l i n g w h ha h a l o g e n - s u b s t i t u t e dp y r a z o l o n a , a d i a z o t i z e du n s u l p h o n a t e dm a t e d a ls e l e c t e d f r o mt h eg r o u p c o n s i s t i n go fa n i l i n e 。 h o m o l o g u e so fa n i l i n ea n dh a l o g e n s u b s t i t u t l o np r o d u c t so fa n i l i n e 圆1 1 美国专乖j1 , 5 0 6 , 3 1 6e u g e n ea m a r k u s ha u g u s t2 6 ,1 9 2 4 f i g - 1 ;1u s p a l m1 ,5 0 6 ,3 1 6e u g e n ea m a r k u s ha u g u s t2 6 ,1 9 2 4 t h e p r o o s s s f o r t h em a n u l a o t u r eo fd y e sw h i c h c o m p r i s e d c e u p l i n g w i t ha h a l o g e n - s u b s t i t u t e dp y r a z o l o r m 。b d l a z o t i z a du n s u l 帅o n a t e dm a t e r i a lp r e p a 划f r o ma c o m p o u n dh a v i n g t h ef o r m u l a w h e r e i nr 1a n dr 2a r e i n d e p e n d e n t l ys e l a c t e df r o m t h e g r o u pc o n 5 i g t i n go fh y d r o g e n , m 酬e n dh a l o g e n 图i 2m a r k u s h 形式表达的c l a i m l ,美国专利1 , 5 0 6 ,3 1 6 f i g 1 2c l a i m io f u sp a t e n t1 , 5 0 6 ,3 1 6d r a w ni nm a r k u s hf o r m a t 药物专利申请中采用了族性结构,一方面有效的保护了申请人的权益,避免了大量 仿药在专利保护期限内的出现,另一方面也给专利审查,检索,授权等一系列程序带来 了诸多困难。由于族性结构中含有必须的结构片断和一些可选的结构片断,使得一个族 性结构实际包含有若干个确定的结构,小则几十,大则以千计,甚至不可能完全展开。 对于专利审查而言,如何检索出新申请的专利是全新的还是部分或全部都已经包括在已 经申请的专利之中,无疑存在检索的技术闯题。例如。图1 3 1 2 1 ,图1 4 1 2 所示为2 个族性 结构和相应变量的描述,图1 5 1 2 j 所示为这两个族性结构中重叠部分。如何对族性结构, 更一般的说,如何对化学结构,无论是确定的或是族性的,进行检索是一个由来已久的 基于w e b 的药物专利检索系统 问题。它所涉及的关键问题便是如何处理化学结构信息。 a c o m p o u n o 州2 嘣甜m “1 8 m 冉 w h e r e i nr 1a n dr 2 a r e i n d e p e n d e n t h j8 e l e c a dt r a mt h e g r o u pe o n s l s l t 帅g o f h y d r o g e n 。h a l o g e na n da b a i g h t o r b r a n 曲e da 1 1 c v lo ff r o f l no l l et o 幻u rg a t o o na t o m s ;a n dr 3 a n d r 4a r el n d o p e n d e n u ys e l e c t e df r o mt h eg r o u p 鼢s l s t t n g o f h y d r o g e n a n d8 t m l 9 m w b r a n c h e da l k 磷o | f r o m o n e t o t o u r o e m o n a t o m s ;o r r 3 a n d m t a k e n t o g e t h e r , f o r m a n a l k y l e n e c h a i n o f f r o m t o u r t o s i x e a r b o o a t o m 鼠w i t h t h e p r o v i s o t h 砒 w h e n r la n d r 2 a r e 时d r e g 醣。m e t h y l o r h l d o g e n ,r 3 e n d r 4 a r en o tb o t h 埘d r e g e n 圈1 3 族性结构t f i g 1 3at v p i c a lm a r k u s h s t r u c t u r e a g o m p o u n d o ft h ef o r m u l n r 1 w h e r e i nr 1i ss e l e c t e df t o mt h eg r o u pc o n s i s t i n go f h y d r o g e n c 1 - c 2a l 哪,c 1 - c 2a l k o x y , h a l o g e n a n d t d f l u o r o m e t h y l ;ni sa ni n t e g e rb e t w e e n z e r oe n d2 a n da ri sp h e n y lo r n a p h t h a l e n e ,o p t i o n a l l y s u b s t i t u t e db yf r o mo n e t ot h r e eg m u p ss e l e c t e d f r o mc 1 - c 4a l 哪。c 1 - c 4a l k o x y , h a l o g e na n d t r 羽u o r o m e t h y l 图1 4 与族性结构1 有重叠部分的族性结构2 f i g 1 4a no v e r l a p p i n g m a r k u s hs t r u c t u m 眠r 辄q f 1 1 r 3 r 4 - c e - a l k y l e n e n = o a r p h 。n y i 图1 5 族性结构1 和2 的重叠结构 f 培1 5a r e a so f o v e r l a p 2 盹 基于w e b 的药物专利检索系统 1 2 族性化学结构信息的计算机表示与存储 1 2 1 族性化学结构的计算机表示 无论是确定还是族性化学结构,它所提供的信息都包含了构成该结构的原子信息, 键的连接关系信息,由于化学结构的计算机图形表示有二维和三维的分别,对三维结构 不能仅提供原子的二维坐标,还需要知道原子的空间三维坐标,但在具体实现结构的检 索方面却需要一种确定的,唯一的提问结构式的表达式,原予的坐标由于不具有唯一性, 对结构信息的检索帮助不大;并且,药物专利申请中出现的族性结构总是以尽可能简单 的表达式来包含尽可能多的可能结构以获得尽可能宽的专利保护权益,故在后文的讨论 中对结构信息的处理最多只考虑二维结构。 作为化学信息学( c h e m o i n f o r m a t i e s ) 3 , 4 1 研究的一个方面,化学结构信息的计算机表 示与存储是同计算机技术的进步密切相关的。以计算机为技术手段,对海量的化学结构 信息资源建立智能化处理的理论和方法一直是研究的重点,随着网络技术的发展,建立 可共享的统一规范的化学结构表达方法更是许多化学家追求和努力的目标。 受计算机软硬件条件的制约,最初对化学专利中的结构采用线性片断编码,称为 “d u n c h e d c a r df r a g m e n tc o d e 州5 ,6 1 ,图1 6 为一个简单的编码示例,该编码用不同的线性 字符表达式对不同分子结构片断编码,整个分子结构的编码是这些结构片断编码的组合, 这一“分而治之”的思想至今对我们处理问题仍有很大的启发作用。还有由手工完成的, 基于文件的片断编码( f r a g m e n t a t i o nc o d e s ) i f i ”。该编码方法对专利中出现的族性结构 都进行了分类和标引,在建立查询系统时利用了两个逻辑运算“p o s s i b l e ”和“m u s t ” 对族性结构进行标引。图1 7 【7 】所示为用i f 【对一个族性结构的标引结果。类似的还有早期 w p i ( d e r w e n t sw b f l dp a t e n t si n d e x ) 的f a r m d o c - a g d o c c h e m d o cm u l f i p u n c hc o d e ”,能 够表达更确定一些的结构信息。更广泛应用的片断编码是g r e m a s 系统州,对结构片断 的分类和编码更加详细,例如不同的双键,。一c h c n 用“y r 2 n 。”表示,而用 “y r n 3 n ”表示c o o h c h c h c o o h 结构。基于此建立的i d c 系统不仅可用于检索化 合物,还可以检索有机反应。 ( w o e r e x - - o o f s ) 图1 6 线性片断编码示倒 f i g , 1 6e x a m p l eo f f r a g i n e n t a t i o nc o d e 基于w e b 的药物专利检索系统 x o p o s s l b l e o rr i s 酬刚 x i sh a i o o rn i t r o e s t e r f g h a l of g n i t r of g c a r b o c y cl | c m u s t e s t e rf g c a r b o c y c u c 圈1 7i f i 标引示例 f i g 1 7e x a m p l eo f i n d e x i n g b y i f l 由于结构片断编码一开始由人工完成,许多研究人员和公司,机构都展开了结构片 断的自动生成算法的研究,借鉴a l w l n 1 0 l 线性编码的算法,一种确定结构和族性结构片 断生成算法如图1 8 所示【”i ,其中隐含了后文提到的确定结构族性化与族性结构确定化表 示的方法。 f n p u t ,o u t p u t 图1 8 结构片断生成算法 f i g 1 8a na l g o r i t h mo f g e n e r a t i n gf r a g m e n t s 药物专利信息在化学、农业、制药行业甚至在生物技术和蛋白质工程中都具有重要作 用,许多新颖的化合物可能就隐含在专利之中,在文献检索时。专利信息也是必不可少 的一个重要资源。鉴于此,在化学结构信息处理的初期,一些提供专利信息检索的公司 相继成立。最早提供族性结构检索服务的公司之一有d e r w e n t p u b l i c a t i o n sl t d 。其主要服 务是世界专利索引,包括c p i ( c e n l r a l p a t e n t s i n d e x ) ,c p i 的三个组成部分是上文所说的 f r a i v i d o c ,a g d o c c 耻m d o c ,也通称为c p i 编码。德国的i d c ( i n t e r n a t i o n a l e d o k u m e n t a t i o n s g e s e u s e h a i t f u rc h e m i em b h ) 采用g r e m a s 编码对专利建立索引。在与 d e r w e n tp u b l i c a t i o n sl t d 签订协议后,i d c 利用d e r w e n t 的文献资源建立索引。比较著名 的还有e r n s t m e y e r 博士设计后被一家德国化学公司作为内部服务的b a s f 1 2 1 , 上述的i f i , c p i 和g r e m a s 都是基于结构片断的线性编码方法。虽然建立基于拓扑结构的族性结构 基于w e b 的药物专利检索系统 表达方法的思想在1 9 5 8 年就已经由k o l l e r ,m a r d e n 和p f e f f e r 提出i i ”,但由于受到计算 机硬件条件的制约未得到实施。对族性结构拓扑表达方法进行深入研究,取得丰硕成果 的是英国s h e f f i e l d 大学l y n c h 领导的研究组。 1 2 2s h e l f i e i d 大学族性结构处理方案简述 在先后得到英国图书馆研发部( t h e b r i t i s hl i b r a r yr & d d e p a r t m e n t ) 、c a s ( c h e m i c a l a b s t r a c ts e r v i c e ,) 、d e r w e n tp u b l i c a t i o n sl t d 和德国化学公司i d c ( i n t e r n a t i o n a l d o c u m e n t a t i o nf o rc h e m i s t r ym b h ) 的资助后,自1 9 7 9 年开始,l y n c h 等人发表了一系 列有关该研究项目的文章1 1 4 矾】。上个世纪8 0 年代是研究这一领域的活跃时期,逐渐出现 了两个著名的族性结构检索系统,一个是由q u e s t e ls a 和i n p i ( 法国专利局) 操作的 d e r w e n t 信息公司的( d e r w e n t i n f o r m a t i o nl t d ) m a r k u s hd a r c 系统和c a s 的m a r p a t 系统【3 5 ,3 6 1 ,有关检索系统的具体内容在1 3 节中介绍。这两个系统都受到了s h e f f i e l d 大 学研究的影响,至今,其研究成果仍被认为是族性结构表示和检索的精确方法【l 2 ,”】。其 整个处理过程如图1 9 所示”。 图1 9s h e f f i e l d 大学族性结构处理过程 f i g 1 9o u t l i n es c h e m e o f i n t e n d e do v e r a l lp r o c e s s 甲 苎主兰些堕塑塑童型蝗窒墨竺 首先,他们对化学专利中出现的族性结构特征总结归纳,指出族性结构中包含有以 下四类族性变量i 1 3 ,2 7 ,2 8 】: ( 1 ) 取代变量( s u b s t i t u e n tv a r i a t i o n ) ,指在一个结构的某一固定位置可能存在的取代基 团,例如,对位可被卤素取代的苯基: ( 2 ) 位置变量( p o s i t i o nv a r i a t i o n ) ,指一个取代基团可能连接在结构式中的多个取代位 置上,例如,卤索取代的苯基; ( 3 ) 频率变量( f r e q u e n c yv a r i a t i o n ) ,指一个结构片断可能出现的次数或连接长度,例 如,对位被一c h 2 ) n c 1 ,n = l - 3 ,取代的苯基; ( 4 ) 同系变量( h o m o l o g yv a r i a t i o n ) ,指同属一类结构特征的结构或其组合,例如对位 可被c l - 3 烷基取代的苯基。 图1 1 0 所示为一个典型的包含这四类变量的族性结构。在专利申请中,同系变量通 常有一些条件的限制,例如,碳链中原子数目;直链还是支链;支链在碳链的分支点; 非单键的数目,类型;环的大小;环的数目:环稠和的方式。 s u b s 口t u e n tv a d a d o n h o m o l o g yv a r i a t i o n : p o s i t i o nv a n a t i o n : f r e q u e n c y v a f i e t i o n : r i s m e t h y lo re t h y l r i sa l 砷 巳i sa m i n o m i s l - 3 圈r 1 0 含有四类族性变量的族性结构 f i g 1 1 0 a g e n e r i cs t r u c t u r ec o n t a i n i n g f o u r t y p e s o f v a r i a t i o n s 族性变量其它些特征有变量的嵌套( n e s t i n g ) ,即一个变量可能有其它变量来约束 和定义。例如r 1 由n r t r s 决定。所有的这些都增加了族性结构处理的复杂程度。1 9 9 6 年l y n c h 等人在文章中回顾了s h e f f i e l d 大学处理族性结构所取得的成就,见表1 1 t 1 3 1 。以 下对这些内容作一简单介绍。 表1 1s h e f f i e l d 火学处理族性结构取得的成就 t a b l e1 1t h es c i e n t i f i ca c h i e v e m e n t so f s h e f f i e l d sp r o j e c t a 族性结构表达式- - g e n s a l b e c t r ( 内部表达式) 和翻译器( i n t e r p r e t e r ) c 族性结构匹配准则 d 衍生片断筛子( d e r i v e df r a g m e n ts c r e e n s ) 和检索操作( s e a r c ho p e r a t i o n s ) e ,还原化学图( t h er e d u c e dc h e m i c a lg r a p h ) f 冒泡算法( b u b b l e u p ) g 精确检索一原予一原子级别的检索 6 基于w e b 的药物专年u 检索系统 a 族性结构的表达式g e n s a l 线性编码在族性结构处理过程中的局限性越来越明显,主要体现在没有哪一种线性表 达式能够通用来处理族性结构,片断编码的类型在碰到具体的族性结构时总是显得不够 多。建立一种能够体现尽可能多族性结构特征的表达式成为s h e f f i e l d 大学处理方案的首 要任务。不仅如此,对提问结构式和建立供检索数据库的操作也应该提供一种可行的匹 配算法,从用户的角度看还要求易懂,易用,界面友好,支持逻辑运算等。为此,设计 了g e n s a l ( g e n e r i cs t r u c t u r el a n g u a g e ) 以满足上述要求。图1 1 l 所示为d e r w e n t 出 版公司一份含有族性结构的专利摘要,图1 1 2 所示为用g e n s a l 表达族性结构的结果l j “。 g e n s a l 类似于计算机编程语言,有自己的一套语法,同时还设计了g e n s a l 编译器, 能够将符合语法的文本自动翻译成g e n s a l 表达式。检查g e n s a l 语句的语法和语义, 生成“机器语言级别”的内部族性结构表达式e c t r 。 圈1 1 1 含有族性结构的专利摘要 f i g 1 1 1p a r t o f t h e b a s i c a b s t r a c t f o ra p a t e n t 基于w e b 的药物专利检索系统 刚- :心恐黔 弦,趣n k c _ s 一氐_ r 3 t h z 女4 - c = c - c = c - o s b ( c t m e t h y l ) t 3 t 2 】s d 邑:0 3 1 1 : r 6 3 = o i s ; r 3 = a l k y l ; r 4 = a l k o x y 1 - 3 ) 厂r h l os 8p r o p y l ; i f 只6 2 = p h e n y lt h e n t h e nr e s t r l c tr 3 = m e t h y la n dr 4 = m e o 图l _ 1 2 图1 1 1 中族性结构的g e n s a l 表达式 f i g , 1 。1 2 g e n s a l d e s c r i p t i o n o f t h e g e n e d e s t r u c t u r es h o w n i n f i g u r ei 1 l b e c t r 和i n t e r p r e t e r e c t r ( e x t e n d e d c o n n e c t i o n t a b l e r e p r e s e n t a t i o n ) ,是结构片断连接表和其它记录的 相互连接的一个复杂的网络,表达它们之阀的逻辑、位置和迭代关系。和g e n s a l 一样, e c t r 是一个完整的无歧义的族性结构表达式。g e n s a l 记录的族性结构表达式可以在 结构式输入的同时进行语法检查,也可以批处理进行检查,生成用族性基团名称和线性 分子表示的e c t r ,并且,所有用名称和线性分子式表示的族性基团都展开成部分连接表 的形式。不能用连接表存储的族性基团的名称利用一系列的结构参数存储在e c t r 之中, 这些参数具有适当的取值和范围。表1 2 列出了使用的族性基团的结构参数。额外的推荐 使用的结构参数见表1 3 。翻译器作为整个软件不可或缺的一个组成部分,类似于高级编 程语言的编译器,将外部表达式正确的翻译成e c t r ,此外,为提高效率,还设计了从英 文专利摘要中和专利全文中提取族性结构表达式的自动文本分析程序,显示了较高的自 然语言翻译水平1 3 ,3 8 1 。 3 基于w e b 的药物专利检索系统 表1 2 族性基团结构参数 t a b l e1 2s t r u c t u r a lp a r a m e t e r sf o rg e n e r i cr a d i c a lg r o u p s 表1 3 额外的族性基团结构参数 t a b l e1 3a d d i t i o n a ls t r u c t u r a lp a r a m e t e r sr e c o m m e n d e df o rg e n e r i cr a d i c a lg r o u p s c 族性结构匹配准则 对于确定结构,利用一定的算法可以生成唯一的线性字符串编码,结构匹配的过程 即为字符串比较的过程,简单高效。族性结构的匹配是在提问结构式和存储在数据库中 的族性结构之间进行的,提问结构式可以是确定结构,也可以是族性结构,由于族性结 构是确定结构的集合,两个族性结构的交集包含了共同的结构集合,这些都增加了族性 结构匹配的难度。 族性结构的匹配类型涉及以下一些情况: ( 1 ) 相同提问结构式和数据库中存储的结构完全匹配; ( 2 ) 严格包含提问结构式包含于数据库结构之中,但两个结构集合不相同: ( 3 ) 包含指以上两种情况: ( 4 ) 交叉提问结构式和数据库结构至少有一个公共结构,类似于两个集合的交集; ( 5 ) 共同指情况( 1 ) 、( 2 ) 和( 4 ) ; ( 6 ) 无关以上情况以外的其它情况。 d 衍生片断筛子和检索操作 为了排除检索到的无关的结构信息,在进行原予一原子级别的匹配之前需要进行过 滤,在过滤后的结构集合中再进行精确匹配,这一过程是通过设计的具有一定继承关系 的筛子来完成的。筛子在子结构和确定结构检索中早有应用【3 1 1 ,包括扩展原子( a u g m e n t a t o m ) ,原子序( a t o m s e q u e n c e ) ,键序( b o n d s e q u e n c e ) ,在c a s o n l i n e 中还运用了 9 基于w e b 的药物专利检索系统 特殊的原子片断类型,有关c a so n l i n e 的筛子参考本文1 2 3 节。扩展原子描述连接 在一个中心原子周围的原子和键的信息;原子序和键序描述长度为4 6 个碳原子的线性序 列,服从频率准则。片断需要反应出生成它们的环境,特别是它们来源于一个族性结构 的固有组成部分还是可变部分。根据片断在族性结构中的位置可分为内部片断( i n t e r p s f r a g m e n t s ) 和连接片断( i n t e r - p sf r a g m e n t s ) ,内部片断包含在一个结构或子结构中,连接 片断连接几个子结构。检索过程利用两部分记录使用这些片断,一部分记录表明结构中 固有片断( m u s t 筛子) ,一部分记录使用可选片断( m a y 筛予) 。利用下面介绍的 b u b b l e u 口能够正确对i n t r a p s 和i n t e r - p s 以及其它特性进行操作。 e 还原化学图 仅用结构片断作为筛子还不能使族性结构的检索变得可行,有必要设计功能更强大 的筛子,一种族性结构更抽象的表达方法一图,被用来作为具有一定继承关系的筛子 2 2 1 。将化学结构中的原予作为图的顶点,键作为图的边,原子的连接关系作为顶点和边 的连接度”2 1 。由化学结构式到图的抽象是建立在结构片断基础之上的。图1 1 3 所示为一 个族性结构及其还原图【l 舶。虚线表示当是h 原子取代时的情况。由于生成还原图时,节 点的选择随意性较大,其生成算法相应的比较复杂。 多x n i s l 2o r 3 : r l s h f “c i ; x b f c 1 b r o r a l k y l , 图l 。1 3 一个族性结构及其还原圈 f i g 1 1 3ag e n e r i cs t r u c t u r ea n d i t sr e d u c e dc h e m i c a lg r a p h f 冒泡算法 将族性结构作不同程度的抽象,即生成不同的还原图,可以用一个具有一定继承关系 的a n d o r 树来表示,如图1 1 4 所示。可以看出,冒泡算法根据这棵树从上到下层层进 行检索,实际上建立了检索过程中不同级别的筛子和匹配层次。 0 些于w e b 的药物专利检索系统 c x 1 ) o 0 2 幽i 1 4 冒泡流程图 f i g 1 1 4 b u b b l e - u p o f m o l e c u l a r f o r m u l a s g 。精确匹配原子一原子级别检索 当筛选过程完成后,需要进行原子级别的精确匹配,包括原子对原子,原子对参数, 参数对参数的对应检索,这一过程类似于确定结构的匹配。s h e f f i e l d 大学的研究方案采用 u l l m a n 算法,该算法作为子图匹配算法显示出较高的效率。可用的其它重要的全结构或子 结构匹配算法还有s e tr e d u c t i o n 算法即4 4 1 , b a c k - t r a c k i n g 算法,r e l a x a t i o n 算法1 4 5 】, g r a p h t h e o r e t i c 算法等【4 6 】,b a r n a r d 曾写过关于予结构匹配方法很好的综述【4 7 】。 一个族性结构检索系统能够提供的检索应包括以下三类:( 1 ) 提问结构式包含确定 结构,此时应该能够检索出包含有该确定结构的族性结构;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论