(无机化学专业论文)面向药物发现的组合化学衍生数据库系统的设计.pdf_第1页
(无机化学专业论文)面向药物发现的组合化学衍生数据库系统的设计.pdf_第2页
(无机化学专业论文)面向药物发现的组合化学衍生数据库系统的设计.pdf_第3页
(无机化学专业论文)面向药物发现的组合化学衍生数据库系统的设计.pdf_第4页
(无机化学专业论文)面向药物发现的组合化学衍生数据库系统的设计.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

(无机化学专业论文)面向药物发现的组合化学衍生数据库系统的设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 人类经避多年豹积累,从已知的蕊予多万争 化合物中牧集了大擞功能分子鲍 信惑,包括合成、结构、淫溪等等。如傅从这痤信崽大由中挖箍出裔瘸豹零露是 我 j 追馁霭要解决麴润题。薅落计冀飒敬硬传农网终技术酌不颧发展,我镌可以 构建一个西囱药物发现的缀合衍生数据库系统,从丽能够臻统一豹形式对现有化 学臻惑进行表达雾曩管理、够对已鸯数据避纾快速粒硷索、并戆运瘸组台化学匏 思戆对所套询到的数据进行缀合以生成一系列的分予用于虑拟筛选,从而加快掰 药发臻静多饯。 , 本论文枣要包括楣互密切关联豹两部分工作:一是开发了一套网于操 乍分子 拓矜缝稳的分子较 譬开发氢( n k m o ls d k ) :二是建立了一个黑予辅瓒翡物发 现豹组合化学分子锈生程痒。 分子软件开发稳逶论文静萋硝开发项妥,主要包括纯学对象模块、数据疼模 块、埝天稔出模块、专f 冀法模块取癍翅摸块。它戳强论为基硝,提供各鬟溺数 功能,翔:读写文传或数据痒中酌分子和反应数掇:操 乍鞭子、化学键、富能 嚣、分子、纯学爱瘫;谖捌分子蠡鼋纯攀结稳信息戳及对努予等进行壤盍霾嚣酝、组 台、据分等。剥用遮套工凝,可以对有机分予、有枫反应等进行有效的计算机处 理,双孺安瑷诸如分子识鄹、分子菠配、分子查询等功能,选能够摄摆用户璇的 要求对分子及结构拷断进行组合街生,形成数曩巨大黥分予籀羚缓构。 组合纯攀分子衍生程序通过对露户提交的磊椿纯会勃通式进行取代衍曩芝,爝 器耪不嚣熬取我摹罄羧遥焱中麴r 基霞,钛 嚣组合生戒数嚣巨大豹以曩撅亿合 物为核心的组合化学分子瘁。用户提交的嚣标纯台物不同,租应生成鲍瘁也= : i 冠。魏终,这个稳窍还与蠢辍纯学逶式反瘦数据痒耨连接,为嚣稼纯含物糖毛逵可 能豹台威反应参考。组台化学分子辑生程侉既可按桌面程序方式运行,瞧可按网 终鼹务程窿方式运行。 分子软件开发包和组合化学分子衍生程序主要采用c 语言开发,在网络界 面方面采用p h p 语言开发。 总的来说,本论文提供了一个用于新药发现的有利平台,为研究人员丌展工 作提供了方便,同时它也是我们以后工作的基础。 关键词:药物发现;组合化学;子结构匹配:数据库;化学信息学 i i a b s t r a c t c h e m i s t sh a v ek n o w nm o r et h a n2 0m i l l i o n sk i n d so fc o m p o u n d s b u tt h ea m o u n t o ft h e s ec o m p o u n d si st o ob i gt ob ee a s i l ye x p l o r e d f o r t u n a t e l y 。a l o n gw i t ht h e d e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y c h e m i c a li n f o m a t i c sd a t a b a s e sc a l lb eb u i l tt o s t o r ea n da d m i n i s t r a t ea l lt h i sk n o w l e d g e as o f t w a r ed e v e l o p m e n tk i tf s d k ) i sas e to fd a t as t r u c t u r e sa n df u n c t i o n sf o r e x p r e s s i n ga n dp r o c e s s i n gag r o u po fs p e c i f i co b j e c t s f o rt h ec h e m i c a lo b j e c t s s u c ha s a t o m s 。b o n d sa n dm o l e c u l e s e v e nr e a 娃i o n s o nt h eb a s i so ff o r m e rw o r k s ,fd e v e l o p e d n k m o ls d k u s i n gt h ecl a n g u a g e i ti st h eo n eo f t h em a i np a r t n k m o ls d ki s c o m p o s e do fs e v e a lm o d u l e s ,i n c l u d i n gc h e m i c a lo b j e c t h a n d l i n g b a s i ci n p u t a n do u t p u t d a t a b a s e i n t e r f a c e s p e c i a la l g o r i t h m s a n d c o m b i n a t o r i a ll i b r a r ys p e c i f i cm o d u l e , w i t hn k m o ls d k id e v e l o p e dac o m b i n a t o r i a l l i b r a r ys y s t e mw h i c hc a n e n u m e r a t eh u g ea m o u n to fs t r u c t u r e sf r o mag e n e r i c t e m p l a t e t h ee n u m e r a t i o n p r o c e d u r ei ss u p p o r t e db yaf o r m e r l yc o l l e c t e dd a t a b a s eo fo r g a n i cs y n t h e t i cr e a c t i o n s w h i c hm a k et h ee n u m e r a t i o nm o r ep r a c t i c a lf o rr e f e r e n c e t h es y s t e mc a nb eu s e da s e i t h e ra d e s k t o pa p p l i c a t i o no raw e ba p p l i c a t i o n t h ef o r m e r l yc o l l e c t e dd a t a b a s ei sr e o r g a n i z e df o rt h en e w p r o p o s e s u n d e rt h e r u l e so fm y s q l t h ei n f o r m a t i o ni t e m sf o re a c h s y n t h e t i cr e a c t i o na n di n v o l v e d r e a c t a n t sa n dp r o d u c t sa r es t o r e di nt a b l e sa n dt h i sg r e a t l ye n h a n c et h es p e e da n d a c c u r a c yo f s e a r c h i n ga n dm a t c h i n go f o r g a n i cs t r u c t u r e sa n dr e a c t i o n s t h i sc o m b i n a t o r i a ll i b r a r ys y s t e mp r o v i d e sau s e f u la n d p r a c t i c a lp l a t f o r mf o rd r u g d i s c o v e r ya n dw i l li m p r o v eo u rf u t u r es t u d y i i i k e yw o r d s :d r u gd i s c o v e r y ;c o m b i n a t i o n a ll i b r a r y ;s t r u c t u r em a t c h ;d a t a b a s e c h e m o i n f o t i n a t i t s 南开大学学位论文版权使用授权书 本入完全了解肖开大学关予收集、保存、使篇学位论文的规定, 屈意如下各项内容:按照学校要求提交学位论文麴印刷本翻电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段缳存论文;学校有权提供弱荥检索豁及提供 本学键论文全文或者部分的阋览服务;学校有权按有关规定向国家有 关郏f l 或者机构送交论文的复鄹传襄电子版 在不以赢剩必翻魄躲嚣 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:涨 伽哕年f 月叼圈 经指导教师同意,本学位论文属予保密,在年解密后适用 本授权书。 描导教师签名: 敞 学位论文作者签名: 解密时间:年月 酮 各密缀靛簸长像整年限及书写格式矮定黧下: j 内部5 年( 最长5 年,可少于5 年) 秘密l o 年( 最长l o 年,可少于l o 每) 机密 k 2 0 举( 最长2 0 年可少于2 0 年) ! + 。 “h 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名:弓办碉彪 炒s 年g - 月印日 第一章前言 一、现代药物发现的发展趋势 药物的研究是一个相当繁琐的过程。过去传统的药物研究是“试探一失败一 再试探”,完全是靠实验来随机筛选药物而没有非常具体理论的指导,带有较大 的盲目性。科学家梦想着能像设计建筑物那样来更理性地“设计”药物。经过2 0 世纪现代科学的发展,现在“设计”药物已经在向实用性方面成功地迈进。比如, 阿斯匹林能镇痛解热,是药物学家经过实验才发现的,但它为什么能镇痛解热, 个中的道理在相当长的时期内药物学家并不清楚。现在的药物设计,是科学家先 弄清道理,然后再去设计、创制出药物;过去人们仅知道得胃溃疡炎是胃酸分泌 过多所致。直到发现了组胺h 2 受体,科学家才知道如果能阻断h 2 受体,人就 不会过多分泌胃酸,于是寻找治疗胃溃疡炎药物的过程就成了寻找h 2 受体阻断 剂的过程,现在雷尼替丁、法莫替丁等药物全球的销售额已达几十亿美元之巨, 成为药物中的“重磅炸弹”。 近年来,随着科技水平的提高,药物的发现已经已经成为了一个综合了多个 学科的复杂的研究、探索过程,其主要步骤可以简要概括为从基因到蛋白质、从 蛋白质到先导化合物,再对先导化合物进行优化和评估这样一个循环往复、螺旋 式上升的模式【1 1 。新技术、一些新方法,如计算机技术、现代合成技术、生物技 术的不断应用和药物化学和分子生物学、遗传学、免疫学、酶学等学科的发展和 相互渗透,大大加快了新药研究开发的速度。一些新兴学科越来越多地渗入到新 药的发现和前期研究中。化学、物理学、结构生物学、计算机和信息科学等学科 与药物研究的交叉、渗透与结合日益加强,使得新药研究的面貌发生了重大变 化,出现了一些新的研究领域和具有重大潜力的新技术。 新药研究与创新正朝着以下六大方式转变:一、创制新颖的分子结构类型 n c e ”一一突破性新药研究开发:二、创制“m e - - t o o ”新药一一模仿性新药研 1 制开发;三、己知药物的进一步研究开发一一延伸性新药研究开发;四、应用现 代新药生物技术,开发新的生化药物;五、现有药物的药剂学研究开发一一发展 制剂新产品;六、应用现代新技术对老产品的生产工艺进行重大的技术革新和技 术改造。 二、计算机技术和药物设计的结合 2 0 世纪6 0 年代以来,计算机与化学结合形成了计算机化学【2 j 。经过近4 0 多 的年的发展,计算机化学几乎在化学的每一分支领域都获得了丰硕的成果,计算 机已成为化学研究的熏要工具之一。2 1 世纪是信息化的时代,而数据发掘是信 息时代必然的产物。伴随着信息爆炸的过程,如何充分而有效地利用信息成为数 据发掘所要解决的主要问题。在药物设计领域,已知的和未知的化合物构成了浩 瀚的化学空间。如何找到可靠的先导结构早已经是新药设计迫在眉睫的课题。相 比较而言组合化学扩大了探索的空间,构效关系在这个空间内建立了局部的模 型,而数据发掘则为利用局部模型在广阔空间进行探索提供了有效的手段。 药物发现研究的主要步骤包括从基因到蛋白质、从蛋白质到先导化合物、再 对先导化合物进行优化和评估。可以看出,在目前的社会经济条件下,每个步 骤、每个环节都离不丌计算机。药物发现在本质上是一个筛选一优化一评估,再筛 选。优化评估的循环,在这个过程中,分子模拟、组合化学、构效关系以及数据 发掘的研究是计算机大显身手的地方。即使如此,根据美国药物研究与生产 ( p a ) 的统计,目前超过8 9 的待选化合物由于不能满足各种理化指标而 被放弃而只有6 是由于市场方面的原因而没有成功。因此这方面仍然有巨大的 研究空间。 三、我国新药研究的进展 在当今发现新药的研究越来越困难的情况下,因为以上技术的应用,使世界 每年首次上市的新药仍然能够保持在4 0 5 0 个左右,其中日本占其中1 3 ,美国 2 占1 5 ,欧洲十国占1 3 。我国虽然在实施了诸如药品专利和行政保护等政策后, 重视与加强了创新药物的研制,但力度太小,投入太少,短期内难以见到成效, 9 0 年代上市药物仅有2 个,所占比重极低。 从新药开发方法上来说,今年我国密切注视国际上新药研究开发的新进展, 积极吸收先进的技术和方法。新药筛选已经从靠经验,靠机遇过渡为依靠新理论 为指导,并积极掌握了自动化试验技术。计算机辅助设计技术也得到了比较广的 应用,设计出了一批有丌发前景的新结构化合物。 四、研发内容和意义 鉴于在药物发现的过程中计算机技术的重要性,如分子模拟、组合化学、构 效关系以及数据挖掘等计算机技术都已在药物发现中扮演重要角色。本论文的工 作正是在计算机平台上开发药物发现的辅助工具,以c 语言为主要开发工具, 设计n k m o ls d k ,提供了几百个函数,能够实现一般化学软件开发所需要的 功能,如针对原子、化学键、分子结构以及反应的各种操作、分子及反应文件的 读写和与化学数据库的连接等,在它的基础上进行有关虚拟组合分子库的有关丌 发,能够让开发者把主要精力用在功能设计与完善方面,从而提高丌发效率和程 序质量。利用这套s d k ,本论文还建立了化学通式反应数据库和反应数据挖掘 技术方法,实现了虚拟化合物和反应的有选择的计算机组合,并能够输出统一的 格式,以便传递给专门的筛选程序进行下一步研究。 例如,当需要用酰胺作为组合衍生的核心模板时,可以以酰胺通式分子为搜 索目标调用程序在反应通式数据库中执行搜索,在默认搜索精度下可以得到1 1 5 个通式反应。 r 八n r , 图1i 酰胺通式分子 3 o r f “ f i g 1 1 g e n e r i ca m i da c i d 0 卜。o 一- - r 3 一 :凡6 丫。一1 卫。 r 人一q 儿: 。v 民丫0 。r 8 臆。 r o 0 r 3 4 r 2 7 9 图1 2 搜索结果示例 f i g1 2 e x a m p l eo f s e a r c hr e s u l t s 图1 2 中显示的是搜索部分的结果。考虑到1 1 5 个反应的数量偏多,有些结 果和期望相差甚远,可以提高搜索精度到完全匹配,这样得到了7 个通式反应, 如图l - 3 所示: a b c d r 2 r 2 r 2 r 2 o 凡一飞一 凡一一弋一 r 4 n h 2 i r 8 r 2 0 r r 2 0 o h n r 3 h n r 3 h n r 3 h n r d 6 = 。 = 2 2 e r f g 0o 图1 3 精确搜索结果示例 f i g 1 3e x a m p l eo f a c c u r a t es e a r c hr e s u l t s 精确搜索的7 个结果虽然都包含在粗略的11 5 个结果之内,但是通过改变选 项,使结果更满足需要,节省了用户审查的时间。 以上搜索的过程涉及了化学分子和反应的计算机表达,化学信息挖掘,化学 信息的数据存贮以及分子匹配等内容。 以搜索的结果作为基础,选择一个感兴趣的通式反应进行组合。 所谓组合衍生,是指从一个带有r 基团的分子骨架出发,通过对各个r 基 团位置进行各种各样的取代,从而得到所有可能的取代产物。本论文实现的系统 不仅能进行组合衍生操作,而且能够检索有机反应通式数据库,找出能够生成分 子骨架的适当反应,具有更强的实用性。 7 还是以酰胺分子为例,当r 1 和r 2 分别可能为4 种分子片断时,最少能衍 生出4 x 4 种具体的分子,如图14 所示。 r 1 c c i 毪 c 8 一陟八 o n 一 0 o “一从。 叫歹 叫从。 叫一从。 图1 4r 1 和r 2 取代反应物与组台产物 f i g 1 4r e a g e n t sf o rr 1 、r 2a n de n u m e r a t e dp r o d u c t s j 。八。 第二章计算机辅助药物发现 一、计算机辅助药物设计分类 计算机辅助药物设计方法包括三类: 基于配体的药物设计( 1 i g a n d b a s e dd r u gd e s i g n ) 这类方法根据已知的配体 结构设计新的配体,主要包括定量构效关系( q s a r ) 方法和药效团模型方法, 前者又分为2 d q s a r 和3 d - q s a r 方法。 基于受体的药物设计( r e c e p t o r b a s e dd r u gd e s i g n ) ,这类方法又称为基于 结构的药物设计,主要根据受体的三维结构设计能与之匹配的配体,包括基团生 长法( b u i d i n g ) 、模板连接法( 1 i n k i n g ) 以及分子对接法( d o c k i n g ) 。 基于机制的药物设计( m e c h a n i s m b a s e dd r u gd e s i g n ) ,这类方法在基于结 构的药物设计基础之上,进一步考虑了药物与受体的动态结合过程,药物对受体 构象的调节以及药物在体内的传输、分布和代谢。随着新世纪生命科学、计算机 科学的发展,这种考虑药物作用的不同机理和全部过程的药物设计方法,将会更 加完善,在新药的发现中发挥更大的作用。 计算机辅助药物设计的另一种重要策略和方法是虚拟药物筛选( i ns i l i c o s c r e e n i n g ) 。它是指利用各种计算方法对化合物数据库进行“筛选”,从而大大 减少工作量与成本,加快新药发现步伐。 二、构效关系 构效关系( s t r u c t u r e a c t i v i t yr e l a t i o n s h i p ) 是进行药物发现研究的另一个重要 领域,并且有着相当长的历史,可以说1 8 世纪7 0 年代元素周期律的发现其实就 体现了构效关系的思想。在这个朴素思想的指导下,化学家、生物学家不断发现 新的规律,建立新的算法和模型。构效关系预测化合物性质对于药物发现是必不 可少的而且贯穿整个过程,不论是筛选、优化还是评估,都需要。构效关系研究 1 0 静核心是建立霹靠麴模鍪。觚早期豹麓荤线戆搂鍪翻纛寒酸多元线性模登,又副 多嚣# 线瞧模型,大蹙地应髑了统诗擎成鬃以及人工餐能技术。 三、缀合化学 鲑然我们已经鬻挺了如上一些徽要手段,僵是据美国药物研究与生产缝织 ( p h r m a ) 豹统计,嚣藏翘避8 9 靛德遮纯台凌囊予不骚满是务静遴纯掺搽两 被放弃,只商6 最出于市场方面的原因丽没有能够成功f 矾。可以露出这方蕊仍 然裔嚣大赘磷囊窒瘸,困纛,我 j 农药兹发毽过程中菠该采爝曼广翁方法寒获餐 更多的化含物寒搜暴釉优化毙导化会物,以提高其璁优指标灏生物涵性。 缀合他举( c o m b i n a t o r i a lc h e m i s t r y ) 逶产生大蘩纯台物的浃遮、高散掰按 零。掰谓组念纯学,是摇以梅 孛摹元( b u i l d i n gb l o c k ) 豹缀合、连接为特疆,平 行、系统、藏复地合成大蠢化学实体形成缀合化学瘁( c o m b i n a t o r i a ll i b r a r y ) 熊 会残援寒。缀合纯攀起源予蕊羧台藏,缝露发漫劐蠢稳,l 、分予台成、分子秘造分 折和分子识别研究簿领域 4 1 。它利用系列合成、测试技术,在短融闽内合成数 蠢凌大翡骞辍纯台貔,霉经j 建塞效擞物矮瞧戆选,驭审发瑷一凝其褒活牲斡楚秘 翦体锄。遮技术矮早可遗溯至2 0 世纪鳓年代的髓固拥舍成技术,到了2 0 整缀鼢年代中期啜麓,这技术j 跫速发袋,不谈霹潮多耱鬻穗合戏按术形成缝 台纯学痒,氇霹强液耀台或技零形藏缀合麾。从缀会瘁静内豢物寒蘑,不仅霄了 敢霹、簌衍生库、援获库、藏在然臁库、菲默骞聚( o l i g o m e r ) 痒,鲡核膝、寡 瓣、豢耱露等,遣滋魏了商枫,l 、分予偬学缀会痒,翻1 9 9 6 年已有1 0 0 多辩夺分 子库的合成。 四、计算桃碰拙组合 主覆撬翔钓缓念纯学霰簧实舔妻| 曼筏予万中纯台貔,毽实舔上这黧溪奏 多酃不 是我们嚣要舱,嚣褥在一定程度上避戏的对瓣阉、惫钱等的浪费。如果麓够利用 计算穰技术纛撅遥完成这个任务,生成我们所需要静所有“震撅分子”,僚我销 i 进一步的筛选、优化等处理,将会更加灵活和节省资源。当然,后续的筛选、优 化步骤也可以建立在计算机虚拟的基础上。需要注意的是这样组合出来的化合物 分子库并不是由随机分子结构构成,而是需要经过精心发计。一般根抛使用目的 的不同,有三类设计【7 1 。第一类是勘探式或期望式设计,目的式尽可能收集各具 差异的化合物,以便从中筛选可能的目标n 第二类是聚焦式或目标设计,围绕 感兴趣的特定分子结构进行适当地衍生,再配合分子模拟等手段进行评估【9 】。第 三类是对己知的先导化合物进行结构优化,以期达到更好的理化和生化性能 iz o , n 。本论文提供的程序实现的虚拟化合物分子库提供了预期的这种设计的手 段。 在具体的实现过程中,一般从用户选择或者提供一个基本的分子骨架出发, 通过对这个骨架的若干特定位置进行各种各样的取代,从而得到所有可能的取代 产物。而且,用户可以通过限定取代基团的类型等方式对先导化合物进行一定的 优化,这样实际得到的具体分子将大大减少,从而更减少了后续筛选的时间。程 序提供了多种选项,可以对用户的不同目的进行区分处理。本文所实现的应用不 光能对单的分子进行组合处理,还可以对用户感兴趣的反应通式进行相同的组合 处理,同样的,反应同时可以通过我们提供的反应通式数据库所搜获得,也可以 用户自己提供。 五、化学信息学 如今应用计算机解决化学问题已经取得了长足的进步,化学结构计算机处理 中的理论和绝大部分技术问题己基本得到解决。例如具体到药物发现【”1 ,计算 机早已经成为不可缺少的手段。研究开发新药应用最广泛的组合化学与高通 量筛选,涉及大量生物学和化学数据的产生与使用,必须有良好的信息管理 系统,借助计算机信息技术,对这些大量的数据进行管理分析,才能获得最佳的 效果。由于新技术、新方法的广泛应用,信息技术已不仅仅在筛选阶段作为数据 分析的手段,而是贯穿于整个研究开发过程的各个环节。 1 2 牛顿曾说过:“我们总是要站在巨人的肩膀上”。从信息学的角度看信息交 流技术的发展历程,特别是在科学研究历史上的地位和作用,可以毫不夸张地 说,科学史就是信息史,科学研究的进步与信息交流的进步是同步的。每当信息 交流技术有突破性进展,科学研究就会随之进入一个新的发展阶段。随着计算机 化学的不断发展和化学信息网络化的不断进展,一个崭新的化学分支学科一化 学信息学( c h e m o i n f o r m a t i c s ) 应运而生【”】。化学信息学是近几年发展起来的一 个新的化学分支,它利用计算机技术和计算机网络技术,对化学信息进行表示、 管理、分析、模拟和传播,以实现化学信息的提取、转化与共享,揭示化学信息 的实质与内在联系,促进化学学科的知识创新。化学信息学正在设法提供一个以 用化学结构为框架的通用化学语言,来组织化学领域的全部知识。 化学信息学的研究内容主要包括: ( 1 ) 利用计算机技术和计算机网络技术对化学信息进行表示和计算机管 理: ( 2 ) 利用计算机技术对复杂的化学信息进行解析,以快捷方便的方式最大 限度地提取和利用有用信息; ( 3 ) 利用计算机对化学信息和化学体系进行模拟、收集、传播和共享化学 信息。 为了能够尽可能多的给用户提供方便,本系统重建了一个有机合成通式反应 数据库,与前面所介绍的组合程序一起,构成了一个有机的整体,数据库如同 “巨人的肩膀”,而组合程序则建立在这个宽大的肩膀之上。 六、信息管理系统 在化学研究领域,计算机的应用有很长的历史。但是早期大多是专项的封闭 的,一个服务器若干终端构造了一个小环境。i n t e m e t 的建立打破了这种状态。 2 0 世纪9 0 年代以来,各种化学应用软件越来越多,通用性也越来越强,而“访 问网站提交任务获取结果,但并不关心任务究竟在哪台服务器上运行”已经成 1 3 为软件的最新工作模式,也是用户的最迫切要求。我们的工作e 是建立在这种模 式之上。 如当今研究丌发新药应用最广泛的组合化学与高通量筛选,涉及大量生物学 和化学数据的产生与使用,必需有良好的信息管理系统,借助计算机信息技术, 对这些大量的数据进行管理分析,才能获得最佳的效果。由于新技术、新方法的 广泛应用,信息技术已不仅仅在筛选阶段作为数据分析的手段,而是贯穿于整个 研究开发过程的各个环节。 为此,本系统构建了一个基于m y s q l 、面向有机合成、药物发现的组合化 学衍生数据库系统对所有信息进行存贮管理,并通过n k m o ls d k 来对化学信 息进行解析,实现了统一的接口以把程序产生的结果传送给专门的化学信息和化 学体系模拟工作,而且以w w w 网络服务的方式为用户提供运行界面。 七、本系统的框架 本论文的工作构建了面向药物设计的一个综合平台,实现了一套面向药物发 现的组合衍生数据库系统,系统具有一定的可用性,可扩展性,并且易于维护和 管理。具体地,主要由数据库、n k m o ls d k 和w w w 服务三部分所组成,图 2 1 为它们之间的关系图示。从图中可以看出,三者互有关联,w w w 服务和 s d k 都可读写数据库内容,w w w 服务也可以调用s d k 程序,s d k 程序执行 的结果通过数据库间接反馈给w w w 服务。 1 4 图2 1 系统框絮 f i g 2 1s y s t e mf r a m e w o r k 八、尚存的难点 如今痤薄谤算撬勰决亿学阉题较之良藏已经取缮了长足豹避步,纯学缝稳诗 算机处理中的理论和绝大部分技术问题已基本得到解决。然而,这些方法还是有 局限後静,难淤应餍予诸如旅经结构鲶瑾、结梅- 活毪糟关鹃酝动纯磷究稻爱应 机理研究等方面。即使对确定结构处理中的问题,现有的解决方案仍不为所有化 学家所接受。因此,确定结构的计算机处理仍脊一些难题,如无视化食物、余腾 有机化合物、亘变异搦的化学络构等,霈要傲爨深入的研究。同时,成当看到这 些问鼷又是计算机化学中诸多领域的蕊础,它们的完全解决将有利于计算机化学 熬发震。 1 5 国土 - 萄 第三章组合衍生数据库的设计与实现 一、数据库存储和管理系统的选择 逶常天翻掰露的诧擎数l 蒋痒,褥剃是分子结擒数据库,般都使精专f 1 为诧 开发的专业数据库软件,如m d l 公司的i s i s b a s e ,i s i s h o s t 等。这样的商用 专用数据库不僵昂贵,而且存在一个致命的缺陷难良与麓他数掘库和程序整 合。在实际研究工t # 中,研发人员往往需要谯程序或者网页中对其进行搜索、显 示,或者需髅将其他领域的数据库与化学数据库整含起来使用。而凰随着研究工 终豹深入开疑,需要往数搀媾中如入更多静镲息,蠢薅嫉还簿要从数据库中糖取 特定信息组含,以进行下一步工作,而传统的专用化学数据库软件维护性、扩展 牲、荔溺淫懿畜瑟欠缺。瓶叛,镬麓专盟诧攀数据露较俘,将绘繇发工穆逡成决 策信息慢,信息流动不畅,甚至信息偏差等严重制约研发工作的有效、准确、可 顸鬣和决策浚速性t 这些弱点使我们的数据窿选择了免费酶荚系警m y s q l 数据 库系统。 s q l 是寤位于加利福利旺s a nj o s e 的i b m 实验室于2 0 世纪7 0 年代后期开 发出寒的,其初始食义是缀构化套询语言( s t r u c t u r e dq u e r yl a n g u a g e ) ,势且 s q l 本身常常具有“结果”的含义。它最初是为i b m 的d b 2 产品设计的,d b 2 是一耱关系数据臻警理系统( r e l a t i o n a ld m a b a s em a n a g e m e n ts y s t 。m , r d b m s ) ,现在仍能买到各种d b 2 产品。实际上,不同于c o b o l 和c 等闹时 瓣密蕊数过赣亿语富( 或稼第3 代谣言,3 g l ) ,s q l 是一种菲过稷亿的语富, 它使得建立关系数据库成为可能。r d b m s 和d b m s 得重要区别在于,r d b m s 提供了一稀掰向集合得数据庠语言。对于大多数的r d b m s ,这种面向集合的数 据库语言就怒s q l ,“面向集合”最指s q l 语言同时处理姐数据。 关系型数据库之所以在以前没有得到广泛的应用,是因为之前还没有非常有 效霭曼经浃实用豹、以关系数蕹痒模型表达化学缝稳豹方法, 亟没鸯关系模爱麴 1 6 数据露硷素方法。虽然m d l 、t r i p o s 、a c c e l r y s 等主要化学信息学公镯先嚣搀如 了基于甲骨文数据库管理系统的化学结构存储与管理系统,假该类系统价格昂 责,稔索效率鬣,鞋茭实王冕方法是对羚保密熬。因,长袈良来,对纯学蘩橡数 据的存储和检索都没有使用通用数据库管理系统。目1 j 而言,许多除了化学结构 的萁德化学信息数据瘁陆续建立,如暴能实现优学结确信息的通蕉鼗稻库存储, 其好处是不言而喻的。 二、化学结构桩计算机中的存储 本系统所实现数据库所存储的主嚣内容是化学分子和反应的结构信息,我们 嚣貉鹣弱题喜嚣令: 、为了能够零予毒专篓捉楚毽分孑结梭,接褥它襞易予转 化、盟示为化学家所习惯的分子图形,由能够方便迅速地进行比较、查询等运 算,妊须选择与分子结构有蓠一对藏关系酶表遮方式。2 、麴何加入适量的硷 索信息以加快化学结构的检索速度。 化学结构一般有两个层次的含义:一个建指分子的几何结构( g e o m e t r i c s t r u c t u r e ) ,另一个是指其拓扑结构( t o p o l o g i cs t r u c t u r e ) 。分子的几何结构 般可以通过直角坐标、晶体坐标和分子内坐标来表示。而拓扑结构表示的是分子 内蒙予之闫懿遴过倦学键建立瓣连接关系,这方嚣豹磺究对予爝诗冀援进行滋圈 解析、建造构效关系、设计合成路线和功能分子等,都是非常踅要的。 纯学结麴篷患( 接挣结拳毒) 在诗算祝螽麓的存麓霸表达方法青好尼耱,绽鞍 有代表性的有:碎片码( 如w l n 1 6 】) 、线性码( 如s i m p l i f i e dm o l e c u l a ri n p u t l i n ee n t r ys e p c i f i c a t i o n ,s m i l e s 盼1 辫) 、连搂表( 如m d l 维出的m o l ) 、邻 接矩障、b e 矩阵、关系矩降 1 9 1 、予结构集会寝示、数学表示式 2 0 】等等。最常用 的是线性表示法和图论表示法。还有一些特殊的表示方法,如b e 矩阵,也得到 了甥巍豹重视。 本系统在数据库和文件中的存储采用的连接表滋。具体应用到了m o l 、 黏瀑、s d 等文释穑式,溺时氇提供s m i l e s 格式洪溺户下载测菱;农语言程 17 序中,巍把化学结构读入内存以对之进行揉作时。程序采用链表的方式淡达分子 结构。特别提出的是,为了采用u l l m a n n 分子噬配算法,应用了矩阵表示法,将 结撼转他必抽象黪数学援型。 三、分子结构的发达 线性表示法的编码使用特定的语法结构对分子中的原予、键、支链、环、手 幢等避行表示。它的存储空闯小,库存取速艘浃。一些线瞧串螽w l n 弘“, s m i l e s t 2 2 1 ,s l n l 2 3 1 等得到了广泛的运用,主要是因为许多大公司( 如a l d r i c h , d o wc h e m i c a l ,i s i s 等) 的数据库中的分子聚用这类编码方式。还有其它一 些比较藏鼹的线性编码法,如以i u p a c 念名法为基础的线性编码法1 2 5 , 2 6 , 2 7 1 。 表3 1s m i l e s 编码示例 t a b l e3 1 e x a m p l eo f s m i l e se n c o d i n g 分子结构s m i l e s 表示分子名 。 c e 卢o ) o a c e t i ca c i d 八。h o c c c c c e l c y c l o l a e x a n e 0 c l c c c c c lb e n z e n e 1 8 0 c l c c c c c l 【n + 】( 一0 ) 【0 一 n i t r o b e n z e n e l 9 弋口 h c ,c = c ( 2 t r a l a s 2 - - b u t e r i e = = c c c c ( = o ) r :2 1 j m e 2 0 0 20 5 w e d m wt t1 5 :2 3 0 2 g m t + 0 8 :0 0 2 0 0 5 6 6 o ,9 2 8 4 00 0 0 00 0 0 0 00 o 0 0 0 021 8 8 40 0 0 0 0 r 3 ,射9 4l 。4 5 8 90 0 0 0 0c 3 1 1 6 73 0 1 7 3 00 0 0 0c 0 ,9 9 4 71 1 6 0 5 0 0 0 0 0c 2 0 5 5 7 22 2 1 5 0 0 0 0 0c l520 25l0 34l0 3 6l0 46l0 5 6 10 me n d 藏中r ) ( n 文侔l 采霜“mg r p ”的方式稀注,站黼文捧2 采用j m e 静童接 标注。 五、分子、反成通式以及分子片断的袭达 濑式结构( g e n e r i cs t r u c t u r e ) 的概念主蔡来源于化学实践。例如,依据有机 证会貔弱维擒穗短对冀遴牙戆分类,蠢两个碳艨子双键稳连载稼“爝”,毒三键糖 连的称“炔”,有羟基称“醇”,有羰基称“醛”或“酮”,如此等等。有机化台物的系 统命名其实藏蹙这种獠念静爨藏接应稽。在纯学信怠擎疆究中,经零遴翻弼傍角 通式来表示一组化合物结构,如何确认一个分子是否属于某个通式所袋示的结构 2 4 集合,蟊 莓我密一筑亿台物豹 最大) 荚羼都努,錾彝确试一个分子中含煮菜季孛 结稼等。 般豹,逶式结秘司强分为礁定罄分季援德定都分。蘧誊瓣缀予筏袋鞠键连关 系是明骥静,瑟瑟蠢懿结稳是霹交静。通式结构中确定懿分完全可以蠲我赛翦錾 捷嚣豹编筠方式来表示,瑟交部努翔豢零戮趸l 、r 2 等寒表示,称作r 基塑 ( r - g r o u p s ) 。姨鬣念上紊滋,努予结构中兹任一部分都可懿穆褥子结稳( s u b s t r u c t u r e ) ,嚣瑟,个逶式缝褪裁是毒其结韦奄馥确豹子结穆秘上若予令结秘德 定豹r 基霞共阕孝窀戏豹。由子分予结褐是分子辐蛰缝搀,嚣照可敬采雳绞惶编 褥羁连接表等表示方法,霉经过季广震,鸯器上表这r 基团静功麓,戴哥| 薹表达逶 式熬舞接结构。 圈3 3 氨基馥 f i g 。3 3 a m i n oa c i d 镶翔,鹜3 夔氮基黢逶式续麴:璃s 殛 l 懿可以嫠攀熬表示隽 瑟q e ( c 圈) = 回( 【蠲) n ( 【 】) f 鞠,嚣爱m o l 文 睾穆式鲻魏_ f 表示; n 【弼) c ) 0 糯2 0 0 2 ,0 5 w e d m a yi l1 5 :2 5 :3 5 g m t + 0 8 曙0 2 0 0 5 v 2 0 0 0 0 n 0 ,0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 r 0 0 0 0 0 c 0 0 0 e 0 0 8 ;0 0 母o g 0 0 0 0 0 擎9 0 ;o 0 4 罾; 2 0 0 3 0 2 0 0 0辩雒强强骝;2, 9 ,8 7 器05 蓐冉4 6 5 s 0 2 0 l l l 6 ;2 3 4610 56l0 me n d 将一令分子遴行掇羚分勰,会缛到缝戏该分子熬套个愿予粒连接这些蹶予的 化学键。相反的过程则可以将这些原子和化学键组合成分子的异构体 ( i s o m e r ) 。餐楚一段来说我们没有登娶季薹分子镣瘾辑分戒荤个懿乐予帮诞,警 只是进行一定程度的,按照结构性质拆分时,我们可以得到有些含有功能的予 结构,这种子鳍构可默称为分子片断。本系统鬃现的缝合即是撒这些遗定的分予 片断与通式分子护着遇式反应避行组合,从丽生成很多其体的分子,以进行下一 步筛选工作。 分子片叛般都有个或爨多个连接点,靼有键只在一鲻霄甄子,另一端没 有,当对它们j 歉行组合时这个键将会替换通式分子中的r ,连接至通式分子上。 落嚣,它翻在计算辊中翡表达甓要一骜特殊兹撂谈,本系统采墩将此交点缓想梵 r 的方法来指定。 六、优化数据库性能以提高挖掘效率 硪如前面讲过的,化学结构信息难子表达。当研究人员需疆含有几种特殊基 团的分子对,囊接搜索数据瘁中存储麴所有缕构并进行匹配攮捧是最童观的方 法,但是结构躐配的复杂度随分予中原子的数髓以幂的方式增长,原予间最大匹 酝次数爵 三l 这捌m ! 矬! ( m 、n 分别是查谗分子翻甄嚣嚣禄分子爨含原予个 数) ,而我们的分子库中含有万余通式分子。为了提升系统的服务质墩,更快的 把正确豹结采发馈给嗣户,需瑟对数摄霹俸逶囊静饶纯。 针对本系统,提高性能主疆有两类方法。 第一类是捂充分应用数据库管理系统提供的功能增加索 l 、优化数据顺 序、优化s q l 语句等。各种数据库管理系统( d b m s ) 都非常重视鸯询优化。 一般来说,都采用了索g f 、聚熊、连接、半连接等技术来提高系统的煮询效率, 逶过对影嫡数攮瘴s q l 套谗溪匀效率嚣素商d b m s 俊亿器优纯策略瓣分摄,提 2 6 如了避受使用不兼容数握类型、连接豢询中应当多给造接条件提供冗余搜索参 数、使用平均密度来估计命中记录数避免w h e r e 予旬中的条件参数使用其它数 学操掺黪、避兔使爱净竣等掇 睾耱、避免便臻n o te x i s t s 窝n o ti n 等 s q l 查询语句的基本优化方法。 第= 类囊怒将复杂数据滏行进一步耋妻取,撬炼复杂数据能矮淫,将之分解袋 简单的易于搜索的数学寝达,使程序可以预先排除不可能的结构,有针对地进行 匹配。黼为本瘁中的数糖库结丰哿简单,僵是数摇本身所含信惠丰富,因黼我们糖 主要工作放在了第二种方法上。当然,随着应用的深入,也将考虑加入适量的索 引。 数据库主要出g e n e r a l m o l e c u l e 、g e n e r a l r e a c t i o n 、u s e r m o l e c u l e 、 u s e r r e a c t i o n 、u s e r 、j o b 、u s e r g r o u p 等几张表构成,各表字段如下。 3 6 1 分子表 分子表恕数攥痒中掰毒通式爱应懿菠应兹秘产秘提蕉毫寒衣贮残一聚单独黟 表,这样每个分子都能与通式反应表( g e n e r a l r e a c t i o n ) 中的个记录对应,而 逶式反成表的一个记录可以对旋分子衰滟多项谶录。当嗣户怒通过一个分子套鞠 通式反应时,可以首先查询分予表,并且可以选择是反应物还怒产物,然后通过 它们之间的对成关系褥到相应的通式反应i d 譬。这样做的好处同样加快了查询 了速度,这是黢为,酋先,奶浆直接查询通式发应表,不可避免 ;l 要摄取所有嬲 反应信息,然届转化为单个的分子进行一步步甄配:第二,分予表如前所述可以 增鸯耍一藏预薅滚字段,嚣毽力一令反残哥娃鸯多个分予缝或,掰戮这璧字段是不 可能放在通式反应表中的;第三,有些应用只是希搬得到一些含有朱知基瞬 麓交互。镪括参数、反 馈的结果等等。 袭3 6 任务表 t a b l e3 6t a s kl a b l e 字数名称 p r o g r e s s _ l d u s e r i dp ) t a r g e t 大d , ( b y t e ) 3 0 3 02 02 5 5 数撼类鳖i n ti n tl r , tv 群c h a t 备注每个进程n 惟一标识用户进程呼目标文件路衽 字段名称 o b j e c t ur i rd a l e t i m e p r o g r e s z p c r c e n t 夫,l 、镡娴 2 5 51 0 数据搬型 e n u mv a r c h a r d a t e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论