(分析化学专业论文)拓扑指数计算系统及其应用.pdf_第1页
(分析化学专业论文)拓扑指数计算系统及其应用.pdf_第2页
(分析化学专业论文)拓扑指数计算系统及其应用.pdf_第3页
(分析化学专业论文)拓扑指数计算系统及其应用.pdf_第4页
(分析化学专业论文)拓扑指数计算系统及其应用.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(分析化学专业论文)拓扑指数计算系统及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在定量结构一性质活性相关( q s p r q s a r ) 研究中,分子结构的 数值化和建立良好预测的数学模型是两个重要的问题。分子结构 ( 2 d 3 d ) 数值化从不同的角度衍生了不同的分子结构表征描述子如 量子化学参数、电子参数、几何参数、拓扑指数,其中拓扑指数是计 算简便、适用范围较广的常用方法。迄今已有上百种拓扑指数被提出 并用于关联化合物的物化性质和生物活性。建立良好的预测数学模型 是进行q s a r q s p r 的最终目标,因而在模型中选择合适的变量和选择 合适的建模方法是重要的。 本文的主要内容和研究成果如下: 1 将分子的三维结构( 以s d f 、m o l 等文件存储) ,转化为二维 分子存储h q n 编码,以此计算了分子连接性指数、k a p p a 形状指数、 电拓扑状态指数和分子电性距离矢量4 类拓扑指数,并且基于此编写 了相应的拓扑指数计算系统t o p o 1 。 2 提出了芳香性原子的识别算法,该算法减少了以往算法的盲 目性,使算法程序在运算速度和识别能力上有较大提高。该算法用于 了拓扑指数计算系统t o p o 1 。 3 运用遗传算法、偏最小二乘和向后逐步回归变量选择方法, 从1 2 7 个拓扑变量中选择7 个建立了良好的拓扑指数与气相色谱保留 指数的相关关系模型:平方相关系数r 2 = 0 9 9 9 9 8 ,标准偏差s = 2 8 8 ; l 0 0 ( 1 e a v e o n e - o u t ) 平方相关系数r 。芦o 9 9 9 9 7 ,标准偏差s 。,= 2 9 5 , 并对这些拓扑变量进行了合理的结构解释。 4 使用了正交块变量的方法以及典型相关分析来对1 0 8 个结构 多样化的药物分子在脑血中的分配系数与拓扑指数关系进行了研究, 建立了良好的预测模型:相关系数( r ) 为0 9 9 3 ,标准偏差( s ) 为 0 0 9 4 6 ;交互验证相关系数为0 9 9 2 ,交互验证标准偏差为0 0 9 9 9 。 关键词:拓扑指数计算系统,芳香性识别,色谱保留指数,脑血分配 系数 a b s t r a c t i ti sk e yp r o b l e mt h a th o wt oc o n v e r tn u m e r i c a lv a l u ef r o mm o l e c u l a r s t r u c t u r e ( 2 d 3 d ) a n dt h a th o wt ob u i l dg o o dm o d e li nq u a n t i t i v e s t r u c t u r e - p r o p e r t y a c t i v i t yr e l a t i o n s h i p ( q s p r q s a r ) s t u d y e a c h m o l e c u l a rs t r u c t u r ec a nb er e p r e s e n t e dt h r o u g hd i f f e r e n t a p p r o a c hs u c ha s t o p o l o g i c a li n d e x ,e l e c t r o n i cp a r a m e t e r , g e o m e t r i cp a r a m e t e ra n d q u a n t u mc h e m i s t r yp a r a m e t e r , b u tt o p o l o g i c a li n d e xd u et oi t ss i m p l e c a l c u l a t i o ni sw i d e l yu s e di nq s p r q s a i ls of a r , m u c hm o r et h a no n e h u n d r e dt o p o l o g i c a li n d i c e sh a v eb e e np r o p o s e da n du s e dt oc o r r e l a t e w i t ht h ep r o p e r t i e so ra c t i v i t i e so fc o m p o u n d s 1 h ef i n a l p u r p o s eo f m o d e li sa b l et op r e d i c tt h e p r o p e r t y a c t i v i t yo f t e s t i n gc o m p o u n d s ,s ot h e m e t h o d so fv i a b l es e l e c t i o na n db u i l d i n gm o d e la r ei m p o r t a n ti np r o c e s s o f b u i l d i n gm o d e l t h em a i nc o n t e n t sa n ds o m ec o n c l u s i o n sa r ea sf o l l o w s : 1 i nt h i sp a p e r , m o l e c u l a r3 ds t r u c t u r ef i l e sw h i c hw e r es a v e di n c o m p u t e r a r ec o n v e r t e dt o h q n - c o d e t h ec a l c u l a t i o ns y s t e mo f t o p o l o g i c a li n d e x , t o p o 1 ,i sp r o g r a m m e d , w h i c hc a nc a l c u l a t es o m e i m p o r t a n tt o p o l o g i c a l i n d i c e ss u c ha sm o l e c u l a rc o n n e c t i v e i n d e x , e l e c t r o t o p o l o g i c a l s t a t e i n d e x , k a p p as h a p e i n d e xa n dm o l e c u l a r e l e c t r o n e g a t i v i t y - d i s t a n c ev e c t o r , a n dc a na l s oc a r r ys o m es t a t i s t i c a l a n a l y s i s 2 a na l g o r i t h mi sp r o p o s e dt od e t e c tt h e a r o m a t i c i t yo fm o l e c u l a r s t r u c t u r e sb a s e do nh q nc o n n e c t i o nm a t r i xa c q u i r e db yh q n - c o d e t h e b l i n d n e s so ft h en e wa l g o r i t h mi sr e d u c e d t ot h em o s te x t e n t e x a m p l e s s h o wt h a tt h ec o m p u t e rp r o g r a mc a ni d e n t i f yt h ea r o m a t i cs t r u c t u r e ,a n d t h er e s u l to fi d e n t i f i c a t i o na r ec o n c i s ea n de f f e c t i v e t h ea l g o r i t h mh a s b e e ni m p l e m e n t e di ns o f t w a r et o p o 1 3 g a p l si sav a r i a b l es e l e c t i o nm e t h o dc o m b i n i n gw i t hg e n e t i c a l g o r i t h m s ( g a ) ,b a c ks t e p w i s ea n dp a r t i a ll e a s ts q u a r e s ( p l s ) ,w h i c hi s i n t r o d u c e di nt h ev a r i a b l es e l e c t i o no f q u a n t i t a t i v es t r u c t u r eg cr e t e n t i o n i n d e xr e l a t i o n s h i p s e v e n t o p o l o g i c a l i n d i c e sa r es e l e c t e df r o m1 2 7 i i , t o p o l o g i c a li n d i c e sb yg a p l s t ob u i l dq s r rm o d e l t h el e a v e - o n e - o u t c r o s s - v a l i d a t i o ni n d i c a t e st h eb u i l tm o d e l i sr e l i a b l ea n ds t a b l e 弧es e v e l l v a r i a b l e sa r ea l s oi n t e r p r e t e ds t r u c t u r a l l y 4 t h em o d e lo f t h eb r a i n - b l o o dd i s t r i b u t i o no f al a r g ea n dd i v e r s es e t o fo r g a n i c d r u gm o l e c u l e s ,u s i n gt h em e t h o d o fo r t h o g o n a l b l o c k v a r i a b l e sa n dc a n o n i c a lc o r r e l a t i o nb a s e do nt o p o l o g i c a ld e s c r i p t o r s ,i s m u c hb e t t e rt h a nb e f o r e t h i sm o d e l ,w i t hc o r r e l a t i o nc o e f f i c i e n t0 9 9 2 7 a n ds t a n d a r dd e v i a t i o no 0 9 4 6 ,h a sn o to n l yag o o df i t t i n gf e a t u r eb u ta l s o av e r yg o o dp r e d i c t i o na b i l i t y , w i t hc o r r e l a t i o nc o e f f i c i e n to fp r e d i c t i o n s 0 9 9 2a n ds t a n d a r dd e v i a t i o no fp r e d i c t i o n s0 0 9 9 9 ,r e s p e c t i v e l y , t h r o u g h l e a v e o n e - o u tc r o s sv a l i d a t i o na n a l y s i s i tm i g h tb eo fg e n e r a lu t i l i t yi n p r e d i c t i n gp a r t i t i o nc o e f f i c i e n tf o r av e r yw i d e r a n g eo f n e wd r u g s k e yw o r dc a l c u l a t i o ns y s t e mo f t o p o l o g i c a li n d e x ,a r o m a t i c i t y ,g c r e t e n t i o ni n d e x ,b r a i n - b l o o dd i s t r i b u t i o nc o e f f i c i e n t i 硕士学位论文 第一章绪论 1 1 引言 第一章绪论 分子结构表征( m o l e c u l a rs t r u c t u r a lc h a r a c t e r i z a t i o n ,简称m s c ) 是当代 药物分子设计、药效评价和分子结构与性能中不可缺少的重要技术。m s c 是计算 化学、量子化学等多个学科中诞生的一个年轻的课题,随科学的发展与技术的进 步而不断更新完善。由于新分子的不断发现与创造,特别是组合化学n 1 的出现, 使得成千上万个分子在短时间内的合成成为可能。然而分子结构的实验技术进展 缓慢、每一个分子测定其各种物理化学性质和生物活性由于物理实验技术发展的 限制,难以跟上新分子爆炸式增长的速度,事实上,如采用传统的逐个分离提纯 后再测定它们的结构和理化性质的方法是很难满足现代药物高通量筛选的要求 的。尤其是近年来基因组学、蛋白质组学与糖组学的相继兴起,大量核酸、 蛋白质和糖等生物大分子的结构特别是高级结构( 三维) 的测试难度更大,供测 试的样本数量更少,即使能测定一些分子的理化性质,也是十分耗时费力,有时 还是难于实现的。分子力学与分子动力学技术的兴起,使得大量分子的生物活性 及相关理化性质的高通量评价成为可能。因此,从分子二维( 2 d ) 拓扑结构产生 2 d 分子结构描述子,或是通过分子模拟技术产生三维( 3 d ) 结构,再产生3 d 分子 结构描述予,进而研究定量分子结构一活性或性质相关关系( q u a n t i t a t i v e s t r u c t u r e - a c t i v i t y p r o p e r t yr e l a t i o n s h i p s ,简称q s a r q s p r ) 、完成配体与 受体的作用、设计新型配体分子在计算机药物设计方面等就显得重要和有现实意 义嘲 m s c 技术的应用相当广泛,q s a r q s p r 研究是其最重要和最主要的应用领域。 q s a r q s p r 已经成为研究物质理化性质与生物活性的强有力工具“1 ,大量事实表 明:一个化合物的物理、化学或生物性质取决于分子中各个原子的三维构型。三 维定量结构一活性相关( 3 d - q s a r ) 研究近年来发展迅速,并已应用于生物分子模 拟、农医药、环境毒性等与生命科学、化学和环境科学相关领域。因而构建这些 领域相关化合物的分子结构与生物活性的定量结构一活性关系模型具有重要的应 用价值旧。 对于q s a r q s p r 研究来说,有两个基本问题:一个是分子结构的数值化,我 们知道,分子可以用一个二维或三维图形来表示,而计算机只能处理数值问题, 因此必须把分子结构图形转化为数值或向量,根据转化的角度不同,产生了拓扑 指数、电子参数、几何参数和量子化学参数。另一个问题是建立数学模型,它涉 硕士学位论文第一章绪论 及两个方面的内容:变量的选择方法和模型的建立方法。 1 2 结构描述子研究的某些进展 获取分子结构信息的分子结构表征( m s c ) 方法很多。目前流行的非经验方 法包括拓扑指数、电子参数、几何参数和量子化学参数等。 1 2 1 电子参数 电子参数建立在部分电荷分布的基础上,反映的是分子的电子结构及部分电 荷分布的整体特征”1 。局部电子密度或电荷对于许多反应及物理化学性质都是非 常重要的,所以,建立在电荷基础上的一些参数已广泛用于化学反应或分子间相 互作用的测量”。m p c - 最大正电荷( q + 哪) 和州c _ 最大负电荷( q 乙) 是较早提 出的两个最基本的电子结构参数m ,并由此衍生出了亚分子极性参数s p p ( & j p = k + 一g m a x l ) 。k a r t r i z k y 等“”曾由氢键给体所带的电荷q d 与分 子的总表面积s 。定义了参数h d s a 2 用于关联化合物的沸点。最近曹晨忠提出了 基团极化效应指数( p e i ) 和分子极化效应指数( m p e i ) ,并广泛用于烷烃、醇、 醚、胺类物质的沸点( t b ) 、水溶解性( 1 0 9 s ) 、空穴表面积( c s a ) 、正辛醇一水分 配系数( 1 0 9 p ) 的q s p r 研究1 ”。 1 2 2 t 何参数 化合物的生物活性或物理化学性质与分子三维空问的结构密切相关,对于分 子的形状描述一般会涉及到几何参数,如分子的体积、表面积、键长和二面角等。 g r i g o r a s “”用分子表面积s 估算了1 3 7 个化合物的临界摩尔体积;1 9 9 7 年,b a s a k “”用范德华体积参数“- ) 及三维w i e n e r 指数唧。预测了4 7 6 个化合物的 蒸汽压;侯廷军等人溉”1 用溶剂可及表面积用于正辛醇一水分配系数( 1 0 9 p ) 、水 溶解性( 1 0 9 s ) 的q s p r 研究。 1 2 3 量子化学参数 建立在分子波函数基础上的量子化学参数,理论上可以精确地表达分子的 全部电子、几何信息及它们之间的相互作用,在处理分子立体结构和电子结构上 具有独特的优势。但由于计算方面的困难,量子化学并不如传统的分子结构参数 2 硕士学位论文 第一章绪论 那样得到广泛的使用,近年由于计算机技术的高速发展,越来越多的化学家试图 用量子化学参数来进行q s a r q s p r “”1 研究。比如l e w i s 等人提出的一个重要 的稳定性指数q 舢一毛m 抑, 即h o m o 与l u m o 的能差,量子化学参数不像 实验测量一样有系统误差,但是在计算过程中为了简化计算采取了多步近似,从 而导致不可避免的误差,并且还存在计算时问长、过分依懒基组等缺点。 1 2 4 拓扑指数 拓扑指数是数学图论、现代计算化学、结构化学与量子化学相互交叉和结合 的产物,已成为当前信息化学的重要分支n “。由于分子拓扑指数具有计算简便、 取值客观等优点,因此在化合物的结构性能活性相关研究中起独特的方便之 处,越来越受到化学工作者的重视。 1 8 5 7 年,数学家c a y l e y 在计算饱和链烃异构体时首次将图论引入化学”, 为建立分子结构数学模型提供了理论基础,一个系统中,路径与连接问题是图论 的基础和实质。化学分子通常可以看着一个二维图形,图形的顶点代表原子,边 表示化学键,它表达了分子中原子相互连接的全部信息,即确定了分子的拓扑性 质。分子图的出现推动了分子结构表征的发展进程。自1 9 4 7 年第一个能表征分 子“支链性”的拓扑指数w i e n e r 指数提出以来,已有今2 0 0 个指数被提出1 , 它们大多数都是建立在距离矩阵或邻接距离及其不变量基础之上嘲本文介绍几 种重要的拓扑指数。 1 2 4 1 分子连接性指数 分子连接性指数由r a n d i c 嘲1 提出并由k i e r 唧删及其合作者扩展。其定义如 下: 七却2 茅( 矿2 其中k 为p 类子图的数目,v 。为顶点的点价。它是由各阶分子连接性指数 ( o x ,1 x ,2 x ,3 x ,) 一起用于表征分子结构。业也表明分子连接性指数与多种物理 化学性质存在良好的相关性,如分子极化度、水溶性、沸点、分配系数、范德华 体积等。分子连接性指数也能解释多种类型物质的生物活性性质包括环境领域中 的多种应用。并仍在继续探讨在q s a r 模型构建中的应用等。分子连接性指数是 一个基于分子二维拓扑结构的最重要指数之一,可用于处理含环、多重键和含杂 原子的分子体系,己成为应用最广泛的结构描述子之一。 硕士学付论文第一章绪论 1 2 4 2 电拓扑状态指数 一个富含信息的分子结构描述子必须是计算快速、操作容易和易于解释的, 电拓扑状态指数拥有上述特征。它已经广泛用于发展原子水平和不同原子类型啪1 形式下的物理化学性质和生物活性相关模型。电拓扑状态指数q s a r 模型产生的 结构信息,能明显地揭示结构特征与活性的关系。其构建过程包括以下几个步骤: 首先根据各个非氢原子在分子中所处的局部化学环境对个原子所属类型进行划 分,同时确定这些非氢原子价电子所属主量子数、价层电子数和连接氢原子的数 目。与其它原子形成。键和牡键轨道数以及孤对电子数等等;第二,计算各种 原子类型的固有状态值( i ) : ,= 【( 2 力艿+ 1 】万 ( 1 - 2 ) 式中d r = 仃一万一向,万- - - - 0 一h 分别称为分子连接性万值:第三,根据 各原子在分子整体中与其它原子之间的拓扑距离,计算各个原子类型在其分子中 固有状态i 的微扰项( ,) ;第四,计算各原子类型原子的固有状态值( i ) 及 它与所有其它原子对它的微扰项( ,) 之和( s 值) ;最后,将原子类型相同的 各原子的s 值相加即得该原子类型的电拓扑状态指数,其数学表达式为: s = + 屿 (1-3) j 分子中有多少种原子类型,就有多少个电拓扑状态指数,因此多个原子类型的分 子描述需要有多个电拓扑状态指数。 1 2 4 3 分子电性距离矢量 分子电性距离矢量由刘树深等人提出。“,分子电性距离矢量首先引入原子固 有状态( i ) 概念: i = 一j b - m ( ( 2 n ) 2 矿+ 1 1 万 t(1-4) 式中v 是原子价电子层的电子数;n 是原子主量子数;6 和艿是原子在不同分子 环境中构成不同共价键时的分子连接性万值,在此基础上定义相对电负性( q 。) 为: 仃一r4 掣, 2 ( 卜5 6 ) 4缈= + “一 j 2 u 呻 j u 4 硕士学位论文 第一章绪论 d 。,为两原子i 与j 之间的最短拓扑距离,分子电性距离矢量定义为: 五= 磊等化1 _ 1 ,z ,3 ,:珧州,z ,3 ,州, ”6 , k ,1 是各非氢原子原子类型。分子电性距离矢量已用于各种定量结构与物理化学 性质和生物活性的研究中嘲。 1 2 4 4k a p p a 指数 k a p p a 指数由k i e r 和h a l l 提出,它反映的分子形状和分子的柔性。其定 义为: 1 屹= ( 4 + 口) ( 彳+ 口一1 ) 2 ( 1 层+ 口) 2 2 k = ( 么+ 口一1 ) ( 彳+ a 一2 ) 2 ( 2 忍+ a ) 2 3 k = ( 彳+ 口一1 ) ( 彳+ 口一3 ) 2 ( 3 只+ 口) 2 3 屹= ( 4 + 口一3 ) ( 彳+ 口一2 ) 2 ( 3 忍+ 口) 2 a 为奇数 a 为偶数 ( 1 - 7 ) ( 1 - 8 ) ( 1 - 9 ) ( 1 1 0 ) 其中a 是分子中的原子数,口为修正值,p 。表示第i 个分子的形状属性值。k a p p a 指数业已用于生物活性的关联。 上述指数是最著名、也是经典的几类拓扑指数,它们较全面、准确地表达了 分子结构信息,能广泛地对多种化合物的多种性质进行关联。 1 3 数学模型的建立 q s a r q s p r 研究的目的就是利用已知的数据集建立相关数学模型来预测待 测化合物的理化性质。由于从不同角度表征分子结构而产生不同的描述子,因此 可以理解描述分子结构的参数是很多的,如果把这些所有的参数都用于建模,模 型是不稳定的,因而必须进行变量选择。 1 3 1 变量选择方法 硕士学位论文第一章绪论 q s a r q s p r 研究中变量选择方法很多,目前比较流行的有遗传算法,向前向 后逐步选择。遗传算法”删( g a ) 是一类借鉴生物界自然选择和遗传机制的高度 并行、随机、自适应搜索算法,它是由复制、杂交和变异三个算子组成。遗传算 法于2 0 世纪6 0 年代初由j o h nh o l l a n d 开创,并和模拟退火m 1 、神经网络“” 一起发展成为经典的非数值算法,遗传算法来源于对自然界进化过程的模拟,可 以说是对达尔文进化论公式化的表达,经过4 0 多年的发展,遗传算法已在表达、 算子和参数方面发展成为一类自成体系的算法,它是一个搜索特征串空间的过 程,其目的是找到具有相对适应值的串,利用某种编码技术作用于称为染色体的 二迸制串上,通过有组织的然而又是随机的信息交换来重新组合那些适应性好的 串,在子代串结构中适应性好的位和段来产生一个新的串的群体。作为额增添, 偶儿也要在串结构中尝试用新的位和段来替代原来的部分。与自然界相似,遗传 算法对求解问题本身一无所知,它所需要的仅是对算法所产生的每个染色体进行 评介,并基于适应值来选择染色体,使适应性好的染色体比适应性差的染色体有 更多的繁殖机会。逐步回归分析的基本思想是,在计算的每一步中,都要对回 归方程中当时所含的因子逐个进行检验,看其对反应值的作用是否显著,一旦发 现不显著的因子随时予于剔除。只有在回归方程中所含全部因子对反应值的作用 都显著时,才考虑在未选入回归方程的那些因子中挑选对反应值作用最大者,检 验其显著性,如显著则引入回归方程,否则计算即行停止。 1 3 2 建模方法 o s a r q s p r 建模的方法也很多,目前比较流行的有人工神经网络( a n n ) 脚1 和偏最小二乘( p l s ) 嘲。用p l s 方法可以对成千上万个自变量与一个或多个因 变量进行回归分析。p l s 分析类似于主成分分析方法,其差别在于用于描述变量 y 中因子的同时也用于描述变量x ,p l s 通常得到较好的相关性。p l s 分析时必 须加入交互验证,用以选择预测模型。人工神经网络是对生物神经网络的模拟和 抽象,它反映了大脑功能的若干基本特征,是一种有大量基本信息处理单元通过 复杂的连接而构成的非线性动力学系统,具有并行性、容错性、非线形和自学习 性等特点,神经网的连接方式有多种,其中用得比较多的是反向传输模型,它的 基本结构包括输入层、隐蔽层和输出层,数据由输入层输入,经标准化处理,并 施以权重传输到第二层,隐蔽层进行输入的权重加和、转换,然后传输到输出层, 输出层给出神经网络的预测值或模式的判别结果。它现在已广泛应用于 q s a r q s p r 定量模型中。 6 硕士学位论文 第一章绪论 1 4 本文研究的内容 全文分五章讨论: 第一章介绍分子结构表征的意义、矢量描述子的种类、几种重要的拓扑描 述子及q s a r q s p r 的建模方法。 第二章介绍不同分子存储格式的转换。s d f 和m o l 文件等是化学界普遍使 用的两种存储分子结构信息的文件格式,分子结构的h q n 编码是一种结合二维联 接表与线性命名输入法优点的编码方法,文中成功地将s d f 和m o l 等文件格式转 为h q n 编码,并以此编写了分子连接性指数,k a p p a 形状指数,电拓扑状态指数 和分子电性距离矢量,并将其界面化为分子拓扑指数计算系统t o p o 1 。 第三章介绍芳香性原子的识别算法,化合物的芳香性是比较特殊的性质, 它的计算机识别是进行计算机药物设计必须的,文中讨论的芳香性识别算法是基 于分子结构h q n 编码,以h q n 编码产生的h q n 联接矩阵和图论算法作为识别算法 的数学基础,该算法简洁、耗时少,能识别绝大多数化合物的芳香性。1 第四章描述了甲基烷烃结构与气相色谱保留指数相关性的拓扑指数法研 究。对化合物的色谱保留指数与结构关系( q s r r ) 的研究是色谱领域一个热点问 题。文中计算了2 0 7 种甲基烷烃的1 2 7 个拓扑指数变量,把遗传算法引入到定量 结构与气相色谱保留关系研究中。对1 2 7 个拓扑指数变量进行选择,得到了含7 个变量的q s r r 模型:平方相关系数为0 9 9 9 9 8 ,标准偏差为2 8 8 。交互验证的平 方相关系数为0 9 9 9 9 7 ,交互验证的预测标准偏差为2 9 5 ,表明该模型良好的稳 定性和可靠性;对获得的7 个变量进行了合理的结构解释,表明了甲基烷烃色谱 保留指数完全能用拓扑指数来精确表征。 第五章使用正交化和典型相关分析的思想,将分子连接性指数。分子电性 距离矢量,电拓扑状态指数和k a p p a 指数先正交化,然后用典型相关分析进行分 析,最后构建了与1 0 8 个药物分子的在脑血中浸透系数的模型,获得良好的预测 结果。 7 硕士学仿论文 第二章文件格式转换 2 1引言 第二章文件格式转换 化合物的命名所表达的结构信息是非常笼统的,而且不便于计算机做进一步 的结构分析和处理,在计算机处理化学结构的发展过程中,相继出现碎片码、线 形码、拓扑码等一些表达方法。其中碎片码和线形码这两种表达方法的代表分别 是w l n 和s m i l e s 码4 ”,由于它们难于实现计算机处理化学结构的基本操作一 子结构检索,因而目前很少用到;拓扑码虽没有线形码所面临的子结构检索,但 面临唯一性问题,因为一个含n 个原子的结构可以有n ! 种不同的编码方式,因 而也很少用到。因此,以命名或编码的方式表达分子的结构信息是远远不够的。 连接表是目前表达分子结构信息的最完善和最计算机化的方式,它除了可以准确 地表达分子的二维结构信息,还能利用原子空间坐标精确地表达分子的三维结构 信息。s d f 和m o l 文件实际是用连接表的形式来描述分子中所有原子、键及空 间关系的一个列表,它在计算机上是一个文本文件,随着计算机存储量和计算速 度的飞速发展,它们已成为绝大多数化学结构处理系统的首选方式,已成为化学 界目前普遍使用的两种存储分子结构信息的文件格式。h q n 编码“o 是一种结合二 维联接表与线性命名输入法优点的编码方法,体现了原子的联接方式和原子的类 型,它相对于s d f 和m o l 文件来说,子结构搜素、识别要快得多,因此将s d f 和 m o l 等常用表达分子结构的文件转为h q n 编码有其必要。 2 2s d f 、m o l 文件和h q n 编码简介 m o l 文件通常由块头( h e a d e r ) 、原子块( a t o mb l o c k ) 、键块( b o n db l o c k ) 和性质块( p r o p e r t i e sb l o c k ) 组成,s d f 文件除m o l 文件具有的块外,还有非结 构数据块( n o n s t r u c t u r a ld a t a ) ,原子块和键块是文件的核心部分,体现了原 子类型、连接方式和空间关系,具体的一个文件见图2 - 1 。 h q n 编码方法结合了二维联接表和线形命名输入法的优点。在直观队列命名 法( h o n ) 中,原予用元素周期表中的字母表示第一个字母用大写表示,第二个 字母( 如果存在) 用小写表示。命名原则如下: 每条边( 键) 由两个原子形成的对组成,如l2 或23 等。 多重键表达为重复多次输入,二重键输入两次,如:3434 。三重键输入 8 硕七学位论文 第二章文件格式转换 三次565656 等依次类推。 将对应的原子类型( 元素符号,默认为碳,杂原子才作标识) 标识在该原 子的号码之后,同时输入字符串中,即完成了直观队列命名法的分子结构 输入,从而可得一个分子结构的h q n 编码。 例如分子: 掰0 1 2 其h q n 编码为12232 334 n4545 56616178 788991 09 1 021 0l7 91 l1 11 2 01 11 2 2 3 算法 2 3 1 连接表的识别 s d f 和m o l 文件中,真正体现分子结构信息的是文件的原子块和键块。对其 进行识别是转换的关键。我们基于这样的考虑识别;原子块中每一行有相同的字 符数,记录前一行与后一行字符数相同的行,同时记录下每一行中的字母字符, 这样构成一个字符串,包含了一个分子中的原子类型及连接顺序,如图2 - 1 记录 的字符串为:c h h h c n h h o 。同样键块每一行也有相同的字符数,同样记录前一 行与后一行字符数相同的行,这样构成一个字符矩阵,将其转为非字符矩阵,矩 阵前三列体现了该分子的原子问的键连关系,因此我们可只记录了前三列;第二, 原子块和键块是相邻的,即先有原予块,接下是键块。以此滤除其它可能的前后 字符相等的行,进而正确实现原子块和键块识别。 2 3 2 滤除氢原子生成未含元素符号的i - i o n 编码 经过上一步,我们记录了分子中的原子类型( c h h h c n h h o ) 和原子间的键 合关系( 实际为一矩阵) 。首先由原子键合关系得到未含元素符号的h q n 编码, 具体算法如下:如果两个原子以单键相连,则记录原予编号一次;以双键相连, 则记录原子编号两次;如果两个原子以叁键相连,则记录原子编号三次。由此得 到一个字符串( 包含氢原子的编号) ,图2 一1 分子为l2l314155659 596867 ,并由此产生一个h q n 联接矩阵,把矩阵中对应原子为氢的行和列 向量全部置空,这样得到一个新矩阵,由此矩阵经转化得到一个新串( 不包含氢 原子编号) 即未含元素符号的h q n 编码( 图2 - 1 为122324 24 ) ,在把 9 硕+ 学位论文第二章文件格式转换 表2 - 1m o l 和s d f 文件的例子 o c ( n p o h d e r m o e 2 0 0 23 d b l o c k 980 0 0 0 0 0 0 0l v 2 0 0 0 c o u n t s l i n e i 0 4 4 0o 3 4 8 00 0 0 3 0c0 0 0 0 000 0 0 0 0 0 - t 4 6 5 01 3 4 0 00 1 8 9 0h0 0 0 0 0 0 000 0 0 0 1 3 9 0 0 - 0 o t l 0 - 0 9 7 0 0h0 0 0 0 0 0 0 0 0 0 0 0 1 3 8 舳- 0 3 2 9 0o 7 9 l oh0000 000 0000 0 a t o m 0 4 5 7 00 4 2 9 00 0 0 7 0c00 00 0000 000 0b l o c k 1 0 8 1 0 - 0 7 8 6 00 0 0 3 0n0 0 0 0 000 0 0 000 0 5 8 0 0 1 6 6 6 0 - o 0 1 7 0h000 0 000 0 0 0 0 0 2 0 9 3 0 - 0 8 0 9 0 - 0 0 0 8 0h000 0 0 0 000 000 1 0 7 6 0i 4 8 3 00 0 0 2 0o000 000 000 00 0 呈 l2lo 0 o o 皂 口 盎 盎 彳 彳 l 3lo0o 0 l4100o o l5loo00b u n d 56100 o ob l o c k 59 2 o o o 0 63lo o o o 67looo 0 me n d p r o p e r t i e s b l o c k 6 0 - 3 5 5 n u n - s t r o c t u a l 1 5 8d a t a 锚鹞 记录原子类型的的字符串中氢原予置空,得到一个新的字符串( 表2 - 1 为 。c c n o ) 。 硕士学位论文 第二章文件格式转换 2 3 3 插入元素符号 由2 3 2 我们得到两个串,一个串包含元素符号,另一个包含原子之间的连 接关系的串。然后再把包含元素符号的串中对应的字母插入到包含原子问连接关 系的原子编号后,得到一个新串即为h q n 编码( 表2 - 1 为1223 n24 024 , 其中碳原子符号省略) 。这样实现了s d f 和m o l 文件到h q n 编码的转化。 2 4 结论与讨论 在结构与活性性质关系( q s a r q s p r ) ,药效团的识别以及子结构检索等研究 中,均需要对分子结构进行输入与处理,h q n 编码在计算机处理对结构的处理方 面很简便:如拓扑指数程序的编写,字结构搜索。目前绝大多数分子结构通常 用s d f 和m o l 文件存储,因而我们用m a t l a b 语言编写相关转换程序并在此基础 上编写拓扑指数计算系统。事实上,对于包含键块和原子块的分子存储文件如 r d f 文件等,也能实现成功的转化。对一个包含1 9 8 8 个分子的s d f 文件应用此 程序进行了成功的转化,耗时约5 分钟,结果显示该算法是快速和准确的。 硕士学位论文 第三章芳香键识别算法 3 1引言 第三章芳香性原子识别算法 在化学反应中,分子中的芳香性是特殊而重要的性质,在结构解析,构效关 系研究、分子设计、反应策划、组合化学等5 町涉及复杂化学现象的结构处理方 面和数据库的结构检索方面,芳香环的计算机识别都是非常重要的。美国化学文 摘( c a s ) 、d r a c 系统、c a m e o 系统、许禄和姚建华等“1 都报道过相关工作,通 常都是在环识别算法的基础上对获得的环进行芳香性判断,本文先滤除非芳香原 子片段,再进行芳香性判断,这大大减少了算法的盲目性。对于芳香性概念的定 义,化学界一直存在争论,“芳香”二字最初是指从天然树脂中提取得到的具有 芳香性气味的物质,随着结构理论的发展,芳香性的定义在不断深化和发展。有 机化学家认为:。芳香性化合物”是指分子具有苯环结构及与苯相似的化学性质 和电子结构的一类有机化合物,易发生取代反应,难发生加成反应和氧化反应, 这种特性称为芳香性。休克尔在1 9 3 1 年根据分子轨道理论计算结果指出,只有 当丌电子数为4 n + 2 的体系( n 为自然数) ,它们的成键轨道在基态时全部充满电 子( 有的还充满非键轨道) ,具有与惰性气体相类似的结构,使体系趋于稳定的 结构具有芳香性,这叫休克尔规则,它是一个经验规则。 我们根据休克尔规则和文献呻1 原则,定义芳香性的判别原则为:& 具有高度 离域共轭丌键的环状系统;b 键中的电子数是4 n + 2 ,其中n 为自然数;c 整个体系都处于一个平面或非常接近于一个平面。具有上述特征的环系统为芳香 环,环上的键称为芳香键,环上的原子称为芳香性原子。 3 2 方法 3 2 1h o n 编码简介嗍 h q n 编码简介见2 2 节。h q n 联接矩阵定义为: 口= 护 l ,若唯和0 邻接且以单键相连 2 ,若唯和0 邻接且以双键相连 3 ,若唯和0 邻接且以叁键相连 0 ,否则 硕士学位论文 第三章芳香键识别算法 其中v 。和v j 分别代表第i 和第j 个顶点。例如分子: 3 1 0 , 其h q n 联接矩阵见表3 - 1 。 n r 飞斟 s 【! 办e 表3 - 1h q h 联接矩阵 cc l0 02 2o l 0 0 o o o o 0 3 2 2 非芳香性原子的滤除 芳香性原子通常由这样的原子结构片段构成:“ c = ( 表示两个单键, - 表示一个双键) 、= n ( 表示一个双键和一个单键) 、- - c = 、 c = o 、 n 、一 n 一、= n 一、一0 一、一s 一和- - s = ”等,因此以上原子片段结构应保留,我们直 接从h q n 联接矩阵中滤除非这些原子片段,即把这些原子对应的行向量和列向量 全部置0 。具体算法如下:由于芳香性的碳原子在h q n 联接矩阵中每一行必有元 素2 和l ( 即都含单双键) ,因此把没有元素2 和1 的行向量和列向 量全部置0 。杂原子的处理:芳香性的杂原子氮的行向量不含元素3 ( 即叁键) 和一个元素1 ( 即一个单键) 。芳香性的杂原子氧行向量不含元素2 ( 即o = 双键) 和一个元素1 ( 即一o h ) :芳香性的杂原子硫它的顶点度一般为2 ( 即一 s 一或- - s = ) ,把不满足以上芳香性约束条件的杂原子对应的行向量和列向量全部 致0 。对于 c - 0 ,如果碳连接的两个单键原子连接的是双键或为杂原子( 氧原子 除外) n c = o 中碳和氧对应的行向量和列向量保留,否则对应行向量和列向量 n 全部置0 ( 即滤除) 。例如:、0 7 则需滤除 c = 0 。经过一次滤除后,一些第一 0 o o o o o o o l o o 2 c c c n c c c c c c c o 硕士学位论文第三章芳香键识别算法 次未滤除的原子片段结构可能需按上述芳香性约束条件重新滤除,直至前一次滤 除后得到的h q n 联接矩阵与后一次滤除得到的联接矩阵相同为止,具体滤除次数 与分子结构有关。经滤除后,只有以上原子片段在环上和环之间的链上时,不能 滤除。例如图3 - 1 的分子结构及它们的组合不能进一步滤除,而图3 2 的分子结 构及它们的组合则能滤除。对于得到的h q n 联接矩阵,如其元素全部为零,则肯 定没有芳香环,否则进入( 3 ) 。 回g 。国 a bcd 图3 - 1 不能滤除的分子或片段( - d ) o a n 瓢儿。h 。以s n 3 2 3 求取连通分量 图3 - 2 可以滤除的分子或片段( - d ) 经过( 2 ) 步后,对得到的h q n 联接矩阵进行处理,h q n 联接矩阵中全为0 的行向量和列向量置空,此时可根据得到的矩阵判断其是否连通,如连通需进一 步求其是否含有链。滤除链上的原子( 即

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论