药物发现的虚拟筛选方法课件_第1页
药物发现的虚拟筛选方法课件_第2页
药物发现的虚拟筛选方法课件_第3页
药物发现的虚拟筛选方法课件_第4页
药物发现的虚拟筛选方法课件_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 2 3 4 v 计算机模拟与化学合成、生物测试的结合构成了后基因组时计算机模拟与化学合成、生物测试的结合构成了后基因组时 代新药研究的新策略。从已有的化合物,包括合成化合物和代新药研究的新策略。从已有的化合物,包括合成化合物和 天然产物中寻找药物或先导化合物,是药物发现的一个重要天然产物中寻找药物或先导化合物,是药物发现的一个重要 途径。到目前为止,人们只是针对大约途径。到目前为止,人们只是针对大约500 种疾病的治疗靶种疾病的治疗靶 点,筛选了现已发现的点,筛选了现已发现的2 000 多万种有机化合物中大约多万种有机化合物中大约10% 的化合物,但仍然有大量的潜在活性化合物未被发现。的化

2、合物,但仍然有大量的潜在活性化合物未被发现。 5 v 随着科学技术的发展,各种先进技术应运而生(随着科学技术的发展,各种先进技术应运而生(X 射线晶射线晶 体衍射法、多维核磁共振法、扫描隧道显微技术等),使体衍射法、多维核磁共振法、扫描隧道显微技术等),使 得越来越多生物靶标(蛋白质、核酸、多糖等)的空间结得越来越多生物靶标(蛋白质、核酸、多糖等)的空间结 构被解析。构被解析。 v 同时计算机科学的发展又极大地提高了计算和分析的速度同时计算机科学的发展又极大地提高了计算和分析的速度 和精度。和精度。 v 因此,自上世纪因此,自上世纪90 年代起,年代起,合理药物设计合理药物设计就逐渐成就逐渐成

3、 为一种实用技术接融入到药物研发的各个环节。为一种实用技术接融入到药物研发的各个环节。 6 一、合理药物设计一、合理药物设计 合理药物设计合理药物设计 结构生物学兴起结构生物学兴起 (2020世纪世纪8080年代中后期)年代中后期) 生物大分子的三维结构测定生物大分子的三维结构测定 结构确定的生物大分子数目大增结构确定的生物大分子数目大增 基于生物大分子三维结构的基于生物大分子三维结构的 药物分子设计方法药物分子设计方法 药物的化学特性药物的化学特性生物学特性生物学特性 7 成功例子成功例子 奈非那韦(奈非那韦(nelfinavirnelfinavir) 抗艾滋病药物抗艾滋病药物 HIV-1蛋

4、白酶抑制剂蛋白酶抑制剂 依马替尼(依马替尼(imatinibimatinib) 治疗慢性骨髓型白血病药物治疗慢性骨髓型白血病药物 8 二、数据库空间二、数据库空间 化学空间 生物空间 大量疾病靶点大量疾病靶点 (生物大分子)(生物大分子) 大量小分子化合物大量小分子化合物 9 化合物数据库 合成化合物库天然化合物库 组合化合物库药物分子库 类药化合物库 生物大分子 数据库 核酸分子库 蛋白质 分子库 10 v 研究对象 化学信息学:小分子 生物信息学:小分子结构单元构成的基因和蛋白质等大分子,本质上都是 化学物质。 v 计算方法 基于回归的聚类分析;支持向量机;神经网络;遗传算法等。 v 发挥

5、作用方面 核酸和蛋白质功能和结构;小分子配体和蛋白质受体的相互作用;酶催化 等方面 。 化学信息学和生物信息学的共同点化学信息学和生物信息学的共同点 是相互依存,相互影响,需结合在一起, 才能解决大多数的实际问题! 11 12 v 虚拟筛选的时间:虚拟筛选的时间: 在化合物组合库合成和/或筛选之前。 v 虚拟筛选的空间:虚拟筛选的空间: 在计算机上进行模拟设计和筛选。 v 虚拟筛选的方法:虚拟筛选的方法: 直接方法:基于分子对接(molecular docking)的虚拟筛选 间接方法:基于药效基团(pharmacophore)的虚拟筛选 虚拟筛选(虚拟筛选(virtual screening

6、, VS) 13 v虚拟筛选技术是药物设计方法的延伸和推广,广义地讲只要是基于某种提问形式,从虚拟筛选技术是药物设计方法的延伸和推广,广义地讲只要是基于某种提问形式,从 现有的小分子数据库中,搜寻符合条件的化合物都可以称之为虚拟筛选。这其中包括现有的小分子数据库中,搜寻符合条件的化合物都可以称之为虚拟筛选。这其中包括 基于某些分子特性的数据库搜索、基于分子对接的数据库搜索、基于药效团的数据库基于某些分子特性的数据库搜索、基于分子对接的数据库搜索、基于药效团的数据库 搜索等,其目的是从几十乃至上百万个分子中筛选出新的先导化合物。由于实体的药搜索等,其目的是从几十乃至上百万个分子中筛选出新的先导化

7、合物。由于实体的药 物筛选需要构建大规模的化合物库,提取或培养大量实验必须的靶酶或者靶细胞,并物筛选需要构建大规模的化合物库,提取或培养大量实验必须的靶酶或者靶细胞,并 且需要复杂的设备支持,因而进行实体的药物筛选要投入巨额资金。而虚拟药物筛选且需要复杂的设备支持,因而进行实体的药物筛选要投入巨额资金。而虚拟药物筛选 是将药物筛选的过程在计算机上模拟,对化合物可能的活性作出预测,这样就能够集是将药物筛选的过程在计算机上模拟,对化合物可能的活性作出预测,这样就能够集 中目标,大大降低实验筛选化合物的数量,从而缩短研发周期、节约经费开支。中目标,大大降低实验筛选化合物的数量,从而缩短研发周期、节约

8、经费开支。 v虽然早在虽然早在20 世纪世纪70 年代虚拟筛选技术已经得到应用,但由于技术本身的不成熟,使年代虚拟筛选技术已经得到应用,但由于技术本身的不成熟,使 得在新药开发上仍然主要依靠传统的实验筛选。近年来,随着虚拟药物筛选成功地发得在新药开发上仍然主要依靠传统的实验筛选。近年来,随着虚拟药物筛选成功地发 现了一些有开发价值的先导化合物,这项技术又重新引起大家的重视现了一些有开发价值的先导化合物,这项技术又重新引起大家的重视。 14 15 化学信息学化学信息学 v 产生的背景 组合化学和高通量筛选,出现了巨大的信息,需要快速收集、存储、分析和 处理,随着信息技术向化学领域的渗透,形成了新

9、的交叉学科化学信 息学。 v 研究内容 化合物信息在计算机中的表示 化合物数据库的建立、使用和管理 化合物相似性、多样性及分子类药性分析 化合物定量构效关系 16 化学信息学 Chemoinformatics,chemical informatics, Cheminformatics,chemi-informatics v 利用计算机信息处理技术对化学分子结构和相关信息进行管利用计算机信息处理技术对化学分子结构和相关信息进行管 理的一种综合性技术和学科理的一种综合性技术和学科 v 应用化学信息学可促进化学信息的获取、转化与共享应用化学信息学可促进化学信息的获取、转化与共享 17 一、化学信息的

10、表示方法 化学化学 分子分子 一维结构:一维结构:化合物名称(俗名);线性符号表示法。化合物名称(俗名);线性符号表示法。 二维结构:二维结构:原子用元素符号,键用短线,即化合物结构式。为平面结构。原子用元素符号,键用短线,即化合物结构式。为平面结构。 三维结构:三维结构:原子的空间位置、相互间距离、键角和二面角等。原子的空间位置、相互间距离、键角和二面角等。 分子表面:分子表面:建立在三维结构基础上,能与分子的三维结构一一对应。建立在三维结构基础上,能与分子的三维结构一一对应。 18 一维 结构NC(Cc1ccccc1)C(O)=O (SMILES编码) 三 维 结 构 二维 结构 分 子

11、表 面 苯丙氨酸分子结构表征层次苯丙氨酸分子结构表征层次 OH O H2N 19 (一)一维结构表示(一)一维结构表示 IUPACROSDAL 不十分适合计算机的处理不十分适合计算机的处理主要用于主要用于Beilstein 系统系统 是是SMILES的改进,除有机的改进,除有机 小分子,还表示大分子,小分子,还表示大分子, 聚合物和组合库。聚合物和组合库。 1986年提出的简化的年提出的简化的 分子线性输入系统分子线性输入系统 20 SMILES(简化分子线性输入系统)(简化分子线性输入系统) 编码的基本原则编码的基本原则 原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。

12、相邻原子依次排放在一起,单键通常省略,双键和三键分别以“=”和“#”表 示,芳香键以“:”表示,也可省略。 分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。 双键“/”表示顺式,“”表示反式。 原子顺时针排列用表示,逆时针排列用表示。 21 甲烷 CH4 C 乙醇 C2H5OH CCO 氰化氢 HCN C#N 环已烷 C6H12 C1CCCCC1 吡啶 C5H5N n1ccccc1 异丁酸 (CH3)2CHCO2H CC(C)C(=O)O 反式二溴甲烷 Br/C=C/Br 或BrC=CBr 顺式二溴甲烷 BrC=C/Br 或Br/C=CBr L-丙氨酸 NCH(C)C(=O)

13、O D-丙氨酸 NCH(C)C(=O)O 22 举例说明举例说明 v 苯丙氨酸 OH O H2N NC(Cc1ccccc1)C(O)=O 23 OH CN C/C=CC=CH(O)C#N SMILESSMILES编码的立体化学信息表示编码的立体化学信息表示 24 SLN编码(编码(Sybyl线性标记法)的规则线性标记法)的规则 原子以其元素符号表示,原子以其元素符号表示,氢原子也要显示氢原子也要显示; 单键省略,双键、三键和芳香键分别以单键省略,双键、三键和芳香键分别以“=” “#”和和“:”表示;表示; 分支也采用括号表示;环也打开,依靠环上一个预先定义好的分支也采用括号表示;环也打开,依靠

14、环上一个预先定义好的具有唯一编号的原具有唯一编号的原 子及子及符号来识别符号来识别,如环己烷表示为,如环己烷表示为C15H2CH2CH2CH2CH2CH215; 原子和键的属性(如电荷、立体化学性质等)可通过方括号原子和键的属性(如电荷、立体化学性质等)可通过方括号 或尖括号或尖括号在该在该 原子后标记出;原子后标记出; 对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。 25 (二)二维结构表示(二)二维结构表示 1 1、图论基础和图的矩阵表示、图论基础和图的矩阵表示 一个简单的图由顶点(V)和边(E)组成,因

15、此图被定义为一个三元组, 为映射 函数。在下面一个简单的无向图中, V=1,2,3,4, E=e1,e2,e3,e4, e5, e6。 14 23 e1 e2 e4 e3 e5 e6 26 图也可用矩阵表示:设G=为无向图,令mij等于顶点vi与边ej的关联 次数,则称(mij)n*m为G的关联矩阵,记为M(G)。 M(G)= 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 1 1 1 0 0 1 0 1 14 23 e1 e2 e4 e3 e5 e6 27 CC C H CC C C N H C C O O H OH O H2N 用图表示苯丙氨酸的结构用图表示苯丙氨酸的结构 28

16、 2 2、化合物结构的矩阵表示、化合物结构的矩阵表示 (1)邻接矩阵(以乙醛为例)邻接矩阵(以乙醛为例) (2)距离矩阵:表示了相应原子之间的距离:几何距离(用)距离矩阵:表示了相应原子之间的距离:几何距离(用表示),表示), 拓扑距离(两原子之间连接的键的个数)拓扑距离(两原子之间连接的键的个数) (3)键矩阵:矩阵元素为相连接的两个原子之间的键级。)键矩阵:矩阵元素为相连接的两个原子之间的键级。 双键:双键:2,三键:,三键:3。 (4)关联矩阵:是一个)关联矩阵:是一个nm的矩阵。的矩阵。 顶点(原子)作为列(顶点(原子)作为列(n),边(化学键)作为行(),边(化学键)作为行(m),)

17、, 如果边在顶点内,则相应的元素置为如果边在顶点内,则相应的元素置为1。 29 3 3、连接表、连接表 20世纪80年代开始,成为化合物在计算机中表示的最主要方法。 首先对每个原子进行编号并列表 然后在另一表格中列出键的信息, 键级用整数表示,1表示单键,2表示双键。 30 (三)三维结构表示(三)三维结构表示 1 1、直接坐标法、直接坐标法 用迪卡尔坐标直接存储每用迪卡尔坐标直接存储每 个原子的三维坐标(个原子的三维坐标(x,y,z) 31 2、内坐标法 v 每个原子位置以与其他原子间的每个原子位置以与其他原子间的3 3个相对位置关系表示个相对位置关系表示相对相对 距离、键角、二面角距离、键

18、角、二面角 32 (四)分子存储格式及其相互转换(四)分子存储格式及其相互转换 文件格式扩展名特点 Molfile*.molMDL公司提出的分子文件格式,应用最广泛的连接表格式 Mol2file*.2molTripos公司推出,包含一个或多个化合物。目前药物设计领域最流行的格式 Maestro*.maeSchodinger公司推出的一种文件格式,包含一个或多个化合物。 SDfile*.sdf结构数据文件,MDLMolfile的扩展,包含一个或多个化合物。 RDfile*.rdf反应数据文件,MDLMolfile的扩展,包含一个或多个反应。 SMILES*.smi应用最广泛的线性编码和文件格式

19、PDB*.pdb蛋白质数据文件,蛋白质和多聚核苷酸的3D结构信息文件 CIF*.cif晶体信息文件格式,用于表示有机分子的3D结构 JCAMP*.jdx, *.dx, *.cs原子和分子物理数据,结构和光谱文件格式 CML*.cml化学标注语言;XML在化学上的扩展 33 基本存储基本存储 分子的元素组成、原子坐标、原子连接关系分子的元素组成、原子坐标、原子连接关系 其他存储其他存储 分子子结构信息,适用于生物大分子分子子结构信息,适用于生物大分子 原子电荷信息,调用时不必再计算原子电荷信息,调用时不必再计算 确定特定原子化学环境的原子类型信息确定特定原子化学环境的原子类型信息 34 二、化合

20、物数据库的生产和管理 目前有很多商业化合物数据库可以利用目前有很多商业化合物数据库可以利用 MDL药物数据报告(药物数据报告(MDDR)含有)含有115000个类药性个类药性 化合物。化合物。 美国国家癌症研究所(美国国家癌症研究所(NCI)数据库含有)数据库含有250000个个 化合物。化合物。 35 MDL ISIS化学数据库管理系统 u ISIS系统提供了基于系统提供了基于Oracle 数据库系统的各类化学信息系统的管理和开发工数据库系统的各类化学信息系统的管理和开发工 具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。具,可以同时管理化学结构、化学反应、生物活性及谱图等

21、多种化学信息。 u ISIS已应用于全球超过已应用于全球超过80%的化学与制药企业,已成为事实上的化学信息管的化学与制药企业,已成为事实上的化学信息管 理系统的工业标准。理系统的工业标准。 36 ISIS (Integrated Scientific Information Management System)MDL的综合性结 构和反应管理软件 由三个主要由三个主要模块模块组成:组成: (1) 化学化学信息管理系统:信息管理系统:ISIS/HOST主服务器应用程序,进行通讯连接,集主服务器应用程序,进行通讯连接,集 中数据库数据并作处理中数据库数据并作处理 (2) 化学化学信息生成和管理软件:

22、信息生成和管理软件:ISIS/BASE用于生成局部数据库及处理信息用于生成局部数据库及处理信息 (3) 化学化学画图软件:画图软件:ISIS/DRAW用于输入结构式和搜寻询问条件用于输入结构式和搜寻询问条件 37 2D结构输入 计算机绘制化学结构式计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标 软件的模板中收集大量分子片段软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等还可有附加功能,如自动命名、

23、化学计算、光谱分析等 38 三维结构的转化 3D结晶结构参数转入3D数据 库 软件将2D化学结构迅速地转为3D模型 39 三、分子相似性和多样性分析 n分子相似性和多样性分析方法的分子相似性和多样性分析方法的原则原则:结构相似的分子有着相似的性质或活性。:结构相似的分子有着相似的性质或活性。 n作用作用:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。 数据库的化学多样性(数据库的化学多样性(chemical diversity): 数量巨大的、结构不同的贮藏和检索系统数量巨大的、结构不同的贮藏和检索

24、系统适用于先导化合物发现适用于先导化合物发现 数据库的化学相似性(数据库的化学相似性(chemical similarity) 适用于先导化合物优化适用于先导化合物优化 n评价方法评价方法:通过计算分子的:通过计算分子的描述符描述符,并比较化合物描述符的近似程度。,并比较化合物描述符的近似程度。 40 分子描述符 u 概念:概念:在相似性和多样性分析中,需要建立化合物结构和它们生在相似性和多样性分析中,需要建立化合物结构和它们生 物活性或者理化性质的映射,分子描述符就是其中的一种映射。物活性或者理化性质的映射,分子描述符就是其中的一种映射。 u 作用:作用:通常一个或多个描述符可以用来描述分子

25、的结构、性质等,通常一个或多个描述符可以用来描述分子的结构、性质等, 如如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述 了结构的复杂性。了结构的复杂性。 u 描述符的描述符的内容是由两方面决定的内容是由两方面决定的,一是化合物的分子表示,二是计,一是化合物的分子表示,二是计 算描述符的算法。算描述符的算法。 41 分子表 示方法 描述符示 例 0D原子数目氢原子数目,杂原子数目,重原子数目 键数目双键数目,三键数目,可旋转键数目 相对分子质量相对分子质量,平均相对分子质量 分子性质脂水分配系数 1D碎片数目伯碳原子数目,叔碳原子

26、数目;手性碳原子数目,羟基数目,羧基数目;氢键供体 数目,氢键受体数目 2D拓扑描述符Zagreb指数,Wiener指数,Balaban J指数,连接指数,kappa形状指数,2D自关联 向量 3D几何描述符分子偏心率,回转半径,3D Wiener指数, 3D Balaban 指数,WHIM 描述符, GETAWAY 描述符,3D 自关联向量 3D表面性质平均分子静电势,疏水势,氢键势 3D网络性质比较分子场分析 4D3D坐标+构象取样 分子描述的分类分子描述的分类 42 分子相似性分析方法分子相似性分析方法 v基于定性特征的和基于定量特征的。 v对于两个化合物A和B, a是A所具有而B不具有

27、的特征数目 b是B所具有而A不具有的特征数目 c是两者共同的特征数目 d为两者都不具有的特征数目 c和d表示了化合物A和B之间的相似性 a和b表示了化合物A和B之间的多样性 所有的特征数目为n=a+b+c+d v这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目c+d在所有特征数目(c+d) +(a+b)中所占的比例,即(c+d)/(a+b+c+d)。这也被称作为简单匹配系数。 v可以看出,A和B均不具有的特征并没有表达任何信息,所以,d可以从上面的方法中删除,得到了 Tanimoto相似度计算公式。 43 化学多样性的定量表达Tanimoto系数 用化学空间中电荷和电势等描述符比

28、较不同分子的性质用化学空间中电荷和电势等描述符比较不同分子的性质 TC = c /(a+b+c) a为为A中基础片断的描述符的数中基础片断的描述符的数 b为为B中基础片断的描述符的数目中基础片断的描述符的数目 c为为A和和B中共有的基础片断的描述符的数目中共有的基础片断的描述符的数目 相同分子相同分子TC = 1;分子没有共同描述符时;分子没有共同描述符时TC = 0 44 相似性搜寻 v根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即相相 似性搜寻似性搜寻。 v步骤:步骤: 1、目标选择、目标选择

29、 2、描述符选择和编码、描述符选择和编码 3、相似性评价方法选择、相似性评价方法选择 4、搜寻语句的输入、搜寻语句的输入 5、相似性打分、相似性打分 45 四、互联网上的化学信息资源 46 (一)化学搜索引擎(一)化学搜索引擎 1、大型通用搜索引擎:、大型通用搜索引擎:Google、百度等。、百度等。 2、专门用于搜索化学信息的引擎:、专门用于搜索化学信息的引擎:ChemFinder, MetaXchem. (二)互联网上的化学数据库(二)互联网上的化学数据库 1、文献数据库(、文献数据库(CA、Medline) 2、化合物数据库(、化合物数据库(Gmelin, CSD) 3、综合数据库(、综

30、合数据库(Beilstein、PDB) 47 常用化合物数据库 u FCD (Fine Chemicals Directory) MDL 维护。收载约维护。收载约90 000化合物和化合物和20 000化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、 CAS登录号、纯度等。可通过结构式或其它任何数据检索登录号、纯度等。可通过结构式或其它任何数据检索 u ACD (Available Chemicals Directory) MDL维护。维护。FCD数据库加上可大批数据库加上可大批 量供货的化学品信息。目前有量供货的

31、化学品信息。目前有25万个化合物万个化合物 u CSD(Cambridge Structure Database) 20多万个结晶的多万个结晶的3D结构实验数据结构实验数据 及相关数据及相关数据 48 常用数据库的网址常用数据库的网址 Ensemble 介绍处于不同研究阶段的活性化合物 Thomson PharmaSM 全球综合性药学信息 马丁代尔药典 PubMed 全球最大的生物医学文摘 MDL数据库 MDL公司提供CMC药物分子数据库(8165个化合物)和MDDR活性化合物数据库(118675个化合物),以及ACD-3D和ACD- SC数据库(化合物供应商产品目录,后者含超过200万个化合

32、物,可用于虚拟筛选)。 SciFinder Scholar 每天更新的在线数据库,专利文献是特色。 ChemFinder 可采用化合物名称、CAS编号、分子式或者相对分子质量分类检索多个化合物数据库,包括反应数据库。有些数据库检索是收费 的。 ASINDEX 组合化学样品库 49 生物信息学(bioinformatics) v 基于数学、生命科学、化学和计算机科学的交叉学科. 利用计算机信 息处理技术对大量生物大分子作信息获取、加工、储存、分类、检索 与统计分析,揭示生物大分子的分子结构、功能、同源性和进化关系. 推动生命科学的发展,为创新药物的研究和开发奠定基础. 50 序列分析序列分析 生

33、物信息学的应用 核酸序列分析指直接从基因组序列中获取信息,同时为核酸序列分析指直接从基因组序列中获取信息,同时为 后者提供数据;蛋白质序列分析中,大部分是对同源蛋后者提供数据;蛋白质序列分析中,大部分是对同源蛋 白序列进行比对分析,以得到不同蛋白质之间的序列相白序列进行比对分析,以得到不同蛋白质之间的序列相 关性,从而推测蛋白质功能等。二者分析方法一致。关性,从而推测蛋白质功能等。二者分析方法一致。 生物大分子生物大分子 结构预测结构预测 虚拟筛选虚拟筛选 生物大分子包括生物大分子包括DNA、RNA、蛋白质和脂类。它们的、蛋白质和脂类。它们的 结构预测指建立精确的三维构象,这对于生物大分子结构

34、预测指建立精确的三维构象,这对于生物大分子 功能的阐明十分重要。而尚无晶体结构数据的生物大功能的阐明十分重要。而尚无晶体结构数据的生物大 分子,可采用分子模拟的方法预测大分子的三维结构。分子,可采用分子模拟的方法预测大分子的三维结构。 在进行生物活性筛选之前,在计算机上对化合物分子进在进行生物活性筛选之前,在计算机上对化合物分子进 预筛选,以降低实际筛选化合物数目,同时提高先导化预筛选,以降低实际筛选化合物数目,同时提高先导化 合物发现效率。合物发现效率。 51 药物发现中的生物信息学方法药物发现中的生物信息学方法 52 一、核酸和蛋白质的序列分析 (一) 单个序列分析 根据单个氨基酸物化性质

35、推测整个蛋白质的性质,也可对序列进行 统计分析,预测二级结构出现可能性. 20种氨基酸的疏水参数 53 根据统计值:根据统计值:Glu经常出现在经常出现在-螺旋中;螺旋中;Val常在常在-折折 叠中发现叠中发现; Pro通常不出现于通常不出现于-螺旋中和螺旋中和- 折叠中而倾向折叠中而倾向 于在回折中于在回折中 (数值(数值=1代表偏好处于平均;代表偏好处于平均;1代表偏好大于平均;代表偏好大于平均;1代表偏好小于平均)代表偏好小于平均) 54 (二) 双重序列比较序列比对 v 序列对比可以用各种矩阵表达并作相似性打分两个残基越相似则打分 值越高. 55 (三) 多重序列比对 v 多重序列比对

36、可更 多揭示相关蛋白质 序列中的保守区域, 进而分析蛋白质的 结构和功能。可采 用多种统计算法进 行多重序列比对。 56 二、蛋白质三维结构预测 57 蛋白质二级结构预测的意义 v 蛋白质的二级结构有螺旋、折叠、转角等。因为每一段 相邻的氨基酸残基具有形成一定二级结构的倾向,而且所有 蛋白质中约85%的氨基酸残基处于上述3种基本二级结构状态, 所以从序列预测蛋白质二级结构是可行的。 58 v1、Chou-Fasman方法 v2、GOR方法 v3、基于氨基酸疏水性的方法 蛋白质二级结构预测的方法 59 主要预测方法 60 1、从头预测法、从头预测法 (ab initio prediction)

37、v采用理论计算(分子力学、分子动力学、量子 化学)方法,直接从分子和原子参数计算出蛋 白质分子的稳定构象, v理论上最理想的方法,但计算量极大,对于实 际分子的计算超过能力范围 61 62 2、穿针引线法、穿针引线法 v 根据已知的蛋白质三维结构来预测可能的三维结构基于知识 的预测 v 可应用于进化非常疏远的结构预测 v 未知蛋白序列与折叠库中已知结构的蛋白序列作匹配计算,将序 列吻合的三维结构模块串连起来,得到整个蛋白三维结构 63 64 v 同源蛋白模建法homologous model building v 比较分子模拟法comparative molecular modeling v

38、同源模建 homology modeling v 同源蛋白法 protein homology v 根据已知的蛋白质三维结构来预 测可能的三维结构基于知识 的预测 v 同源蛋白有着相似的来源、相似 的结构和生物功能。通过比较蛋 白序列的相似性,按同源蛋白的 三维结构为模板,构建未知蛋白 的结构 v 一般要求同源性在30%以上,特 别是在结合区域同源性要好 65 步骤步骤 (1)根据未知蛋白质的序 列,寻找同源蛋白 (2)二重或多重序列对比 步骤 (3)找出共同的二级结构 区域,构建骨架 (4)对初始模型作能量优 化 (5)判断结构合理性 66 三、代表性生物信息学数据库 (一)核酸数据库 v

39、GenBankNIH所属国家生物技术信息中心NCBI v Nucleic Acid Database(NDB) 由European Molecular Biology Laboratory( EMBL)创建,现由英国剑桥的欧洲生物信息学研究所 ( European Bioinformatics Institute, EBI)维护 v DNA Data Bank of Japan(DDBJ)日本国立遗传学研究所的日 本信息生物学中心( Center for Information Biology, CIB)开发维护 v 三大库可交互 67 (二)蛋白质数据库 v PDB ( Protein Da

40、ta Bank at Brookhaven National Laboratories ) 美国 Research Collaboration for Structural Bioinformatics, RCSB开发维护的多肽、酶、病毒、碳水 化合物和核酸的三维结构数据 68 69 基于药效基团搜索的方法 v 药效团的概念早在1909 年就由Ehrilich 提出,特指载有活性必须特征原 子的分子框架。现在泛指生物活性分子(一般指小分子)中对活性起重 要作用的“药效特征元素”的空间排列形式。这些“药效特征元素”可 以是某些具体的原子或原子团,比如氧原子、苯环等;也可以指特定的 功能结构,如疏

41、水基团、氢键给体、氢键受体等。在得到某类抑制剂的 药效团模型后,就可以以药效团作为提问结构进行数据库搜索,从数据 库中筛选得到符合该药效团的候选分子,而在这些候选分子中可能包含 新的先导化合物。 70 u (1)初筛:其作用是先筛去那些不能与提问结构匹配的分子,减少进 入下一个阶段的候选分子数。大多数软件都把在该药效团中出现较多的 原子或基团作为约束条件,含有这些基团的则通过初筛,否则被淘汰。 u (2)二维子结构匹配:其目的是确定测试分子中药效模式间的连接方 式是否符合提问结构,这是一个较为耗时的过程。 u (3)三维结构搜索:在通过二维子结构匹配证明其包含药效团以后, 就需要验证它在数据库

42、中的构象和药效特征元素是否满足空间限制条件, 如果满足则该分子是一个命中结构。 基于药效团的搜索一般包含基于药效团的搜索一般包含3 个基本步骤个基本步骤 71 基于药效团的搜索软件 vCATALYST 是由美国Accelrys 公司面向药物研究领域的综合性开发软件,由于这 一软件为药效团模拟提供了完善的解决方案,使得CATALYST 成为近年来在基于 药效团模型的药物开发方面使用最广泛的软件。它能将抽象的药效特征元素与灵 活的几何约束条件相结合,尤其在定义药效团模型时,能够表达重要的化学概念。 在进行基于药效团模型的数据库搜索时,其一维限制条件与某些数据相联系,如 分子量、lgP 、pKa 等

43、,从而把搜索限定在某些数值范围内;二维约束支持定义 包含子结构或排除子结构,如包含芳香环,不包含羰基等;三维检索时,对每个 分子在生理条件下可能采取的各种构象进行搜索。为实现最佳的检索性能, CATALYST 经过了高度优化,即使最抽象的(化学表达)检索也不例外。 72 vUNITY 是另一搜索化学或生物数据库的搜索系统,由美国Tripos 公司开发。包括 2D(搜索特殊片段)、相似性、3D(搜索特征的三维结构或药效团)、柔性(允 许小分子通过改变键角、二面角等方式符合3D 条件)搜索。UNITY 在进行药效 团搜索时,支持3D/Flex 搜索,检索的药效团特征包括给体原子(donor ato

44、m)、 受体原子(accept atom)、给体位点(donor site)、受体位点(accept site)以 及疏水中心(hydrophobic center)等。在对小分子数据库进行药效团搜索时,采 用的特征限制条件可以是具体的原子或基团,如上述的给体原子、受体原子、疏 水中心;也可以是某些配体将与之发生作用的位点,即给体位点和受体位点等。 73 基于药效基团的结构搜寻基于药效基团的结构搜寻 74 药效基团的获取 基于靶点的药效基 团 基于配体的药效基 团 75 1、二维药效基团搜寻、二维药效基团搜寻 v 以平面的提问结构搜寻化合物结构式 二维药效基团搜寻 二维子结构搜寻 二维相似性搜

45、寻 76 (1)二维子结构搜寻)二维子结构搜寻 v 搜寻具有与提问结构相同子结构的化合物分子 77 (2)二维相似性搜寻)二维相似性搜寻 v 搜寻与提问结构某些特征相似的化合物分子 78 2、三维药效基团搜寻、三维药效基团搜寻 v 搜寻具有与相同作用基团和空间排布的化合物分子 79 例例 新抗生素的寻找新抗生素的寻找 80 例 D2/D3受体选择性拮抗剂药效基团模型 多巴胺D2类受体为抗帕金森症和安定类药物的靶点 D3/D4受体可能与精神分裂症有关 D2受体选择性拮抗剂取代哌嗪/哌啶类 D3受体选择性拮抗剂受体选择性拮抗剂苯酰胺类和四氢萘类苯酰胺类和四氢萘类 81 药效基团模型的建立药效基团模

46、型的建立 u 挑选26个D2受体选择性和22个D3受体选择性的化合物分别作为训练集, 分别产生D2受体D3受体模型 u 以Catalyst 将结构式转化为三维构象, 用Best conformational analysis进 行构象优化 u 用Catalyst/HypoGen产生药效基团。选择5个结构特征作为药效基团单元: HB Acceptor,HB Donor, HYDPHOBIC , HYDROPHOB aromatic , RING AROMATIC u 为D2/D3受体选择性拮抗剂分别产生了10个得分从高到低的Hypothesis 82 药效基团模型的可信度药效基团模型的可信度 p

47、 对于D2受体和D3受体产生的药效团模型,每个药效 基团模型的得分与理想模型的得分差值均大于40,说 明数据关联的可能性较大 p 所建立的D2受体和D3受体药效团模型可用于虚拟筛 选 83 未知化合物的活性预测未知化合物的活性预测 以未知化合物作为验证集 大部分预测值与实验值处于同一个数量级,并反映D2/D3受体的选择性 D2(左)和D3(右)受体拮抗剂药效基团MAPPING图 84 例 Muscarinic M3 受体拮抗剂的筛选 v过敏性肠道综合症与慢性阻塞性气管病 均与受体Muscarinic M3 有关。1999 年, Marriott 等采用基于药效团搜索的方法 进行了Muscari

48、nic M3 受体拮抗剂的筛 选。他们从文献中选出3 个已知的抑制 剂,利用DISCO 程序构建药效团模型, 最终有2 个四点模型用于数据库搜索 (图)。数据库搜索使用UNITY 程序, 数据库为自己课题组所构建,2 个药效 团模型筛选得到177 个完全不同的分子, 生物活性检测发现其中有3 个分子具有 较高的活性。 85 例例对对MC 增生抑制剂增生抑制剂的的筛选筛选 v 肾小球毛细血管中的血管系膜细胞(mesangial cell,MC)的增生与许 多血管疾病的发生有关。2001年,Kurogi 等采用基于药效团的数据库 搜索对MC 增生抑制剂进行了筛选,研究组从现有抑制剂出发,药效团 识

49、别采用CATALYST,构建了包含7 个药效特征元素的药效团模型。然 后CATALYST 搜索了包含47 045 个分子的数据库,得到41 个命中结构, 生物活性检测其中4 个化合物具有明显的MC 增生抑制活性。 86 三、三、基于定量构效基于定量构效 关系的关系的虚拟筛选虚拟筛选 87 定量构效关系方法及筛选定量构效关系方法及筛选 u 定量构效关系(quantitative structure-activity relationship,QSAR)研究 方法在现代药物设计方法中占有重要的地位,也是应用最为广泛的药物设 计方法。其目的是采用数理统计的方法研究和揭示化合物的活性与其分子 理化性质

50、之间的定量变化规律。传统的二维定量构效关系方法,如Hansh 法、模式识别Free-Wilson 法、电子拓扑法等早已为大家所熟知。随着 QSAR 理论及统计方法的发展,反映更加丰富信息的三维定量构效关系方 法如比较分子场分析(CoMFA)方法、距离几何法及分子形状分析方法等 都迅速得到了广泛应用。 88 u 基于定量构效关系筛选的方法也是最早发展起来的虚拟筛选方 法,并已由平面的2D 发展至空间的3D 模式。利用软件(如 Tripos 公司的CoMFA 或Accelrys 公司的CATALYST)分析一系 列已知化合物的各种性质、理化指标,构建定量构效关系。在 构效关系确定之后,即可应用于搜索各类数据库,筛选常使用 的有Cerius2 中的Diversity 模块。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论