化学信息处理_第1页
化学信息处理_第2页
化学信息处理_第3页
化学信息处理_第4页
化学信息处理_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、化学信息学化学信息学 产生的背景 组合化学和高通量筛选,出现了巨大的信息,需要 快速收集、存储、分析和处理,随着信息技术向化学 领域的渗透,形成了新的交叉学科化学信息学。 研究内容 化合物信息在计算机中的表示 化合物数据库的建立、使用和管理 化合物相似性、多样性及分子类药性分析 化合物定量构效关系 牛牛文库文档分享 化学信息学 Chemoinformatics,chemical informatics, Cheminformatics,chemi-informatics 利用计算机信息处理技术对化学分子结构利用计算机信息处理技术对化学分子结构 和相关信息进行管理的一种综合性技术和和相关信息进行

2、管理的一种综合性技术和 学科学科 应用化学信息学可促进化学信息的获取、应用化学信息学可促进化学信息的获取、 转化与共享转化与共享 牛牛文库文档分享 一、化学信息的表示方法一、化学信息的表示方法 化学 分子 一维结构:一维结构:化合物名称(俗名);线性符号表示法。化合物名称(俗名);线性符号表示法。 二维结构:二维结构:原子用元素符号,键用短线,即化合物结构式。为平面结构。原子用元素符号,键用短线,即化合物结构式。为平面结构。 三维结构:三维结构:原子的空间位置、相互间距离、键角和二面角等。原子的空间位置、相互间距离、键角和二面角等。 分子表面:分子表面:建立在三维结构基础上,能与分子的三维结构

3、一一对应。建立在三维结构基础上,能与分子的三维结构一一对应。 牛牛文库文档分享 一 维 结 构 NC(Cc1ccccc1)C(O)=O (SMILES编码) 三 维 结 构 二 维 结 构 分 子 表 面 苯丙氨酸分子结构表征层次苯丙氨酸分子结构表征层次 OH O H2N 牛牛文库文档分享 (一)一维结构表示(一)一维结构表示 牛牛文库文档分享 SMILES(简化分子线性输入系统) 编码的基本原则 原子通常以大写元素符号表示(省略氢原子),芳香结构 原子则以小写表示。 相邻原子依次排放在一起,单键通常省略,双键和三键分 别以“=”和“#”表示,芳香键以“:”表示,也可省 略。 分支部分放在括号

4、内,环则打开,并赋予断开键两端的原 子以相同的数值。 双键“/”表示顺式,“”表示反式。 原子顺时针排列用表示,逆时针排列用表示。 牛牛文库文档分享 甲烷 CH4 C 乙醇 C2H5OH CCO 氰化氢 HCN C#N 环已烷 C6H12 C1CCCCC1 吡啶 C5H5N n1ccccc1 异丁酸 (CH3)2CHCO2H CC(C)C(=O)O 反式二溴甲烷 Br/C=C/Br 或BrC=CBr 顺式二溴甲烷 BrC=C/Br 或Br/C=CBr L-丙氨酸 NCH(C)C(=O)O D-丙氨酸 NCH(C)C(=O)O 牛牛文库文档分享 举例说明 苯丙氨酸 OH O H2N NC(Cc1

5、ccccc1)C(O)=O 牛牛文库文档分享 OH CN C/C=CC=CH(O)C#N SMILESSMILES编码的立体化学信息表示编码的立体化学信息表示 牛牛文库文档分享 SLN编码(Sybyl线性标记法)的 规则 原子以其元素符号表示,氢原子也要显示; 单键省略,双键、三键和芳香键分别以“=” “#”和“:” 表示; 分支也采用括号表示;环也打开,依靠环上一个预先定义好 的具有唯一编号的原子及符号来识别,如环己烷表示为 C15H2CH2CH2CH2CH2CH215; 原子和键的属性(如电荷、立体化学性质等)可通过方括号 或尖括号在该原子后标记出; 对大分子的原子,可使用缩写,如氨基酸可

6、以用其三个字母 缩写形式表示。 牛牛文库文档分享 (二)二维结构表示(二)二维结构表示 1 1、图论基础和图的矩阵表示、图论基础和图的矩阵表示 一个简单的图由顶点(V)和边(E)组成,因此图被定义为 一个三元组, 为映射函数。在下面一个简单的无向图中, V=1,2,3,4, E=e1,e2,e3,e4, e5, e6。 14 23 e1 e2 e4 e3 e5 e6 牛牛文库文档分享 图也可用矩阵表示:设G=为无向图, 令mij等于顶点vi与边ej的关联次数,则称(mij)n*m 为G的关联矩阵,记为M(G)。 M(G)= 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 1 1

7、 1 0 0 1 0 1 14 23 e1 e2 e4 e3 e5 e6 牛牛文库文档分享 CC C H CC C C N H C C O O H OH O H2N 用图表示苯丙氨酸的结构用图表示苯丙氨酸的结构 牛牛文库文档分享 2 2、化合物结构的矩阵表示、化合物结构的矩阵表示 (1)邻接矩阵(以乙醛为例) (2)距离矩阵:表示了相应原子之间的距离:几何距离(用)距离矩阵:表示了相应原子之间的距离:几何距离(用表示),表示), 拓扑距离(两原子之间连接的键的个数)拓扑距离(两原子之间连接的键的个数) (3)键矩阵:矩阵元素为相连接的两个原子之间的键级。)键矩阵:矩阵元素为相连接的两个原子之间

8、的键级。 双键:双键:2,三键:,三键:3。 (4)关联矩阵:是一个)关联矩阵:是一个nm的矩阵。的矩阵。 顶点(原子)作为列(顶点(原子)作为列(n),边(化学键)作为行(),边(化学键)作为行(m),), 如果边在顶点内,则相应的元素置为如果边在顶点内,则相应的元素置为1。 牛牛文库文档分享 3、连接表 20世纪80年代开始,成为化合物在计算机中表示的最主要方法。 首先对每个原子进行编号并列表 然后在另一表格中列出键的信息, 键级用整数表示,1表示单键,2表示双键。 牛牛文库文档分享 (三)三维结构表示(三)三维结构表示 1 1、直接坐标法、直接坐标法 用迪卡尔坐标用迪卡尔坐标 直接存储每

9、个原子的直接存储每个原子的 三维坐标(三维坐标(x,y,z) 牛牛文库文档分享 2 2、内坐标法、内坐标法 每个原子位置以与其他原子间的每个原子位置以与其他原子间的3 3个相对位置个相对位置 关系表示关系表示相对距离、键角、二面角相对距离、键角、二面角 牛牛文库文档分享 (四)分子存储格式及其相互转(四)分子存储格式及其相互转 换换 文件格式扩展名特点 Molfile*.molMDL公司提出的分子文件格式,应用最广泛的连接表格式 Mol2file*.2molTripos公司推出,包含一个或多个化合物。目前药物设计领域最流行的格式 Maestro*.maeSchodinger公司推出的一种文件格

10、式,包含一个或多个化合物。 SDfile*.sdf结构数据文件,MDLMolfile的扩展,包含一个或多个化合物。 RDfile*.rdf反应数据文件,MDLMolfile的扩展,包含一个或多个反应。 SMILES*.smi应用最广泛的线性编码和文件格式 PDB*.pdb蛋白质数据文件,蛋白质和多聚核苷酸的3D结构信息文件 CIF*.cif晶体信息文件格式,用于表示有机分子的3D结构 JCAMP*.jdx, *.dx, *.cs原子和分子物理数据,结构和光谱文件格式 CML*.cml化学标注语言;XML在化学上的扩展 牛牛文库文档分享 基本存储基本存储 分子的元素组成、原子坐标、原子连接关系分

11、子的元素组成、原子坐标、原子连接关系 其他存储其他存储 分子子结构信息,适用于生物大分子分子子结构信息,适用于生物大分子 原子电荷信息,调用时不必再计算原子电荷信息,调用时不必再计算 确定特定原子化学环境的原子类型信息确定特定原子化学环境的原子类型信息 牛牛文库文档分享 二、化合物数据库的生产和管理二、化合物数据库的生产和管理 目前有很多商业化合物数据库可以利用目前有很多商业化合物数据库可以利用 MDL药物数据报告(药物数据报告(MDDR)含有)含有115000个类药性个类药性 化合物。化合物。 美国国家癌症研究所(美国国家癌症研究所(NCI)数据库含有)数据库含有250000个个 化合物。化

12、合物。 牛牛文库文档分享 MDL ISISMDL ISIS化学数据库管理系统 uISIS系统提供了基于Oracle 数据库系统的各类化学信息系统的管理和开 发工具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学 信息。 uISIS已应用于全球超过80%的化学与制药企业,已成为事实上的化学信 息管理系统的工业标准。 牛牛文库文档分享 ISIS (Integrated Scientific Information Management System)MDL的综合性结构 和反应管理软件 由三个主要模块组成: (1) 化学信息管理系统:ISIS/HOST主服务器应用程序, 进行通讯连接,集中

13、数据库数据并作处理 (2) 化学信息生成和管理软件:ISIS/BASE用于生成局 部数据库及处理信息 (3) 化学画图软件:ISIS/DRAW用于输入结构式和搜寻 询问条件 牛牛文库文档分享 2D2D结构输入结构输入 计算机绘制化学结构式计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会自动变为首先输入原子和键的骨架结构,原子数、电荷会自动变为 上下标上下标 软件的模板中收集大量分子片段软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等还可有附加功能,如自动命名、化学计算

14、、光谱分析等 牛牛文库文档分享 三维结构的转化三维结构的转化 3D结晶结构参数转 入3D数据库 软件将2D化学结构迅速地转为3D模型 牛牛文库文档分享 三、分子相似性和多样性分三、分子相似性和多样性分 析析 n 分子相似性和多样性分析方法的原则:结构相似的分子有着相似的性 质或活性。 n 作用:在识别新的具有与已知化合物相同性质或活性的化合物时具有 十分重要的作用。 数据库的化学多样性(chemical diversity): 数量巨大的、结构不同的贮藏和检索系统适用于先导化 合物发现 数据库的化学相似性(chemical similarity) 适用于先导化合物优化 n 评价方法:通过计算分

15、子的描述符,并比较化合物描述符的近似程度。 牛牛文库文档分享 分子描述符分子描述符 u 概念:在相似性和多样性分析中,需要建立化合物结构和它们 生 物活性或者理化性质的映射,分子描述符就是其中的一种映 射。 u 作用:通常一个或多个描述符可以用来描述分子的结构、性质 等, 如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指 数描述 了结构的复杂性。 u 描述符的内容是由两方面决定的,一是化合物的分子表示,二 是计 算描述符的算法。 牛牛文库文档分享 分子表 示方法 描述符示 例 0D原子数目氢原子数目,杂原子数目,重原子数目 键数目双键数目,三键数目,可旋转键数目 相对分子质量相对分子质量

16、,平均相对分子质量 分子性质脂水分配系数 1D碎片数目伯碳原子数目,叔碳原子数目;手性碳原子数目,羟基数目, 羧基数目;氢键供体数目,氢键受体数目 2D拓扑描述符Zagreb指数,Wiener指数,Balaban J指数,连接指数,kappa 形状指数,2D自关联向量 3D几何描述符分子偏心率,回转半径,3D Wiener指数, 3D Balaban 指数, WHIM 描述符,GETAWAY 描述符,3D 自关联向量 3D表面性质平均分子静电势,疏水势,氢键势 3D网络性质比较分子场分析 4D3D坐标+构象取样 分子描述的分类分子描述的分类 牛牛文库文档分享 分子相似性分析方法分子相似性分析方

17、法 基于定性特征的和基于定量特征的。 对于两个化合物A和B, a是A所具有而B不具有的特征数目 b是B所具有而A不具有的特征数目 c是两者共同的特征数目 d为两者都不具有的特征数目 c和d表示了化合物A和B之间的相似性 a和b表示了化合物A和B之间的多样性 所有的特征数目为n=a+b+c+d 这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目 c+d在所有特征数目(c+d)+(a+b)中所占的比例,即(c+d)/ (a+b+c+d)。这也被称作为简单匹配系数。 可以看出,A和B均不具有的特征并没有表达任何信息,所以,d可以从 上面的方法中删除,得到了Tanimoto相似度计算公式。

18、 牛牛文库文档分享 化学多样性的定量表达化学多样性的定量表达TanimotoTanimoto系系 数数 用化学空间中电荷和电势等描述符比较不同分子的性 质 TC = c /(a+b+c) a为A中基础片断的描述符的数 b为B中基础片断的描述符的数目 c为A和B中共有的基础片断的描述符的数 目 相同分子TC = 1;分子没有共同描述符时TC = 0 牛牛文库文档分享 相似性搜寻 根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即相似 性搜寻。 步骤: 1、目标选择 2、描述符选择和编码 3、相似性评价方法选择 4、搜寻语句的输入 5、相似性打分 牛牛文库文档分享 四、互联网

19、上的化学信息资四、互联网上的化学信息资 源源 牛牛文库文档分享 (一)化学搜索引擎(一)化学搜索引擎 1、大型通用搜索引擎:Google、百度等。 2、专门用于搜索化学信息的引擎:ChemFinder, MetaXchem. (二)互联网上的化学数据库(二)互联网上的化学数据库 1、文献数据库(CA、Medline) 2、化合物数据库(Gmelin, CSD) 3、综合数据库(Beilstein、PDB) 牛牛文库文档分享 常用化合物数据库 uFCD (Fine Chemicals Directory) MDL 维护。收 载约90 000化合物和20 000化合物数据,包括化学系统名、 俗称、

20、分子式、分子量、供应商、价格、CAS登录号、纯度 等。可通过结构式或其它任何数据检索 uACD (Available Chemicals Directory) MDL维护。 FCD数据库加上可大批量供货的化学品信息。目前有25万个 化合物 uCSD(Cambridge Structure Database) 20多万 个结晶的3D结构实验数据及相关数据 牛牛文库文档分享 常用数据库的网址常用数据库的网址 Ensemblehttp:/ 介绍处于不同研究阶段的活性化合物 Thomson PharmaSMhttp:/www.thomsonS 全球综合性药学信息 马丁代尔药典http:/ PubMed

21、 全球最大的生物医学文摘 MDL数据库http:/ MDL公司提供CMC药物分子数据库(8165个化合物)和MDDR活性化合物数据库(118675个化 合物),以及ACD-3D和ACD-SC数据库(化合物供应商产品目录,后者含超过200万个化合物, 可用于虚拟筛选)。 SciFinder Scholar/SciFinder/newfeatures.html 每天更新的在线数据库,专利文献是特色。 ChemFinderhttp:/ 可采用化合物名称、CAS编号、分子式或者相对分子质量分类检索多个化合物数据库,包括反应 数据

22、库。有些数据库检索是收费的。 ASINDEXhttp:/ 组合化学样品库 牛牛文库文档分享 SMILES(简化分子线性输入系统) 编码的基本原则 原子通常以大写元素符号表示(省略氢原子),芳香结构 原子则以小写表示。 相邻原子依次排放在一起,单键通常省略,双键和三键分 别以“=”和“#”表示,芳香键以“:”表示,也可省 略。 分支部分放在括号内,环则打开,并赋予断开键两端的原 子以相同的数值。 双键“/”表示顺式,“”表示反式。 原子顺时针排列用表示,逆时针排列用表示。 牛牛文库文档分享 (二)二维结构表示(二)二维结构表示 1 1、图论基础和图的矩阵表示、图论基础和图的矩阵表示 一个简单的图由顶点(V)和边(E)组成,因此图被定义为 一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论