化学信息学2-1_第1页
化学信息学2-1_第2页
化学信息学2-1_第3页
化学信息学2-1_第4页
化学信息学2-1_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章化学结构信息的计算机表示与应用 测量得到的物质的物理 化学性质和结构信息 以及分子间的相互作用信息 包括化学反应信息 化学信息可分为两大部分 化学物质的化学信息媒体形式的化学信息 化学信息的记录形式 如图书 期刊 专利 数据库及音像资料等 第二章化学结构信息的计算机表示与应用 科学测量结果 性质数据 谱数据等 原子或分子在空间上的分布与联结情况 化合物性质规律 计算机对化学信息的可视化表示 2 1结构信息的计算机表示 化合物的结构信息是化学信息中具有独特性质的部分 需要表示的不仅是数字和符号 更多的是组成分子的原子数目和种类 以及各原子间的相对位置和联结性 化学键 化学结构的表示应具有 唯一性 和 无二义性 象俗称和系统命名法 用文字和数字串 来表示结构的方法都不利于计算机操作 化学家在计算机交互界面上的表达方式 分子结构在计算机内部的存储方式 结构信息的计算机表示必须满足的条件 a 简洁 易学 符合化学家的工作习惯 b 能够转换为正确 无二义的计算机内部表示 并能无二义地转换成化学家可以理解的形式 即二维或三维结构图 c 内部表示要便于执行化学变换操作 d 结构信息表示系统应具有存储 处理 检索及显示功能 1 图论表示 2 线性编码 LinearNotation LN 3 矩阵表达 4 连接表 2 1 1有机化合物连接信息的计算机表示 1 连接信息的图论表示 结构图与拓扑图之间的相似性是用图论算法处理化合物结构信息的基础 一般以原子为点 顶点 以键为边作图 两个点之间用多边相连表示多键 如双键和三键 只有连接是重要的 边的长度和角度都不重要 表示原子之间的连接和键类型的图称为拓扑图 它不包含任何三维结构的信息 2 连接信息的线性编码表示 指用具有一定语法规则的字母和数字的线性序列来表示化合物的结构 线性编码表示法一般应具有 唯一性 和 无二义性 的特征 较为著名的线性编码 LN 方法有 WiswesserLN WLN ROSDALLNSMILESLNSybylLN 系统命名 苯丙氨酸IUPAC命名 2 氨基 3 苯基丙酸Wiswesser VQYZ1RROSDAL 1O 2 3O 2 4 5N 4 6 7 12 7SMILES NC Cc1ccccc1 C O OSybyl C 1 H CH CH CH CH C 1 CH2CH NH2 C O OH 1 Wiswesser线性编码 WLN 1946年 英国ICI公司为了用简化法有组织 系统地描述大量的化合物而提出 有利于特定官能团或者分子碎片的搜索 因此 可用于具有部分特征的分子的机器检索 用字母和数字的序列来表达化合物的结构 基本的WLN规则 b 一般情况下 采用化学元素的标准符号 c 大写字母A Z代表元素 原子团 支链和环的位置 d 数字0 9表示脂肪链的长度和环的数目 e 官能团 环系统 取代环的位置和稠合环的位置由单个的字母或符号表示 例如下表 a 按化合物结构原子联结的基本顺序 注意突出官能团 即从最接近官能团的一端开始 依次进行描述 ZVMRDG WLN编码举例 Z1VQ WLN的最大优点在于它的紧凑性 WLN的缺点 为使表达简洁和明确 不得不引入一系列复杂的规则 有时编码比较困难 而且 在编码唯一性方面也有问题 WLN的应用 科学信息所 ISI 的化学结构索引 化学注册系统索引 ICRS 帝国化学公司 ICI 20世纪70年代以后 WLN失去了原来的重要性 2 ROSDAL线性编码 RepresentationofOrganicStructuresDescriptionArrangedLinearly 1985年 Beilstein学院提出 用化学家很容易学的文字数字符号对化学结构进行简单编码 ROSDALLN是无岐义的 但不是唯一的 建立ROSDALLN的步骤 画出结构图 对原子任意编码 每个原子指定一个唯一的数字 氢原子不需要编号 自动地添加直至自由价饱和而被省略 简单的氢连接 按顺序写出代表原子的数字 并在其旁边直接写上该原子的元素符号 碳原子符号省略 键类型表示方法 表示单键 表示双键 表示三键 单双键交替可简写为 逗号用来分隔分支和取代基 1O 2 3O 2 4 5N 4 6 7 8 9 10 11 12 7 1O 2 3O 2 4 5N 4 6 7 12 7 ROSDAL的应用 1 用户使用Beilstein的DIALOG系统 Beilstein在线 进行数据库检索和结构显示时 用来传递结构信息 2 一般分子编辑器 如ISISDraw 产生的结构就是利用ROSDAL来交换结构信息的 3 SMILES线性编码 SimplifiedMolecularInputLineEntrySystem 1986年 美国环境研究所提出 后由DaylightChemicalInformationSystemsInc 改进和扩展 高度浓缩和简洁地表达化学结构信息 灵活易学 不依赖于软件和硬件 在全球得到广泛应用 快速数据转换格式 支持立体结构和反应编码 基本的SMILES规则 原子由各自的原子符号表示 有歧义的双字母符号必须写在方括弧内 如 C表示CH4 如 CO表示H3COH Na OH 表示NaOH 如 Fe 2 或 Fe 表示Fe2 氢原子自动地添加直至自由价饱和而被省略 简单的氢连接 相邻的原子表示彼此相连 用 表示原子间或分子各部分之间没有联结 各部分的排列是随意的 双键和三键分别用 和 表示 单键和芳香键可以省略 分支用小括弧表示 如 C C表示H2C CH2C C表示HC CHO CO表示HCOOH 环通过在两个原子之间的断环来描述 用分配的同一数字来表示 断开 环的 闭合 不同的数字代表不同的环 注意 9个以内的每个环简单用一个数字就可 从第10个环开始 需在表示环 开闭 的数字前加 如C12表示第1环和第2环的 开闭 C 12表示12号环的 开闭 用小写字母表示芳香结构中的原子 在芳香结构中的N原子上连接有一个H原子 需用 nH 表示 咪唑的编码为n1c nH cc1 如 吡咯的编码为c1c nH cc1 用 和 表示双键两端的顺反结构 如 反二氟乙烯的编码为F C C F 顺二氟乙烯的编码为F C C F 用 和 表示手性结构 如 L 丙氨酸的编码为N C H C C O O D 丙氨酸的编码为N C H C C O O 表示从N往手性中心C方向看 H CH3和 COOH呈顺时针方式分布 12345678910 SMILES编码举例 c1cccc2cnccc12 c1 c2 c ccn2 cccc1 c12cc3cc4cc5cc6cc7cc8cc9cc 10ccccc 10cc9cc8cc7cc6cc5cc4cc3cc2cccc1 C1CCC2CCCC3CCCC1C23 1 2 3 C1CCC2CCCC CC3 C2C1 C3 O C O c cn1 cc c1 c2cnc3cc O c OC cc3c O 2 c c1cncc C O O c1 2cnc3cc O c OC cc3c O 2 Na O c1ccccc1 c1cc O Na ccc1 SMILES编码的缺点不唯一 除了UniqueSMILES SMILES编码的应用 简洁的文本编码 不需要输入图形而且允许快速转换 常应用于互联网和在线服务 作为Day

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论