版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MolecularRepresentationsviaSequenEmbeddingandGraphConvolutional一种药物分子与靶标蛋白的结合亲和力预本发明涉及一种药物分子与靶标蛋白的结合亲和力预测方法,包括:获取药物分子的别对药物原子结构图和药物子结构结构图进行酸的特征嵌入表示拼接,得到拼接嵌入特征表优化药物分子与靶标蛋白的结合亲和力预测结2获取药物分子的SMILES序列和靶标蛋白的氨基酸序对于药物分子SMILES序列,将其表示为基于原子的药物原子结分别对药物原子结构图和药物子结构结构图进行表征学习对于氨基酸序列,利用自然语言处理中的语言模型对氨基酸的特征嵌循环遍历V2中的所有环,将V2中大于等于3个公共原子的环合并获取所述的药物分子的SMILES简化分子线性输入规范序利用深度学习神经网络的图卷积神经网络提取所述的药物原子结构图的相邻原子节将训练后的嵌入表示作为原子节点的初始特征表示,不断3对所述的药物原子结构图中的每个原子节点的特征嵌入表示进行最大池化操利用注意力机制提取每个子结构节点在所述利用深度学习神经网络的图卷积神经网络提取所述的药物子结构结构图的相邻子结将训练后的嵌入表示作为子结构节点的初始特征表示,不对所述的药物子结构结构图中的每个子结构节点的特征嵌入表示进行最大池化操作,利用自然语言处理中的语言模型对靶标蛋白的将多个氨基酸的特征嵌入表示进行最大池化操作,得到靶标蛋将靶标蛋白序列中的每一个氨基酸看作为自然语言处理文本序列基于最小二乘原理的回归方法训练得到每一个氨基酸的初始特将每一个氨基酸的初始特征嵌入表示输入一维卷积网络中循环训将所述的药物原子结构图的特征嵌入表示、药物子结构结构图的将拼接嵌入表示输入多层的全连接神经网络,获得药物分子与靶标45发高效的计算方法,以充分利用已知药物分子-靶标蛋白相互作用的异质生物学数据来厘了对药物分子-靶标蛋白相互作用的大规模识别。计算药物分子和靶标蛋白结合亲和力的[0005]基于相似性搜索的方法假设具有相似结构或理化性质的小分子化合物可以作用将已知的药物分子-靶标蛋白关系矩阵分解为分别代表药物分子和靶标蛋白的两个低维特和靶标蛋白的相似度矩阵。给定药物分子-靶标蛋白关系矩阵以及药物分子和靶标蛋白的物分子与靶标蛋白相互作用预测建模为二元分类(是否存在相互作用)或回归问题(输出为6[0009]由于深度神经网络(DNN)在图像识别和自然语言处理的序列数据的自动特征学习特征嵌入表示以增强药物分子与靶标蛋白的结合发现可用于骨质疏松症和黑色素瘤的治疗;西咪替丁本是治疗消化性胃溃疡的革命性药[0014](2)对于药物分子SMILES序列,将其表示为基于原子的药物原子结构图和基于子[0015](3)分别对药物原子结构图和药物子结构结构图进行表征学习,从而获得药物原子结构图的特征嵌入表示和药物子结构结构[0016](4)对于氨基酸序列,利用自然语言处理中的语言模型对氨基酸的特征嵌入表示78基于最小二乘原理的回归方法训练得到每一个氨基酸的初始特识别药物原子结构图和药物子结构结构图中重要的节点以及它们在结构图中的相互作用,9[0042]图9是在KIBA数据集的测试集上,真实结合亲和力和EmbedDTI预测的结合亲和力批准的药物寻找新用途可以避免昂贵且漫长的药物开发过程。为了有效地重新利用药物,前的药物分子-靶标蛋白实验建立计算模型估计新药物分子-靶标蛋白对的相[0047]SMILES(SimplifiedmolecularinputlineenRDKit可以将药物分子SMILES序列转化为药物分子了氨基酸的类型以及氨基酸之间位置关系的信息,同时也是蛋白质的一级氨基酸序列表子结构图相符。通过开源化学信息软件RDKit提供的函数可以将药物分子SMILES序列转化[0052]药物分子的原子结构图的一个主要限制是它平等对待所有的边并从单个顶点提[0060]步骤S46:如果V1中的化学键不属于任何一个简单环,将其加入药物子结构集合C[0061]步骤S47:循环遍历V2中的所有环,将V2中大于等于3个公共原子的环合并为新的2中所有的环都不存在三个或者三个以上的公共原子为止;分别表示独立的化学键构成的集合和简单环构成的集合。独立的化学键是从RDKit的后,我们建立了由不属于任何环中的化学键以及与其他环共享的原子少于3个的独立环构[0066](1)利用深度学习神经网络和注意力机制提取药物原子结构图的每个原子节点的[0067]卷积神经网络(CNN)不仅在计算机视觉和自然语言处理方面取得了巨大的成功,合物可以以图的形式表示,因此在本发明中使用GCN来学习药物原子结构图的特征嵌入表节点得到一个101维的one-hot初始特[0069]图中药物原子节点之间的连接关系形成了一个N×N维的邻接矩阵A。原子节点的初始特征矩阵xeRxd和邻接矩阵是GCN的输入。GCN层之间的传播可以用公式[0070]此外,在药物原子结构图的邻接矩阵和初[0071](2)对所述每个原子节点的特征嵌入表示进行最大池化操作,得到所述药物原子[0072]GCN模型学习到药物分子的原子节点特征嵌入矩阵表示输出zeRf,其中F表示[0073]通过不断循环执行利用图卷积神经网络训练提取药物原子结构图的原子节点的练结果作为所述药物原子结构图的原子节点[0074](3)将所述药物原子结构图的特征嵌入表示转换为128维的药物原子结构图的特出获得128维的药物原子结构图的特征嵌入表示向量。图6显示了药物原子结构图的GCN学[0077](1)利用深度学习神经网络和注意力机制提取药物子结构结构图的每个子结构节[0078]本发明同样使用GCN来学习药物子结构结构图的特征。和药物原子结构图提取原子节点的初始特征向量表示类似,本发明利用开源化学信息软件RDKit提取每一个子结构[0079]训练学习药物子结构结构图的每个子结构节点的特征嵌入表示过程与得到药物[0080](2)对所述每个子结构节点的特征嵌入表示进行最大池化操作,得到所述药物子[0081]得到药物子结构结构图的特征嵌入表示与得到药物原子结构图的特征嵌入表示[0082](3)将所述药物子结构结构图的特征嵌入表示转换为128维的药物子结构结构图[0083]将所述药物子结构结构图的特征嵌入表示输入两个全连输出获得128维的药物子结构结构图的特征[0085](1)利用所述的自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的良好表示,我们利用自然语言处理中语言模型的词嵌入技术对大型蛋白质数据库得序列空间的完整覆盖,同时隐藏冗余序列(但不是它们的描述信息)。与UniParc不同的的登录号条目和链接到相应的UniProtKB和UniParc记录。UniRef90是通过使用MMseqs2算法对具有11个或更多残基的UniRef100序列进行聚类而构建的,这样每个聚类都由具有至少90%的序列同一性和80%与集群的最长序列(又名种子序列)重叠的序列构建的。类似少了大约58%和79从而提供了更快的序列相似性搜索。本发明中使用UniRef50数据库[0089]所有的氨基酸的初始特征嵌入表示ei构成了整条氨基酸序列的初始特征嵌入矩阵E。将氨基酸序列的初始特征嵌入矩阵E作为深度卷积神经网络(CNN)的输入用于进一步特征表示学习。本发明采用一维CNN模型(即TextCNN),通过在氨基酸附近[0090](3)将所述的多个氨基酸的特征嵌入表示进行最大池化操作,得到所述靶标蛋白[0092](4)将所述靶标蛋白的氨基酸序列的特征嵌入表示转换为128维的靶标蛋白特征[0093]将所述靶标蛋白的氨基酸序列的特征嵌入表示输入一个全连接层神经网络进行始特征嵌入表示向量构成的初始特征矩阵输入三层的TextCNN网络中进行特征提取,再经用开源化学信息软件RDKit将其表示为基于原子的药物原子结构图和基于子结构的药物子阵和初始特征矩阵输入三层的图卷积神经网络中进行特征提取得到每个原子节点的特征对于药物子结构结构图,训练得到标准的药物子结构结构图的128维特征嵌入表示与药物和128维的靶标蛋白特征嵌入表示进行首尾拼接,得到的拼接嵌入表示经过三个全连接层关抑制剂及其各自的解离常数Kd值,而KIBA数据集是一个更通用的数据集,比Davis大得Kid和IC50得到蛋白质家族和相关抑制剂的KIBA分数。KIBA数据集中涉及229种蛋白质和[0102]实验设置:本发明评估了EmbedDTI在两个基准集Davis数据集和KIBA数据集上的0.2预测值和真实值之间的区别。其中bx是相对于真实较大结合亲和力结构聚类服务计算药物化合物之间的相似度。然后它使用基于内核的方法来计算EmbedDTI_noAttn对EmbedDTI[0120]第三,预训练通过引入一些先验背景知识来提高靶标蛋[0121]表4在KIBA数据集上EmbedDTI与其他5个基线模型的MSE和CI分数。尽管KIBA比子和子结构的两个结构图的药物表示大大提高了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐饮供应链企业采购管理制度
- 城市主要河流防洪堤达标建设项目可行性研究报告
- 电商公司托管合同范本
- 房子租给民宿托管合同
- 油炸店托管运营合同
- 闲置汽车托管合同模板
- 基金流转托管合同
- 托管店铺合同
- 农机托管农业合同
- 拉赫曼原理试题及答案
- DL∕T 2096-2020 水电站大坝运行安全在线监控系统技术规范
- AQ/T 9009-2015 生产安全事故应急演练评估规范(正式版)
- 人教版四年级数学下册期末试卷-
- 《民宿文化与运营》课件-第四章 民宿建设
- JC-T 2536-2019水泥-水玻璃灌浆材料
- TGDNAS 037-2023 结膜囊冲洗技术规范
- 人教版七年级历史下册教案全集
- 矿井瓦斯灾害防治
- 北京中医药大学《701中药综合1》(含中药学、分析化学、中药化学)历年考研真题汇编
- 会计师事务所司法会计鉴定工作底稿模版
- 2023年街道办人员招聘笔试考试题及答案
评论
0/150
提交评论