CN113707235B 基于自监督学习的药物小分子性质预测方法、装置及设备 (平安科技(深圳)有限公司)_第1页
CN113707235B 基于自监督学习的药物小分子性质预测方法、装置及设备 (平安科技(深圳)有限公司)_第2页
CN113707235B 基于自监督学习的药物小分子性质预测方法、装置及设备 (平安科技(深圳)有限公司)_第3页
CN113707235B 基于自监督学习的药物小分子性质预测方法、装置及设备 (平安科技(深圳)有限公司)_第4页
CN113707235B 基于自监督学习的药物小分子性质预测方法、装置及设备 (平安科技(深圳)有限公司)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2020168302A1,2020.0基于自监督学习的药物小分子性质预测方本申请公开一种基于自监督学习的药物小确定第一分子线性输入规范数据的第二特征向量和第二分子线性输入规范数据的第三特征向基于调整后的目标图神经网络模型输出目标药物小分子满足预设特征约束条件的目标特征向2依据目标药物小分子的化学分子结构生成分子将所述分子图结构和所述邻接矩阵、所述属性信息输提取所述目标药物小分子对应的第一分子线性输入规范模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线性输利用所述第一特征向量、所述第二特征向量和所述第三特征向量计算对比损失函数;络模型输出所述目标药物小分子对应的目标特征向量和所述第二特征向量的特征距离小于第一预设距离阈值且所述目标特征向量和任一所述第三特征向量的特征距离大于第二将所述目标特征向量输入训练完成的性质预测模型中,计算所述节点隐向量的隐向量平均值,将所述隐向在所述节点隐向量提取对应隐向量值最大的第一节按照预设药物小分子标识,在分子线性输入规范匹配的第一分子线性输入规范数据以及预设数量个与所述目标药物小分子不同化学分子数据和所述第二分子线性输入规范数据是预先基于分子线性输入规范生成并存储至所述子线性输入规范数据对应的第二特征向量以及所述第二分子线性输入规范数据对应的第3若否,则更新所述初始BERT模型的模型参数,并对更新后的初始BER获取未标记图数据集和第一标记图数据集,所将所述未标记图数据集作为训练样本,通过对预设的图神将所述第一标记图数据集作为训练样本,通过对所述第一图神经网络模型进行训练,及与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范述目标图神经网络模型输出所述目标药物小分子对应的目标特征向量和所述第二特征向量的特征距离小于第一预设距离阈值且所述目标特征向量和任一所述第三特征向量的特第三确定模块,用于将所述目标特征向量输入训计算所述节点隐向量的隐向量平均值,将所述隐向在所述节点隐向量提取对应隐向量值最大的第一节按照预设药物小分子标识,在分子线性输入规范匹配的第一分子线性输入规范数据以及预设数量个与所述目标药物小分子不同化学分子4数据和所述第二分子线性输入规范数据是预先基于分子线性输入规范生成并存储至所述权利要求1至5中任一项所述的基于自监督学习的药5[0003]传统的药物小分子性质预测方法要求研究人员进行特征工程以合理选择药物的[0005]根据本申请的一个方面,提供了一种基于自监督学习的药物小分子性质预测方语言模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线[0012]第二确定模块,用于提取所述目标药物小分子对应的第一分子线性输入规范数6序被处理器执行时实现上述基于自监督学习构对应的第一特征向量;进而在提取出目标药物小分子对应的第一分子线性输入规范数[0018]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本[0020]图1示出了本申请实施例提供的一种基于自监督学习的药物小分子性质预测方法[0021]图2示出了本申请实施例提供的另一种基于自监督学习的药物小分子性质预测方[0022]图3示出了本申请实施例提供的一种基于自监督学习的药物小分子性质预测的原7[0023]图4示出了本申请实施例提供的一种基于自监督学习的药物小分子性质预测装置[0024]图5示出了本申请实施例提供的另一种基于自监督学习的药物小分子性质预测装[0028](1)数据本身提供的信息远比稀疏的标签更加丰富,因此使用有监督学习方法训[0029](2)有监督学习通过标签训练得到的模型往往只能学到一些任务特定的知识,而面运用分子的分子线性输入规范(Simplifiedmolecular-inputline-entrysystem,影响相应的分子描述符的质量。另一方面,近年内兴起了基于分子图数据和图神经网络目前用于药物分子性质预测的主流表示方式有两种渠道:SMILES字符串表达式和分子图,大多数方案都是基于其中之一实现的。故在本申请可通过整合两类重要的表征技术手段,8到分子表达领域。将保留大量原始结构信息的SMILES表达式视作包含丰富语义的序列数习任务和性质预测任务结合在一起进行端到端训练的工作流程虽然在足量数据下可以取物表示学习问题尤为突出。这几乎是所有基于非图谱方法的图卷积神经网络的共同缺点。9适用于节点度预测任务的图神经网络的权重矩阵。然后可以将节点embedding接到分类器中并使用有标签的数据进行分类学习;直接在图神经网络上使用有标签的数据继续训练,后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数[0049]其中,预设语言模型具体可为BERT语言模型,BERT(BidirectionalEncoderRepresentationTransformers)代表来自Transformer的双向编码器表示。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。BERT会采用WordPiece对输入进时态的影响降低,使词的意思与时态分开,有效减少了词表规模。其次,对句子进行embedding时引入了[CLS]与[SEP]特殊字符,对每个句子序列的第一个标记始终是[CLS],给第二个句子的每个标记加入E嵌入。最后,对输入的每个位置都会训练一个位置嵌入向分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第相连。环己烷(C6H12)表示为C1CCCCC1。需要注意,标志应该是数字(在此例中为1)而不是 一步将第一分子线性输入规范数据和第二分子线性输入规范数据分别输入预训练完成的[0053]对于本实施例,当获得目标小分子的来自两个路径(目标图神经网络模型和BERT于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标便利用训练完成的性质预测模型实现对目标药物小分子及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据中的具体实施过程,提供了另一种基于自监督学习的药物小分子性质预测方法,如图2所而利用预训练完成的目标图神经网络模型确定分子图结构中各个节点的节点隐向量。其化学键个数+5位形式电荷+4位原子手性+5位绑定的氢原子个数+5位原子轨道混成+1位芳信息传递(messagepassing)阶段和读出(readout)阶段。信息传递阶段就是前向传播阶[0078]对于本实施例,在基于实施例步骤201确定出分子图结构中各个节点的节点隐向量后,可进一步依据各个节点的节点隐向量获得整个分子结构图的信息向量表示(如通过模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数输入规范数据库中提取与目标药物小分子匹配的第一分子线性输入规范数据以及预设数量个与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数特征约束条件。由于第一特征向量和第二特征向量是对同一目标药物小分子的特征表达,目标药物小分子的特征表达,故第一特征向量和任意一个第三特征向量均应是不相似的,络模型输出目标药物小分子对应满足预设特征约束络模型输出目标药物小分子对应的目标特征向量和第二特征向量的特征距离小于第一预设距离阈值且目标特征向量和任一第三特征向量的特征距特征向量和任一第三特征向量的特征距离小于/等于第二预设距离阈值时,则可进一步判定当前的第一特征向量不是目标药物小分子能够区分于与目标药物小分子不同化学分子表示性质预测模型的训练精度越高,预设阈值的具体数值可根据实际应用场景进行设定,[0098]对于本申请,基于自监督学习的药物小分子性质预测过程可参见图3所示的基于(BidirectionalEncoderRepresentationTransformers,BERT)确定第一分子线性输入基于第一特征向量、第二特征向量和第三特征向量计算的对比损失函数(Contrastive预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输[0102]第二确定模块32,可用于提取目标药物小分子对应的第一分子线性输入规范数特征距离小于第一预设距离阈值且目标特征向量和任一第三特征向量的特征距离大于第[0107]相应的,在利用各个节点的节点隐向量生成目标药物小分子的[0108]在具体的应用场景中,在提取目标药物小分子对应的第一分子线性输入规范数库中提取与目标药物小分子匹配的第一分子线性输入规范数据以及预设数量个与目标药分子线性输入规范数据和第二分子线性输入规范数据是预先基于分子线性输入规范生成[0119]第三训练模块313,可用于将预设性质预测任务对应的第二标记图数据集作为训[0124]可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏与目标药物

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论