CN119418777A 基于多模态蛋白质语言模型的dna绑定残基预测方法 (湖南大学)_第1页
已阅读1页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于多模态蛋白质语言模型的DNA绑定残基本发明公开了生物信息学技术领域的基于多模态蛋白质语言模型的DNA绑定残基预测方法。该基于多模态蛋白质语言模型的DNA绑定残基预测方法包括以下步骤:将待进行DNA绑定残基预测的蛋白质序列P,依次使用工具分别获取知DNA绑定残基的蛋白质序列构建数据集并训练该基于多模态蛋白质语言模型的DNA绑定残基预测方法提高了DNA绑定残基预测的效率与精确2Rupley和InterProScan工具分别获取蛋白质结构PDB特征文件、蛋白质二级结构DSSP特征S2.将S1中获取的所有特征文件输入多模态蛋白质语言模型ESM3中得到一个嵌入矩阵2.根据权利要求1所述的基于多模态蛋白质语言S13.对于S12中得到的蛋白质P的PDB特征文件,使用S14.使用Shrake_Rupley算法对S12中得到的蛋白质P的PDB特征文件计算其溶剂可及S15.对蛋白质P的序列使用InterProScan工具搜索Pfam,PROSITE和C3.根据权利要求2所述的基于多模态蛋白质语4.根据权利要求2所述的基于多模态蛋白质语言模型的DN5.根据权利要求2所述的基于多模态蛋白质语6.根据权利要求2所述的基于多模态蛋白质语言模3向量M,eRL84,eij∈E表示为第i号和第j号的接触残基对定义边,欧式距离小于14A的残将S34中的蛋白质图G输入EGCL中执行一层EGCL的节点特征集合是长度为L的向量,里面的第i个元素表示第i个节点残基被预测7.根据权利要求6所述的基于多模态蛋白质语S322.从所有DNA蛋白质复合物中提取出已知DNA绑定残基标签的蛋白质序列集seq=S323.使用聚类阈值为0.4的MMseqs2工具将Seq聚类成C个簇并取出所有的C条代表序8.根据权利要求7所述的基于多模态蛋白质语言模S42.将每一个残基节点的输出p作为目标残基被预测为正样45定蛋白质的突变是引起许多疑难基因疾病的根本原因。准确识别DNA绑定残基有助于深入etal.Improvingpredictionperformanceofgeneralproteinlanguagemodelbydomain_adaptivepretrainingonDNA_bindingprotein[J].NatureCommunications,etal.GraphBind:proteinstructuralcontextembeddedruleslearnedbyhierarchicalgraphneuralnetworksforrecognizingnucleic_acid_binding层次图神经网络学习的蛋白质结构上下文嵌入规则用于识别核酸结合残基2021,49(9):e51_e51);EquiPNAS(RocheR,MoussadB,ShuvoMH,etal.EquiPNAS:improvedprotein_nucleicacidbindingsitepredictionusingprotein_language_model_informedequivariantdeepgraphneuralnetworks[J].NucleicAcidsResearch,2024,52(5):e27_e27NBR(ZengW,LvD,LiuX,etal.ESM_NBR:fastandaccuratenucleicacid_bindingresiduepredictionviaproteinlanguagemodelfeaturerepresentationandmulti_tasklearning[C].2023IEEEInternationalConferenceonBioinformatics和多任务学习的核酸结合残基快速准确预测[C].2023年IEEE生物信息学与生物医学国际[0004]ESM_DBP收集了大量的DNA绑定蛋白质用于改进大型通用蛋白质语言模型ESM2。GraphBind构建以目标残基为中心的局部蛋白质图来学习空间上下文嵌入信息,并使用了层次图神经网络作为分类器学习其鉴别特征。EquiPNAS使用了多种蛋白质序列和结构特6[0005]为了解决上述问题,本发明的目的在于提供一种基于多模态蛋白质语言模型的[0008]S1.将待进行DNA绑定残基预测的蛋白质序列P,依次使用AlphaFold2、DSSP、Shrake_Rupley和InterProScan工具分别获取蛋白质结构PDB特征文件、蛋白质二级结构[0009]S2.将S1中获取的所有特征文件输入多模态蛋白质语言模型ESM3中得到一个嵌入si[0016]S14.使用Shrake_Rupley算法对S12中得到的蛋白质P的PDB特征文件计算其溶剂ai表示蛋白质P的第i个残基的溶剂可示FUN中第i条功能注释信息,NNN表示FUN中功能注释信息的总数目,每条功能注释信息7L1}表示残基节点的集合,任意一个节点vi的特征是一个长的特征向量表示为第i号和第j号的接触残基对定义边,欧式距离小于将Yij转化为标量,每一层EGCL输出的节点特征集合Ml+1和坐标集Xl+1用于下一层EGCL的输子的欧式距离小于3.5A的残基定义为DNA绑定残基;[0031]S232.从所有DNA一蛋白质复合物中提取出已知seq={seq";[0032]S233.使用聚类阈值为0.4的MMseqs2工具将Seq聚类成C个簇并取出所有的C条代8[0038]图1为本发明的基于多模态蛋白质语言模型的DNA绑定残基预测方法的流程示意区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺[0042]S1.将待进行DNA绑定残基预测的蛋白质序列P,依次使用AlphaFold2、DSSP、Shrake_Rupley和InterProScan工具分别获取蛋白质结构PDB特征文件、蛋白质二级结构[0043]S2.将S1中获取的所有特征文件输入多模态蛋白质语言模型ESM3中得到一个嵌入并将其原子坐标表示为记作Coord的矩阵;S12中的记作Coord的矩阵为一个大小为L×NNNsi9[0050]S14.使用Shrake_Rupley算法对S12中得到的蛋白质P的PDB特征文件计算其溶剂ai表示蛋白质P的第i个残基的溶剂可到一个蛋白质功能注释信息特征文件蛋白质功能注释信息文件FUN=目,每条功能注释信息包含一条蛋白质功能注释文本STR和对应的功能区间R=L_1}表示残基节点的集合,任意一个节点vi的特征是一个长度为1534的特征向量M,eR884,eeE表示为第i号和第j号的接触残基对定义边,欧式距离小于将Yij转化为标量,每一层EGCL输出的节点特征集合Ml+1和坐标集Xl+1用于下一层EGCL的输[0062]S321.从PDB库中收集所有的DNA_蛋子的欧式距离小于的残基定义为DNA绑定残基;[0063]S322.从所有DNA_蛋白质复合物中提取出已知DNA绑定残基标签的蛋白质序列集seq=seq";seq=seq";[0064]S323.使用聚类阈值为0.4的MMseqs2工具将Seq聚类成C个簇并取出所有的C条代[0069]S1.将待进行DNA绑定残基预测的蛋白质序列P,依次使用AlphaFold2、DSSP、Shrake_Rupley和InterProScan工具分别获取蛋白质结构PDB特征文件、蛋白质二级结构[0073]S14.使用Shrake_Rupley算法对S12中得到的蛋白质P的PDB文件计算其溶剂可及到一个蛋白质功能注释信息文件其中表示FUN中第i条功能注释信子的欧式距离小于3.5A的残基定义为DNA绑定残基;[0081]S322.从所有DNA一蛋白质复合物中提取出已知[0082]S323.使用聚类阈值为0.4的MMseqs2工具将Seq聚类成C个簇并取出所有的C条代[0084]S34.根据S12生成的蛋白质结构原子坐标矩阵Coord和S24中生成的特征矩阵0i一个节点vi的特征是一个长度为1534的特征向量M,eR884,eeE表示为第i号和第j号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论