CN115954050B 基于蛋白质工程的集成序列与结构特征的深度学习系统及预测方法 (上海天鹜科技有限公司)_第1页
CN115954050B 基于蛋白质工程的集成序列与结构特征的深度学习系统及预测方法 (上海天鹜科技有限公司)_第2页
CN115954050B 基于蛋白质工程的集成序列与结构特征的深度学习系统及预测方法 (上海天鹜科技有限公司)_第3页
CN115954050B 基于蛋白质工程的集成序列与结构特征的深度学习系统及预测方法 (上海天鹜科技有限公司)_第4页
CN115954050B 基于蛋白质工程的集成序列与结构特征的深度学习系统及预测方法 (上海天鹜科技有限公司)_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2022122690A1,2022.04.21US2022165356A1,2022.基于蛋白质工程的集成序列与结构特征的本发明公开了一种基于蛋白质工程的集成发明先建立了整合序列和结构信息来预测蛋白量预测结果会首先被用来对深度学习模型进行表明当后续微调的实验数据量小于40或没有任型可以在预测高阶突变效果的任务上取得非常2所述局域编码器的输入为突变序列,局域编码器使用多重序列对比方法对所述全局编码器的输入为突变序列,全局编码器使用蛋白质语言模所述结构编码器的输入为突变序列和野生型结构,结构编码器使用开所述注意力层的输入为代表蛋白质序列信息的张量IV,张量IV是张量I和张量II层归将序列注意力权重和结构注意力权重的平均值作为联合所述输出层的输入为聚合向量和无监督模型的根据隐含向量和无监督模型的打分使用Sigmoid函数计算动态权重,该动态权重表示最后,将动态权重X突变效果打分+(1_动态权重)X无监督模型的打分作为输出层的2.根据权利要求1所述的基于蛋白质工程的集成序列与结构特征的深度学习系统,其量I1形式上满足包含氨基酸自身约束及氨基3.根据权利要求1所述的基于蛋白质工程的集成序列与结构特征的深度学习系统,其计算饱和单点突变评分矩阵和编码矩阵在每一个氨基4.一种如权利要求1_3中任一所述的基于蛋白质工程的集成序列与结构特征的深度学3训练数据包括蛋白质的野生型序列、野生型结构突变内容是指野生型序列中哪个位置的氨基酸突野生型序列根据训练集中各突变内容生成突变序将突变序列集中的每个突变序列依次输入到深度学习突变序列被全局编码器编码成包含蛋白质共性生化特征和进突变序列被结构编码器编码成包含蛋白质结构信息的张量III,张张量I和张量II分别层归一化后拼接成表征蛋白质序列信息序列注意力权重和结构注意力权重的平均值联合注意力权重和张量IV的加权求和得到的聚合向量就是突变效果打分和无监督模型的打分在动态权重的分配下得到该突变序列的突变预测突变预测分值与对应的突变后评估蛋白质特质的数值打分计算损失函数并更新深度将突变序列集下一个突变序列输入到更新后的深度学习模型使用验证集对训练后的深度学习模型进行验证得到验证后的给定目标突变内容,将目标突变序列输入到验证后的深度学习模型中5.根据权利要求4所述的基于蛋白质工程的集成序列与结构特征的深度学习系统的预6.根据权利要求5所述的基于蛋白质工程的集成序列与结构特征的深度学习系统的预通过给定突变内容获得该蛋白质大量的低点位4将各低点位突变数据使用无监督模型进行打分,得到突变后低点位突变数据和对应的突变后评估蛋白质特质的数值打7.根据权利要求6所述的基于蛋白质工程的集成序列与结构特征的深度学习系统的预8.根据权利要求6所述的基于蛋白质工程的集成序列与结构特征的深度学习系统的预对于实验数据不足的蛋白质,使用低点位突变数据和对应的突变5实验数据量要求较大,且在缺乏实验数据的情况下对多点位突变影响的预测精度仍然不[0005]本发明要解决的是现有深度学习在对蛋白质从序列到功能的预测上对实验数据于蛋白质工程的集成序列与结构特征的深度学[0007]一种基于蛋白质工程的集成序列与结构特征的深度学习系统,包括局域编码器、[0010]使用多重序列比对方法获得野生型序列的同源约束关系的张量I26进行编码输出编码了包含蛋白质共性生化特征和进化信息的张量II;张量II的尺寸为L×训练时蛋白质语言模型会根据部分氨基酸被遮掩的序列编码和完整序列编码的差异来调更有利。[0016]在结构编码器中,对于野生型结构使用开源的esm_if1模型获得饱和单点突变评进行softmax后得到张量III,张量III中元素即为概率表征突变序列中对应位置的氨基酸[0019]所述注意力层的输入为代表蛋白质序列信息的张量IV,张量IV是张量I和张量II蛋白质序列信息的张量IV和待学习参数矩[0026]而结构注意力权重,则是编码了蛋白质结构信息的张量III和待学习参数矩阵一7[0034]根据隐含向量和无监督模型的打分使用Sigmoid函数计算动态权重,该动态权重[0037]本发明还提供了一种基于蛋白质工程的集成序列与结构特征的深度学习系统的8[0058]突变效果打分和无监督模型的打分在动态权重的分配下得到该突变序列的突变数据和对应的突变后评估蛋白质特质的数值打分作为训练数据对深度学习模型进行训练,9[0082]图5为本发明GFP蛋白在不同体量实验数据下训练的模型的预测结果与实验结果微调的模型对2_8点位突变效果的预测结果和实验结果的[0083]图6为本发明无实验数据时使用无监督模型预测结果进行预训练的模型结果,其中,图A是无实验数据时预训练模型和ESM_IF1无监督模型对2_8点位突变效果的预测结果和实验结果的排序相关性;图B是无实验数据时预训练模型和ProGen2无监督模型对2_8点该张量I1形式上满足包含氨基酸自身约束及氨[0090]使用多重序列比对方法获得野生型序列的同源约束关系的张量I2[0092]因为目前许多已有模型会利用多重序列比对方法来提取进化过程中残基之间的[0098]而这些耦合参数ei和eij可以由正则化最大拟自然算法估计(由开源软件CCMPred整个输入的同源序列就可以通过拼接每个氨基酸的向量被表示[0100]由于每个氨基酸局部进化信息的表征长度和序列长度相近,其长为(L+1)的向量[0101]突变序列会通过Bi_LSTM层(双向长短记忆网络层)并被转化成大小为L×128的矩进行编码输出编码了包含蛋白质共性生化特征和进化信息的张量II;张量II的尺寸为L×训练时蛋白质语言模型会根据部分氨基酸被遮掩的序列编码和完整序列编码的差异来调更有利。[0107]在结构编码器中,对于野生型结构使用开源的esm_if1模型获得饱和单点突变评进行softmax后得到张量III,张量III中元素即为概率表征突变序列中对应位置的氨基酸给定序列折叠成该结构的概率进行评估。突变序列和野生型序列在此处的评估结果的比[0111]esm_if1会对更有可能折叠成原始结构的序列给出更高的评价,那么如果突变序(该分数即对应的突变序列的得分),其分布会构成一个尺寸为L×20的矩阵(L为序列长表征突变序列中对应位置的氨基酸是否为esm_if1模型认定的最[0115]所述注意力层的输入为代表蛋白质序列信息的张量IV,张量IV是张量I和张量II蛋白质序列信息的张量IV和待学习参数矩[0122]而结构注意力权重,则是编码了蛋白质结构信息的张量III和待学习参数矩阵一[0134]根据隐含向量和无监督模型的打分使用Sigmoid函数计算动态权重,该动态权重[0139]如图4所示,所以下面将分成直接使用实验数据的预测方法以及使用数据增强策[0161]突变效果打分和无监督模型的打分在动态权重的分配下得到该突变序列的突变[0173]然后通过选择的无监督模型通过给定突变内容获得该蛋白质大量的低点位突变[0175]然后使用低点位突变数据和对应的突变后评估蛋白质特质的数值打分作为训练有使用无监督模型生成数据仅使用实验数据进行训练的模型的预测结果与实验结果的排[0184]从图5中可以发现使用无监督模型产生的数据对模型进行预训练会让最终预测结[0185]同样,本发明还以GFP蛋白为例进行了无实验数据时使用无监督模型预测结果进无监督模型对2_8点位突变效果的预测结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论