版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
US2021166779A1,2021.US2021202043A1,2021.一种预测蛋白质-多肽结合位点的方法及系统本发明公开了一种预测蛋白质-多肽结合位BERT和对比学习的神经网络模型首先将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩络层,得到每个氨基酸的低维表示矩阵;进行明使用预训练模型BERT作为对原始蛋白质序列2获取待预测的蛋白质-多肽序列数据,将所述数据输入到训练好的基于预训练模型其中,所述基于预训练模型BERT和对比学习的神经网络模型首先将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵,所述嵌入矩阵经过BERT编码和全连接神经网络层,通过多头注意力机制学习蛋白质序列的多角度上2.如权利要求1所述的一种预测蛋白质-多肽结将原始蛋白质序列编码为一个数字值向量;所述编码4.如权利要求1所述的一种预测蛋白质-多肽结合位点的构建对比损失作为针对批量数据的损失函数白质序列x中生成的位点表示向量被送入多层感知机,将特征向量转换为位点级别的类别6.如权利要求1所述的一种预测蛋白质-结合位点预测模块,用于将所述数据输入到训练好的基基于BERT的编码器模块,用于使得所述嵌入矩阵经过BERT编码和全连接神经网络层,3通过多头注意力机制学习蛋白质序列的多角度上设备的处理器加载并执行权利要求1-6任一项所述的预4[0001]本发明涉及生物信息技术领域,特别涉及一种预测蛋白质-多肽结合位点的方法[0002]蛋白质-多肽相互作用是重要的蛋白质相互作用之一,在许多基本细胞过程中起[0003]目前已经有许多实验方法可以通过确定蛋白质的复杂结构来帮助找到蛋白质-多性强等特点,所以通过生物学实验的方法找到蛋白质-多肽结合位点仍然具有挑战性。因[0004]目前,预测蛋白质-多肽结合位点的计算方法一般可分为基于结构和基于序列的法可以解决蛋白质-多肽结合位点的预测问题,但在实际的预测过程中可能没有完全考虑5[0011]获取待预测的蛋白质-多肽序列数据,将所述数据输入到训练好的基于预训练模[0012]其中,所述基于预训练模型BERT和对比学习的神经网络模型首先将原始蛋白质-6[0030]图1为本发明实施例中基于预训练模型BERT和对比学习的深度神经网络结构示意[0040]在一个或多个实施方式中,公开了一种预测蛋白质-多肽结合位点的方法[0041]获取待预测的蛋白质-多肽序列数据,将所述数据输入到训练好的基于预训练模[0046]在已经提出的很多对比框架中,使用更多的负样本可以极大地提高模型的7[0048]在序列embedding模块中,原始蛋白质序列中的每个氨基酸都被转换为一个预先WQ,wk,wveRdn⃞dk转化为查询矩阵键矩阵keRLxdt和值矩阵8[0061]其中XMultiHead是多头注意力机制的输出,w(1)eRdm⃞dr和是两个线性层并且在所有位置共享。dm是初始嵌入维度,df是前向网络隐藏层的维度。gelu(GaussianErrorLinearUnits)是一个非线性激活函数,前馈网络的输出也运用了残差为了避免维度的冗余,如下使用FNN(全连接神经网络)来更好地提取输入序列中氨基酸的[0067]其中w(3)eRdm⃞d1和是FNN的线性层,elu(Exponential9[0073]由前面的模块从原始蛋白质序列x中生成的位点表示向量z被送入多层感知机[0079]为了避免L2损失的反向传播干扰表示学习模块和由于深度模型BERT引起的梯度分类任务中常用的四个指标,包括召回率(Recall)、特异性(Specificity)、准确率确预测的结合残基的比例,Specificity是指模型正确预测的非结合残基的比例。[0088]选择在SPRINT-Seq方法中提出的包含有1,279个肽结合蛋白的数据集作为我们的法PepBCL与最新的方法(PepBind、PepNN-Seq、PepNN-Struct)的性能,我们还获取了与PepBind方法相同的训练集(由TR640表示)和测试集(由TS639表示)作为Dataset2的训练[0094]从文章“Acomprehensivecomparativereviewofsequence-based为DNA30)和30个RNA结合蛋白质(命名为RNA30);[0095]从文章“StackCBPred:Astackingbasedpredictionofprotein-方法和多个最新方法在内的现有方法进行了比较。评价指标为体现模型综合性能的AUC和施例提出的对比学习模块能够帮助模型提取到更加高质量的特征,我们进行了消融实验,[0097]对于完整网络我们通过最小化对比损失函数Lconrast与交叉熵损失函数之预测结果的可视化图。(A)-(C)分别代表在蛋白质4l3oA上生物学实验得到的真实结合残[0101]为了验证本实施例神经网络模型对蛋白质-多肽结合位点的识别具有特异性,运物)结合的蛋白质的结合位点预测性能。图6(a)表示本实施例的方法PepBCL在不同配体结[0104]本实施例首次将对比学习应用到预测蛋白质-多肽结合位点的问题上,并结合预[0120]实施例一中的预测蛋白质-多肽结合位点的方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026福建泉州南安市罗英小学教师招聘1人考试模拟试题及答案解析
- 2026年工业活性炭行业分析报告及未来发展趋势报告
- 2026年FEP薄膜行业分析报告及未来发展趋势报告
- 2026年冷水机行业分析报告及未来发展趋势报告
- 2026黑龙江牡丹江医科大学博士招聘100人笔试模拟试题及答案解析
- 2026年新能源开发利用行业分析报告及未来发展趋势报告
- 2026年防伪材料行业分析报告及未来发展趋势报告
- 2026年石英玻璃材料及制品行业分析报告及未来发展趋势报告
- 2026新疆沙湾市公安局招聘警务辅助人员90人考试备考试题及答案解析
- 2026年调墨油行业分析报告及未来发展趋势报告
- 婴儿脑瘫早期康复训练方案
- 总审计师评价制度
- 广东省广州市2026年中考一模英语试题附答案
- 2026校招:陕西投资集团面试题及答案
- 2025年郴电国际校园招聘74人笔试历年难易错考点试卷带答案解析
- 2025年上海铁路局24届笔试真题及答案
- DB45-T 2885-2024 生活无着的流浪乞讨人员接送返乡工作规范
- 养老院护士长培训课件
- 2026年青马工程笔试试题及答案
- 疥疮预防控制措施
- 2025年教育科技数字化校园建设方案
评论
0/150
提交评论