版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模拟突变蛋白的适应性评价值F;基于蛋白质折叠能量计算工具确定多个模拟突变蛋白的结构稳定性值S;对适应性评价值F和结构稳定性值S2对目标蛋白质的蛋白质序列中多个氨基酸位点分别进行模拟单突变突变体序列中包括对应氨基酸位点的单突变蛋白质序列;确定所述多个模拟突变蛋白分别对应的模拟单突变体结构折叠能量变化值确定各个模拟单突变体结构的结构对所述适应性评价值F和所述结构稳定性值S分别进行归一化根据目标筛选数量、单指标排序结果和综合指标排序结果对所述多获取基础蛋白质语言模型,将所述基础蛋白质语言模型的位连接神经网络层用于对每个氨基酸的种类和对应位点进行对所述目标蛋白质语言模型进行无监督训练,以实现对所述目标2.根据权利要求1所述的筛选方法,其特构稳定性值S分别进行归一化处理,并对归一化处理结果分别进行单指标排序和综合指标基于最小_最大归一化方法对所述适应性评价值F和所述结构稳定性值S分别进行归一分别对所述第一适应性评价归一值F'和所述第一结构稳定性归一值包括第一适应性排序值RF和第一结构稳定性排序值计算各个所述模拟突变蛋白对应的第一适应性排序值RF和第一结构稳定性排序值RS基于Z_Score标准化方法对所述适应性评价值F和所述结构稳定性值S分别进行归一化对所述综合指标数值进行排序得到第二综合指标对多个所述模拟突变蛋白对应的结构稳定性值S进行归一化处理3对N个蛋白质折叠能量计算工具分别计算得到的N组结构稳定性值Sn分别进行归一化针对任一模拟突变蛋白对应的N个结构稳定性归一值Sn'进行根据所述单指标筛选数量、第一适应性排序值RF、第一结构稳定性排序在综合指标排序结果中将所述第一目标突变蛋白进行剔除后对所述综合指标排序结果中,适应性评价值F小于0和结构稳定性值S适应性评价值计算模块,用于对目标蛋白质的蛋白质序列结构稳定性值计算模块,用于确定所述多个模拟数据处理模块,用于对所述适应性评价值F和所述结构稳定性值S分别进行归一化处筛选模块,用于根据目标筛选数量、单指标排序结果和获取基础蛋白质语言模型,将所述基础蛋白质语言模型的位连接神经网络层用于对每个氨基酸的种类和对应位点进行对所述目标蛋白质语言模型进行无监督训练,以实现对所述目标令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1_6中任一项所述的49.一种存储有计算机指令的非瞬时机器可读介质,其使所述计算机执行根据权利要求1_6中任一5白质突变优化改造方法被认为在蛋白质工程领域具变化值确定各个模拟单突变体结构的结构稳定[0011]在其中的一些实施例中,对适应性评价值F和结构稳定性值S分别进行归一化处[0012]基于最小最大归一化方法对适应性评价值F和结构稳定性值S分别进行归一化处6第一适应性排序值RF和第一结构稳定性排序值RS的[0014]计算各个模拟突变蛋白对应的第一适应性排序值RF和第一结构稳定性排序值RS[0016]基于Z_Score标准化方法对适应性评价值F和结构稳定性值S分别进行归一化处[0020]对N个蛋白质折叠能量计算工具分别计算得到的N组结构稳定性值Sn分别进行归[0022]在其中的一些实施例中,目标筛选数量包括单指标筛选数量和综合指标筛选数[0024]在综合指标排序结果中将第一目标突变蛋白进行剔除后,根据综合指标筛选数[0027]在其中的一些实施例中,方法还包括目标蛋白质语言模型的搭建及参数调优步7对归一化处理结果分别进行单指标排序和综合指个模拟单突变体结构的结构稳定性值S;对适应性评价值F和结构稳定性值S分别进行归一8[0042]图3是本发明实施例的一个实施例的基于最小_最大归一化方法执行数据处理的[0043]图4是本发明实施例的一个实施例的基于Z_Score标准化方法执行数据处理的示何将计算所得的关键重要蛋白质结构特征信息与能够考量全局的蛋白质序列设计方法进行结合对于计算机辅助蛋白质工程设计改造具有十分重要的[0050]步骤S101,对目标蛋白质的蛋白质序列中多个氨基酸位单突变体序列中包括对应氨基酸位点的单突变蛋白质序列。9变(适应性评价值S的数值越高,表明该模拟突变体在进化过程中被保留下来的可能性越高从而为蛋白质工程提供有价值的候选突变蛋白。[0054]这是因为DNA聚合酶的功能优化是生物技术和分子生物学研究中的一个重要目[0055]根据本发明实施例的一具体实施方式,Phi29DNA聚合酶以其高保真性和长读长可以在特定的氨基酸位点进行精确的改变,从而研究这些改变对酶活性、稳定性和其他功[0056]将本发明实施例提供的突变蛋白筛选方法应用在DNA聚合酶的突变体筛选上,尤能基于DNA聚合酶在高温条件下的稳定性,筛选出在高温下仍能保持高活性和稳定性的突对每个氨基酸的种类和对应位点进行加权计算;对目标蛋白质语言模型进行无监督训练,[0059]根据本发明实施例的一具体实施方式,选取Tranception模型作为基础蛋白质语除了使用Tranception模型本体外,还在基础模型的位置编码层使用可学习的嵌入编码来序列中的距离信息。为了充分考虑所有氨基酸位点的距离信息,还构建了一层全连接网络用于将每一个氨基酸的种类编码和对应位点进行加权计算(具体步骤:输入每个氨基础数据集中包括多种蛋白质的功能标签(适用于评估蛋白质语言模型的性能基于零样本数据集和部分样本数据集对目标蛋白质语言模型进行训练优化,其中,零样本数据集和部以补充零样本情况下的预测结果)利用目标蛋白质语言模型进行训练和预测,根据预化目标蛋白质语言模型在无监督条件下的预测效果。于折叠能量变化值确定各个模拟单突变体结构的拟单突变体结构在突变前后的折叠能量变化值进行计算可以定量评估每个突变对蛋白质结构稳定性的影响,结构稳定性值S可以用于筛选出那些在突变后仍然保持或提高了结构不同的蛋白质折叠能量计算工具所计算得到结构稳定性值S略有差异,为了进一步保障所[0073]其中,AGvdw:所有原子相对于量项AGvdw对应的权重系数。AGsolvH和AGsolvp:分别是非极性和极性基团从未折叠态到折叠态的溶解能差异;wsolvH和wolvp分别是能量项AGsolvH和AGsolvp对应的[0074]使用DiscoveryStudio和FoldX软件,这两种专业的分子建模软件用于对目标蛋变前后蛋白质结构的折叠自由能变化,以确定突变体的稳定性变化,得到结构稳定性值S(以此来代表突变体的结构稳定性效应,做为筛选具有稳定性提高的突变位点的参考依据通过结构模拟,可以更准确地评估突变对蛋白选结果的鲁棒性和可靠性。多指标综合评估能够更好地反映突变体在实际应用中的表现,[0080]对于适应性指标下多个模拟突变蛋白对应的适应性评价值F,或者结构稳定性指[0083]上述步骤为本发明实施例针对适应性评价指标和结构稳定性评价指标进行归一化处理,并对归一化处理结果分别进行单指标排序和综合指标排序的一个具体实施方式。[0084]通过最小_最大归一化方法,将适应性评价值F和结构稳定性值S归一化到0到1之相同的尺度上比较不同指标的表现。通过对归一化处理后得到的第一适结构稳定性排序值RS可以直观地展示每个突变体在适应性评价和结构稳定性方面的表值F和结构稳定性值S分别进行归一化处理,得到第二适应性评价归一值F''和第二结构稳指标数值进行排序得到第二综合指标排序结[0089]上述步骤为本发明实施例针对适应性评价指标和结构稳定性评价指标进行归一准化方法也是一种数据归一化处理方法,其通过将两组或多组数据转换为无单位的Z_[0090]通过对适应性评价值F和结构稳定性值S进行Z_Score标准化处理,并基于标准化[0095]通过设定具体的目标筛选数量,可以确保最终筛选出的突变体数量符合研究需第一综合指标排序结果R和/或第二综合指标排合指标排序结果中,适应性评价值F小于0和结构稳定性值S大于0的模拟突变蛋白进行剔[0100]基于蛋白质语言模型预测所得到的适应性评价值F,代表的是蛋白质在进化过程评价值F小于0通常表示该突变体在进化过程中是不利的,可能降低蛋白质的功能或稳定标中表现为突变将带来缺陷的突变体大概率在实际实验中的表征结果也不到目标突变蛋白的技术手段,通过基于蛋白质语言模型确定模拟蛋白序列的适应性评价[0104]本发明实施例还提供一种突变蛋白筛选方法,如图2所示,突变蛋白筛选主要包多个模拟突变蛋白对应的蛋白质序列和蛋白质结构之后。针对模拟突变蛋白的蛋白质序变蛋白的蛋白质序列,采用分子建模软件DiscoveryStudio和FoldX分别执行蛋白质折叠[0106]根据本发明实施例的一具体实施方式,基于最小_最大归一化方法执行的数据处理步骤如图3所示。首先,通过最小_最大归一化方法分别对基于蛋白质语言模型得到的适应性评价归一值F'和第一结构稳定性归一值S'进行排序,得到包括第一适应性排序值RF和第一结构稳定性排序值RS的单指标排序结果。再计算各个模拟突变蛋白对应的第一适应性排序值RF和第一结构稳定性排序值RS的排序平均值,对多个模拟突变蛋白的排序平均值进[0107]根据本发明实施例的一具体实施方式,基于Z_Score标准化方法执行的数据处理分别进行归一化处理,得到第二适应性评价归一值F''、第二结构稳定性归一值S1''和[0108]FS=0.6XF"+0.2(S1定性值S大于0的模拟突变蛋白进行剔除,然后再从第一综合排序结果R和第二综合排序结[0112]适应性评价值计算模块601,用于对目标蛋白质的蛋白质序列中多个氨基酸位点变(适应性评价值S的数值越高,表明该模拟突变体在进化过程中被保留下来的可能性越高从而为蛋白质工程提供有价值的候选突变蛋白。[0114]在其中的一些实施例中,上述突变蛋白筛选装置600还包括模型搭建及参数调优[0115]结构稳定性值计算模块602,用于确定多个模拟突变蛋白分别对应的模拟单突变拟单突变体结构在突变前后的折叠能量变化值进行计算可以定量评估每个突变对蛋白质结构稳定性的影响,结构稳定性值S可以用于筛选出那些在突变后仍然保持或提高了结构并对归一化处理结果分别进行单指标排序和算各个模拟突变蛋白对应的第一适应性排序值RF和第一结构稳定性排序值RS的排序平均[0122]通过最小_最大归一化方法,将适应性评价值F和结构稳定性值S归一化到0到1之相同的尺度上比较不同指标的表现。通过对归一化处理后得到的第一适结构稳定性排序值RS可以直观地展示每个突变体在适应性评价和结构稳定性方面的表对适应性评价值F和结构稳定性值S分别进行归一化处理,得到第二适应性评价归一值F''和第二结构稳定性归一值S'';根据第二适应性评价归一值F''、第二结构稳定性归一值[0124]通过对适应性评价值F和结构稳定性值S进行Z_Score标准化处理,并基于标准化[0126]通过设定具体的目标筛选数量,可以确保最终筛选出的突变体数量符合研究需指标排序结果包括第一综合指标排序结果R和/或第二综合指标排[0130]通过对蛋白质稳定性计算结果中呈现正值的模拟突变体以及在适应性预测中呈[0131]本发明实施例所提供的上述突变蛋白筛选装置,由于采用适应性评价值计算模单突变体结构的结构稳定性值S;数据处理模块,用于对适应性评价值F和结构稳定性值S计算机程序在被计算机的处理器执行时用于使上述计算机执品应当理解为主要通过计算机程序实现本发明上述方法的器通信连接的存储器。上述存储器存储有能够被上述至少一个处理器执行的计算机程序,上述计算机程序在被上述至少一个处理器执行时用于使电子设备执行本发明实施例的方[0135]参考图7,现将描述可以作为本发明的实施例的服务器或客户端的电子设备的结执行各种适当的动作和处理。在RAM703中,还可存储电子设备操作所需的各种程序和数储单元708以及通信单元709。输入单元706可以是能向电子设备输入信息的任何类型的设[0139]用于实施本发明实施例的方法的计算机程序可以采用一个或多个编程语言的任理装置的处理器或控制器,使得计算机程序当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026陕西西北工业大学网络空间安全学院信息系统与智能安全团队招聘1人备考题库带答案详解(b卷)
- 2026浙江温州医科大学附属第一医院泌尿外科(男性科)康复技师招聘1人备考题库及参考答案详解一套
- 2026黑龙江哈尔滨工业大学机电工程学院机械设计系招聘备考题库带答案详解(精练)
- 2026四川省国有资产投资管理有限责任公司春季招聘4人备考题库附答案详解(满分必刷)
- 2026江苏苏州市昆山市淀山湖镇镇管企业招聘13人备考题库及参考答案详解
- 2026济南文旅发展集团有限公司校园招聘20人备考题库及答案详解(易错题)
- 2026黑龙江黑河市嫩江市乡镇卫生院招聘医学相关专业毕业生2人备考题库及答案详解(新)
- 防水施工合同签订范本合同二篇
- (2026年)动态心电图报告的阅读方法
- 2026年高考新课标文综地理卷及答案
- 餐饮服务标准与操作手册
- 隐私保护技术发展现状与趋势分析
- 2026年及未来5年市场数据中国剑麻行业发展运行现状及发展趋势预测报告
- 中国皮肤激光治疗指南(2025版)
- 兵团事业编考试题库2026
- 全国税务机关信访工作规则
- 2025年郑州信息科技职业学院单招职业技能测试题库附答案解析
- 武汉城投公司笔试题库
- 2026年全国硕士研究生招生考试管理类联考综合能力试卷及答案
- 水土保持工程调查与勘测标准
- 安徽2021-2025真题及答案
评论
0/150
提交评论