CN119418760A 用于提升基因utr区域预测完整性的基因预测的方法、电子装置及其应用 (安诺优达基因科技(北京)有限公司)_第1页
已阅读1页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用于提升基因UTR区域预测完整性的基因预本发明提供了一种用于提升基因UTR区域预测完整性的基因预测的方法、电子装置及其应得最终的预测基因集。能够解决现有技术的UTR2其中,所述第一初始预测基因集通过利用所述样本的二代转所述第二初始预测基因集通过利用所述样本的三代转录本数据对所述样本的基因组种基因组数据库中的基因集对所述样本的基因组进行第述第二转录组预测的软件和进行所述第三转录组预测的软件各自独立地选自PASA软件和/3将所述第一初始预测基因集、所述第一预测基因集、所述第二预测将所述第一重叠区域基因集、所述第二重叠区域基因集、所述第三将所述重叠区域基因集中的所述待比较基因集和所述参考基因集中方向不一致的基因对,以及在所述参考基因集中两端具有UTR区域的基因,在所述待比较基因集中进行过所述延伸区域与所述参考基因集对应的基因的上游区域的基因的位置或下游区域的所述过滤基因集中的基因中对应的参考基因集中的基因的两端的其中一端具有UTR区所述过滤基因集中的基因的两端均不含UTR区域,所述过滤集中的基因对应的所述参所述延伸包括:当所述参考基因集中的基因的起始位置小于对应的当所述参考基因集中的基因的终止位置小于对应的所述过滤基因集的基因的起始位所述延伸区域中的基因的信息包括所述基因的序列其中,所述第一初始预测基因集通过利用所述样本的二代转所述第二初始预测基因集通过利用所述样本的三代转录本数据对所述样本的基因组源物种基因组数据库中的基因集对所述样本的基因组4长转录本参考基因组对所述样本的基因组进行第三转行所述第二转录组预测的软件和进行所述第三转录组预测的软件各自独立地选自PASA软其中,所述第一预测基因集获取单元:用于将所述第一初所述初始待比较基因集通过初始待比较基因集获取单元获得,其中所述第二预测基因集获取单元:用于将所述第一预测基因集与所述第所述第三预测基因集获取单元:用于将所述第二预测基因集与所述第所述预测基因集获取单元:被设置为将所述第三预测基因集与所述第重叠区域基因集和所述第四重叠区域基因集记为重叠过滤模块,用于将所述重叠区域基因集中的所述待比较基因集和所延伸模块,用于对所述过滤基因集中的每个基因进行延伸,5所述延伸区域与所述参考基因集对应的基因的上游区域的基因的位置或下游区域的第一延伸子模块,用于在所述过滤基因集中的基因中对应的参中的基因对应的所述参考基因集的基因的两端具有UTR区域时,向所述基因的两端进行延第三延伸子模块,用于在所述参考基因集中的基因的起始位第四延伸子模块,用于在所述参考基因集中的基因的终止位整合子模块,用于将所述延伸区域中的基因的信息整合至所述所述延伸区域中的基因的信息包括所述基因的序列利要求1_6中任一项所述的用于提升基因6[0002]基因组注释的准确性对于生物学研究至关重要,它不仅[0005]本发明的主要目的在于提供一种用于提升基因UTR区域预测完整性的基因预测的初始预测基因集通过利用样本的三代转录本数据对样本的基因组进行第二转录组预测获本的基因组进行第一同源预测获得;优选地,第一同源预测的软件包括liftoff软件、7第三重叠区域基因集和第四重叠区域基因集记为重叠区域参考基因集对应的基因的上游区域的基因的位置或下游区域的基因[0016]过滤基因集中的基因的两端均不含UTR区域,过滤集中的基因对应的参考基因集[0018]当参考基因集中的基因的终止位置小于对应的过滤基因[0019]c)将延伸区域中的基因的信息添加至参考基因集中,从而获得最终的预测基因[0020]根据本发明的第二个方面,提供了一种用于提升基因UTR区域预测完整性的基因8本的基因组进行第一同源预测获得;优选地,第一同源预测的软件包括liftoff软件、转录组预测的软件各自独立地选自PASA软件和/或transdecod[0033]预测基因集获取单元:被设置为第三预测基因集与第四基因集和第四重叠区域基因集记为重叠区域[0038]延伸区域与参考基因集对应的基因的上游区域的基因的位置或下游区域的基因9别基于二代转录本测序数据和三代转录本测序数据对样本的基因组进行的基因预测。而[0049]图1示出了根据本发明实施例的一种用于提升基因UTR区域预测完整性的基因预[0050]图2示出了根据本发明实施例的一种用于提升基因UTR区域预测完整性的基因预[0051]图3示出了根据本发明实施例1的用于提升基因UTR区域预测完整性的基因预测的[0052]图4示出了根据本发明实施例的一种基用于提升基因UTR区域预测完整性的基因[0054]在本申请第一种典型的实施方式中,提供了一种用于提升基因UTR区域预测完整的基因完整性较低。而且,现有技术中通常也会利用PASA软件程序中的功能(https:///PASApipeline/PASApipeline/wiki/PASA_genome_annotation)添加UTR区域[0064]本申请通过利用现有技术中的数据库收录的高质量转录本的基因集对样本的基[0065]上述的基因预测的方法的每一个步骤均可根据样本的物质和研究需求进行详细获得第二重叠区域基因集;对第二重叠区域基因集进行第二整合,获得第二预测基因集;[0068]样本基因组的同源预测(homology_basedprediction某些基因的蛋白在相近式确定外显子边界和剪切位点;样本基因组的转录组预测(transcriptome_basedprediction通过物种的RNA_seq数据辅助注释,能够较为准确的确定外显子区域和剪切参考基因集对应的基因的上游区域的基因的位置或下游区域的基因[0074]过滤基因集中的基因中对应的参考基因集中的基因的两端的其中一端具有UTR区[0075]过滤基因集中的基因的两端均不含UTR区域,过滤集中的基因对应的参考基因集[0078]c)将延伸区域中的基因的信息添加至参考基因集中,从而获得最终的预测基因[0080]上述的重叠区域基因集指的是两个基因集(参考基因集和待比较基因集)中的[0084]上述延伸后获得的延伸区域的基因结构不仅包含UTR区也可能包含外显子、编码[0085]现有技术中通常用于添加UTR区域基因预测结果的工具主要是PASA软件程序中的功能(/PASApipeline/PASApipeline/wiki/PASA_genome_annotation该软件利用PASA拼接获得的样本的二代转录组数据对已进行了基因预测的预测基因集进行比较和更新,整合PASA比对结果中的证据,修正外显子边界并添加UTR区基因UTR区域预测的准确性与完整性。有助于在后续的研究中更精确地定位基因的非编码[0086]在本申请第二种典型的实施方式中,提供了一种用于提升基因UTR区域预测完整性的基因预测的电子装置(图2为本申请该电子装置的示意图该电子装置包括初始预测软件和进行第三转录组预测的软件各自独立地选自PASA软件和/或transdec[0097]预测基因集获取单元:被设置为第三预测基因集与第四[0103]延伸区域与参考基因集对应的基因的上游区域的基因的位置或下游区域的基因程序运行时执行上述用于提升基因UTR区域预测完整性的据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质端的通信供应商提供的无线网络。在一个实例中,传输设备C1包括一个网络适配器[0120]将本申请中的基因预测的方法应用于楮树和构树基因组的UTR区域的基因预测,[0127]6、利用PASA软件的程序将样本的三代全长转录本数据与样本的基因组进行比对参考基因集对应的基因的上游区域的基因的位置或下游区域的基因[0140]过滤基因集中的基因的两端均不含UTR区域,过滤集中的基因对应的参考基因集[0146]1、利用RepeatMasker软件和RepeatModeler软件对样本基因组进行重复序列预[0147]根据重复序列预测结果对楮树和构树基因组分别进行Mas[0148]2、利用Stringtie软件和Pasa软件对Mask后的样本基因[0150]利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论