版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
道蓉都大道南四段199号2栋2单元19一种基于人工智能的基因检测数据清洗方种基于人工智能的基因检测数据清洗方法及系2步骤S4:根据预设的基因组库对基因序列数据进行基步骤S5:根据可信变异位点数据以及高质量序列数据进行多算法集成的变异位点确步骤S13:对有效基因检测数据进行各碱基的Phred步骤S14:根据测序质量分布数据对有效基因检测数据进行基于去除低质量读段的初步骤S17:利用基于k_mer频率的错误校正3步骤S32:根据自适应质量阈值数据对基因序列数据进行剔除不符合质量要求的序列步骤S34:对序列特征数据进行核苷酸分布分析,并对序列模式特征数据进行权重调5.根据权利要求4所述的基于人工智能的基因检测数据清洗方法,其特征在于,步骤步骤S311:根据序列特征数据构建多维特征空间,并将步骤S313:基于质量分布特征数据构建初始质量步骤S314:根据质量阈值决策模型对基因序列数据中6.根据权利要求5所述的基于人工智能的基因检测数据清洗方法,其特征在于,步骤步骤S334:根据功能元件特征库对高质量序列数据进行已知功7.根据权利要求6所述的基于人工智能的基因检测数据清洗方法,其特征在于,步骤步骤S342:对高质量序列数据进行基于滑动窗口步骤S343:对核苷酸频率分布图进行基于傅里叶变换的周期4步骤S344:将序列周期特征数据与序列亚类数据进行多维步骤S346:根据核苷酸频率分布图对偏离背景分布程度大步骤S347:根据核苷酸异常区域数据对加权序列模步骤S42:将自适应质量阈值数据以及比对结果数据进行基于多维度贝叶斯融合的数步骤S51:根据可信变异位点数据以及高质量序列数据通过多种变异检测算法进行并步骤S54:利用局部组装算法对初步变异检测结果数据中的潜在结构变异区域进行变步骤S56:根据稀有变异数据以及可信结构变异数据对初步变异检测结果数据进行冗数据预处理模块,用于获取基因检测数据,对基因检测数据基序列特征提取模块,用于对基因序列数据进行GC含量分析以5动态质量优化模块,用于根据序列特征数据进行动态变异位点筛选模块,用于根据预设的基因组库对基因序列数据进行变异确认模块,用于根据可信变异位点数据以及高质量序列数据6[0002]基因检测数据是通过现代分子生物学技术从生物体内提取的DNA或RNA样本进行统方法在精度和灵活性方面表现不足,常常导致高误报率(falsepositives)或遗漏关键[0004]基于此,本发明有必要提供一种基于人工智能的基因检7[0016]变异位点筛选模块,用于根据预设的基因组库对基因序8术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范9[0034]本发明实施例基因检测数据是通过高通量测序平台(如IlluminaHiSeq或数据。此过程在实际应用中适用于人类基因组检测,设定过滤阈值为Q20,并利用长度为[0047]步骤S14:根据测序质量分布数据对有效基因检测数据进行基于去除低质量读段[0050]步骤S17:利用基于k_mer频率的错误校正算法对纯化序列数据进行测序错误校[0057]本发明实施例使用FastQC对步骤S12中获得的有效基因检测数据进行Phred质量[0058]步骤S14:根据测序质量分布数据对有效基因检测数据进行基于去除低质量读段[0059]本发明实施例根据步骤S13生成的测序质量分布数据,对有效基因检测数据进行[0061]本发明实施例对初步过滤数据进行接头序列识别和去除,使用BWA工具进行序列[0064]步骤S17:利用基于k_mer频率的错误校正算法对纯化序列数据进行测序错误校[0065]本发明实施例利用基于k_mer频率的错误校正算法对步骤S16中得到的纯化序列消除接头序列有助于避免它们在后续的比对和分析中被错误识别为变异或其他生物学特常占到基因组的30%_50因此该步骤能够有效帮助分析人员排除这些区域对后续变异[0080]本发明实施例将步骤S22生成的GC异常区域标记数据和步骤S23生成的重复序列保留每个区域的GC异常信息和重复序列信息。如果某个区域同时包含GC异常和重复序列,能会在后续的变异检测和基因组比对过程中引发误报,因此及早标记这些区域非常重要。[0085]步骤S32:根据自适应质量阈值数据对基因序列数据进行剔除不符合质量要求的[0086]本发明实施例根据步骤S31生成的自适应质量阈值数据,对基因序列数据进行二例中,使用MEME(MultipleEmforMotifElicitation)软件对序列中可能存在的功能元[0090]本发明实施例对步骤S24生成的序列特征数据进行核苷酸分布分析,具体分析方生物学功能的关键区域。细化处理能够显著提升整个基因组分析流程的准[0094]本发明实施例首先基于步骤S24生成的序列特征数据构建多维特征空间。特征空[0104]本发明实施例首先获取一个功能元件特征库,该特征库包含已知的基因调控序[0106]本发明实施例根据步骤S331得到的高质量序列数据,采用k_mer分析法计算不同mer频率矩阵。矩阵中的每个元素代表一个特定k_mer在序列中的出现次数。同时,使用Shannon熵或其他复杂度计算方法对局部序列的复杂度进行评估,生成序列复杂度分布数序列模式特征数据能够揭示序列片段的潜在功能与结以捕捉基因序列中的短片段重复及模式信息。生成的k_mer频率矩阵为后续的序列特征分分析提供了重要的生物学信息,也为理解基因序列的潜在功能和调控机制提供了数据支[0120]本发明实施例对步骤S342生成的核苷酸频率分布图进行傅里叶变换(FFT)处理,特征数据可以提供序列中隐藏的调控结构的线索,例如卫星DNA或简单重复序列的周期性[0122]本发明实施例将步骤S343得到的序列周期特征数据与步骤S341中的序列亚类数基于支持向量机的异常检测)对加权序列模式特征数据进行异常消除处理。该步骤的目的核苷酸序列亚类关联数据对序列模式特征进行权重调整,可以提高对生物功能或结构更区域可能指示潜在的功能区域或调控元件,尤其是在有功能突变或结构变化的基因序列[0132]本发明实施例利用预设的基因组库(如参考人类基因组或其他物种基因组)对基[0133]步骤S42:将自适应质量阈值数据以及比对结果数据进行基于多维度贝叶斯融合[0134]本发明实施例将步骤S31中生成的自适应质量阈值数据与步骤S41中得到的比对[0136]本发明实施例基于步骤S42生成的异质性整合特征数据,对基因序列中的潜在变[0138]本发明实施例利用加权特征数据对步骤S43生成的候选变异数据进行可信度筛[0141]步骤S51:根据可信变异位点数据以及高质量序列数据通过多种变异检测算法进[0142]本发明实施例根据步骤S44得到的可信变异位点数据以及高质量序列数据,采用[0144]本发明实施例将步骤S51生成的多算法变异检测结果数据输入到基于机器学习的集成分析模型中。该模型通过对多个算法结果进行集成处理,常用的方法有随机森林、[0146]本发明实施例对步骤S52生成的初步变异检测结果数据进行稀有变异识别。利用[0147]步骤S54:利用局部组装算法对初步变异检测结果数据中的潜在结构变异区域进[0148]本发明实施例通过局部组装算法对步骤S52生成的初步变异检测结果数据中可能[0151]步骤S56:根据稀有变异数据以及可信结构变异数据对初步变异检测结果数据进[0152]本发明实施例根据步骤S53生成的稀有变异数据和步骤S55生成的可信结构变异
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 论语演讲稿两分钟
- 2026年京东集团电子商务基础常识及案例分析试题
- 口才做最好的自己演讲稿
- 2026年经济法学前沿问题探讨与案例分析
- 沈阳失业保险培训
- 2026年县级新一轮退耕还林补助政策知识试题
- 转业干部培训演讲稿标题
- 2026年窗口单位服务明星评选综合测试题
- 游戏模型大师培训
- 业务合同制作培训
- YC/T 177-2024卷烟工业企业标准体系构成及指南
- 预拌粉生产线智能化改造提升项目可行性研究报告
- 第5课《黄河颂》课件-2023-2024学年统编版语文七年级下册
- 客车运用维修-客车A1级检修要求及质量标准(铁道车辆管理)
- 免费模式6种核心方式
- GB/T 7332-2011电子设备用固定电容器第2部分:分规范金属化聚乙烯对苯二甲酸酯膜介质直流固定电容器
- GB/T 6109.20-2008漆包圆绕组线第20部分:200级聚酰胺酰亚胺复合聚酯或聚酯亚胺漆包铜圆线
- 发酵乳制品中食品添加剂的使用与意义,食品安全论文
- GB/T 26523-2022精制硫酸钴
- 职业健康检查机构卫生管理自查表(2018年版)
- 大学生学习资料
评论
0/150
提交评论