CN113903398B 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 (南京世和基因生物技术股份有限公司)_第1页
CN113903398B 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 (南京世和基因生物技术股份有限公司)_第2页
CN113903398B 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 (南京世和基因生物技术股份有限公司)_第3页
CN113903398B 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 (南京世和基因生物技术股份有限公司)_第4页
CN113903398B 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 (南京世和基因生物技术股份有限公司)_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

锦湖路3-1号中丹生态生命科学产业US2021043275A1,2021.02.11高通量测序结果进行结直肠癌健康人差异DNA片段高分辨率长度分布,读段5端断点处序列读段读段占比和1MB窗口拷贝数变化分析,利用梯度2征向量分别输入至步骤5中训练得到的梯度提升算法模型、随机森林模型以及深度网络学所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;所述的步骤2-1中窗口的大小范围是5Mb;所述的步骤2-2中不同长度梯度区间是指在40-300bp范围内以10bp步长递增而得到的3[0002]结直肠癌是一种常见的恶性肿瘤,据《中国体检人群结直肠癌及癌前病变白皮10.42009-2015年间局部转移癌症患者五年生存率89远高于远端转移远端转移癌患直肠癌健康人差异DNA片段高分辨率长度分布(highresolutionfragmentationsizeForest)和深度网络学习(Deeplearning)分别进行训练建模,最后通过广义线性模型4[0019]所述的步骤2-2中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而征值当中的存在显著性差异的特征向量分别输入至步骤5中训练得到的梯度提升算法模[0026]测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数5[0034]第二读段数量统计模块,用于分别以各个染色体上的长[0041]步骤3,筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特[0052]步骤3,筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特6[0060]步骤3,筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特[0065]对115例健康人群和195例肠癌/进展期肠腺瘤患者的WGScfDNA读段长度分布,断点处序列占比和区域拷贝数变化进行统计,分别利用三种不同的训练学习算法构建模型,血浆cfDNA高通量低深度测序提供了多分子特征多训练算法二次整合诊断模型,该模型不[0071]图6是在验证集和测试集上的高分辨率DNA碎片长度占比分布特征不同训练算法[0073]图8是在验证集和测试集上的拷贝数变化特征不同训练算法分类器的预测AUC曲7中可以采用现有技术中的测序技术获得cf[0086]采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本,及时离心分离血浆(2[0089]1.高分辨率DNA片段大小分布(HighResolutionFragmentationSize征。利用高分辨率DNA片段大小分布(highresolutionfragmentationsize的分布特征。通过比对115例健康人群和195例肠癌/进展期肠腺瘤患者的cfDNA读段的长8段数量(40-80bp)和超长读段数量(200-300bp)。根据所有窗口中各种读段数量统计结果,算,从而获得高分辨率DNA片段大小分布结果共计2823个特征结果(2823=572个全部读段标准化结果+572个短读段标准化结果+572个超长独段标准化结果+41*27个长度梯度标准内的读段深度,并根据各自窗口的GC含量和平均比对能力记录(UCSCBigWig文件)进行矫9机通过设计建立适量的神经元计算节点和多层运算层次结构,选择合适的输人层和输出{100,100,100},input_dropout_ratios=0.05,rho=0.95,mini_batch_size=10,[0106]在获得115例健康人群和195例肠癌/进展期肠腺瘤患者的上述的三类初始数据信息后,将高分辨率DNA片段大小分布统计结果作为输入值(每个样本的输入向量中包含有2823个读段占比数值构成的特征值),分别通过三种分类模型对待测样本与正常样本进行的贡献值,收集每种分子特征在不同的训练算法下的贡献值不为0的特征列后,最终获得[0116]为进一步提高分类器预测性能,对以上9种训练模型结果进行二次集合训练(stacking)。Stacking是一种集成学习技术,通过对多个底层弱分类器(1st-levelbaseA*HRFSD_GMB+B*HRFSD_RF+C*HRFSD_DL+D*MTBK_GBM+E*MTBK_RF+F*MTBK_DL+G*CNV_GBM+H*[0124]其中,HRFSD和MTBK的Stacked模型是指由HRFSD的三种模型以及MTBK的三种模型构成的线性模型;HRFSD和CNV的Stacked模型是指由HRFSD的三种模型以及CNV的三种模型构成的线性模型;MTBK和CNV的Stacked模型是指由MTBK的三种模型以及CNV的三种模型构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论