illumina平台数据质控与比对_第1页
illumina平台数据质控与比对_第2页
illumina平台数据质控与比对_第3页
illumina平台数据质控与比对_第4页
illumina平台数据质控与比对_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Illumina平台数据质控与比对-张燕艳目 录下机数据的获取数据质控数据比对结果展示事例Illunima测序样本准备(sample fragmentation)文库构建(library preparation)测序反应(sequencing reaction)数据分析(data analysis)实验流程样本污染文库质量接头污染测序质量流程框架图数据获取QC下机数据的获取Illumina测序的基本原理是边合成边测序。在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经

2、过特定的计算机软件处理,从而获得待测DNA的序列信息。Raw data计算机软件Illumina控制PC计算机集群控制测序过程,获取图像信息,保留在内存中RTA软件: 图片分析,得到光强信号文件*.cif; basecalling,得到全部可识别的cluster的序列文件*bcl 将*.cif或*bcl文件传输到计算机集群由*cif文件做basecalling,或将*bcl文件转换为*qseq.txt文件将筛选后的reads,输出到fastq文件;区分index; (CASAVA)光强信号文件*.cif全部序列文件*.bcl*qseq.txt筛选后的readsfastq文件下机数据的获取分数据

3、(demultiplex)软件:bcl2fastq(v2.16.0.10)功能:将测序的bcl文件转换成fastq,根据barcode将数据分开下机数据的获取参数参数说明-i -input-dir argpath to input directory-o -output-dir argpath to demultiplexed output-r -loading-threads argnumber of threads used for loading BCL data-d -demultiplexing-threads argnumber of threads used for demult

4、iplexing-p -processing-threads argnumber of threads used for processing demultiplexed data-w -writing-threads argnumber of threads used for writing FASTQ data-create-fastq-for-index-readscreate FASTQ files also for index reads-ignore-missing-bclsassume N/# for missing calls-barcode-mismatches arg (=

5、1)number of allowed mismatches per index multiple entries下机数据的获取接头统计(AdapterCheck)软件:fqcheck_adapter_v2功能:数据与Adapter序列比对,找到reads中的Adapter的位置;参数参数说明 -a input fasta file of adapters -r input fastq file of reads -l output adapter list file -s output adapter statistics file -c output fqcheck file -q low

6、est quality 33下机数据的获取下机数据展示:文库名:DHG00272Lane号:L4、L5Raw data:DHG00272_L4_1.fq.gz, DHG00272_L4_2.fq.gz;DHG00272_L5_1.fq.gz,DHG00272_L5_2.fq.gz.接头文件:DHG00272_L4_1.adapter.list.gz, DHG00272_L4_2.adapter.list.gz;DHG00272_L5_1.adapter.list.gz, DHG00272_L5_2.adapter.list.gz;2022/8/14下机数据的获取常见文件格式1:Fastq文件格

7、式文件说明:每4行表示一条reads(一个cluster);第一行以开头,后面是reads的ID以及其他信息第二行为read的序列,大写“ACGTN”第三行以+开头,跟随者该read的名称(一般于后面的内容相同),但有时可以省略,但+一定不能省第四行代表reads的质量。文件事例:HWUSI-EAS100R:6:73:941:1973#0/1GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT+HWUSI-EAS100R:6:73:941:1973#0/1!*(*+)%+)(%).1*-+*)*55CCFCCCCCCC62022

8、/8/14下机数据的获取碱基质量值原理Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。质量值计算方法2022/8/14下机数据的获取碱基质量值表示方式碱基质量是使用ASCII码值表示,包含33位和64位。所谓33位,即如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则该碱基对应的质量代表值即为?碱基质量值分布常见文件格式2:FastaFasta格式首先以大于号“”开头,接着是序列的标识“gi|187608668

9、|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。Fastq转fastazcat DLBC00105-13_L5_1_clean.fq.gz | awk NR%4=1printf %sn, substr($0,2)NR%4=2print output_file.fa下机数据的获取下机数据的获取文件说明:DLBA00154-1_L4_1.fq.gzDLBA00154-1_L4_2.fq.gzDLBA00154-1_L4_1.adapter.list.gz下机数据的获取文件说明:DLBA00154-1

10、_L4_1.adapter.list.gzDLBA00154-1_L4_2.adapter.list.gz接头统计文件:DLBA00154-1_L4_1.adap.stat接头统计文件:DLBA00154-1_L4_2.adap.stat2022/8/14数据质控Raw Data Clean Data QC(pk_qc_new2)目的:(1)Adapter处理;(2)当单端测序read中含有的N的含量超过该条read长度比例的 10% 时,需要去除此对paired reads;(3)当单端测序read中含有的低质量(=5)碱基数超过该条read长度比例的 50% 时,需要去除此对paired

11、reads。2022/8/14数据质控Adapter处理:(1)添加参数-k:截掉Adapter,如果adapter在reads开头,删除这对reads,如果adapter在reads末尾且大于10bp,截断adapter,截断后的长度小于100bp,则去掉这对reads;(参数-m控制保留的reads的最小长度,默认是100bp)(2)不加参数-k:adapter序列占总长10%,去掉此对reads.数据质控数据质控程序:pk_qc_new2$Bin/pk_qc_new2 -i $RawDataDir/$LibID/$LibID_$LaneID_1.fq.gz,$RawDataDir/$Li

12、bID/$LibID_$LaneID_2.fq.gz -a $RawDataDir/$LibID/$LibID_$LaneID_1.adapter.list.gz,$RawDataDir/$LibID/$LibID_$LaneID_2.adapter.list.gz -N 0.1 -q 33 -k -L 5 -p 0.5 -c -o $OutDir/$ProjectType/$patientID/$SampleID/01.QC2022/8/14数据质控数据质控程序参数说明:必须输入的参数:-i Raw data;(reads1与reads2用“,”隔开)-a adapter Files;(re

13、ads1与reads2用“,”隔开)其他重要参数:-N |-n-cutoff N碱基的过滤值(0.1) -L |-low-qual最低质量值(5) -p 低质量碱基占的比例下限(0.5) -k 截取接头控制参数 -m reads的长度下限(100)数据质控数据质控结果:Clean Reads:DLBA00158_L3_1_clean.fq.gz, DLBA00158_L3_2_clean.fq.gz.质控文件:DLBA00158_L3.statraw_DLBA00158_L3.GC, clean_DLBA00158_L3.GC;raw_DLBA00158_L3.QM,clean_DLBA001

14、58_L3.QM;raw_DLBA00158_L3.QD,clean_DLBA00158_L3.QD;质控图:*png数据质控数据质控结果1:DLBA00158_L3.statType Raw data Clean dataNumber of Reads: 15277165 13235125Data Size: 3697414678(80.67%)N of fq1: 0.01% 0.01%N of fq2: 0.02% 0.01%Low qual base of fq1:(=5) 0.01% 0.01%Low qual base of fq2:(=5) 0.02% 0.01%Q20 of fq

15、1: 97.50% 97.76%Q20 of fq2: 94.60% 94.84%Q30 of fq1: 94.51% 94.83%Q30 of fq2: 89.18% 89.72%GC of fq1: 49.02% 48.67%GC of fq2: 48.78% 48.75%Error of fq1: 0.02% 0.02%Error of fq2: 0.03% 0.03%Discard Reads related to N and low qual: 0.03% (设置参数-k)Discard Reads related to Adapter: 7400132Reads的长度不一.数据质控

16、数据质控统计结果1:QCstat.xlsSampleIDLibIDRaw bases(bp)Clean bases(bp)Effective rate(%)Error rate(%)Q20(%)Q30(%)4799-caDLBA00158 369741467880.670.0396.392.284618-caDLBA00159 383315571489.60.0396.6292.698476ADLBB00031-195173738500506907867497.980.0395.4190.028886ADLBB00053-15 97.590.0395.4790.118476LCDLBC0009

17、7-63433500300339278545898.810.0396.0491.018886LCDLBC00115-82790338400260424408393.330.0495.890.03SampleIDGC content(%)AT separationGC separationSD(A)SD(T)SD(G)SD(C)maxN4799-ca48.710.250.040.530.750.560.61.624618-ca46.340.130.070.510.510.360.371.628476A46.960.10.011.231.350.931.580.018886A47.280.030.

18、051.241.30.911.520.028476LC46.360.230.080.340.390.310.330.018886LC45.520.180.030.360.30.310.360.13数据质控数据质控概念介绍:Raw bases:原始数据产量;Clean bases:QC过滤之后的有效数据量;Effective rate:有效数据率(CleanBase/RawBase);Error rate:碱基平均错误率;Q20:质量值在20以上(错误率在1%以下)的碱基所占的百分比;Q30:质量值在30以上(错误率在0.1%以下)的碱基所占的百分比;GC content:碱基G和C所占的比例;

19、AT/GC separation:表示碱基AT(GC)的分离程度,即碱基含量差的绝对值;SD(A/T/G/C):表示碱基在不同circle中含量的波动,是各个circle碱基含量的标准差;MaxN:N含量最高的circle的N含量。数据质控数据质控结果2:碱基含量分布图:NormalunNormal1:测序问题导致有偏向性的测序错误unNormal1:污染导致碱基含量波动厉害(1.空载adapter较多;2.PCR引物污染)数据质控数据质控结果3:测序质量分布图:Normal 测序碱基质量特点:测序reads尾部质量低;前6bp测序reads质量低;测序开始,仪器不稳定,测序reads开头质量

20、低随着测序的进行,光强度降低,测序reads尾部质量低;标准:Q20不小于90%;Q30不小于85%;数据质控数据质控结果4:质量值分布图:Raw dataClean data备注:此张图不出现在对内报告里,可以在质控路径下载查看。数据比对数据比对:Mapping reads to reference genome, to detect variations比对结果:序列同源允许变异数据比对数据比对流程:NormalClean ReadsBam fileBwa、samtools去重后Bam fileMarkDup统计结果统计程序数据比对Step1:Clean reads to bam file

21、使用比对软件(1)BWANormalBwa软件参数说明:数据比对流程中使用的参数: -k minimum seed length 19 -M mark shorter split hits as secondary-R STR read group header line such as RGtID:footSM:bar-t INT number of threads 1数据比对Step1:Clean reads to bam file软件(2)samtoolsSamtools软件命令说明:数据比对流程中使用的命令:view SAMBAM conversionsort sort alignme

22、nt filemerge merge sorted alignments数据比对常见文件格式3:Bam/Sam(通过samtools view查看bam格式的文件)看上去很类似fastq文件,它也有read名称,序列,质量等信息,但是又不完全一样。首先,每个read只占一行,只是它被tab分成了很多列,一共有12列,分别记录了: 1、read名称(序列的名字,那一行,排序以后read1/2这一个就删除了)2、SAM标记(描述align结果的flag) 3、chromosome(ref的名字,如染色体名称) 4、5端起始位置(本reads在ref的起始位置,最左端) 5、MAPQ(mapping

23、 quality,描述比对的质量,数字越大,特异性越高) 6、CIGAR字串,记录插入,删除,错配以及splice junctions(后剪切拼接的接头) 7、mate名称,记录mate pair信息(如果是成对匹配就是=,单端匹配或未匹配就是*) 8、mate的位置(成对reads中另一条reads在ref的起始位置)9、模板的长度(整条序列的长度,即两条reads起始位置的差再加上右侧reads的长度,若本条reads就是右侧reads则为负数) 10、read序列 11、read质量 12、程序用标记(对mapping的各类描述)2022/8/14数据比对常见文件格式3:Bam/Sam(

24、通过samtools view查看bam格式的文件)BAM文件格式事例:前9列:剩余列:数据比对Step2:Mark Duplication(去重)使用软件包picardDIR/MarkDuplicates.jar数据比对必须输入参数说明:I 比对的Bam文件O 去重后的bam文件M duplication统计文件MarkDuplicates软件参数说明:可选参数说明:REMOVE_DUPLICATES If true do not write duplicates to the output file instead of writing them with appropriate flags set. Default value: false. This option can be set to null to clear the default value. Po

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论