高通量测序(NGS)数据分析中的质控_第1页
高通量测序(NGS)数据分析中的质控_第2页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高通量测序错误总结亠、生信分析部分1) Q20/Q30opkergeneMM每个位点的碱基质量(Per base sequence quality)碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是 99.9%,错误率为0.1%。同时我们也可以 理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是 99%, 错误率为1%。对于整个数据来说,我们可以认为 100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y-轴将坐标图分为3个区:最上面的绿色是碱基质量很好的区,Q值在30以上。中间的橘色

2、是碱基质量在一些分析中可以接受的区,Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中,比如以检查差异表达为目的的 RNA-seq分析,一般要求碱基质量在 Q在Q20以上就 可以了。但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30以上。一般来说,测序质量分数的分布有两个特点:1测序质量分数会随着测序循环的进行而降低。2有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。Q30在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要 做剪切(trimming ),根据生信分析的目的不同,要将质量低于 Q20或者低于 的碱基剪切掉。2)序列

3、的平均质量序列的平均质量(per sequence quality卄睚score)MHam1 1AM- m * 一 IHi i -nvsH豪煙魅I/111111 illI | AwM W Ji ifcf d !FHP0- 3 严创丁;t i # 4 血 N|i 出 pif 打 ji 鼻事鼻和呵血越肉m这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列数量。通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普 遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30 ,可以判断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量

4、序列。但如果曲线如右边的图所示, 在质量较低的坐标位置出现另外一个或者多个峰,说明测 序数据中有一部分序列质量较差,需要过滤掉。3) GC含量分布GC含量分布(per sequence GC conte确:常护健*IH糾扛,Blue: Thrortical Hed: CK counl per rdNat自珂玄呼列.帝鉴孔这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的 GC含量。将样品序列的GC含量和理论的GC含量分布图进行比较,用来检测样品数据是否有污染等问题。理论上,GC含量大致是正态分布,正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布,如右图出现

5、两个或者多个峰值,表明测 序数据里可能有其他来源的 DNA序列污染,或者有接头序列的二聚体污染。这种情况下,需要进一步确认这些污染序列的来源,然后将污染清除。4)序列碱基含量序列碱基含量(per base sequence content)席心用碱基含量模块是统计在序列中的每一个位置,四种不同碱基占总碱基数的比例。它的目的是检测有无 AT、GC分离的现象,而这种现象可能是测序或建库的系统误差所带 来的,并且会影响后续的生信分析。理论上,在随机的DNA文库中,G和C含量以及A和T含量在每个测序循环上应分别相等,而且整个测序过程稳定不变。 所以碱基含量的四条线应该是基本平行的水平线(图A)。而现实

6、中,由于建库 PCR扩增时PCR引物的最初几个碱基不能很好地和模板DNA结合,常常会导致测序结果序列开始的大约前10个碱基位置,碱基含量有较大的波动。这种波动存属于技术误差(图 B)。如果在 整个测序过程中,四条碱基含量线都出现波动,可能是样品库里有过多的接头序列的二 聚体(图C,D)。在建库过程中,如果加入的接头序列过量,两个接头序列可能会连在 一起,中间没有要测序的插入序列,形成接头序列二聚体。这些二聚体可以利用 adapter trimmer 软件去除。5) 过量出现的序列x CIPHER GENE7 VflV-H过量出现的序列( FJMIill. MW *4. HI rl EW C9

7、Pla ethiaMrW, WTTMfMK.HaKiflMM.m?g HIM I. n* 11*1 U1 HIM ll-H M Hi nt W fCt It ft* I UM pw iWlLNM 1.*1731* 订hM IlM KV tf 软 El t gnBMPMIMMIHMiMMMMiMlMMMMm hhhivHiiiiMMHieWlakMMmHiCBHPm Ih班側.r町f.HFiiwm ffRriff, wr t,iNi.vQfriMMtT 门密 n 2i n hM i hw* ntfiC.ljmiMJW4!lr| (14*4EM V& It IM JW M|! II l-lth h

8、ltiJMf I* li i.*mM FfeatBd MIhl iJBi | M4 -rfM b-llgIE;.&dHHdMW nhuH)心wmiWIi . 3|tl.:MiTidJrniA2Jih-VUiiM f feMbitjj jMMw# 1 fc vni WVf11 M i-MfPTPvLmJII l4lPI-M41fc| I过量序列模块是查看数据是否有污染的另一种方法。如果某个序列的数量占全部序列的0.1% 以上,FASTQC 就定义该序列为 over-represented。这些 over-represented 序列通常标示着污染序列的存在。这种污染如果是建库测序中的接头序列,f

9、astqc可以检测并标示出可能的来源(possible source )。但如果污染是由于其他来源的DNA,比如其他生物的DNA,FASTQC就没法判断污染序列的来源。这就需要生信分析人员利 用其他方法找出污染源。比如将大量出现的序列和 NCBI的DNA数据库进行blast,看看污染序列是否来自其他物种。6)过量出现的 KmerCIPKEH GEMEW*S0l过量出现的k-mer (k-mer content)Need to be trimimeci检查是否有接头序列,还可以查看k-mer含量。如果有些k-mer过量出现,很有可能有序列污染。过量出现的 k-mer可能会有三种情况:序列5 端,

10、序列中间,或者序 列3 端。5端过量出现的k-mer是建库PCR扩增时PCR引物无法和DNA模板 很好地结合导致的,是技术误差。出现在中间的k-mer比较少见,可能是接头序列拼7)接头序列含量接头序列含量(adapter content)寸*tapWf CwiMlCi对接头序列污染的查看还有一个更直观的模块,就是接头序列含量。这里的两个例子中,左图没有显著的接头序列污染,右图的接头序列污染就比较显著原始数据有效清理结果f CFHER GENET 自8)去除 duplication 序列去除重复序列Q3rgeme柬沥:PCR扩增的不均一肩果:造成等位雀阖频率的运义及萇冈型识別不准确占除原理;将所有比对到完全相同位置的用列对减少至一对常用软件:picar-tools MarkDuplicate重复序列是怎么来的呢? 在全基因组或全外显子组测序的建库过程中,需要进行多轮的PCR扩增。由于扩增引物和不同模板结合力的差异, 有些地方的序列扩增产物大于 1 楼正方法:利用机醤学习的 方法建立误差蟆型,然后根 据建立的模生调整碱基质量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论