FastQC在二代数据上的应用_第1页
FastQC在二代数据上的应用_第2页
FastQC在二代数据上的应用_第3页
FastQC在二代数据上的应用_第4页
FastQC在二代数据上的应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FastQC 在二代测序数据质控上的应用 随着二代测序技术的成熟和测序成本的降低 高通量测序越来越多地用于科学研究中 与此同时 测序数据的处理问题也随之而来 如何从得到的海量数据中 提取出我们所需 的部分成为关键 其中 测序数据的质量是影响数据处理的关键 也是在数据分析前需进 行的首项分析 FastQC 作为一款小巧的应用于数据质量控制的软件 能对二代测序数据进 行快速的基本信息统计 给出相应的图表报告 因此 FastQC 得到了越来越多的生物信息 学分析者的青睐 本文对 FastQC 的使用步骤及结果分析进行了详尽的阐述 1 软件的下载安装 从网上找到 FastQC 的下载网址 复制下载链接后 利用 wget 命令 进行软件安装包 的下载 或者直接下载到本地 Linux 系统 利用 unzip 命令 对安装包进行解压 解压后进入文件夹 并对 fastqc 的权限进行修 改 chmod 755 fastqc 使得 FastQC 成为可运行 2 软件的使用 由于 FastQC 没有图形界面 其使用要利用命令行进行 fastqc o output dir f fastq bam sam seqfile1 seqfileN o 用来指定输出文件的所在目录 f 用来强制指定输入文件格式 e g software FastQC fastqc o FastQC OUT fastq 输出的文件是包含有网页 html 格式的压缩文件夹 解压后 通过网页查看输出结 果 3 结果分析 如下 为 FastQC 的网页结果 可以看到 该软件给出了 12 个方面的分析结果 并对 结果进行了判断 通过的用绿色 PASS 质量不通过的显示为红色 FAIL 质量位于两 者之间的为黄色 WARN 以下对每一项统计进行逐一分析 3 1 基本统计信息 基本统计 对数据的名称 类型 reads 数目 未通过的 reads 数目 reads 读长及 平均的 GC 含量进行统计 3 2 所有读长相同位置的测序质量 如下图 横轴为测序读长的不同位置 纵轴则显示所有读长在每一位置的测序质 量统计 其中纵轴质量计算公式为 quality 10 log10 p p 为测错的概率 即一条 reads 某位置出错概率为 0 01 时 其 quality 就是 20 该图显示的测序质量均较高 3 3 每个芯片位置测序质量 该图则是对测序机器的不同位点的 Flowcell 的测序质量进行评估 显示的是系统 误差 一般情况下 商业的测序公式 测序质量较高 该项均为通过状态 同时 商业公 司会对原始的测序数据进行处理 将测序质量低的 reads 进行去除 图中 蓝色部分是质 量较好的点 红色越明显则是测序质量越低 3 4 读长测序质量的分布 该项统计是对不同测序质量的 reads 进行了分布统计 横轴显示的是从低到高的 质量得分 纵轴则是在该质量下的 reads 数目分布 因此 数据质量越高 其主要部分越 偏右 下图的 reads 均分布在质量得分 36 以上部分 是比较的测序质量 3 5 所有读长相同位置的碱基比例 该图是对测序数据的 ATGC 四种碱基比例进行统计 横轴是不同的测序位点 纵 轴是该位点下所有 reads 的四种碱基分布情况 正常情况下 好的测序结果是 A 和 T 碱 基相同 G 和 C 含量相同 同时 整体含量和整个基因组水平类似 但下图则是几乎没有 C 是由于该文库是甲基化文库 是由于建库过程中 对未甲基化的 C 进行的亚硫酸盐转 化所致 并非测序质量问题 3 6 所有读长的 GC 含量分布 该项是对所有读长的 GC 含量的分布进行的统计 横轴是 GC 含量 纵轴是该 GC 含量的 reads 分布 正常情况下 测序的实际情况 红线 应与理论下 蓝线 相同或 相似 即平均的 GC 含量相同 3 7 所有读长的 N 含量及长度分布 测序仪器在不能辨别 reads 的某个位置是何碱基时 产生 N 所有读长的 N 含量统计 则是所有 reads 的每个位置 统计 N 的比率 好的测序结果 该项几乎为零 如下图 并且测序 reads 的长度分布均一 为自己的目标长度 下图则是 PE50 的测序结果 读长在 49bp 3 8 序列的重复水平及过表达的序列 该项是对一套数据的重复水平进行分析 横轴是不同的重复水平 纵轴是该重复水平 下的 reads 分布 在高重复水平的部分有峰 则代表数据不好 下图不是较好的数据 在 重复度为 10 的部分有一个峰 同时 重复的序列会以表格的形式列出 3 9 不同测序位点的连接子含量 该项是对不同测序位点的连接子含量进行统计 测序文库构建中必须进行接头连 接 以进行测序 接头是否去除干净将会对后续的分析产生影响 正常情况下接头的含量 接近于零 3 10 K bp 短核苷酸含量 某 k 个 bp 的短序列在 reads 中大量出现 观测值远高于统计期望时 将其记为 over represented k mer 并以表格形式列出这些过表达的 kbp 短序列 4 总结 FastQC 快速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论