




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,数据处理流程,计算机集群,测序控制PC,测序仪,1.控制测序过程决定测序长度、填加试剂、控制温度、控制反应时间、拍照2.图像分析对测序仪拍照的图片进行图像分析,得到亮点的光强度和坐标3.basecalling由光强度得到碱基序列,4.数据传输将basecalling结果(二进制文件bcl)传输到计算机集群的存储上,5.数据处理将bcl文件转化为后续信息分析所使用的文本文件(fastq,qseq)6.index拆分7.数据质量分析8.数据备份9.后续信息分析.,图像分析及basecalling基本原理,Cycle1Cycle2Cycle3,对A发出的光拍照,对C发出的光拍照,对G发出的光拍照,对T发出的光拍照,图像分析及basecalling基本原理,Cycle1Cycle2Cycle3,由4个cluster得到4条序列:ATA.CCT.GCG.GAC.,图像分析,对每个图片独立的处理图像锐化对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换识别cluster/亮点信噪比(亮度/背景值)大于阈值的亮点区域计算亮点光强度和位置坐标在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度对应的位置坐标,将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移/拉伸/压缩(offset)系统、稳定的:4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数)偶然、随机的:flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可利用crosstalk解决,CrosstalkAC光谱间有交叠,GT光谱间有交叠,所以:碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利:不能直接比较光强度大小而得到碱基有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题,图像分析流程,TemplateGeneration利用AC之间的crosstalk、GT之间的crosstalk,将前2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),RegistrationandIntensityExtraction对于每一个cycle:将4张图片(ACGT)中的所有亮点与cluster坐标(x,y)对应,计算每个cluster的4种光强度,对每个图片独立的处理图像锐化、识别cluster/亮点、计算亮点光强度和位置坐标,TemplateGeneration利用AC之间的crosstalk、GT之间的crosstalk,将前2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),图像分析结果,Basecalling,Crosstalk校正4种光强度归一化(用DNA样品计算参数),Phasing/Prephasing校正(用DNA样品计算参数),对于每个cluster:在每个cycle中,比较4种光强度,光强度最大的就是当前cycle测到的碱基,各cycle测到的碱基连起来组成这个cluster的碱基序列;计算每个碱基的质量值,4种光强度归一化,A,C,G,T,phasing,Sequencingprimer,prephasing,Basecalling结果:qseq文件,每一行表示一条reads(一个cluster)每行有11列,tab分隔:机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、index标志、read1/read2标志、碱基序列、质量序列、是否通过默认的质量筛选标准Single-end(SE)测序:1个qseq文件Pair-end(PE)测序:2个qseq文件分别存放read1和read2的数据;2个文件的同一行属于同一个cluster每条序列(reads)长度=上机测序循环(cycle)数量;测序cycle数量受测序试剂盒的试剂量限制,对于GA有:36SE、36+7/8SEindex、45PE、36+7+45PEindex、76PE、74+7+76PEindex、73+8+76PEindex、101PE、101+7/8+101PEindex等对于Hiseq:91PE、91+8+91PEindex、101PE、101+8+101PEindex,Basecalling结果:qseq文件,fastq文件,每4行表示一条reads(一个cluster)第一行:序列ID,包含index序列及read1或read2标志:第二行:碱基序列,大写“ACGTN”第三行:“+”,省略了序列ID第四行:质量值序列:字符的ASCII码值-64=质量值Single-end(SE)测序:1个fastq文件Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据;Read1的fastq文件*1.fq中第一条reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件*2.fq中第一条reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA+QVVVVYVYWWYPWYYTYYWUYYYVVWW,质量值FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法Illumina:字符的ASCII值-64=质量值(Sanger:字符的ASCII值-33=质量值)范围GAIllumina1.3+(09年3月之后):2,35B,cGAIllumina1.0(09年3月之前):-5,40;,hHiseq:2:38B,f质量值与错误率理论关系:Q=-10log10(e)质量值计算方法:根据光强信号信噪比、光强度衰减、GC含量等参数,计算质量值,fastq文件,fastq文件,每条序列(reads)长度read1和read2分别去除了最后一个碱基,即:36SE有效长度为35101PE有效长度为100(read1)+100(read2)101+8+101PEindex有效长度为100(read1)+100(read2)Read1中所有reads长度相同,Read2中所有reads长度相同,但是Read1和Read2长度可以不相同,取决于上机测序循环(cycle)数量质量筛选(PF):Illumina标准流程输出的fastq文件,去除了qseq文件中没有通过默认质量筛选标准的低质量序列(reads)GA正常PF比例:DNA8090%,RNA7085%每个Lane的正常产量范围:GA2030MPFreadsRead1和Read2各有2030MHiseq6080MPFreadsRead1和Read2各有6080M碱基总产量=Read1的产量+Read2的产量=reads数量(Read1的长度+Read2的长度),fastq文件产量(GA),fastq文件产量(HiseqvsGA),文库质控问题1:Pair-end关系,800bp及以下文库,与参考序列比较或者:总之,Read1,Read2与参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的位点坐标,Read1,总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的位点坐标文库插入片段长度,F,2100检测报告文库长度分布,与参考序列比对得到insert-size分布,正常insert-size分布,基因组DNA,外显子,PCR-free文库,异常insert-size分布,2K及以上文库,文库质控问题1:Pair-end关系,与参考序列比较或者:总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标大于R的位点坐标,正常insert-size分布,2K,56K,PCR-free文库,10K,异常insert-size分布,文库问题2:adapter污染,空载:adapter与adapter直接连接,中间没有插入片段,导致read1测到3adapter,read2测到5adapter的反向互补reads尾部测到adapter插入片段过短插入片段长度小于上机测序循环(cycle)数,导致read1尾部测到3adapter,read2尾部测到5adapter的反向互补,adapter空载较多导致碱基含量波动,客户PCR引物污染导致碱基含量波动,文库质控问题3:文库随机性,GC含量偏差:实验技术(打断、PCR、测序)本身特点,导致高GC和低GC区域测序覆盖度偏低,甚至某些区域覆盖不到;PCR-free建库技术可减少PCR带来的随机性问题duplicationPCR扩增出很多一模一样的母版分子,测序结果中很多条reads是一样的;基因组自身重复序列含量高导致duplication偏高;数据量越大,duplication比例越高,文库质控问题4:其它物种、样品污染,测序质控问题,rawCluster密度正常rawCluster密度:2030万/GAtile,200350万/HiSeqtileCluster制备时,控制文库浓度,达到适当的rawCluster密度密度过低产量低;密度过高质量差样品差异:200小片段能够容忍的密度较高,800bp片段以及RNA样品、特殊样品,应适当降低密度通过默认质量筛选标准比例(PF)用read1前25cycle的信噪比进行筛选;正常PF比例:DNA80%,RNA70%;rawCluster密度越高,PF比例越低;当rawCluster密度超高时,图像分析识别出的rawCluster数量小于真实值,此时PF比例会低于正常;,测序质控问题,光强度信号受到环境温度、测序仪温度控制、测序仪聚焦、CS试剂、测序试剂、样品等因素共同影响;测序长度越长,光强度降低越多;碱基含量不均匀的样品,光强度会有波动,但属于正常碱基含量样品本身测序问题导致有偏向性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年残联会计准则实施能力模拟题
- 2025年科协会计考试模拟题及重点难点解析
- 2025年家政服务技能实操高级考核题集
- 2025年本科院校审计处面试模拟题及答案集
- 2025年充电桩运维工笔试模拟考试题
- 2025年安全员模拟测试题及答案练习册
- 2025年汽车美容技师技能认证考试试题及答案解析
- 2025年金融风控专家资格考试试题及答案解析
- 2025年健身教练专业技能考试试题及答案解析
- 2025年计算机网络工程师专业技术考核试卷及答案解析
- 三农村电商创业融资指导手册
- 国际商务课件全套教程
- 22.3 实际问题与二次函数 课件 2024-2025学年人教版数学九年级上册
- 文言合集(1):120个文言实词小故事(教师版+学生版)
- 教科版(2024)小学科学一年级上册(全册)教案及反思(含目录)
- 【课件】2025届高三生物一轮复习备考策略研讨
- 中级会计师《经济法》历年真题及答案
- 新疆城市绿地养护管理标准
- 高职院校高水平现代物流管理专业群建设方案(现代物流管理专业群)
- 汉语言文学毕业设计开题报告范文
- 爱自己爱生命主题班会课件
评论
0/150
提交评论