人类外显子组测序结题报告_第1页
人类外显子组测序结题报告_第2页
人类外显子组测序结题报告_第3页
人类外显子组测序结题报告_第4页
人类外显子组测序结题报告_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.1实验流 SNP和InDel检测 SNP和InDel的注释 SNP对蛋白结构及功能影响注释 群体SNP和InDel检 .......................................................................................................................................................2014 2.1实验流每个样本的组DNA随机打断成150~200bp的片段并构建文库,参照SureSelectXT SystemforIlluminaPaired-EndSequencingLibraryIlluminaHiSeqandMiSeqMultiplexedSequencingPlatforms2-1Agilent外显子捕获流完成后,将片段与参考组进行比对,进行数据统计分析及后续生物信息学分析。生物信息分析流程如图2-2:2-2生物信息分析流见下表(√打勾部分√√√√√√候选GO和KEGG代谢通路分√√IlluminaHiseq2000得到的原始图像数据经过BaseCalling转化为序列数据,以FASTQ文件格式来,是用户得到的最原始的数据文件。FASTQ格式文件包含reads的序列信息以及reads的质量信息。数据@HWI-ST531R:144:D11RDACXX:4:1101:1212:19461:N:0:ATTCCT+HWI-ST531R:144:D11RDACXX:4:1101:1212:1946每条read4行信息,其中第一行和第三行分别由文件识别标志和读段名(ID)组成(第一行以“@”开头而第三行以“+”开头;第三行中ID可以省略,但“+”不能省略),第二行为碱基序列,而第四行是第二行为方便保存和共享各产生的高通量数据,NCBI数据中心建立了大容量的数据库equenceReadArchive, Illumina属于第二代技术,单次运行能产生数十亿级的reads,如此的海量数据无法逐个展示每条read的质量情况;生物信息运用统计学的方法,对所有reads的每个circle进行碱基分布和质量波动统计,得到原始数据后,对结果进行统计和评估,根据接头信息去除那些有接头污染的序列。如下为原始数据的结果统计表以及质控图:图3-1为原始数据碱基分布图(又称为GC偏差图)3-2为原始数据碱基质量分结 样本名 样本名 该部分的统计结果见表该部分的统计结果见表3-1,质控图见图3-1及图3-

表3- Raw Raw Clean lean3-1A1原始数据的碱基注:横坐标是reads碱基坐标,纵坐标是所有reads的A、C、G、T、N碱基分别占的百分比。组项目中如 直线。从图1可知,该文库碱基分布均匀,N%3-2A1原始数据的碱基质量分布readsreads的碱基质量(SolexaScale40=Highest15=Lowest),图中垂直红线“Ⅰ”指定的范围是所有reads碱基的综合质量,红色垂直方块是质量的四分位值范围,加黑粗线是质量值的中位数。从图2可知,获得的数据达到后续分析要求。该部分的统计结果见表3-2和表3-使用BWA将片段比对回参考组,并使用Picard去除PCR-duplication产生的序列本该部分的统计结果见表3-2和表3-Data)SNP和InDel行质量值的重新校正,最后再结合dbsnp信息进行SNP和InDel的检测。使用的dbsnp信息如下: ationUrl=ftp://ftp.ncbinlmnih.在SNP和InDel的检测过程中,要求突变位点的深度大于等于5,即支持该变异的片段数目要大于等于5。 为individuals_snp_indel/, 样本名/*.snp.vcf:样本的SNP结果文件,以vcf格式。样本名/*indel.vcf:样本的InDel结果文件,以vcf格式。 ) netmpleup.shml该部分的统计结果见表该部分的统计结果见表3-3-4SNPInDel结果统计SNPInDelSNP和InDelexonic区域的SNP和InDel突变位点,将会对突变位点对蛋白翻译的影响进行注释。 为individuals_snp_indel/, 样本名/*.snp.anno.txt:样本的SNP样本名/*indel.anno.txt:样本的InDel该部分的统计结果见表该部分的统计结果见表3-5至3-表3-5SNP注释结果统计15131422255434366555表3-6InDel注释结果统计999900010001000231211134222324342248894656691010111111**表3-5和表3-6具体描述和说明参考 表3-7SNP对蛋白翻译影响结果统计999969表3-8InDel对蛋白翻译影响结果统计232312321114125304420121011111**表3-7和表3-8中unknown是由于注释文件中的ORF不完整导致无法进行判3.6SNP对蛋白结构及功能影响注会导致编码的氨基酸产生改变。对多序列比对结果和3D结构数据的分析,可以得到氨基酸突变对蛋白质结构和SIFT(SotingntoleantFromoleanthelp.html#SIFT是一个可以氨基酸突变对蛋白质影响的。通过目标序列与其近似序列的比对(PSI-BLAST可以知道目标序列中氨基酸残基的保守程度,SIFT就是通过氨基酸的保守程度进行的。 位点的特异性判断对分子结构和功能的影响;2、PSIC值,用来衡量突变在蛋白质的罕见程度;3、分子级结构及相关信息,包括二级结构、可溶性表面积及Phi-psi二面角;43D结构,将突变氨基酸替换到蛋白质分子的3D结构中看该突变是否会破坏蛋白质的疏水。结 样本名/*.snp.sift.txt:样本SNP的SIFT结样本名/*.snp.polyphen.txt:样本SNP的Polyphen2结 的结果统计见表3-9和表3-表3-9SIFT结果的统计表3-10PolyPhen2结果的统计群体SNP和InDel根据每个最终的比对结果,利用GATK获得10个样本的群体SNP信息和群体InDel信息。结果以vcf文件格式保存。群体SNPInDel的检测过程中,SNP的质控过滤标准为:"QUAL30.0||QD5.0||HRun5||SB0.10"。InDel的质控过滤标准为:"MQ04&&((MQ0/(1.0*DP0.1SB1.0QUAL10"。具体的过滤方式可参考vcf文件开头以"##FILTER"为起始部分的说明。参数的含义可参考vcf文件开头以"##INFO"为起始部分的说明根据Agilent捕获在人类组上捕获区域的位置信息,过滤掉不在捕获区域内的SNP,InDel检测结果。再根据人类dbsnp信息,过滤掉人群SNP位点(通常与疾病无关。 为multi_result/, multi_snp.vcf:通过质控得到的原始SNP结果multi_indel.vcf:通过质控得到的原始InDel结果multi_snp.bedFilter.vcf:经过捕获区域过滤之后的SNP结果multi_indel.bedFilter.vcf:经过捕获区域过滤之后的InDel结果multi_snp.bedFilter.dbsnpFilter.vcf:经过dbSNP过滤之后的SNP 3-11SNP信息InDel信息结果统AfterCaptureRegionAfterdbsnpSNP和InDel根据过滤之后的2,782个群体SNP位点和540个群体InDel位点,采用PLINK计算在疾病样本和正常样本中次等位的频率,利用FisherExactTest判断突变位点与疾病否存在非随机相关性。检验的P值越低则2,782SNP540InDel位点进行注释。给出突变的变异类型,突变对蛋白翻译的影响,以及对应的hyperlink(包含对应的序列,通路,疾病数据库等信息。结 multi_snp.assoc.fisherhsa.anno.txt:群体SNP的Fisher精确检验和注释结果multi_indel.assocfisherhsa.anno.txtInDelFisher精确检验和注释结果 检验P值 ID名|Hyperlink数据 ID名|Hyperlink数据**POS坐标形式与vcf这部分的结果统计见表这部分的结果统计见表3-P-InDel219 ||--* ||--*f SNP和InDel的结果文件||-- ||-- 样本InDel结果文||-- ||-- ||-- 样本SNP的SIFT结||-- 样本SNP的Polyphen2结 SNP和群体InDel||-- 通过质控得到的原始SNP结||-- ||-- 的||-- 的||-- dbSNP过滤之后SNP结||-- dbSNP过滤之后InDel结||--multi_snp.assoc.fisher ||--multi_indel.assocfisher 所有提供的文件均为Linux系统下的文件,压缩包使用“tarzcvf命令压缩,以下为不同系统用户解压缩的Unix/Linux/Mac用户:tarzcvf*.tar.gzWindows用户:使用WinRAR解压如果在本附录中无特殊说明,所有提供的文件均为Linux系统下文本文件,Unix/Linux用户可以使用more或less命令查看文本文件内容。对于Windows用户,一般文本文件可以使用写字板或excel打开。使用开源文本编辑器geditforwin32版本( )或者商业文本编辑器UltraEdit。当文件比较大时,打开文件可能导致Windows系统死机,建议使用性能较好的计算机或者使用更适合处理大量数据的Unix/Linux以使用浏览器打开,Linux/Unix用户使用displa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论