




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、生物信息分析过程取得原始序列后,如果有相关的种类的参照序列或参照基因组,通过以下过程进行生物信息的分析二、项目结果的说明1原始序列数据项目结果文件使用高通量测量序列(序列平台,诸如illumina HiSeqTM2000/MiSeq )进行序列处理的原始图像数据文件通过碱基识别分析进行原始序列处理变换为,我们被称为Raw Data或者Raw Reads,结果以fastq (简称为FQ )文件形式存储,并包括序列(reads )中的序列信息及其相对应的序列质量信息。随机切取序列样品的实际数据的展示FASTQ格式文件的每个read用四行写,如下所示 eas 1393360363360 fc 706 VJ 336023602360535353535353535353535353535353535353535353535353535353535360 at cgcgctcttgcctccgtcgaaattgtcctcattcgaacttcgtcgttcgtt cffdehhhfijjj fhgiiiehiijbhijeijijijijijijijijijijijijijijijijijijijihighccf第一行以“”开头,然后是illumina序列标识符和说明性文本(可选部分)。第二行是碱基序列。第三行以“”开头,然后是illumina序列标识符(可选部分illumina排序识别符的详细内容如下EAS139Unique instrument name136运行标识FC706VJ流动小区id2流动蜂窝线2104tilenumberwithintheflowcelllanes15343x-coordinateoftheclusterwithinthetiley-coordinateoftheclusterwithinthetile1第一批成员,1 or2 (第二次远程第一次)yyifthereadfailsfilter (readisbad )、N otherwise180 when none of the control bits are on,otherwise it is an even numberPR PR PS索引序列。从与第4行的各字符对应的ASCII值减去33后的值是与第2行的碱基对应的序列决定品质值。 假设定序列误差率为e,illumina HiSeqTM2000/MiSeq的碱质量值为Qphred,则有以下关系公式Qphred=-10log10(e )illumina Casava 1.8版本的排序错误率和排序品质值的简洁对应关系如下定序误差率定序质量值对应文字5%13.1%2050.1%30什么?0.01%40I2测序数据质量评价项目结果文件。2.1定序误差率分布检查碱基序列确定错误率是在碱基序列确定过程中根据碱基识别(Base Calling )的预测碱基判别错误概率模型计算出的Phred的数值(Phred score,Qphred )用式1变换而成的,对应关系如下表所示illumina Casava 1.8版本的碱基识别与Phred分数的简单对应关系Phred得分不正确的碱基识别碱的正确分辨率Q-sorce10十分之一90%Q10系列201/10099%Q20301/100099.9%Q30401/10000分之一99.99%Q40测序错误率与碱的质量有关,测序器本身、测序试剂、样品等多种因素都受到影响。 RNA-seq技术中,定序误差率分布有两个特征(1)序列错误率随着序列(Sequenced Reads )的长度的增加而变高。 这是测序过程中化学剂的消耗造成的,是illumina的高吞吐量测序平台所具有的特点(Erlich and Mitra,2008; 江江PS.)。(2)前6个碱基的位置也会发生高测序误差率,该长度与在RNA-seq建设中逆转录所需的随机引物的长度正好相等。 因此,前6个碱基序列确定错误率高的原因推测是随机引物与RNA模板的不完全结合(Jiang et al.)。 定序误差率分布检查用于检测在定序长度的范围内有无异常的碱位置存在高误差率,例如,中间位置的碱位定序误差率显着高于其他位置。 一般来说,每个碱基位置的排序错误率应该低于0.5%。图2.1定序误差率分布图横轴是reads的碱基位置,纵轴是单碱基错误率2.2 GC含量分布检测GC含量分布检测用于检测有无AT、GC分离现象,这种现象是基于测序和库的建设,有可能影响之后的定量分析。在illumina定序平台的转录群定序中,反转录到cDNA时使用的6bp的随机引物在前几个位置的核苷酸组成上具有一定的偏好性。 该偏好性与序列测定的种类和实验室环境无关,但会影响转录组序列测定的均匀化程度(Hansen et al.)。 此外,理论上,g和c的碱和a和t的碱的含量在每个测序周期都相等,整个测序过程稳定,呈水平线。 在DGE测序中,由于随机引物的放大偏差等,在测序中得到的read的前67个碱基中经常发生大的变动,这种变动是正常的状况。图2.2 GC含量分布图横轴是reads的碱基位置,纵轴是单碱基所占的比例,颜色表示碱基的种类2.3定序数据过滤在定序获得的原始定序阵列中包含带连接器的低质量的reads,为了保证信息分析的质量,必须对raw reads进行滤波以得到clean reads,之后的分析基于clean reads数据处理的步骤如下:(1)拆除带适配器的reads(2)去除2)n(n表示无法特定碱的信息)的比例超过10%的reads(3)去除低质量的读取。RNA-seq连接器(适配器,oligonucleotidesequencesfortrusequentimrnanddnasampleprepkits )信息:RNA 5适配器(ra5)、部件号:5- aatgtacgcgaccgagaatctactcctacacgagctccgatct-3RNA 3适配器(ra3)、部件号:5- gatcggaagacacgtctgaactccagtcac (第6位index ) atctcgtatgctctctcttg-3图2.3原始数据过滤结果2.4测序数据质量状况的总结表2.4数据生产质量状况一览Sample name原始读取。清晰读取clean bases错误率(% )Q20(% )Q30(% )GC内容(% )HS1_13.52G克0.0397.8892.8849.39HS1_23.52G克0.0396.5090.3849.59HS2_13.51G克0.0397.8592.8149.53数据质量详细情况如下(1) Raw reads :统计原始的数组数据,以4个行为单位,统计每个文件的数组的个数。(2) Clean reads :计算方法与Raw Reads相同,统计的文件是过滤后的排序数据。 之后的生物信息分析以Clean reads为基础。(3) Clean bases :数组决定数组的个数乘以数组决定数组的长度,变换为g单位。(4) Error rate :用式1计算。(5)分别计算q20、q30:phred的数值大于20、30的碱相对于全部碱的比例。(6) GC content :计算碱g和c相对于总碱基数的合计比例。3参照系列对照分析项目结果文件测序算法:基于不同基因组特征,选择比较合适的软件(动植物用TopHat(Trapnell et al .2009 )、真菌或基因密度高的种类用Bowtie ),选择合适的参数设定(最大内含子长度、已知的这种基因模式下图显示了TopHat的算法Tophat的算法主要分为以下两部分(1)将序列与外显子进行对照。(2)将定序序列分段对照两个外显子。我们统计了通过实验生成的序列的数组数(Total Mapped Reads )及其相对于clean reads的比例。 这包括多个阵列相对于其总体的比率,以及相对于单个阵列和其总体的比率。等等。的。3.1 Reads和参考基因组的比较情况统计表3.1 Reads和参考基因组的比较情况一览Sample nameHS1HS2ht-1HT2PS 1PR 2Total reads总映射。(86.04% )(85.75% )(83.45% )(85.78% )(86.42% )(86.26% )多重映射。(0.86% )(0.9% )(0.94% )(0.89% )(0.84% )(0.83% )uniquely映射(85.18% )(84.85% )(82.51% )(84.89% )(85.58% )(85.37% )读- 1(42.9% )(42.69% )(41.48% )(42.74% )(43% )(43.02% )读- 2(42.28% )(42.16% )(41.03% )(42.15% )(42.57% )(42.35% )读地图至(42.54% )(42.4% )(41.24% )(42.39% )(42.78% )(42.61% )读取地图至-(42.63% )(42.45% )(41.27% )(42.5% )(42.8% )(42.76% )非不规格读取(60.21% )(60.55% )(59.38% )(61.87% )(60.25% )(61.1% )Splice reads(24.97% )(24.3% )(23.13% )(23.02% )(25.32% )(24.26% )readsmappingproperpairs(76.47% )(77.49% )(73.77% )(76.04% )(77.51% )(77.25% )核对结果统计的详细情况如下(1) Total reads :定序数组定序后的数量统计(Clean data )。(2) Total mapped :位于基因组上的序列数的统计一般来说,不存在污染,参照基因组进行适当选择时,这一部分的数据比例超过70%。(3) Multiple mapped :参照数组上具有多个匹配位置的数组的数量统计该部分的数据比例通常不到10%。(4) Uniquely mapped :在参照数组上具有唯一匹配位置的数组的数量统计。(5) Reads map to,Reads map to -:将序列序列与基因组上的正链和负链的统计进行对照。(6) Splice reads:(2)中,Splice reads是段与两个外显子上的数组数组(也称为Junction reads )匹配的统计,Non-Splice reads是与外显子匹配的数组的统计,splice reads的比例3.2 Reads参考基因组在不同地区的分布情况统计总映射读数对基因组上各部分的对照,定位区域分为Exon (外显子)、Intron (内含子)和Intergenic (基因间隔区域)。在正常情况下,Exon (外显子)区的测序比例必须最高,Intron (内含子)区中的测序可能是因为未成熟的mRNA污染和基因组注释不完整,Intergenic (基因间隔区)中的测序可能是ge图3.2 Reads参考基因组在不同区域的分布情况3.3 Reads在染色体上的密度分布情况如果统计Total mapped reads的基因组上的各染色体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件中文字使用原则
- 2025年建筑工程监理师职业技术能力考试试卷及答案解析
- 2025年家庭摄影师职业水平评定试题及答案解析
- 2025年机械制造工程师综合知识技能考核试卷及答案解析
- 2025年数据安全工程师bi备题库
- 2025年公共关系师资格考试试题及答案解析
- 机电施工标准课件
- 2025年职场安全常识问卷及答案解析
- 2025年防汛安全操作试题及答案大全
- 2025年社交媒体营销专家面试技巧与案例分析题集
- 培训钉钉课件
- 新建洞室储气库压缩空气储能系统的经济性及成本分析
- 艺康servsafe培训课件
- 砖厂职业危害管理制度
- 肝功能障碍患者的麻醉管理要点
- 2025年粮油仓储管理员(高级)职业技能鉴定考试练习题库(含答案)
- 【课件】新高三启动主题班会:启航高三逐梦未来
- 历史 2024-2025学年部编版七年级历史下学期期末问答式复习提纲
- 2025年中国邮政集团有限公司北京分公司招聘笔试冲刺题(带答案解析)
- 学校物业服务应急事件处理预案
- 单位车辆管理委托协议书示例3篇
评论
0/150
提交评论