已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
临床遗传学与生物信息学 工具与资源 刘春宇liuchunyu 主要内容 定义与背景主要数据对象及特点常用数据库资源与工具临床遗传学实验室的基本信息学装备与管理生物信息学的基本技能 定义 生物信息学 bioinformatics 是研究生物数据的采集 处理 存储 传播 分析和解释等各方面的学科 是生命科学和计算机科学相结合形成的一门学科 是通吃所有现在与未来的omics的学科 生物信息学应用服务于科研与临床 精准医学背景下的遗传学和生物信息学 科研 基因定位 突变检测 基因型分析 疾病易感基因的关联分析 基因与蛋白的调控 结构与功能预测分析 临床 突变检测 基因型分析 和已知相关基因的信息查询和临床指导 生物信息学是现代遗传学研究的灵魂 遗传学数据量大一个人携带数百万的多态或突变2万余编码蛋白的基因表达 数十万甚至更多的剪接本 非编码调控基因 分子种类多snvs cnvs indels svs可遗传的 新生的 体细胞的影响编码的 调控的数据到知识的转化依赖信息的分析与整合知识到临床实践的转化依赖信息的管理与发布 主要数据对象 遗传学数据表型数据 单基因病vs多基因病 突变与多态性 americancollegeofmedicalgeneticsacmgminimumlist 56genes ambryexonscreen293genesfor229diseases 对临床医生最重要关键信息 dna变异 区分致病突变 易感基因与常见多态变异影响到的什么基因基因名称功能如果影响基因的功能蛋白质编码表达量 信息的有效性和适用范围 基因型与表型的关系可行动性 actionable 大合作大数据的重要性 基因型与表型的关系brca1的突变为例人群中已经发现数千种变异 致病性如何 常用数据库资源与工具 基因组与序列各类图谱序列基因组与表观基因组变异与表型omim gwascatalog dna变异数据查询 ucscgenomebrowser 位置 http genome ucsc edu cgi bin hgtracks clade mammal org human db hg19 position brac1 hgt positioninput brac1 hgt suggesttrack knowngene submit submit hgsid 423900655 v4s6u9fiecnw2xqxxdotaqapw1v3 pix 1045ncbiclinvar 变异与疾病 http www ncbi nlm nih gov clinvar term pten 5bgene 5d 基因的相关信息 genecardshttp www genecards org cgi bin carddisp pl gene brca1 search aa389e880a9c80096d5a96c63a2975f6 常见病的易感基因 gwascataloghttp www genome gov page cfm pageid 26525384 searchform 基因表达的信息 brca1http www genecards org cgi bin carddisp pl gene brca1 search aa389e880a9c80096d5a96c63a2975f6 遗传学以外的生物信息学 临床大数据人口资料影像学生理生化病理治疗与疗效生物测量可穿戴设备 计算需求 100tb pb存贮空间64 1000 cpu32 64 g内存并行运算 流程化 数据关联 备份 临床遗传学实验室的基本信息学装备与管理 计算机一般以linux操作系统为佳 配以较大容量内存 16gb以上 硬盘存贮空间 4tb以上 以及数据备份系统如需要处理原始ngs数据 则应需要高性能 上千cpu的并行计算机集群 cluster 或网格 grid 因分析处理的数据不同 会需要使用到以上提到的各类商业或非商业的软件 数据库 而这些软硬件安装 使用 维护 都需要计算机专业人员提供 生物信息学的基本技能 大规模数据格式变换 处理常用数据库 软件的使用数据库管理与查询基本编程 计算 小结 临床遗传学的研究和应用建立在dna测序及相关数据分析基础上临床遗传学实验室 尤其是分子遗传为手段的实验室 离不开生物信息的技术支持 熟练掌握数据分析方法 了解相关数据资源的专才是临床遗传学实验室的重要构成其他临床遗传学工作者也有必要对数据及分析方法 工具 及资源有基本的了解 对数据分析过程中涉及的数据文件类型有所了解生物信息学与大数据 分析流程 质控序列比对 拼装发现变异变异注释 基因定位 以家系或群体样本 通过连锁或关联分析 以统计概率判断基因在基因组中位置数据分析流程 数据质量评估与控制 过滤确定基因型数据进一步过滤 按等位基因频率等 群体结构分析关联或连锁分析 分析软件 大体分为 连锁分析基于家系数据的参数连锁 parametric 与非参数连锁 non parametric 分析关联分析基于家系基于群体正常 对照也可分为单点分析和多点分析 还有数量性状分析及基因 基因相互作用分析等群体结构 populationstructure 分析 针对全基因组的基因型数据不少软件兼有多种分析的功能 常用的家系关系和基因型错误检查软件 pedcheckprest pedigreerelationshipstatisticaltest plink可在全基因组型数据中检查家系关系 孟德尔遗传错误及性别错误 imputation软件 用于推测基因组中未分型的标记beagleimputemach 常用连锁分析软件 linkage fastlinkgenehunter和genehunter plusmerlinsolarsimwalkfbat pbat相关软件的总结对比可参考 dudbridge f asurveyofcurrentsoftwareforlinkageanalysis hum genomics1 63 65 2003 http www soph uab edu ssg linkage linkageanalysis 全基因组关联分析 gwas 软件 plink http pngu mgh harvard edu purcell plink 最广泛使用的软件goldenhelix snp variationsuite svs 较为广泛使用的商用全基因组关联分析软件bioconductor的gwastools http www bioconductor org packages release bioc html gwastools html 支持大型gwas数据和注释的存储 及gwas数据的清理和分析gcta 变异检测 变异检测 dna变异常见类型 单核苷酸多态 snp 和短片段插入缺失 indel 缺失 deletion 插入 insertion 倒位 inversion 易位 translocation 拷贝数变异 cnv dna测序是确定基因型的方法之一 更是在样本基因组中发现新变异的终极手段 dna测序分析 针对单个小扩增片段进行的sanger测序全基因组或全外显子组的第二代测序 next generationsequencing ngs 第三代测序因目前暂未普及 应用较少 在此不做分析讨论 基于sanger测序的数据分析 测序仪提供的数据分析软件 如 abi的sequencinganalysissoftware商业软件 处理原始测序数据trace文件 或称chromatogram 以识别变异 如 dnastar的lasergenegenecodes的sequenchersoftgenetics的mutationsurveyor免费软件 如 phred phrap consed polyphredsnpdetector dnastar 快速组装比对序列片段用即时互动视图和过滤工具检测和分析snp可直接访问dbsnp cosmic和gerp数据库可大规模比较多个样本间或多个群体样本之间的snp 并鉴定snp对基因的影响程度 lasergene工具包可分析sanger测序和ngs数据 可从多个 群体样本的sanger测序数据中鉴定和比较潜在的致病变异 softgenetics 工具包mutationsurveyor专门针对sanger测序的序列进行变异检测可在15分钟之内分析由appliedbiosystemsgeneticanalyzers megabace或beckmanceq电泳系统产生的高达2000个sanger测序文件 支持多种格式分析结果snp indel和体细胞变异具有较高的准确性和灵敏度能自动下载genbank氨基酸序列 进行序列比对 dna甲基化检测 多变区间的变异检测 杂合indel的分解识别de convolution 这是mutationsurveyor的主要特色和卖点 线粒体dna序列分析和定量 自定义变异编码与报告等 杂合性indel检测输出图例 图中正向显示一杂合性tt缺失的de convolution 基于ngs的数据分析 项目总体流程 pabingers etal briefingsinbioinformatics 2013 ngs数据分析基本流程 ngs数据分析基本流程 原始下机数据转换成fastq格式测序质量评估 评估数据产量和质量 并根据需要去除接头污染和低质量序列 如 fastqc可对illumina和abisolid测序序列质量进行快速评估fastx toolkit和galaxy即可评估序列质量 还可去除污染碱基和低质量碱基并对序列进行质量过滤将序列比对到参考基因组上 生成sam或bam文件比对工具如 bwa bowtie2 illumina的hiseqanalysissoftware soap等 fastq格式 fastq文件示例 该文件包含一条序列 seq idgatttggggttcaaagcagtatcgatcaaatagtaaatccatttgttcaactcacagttt 1 55ccf ccccccc65afastq文件将每条序列用四行表示 第一行以 打头 后跟着序列id 可加上序列描述 类似于fasta文件的标题行 第二行是序列内容 第三行以 打头 后面的序列id和描述可有可无 第四行是第二行序列每个位点的质量值 字符个数必须与第二行完全相同 变异检测运用gatk mutect varscan atlas2 samtools svdetect polymutt等工具包 查找snp和indel 缺失 插入 倒位 易位 cnv等实践显示 多种不同软件共同识别的变异有更高的可靠性 因此有建议使用consensuscalls生成vcf variantcallformat 文件变异注释运用annovar seattleannotation genometrax等工具对每一变异筛查dbsnp 1000genomes polyphen sift esp hgmd omim keggpathway cnv dgv等数据库 评估表型或疾病风险 vcf格式 fileformat vcfv4 0 filedate 20110705 reference 1000genomespilot ncbi37 phasing partial info info info info info info filter filter format format format format chromposidrefaltqualfilterinfoformatsample1sample2sample324370rs6057ga29 ns 2 dp 13 af 0 5 db h2gt gq dp hq0 0 48 1 52 511 0 48 8 51 511 1 43 5 27330 ta3q10ns 5 dp 12 af 0 017gt gq dp hq0 0 46 3 58 500 1 3 5 65 30 0 41 3variantcallformat vcf 是用于存储基因序列变异的特定文本文件格式 该格式是随着大规模基因分型和dna测序而出现的 如千人基因组计划 它包含描述元数据的行 然后是数据表头行 后面的数据行每行包含基因组中一个位置的信息 如变异信息 6 变异筛选 举例 并非唯一方案 显性 隐性 snp和indel变异检测软件 gatk针对外显子和全基因组重测序数据检测snp和indel 基因分型少量样本 多个样本的群体变异检测均可较高灵敏度和准确性 目前应用很广mutect适于混杂的不纯肿瘤样本 检测体细胞snp运用精密的统计模型 假阳性产出率很低varscan varscan2适于靶向测序 外显子和全基因组重测序数据单个样本 多个样本 群体样本 如体细胞变异 共有或独有的种系变异 杂合性丢失 loh 肿瘤与正常肿瘤外显子 正常体细胞cnvvarscan2特别针对肿瘤外显子测序检测体细胞突变和cnv gatkbestpractices http www broadinstitute org gatk guide best practices atlas2全外显子测序的变异检测综合分析包采用逻辑回归模型和简单启发式过滤法检测出的snp和indel准确性高 灵敏度高ploymutt检测家系内的snp和点突变能结合家系遗传关系找出家系内共有变异 给出每个变异的可信度 并提供一些过滤功能samtools针对外显子和全基因组重测序数据包含一系列工具分析处理序列比对结果可检测snp和indel变异 其检出的snp准确性略高于gatk 但灵敏度稍低 indel的准确性较低 hiseqanalysissoftware has illumina开发的针对hiseq测序仪系列和miseq测序仪的专用数据分析软件对外显子或全基因组测序数据进行快速比对并检测突变外显子测序突变检测 运用当前广为使用的bwa gatk突变检测法检测snp和indel全基因组重测序突变检测 运用最新开发的isaac算法 对大量数据进行快速高效地比对并检测与疾病相关的snp和indel变异 其结果的灵敏性与准确性与bwa gatk的结果相差不大 但运行效率比bwa gatk快5倍以上 has的isaac运行效率与bwa gatk的比较 snp和indel snv 检测的对比 snp和indel变异检测软件 商业软件clcgenomicsworkbenchpartekgenomicssuitesoftgeneticsnextgene工具包goldenhelix只分析变异检出后得到vcf文件后的下游分析 结构变异 sv 检测 针对全基因组重测序数据 检测插入 缺失 倒位 易位 cnv等检测方法基于序列对的异常匹配基于深度分析基于序列剪接分析法 对测序片段长度依赖较高 应用较少 sv检测软件 svdetect适于短片段 如200bp 的paired end测序和长片段 如2kb 的mate paired测序运用窗口滑动法和聚类法分析异常比对序列可检测长片段插入 缺失 倒位 平衡易位和非平衡易位 cnv能比较多个样本的变异差异可输出多种格式的结果 包括用circos图形化浏览sv的格式 breakdancer适于短片段paired end测序可检测插入 缺失 倒位 染色体之间和染色体内的异位gasvprobreakpointercleverpindelsvmerge 可比较并整合多个分析工具的结果 cnv检测软件 mrfast mrcanavar运用特有的方法减少测序错误并可检测snp准确性和灵敏度较高cnv seq根据两个样本比对后的深度分布 运用泊松分布模型计算cnv差异用于比较疾病样本与正常样本的差异 尤其适于肿瘤样本的检测能较好地预测拷贝数个数 灵敏度较好 准确性不及mrcanavar readdepth预测断裂点位置和拷贝数个数较好假阴性较低ewt较好地预测断裂点位置假阴性和假阳性较低运行效率较高 消耗内存较少cnvnator假阴性较低freec假阳性较低运行效率较高 消耗内存较少segseq假阳性较低 duan j etal plosone 2013 变异检测软件总结 pabinger etal briefinbioinform 2013 实践显示 多种不同软件共同识别的变异有更高的可靠性refto jiap lif xiaj chenh jih etal 2012 consensusrulesinvariantdetectionfromnext generationsequencingdata plosone7 6 e38470 doi 10 1371 journal pone 0038470 变异注释 变异注释 帮助预测变异的生物学功能或意义目前有一系列的工具软件对常见的编码改变的功能效应进行预测 实际应用中 具体运用某个特定的软件是可以根据需要调整 优化的非编码改变的影响预测准确性还相对有限 通过数量性状定位或关联分析的文献数据来预测是目前最为有效的方法 常见变异注释工具 annovarsnpeffseattleseqannotationsiftployphenscan数据库vatoncotator 变异注释工具比较 pabinger etal briefinbioinform 2013 annovar http www openbioinformatics org annovar 较全面的功能注释 广为使用需在本地安装注释数据库 如dbsnp 1000genomes sift dgv等 范围很广很灵活可基于基因注释 基于区间注释 还可过滤对于全外显子测序或全基因组测序的snp和indel 将产生excel兼容的结果文件 包括基因注释 氨基酸置换预测评分 保守性预测评分 dbsnpid 千人基因组变异频率 nhlbi esp6500个外显子测序变异频率等等 snpeff 高效的snp mnp indel变异注释及功能影响预测工具包与gatk兼容运用snpsift过滤和处理注释文件现已整合到galaxy 支持在线注释 也可在本地以命令行形式运行 seattleseqannotation http snp gs washington edu seattleseqannotation137 可在线注释 也可离线注释可接受多种输入格式 如maq gff casava vcf 自定义格式 一行一基因型格式 gatkbed可根据ncbi全基因注释 或ccds 仅编码区 或ncbi和ccds两者兼有注释的结果内容较snpeff丰富 但不及annovar全面 scan数据库 http www scandb org newinterface about html 大型snp和cnv注释数据库结合eqtl表达数量性状数据库 可进行遗传学和基因组学数据的挖掘包含两类snp注释 snp与基因的位置关系和连锁不平衡 ld 关系结合eqtl表达数量性状的数据库 根据对表达水平的影响程度定义snp功能可用于全基因组关联分析 gwas 的下游分析 经过多步处理来划分snp或cnv变异与疾病的关联程度 vat http vat gersteinlab org index php 采用云计算技术进行个人基因组变异的功能注释基于gencode的注释 转录因子的位置和序列 进行对转录调控和蛋白质编码的功能影响注释 oncotator http www broadinstitute org oncotator 针对肿瘤研究 在线注释snp和indel注释主要含三个方面 基因组的基因 转录 功能影响 参考ucscknowngeneshg19和mirbase dbsnp的snp注释 含千人基因组计划 蛋白质的uniprot drugbank和ployphen 2注释肿瘤相关注释 如cosmic的肿瘤变异频率 cancergenecensus的肿瘤基因和变异 tumorscape和tcgacopynumberportal收录的显著片段扩增或缺失 cancercelllineencyclopedia的oncomap重叠变异 发表的mutsig分析的重大变异基因注释 familialcancer数据库的肿瘤基因注释 人类dna修补基因注释 humandnarepairgene 等 变异检测及注释示例 示例一 从全外显子测序结果检测snp和indel 通过患者血浆连续采样进行dna测序来分析比较肿瘤治疗的获得抗性 全外显子测序原始数据去除接头并转换成fastq格式fastqc测序质量评估 fastx 脚本去除低质量的碱基或序列bwa将每个样的序列分别比对到参考基因组hg19picard去除pcr重复序列gatk进行局部比对 如基于dbsnp已知indel重新进行比对gatk对碱基质量重新计算 进行标准化samtools将比对质量 60的正确比对序列生成pileup文件 并对碱基质量 30的计算等位基因频率 af gatk根据特定规则检测变异annovar注释变异 对p值 0 05的变异进行进一步分析 示例二 从全基因组重测序结果检测sv 全外显子测序原始数据去除接头并转换成fastq格式测序质量评估 并去除低质量的碱基或序列bwa将序列比对到参考基因组hg19samtools去除pcr重复序列gatk进行局部重新比对 如基于已知indel重新进行比对svdetect分离出异常比对的序列并产生bam文件svdetect breakdancer等多个工具根据特定规则检测svsvmerge综合比较多个工具的sv 调整断裂点 过滤出高可信度的svannovar注释高质量的sv 并过滤dgv cnv等数据库的正常人svigvtools查看比对情况并检验变异按需要用circos环图可视化浏览全基因组范围的变异 患者外周血dna的样本 运用illuminahiseq2000测序平台进行双末端100bpx2测序 对测序数据进行下列分析 igv显示某染色体异位断裂点的异常比对情况 其它常用数据库资源与工具 常用综合数据库 ncbi http www ncbi nlm nih gov 涵盖最新的全面的生物信息相关资源 被广为使用特别针对临床遗传研究 ncbi提供了一套专门的数据和工具 除支持一般的变异数据库dbsnp dbvar dbgap外 也有更专注于临床研究的clinvar medgen和genetictestingregistry gtr ucsc http genome ucsc edu 广为使用的大型基因组图谱浏览平台 它大规模收录了基因组参考序列和草图可访问encode和neandertal计划数据ebi http www ebi ac uk medicalandclinicalgenetics http www kumc edu gec prof genewww html 综合了医学和临床遗传学相关的研究信息和数据库资源 包括与临床信息相关的 生化与分子遗传相关的 肿瘤相关的 细胞遗传 遗传咨询 基因组 神经肌肉 产前诊断 普及遗传情况与出生缺陷 初级护理与管理保健医疗等等方面的资源链接encode http genome ucsc edu encode encode数据对于了解非编码区变异的功能效应有重要价值 人类基因组变异数据库 人类基因组突变数据库 hgmd 收录文献已报道的与人类遗传病相关的基因变异dbsnp收录snp indel 短片段的串联重复和微卫星序列国际人类基因组单体型图计划 hapmap 目标 通过比较不同族群个体的基因组序列 检测人类遗传的相似性和差异性 可查询常见snp的频率 snp间连锁不平衡关系 用于分析人群遗传结构 以及impute未测snp 1000genomeproject25个民族的2500个人的基因组深度测序 构建涉及低频snp的变化频率 插入缺失 cnv 结构变化等方面的更精细的遗传图谱人类结构变异数据库 dgv http dgv tcag ca dgv app home 收录健康人基因组上鉴定的长度 50bp的结构变异 clinicalgenomicdatabase http research nhgri nih gov cgd 专注于收集有临床干预的医学遗传学数据 囊括已鉴定遗传原因的所有相关条件 每条记录包括基因标识 疾病情况 等位基因 遗传关系 年龄 临床分类 干预或原理等描述只包括了单基因变异 而未包括遗传关联或多因素导致的复杂疾病截至2013年9月13日 该数据库收录了2667个基因的相关临床干预信息 涉及19个不同的临床表现分类和18个不同的临床干预分类cartag
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第2节 电功率(同步教学课件)物理人教版2024九年级全一册
- 2026年大学第四学年(影视文学)电影剧本创作测试题及答案
- 2026年大学第四学年(木材加工)人造板生产工艺测试题及答案
- 山东省寿光市2026年初三下-第二次月考数学试题试卷含解析
- 四川省攀枝花市重点名校2026年元月份初三调研测试英语试题含解析
- 四川省攀枝花十七中学2025-2026学年高中毕业班适应性考试语文试题文试题含解析
- 浙江省宁波市外国语校2026届初三下学期化学试题3月月考试卷含解析
- 2026年交通工程中的决策支持系统
- 儿童龋齿防治护理措施培训
- 心理科抑郁症患者心理治疗方案
- 全国“红旗杯”班组长大赛知识考试题题库(含答案解析)
- 急诊科建设与管理指南(2025年版)
- 校医服务合同范本
- 村级三资监督范围课件
- 多径环境FSK载波同步-洞察及研究
- 安全帽佩戴培训目的课件
- 特殊危险作业安全培训课件
- GB/T 35544-2025车用压缩氢气铝内胆碳纤维全缠绕气瓶
- 光伏维保合同协议书范本
- 2025年事业单位工勤技师考试题库(附答案)
- 煤炭采制化管理制度
评论
0/150
提交评论