核酸序列及数据分析- PPT课件_第1页
核酸序列及数据分析- PPT课件_第2页
核酸序列及数据分析- PPT课件_第3页
核酸序列及数据分析- PPT课件_第4页
核酸序列及数据分析- PPT课件_第5页
已阅读5页,还剩159页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章核酸序列获取比对及结构预测 医学科学实验中心尹富强yinfq2013 2 本章内容 第一节核酸数据的获取第二节序列比对第三节序列特征分析 3 4 5 6 基因组学 其他组学 生物信息学 基础 纽带 7 基因组学 核酸 8 核酸 脱氧核糖核酸 DNA 核糖核酸 RNA 功能 是细胞内携带遗传信息的物质 在生物体的遗传 变异和蛋白质的生物合成中具有极其重要的作用 核酸 遗传信息携带着 9 真核生物 DNARNA 原核生物 DNARNA 大多数病毒 DNA 极少数病毒 RNA 遗传物质是DNA 遗传物质是RNA HIV SARS病毒 流感病毒 烟草花叶病毒 车前草病毒等 10 Biology NeilCampbell Version4 1996 11 核酸组成 12 核苷酸的基本组成单位 13 14 15 第一节核酸数据的获取 16 实验手段获取核酸序列 Sanger双脱氧末端终止法 1977 PCR技术 1985 DNA自动测序仪的发展 ABI 1995 生物信息学分析软硬件设施 17 大规模基因组测序的两种策略 逐步克隆法 基于BAC的方法 ClonebyClone 先把基因组打碎成200 300kb的片段并制成BAC文库 再选择一些BAC进一步打碎成3kb左右的小片段 测序并拼接 BAC克隆的覆盖率不应低于3倍 全基因组霰弹法 鸟枪法 WholeGenomeShot gun 把基因组直接打碎成3kb左右的小片段 测序并拼接 18 已形成了一条世界第六 亚洲最大的基因组测序技术平台 共有MegaBACE测序仪104台 ABI3730测序仪2台 ABI377测序仪11台 满负荷运转日产可达50Mb 是一个低投入 高产出 高度自动化的测序平台 中国基因组测序情况 19 我国测序能力的 三级跳 人类基因组计划1 项目的finishing 1999年 中 丹合作的家猪基因组计划 2000年 水稻工作框架图的绘制和公布 2001年 标志着我国已掌握了国际先进的测序技术 具有相当的测序能力 测序能力和质量已达到国际一流水平 以独立承担大规模的基因组测序项目我国已经成为继美国之后世界上第二个具有独立完成大规模的全基因组测序和组装分析能力的国家 20 通过生物信息学手段获取核酸序列 21 三大核酸序列数据库 GenBank NCBI EMBLDDBJ 22 特殊类型核酸序列数据库 非编码RNA数据库 ncRNA 表达序列标签数据库 dbEST 序列标签位点数据库 dbSTS miRBase tRNAdb等 23 基因组相关数据库 人类基因组数据库 HGD 基因组序列数据库 GSDB 基因组在线数据库 GOLD 等 24 基因表达数据库 基因表达库 GEO 斯坦福微阵列数据库 SMD ArrayExpress CGED GXD BodyMap等 25 人类基因突变及疾病相关数据库 人类基因变异数据库 HMGD 人类遗传双等位基因序列数据库 HGBASE 人类孟德尔遗传在线 OMIM 国际单体型计划 HapMap 人类单核苷酸多态性数据库 dbSNP 肿瘤基因数据库 TGDB 疾病关联数据库 GAD 癌症基因数据库 CGAP 人类表观遗传数据库 HEP 人类DNA甲基化与癌症数据库 MethylCancer 等 26 以NCBI数据库为例学习如何获取核酸序列及序列相关信息 http www ncbi nlm nih gov http www ncbi nlm nih gov genbank NCBI GenBank 27 什么时候需要利用生物信息学获取序列信息 28 CCL21 29 30 31 32 33 CCL21 34 当前可查103条 基因组相关基因99条 可查看SNP11条 基因定义 染色体定位 基因组参考序列号 选择物种 35 36 37 38 39 40 41 42 43 44 基因基本信息的总结 45 基因基本信息的总结 基因与染色体 基因组相关信息 46 基因相关参考文献 基因功能相关参考文献 47 表型 变异 和艾滋病相关 48 相关通路 和其他基因的互做 49 基因基本信息 同源性 基因本体注释 GO分类 50 GeneOntology GO分类 GeneOntology包含了基因参与的生物过程 所处的细胞位置 发挥的分子功能三方面功能信息 并将概念粗细不同的功能概念组织成DAG 有向无环图 的结构 GeneOntology是一个使用有控制的词汇表和严格定义的概念关系 以有向无环图的形式统一表示各物种的基因功能分类体系 从而较全面地概括了基因的功能信息 在基因表达谱分析中 GO常用于提供基因功能分类标签和基因功能研究的背景知识 利用GO的知识体系和结构特点 旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合 51 52 基因编码蛋白的基本信息 53 参考序列信息 mRNA和编码蛋白序列信息 基因组相关序列信息 54 55 CCL21核酸序列 CCL21mRNA登录号 CCL21编码蛋白CCL21登录号 56 什么是登录号 accessionnumber Anaccessionnumberislabelthatusedtoidentifyasequence Itisastringoflettersand ornumbersthatcorrespondstoamolecularsequence ExamplesX02775GenBankgenomicDNAsequenceNT 030059GenomiccontigRs7079946dbSNP singlenucleotidepolymorphism N91759 1Anexpressedsequencetag 1of170 NM 006744RefSeqDNAsequence fromatranscript NP 007635RefSeqproteinAAC02945GenBankproteinQ28369SwissProtprotein1KT7ProteinDataBankstructurerecord protein DNA RNA 57 NCBI simportantRefSeqproject bestrepresentativesequences RefSeq accessibleviathemainpageofNCBI providesanexpertlycuratedaccessionnumberthatcorrespondstothemoststable agreed upon reference versionofasequence RefSeqidentifiersincludethefollowingformats CompletegenomeNC CompletechromosomeNC GenomiccontigNT mRNA DNAformat NM e g NM 006744ProteinNP e g NP 006735 58 CCL21核酸序列 CCL21mRNA登录号 CCL21编码蛋白CCL21登录号 59 60 Genbank格式注解 61 序列文件的主要结构 62 63 64 GenBank记录中特性表中的主要关键词 65 66 67 GenBank记录中特性表中的限定词 68 69 70 71 72 73 FASTA格式 FASTA格式第一行是描述行 第一个字符必须是 字符 随后的行是序列本身 每行序列不超过80个字符 序列由标准的IUB IUPAC氨基酸和核酸代码代表 ref NC 000016 8 NC 000016 76691052 77024150Homosapienschromosome16 referenceassemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG 74 75 成功提取CCL21mRNA全长序列 76 77 编码序列 78 成功提取CCL21mRNA编码序列 79 第二节序列比对 80 什么时候需要进行序列比对 已知某基因的部分核酸序列 已知某基因编码的蛋白序列 获取基因的全长序列 包括5 端和3 端非编码序列的获得 已知某基因的cDNA序列 已知某基因的同源序列和相似序列 两个序列以上 序列同源性相似性分析 保守序列的分析 及聚类分析的需要等 克隆序列测序后的验证 确认序列的准确性 已有一个或多个已知或未知序列 81 序列比较 序列比较的一个基本操作就是比对 Alignment 即将两个序列的各个字符 代表核苷酸或者氨基酸残基 按照对应等同或者置换关系进行对比排列 其结果是两个序列共有的排列顺序 这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性 序列的多重比对可用来搜索基因组序列的功能区域 也可用于研究一组蛋白质之间的进化关系 82 相似性 similarity 是指一种很直接的数量关系 比如部分相同或相似的百分比或其它一些合适的度量 比如说 A序列和B序列的相似性是80 或者4 5 这是个量化的关系 当然可进行自身局部比较 序列的相似性 83 同源性 homology 指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论 属于质的判断 就是说A和B的关系上 只有是同源序列 或者非同源序列两种关系 而说A和B的同源性为80 都是不科学的 生物序列的同源性 84 相似性和同源性关系 序列的相似性和序列的同源性有一定的关系 一般来说序列间的相似性越高的话 它们是同源序列的可能性就更高 所以经常可以通过序列的相似性来推测序列是否同源 正因为存在这样的关系 很多时候对序列的相似性和同源性就没有做很明显的区分 造成经常等价混用两个名词 所以有出现A序列和B序列的同源性为80 一说 85 数据库的搜索 在分子生物学研究中 对于新测定的碱基序列或由此翻译得到的氨基酸序列 需要通过数据库搜索 找出具有一定相似性的同源序列 以推测该未知序列可能属于哪个基因家族 具有哪些生物学功能 对于氨基酸序列来说 有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构 因此 数据库搜索与数据库查询一样 是生物信息学研究中的一个重要工具 86 序列比对搜索和双序列比对 87 NCBI主站点 http www ncbi nlm nih gov BLAST 对一般用户来说 目前常用的办法是通过NCBI国际著名生物信息中心的BLAST服务器进行搜索 序列比对神器 BLAST 88 BLAST简介 BLAST是由美国国立生物技术信息中心 NCBI 开发的一个基于序列相似性的数据库搜索程序 BLAST是 局部相似性基本查询工具 BasicLocalAlignmentSearchTool 的缩写 89 BLAST简介 Blast是一个序列相似性搜索的程序包 其中包含了很多个独立的程序 这些程序是根据查询的对象和数据库的不同来定义的 比如说查询的序列为核酸 查询数据库亦为核酸序列数据库 那么就应该选择blastn程序 90 NCBI BLAST 91 92 主要的BLAST程序 93 BLAST的核酸数据库 94 NCBI BLAST 95 96 BLAST搜索格式 1 FASTA格式FASTA格式第一行是描述行 第一个字符必须是 字符 随后的行是序列本身 每行序列不超过80个字符 序列由标准的IUB IUPAC氨基酸和核酸代码代表 ref NC 000016 8 NC 000016 76691052 77024150Homosapienschromosome16 referenceassemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG 97 BLAST搜索格式 2 单纯序列数据输入格式GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG 3 标识符格式NC 000016 98 GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG 99 结果页面 100 结果页面 101 结果页面 102 结果页面 103 结果页面 104 BLAST程序评价序列相似性的两个数据 Score 使用打分矩阵对匹配的片段进行打分 这是对各对氨基酸残基 或碱基 打分求和的结果 一般来说 匹配片段越长 Score值越大 则相似性越高 Evalue 在相同长度的情况下 两个氨基酸残基 或碱基 随机排列的序列进行打分 得到上述Score值的概率的大小 E值越接近零 越不可能找到其它的匹配序列 其背后的含义就是E值越小 则匹配度越好 105 E值 E Value P值 P Value BLAST程序中使用了E值而非P值 这主要是从直观和便于理解的角度考虑 比如E值等于5和10 比P值等于0 993和0 99995更直观 但是当E 0 01时 P值与E值接近相同 AND 106 107 108 GATGGGATTGGGGgTTTTCCCCTCCCATGTGCTCAAGAgCTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG GATGGGATTGGGGTTTTCCCaCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGtGTAGCTGCTGGGCTCCGGGcGACACTTTGCGTTCGGGCTGGGAGCGTG 109 110 多序列比对 111 多重序列比对网站及常用软件 Clustal MultipleSequenceAlignment http www clustal org KEGGGENESDatabase http www genome jp kegg genes html DNAManDNAStar 112 http www clustal org 113 114 111AATTCCGG 222CCGGAATT 333GGCCTTAA 115 116 117 118 119 120 第三节序列特征分析 121 什么是基因 基因是遗传信息的物理和功能单位 包含产生一条多肽链或功能RNA所必需的全部核苷酸序列 碱基成对出现 ATCGGCC TAGCCGG 122 基因基因组 任何一条染色体上都带有许多基因 一条高等生物的染色体上可能带有成千上万个基因 一个细胞中的全部基因序列及其间隔序列统称为genomes 基因组 基因组有两层意义 遗传物质和遗传信息 要揭开生命的奥秘 就需要从整体水平研究基因的存在 基因的结构与功能 基因之间的相互关系 123 碱基 脱氧核糖 磷酸 脱氧核苷酸 DNA 染色体 A T C G 构成 形成双链 蛋白质 基因 基因就是位于DNA上的有效遗传效应的片段 基因1 基因2 基因3 124 基因是一种相对独立的遗传信息单位 这些信息单位可以通过各种方式在生物个体之间进行重新组合 并向后代传递 基因是一段DNA分子 遗传信息贮存在DNA序列之中 基因的信息内容通过相应的形式表现出来 即指导合成蛋白质或RNA 进而产生生理功能 或影响其他基因的表达 基因具有几个重要的特征 125 中心法则 TheCentralDogma 基因表达中的信息流 基因功能区域 基因按其功能可分为结构基因和调控基因 结构基因可被转录形成mRNA 并进而转译成多肽链 调控基因是指某些可调节控制结构基因表达的基因 在DNA链上 由蛋白质合成的起始密码开始 到终止密码子为止的一个连续编码序列称为一个开放阅读框 OpenReadingFrame ORF 结构基因多含有插入序列 除了细菌和病毒的DNA中ORF是连续的 包括人类在内的真核生物的大部分结构基因为断裂基因 即其编码序列在DNA分子上是不连续的 或被插入序列隔开 断裂基因被转录成前体mRNA 经过剪切过程 切除其中非编码序列 即内含子 再将编码序列 即外显子 连接形成成熟mRNA 并翻译成蛋白质 127 基因的不连续性 Intron和Exon 大多数真核生物蛋白质基因的编码顺序 Exon 都被或长或短的非编码顺序 Intron 隔开 128 真核生物基因结构 一个完整的真核生物基因 不但包括编码区域 还包括5 端和3 端两侧长度不等的特异性序列 虽然这些序列不编码氨基酸 却在基因表达的过程中起着重要的作用 所以 严格的 基因 这一术语的分子生物学定义是 产生一条多肽链或功能RNA所必须的全部核苷酸序列 129 基因序列特征分析主要内容 一 开放阅读框二 CpG岛 CpGislands三 转录终止信号四 启动子 promoters五 密码子偏好性 130 一 开放阅读框ORF openreadingframe 开放阅读框指的是从5 端开始翻译起始密码子 ATG 到终止密码子 TTA TAG TGA 的蛋白质编码碱基序列 131 1 1遮蔽重复序列 在进行任何真核生物序列的基因分析之前 最好把重复序列找出来并从序列中除去 132 1 2根据开放读码框预测基因 A起始密码子ATG第一个ATG的确定则依据Kozak规则 Kozak规则是基于已知数据的统计结果 所谓Kozak规则 即第一个ATG侧翼序列的碱基分布所满足的统计规律 133 若将第一个ATG中的碱基A T G分别标为1 2 3位 则Kozak规则可描述如下 1 第4位的偏好碱基为G 2 ATG的5 端约15bp范围的侧翼序列内不含碱基T 3 在 3 6和 9位置 G是偏好碱基 4 除 3 6和 9位 在整个侧翼序列区 C是偏好碱基 134 B终止密码子终止密码子 TAA TAG TGAGC 50 终止密码子每64bp出现一次 GC 50 终止密码子每100 200bp出现一次 由于多数基因ORF均多于50个密码子 因此最可能的选择应该是ORF不少于100个密码子 135 C3 端的确认3 端的确认主要根据Poly A 尾序列 若测试Contig不含Poly A 序列 则根据加尾信号序列 AATAAA 和BLAST同源性比较结果共同判断 136 开放读码框常用软件 ORFfinder http www ncbi nlm nih gov gorf orfig cgi GENSCAN 美国麻省理工学院开发的人类 或脊椎动物 基因预测软件 http genes Mit edu GENSCAN html ExPASyTranslatetool http web expasy org translate 137 138 139 140 Homosapienschemokine C Cmotif ligand21 CCL21 mRNANCBIReferenceSequence NM 002989 3ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCACCTCACCCTCAGCTCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTTCTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCCAAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCCAGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTGCAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACAGGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGACCCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAAGCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTGCCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCCACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGACTGTCCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGATACGGCTCCCCAGTACACCCCACCTCTTCCTTGTAAATATGATTTATACCTAACTGAATAAAAAGCTGTTCTGTCTTCCCACCCAAAAAAAAAAAAAAAAAAAA 以CCL21的mRNA序列举例说明ORF识别 141 142 143 144 145 ExPASy Translatedtool 146 二 CpG岛 CpGislands CpG岛是指DNA序列上的一个区域 此区域含有大量相联的胞嘧啶 C 鸟嘌呤 G 以及使两者相连的磷酸酯键 p CpG岛的概念是Gardiner garden和Fromner于1987年提出的 基因中平均每100Kb即可出现 CpG岛位于基因的启动子和第一个外显子区 约有60 80 的人类基因的启动子和起始外显子含有CpG岛 其中GC含量大于50 长度超过200bp 因此搜索CpG岛可以为基因及其启动子预测提供重要线索 147 利用CpGPlot预测分析CpG岛 CpGPlot是预测CpG岛的在线工具 它是由欧洲分子生物学实验室EMBL EuropeanMolecularBiologyLaboratory提供的 其网址为 http www ebi ac uk Tools emboss cpgplot index html 148 CpGPlot在线操作页面 149 用CpGplot预测CpG岛的结果 150 三 转录终止信号 转录终止信号是在mRNA序列的3 端终止密码子下游位置上的加尾信号 tailingsignal 前体mRNA3 端多聚腺苷酸化是真核细胞内mRNA转录后处理的三个最主要步骤之一 这三个步骤包括 5 帽子结构的形成 内含子的剪切及3 端的多聚腺苷酸化 因此 前体mRNA3 端多聚腺苷酸化与mRNA稳定性的调节 mRNA的细胞内转运 翻译的起始以及一些其他的细胞机制和疾病机制有着重要关系 151 两个步骤 1 特异性的核苷酸内切酶在PolyA位点处进行断裂 2 腺苷酸聚合酶在断裂位点处添加PolyA尾巴 其主要标志为AATAAA或ATTAAA两种序列 称为多聚腺苷酸信号 polyadenylationsignal 简称PolyA信号序列 也称为转录终止信号 在3 UTR区存在多个潜在PolyA位点 因此对PolyA位点的准确识别 对于预测基因结构 理解mRNA的形成机制及某些疾病的分子机制具有巨大的作用 152 利用POLYAH预测分析转录终止信号 SoftBerry网站的POLYAH软件是识别3 端剪切和PolyA区域的在线工具 其网址为 15

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论