核苷酸序列分析PPT课件.ppt_第1页
核苷酸序列分析PPT课件.ppt_第2页
核苷酸序列分析PPT课件.ppt_第3页
核苷酸序列分析PPT课件.ppt_第4页
核苷酸序列分析PPT课件.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 重复序列分析开放读码框 openreadingframe ORF 的识别基因结构分析内含子 外显子剪切位点识别选择性剪切分析CpG岛的识别核心启动子 转录因子结合位点 转录启始位点的识别转录终止信号的预测GC含量 密码子偏好性分析 核苷酸序列分析 2 重复序列分析 原核基因组中除rRNA tRNA基因有多个拷贝外 重复序列 repetitivesequences 不多 哺乳动物基因组中则存在大量重复序列 分为3类 高度重复序列 一般较短 长10 300bp 重复106次左右 占基因组10 60 在人类基因组中约占20 功能还不明确 核苷酸序列分析ORF 3 重复序列分析 中度重复序列 长10 300bp 重复10 105次 占基因组10 40 哺乳类中含量最多的一种称为Alu的序列 长约300bp 重复3 105次 在人类基因组中约占7 功能不是很清楚 单拷贝序列 这类序列基本上不重复 占哺乳类基因组的50 80 在人类基因组中约占65 由于大量重复序列影响序列分析 因此在对真核基因分析前 最好把重复序列屏蔽掉 核苷酸序列分析ORF 4 http www repeatmasker org cgi bin WEBRepeatMasker Arabidopsisthalianachromosome2 partsequence NC 003071 1 Output 5 开放读码框的识别 开放读码框 openreadingframe ORF 是一段起始密码子 ATG 和终止密码子 TAA TAG TGA 之间的碱基序列ORF是潜在的蛋白质编码区原核生物中多数基因的编码序列在100氨基酸以上 真核生物的编码区由内含子和外显子组成 其外显子的平均长度约为50个氨基酸 预测ORF的方法有两类 基于统计分析和模式识别 如GENSCAN GeneMark GRAILII等 基于同源比对 核苷酸序列分析ORF 6 开放读码框的识别 Kozak规则 ORF中起始密码子ATG前后的碱基具有特定的偏好性 若将第一个ATG中的碱基分别标为1 2 3位 则Kozak规则可描述如下 第4位的偏好碱基为G ATG的5 端的15bp范围内的侧翼序列内不含碱基T 第3 6 9位G为偏好碱基 除第3 6 9位 在整个侧翼序列区中 C为偏好碱基 核苷酸序列分析ORF 7 核苷酸序列分析ORF 8 开放读码框的识别 预测ORF的方法都是针对特定物种而设计的 如GENSCAN最初是针对人类的 后扩展对脊椎动物 果蝇 拟南芥 玉米基因的预测 GlimerM适于恶性疟原虫 拟南芥 曲霉菌和水稻对mRNA cDNA EST 宜用GetOrf ORFFinder Plotorf BestORF等 核苷酸序列分析ORF 9 应用ORFFinder预测水稻瘤矮病毒 RGDV S8片断的ORF ORFFinder http www ncbi nlm nih gov gorf gorf html水稻瘤矮病毒 ricegalldwarfvirus RGDV 引起的水稻瘤矮病是中国及东南亚国家水稻上的一种重要病毒病害 为构建融合蛋白的表达载体 需要对RGDVS8片断的基因序列 GenBank登陆号 AY216767 进行ORF分析并确定其位置 为设计表达引物提供信息 提交序列 以登陆号或直接粘贴FASTA格式的序列 参数设置 可设置待分析序列片断的起始和结束位置 ORFFinder提供了22种遗传密码表可供选择 这里选择默认参数 核苷酸序列分析ORF 10 TheGeneticCodes 11 12 点击 13 点击 14 结果验证 采用数据库搜索方法对选定的ORF进行验证BLASTB比对搜索到多个显著相似的序列 因此所预测的ORF可信度比较高 15 点击 16 17 GetOrfhttp bioweb pasteur fr seqanal interfaces getorf html ggccagatggaacatattgctttcgggagcacaaggatcgggtctactacgtctcggagcggattttgaagctgagcgagtgcttcggctacaagcagctggtgtgcgtgggcacctgcttcggcaagttctccaagaccaacaaactgaagttccatatcacggcgctctactacttggcgccctacgcccagtacaaggtgtgggtgaagccctccttcgagcagcagtttctctacg 输出结果 18 GENSCANhttp genes mit edu GENSCAN html ggccagatggaacatattgctttcgggagcacaaggatcgggtctactacgtctcggagcggattttgaagctgagcgagtgcttcggctacaagcagctggtgtgcgtgggcacctgcttcggcaagttctccaagaccaacaaactgaagttccatatcacggcgctctactacttggcgccctacgcccagtacaaggtgtgggtgaagccctccttcgagcagcagtttctctacg 输出结果 19 启动子及转录因子结合位点分析 启动子 Promoter 是RNA聚合酶识别 结合并开始转录所必需的一段DNA序列 原核生物启动子序列包括 CAP序列 增强聚合酶的结合和转录的起始序列 70 40 10序列 在 4到 13bp处 有保守序列TATAAT 称为Pribnow框 各碱基频率 T89A89T50A65A65T100 35序列 约在 35处有保守序列TTGACA 其中TTG十分保守 各碱基频率 T85T83G81A61C69A52 核苷酸序列分析ORF 20 启动子及转录因子结合位点分析 真核生物启动子是在基因转录起始位点 1 及其5 上游大约100 200bp或下游100bp的一组具有独立功能的DNA序列 包括 核心启动子 corepromoter 转录起始位点 1 一般是A或G及转录起始位点上游 25 30的TATA框上游启动子元件 upstreampromoterelement UPE 包括通常 70bp附近的CAAT框 GGCCAATCT 和GC框 GGGCGG 等 核苷酸序列分析ORF 21 PromoterScanhttp bimas dcrt nih gov 80 molbio proscan 粘贴AY684193输出结果 22 内含子 外显子剪切位点识别 对基因组序列的读码框区域进行预测内含子5 端供体位点 donorsplicesite GT内含子3 端受体位点 acceptorsplicesite AG内含子区域核苷酸组分是识别编码区的重要依据 核苷酸序列分析GeneStructure 不同的序列通常采用不同的分析方法NetGene2和SpliceView用于分析基因组核苷酸序列编码区的剪切位点和内含子mRNA cDNA序列可用Spidey SIM4 BLAT和BLAST等分析工具 23 内含子 外显子剪切位点识别 如何分析mRNA cDNA的外显子组成 RNASPL与相应的基因组序列比对 分析比对片段的分布位置预测工具 Spidey SIM4 BLAT BLAST FASTA 核苷酸序列分析GeneStructure 24 核苷酸序列分析GeneStructure 25 NetGene2http www cbs dtu dk services NetGene2 用于人类 线虫和拟南芥的基因序列分析报告受体位点和供体位点信息 对DNA正负两条链分析图形显示可能的编码区 受体位点和供体位点信息 26 ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAAT 27 28 29 Spideyhttp www ncbi nlm nih gov IEB Research Ostell Spidey 可对cDNA或EST序列分析NCBI开发 基于BLAST和DotView局部比对算法优势在于能同时将多条mRNA cDNA或EST序列与基因组序列进行比对 30 31 32 选择性剪切 Alternativesplicing 分析 核苷酸序列分析GeneStructure 33 选择性剪切 Alternativesplicing 分析 选择性剪接是调控基因表达的重要机制了解不同物种 细胞 发育阶段 环境压力下基因的调控表达机制分析方法 查询选择性剪切相关的网站多序列比对 35 查询选择性剪切相关的网站 核苷酸序列分析GeneStructure 从已知基因的功能推测剪切机制 36 分析EST序列的选择性剪切 Seq1ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAAT 37 分析EST序列的选择性剪切 BLAST搜索Seq1 发现它与多条NOX1基因高度相似 因此它可能是NOX1基因的选择性剪切产物 38 分析EST序列的选择性剪切 在ProSplicer网站搜索NOX1基因 结果表明NOX1基因有不同的选择性产物 39 Output 40 分析EST序列的选择性剪切 收集不同剪切体的mRNA cDNA EST序列 如AF166316 AF166327 AF166328 NM 013955 与Seq1比对 可判断Seq1的剪切机制 Seq1与AF166327最为相似 与AF166327在基因的5 相匹配 而缺失了第10 13号外显子区域 Seq1与AF166317比对结果 41 基于序列比对分析选择性剪切 核苷酸序列分析GeneStructure 评判的标准 来自Unigene的高质量数据Exon至少有3条ESTs覆盖Exon周围有GT AG信号Blast比对Score值 100相似度 95 S Guptaetal GenomewideidentificationandclassificationofalternativesplicingbasedonESTdata Bioinformatics2004 20 16 2579 2585 42 基因周围调控序列分析 CpG岛 位于真核生物基因转录起始位点上游 GC含 50 长度几百到几千 p 表示 C 和 G 以磷酸二酯键连接一般CpG岛出现在脊椎动物看家基因 housekeepinggene 或频繁表达基因中活性基因的CpG岛具有抵抗序列甲基化的作用80 的人类基因的转录起始位点存在CpG岛 因而搜索CpG岛可为发现基因提供重要线索 核苷酸序列分析GeneStructure 43 http www ebi ac uk emboss cpgplot CpgplotCpgreportIsochore AF129756 1 44 ResultsForCpgplotCpgreportIsochore Example 45 基因周围调控序列分析 转录终止信号的预测 真核生物编码基因中 转录终止信号是在mRNA序列的3 端终止密码子下游置上加尾的信号 主要标志为出现AATAAA序列 可以重复出现 在其后的10 15bp处开始合成PolyA 在基因预测软件中 转录终止信号也被化定基因的范围 以便对ORF区域进行更好的识别和分析 核苷酸序列分析GeneStructure 46 Polyadqhttp rulai cshl org tools polyadq polyadq form html 粘贴AF129756 1 txt中的序列 47 48 密码子使用偏性分析 遗传密码子表 SecondPosition FirstPosition 5 end ThirdPosition 3 end 49 密码子使用偏性分析 生物体内普遍存在同义密码子非均衡使用的现象 例如 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子 这些密码子被称为最优密码子 optimalcodon 此现象被称为密码子偏性 codonbias 不同物种的基因 不同功能的基因在密码子使用上存在着明显的偏性 核苷酸序列分析GeneStructure 50 密码子使用偏性分析 意义 基因异源表达与某些物种的蛋白表达水平相关揭示有关物种间或某一物种的基因家族间的基因进化规律基因的翻译调控其他应用密码子偏性的分析也常对许多实验操作起指导和辅助作用 如 鉴定编码区 制备基因克隆的寡核苷酸探针 基因芯片设计等 核苷酸序列分析GeneStructure 51 密码子使用偏性分析 密码子使用指标 Codonusageindices 1 密码子适应性指标CAI codonadaptionindex 2 最优密码子使用频率FOP frequencyofoptimalcodons 3 密码子偏性指标CBI codonbiasindex 4 有效密码子数ENC effectivenumberofcodons 5 GC含量 GCcontentofgene 6 密码子第三位GC含量 GCofsilent3rdcodonposition 核苷酸序列分析GeneStructure 52 密码子使用偏性分析 密码子使用指标 Codonusageindices 7 密码子第三位A T C G含量 silentbasecomposition 8 同义密码子数目 Numberofsynonymouscodons 9 序列氨基酸总数 Totalnumberofaminoacids 10 蛋白质疏水性 Hydrophobicityofprotein 11 蛋白质芳香性 Aromaticityofprotein 核苷酸序列分析GeneStructure 53 密码子适应性指标CAI codonadaptionindex CAIisameasurementoftherelativeadaptednessofthecodonusageofagenetowardsthecodonusageofhighlyexpressedgenes Therelativeadaptedness ofeachcodonistheratiooftheusageofeachcodon tothatofthemostabundantcodonwithinthesamesynonymousfamily Listhenumberofsynonymouscodonsinthegene 常用于基因表达水平的测量 此值为0 1 越接近1表示基因的表达水平越高 54 最优密码子使用频率FOP frequencyofoptimalcodons Fopisthefractionofsynonymouscodonswhichareoptimalcodons Ifraresynonymouscodonshavebeenidentified thereisachoiceofcalculatingtheoriginalFopindexoramodifiedFopindex 55 密码子偏性指标CBI codonbiasindex CBIisameasureofdirectionalcodonbias andisameasureoftheextenttowhichageneusesasubsetofoptimalcodonsWhereNopt numberofoptimalcodons Ntot numberofsynonymouscodons Nran expectednumberofoptimalcodonsifcodonswereassignedrandomly 56 有效密码子数ENC effectivenumberofcodons 取值范围在20 61之间 即如果每种氨基酸只使用一种密码子则有效密码子数为20 如果各种同义密码子的使用机会完全均等 则有效密码子数为61 越靠近20偏性越强 ENC值越小 基因的密码子偏爱程度越大 57 单子叶植物玉米 高粱 大麦 小麦 水稻的ENC值均小于40 而双子叶植物拟南芥 豌豆的ENC分别为52 33和51 39 表明5种单子叶植物的waxy基因具有较强的密码子偏好 而双子叶植物的偏好性则相对较低 7个物种waxy基因密码子的ENC值和GC3含量 58 相对同义密码子使用频率RSCU relativesynonymouscodonusage xij表示编码第i个氨基酸的第j个密码子的出现次数 ni表示编码第i个氨基酸的同义密码子的数量 59 60 密码子使用偏性分析工具 61 密码子使用偏性分析工具 CodonW使用 Input dat数据详见Tutorial txtChecktheinputdata codonwinput dat nomenu codonwinput dat all indices nomenu输出文件input out和input blk codonwinput dat all indices c type2 f type4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论