版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、复旦大学 实验三:基因序列分析实验三:基因序列分析 基因与蛋白质组学数据分析基因与蛋白质组学数据分析 .2 实验项目三:基因序列分析实验项目三:基因序列分析 一、 实验目的和要求: 掌握基因可读框的识别; 掌握启动子区域的预测 掌握CpG岛的预测 掌握转录终止信号的预测 采用mRNA序列预测基因:Spidey的使用 掌握各预测服务器结果的分析 .3 原核生物基因结构原核生物基因结构 1 1 长开放阅读框长开放阅读框 2 2 高基因密度高基因密度 3 3 简单的基因结构简单的基因结构 4 4 基因组中基因组中GCGC含量变化非常大含量变化非常大 特点:特点: .4 真核生物基因结构真核生物基因结
2、构 特点:特点:1 基因结构复杂基因结构复杂 2 具有复杂的基因转录调控方式具有复杂的基因转录调控方式 3 具有丰富的可变剪接具有丰富的可变剪接 4 有明显的有明显的CpG岛、密码子使用具有岛、密码子使用具有 偏好性偏好性 .5 基因组序列分析基因组序列分析 .6 例:What is Gene Prediction? Given an uncharacterized DNA sequence, find out: 1.Where does the gene starts and ends? 2.Which regions code for a protein? AGCATCGAAGTTGCAT
3、GACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCAT GACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATG CATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACC TAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACC
4、TAGCAGCATCGAAGTTGCATGACGATGCATGACCT AGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGA CGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGAT TGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATC G
5、AAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTT GCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC gene 1gene 2gene 3 exonintergenic regionintron .7 .8 一一 开放读码框的识别开放读码框的识别 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 ORF 是潜在的蛋白质编码区 基因预测基因预测 .9 基因开放阅读
6、框基因开放阅读框/ /基因结构分析识别工具基因结构分析识别工具 Getorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlEMBOSS通用 Plotorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlEMBOSS通用 ORF Finder /gorf/gorf.html NCBI通用 BestORFhttp:/ GENSCAN/GENSCAN.htmlMIT脊椎、拟南芥、玉米 Ge
7、ne Finder/tools/genefinder/Zhang lab人、小鼠、拟南芥、酵母 FGENESHhttp:/ GeneMark/GeneMark/GIT原核 GLIMMER/genomes/MICROBES/gli mmer_3.cgi /software/glimmer Maryland原核 FgeneSBhttp:/ FgeneSVhttp:/ Generation http:/com
8、/generation/ORNL原核 FGENESH+http:/ Softberry原核 GenomeScan /genomescan.html MIT脊椎、拟南芥、玉米 GeneWise http:/www.ebi.ac.uk/Wise2/EBI人、蠕虫 GRAIL/grailexp/ORNL人、小鼠、拟南芥、果蝇 .10 1. ORF Finder的使用及结果分析的使用及结果分析 .11 1. ORF Finder的使用及结果分析的使用及结果分析 .12 1. ORF Find
9、er的使用及结果分析的使用及结果分析 .13 1. ORF Finder的使用及结果分析的使用及结果分析 .14 1. ORF Finder的使用及结果分析的使用及结果分析 .15 1. ORF Finder的使用及结果分析的使用及结果分析 Blast比对结果搜索到多个显著相似的序列,故所预测的比对结果搜索到多个显著相似的序列,故所预测的ORF的可信度较的可信度较 高。如果要获取该高。如果要获取该ORF所编码的蛋白质序列,可以点击所编码的蛋白质序列,可以点击“Accept”按钮后,按钮后, 在在“1GenBank”的下拉框中选择的下拉框中选择“3Fasta”,并点击,并点击“view”,即可获
10、,即可获 取该取该ORF所编码的蛋白质序列。所编码的蛋白质序列。 .16 1. ORF Finder的使用及结果分析的使用及结果分析 .17 1. ORF Finder的使用及结果分析的使用及结果分析 .18 1. ORF Finder的使用及结果分析的使用及结果分析 .19 1. ORF Finder的使用及结果分析的使用及结果分析 .20 提交序列提交序列 提交序列文件提交序列文件 运行运行GENSCAN 选择物种选择物种 显示氨基酸或显示氨基酸或CDS序列序列 序列名称(可选)序列名称(可选) 是否显示非最优外显子是否显示非最优外显子 2. Genscan的使用及结果分析的使用及结果分析
11、 .21 基因、基因、 外显子外显子 及类型及类型 正链、正链、 负链负链 预测单元预测单元 起始、终起始、终 止及长度止及长度 相位相位 编码编码 区打区打 分值分值 可信概率、可信概率、 得分值得分值 2. Genscan的结果分析的结果分析 .22 http:/ 3. FGENESH的使用及结果分析的使用及结果分析 输入序列的输入序列的Fasta文件文件 .23 3. FGENESH的使用及结果分析的使用及结果分析 起始外显子起始外显子 中间及末端外 显子 PolyA位点位点 起始碱基起始碱基终止碱基终止碱基打分打分长度长度 .24 3. FGENESH的使用及结果分析的使用及结果分析
12、.25 3. FGENESH的使用及结果分析的使用及结果分析 .26 二二. . 原核和真核生物基因转录起始位点上原核和真核生物基因转录起始位点上 游区结构游区结构 原核生物原核生物 真核生物真核生物 TTGAC A TATAATA mRNA 11035 PyAPyTATAATGC区区 CAAT区区 mRNA 14025110 增强子增强子 上游启动子元件,上游启动子元件,UPE核心启动子元件核心启动子元件 转录起始转录起始 位点位点 .27 原核生物原核生物 真核生物真核生物 .28 二二. 启动子预测启动子预测 输入序列的输入序列的Fasta文件文件 .29 启动子预测结果启动子预测结果
13、从预测结果可知,预测的启动子区 在32564至32783之间,启动子阈值 系统默认为53.00,预测的启动子 分值为84.69,高于阈值,分值越 高,说明预测的准确性大。与该启 动子可能结合的转录因子如下所示 .30 三 CpG岛预测 CpG岛 CpG 岛又称为HTF 岛,是DNA上的一个区域,此区域富含GC, 二者以磷酸酯键相连。 位于真核生物基因转录起始位点上游,GC含50% ,长度 200bp CpG岛常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG岛具有阻止序列甲基化的作用,因此,搜 索CpG岛可以为基因及其启动子的预测提供线索。 CpG Island 分析分析 Cp
14、G Island http:/ CpG finder http:/ &group=programs&subgroup=promoter Web CpGPlot/CpGReport/Isochorehttp:/www.ebi.ac.uk/emboss/cpgplot/index.htmlWeb .31 输入序列的输入序列的Fasta文件文件 .32 从该序列的预测结果来看,找到两个从该序列的预测结果来看,找到两个CpG岛,岛, 分别位于分别位于501-727,长度为,长度为227个碱基,个碱基,54380- 54691,长度为,长度为312 .33 四四 转录终止信号转录终止信号 加polyA信
15、号:AAUAAA 转录终止信号:转录终止信号:GC rich二重对称区、二重对称区、UUUUUU C-G C-G G-C G-C U-A G-C G-C C-G G-C UUUUUUUUU RNA 53 AAUAAACAAAAAAAAAAAAA 成熟成熟mRNA5 3 AAUAAACAGUmRNA前体前体5 3 .34 .35 转录终止信号预测转录终止信号预测 Hcpolyahttp:/r.it/webgene/wwwHC_polya.htmlWeb POLYAHhttp:/ ubgroup=promoter Web polyadq /tools/pol
16、yadq/polyadq_form.htmlWeb .36 POLYAH的使用及结果分析的使用及结果分析 输入序列的输入序列的Fasta文件文件 .37 POLYAH的使用及结果分析的使用及结果分析 预测的预测的POLYA位点,位点,LDF为权重为权重 .38 内含子内含子/外显子剪切位点识别外显子剪切位点识别 对基因组序列的读码框区域进行预测 内含子5端供体位点(donor splice site): GT 内含子3端受体位点(acceptor splice site): AG 预测工具: GENSCAN,GENEMARK NetGene2, Splice View .39 .40 mRNA
17、剪切位点识别:spidey NCBI开发的在线预测程序开发的在线预测程序 用于用于mRNA序列同基因组序列比对分析序列同基因组序列比对分析 /IEB/Research/ Ostell/Spidey/index.html .41 .42 序列在线提交形式: 界面中有两个窗口: 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号) 可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析 Spidey序列提交页面序列提交页面 输入基
18、因组序列输入基因组序列 或序列数据库号或序列数据库号 AC002390.1 .43 输入相似输入相似mRNA序列序列 判断用于分析的序列间的差异,判断用于分析的序列间的差异, 并调整比对参数并调整比对参数 不受默认内含子长度限制,不受默认内含子长度限制, 默认长度:内部内含子默认长度:内部内含子 为为35kb, 末端内含子为末端内含子为100kb 输出格式输出格式 比对阈值比对阈值 选择物种选择物种 .44 第一条蓝色序列为第一条蓝色序列为 基因组序列,橘黄基因组序列,橘黄 色为外显子色为外显子 .45 外显子对应于外显子对应于 基因组上的基因组上的 起始起始/结束位置结束位置 外显子对应于外显子对应于 mRNA/cDNA上的上的 起始起始/结束位置结束位置 供体、受体位点供体、受体位点 外显子外显子 序号序号 外显子外显子 长度长度 一致性一致性 百分比百分比 错配和错配和gap .46 序列联配结果序列联配结果 .47 使用NCBI ORF Finder 识别检索号为L03845的可读框。写下 拟南芥phyA序列最长的ORF的起止区间,并粘贴此ORF编码的 蛋白质序列的Fasta文件 使用Genscan对检索号为D17291的序列进行基因预测,标出外 显子区和PolyA位点,用FGENESH对该序列进行预测,写出 预测为外显子的序列区间。并比较两个服务器预测的结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 监理公司人员考核制度
- 如何设立股东考核制度
- 企业中层管理考核制度
- 垃圾清运工考核制度
- 养老院职工考核制度
- 数字化绩效考核制度
- 部员部长考核制度范本
- 员工如何管理考核制度
- 青马协会会员考核制度
- 教师教案备课考核制度
- 2026年及未来5年中国接触器市场供需格局及未来发展趋势报告
- 恶性肿瘤高钙血症
- 电子商务专业试讲教案
- 中小企业数字化转型城市试点实施指南
- 2025秋八年级上学期历史早背晚默练习资料(含答案)
- 2025年江苏省宿迁市中考数学试题(原卷版)
- 昆明市寻甸县特聘动物防疫专员考试试题及答案
- 2021-2025全国高考数学真题汇编 专题03 等式与不等式、基本不等式及一元二次不等式9种常见考法归类
- 面馆开店投资可行性分析报告
- 中西医结合麻醉
- T/CECS 10055-2019绿色建材评价集成墙面
评论
0/150
提交评论