




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 表达序列分析,第一节 引言,(二) 什么是表达序列标签? (expressed sequence tag, EST),从已建好的cDNA库中随机取出一个克隆,从5末端或3末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。,基因组表达为RNA的序列: mRNA和功能RNA,一、表达序列与表达序列标签 (一) 什么是表达序列?,EST的获得途径,二、EST的用途,基因组物理图谱的绘制 基因识别的验证 基因表达谱的构建 发现新基因 电子PCR克隆 SNP(single nucleotide polymorphism)发现,(一) ESTs与基因图谱的绘制,基因组物理图谱
2、的构建: 借助序列标签位点(sequence-tagged sites,STS), 物理图谱也称为STS图谱 EST是一种STS 1995发表的人类基因组物理图谱含有15086个 STS,其中大多数为EST,平均密度为1个标记/199kb,(二) ESTs与基因预测的验证,某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条EST代表特定基因的部分序列,因此将预测基因同物种所有的EST进行比对,有助于基因预测的验证。,(三) ESTs与基因预测( Blast数据库搜索),在同一物种中搜寻基
3、因家族的新成员(paralogs) 在不同物种间搜寻功能相同的基因(orthologs) 已知基因的不同剪切模式的搜寻,(四) ESTs与SNP位点预测,来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。 应注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过: 提高ESTs分析的准确性 对所发现的SNPs进行实验验证,(五) ESTs与基因表达谱的构建,(六) EST数据的不足,ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得(SAGE可以解决); 由于只是一轮测序结果,出错率达2%5%; 有时有载体序列和核外mRNA来源的
4、cDNA污染或是基因组DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。,第二节 EST数据分析,一、cDNA文库的构建与EST数据的实验获取,非标准化cDNA文库的构建,标准化 cDNA文库的构建(杂交方法如扣除杂交),cDNA逆转录引物,检测低丰度表达基因 不能用于表达谱研究,适用于表达谱研究 测序成本较高,Oligo T引物 随机引物,EST技术流程,二、EST数据库,1993年前:EST收录于GenBank, EBI和DDBJ 1993年 NCBI 建立dbEST,常用的EST数据库,(一)dbEST(database of EST),Genbank的一部分
5、63,236,621条数据(20091016),描述:,向dbEST提交数据,按格式编辑数据 通过E-mail提交 更新数据,dbEST数据格式,Publication文件:文献文件,文献发表信息 Library文件:文库文件,实验信息 Contact文件:联系人文件,联系信息 EST文件:EST数据文件,核心数据,在dbEST中检索数据,利用Entrez检索系统 登录NCBI FTP下载: /repository/dbEST 例:在Entrez中检索人类血红蛋白EST数据,1. 检索栏内输入关键词,如“HBB Human”,2. 检索结果,3. 检索结果的解
6、读,数据记录的编号:DN991377 数据记录的描述: 数据记录的格式:Genbank格式、EST格式 数据记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件,(二)UniGene数据库,Genbank的一部分 一条纪录为一个gene cluster,简介,查询UniGene,通过NCBI Ftp 下载:/repository/UniGene/ 使用dbEST数据库检索 例:检索人类血红蛋白亚基的UniGene数据,1. 检索栏内输入关键词“HBB Human”,2. 获得检索结果页面,3. 检索结果解读,数据名称: 数据描述: 数据
7、格式(主要字段): SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合 GENE EXPRESSTION:基因表达信息 SEQUECNES:与基因类相关的序列,如mRNA、EST等等,(三)Gene Indices数据库,The Institute of Genomic Research Database (TIGR)中的一个子库 /tgi/,简介,数据构成,42类动物 47类植物 15类原生生物 10类真菌,三、EST数据分析方法,随机挑取克隆进行5或3端测序,序列前处理,聚类和拼接,基因注释及功能分
8、类,去除低质量的序列(如使用Phred) 应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences) 载体序列(/repository/vector) 重复序列(RepBase,) 污染序列 (如核糖体RNA、细菌或其他物种的基因组DNA等) 去除其中的嵌合克隆 最后去除长度小于100bp的序列,(一)序列前处理,EST数据预处理流程,聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的EST
9、s整合至单一的簇(cluster)中 聚类作用: 产生较长的一致性序列(contigs) ,用于注释 降低数据的冗余,纠正错误数据。 可以用于检测选择性剪切。 ESTs聚类的数据库主要有三个: UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/ ) STACK (http:/www.sanbi.ac.za/Dbases.html ),(二)ESTs的聚类,Phrap CAP3 TIGR Assembler Staden Package,(三)ESTs序列聚类拼接的
10、主要软件,4种ESTs聚类和拼接软件比较,(四)序列注释和分析,一级序列同源性比对:使用BLAST等工具 蛋白质结构域和功能位点搜索 基因功能分类:Gene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较 通路分析 可变剪切分析,第三节 基因表达系列分析,Serial analysis of gene expression,一、SAGE技术原理简介,基因表达系列分析(Serial Analysis of Gene Expression,SAGE): 1995,Velculescu 高通量、平行性检测,简介,三个基本要点,9-14bp的短核苷酸序列“标签”(Tag)可以特异确
11、定一个转录本 串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量,SAGE技术原理,二、SAGE技术方案,构建SAGE文库,多聚体分子的克隆与测序,标签序列的提取,SAGE技术方案,三、SAGE技术应用前景,全基因组表达谱分析与比较,深入认识基因调控网络,四、SAGE数据库与分析软件,1. NCBI SAGE数据库 (GEO),2. SAGEnet,3. The Mouse SAGE Site,4. 其他SAGE数据库,(一)SAGE数据库,1. NCBI SAGE数据库:GEO,Gene Expression Omnibus,2000,NCBI GEO数据
12、库四个基本实体 1)提交者,2)平台,3)样本,4)系列,GEO简介,GEO数据库查询:在EntreZ中查询,Entrez GEO数据集 查询所有的实验注解 /sites/entrez?db=gds Entrez GEO表达谱 查询样品和系列纪录 /sites/entrez?db=geo,GEO数据库查询: 在GEO主页查询,/geo/,例:查询GDS325数据集的结果,数据记录的相关信息,Expression Profiles:表达谱数据
13、,Data Analysis Tools:分析工具,Sample subsets:样本子集,GEO数据分析,Find genes 工具:快速寻找指定基因 Cluster heatmap工具:样本层次聚类图 Query Group A versus B 工具:子集比较查询 Experiment design and Value distribution:数据集的数值分布 GEO BLAST :使用BLAST搜索感兴趣序列的表达谱数据 Subset effects:子集效应,提供不同子集之间的差异信号,Find genes,Cluster heatmap,Experiment design and
14、 Value distribution,GEO数据提交与更新,创建GEO账号: GEO主页点击“Create a new account” 选择提交方式 Direct Deposit/Update:直接提交 Web Deposit/Update:Web交互方式提交 准备数据,执行提交,2. SAGEnet,SAGEnet是一个关于SAGE技术方法、文档、资讯以及收录SAGE数据的网络资源库 / 主要内容: FINDNGS:SAGE技术介绍 RESOURCES:资料及数据下载 PUBLICATIONS:SAGE出版物 CONFERENCES:相关会议信息
15、 CONTACS US:联系获取SAGE资料,/,3. The MOUSE SAGE Site,小鼠SGAE数据库,由捷克科学院分子遗传研究所构建 http:/mouse.img.cas.cz/sage/,4. 其他SAGE数据库,GutSAGE: /GutSAGE/ StormSAGE: /StomSAGE/ GermSAGE: /germsage/home.html,(二)SAGE分析软件,对SAGE数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等。,SAGE300,与sagenet实验方案配套使用 /protocol/index.htm,WEBSAGE,对SAGE数据进行统计分析,鉴别差异
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽修证书考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期第二次月考数学试题含参考答案
- 心理试题目答案及二选一
- 农村区域环境改善与生态修复项目合同书
- 西红柿作文400字7篇
- 高效记忆训练课感悟400字13篇范文
- 教育资料表格-学习资料清单
- 企业市场营销策划模板及执行方案
- 想象作文未来的世界11300字12篇
- 企业文化传承与发展培训教学大纲
- 肿瘤免疫治疗及护理讲课件
- GB/T 32911-2016软件测试成本度量规范
- 广东省特种设备检测研究院东莞检测院招考【共500题含答案解析】模拟检测试卷
- 《压力容器安全技术监察规程》
- 独股一箭2010年20w实盘
- 数控加工中心培训课件
- 自动控制原理全套ppt课件(完整版)
- 智慧燃气安全监管平台建设方案
- 生物化学与分子生物学(全套课件230P)
- 学校及附属设施建设施工方案 (1)
- 公共关系策划(共47页).ppt
评论
0/150
提交评论