版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、GEO (Gene Expression Omnibus)数据库简介,报告人:沈健 2014.3.8,1,近几年来,随着分子生物学技术的发展,微阵列芯片技术已成为生物学研究最重要的实验之一,尤其是基因芯片的广泛应用,产生了海量的数据,为基因研究提供大量高通量数据资料。,2,基因芯片发展历程,(DNA&RNA印记杂交),(斑点印迹法),3,基因芯片概述,基因芯片(DNA芯片)是通过微阵列技术,根据核酸杂交的原理,将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。,4,基因芯片技术流程,5,基因芯片技术流程,6,基因芯片检测结果,7,什么是GEO数据库
2、,随着微阵列芯片技术尤其是基因芯片的广泛应用,产生了海量的数据,为基因研究提供大量高通量数据资料。迫切需要一个统一管理的公共数据库。 基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的 NCBI。GEO是当今最大、最全面的公共基因表达数据资源。 网址:/geo/,8,GEO数据库的构成,1.用户提交的原始数据,2.GEO数据库整理后的数据,9,平台(Platform),平台是描述一联串在特定实验中被检测或被定量分析的因素,同一个提交者、许多样本有关,是关于用于以高通量方式检查样本的物理试剂的信息。比如寡
3、核苷酸探针组,cDNA, SAGE标签,抗体等。,10,平台(Platform),平台数据包含阵列或序列以及阵列平台的简要描述,每一个平台都分配了一个特有的检索号GPL*。 例如平台GPL341:/geo/query/acc.cgi?acc=GPL341,11,样本(Sample),样本是指以一个平台为基础、描述某个杂交实验或者实验条件的所有特征因素的大量测量信息,即关于被检查的mRNA样本,实验条件,和实验产生的基因表达测量数据信息。每个样品有一个而且只有一个必须先前被确定的亲代平台,同一个提交者,一个平台和许多系列有关。,12,样本(Sa
4、mple),样本数据描述了每个样本的操作环境、处理方法和分离出的各个成分的丰度测量。每个样本均分配了一个特有的检索号GSM*。 例如样本GSM81022/geo/query/acc.cgi?acc=GSM81022,13,系列(Series),系列是把构成某个实验的相关样本集中到一个有生物意义的数据集,同时可能还收集一些已被递呈者注明的重要基因或者分析结果纲要,即样本收集,样本是如何相关的,如何排序的,分析是如何进行的,和聚类数据是如何获得的信息。一个系列中的样品是通过某一共同的属性联结在一起的,同一个提交者,许多样本有关。,14,系列(Se
5、ries),系列数据将一系列相关的样本联系起来,提供了整个研究的关注点和描述,也包含了描述提取数据、简要结论和分析的表格。每个系列均分配了一个特有的检索号GSE*。 例如系列GSE3541/geo/query/acc.cgi?acc=GSE3541,15,数据集组(DataSets),GEO存储的是一个分类广泛的、经过多种手段处理和不同方法分析的高通量实验数据。为了说明这些内容,GEO还增添了一个辅助分析工具,该工具可以把被提交的样本归纳集中到有生物学意义和在统计学上可比较的GEO数据集组(GEO DataSets),能提供关于一个实验的相关
6、梗概,以此作为下游数据挖掘和数据显示工具的基础。 GEO数据集组(Datasets)储存了所有的元数据,提供了GEO数据以“实验为中心”的主要观点。 数据集组的检索为GDS*。例如:GDS2225.,16,表达谱(Profiles),表达谱数据储存了来自于DataSets基因表达谱信息。每一个表达谱都表现为一个能反映一个数据集组中所有样本的基因表达量的统计图。 GEO 表达谱(Profiles)储存了单个基因表达的数据资料,提供了GEO数据以“基因为中心”的主要看法。,17,数据集组和表达谱的关系,在GEO DataSets中每个数据集组个体都各自确定一个实验,而在GEO Profiles中每
7、个数据集组都对应多个表达谱个体。,对平台上的每个基因(比如基因A),有多个样本)测量值。多个相关样本构成一个数据集, 从中可以产生单个或多个基因的表达谱比较图。,18,GEO数据的数据检索方法,从GEO数据库主页面右侧找到搜索栏,直接输入要查找信息的关键词或者检索词,如“mir29a”或者“GDS2225 AND fto”,就会搜索到相应的DataSets和Profiles。 从主页面右侧直接打开库浏览器,从中按照不同的“系列”、“平台”、“样本”、“物种”、“历史”来进行选择需要的数据类型。 直接从GEO数据库的ftp服务器下载。/geo/,
8、19,GEO数据的数据检索方法,直接从NCBI主页用Entrez进行检索。 GEO数据主要存放在GEO DataSets和GEO Profiles两个数据库内。,Entrez是NCBI建立的生物医学数据库集成检索系统。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。,20,GEO数据的数据检索关键词,GEO可和其他NCBI数据库一样用标准关键词的方法和基于文本布尔检索、基于序列检索、基于特有表达行为挖掘检索或结合这些参数来进行检索查询 例如:在GEO DataSets中可以用检索词“prostate cancer AND h
9、umanOrganism ”寻找有关人类前列腺癌微阵列实验数据集。,21,GEO数据的数据检索关键词,例如:在GEO Profiles数据库中可以用检索词ftoGene Symbol AND (Smok*)搜索所有与吸烟相关并包含肥胖基因的相关实验的基因表达谱。,22,GEO数据的处理,23,Find genes: Find gene name or symbol:直接查找数据集组中该基因的基因表达谱。 Find genes that are up/down for this condition(s) :可以根据选择的实验筛选条件,来找到一系列随该筛选条件有较明显表达差异的基因表达谱。,数据分
10、析工具1,24,基因表达谱图,以Fto(肥胖基因)在二型糖尿病与肾脏功能试验中的表达谱为例:从原始样本记录中提取的基因表达值以红色的条形柱表示。蓝色条形柱代表内部样本的百分等级信息,以提供该基因与阵列上所有其它基因相互比较的相对表达水平值。,25,数据分析工具2,2. Compare 2 sets of samples: 选择比较方式和显著性水平 选择A和B两组样本组 进行A、B样本组的比较 查看两组基因可供比较的表达谱。,26,数据分析工具3,3. Cluster heatmaps 聚类分析图(Cluster analyses are one of the most powerful met
11、hods to mine and visualize high-dimensional data. )包含三种聚类算法: 层级聚类方法:(Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离) 分散性聚类方法:K-Medioids算法(特点:用类中的某个点来代表该聚类;优点:能处理任意类型的属性;对异常数据不敏感)K-Means算法 (特点:聚类中心用各类别中所有数据的平均值表示 ;优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集;缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大) 按基因处于染色
12、体上位置来聚类,27,数据分析工具3,28,数据分析工具4,4. Experiment design and value distribution(箱线图) a box plot displaying the distribution of expression values of each Sample within a DataSet. The plot is useful for determining whether the DataSet is normalized, i.e., the value distributions are median-centered across S
13、amples.,29,GEO BLAST,可以在GEO核酸数据库中进行序列比对。,30,GEO2R工具,GEO2Ris an interactive web tool that allows users to compare two or more groups of Samples in a GEO Series in order to identify genes that are differentially expressed across experimental conditions. Results are presented as a table of genes ordered by significance. Unlike GEOs otherDataSet analysis tools, GEO2R does not rely on curated DataSets and interrogates the original Series Matrix data file directly. This allows a greater proportion of GEO data to be analyzed in a timely manner. GEO2R能利用开源软件R平台和bioconductor进行数据处理。,31
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化学实验课教学模式及教学设计
- 糖尿病足科普宣教
- 肝炎监测与管理流程
- 皮肤科银屑病复发预防护理方案
- 2025年公务员(住房租赁市场规范)试题及答案
- 脑卒中急救措施培训指南
- 骨科脊柱骨折手术固定训练
- 鼻炎慢性治疗方案培训指南
- 2026年行政事业单位净资产变动分析报告
- 2026年小学道德与法治教学中生命教育主题实践研究
- 工程资质挂靠及服务协议
- (广东一模)2026年广东省高三高考模拟测试(一)英语试卷(含官方答案)
- NB/T 11757-2024低压统一电能质量调节器技术规范
- 2026春初中5星学霸物理8下(人教)
- 2026 国家公务员面试热点预测 30 题:附答题框架
- 产品技术样片
- 郑州市2024年河南郑州市新型智慧城市运行中心招聘事业编制工作人员10人笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 红牛总代理协议书
- 国有企业纪检监察面试题库
- 脑血管病所致精神障碍的护理课件
- 2025年潼南县事业单位联考招聘考试真题汇编带答案
评论
0/150
提交评论