版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,1)基因芯片概述 2)基因表达数据库GEO与表达数据获取 3)基因芯片数据预处理和差异表达分析 4) 基因芯片数据的聚类分析 上机实践: 1) ArrayTools软件介绍及使用 2) 癌症表达谱分析,1)基因芯片概述,Science 和 Nature Genetics 分别在1998年10月和1999年1月 出版了专集,系统的介绍了以基因芯片为核心的生物芯片 技术研究的重大进展。,Gene chip breakthrough microprocessors have reshaped our economy, spawned vast fortures, and changed the w
2、ay we live. Gene chips could be even bigger. -FORTUNE Magazine 1997,135(6):56, 在未来的十二年里,基因芯片将为我们一生的疾病预防提供坐标图 -克林顿 2001年在对全国的国情咨文演讲,芯片微阵列制备,样品制备,生物分子 反应,信号检测 与分析,采用表面化学或组合化学方法处理固相基质,然后使DNA片段按特定特定顺序排列在基片上,将样品进行特定的生物处理,获取其中的DNA、RNA等信息分子并加以标记,以提高检测的灵敏度,选择合适的反应条件使生物分子间反应处于最佳状况,减少分子之间的错配比率,从而获取最能反映生物本质的信号
3、,将芯片置入芯片扫描仪中,通过采集各反应点的荧光强弱和荧光位置,经相关软件分析图像,即可以获得有关生物信息,应用,Title,国防,生物学和生物医学基础研究,环境监测,食品卫生监督,农作物良种选育,司法鉴定,新药开发,航天,疾病诊断,常用基因表达谱数据库,GEO数据库 The National Center for Biotechnology Information, (NCBI) Gene Expression Omnibus, (GEO) ArrayExpress数据库 European Bioinformatics Institute, (EBI) SMD数据库 The Stanford
4、 Microarray Database, (SMD) TCGA数据库 The Cancer Genome Atlas,2)基因表达数据库GEO与表达数据获取,Gene Expression Omnibus (GEO)数据库是由National Center for Biotechnology Information (NCBI 美国国立生物技术信息中心)在2000年研发的一个存储绝大多数由芯片技术产生的高通量基因表达谱数据的公共数据库。 除芯片数据外,还包含检测基因组拷贝数变异(genome copy number variation)和PCR,SNP,甲基化及新一代测序数据等。,每一个平台
5、记录都被赋予一个唯一和稳定的GEO登录号(GPLxxx)。由于提交者不同,一个平台中有可能具有多个参照样本。一个样本记录包含了这个个体样本如何被处理,操作过程及对样本中每个元素的丰度测量。 每个样本记录也都赋予一个唯一和稳定的GEO登录号(GSMxxx)。一个样本实体必须具有唯一的平台参照,但可以包含在多个系列中。一个系列记录由一组相关的样本构成,并提供了完整的关于整个研究的焦点和描述信息。 系列记录中有可能包含从数据中提取的描述列表,概括性结论或者分析。并赋予一个唯一和稳定的GEO登录号(GSExxx)。,数据集记录由GEO工作人员重新对原始数据和信息进行编辑并存储在GEO数据库中,并用GE
6、O登录号(GDSxxx)进行记录。一个数据集代表了具有相同或可比较的生物学和统计学处理的GEO样本的合集,GEO数据库地址为/geo/,GEO数据库在线分析,GDS格式数据可以实现在线的分析。,GEO数据库查询方式,/geo/query/acc.cgi?acc=GSE3744,3) 基因芯片数据预处理和差异表达分析,芯片数据预处理 CDNA芯片数据预处理 寡核苷酸芯片数据预处理,CDNA芯片数据预处理 数据过滤 数据描述 数据补缺 数据对数转化 数据标准化,数据过滤 使用一个标准过滤掉一些由
7、于污染原因导致的不可 靠数据。 包含:标准差法,变异系数法等。,数据描述 数据描述是通过图形对数据的分布情况进行初步的 判断,常用的方法是绘制散点图或箱式图,1. log2R 与log2G散点图 散点图描述一个指标随另一个指标变化情况。图中,纵坐标为log2G,横坐标为log2R,通过图形中点的分布可以判断系统误差情况,对于非差异表达的基因来说,数据点应以直线Y=X为中心紧密分布,呈现非常狭窄的带状分布。,2. MA散点图 MA散点图横坐标为1/2(log2R +log2G),代表点的整体荧光强度,用A(average)表示,纵坐标为log(R/G)=log2R-log2G,代表两种荧光强度的
8、比值的对数,即对数比,用M(minus)表示。 MA散点图是log2R对log2G散点图的一种转化形式,顺时针旋转45并把尺寸缩小为原来的 。MA图可以更只管地观察系统偏移的形式。,3.分组箱式图 箱式图可以在图形上对一组数据的中位数、上四分位数、下四分位数和最大值、最小值进行显示,直观地反映出数据的集中趋势和离散趋势。,数据补缺 芯片缺陷、点像素过饱和或过小因素而产生异常的数据点。 低质量数据点删除造成的缺失。,补缺失值常用方法 使用重复数据点进行补缺 单张芯片中一个基因存在多个重复测量的点,该基 因一个缺失点数据可以用其他重复数据的集中趋势来估 计。 若存在技术重复,由于重复中mRNA样品
9、来源相同 ,可以使用该基因在其他技术重复芯片上的集中趋势来 估计。(生物学重复缺失慎用),2. 利用基因间相关性填充 使用行均数或中位数进行简单填充 使用回归模型对缺失数据进行预测 K最近邻方法,数据对数转化 将表达谱中基因表达数据以2为底进行对数转化。,数据标准化 中位数标准化 分位数标准化,寡核苷酸芯片数据预处理 寡核苷酸芯片是采用原位合成方法制作芯片,采用 匹配/失配(PM/MM)探针对的方法设计探针,并组合 11-20对探针作为探针集(probe sets)检测一个转录 本,因此寡核苷酸芯片数据在预处理尤其是标准化过程 中与CDNA芯片存在差异。,数据标准化 MAS标准化方法: Mic
10、roarray Suite 5.0, MAS 5.0-适用于单张芯片。 RMA标准化方法 RMA算法正逐步成为microarray的主流算法。RMA全称为多阵列对数健壮算法(log scale robust multi-array analysis) -适用于多张芯片。,差异表达分析方法,倍数法 Z值法 T检验法 SAM(Significance Analysis of Microarrays)法,4) 基因芯片数据的聚类分析,目前, 在生物信息学领域提出了大量用于基因表达数 据的聚类算法. 在基因表达数据分析中, 根据处理对象与 目标的不同, 将聚类方法分为三类: 基于基因的聚类(Gene-
11、based clustering) 基于样本的聚类(Sample-based clustering) 双聚类(Biclustering),对基因进行聚类 识别功能相关的基因 识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知 类别分组发现亚型 双聚类 更精确、更细致地探索基因和样本间的相互关系,样本,基因,基因表达谱,聚类算法及分类: 根据产生嵌套的簇集还是分离的簇集, 聚类通常分为 层次( hierarchical) 聚类和划分( partitioning)聚类算法。 层次聚类算法是指产生一个嵌套的簇集。按产生簇 的过程是自底向上,还是自顶向下又可细分为凝聚( agglomer
12、ative)和分裂( divisive)算法。 两个对象的相似程度常采用距离或相似度度量。在 计算距离时有图论中著名的单连接、全连接、平均连接 技术。,层次聚类 层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现 进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。,划分算法 利用算法构造一个簇集, 其中簇的数目由用户指定或系统指定。 根据采用最优划分方法的不同又派生出多种方法, 如: K-均值( K-means)、PAM (Prediction Analysis for Microarrays)、支持向量机(Support Vector Machine, SVM) 、基于人工神经网络的(artificial neural network, ANN) 聚类方法等。 其中人工神经网络包含自组织映射( SOM)聚类算法,上机实践-ArrayTools软件介绍及使用,ArrayTools 是一个集合了诸多基因芯片分析工具的 软件包,由美国NCI BRB(National Can
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国汉白玉线条市场调查研究报告
- 2025年中国喷胶软棉市场调查研究报告
- 2026北京高职面试题目及答案
- 查房要点:患者活动与康复指导
- 护理老年护理技巧
- 小儿肠炎的护理流程优化
- 小儿腹泻病的护理效果评估
- 护理妇产科护理课件
- 智研咨询发布:2026年中国光绘机行业竞争格局及发展前景研究报告
- 护理服务礼仪:接待过程中的眼神与微笑
- 2026年中国AI+教育行业发展展望及投资策略报告
- 好利来裱花培训
- 2025中数联物流科技(上海)有限公司招聘考试参考试题及答案解析
- 2025年中医类别助理全科医生培训结业试题及答案
- 2025年军考物理试卷及答案
- 口腔护理礼仪培训
- 环卫工高温安全培训课件
- 《房屋市政工程生产安全重大事故隐患判定标准(2024版)》解读
- 2025年工程审计试题及答案
- 医院烫伤处理与护理规范
- 全自动血细胞分析仪技术解析
评论
0/150
提交评论