基因芯片数据分析ppt课件_第1页
基因芯片数据分析ppt课件_第2页
基因芯片数据分析ppt课件_第3页
基因芯片数据分析ppt课件_第4页
基因芯片数据分析ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因芯片数据分析基因芯片数据分析r 1. 基因芯片基因芯片(Microarray)简介简介r 2. 图像处置与数据规范化图像处置与数据规范化r 3. 基因芯片的数据分析基因芯片的数据分析1. 基因芯片简介基因芯片简介r 基因芯片基因芯片 (1987): 固定有寡核苷酸、固定有寡核苷酸、DNA或或cDNA等等的生物芯片。利用这类芯片与标志生物样品进展杂的生物芯片。利用这类芯片与标志生物样品进展杂交,可对样品基因表达谱生物信息进展快速定性和交,可对样品基因表达谱生物信息进展快速定性和定量分析。定量分析。r 高通量、点阵以及高通量、点阵以及Northern杂交杂交r 同时测定细胞内数千个基因的表达情

2、况同时测定细胞内数千个基因的表达情况r 将将mRNA反转录成反转录成cDNA与芯片上的探针杂交与芯片上的探针杂交r 芯片的体积非常小:微量样品的检测芯片的体积非常小:微量样品的检测r 基因表达情况的定量分析基因表达情况的定量分析生物芯片的根本要点生物芯片的根本要点1、芯片方阵的构建:芯片制备是先将玻璃片或硅片进展、芯片方阵的构建:芯片制备是先将玻璃片或硅片进展外表处置,然后使外表处置,然后使DNA片断或蛋白质分子等生物分子按片断或蛋白质分子等生物分子按顺序陈列在芯片上的过程。顺序陈列在芯片上的过程。 2、样品的制备:生物样品往往是非常复杂的生物分子混、样品的制备:生物样品往往是非常复杂的生物分

3、子混合体,除少数特殊样品外,普通不能直接与芯片反响。合体,除少数特殊样品外,普通不能直接与芯片反响。可将样品进展处置,获取其中的蛋白质或可将样品进展处置,获取其中的蛋白质或DNA、RNA,并且加以标志,以提高检测的灵敏度。并且加以标志,以提高检测的灵敏度。 3、生物分子反响:生物分子反响为芯片上的生物分子之、生物分子反响:生物分子反响为芯片上的生物分子之间的反响,是芯片检测的关键一步。经过选择适宜的反间的反响,是芯片检测的关键一步。经过选择适宜的反响条件使生物分子间反响处于最正确形状中,减少生物响条件使生物分子间反响处于最正确形状中,减少生物分子之间的错配率。分子之间的错配率。 4、信号检测:

4、常用的芯片信号检测方法是将芯片置入芯、信号检测:常用的芯片信号检测方法是将芯片置入芯片扫描仪中,进展信号检测,以获得有关生物学信息。片扫描仪中,进展信号检测,以获得有关生物学信息。 将样品中的将样品中的DNA/RNA标上荧标上荧光标志,那么可以定量检验光标志,那么可以定量检验基因的表达程度基因的表达程度碱基互补碱基互补基因芯片的密度:基因芯片的密度:100-1 million DNA 探针探针/1cm2A. 按技术手段、探针类型分类按技术手段、探针类型分类1. Short oligonucleotide arrays (Affymetrix) 2. cDNA arrays (Brown/Bot

5、stein)3. Long oligo arrays (Agilent)4. Serial analysis of gene expression (SAGE)B. 按实验要求分类按实验要求分类1. 单通道单通道 (Single Channel): 一次检验一种形状一次检验一种形状 2. 双通道双通道 (Dual Channel): 差别表达基因的挑选差别表达基因的挑选基因芯片技术的类型基因芯片技术的类型(1). cDNA microarrays: 将将5005,000bp的的cDNA固载固载到介质上到介质上 (例如玻璃例如玻璃)。Stanford开发设计,通常开发设计,通常为双通道,常用于差

6、别表达基因的挑选。为双通道,常用于差别表达基因的挑选。(2). DNA chips: 将寡核苷酸探针将寡核苷酸探针 (2080-mer) 合成到合成到芯片上。芯片上。Affymetrix开发设计,通常为单通道,开发设计,通常为单通道,一次检验一种形状一次检验一种形状 。两类主流的两类主流的DNA芯片芯片载玻片载玻片cDNA clones(1) cDNA microarraysTreatment / controlNormal / tumor tissueBrain / liver荧光标志的靶基因差别表达基因的挑选差别表达基因的挑选(2) DNA chipsr 探针长度:25 bpr 每个基因:

7、22-40个探针r Perfect Match (PM) vs. MisMatch (MM) probesDNA chips的制备:的制备:Affymetrix photolitographyA. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物B. 采用光导化学合成和照相平板印刷技术在硅片等外表合成寡核苷酸探采用光导化学合成和照相平板印刷技术在硅片等外表合成寡核苷酸探针针; 或者经过液相化学合成寡核苷酸链探针,或或者经过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列,技术扩增基因序列,由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样

8、品定量点由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上样于带正电荷的尼龙膜或硅片等相应位置上C. 紫外线交联固定后即得到紫外线交联固定后即得到DNA微阵列或芯片微阵列或芯片三、基因芯片数据分析三、基因芯片数据分析r 1. 基因芯片基因芯片(Microarray)简介简介r 2. 图像处置与数据规范化图像处置与数据规范化r 3. 基因芯片的数据分析基因芯片的数据分析2. 图像处置与数据规范化图像处置与数据规范化单通道基因芯片单通道基因芯片 white (very high) red (high) Yellow (a little high)

9、green (medium)blue (low) black (no)植根区域生长法植根区域生长法(SRG) Fixed Circle栅格化:确定点的位置图象分割 (Segmentation):将点从背景中分别出来。抽提亮度:各个像素亮度的平均值 (mean)或中位数 (median)背景校正:部分或全局图像处置图像处置对于每个点,可以计算对于每个点,可以计算 Red intensity = Rfg - Rbgfg = foreground, bg = background, and Green intensity = Gfg - Gbgand combine them in the log

10、(base 2) ratio Log2( Red intensity / Green intensity) Green intensity (medium): 1基因表达量的定量基因表达量的定量r 1. 图像分析图像分析r 2. 扫描扫描r 3. DNA杂交过程杂交过程 (温度、时间、混合均匀温度、时间、混合均匀程度等程度等)r 4. 探针的标志探针的标志r 5. RNA的抽提的抽提r 6. 加样加样r 7. 其他其他 log signal intensity log RNA abundance系统误差系统误差随机误差随机误差Microarray: 误差的来源误差的来源运用哪些基因进展规范化处

11、置运用哪些基因进展规范化处置芯片上大部分基因芯片上大部分基因(假设芯片上大部分基因在假设芯片上大部分基因在不同条件下表达量一样不同条件下表达量一样) 不同条件间稳定表达的基因不同条件间稳定表达的基因(如持家基因如持家基因)控制序列控制序列(spiked control ) 合成合成DNA序列或外源的序列或外源的DNA序列,在不同条序列,在不同条件下表达程度一样。件下表达程度一样。beforeafter数据规范化数据规范化目的是消除系统偏向引起的高相关性,同时保管由真正生物目的是消除系统偏向引起的高相关性,同时保管由真正生物学缘由引起的基因表达程度高相关性。学缘由引起的基因表达程度高相关性。三、

12、基因芯片数据分析三、基因芯片数据分析r 1. 基因芯片基因芯片(Microarray)简介简介r 2. 图像处置与数据规范化图像处置与数据规范化r 3. 基因芯片的数据分析基因芯片的数据分析3. 基因芯片的数据分析基因芯片的数据分析(1) 差别表达基因的分析差别表达基因的分析(2) 基因共表达分析基因共表达分析(3) 基因表达数据的聚类基因表达数据的聚类(4) 基因表达数据的分类基因表达数据的分类(5) Map to GO(6) Gene regulatory network(1) 差别表达基因的分析差别表达基因的分析r 差别表达基因的分析差别表达基因的分析: 寻觅处置前后表达上调或寻觅处置前

13、后表达上调或者下调的基因者下调的基因r Are the treatments different?r 运用规范的统计学方法检验运用规范的统计学方法检验 (t-test or f-test),发,发现统计显著性差别表达的基因,现统计显著性差别表达的基因,r 假设处置本身并不显著,那么结果无意义假设处置本身并不显著,那么结果无意义r Fold change, 普通普通2-fold increase or decrease (平行实验的样本较少平行实验的样本较少) r p-value (平行实验的样本较多平行实验的样本较多)under-expressedover-expressed/2/2统计学分析

14、统计学分析r T-test: 学生分布学生分布r Excel函数:函数:TTEST(array1,array2,tails,type)r Array1为第一个数据集为第一个数据集r Array2为第二个数据集为第二个数据集r Tails指示分布曲线的尾数。假设指示分布曲线的尾数。假设 tails = 1,函数,函数 TTEST 运用单尾分布。假设运用单尾分布。假设 tails = 2,函数,函数 TTEST 运用双尾分布运用双尾分布r Type为为 t 检验的类型检验的类型r 1 成对成对 r 2 等方差双样本检验等方差双样本检验 r 3 异方差双样本检验异方差双样本检验 P-value: 学

15、生分布学生分布r 普通选择双尾分布r 异方差双样本检验r Excel函数:=TTEST(B2:D2,E2:G2,2,3) r C:对照组;T:实验组C1C2C3T1T2T3TTESTGene 11.3221.6761.4573.5264.2343.8790.001988P-value: 学生分布学生分布(2) 基因共表达分析基因共表达分析r 在N个不同的条件下 (时间序列的芯片数据),调查基因X和Y的表达能否类似。r Gene 1#能否与Gene 2#、Gene 3#和Gene 4#共表达?r 共表达:r 正相关:类似的表达谱,能够存在正关联r 负相关:相反的表达谱,能够存在负调控Eisen

16、MB, et al., (2019) PNAS 95:14863-14868Gene NameT1T2T3T4T5T6Gene 1#123456Gene 2#100200300400550610Gene 3#660540430320210101Gene 4#150421535725451670998r r -1, 1r r 1,正相关r r -1,负相关Gene 1#Gene 2#Gene 3#Gene 1#Gene 2#0.996368Gene 3#-0.99988-0.99611Gene 4#0.2452920.254855-0.2395r 结论:Gene 1#与Gene 2#表达正相关,

17、与Gene 3#表达负相关,与Gene 4#无关联基因相关性分析:基因相关性分析:Pearson相关系数相关系数Excel函数:函数:=PEARSON(array1,array2)(3) 基因表达数据的聚类基因表达数据的聚类r 将表达谱类似的基因聚类在一同r 发现新的方式r 聚类方法:r A. Hierarchical clusteringr B. K-means clusteringr 用树状构造来表征基因表达之间的用树状构造来表征基因表达之间的类似性类似性/相关性相关性Object123451223654109459853Distance matrixDistanceCluster01,2

18、,3,4,52(1, 2), 3, 4, 53(1, 2), 3, (4, 5)4(1, 2), (3, 4, 5)5(1, 2, 3, 4, 5)Cluster Tree0123456DistancesOBJECT1OBJECT2OBJECT3OBJECT4OBJECT5A. Hierarchical clusteringr 对数据进展聚类r 必需给定结果分成多少类r 假设该例中,指定为聚成5类B: K-means clustering软件:Cluster 3.0, Michael Eissen, Stanford最终结果:一切基因芯片数据被聚成5类B: K-means clustering

19、(4) 基因表达数据的分类基因表达数据的分类r 根据基因表达的数据将样本分成两类或多类根据基因表达的数据将样本分成两类或多类r 督导学习督导学习 (supervised learning):根据发现的方式:根据发现的方式进展预测进展预测r 运用:运用:r 癌症癌症 vs. 正常组织正常组织r 癌症的亚型、不同阶段癌症的亚型、不同阶段 (良性的良性的 vs. 恶性的恶性的) r 对药物的敏感性对药物的敏感性 (tamoxifen for breast cancer)(5) Map to GOr 经过基因芯片,找到了一批经过基因芯片,找到了一批“interesting 的基的基因因r 生物学功能上

20、能否存在关联?生物学功能上能否存在关联?r 基因本体基因本体Gene Ontology, GO:GO数据库把数据库把基因的功能分为三类:分子功能,生物学过程和基因的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描画功细胞组分。在每一个分类中,都提供一个描画功能信息的分级构造。能信息的分级构造。 (5) Map to GO研讨者可以经过研讨者可以经过GOGO分类号将分类与详细基因联络起来,从而分类号将分类与详细基因联络起来,从而对基因的功能进展描画。在芯片的数据分析中,研讨者对基因的功能进展描画。在芯片的数据分析中,研讨者可以找出哪些变化基因属于一个共同的可以找出哪些变

21、化基因属于一个共同的GOGO功能分支,并功能分支,并用统计学方法检定结果能否具有统计学意义,从而得出用统计学方法检定结果能否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。变化基因主要参与了哪些生物功能。比较著名的基于比较著名的基于GOGO分类法的芯片数据分析网络平台有七十多分类法的芯片数据分析网络平台有七十多个:个:Name Internet SiteName Internet SiteOnto-Tools /projects.htmOnto-Tools /projects.htmGOToolBox burg

22、undymt.ubc.ca/GOToolBox/GOToolBox burgundymt.ubc.ca/GOToolBox/GOstat .au/GOstat .au/GFINDer medinfopoli.polimi.it/GFINDer/GFINDer medinfopoli.polimi.it/GFINDer/EASE EASE /ease//ease/ease.jsp(6) Gene regulatory networkr

23、 早期观念:表达谱类似的基因能够存在功能上的早期观念:表达谱类似的基因能够存在功能上的关联,能够有相互作用关联,能够有相互作用 (直接作用直接作用)。r 当前的观念:表达谱类似的基因能够具有共同的当前的观念:表达谱类似的基因能够具有共同的调控元件调控元件 (基因基因UTR区域存在共同的区域存在共同的Promotor), 可以被同一个上游因子所调控。可以被同一个上游因子所调控。 基因转录调控网络基因转录调控网络基因转录调控网络是以转录因子和受调控基因作为节点,基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络。以调控关系作为边的有向网络。基因转录调控数据库基因转录调控数据库1.TRANSFAC数据库 gene-regulation/pub/databases.htmlTRANSFAC数据库是关于转录因子、它们在基因组上的结合位点的数据库。 2.TRRD数据库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论