




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基因芯片数据分析,1. 基因芯片(Microarray)简介 2. 图像处理与数据标准化 3. 基因芯片的数据分析,1. 基因芯片简介,基因芯片 (1987): 固定有寡核苷酸、DNA或cDNA等的生物芯片。利用这类芯片与标记生物样品进行杂交,可对样品基因表达谱生物信息进行快速定性和定量分析。 高通量、点阵以及Northern杂交 同时测定细胞内数千个基因的表达情况 将mRNA反转录成cDNA与芯片上的探针杂交 芯片的体积非常小:微量样品的检测 基因表达情况的定量分析,生物芯片的基本要点,1、芯片方阵的构建:芯片制备是先将玻璃片或硅片进行表面处理,然后使DNA片断或蛋白质分子等生物分子按顺序排
2、列在芯片上的过程。 2、样品的制备:生物样品往往是非常复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应。可将样品进行处理,获取其中的蛋白质或DNA、RNA,并且加以标记,以提高检测的灵敏度。 3、生物分子反应:生物分子反应为芯片上的生物分子之间的反应,是芯片检测的关键一步。通过选择合适的反应条件使生物分子间反应处于最佳状态中,减少生物分子之间的错配率。 4、信号检测:常用的芯片信号检测方法是将芯片置入芯片扫描仪中,进行信号检测,以获得有关生物学信息。,将样品中的DNA/RNA标上荧光标记,则可以定量检验基因的表达水平,碱基互补,基因芯片的密度:100-1 million DNA
3、探针/1cm2,A. 按技术手段、探针类型分类 1. Short oligonucleotide arrays (Affymetrix) 2. cDNA arrays (Brown/Botstein) 3. Long oligo arrays (Agilent) 4. Serial analysis of gene expression (SAGE) B. 按实验要求分类 1. 单通道 (Single Channel): 一次检验一种状态 2. 双通道 (Dual Channel): 差异表达基因的筛选,基因芯片技术的类型,(1). cDNA microarrays: 将5005,000bp的
4、cDNA固载到介质上 (例如玻璃)。Stanford开发设计,通常为双通道,常用于差异表达基因的筛选。 (2). DNA chips: 将寡核苷酸探针 (2080-mer) 合成到芯片上。Affymetrix开发设计,通常为单通道,一次检验一种状态 。,两类主流的DNA芯片,载玻片,cDNA clones,(1) cDNA microarrays,Treatment / control Normal / tumor tissue Brain / liver ,荧光标记的靶基因,差异表达基因的筛选,(2) DNA chips,探针长度:25 bp 每个基因:22-40个探针 Perfect Ma
5、tch (PM) vs. MisMatch (MM) probes,DNA chips的制备:Affymetrix photolitography,A. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物 B. 采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探针; 或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列,由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上 C. 紫外线交联固定后即得到DNA微阵列或芯片,三、基因芯片数据分析,1. 基因芯片(Microarray)简介 2. 图像处理与数据标准化 3. 基因芯片的数
6、据分析,2. 图像处理与数据标准化,单通道基因芯片 white (very high) red (high) Yellow (a little high) green (medium) blue (low) black (no),植根区域生长法(SRG),Fixed Circle,栅格化:确定点的位置 图象分割 (Segmentation):将点从背景中分离出来。 抽提亮度:各个像素亮度的平均值 (mean)或中位数 (median) 背景校正:局部或全局,图像处理,对于每个点,可以计算 Red intensity = Rfg - Rbg fg = foreground, bg = backg
7、round, and Green intensity = Gfg - Gbg and combine them in the log (base 2) ratio Log2( Red intensity / Green intensity) Green intensity (medium): 1,基因表达量的定量,1. 图像分析 2. 扫描 3. DNA杂交过程 (温度、时间、混合均匀程度等) 4. 探针的标记 5. RNA的抽提 6. 加样 7. 其他,系统误差 随机误差,Microarray: 误差的来源,运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量
8、相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control ) 合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,before,after,数据标准化,目的是消除系统偏差引起的高相关性,同时保留由真正生物学原因引起的基因表达水平高相关性。,三、基因芯片数据分析,1. 基因芯片(Microarray)简介 2. 图像处理与数据标准化 3. 基因芯片的数据分析,3. 基因芯片的数据分析,(1) 差异表达基因的分析 (2) 基因共表达分析 (3) 基因表达数据的聚类 (4) 基因表达数据的分类 (5) Map to GO (6) Gene regulatory
9、 network,(1) 差异表达基因的分析,差异表达基因的分析: 寻找处理前后表达上调或者下调的基因 Are the treatments different? 使用标准的统计学方法检验 (t-test or f-test),发现统计显著性差异表达的基因, 如果处理本身并不显著,则结果无意义,Fold change, 一般2-fold increase or decrease (平行实验的样本较少) p-value (平行实验的样本较多),统计学分析,T-test: 学生分布 Excel函数:TTEST(array1,array2,tails,type) Array1为第一个数据集 Arra
10、y2为第二个数据集 Tails指示分布曲线的尾数。如果 tails = 1,函数 TTEST 使用单尾分布。如果 tails = 2,函数 TTEST 使用双尾分布 Type为 t 检验的类型 1 成对 2 等方差双样本检验 3 异方差双样本检验,P-value: 学生分布,一般选择双尾分布 异方差双样本检验 Excel函数:=TTEST(B2:D2,E2:G2,2,3) C:对照组;T:实验组,P-value: 学生分布,(2) 基因共表达分析,在N个不同的条件下 (时间序列的芯片数据),考察基因X和Y的表达是否相似。 Gene 1#是否与Gene 2#、Gene 3#和Gene 4#共表达
11、? 共表达: 正相关:相似的表达谱,可能存在正关联 负相关:相反的表达谱,可能存在负调控,Eisen MB, et al., (1998) PNAS 95:14863-14868,r -1, 1 r 1,正相关 r -1,负相关,结论:Gene 1#与Gene 2#表达正相关,与Gene 3#表达负相关,与Gene 4#无关联,基因相关性分析:Pearson相关系数,Excel函数:=PEARSON(array1,array2),(3) 基因表达数据的聚类,将表达谱相似的基因聚类在一起 发现新的模式 聚类方法: A. Hierarchical clustering B. K-means clu
12、stering,用树状结构来表征基因表达之间的相似性/相关性,Distance matrix,A. Hierarchical clustering,对数据进行聚类 必须给定结果分成多少类 假设该例中,指定为聚成5类,B: K-means clustering,软件:Cluster 3.0, Michael Eissen, Stanford 最终结果:所有基因芯片数据被聚成5类,B: K-means clustering,(4) 基因表达数据的分类,根据基因表达的数据将样本分成两类或多类 督导学习 (supervised learning):根据发现的模式进行预测 应用: 癌症 vs. 正常组织
13、 癌症的亚型、不同阶段 (良性的 vs. 恶性的) 对药物的敏感性 (tamoxifen for breast cancer),(5) Map to GO,通过基因芯片,找到了一批“interesting” 的基因 生物学功能上是否存在关联? 基因本体(Gene Ontology, GO):GO数据库把基因的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。,(5) Map to GO,研究者可以通过GO分类号将分类与具体基因联系起来,从而对基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法
14、检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。 比较著名的基于GO分类法的芯片数据分析网络平台有七十多个:Name Internet SiteOnto-Tools /projects.htmGOToolBox http:/burgundy.cmmt.ubc.ca/GOToolBox/GOstat .au/GFINDer http:/www.medinfopoli.polimi.it/GFINDer/EASE /ease/eas
15、e.jsp,(6) Gene regulatory network,早期观点:表达谱相似的基因可能存在功能上的关联,可能有相互作用 (直接作用)。 当前的观点:表达谱相似的基因可能具有共同的调控元件 (基因UTR区域存在共同的Promotor), 能够被同一个上游因子所调控。,基因转录调控网络,基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络。,基因转录调控数据库,1.TRANSFAC数据库,http:/www.gene-,TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点的数据库。,2.TRRD数据库,http:/wwwmgs.bionet.nsc.r
16、u/mgs/gnw/trrd/,TRRD数据库是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。 每一个TRRD的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。,3. RegulonDB数据库,http:/regulondb.ccg.unam.mx/,RegulonDB数据库是一个提供转录起始和调控网络信息的数据库。,蛋白质互作网络,代谢网络和信号传导网络,代谢通路 是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。 代谢网络 是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。 信号传导 是指细胞将一种类型的生物信号或刺激转
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音乐课中国古典课件
- 急救方法培训课件
- 油田开发项目质量管理方案
- 高效节能电机项目社会稳定风险评估报告(范文参考)
- 2025年砂洗机项目发展计划
- 2025年碾米机械项目合作计划书
- 2025年家用制冷电器具项目发展计划
- 2025年政府引导基金项目合作计划书
- 维修表扬信范文
- 2025年旅游景区开发建设项目社会稳定风险评估与管理规范报告
- 《无人机介绍》课件
- 2025-2030中国硼酸行业市场发展现状及竞争格局与投资研究报告
- 学校中层干部选拔聘用实施方案中层干部选聘实施方案2
- 生物必修1教师用书
- 园艺植物育种学知到课后答案智慧树章节测试答案2025年春浙江大学
- 《电力机车制动系统检修与维护》课件 项目二任务四检修中继阀
- GB/T 15683-2025粮油检验大米直链淀粉含量的测定
- 2025吉林省安全员C证考试(专职安全员)题库及答案
- 电钻清洗消毒流程
- 装修贷款申请书
- 造林安全文明施工方案
评论
0/150
提交评论