版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学第八章 基因芯片分析本章内容提要1. Microarray简介2. 图像处置与数据规范化3. 基因芯片的数据分析4. Microarray:工具&数据库基因芯片1. 基因芯片 (1987)2. 根据免疫测定的 (immunoassay)的方法予以改良3. 高通量、点阵以及Northern杂交同时测定细胞内数千个基因的表达情况将mRNA反转录成cDNA与芯片上的探针杂交4. 芯片的体积非常小:微量样品的检测5. 基因表达情况的定量分析6. 其他类型的芯片:组织芯片蛋白质芯片基因芯片的密度:100-1 million DNA 探针/1cm2将样品中的DNA/RNA表上荧光标志,那么可以定
2、量检验基因的表达程度碱基互补基因表达情况的定量测定1. 发如今特定生长时期,或者随着环境变化,那些基因的表达收到诱导或者抑制2. 在一样条件下,上调或者下调变化规律类似的基因,能够具有功能上的关联3. 可以从共表达的基因中寻觅调控模体4. 基因表达的方式可以用来表征异常的细胞调控,例如,癌症的诊断基因芯片技术的类型按技术手段、探针类型分类1. Short oligonucleotide arrays (Affymetrix) 2. cDNA arrays (Brown/Botstein)3. Long oligo arrays (Agilent)4. Serial analysis of ge
3、ne expression (SAGE)按实验要求分类1. 单通道 (Single Channel): 一次检验一种形状 2. 双通道 (Dual Channel): 差别表达基因的挑选两类主流的DNA芯片1. cDNA microarrays: 将5005,000bp的cDNA固载到介质上 (例如玻璃),Stanford开发设计,通常为双通道2. DNA chips: 将寡核苷酸探针 (2080-mer) 合成到芯片上,Affymetrix开发设计,通常为单通道(1) cDNA microarrayscDNA clonesRobot spotter普通的盖玻片cDNA microarrays
4、的制备差别表达基因的挑选Treatment / controlNormal / tumor tissueBrain / liver点样后的cDNA MicroarraysGenesmRNA samplesGene expression level of gene i in mRNA sample j=Log (Red intensity / Green intensity)Log(Avg. PM - Avg. MM)sample1sample2sample3sample4sample5 1 0.46 0.30 0.80 1.51 0.90.2-0.10 0.49 0.24 0.06 0.46.
5、3 0.15 0.74 0.04 0.10 0.20.4-0.45-1.03-0.79-0.56-0.32.5-0.06 1.06 1.35 1.09-1.09.基因表达的数据(1) DNA chipsDNA chips的制备:Affymetrix photolitography探针长度:25 bp每个基因:22-40个探针Perfect Match (PM) vs. MisMatch (MM) probes点样后的Gene chip总结基因芯片的实验流程2. 图像处置与数据规范化单通道基因芯片 white (very high) red (high) Yellow (a little hig
6、h) green (medium)blue (low) black (no)图像处置植根区域生长法(SRG) Fixed Circle栅格化:确定点的位置图象分割 (Segmentation):将点从背景中分别出来。抽提亮度:各个像素亮度的平均值 (mean)或中位数 (median)背景校正:部分或全局基因表达量的定量对于每个点,我们可以计算 Red intensity = Rfg - Rbgfg = foreground, bg = background, and Green intensity = Gfg - Gbgand combine them in the log (base 2)
7、 ratio Log2( Red intensity / Green intensity) Green intensity (medium): 1Microarray: 误差的来源系统的随机的 log signal intensity log RNA abundanceMicroarray: 误差的来源1. 图像分析2. 扫描3. DNA杂交过程 (温度、时间、混合均匀程度等)4. 探针的标志5. RNA的抽提6. 加样7. 其他Red/green 比值存在亮度的倾向M = log2R/G = log2R - log2G= (log2R + log2G )/2Values should sca
8、tter about zero.数据规范化beforeafter3. 基因芯片的数据分析(1) 差别表达基因的分析(2) 基因共表达分析(3) 基因表达数据的聚类(4) 基因表达数据的分类(5) Map to GO(6) Gene regulatory network(1) 差别表达基因的分析1.差别表达基因的分析: 寻觅处置前后表达上调或者下调的基因2. Are the treatments different?3. 运用规范的统计学方法检验 (t-test or f-test),发现统计显著性差别表达的基因,4. 假设处置本身并不显著,那么结果无意义统计学分析1. Fold change,
9、 普通2-fold increase or decrease (平行实验的样本较少) 2. p-value (平行实验的样本较多)under-expressedover-expressed/2/2P-value: 学生分布1. T-test: 学生分布2. Excel函数:TTEST(array1,array2,tails,type)Array1为第一个数据集Array2为第二个数据集Tails指示分布曲线的尾数。假设 tails = 1,函数 TTEST 运用单尾分布。假设 tails = 2,函数 TTEST 运用双尾分布Type为 t 检验的类型1 成对 2 等方差双样本检验 3 异方差
10、双样本检验 P-value: 学生分布1. 普通选择双尾分布2. 异方差双样本检验3. Excel函数:=TTEST(B2:D2,E2:G2,2,3) 4. C:对照组;T:实验组C1C2C3T1T2T3TTESTGene 11.3221.6761.4573.5264.2343.8790.001988Multiple Comparisons1. 在基因芯片的实验中,每一个基因/探针,都是一个独立的实验2. 基因芯片:高通量,1,000个基因/探针3. 因此,无论怎样比较,总会有一些基因会是统计显著性差别表的 能够是随机产生的4. 如何评价表达差别基因预测的有效性?5. 例:1,000个探针的双
11、通道芯片,以p-value 0.01为域值,发现7个上调基因,5个下调基因,分析结果能否具有统计学意义?False Discovery Rate (FDR)1. False positive prediction: “Type 1 error or False Discovery2. False Discovey Rate (FDR) = p-value * No. of Genes上例: FDR= 0.01* 1,000=10 (随机)7个上调基因,5个下调基因 10因此上例计算的结果无统计学意义3. FDR必需远小于发现的差别表达基因数目实验的有效性p-value的选择(2) 基因共表达分
12、析1. 在N个不同的条件下 (时间序列的芯片数据),调查基因X和Y的表达能否类似2. Gene 1#能否与Gene 2#、Gene 3#和Gene 4#共表达?3. 共表达:正相关:类似的表达谱,能够存在正关联负相关:相反的表达谱,能够存在负调控Eisen MB, et al., (1998) PNAS 95:14863-14868Gene NameT1T2T3T4T5T6Gene 1#123456Gene 2#100200300400550610Gene 3#660540430320210101Gene 4#150421535725451670998没有相关性?基因相关性分析1. Spear
13、man rank correlation2. Kendalls tau3. Euclidean distance4. Pearson correlation coefficient: -1 1Excel函数:=PEARSON(array1,array2)Eisen MB, et al., (1998) PNAS 95:14863-14868Pearson相关系数1. r -1, 1r 1,正相关r -1,负相关Gene 1#Gene 2#Gene 3#Gene 1#Gene 2#0.996368Gene 3#-0.99988-0.99611Gene 4#0.2452920.254855-0.2
14、395结论:Gene 1#与Gene 2#表达正相关,与Gene 3#表达负相关,与Gene 4#无关联(3) 基因表达数据的聚类1. 将表达谱类似的基因聚类在一同2. 无督导学习 (unsupervised learning)3. Pattern finding: 发现新的方式4. 聚类方法:A. Hierarchical clusteringB. K-means clusteringHierarchical ClusteringHierarchical clustering1. 用树状构造来表征基因表达之间的类似性/相关性2. 优点:不需求指定结果有多少类Object12345122365
15、4109459853Distance matrixDistanceCluster01,2,3,4,52(1, 2), 3, 4, 53(1, 2), 3, (4, 5)4(1, 2), (3, 4, 5)5(1, 2, 3, 4, 5)K-means clustering1. 对数据进展聚类2. 必需给定结果分成多少类!3. 假设,该例中,指定为聚成5类K-means clustering1. 随意选取5个点,作为每一个类的中心点K-means clustering2. 计算其他点与这5个中心点的间隔间隔:欧氏间隔马氏间隔皮尔孙相关系数点的归类:离哪个中心点近,归哪个类K-means clus
16、tering3. 针对每一类中的每一个点,计算其与其他点的间隔,加和,除以该类点的数目;找到新的中心点,即改点到该类中其他点的平均值最小;确定新的5个中心点!K-means clustering4. 反复2, 3,直到结果收敛实践操作时,因结果完全收敛时间过长,普通指定迭代的次数,如1,000次K-means clustering5. 最终结果:一切基因芯片数据被聚成5类软件:Cluster 3.0, Michael Eissen, Stanford(4) 基因表达数据的分类1. 根据基因表达的数据将样本分成两类或多类;2. 督导学习 (supervised learning):根据发现的pa
17、ttern进展预测3. 运用:癌症 vs. 正常组织癌症的亚型、不同阶段 (良性的 vs. 恶性的) 对药物的敏感性 (tamoxifen for breast cancer)Diffuse large B-cell lymphoma (DLBCL)1. 经过聚类发现各种亚型之间的关系2. 根据基因表达方式,可以预测新的基因表达样本(5) Map to GO1. 经过基因芯片,找到了一批“interesting 的基因2. 生物学功能上能否存在关联?某种功能能否显著?3. Gene Ontology + 超几何分布GOToolBox(6) Gene regulatory network1. 早期观念:表达谱类似的基因能够存在功
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 慢性淋巴细胞白血病的靶向治疗方案与药物管理
- 创新驱动旅游资源开发的路径机制研究
- 2025年特殊作业监护人安全知识考核试题及答案
- 儿科护理工作岗位职责手册
- 企业增资扩股法律风险评估报告
- 初中英语词汇记忆方法及练习
- 阿尔茨海默病早期诊断策略
- 采购合同违约责任条款解析
- 2025年及未来5年中国宠物用品及服务行业发展趋势预测及投资战略咨询报告
- 安徽省2025-2026学年高二上学期9月秋季检测试题数学
- 急性左心衰竭
- 橄榄球规则介绍
- (完整)机械制造工艺学试题及答案
- 空间构成课件
- GB/T 13173-2021表面活性剂洗涤剂试验方法
- 套筒冠义齿课件
- 《生物力学》配套教学课件
- DB41-T 2127-2021冬小麦夏玉米两熟制农田有机肥替减化肥技术规程-(高清现行)
- 《教育哲学》自考真题
- 个人外汇暗访题库
- 《中华人民共和国精神卫生法》解读
评论
0/150
提交评论