




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
edgeR 包的安装 edgeR 包是基于Bioconductor平台发布的,所以安装不能直接用install.packages()命令从 CRAN 上来下载 安装:# try http:/ if https:/ URLs are not supportedsource(/biocLite.R)biocLite(edgeR)数据导入 由于 edgeR 对测序结果的下游分析是依赖 count 计数来进行基因差异表达分析的,在这里使用的是featureCounts来进行统计 .bam文件中 Map 的结果 count 结果如下:library(edgeR)mydata sampleNames names(mydata)7:12 head(mydata) Geneid Chr Start End Strand Length CA_1 CA_2 CA_3 CC_1 CC_2 CC_31 gene1314 NW_139421.1 1257 1745 + 489 0 0 0 0 0 02 gene1315 NW_139421.1 2115 3452 + 1338 0 0 0 0 0 03 gene1316 NW_139421.1 3856 4680 + 825 0 0 0 0 0 04 gene1317 NW_139421.1 4866 5435 - 570 0 0 0 0 0 05 gene1318 NW_139421.1 6066 6836 - 771 0 0 0 0 0 06 gene1319 NW_139421.1 7294 9483 + 2190 0 0 0 0 0 0 在这里我们只是需要 Geneid 和后 6 列的样本的 count 信息来组成矩阵,所以要处理下countMatrix rownames(countMatrix) head(countMatrix) CA_1 CA_2 CA_3 CC_1 CC_2 CC_3gene1314 0 0 0 0 0 0gene1315 0 0 0 0 0 0gene1316 0 0 0 0 0 0gene1317 0 0 0 0 0 0gene1318 0 0 0 0 0 0gene1319 0 0 0 0 0 0*要导入的矩阵由3v3样本组成(三组生物学重复)创建 DEGlistgroup y yAn object of class DGEList$counts CA_1 CA_2 CA_3 CC_1 CC_2 CC_3gene1314 0 0 0 0 0 0gene1315 0 0 0 0 0 0gene1316 0 0 0 0 0 0gene1317 0 0 0 0 0 0gene1318 0 0 0 0 0 014212 more rows .$samples group lib.size norm.factorsCA_1 CA_1 1788537 1CA_2 CA_2 1825546 1CA_3 CA_3 1903017 1CC_1 CC_1 1826042 1CC_2 CC_2 2124468 1CC_3 CC_3 2025063 1过滤 过滤掉那些 count 结果都为0的数据,这些没有表达的基因对结果的分析没有用,过滤又两点好处:1 可以减少内存的压力 2 可以减少计算的压力keep 1) = 2y yAn object of class DGEList$counts CA_1 CA_2 CA_3 CC_1 CC_2 CC_3gene1321 161 138 129 218 194 220gene1322 2 3 1 1 3 3gene1323 20 27 33 47 51 46gene1324 60 87 79 86 100 132gene1325 32 29 21 58 75 563877 more rows .$samples group lib.size norm.factorsCA_1 CA_1 1788362 1CA_2 CA_2 1825308 1CA_3 CA_3 1902796 1CC_1 CC_1 1825889 1CC_2 CC_2 2124155 1CC_3 CC_3 2024786 1标准化处理 edgeR采用的是 TMM 方法进行标准化处理,只有标准化处理后的数据才又可比性y yAn object of class DGEList$counts CA_1 CA_2 CA_3 CC_1 CC_2 CC_3gene1321 161 138 129 218 194 220gene1322 2 3 1 1 3 3gene1323 20 27 33 47 51 46gene1324 60 87 79 86 100 132gene1325 32 29 21 58 75 563877 more rows .$samples group lib.size norm.factorsCA_1 CA_1 1788362 0.9553769CA_2 CA_2 1825308 0.9052539CA_3 CA_3 1902796 0.9686232CC_1 CC_1 1825889 0.9923455CC_2 CC_2 2124155 1.1275178CC_3 CC_3 2024786 1.0668754设计矩阵 为什么要一个设计矩阵呢,道理很简单,有了一个设计矩阵才能够更好的分组分析subGroup design rownames(design) design (Intercept) subGroup2 subGroup3 groupCCCA_1 1 0 0 0CA_2 1 1 0 0CA_3 1 0 1 0CC_1 1 0 0 1CC_2 1 1 0 1CC_3 1 0 1 1attr(,assign)1 0 1 1 2attr(,contrasts)attr(,contrasts)$subGroup1 contr.treatmentattr(,contrasts)$group1 contr.treatment评估离散度y y$common.dispersion1 0.02683622#plotplotBCV(y)差异表达基因 fit qlf topTags(qlf)Coefficient: groupCC logFC logCPM F PValue FDRgene7024 -5.515648 9.612809 594.9232 6.431484e-44 2.496702e-40gene6612 5.130282 8.451143 468.2060 1.557517e-39 3.023140e-36gene2743 4.377492 5.586773 208.0268 3.488383e-26 4.513967e-23gene12032 4.734383 5.098148 192.9378 4.359649e-25 4.231040e-22gene491 -2.733910 10.412673 190.9839 6.104188e-25 4.739291e-22gene8941 2.997185 6.839106 177.7614 6.332836e-24 4.097345e-21gene2611 -2.846924 7.216173 174.7332 1.099339e-23 6.096619e-21gene6242 2.529125 9.897771 169.2658 3.022914e-23 1.466869e-20gene7252 3.732315 6.137670 188.2094 3.890569e-23 1.678132e-20gene6125 2.875423 6.569935 160.3189 1.656083e-22 6.428914e-20查看差异表达基因原始的 CMP top cpm(y)top, CA_1 CA_2 CA_3 CC_1 CC_2 CC_3gene7024 1711.383002 1405.861899 1480.121115 33.11418 37.16040 29.62696gene6612 17.558649 12.103848 26.585753 403.99298 582.45796 1044.35046gene2743 4.682306 1.815577 5.968230 62.91694 87.26431 114.34156gene12032 1.755865 2.420770 2.712832 65.67646 47.59872 75.45617gene491 2811.139727 2059.469669 2222.351938 444.83381 385.38258 253.68087gene8941 23.996820 24.812888 24.415488 131.35291 244.67410 225.90560gene2611 245.821088 310.463691 225.165052 43.04843 26.30455 39.81123gene6242 231.188880 299.570228 298.411515 1348.29899 1343.61988 2191.93237gene7252 9.364613 13.314232 5.425664 92.71970 108.55847 181.92807gene6125 23.411532 14.524617 29.841152 145.70239 160.75005 185.16852查看上调和下调基因的数目 summary(dt isDE DEnames head(DEnames)1 gene1325 gene1326 gene1327 gene1331 gene1340 gene1343差异表达基因画图plotSmear(qlf, de.tags=DEnames)abline(h=c(-1,1), col=blue)DESeq2 包的安装 安装:# try http:/ if https:/ URLs are not supportedsource(/biocLite.R)biocLite(DESeq2)数据导入 导入count 矩阵,导入数据的方式很多这里直接导入 count 矩阵 count 结果如下:library(DESeq2)sampleNames - c(CA_1,CA_2,CA_3,CC_1,CC_2,CC_3)mydata - read.table(counts.txt, header = TRUE, quote = t,skip =1)names(mydata)7:12 - sampleNamescountMatrix - as.matrix(mydata7:12)rownames(countMatrix) -mydata$Geneidtable2 - data.frame(name = c(CA_1,CA_2,CA_3,CC_1,CC_2,CC_3),condition = (CA,CA,CA,CC,CC,CC)rownames(table2) dds ddsclass: DESeqDataSet dim: 14217 6 metadata(0):assays(1): countsrownames(14217): gene1314 gene1315 . gene6710 gene6709rowRanges metadata column names(0):colnames(6): CA_1 CA_2 . CC_2 CC_3colData names(2): name condition过滤 过滤掉那些 count 结果都为 0 的数据,这些没有表达的基因对结果的分析没有用dds 1, ddsclass: DESeqDataSet dim: 4190 6 metadata(0):assays(1): countsrownames(4190): gene1321 gene1322 . gene6712 gene6710rowRanges metadata column names(0):colnames(6): CA_1 CA_2 . CC_2 CC_3colData names(2): name conditionPCA分析rld - rlog(dds)plotPCA(rld, intgroup=c(name,condition) 当然也可以使用 ggplot2来画PCA 图library(ggplot2)rld - rlog(dds)data - plotPCA(rld, intgroup=c(condition, name), returnData=TRUE)percentVar - round(100 * attr(data, percentVar)p- ggplot(data, aes(PC1, PC2, color=condition, shape=name) +geom_point(size=3) +xlab(paste0(PC1: ,percentVar1,% variance) +ylab(paste0(PC2: ,percentVar2,% variance)p 注意在进行 PCA 分析前不要library(DESeq)否则无法进行 PCA 分析差异表达基因分析分析结果输出library(DESeq)dds - DESeq(dds)res - results(dds)write.table(res,result.csv, sep = , s = TRUE)head(res)log2 fold change (MAP): condition CC vs CA Wald test p-value: condition CC vs CA DataFrame with 6 rows and 6 columns baseMean log2FoldChange lfcSE stat pvalue gene1321 173.288681 0.26267959 0.2049983 1.2813742 2.000623e-01gene1322 2.118367 -0.05237952 0.4989589 -0.1049776 9.163936e-01gene1323 35.973701 0.50054580 0.3038096 1.6475641 9.944215e-02gene1324 88.421661 0.17677605 0.2402727 0.7357309 4.618945e-01gene1325 43.001828 0.81143104 0.2919396 2.7794486 5.445127e-03gene1326 662.136259 -1.05356105 0.1752230 -6.0126880 1.824720e-09 padj gene1321 3.790396e-01gene1322 9.559679e-01gene1323 2.337858e-01gene1324 6.565731e-01gene1325 2.447141e-02gene1326 4.520861e-08 注: (1)rownames: 基因 ID (2)baseMean:所有样本矫正后的平均 reads 数 (3)log2FoldChange:取 log2 后的表达量差异 (4)pvalue:统计学差异显著性检验指标 (5)padj:校正后的 pvalue, padj 越小,表示基因表达差异越显著 summary查看整体分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广播电视受众课件
- 小学学生安全培训心得课件
- 2025内蒙古鄂尔多斯市呼和浩特站引才选聘考前自测高频考点模拟试题附答案详解(考试直接用)
- IKK-16-Standard-生命科学试剂-MCE
- HS-20093-Antibody-GSK5764227-生命科学试剂-MCE
- 租赁合同委托范本6篇
- 2025吉林长春兴隆综合保税区投资建设集团有限公司招聘模拟试卷及答案详解参考
- Gln4-Neurotensin-生命科学试剂-MCE
- 小学体育安全知识培训课件
- 医疗大数据行业前景展望
- 起重机作业人员Q2证理论考试练习题含答案
- 四川遂宁2021-2024年中考满分作文64篇
- (完整)中小学“学宪法、讲宪法”知识竞赛题库及参考答案
- 2025版防洪堤坝加固工程施工合同
- 智能培训系统构建
- 2025广东广州越秀区矿泉街招聘禁毒专职人员1人考试备考题库及答案解析
- 华为鸿蒙课件
- 全站仪使用课件
- 中国心房颤动管理指南(2025)解读
- 2025年成人高考专升本民法真题及答案
- 2025-2026学年陕旅版(三起)(2024)小学英语四年级上册(全册)教学设计(附目录)
评论
0/150
提交评论