华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中

上传人：我*** IP属地：北京上传时间：2022-11-26 格式：PPTX 页数：39 大小：3.11MB 积分：14 举报 版权申诉

华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中_第2页

华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中_第3页

华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中_第4页

华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中_第5页

已阅读5页，还剩34页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1工作流程1.

实验流程样品提取总RNA后,

使用DNaseⅠ酶消化

total

RNA中的DNA,

消化产物用磁珠纯化用带有Oligo(dT)的磁珠富集mRNA,

向得到的mRNA中加入适量打断试剂高温条件下使其片

断化,再以片断后的mRNA为模板,

cDNA,

经过末端修复、磁珠纯化、连接接头后,

对连接产物片段选择进行胶纯化回收,

对连接产物进行PCR扩增并用磁珠纯化,

从而完成整个文库

工作.

构建好的文库用Agilent

2100

Bio

yzer进行大小和浓度检测,

文库质控合格后使用

Proton进

序.华大数字表达谱升级版结题报告1/391.2

标准信息分析流程华大数字表达谱升级版结题报告2/392生物信息分析结果1.

评估1.

数据比对统计样品参考

比对的统计结果Sample

IDTotal

ReadsTotal

BasePairsTotal

Mapped

ReadsTotal

UnmappedReadsUnique

Mat

ulti-position

Matchhuman

1850,406,646(100.00%)5,237,982,500(100.00%)42,852,382(85.01%)23,007,472(45.64%)19,844,910(39.37%)7,554,264(14.99%)human

1918,278,182(100.00%)2,029,734,462(100.00%)14,247,616(77.95%)7,517,174(41.13%)6,730,442(36.82%)4,030,566(22.05%)human

2050,447,651(100.00%)5,982,267,032(100.00%)41,723,036(82.71%)22,698,838(44.99%)19,024,198(37.71%)8,724,615(17.29%)human

2125,511,651(100.00%)2,807,197,553(100.00%)21,128,252(82.82%)11,476,032(44.98%)9,652,220(37.83%)4,383,399(17.18%)样品参考组比对的统计结果Sample

IDTotal

ReadsTotal

BasePairsTotal

Mapped

ReadsUnique

MatchMulti-positionMatchTotal

UnmappedReadshuman

1850,406,646(100.00%)5,237,982,500(100.00%)49,549,191(98.30%)44,524,908(88.33%)5,024,283(9.97%)857,455(1.70%)human

1918,278,182(100.00%)2,029,734,462(100.00%)18,008,552(98.52%)16,566,579(90.64%)1,441,973(7.89%)269,630(1.48%)human

2050,447,651(100.00%)5,982,267,032(100.00%)49,390,745(97.90%)44,923,971(89.05%)4,466,774(8.85%)1,056,906(2.10%)human

2125,511,651(100.00%)2,807,197,553(100.00%)25,089,555(98.35%)22,738,758(89.13%)2,350,797(9.21%)422,096(1.65%)华大数字表达谱升级版结题报告3/392.1.2长度分布华大数字表达谱升级版结题报告4/392.1.3饱和度分析华大数字表达谱升级版结题报告5/392.1.4随机性分析华大数字表达谱升级版结题报告6/39组各个位置大致的分布情况,以及该位置的分布情况.我们画出Reads在最长的25条或Scaffold

上的分布图(全部图形见2.1.5

Reads在参考组上的分布该分析主要是以图形的方式概括地给出Reads在文件夹Reads

Genome).例如,上图为样品human

18的Reads在参考组chr1上的分布图,其中Gene指每个窗口中gene的个数,Coverage指每个窗口下被reads覆盖的区域窗口长度之比,Reads指每个窗口的平均深度,数值取了log2.华大数字表达谱升级版结题报告7/39组数据浏览方法2.1.6

用IGV可视化Reads的组比对我们提供Reads在组上比对结果的bam格式文件，并提供直观易用的GV(ntegrative

GenomicsViewer)工具对其进行不同尺度下的可视化查看。GV的，请解压独立打包的文件GV.tar.bz2，并阅读下的GV.readme.pdfGV对组比对数据可视化的示意图华大

数字

表达谱升级版结题报告8/392.1.表达定量覆盖度统计华大数字表达谱升级版结题报告9/392.2.2

结果文件列表human

18human

19human

20human

21华大数字表达谱升级版结题报告10/392.2.3

结果文件示意结果文件的样式均类似下表(各列含义详见GeneRPKM.readme.txt),这里只取其中张表格的部分作为示意.样品human

18的表达量统计列表(human

18.Gene.rpkm.xls)GeneIDeffective

reads

num(35255838)LengthcoverageRPKMSymbolKEGGOrtholog...ponentGO

FunctionGO

Process1638178542403100.00%210.741815795721GO

0048468K01827GO

0030659//c...GO

0016863//i...GO

0006570//t...273354593910100.00%143.160765239866GO

0044267K15028GO

0043231//i...GO

0008135//t...GO

0006413//t...608541102100.00%11.401254575589-----407014284100.00%0.67533563688158-----336.00%977.991657251313GO

0070653K08758GO

0034364//h...GO

0004857//e...GO

0002374//c...华大

数字表达谱升级版结题报告11/393.条件特异表达分析1. 条件特异表达统计图华大数字表达谱升级版结题报告12/392.3.2

样品特异结果human

18human

19human

20human

21华大数字表达谱升级版结题报告13/392.4

PCA华大数字表达谱升级版结题报告14/395.

差异表达筛选1. 差异统计图说明组比对结果A-VS-B,其中A是对照,B是处理.华大数字表达谱升级版结题报告15/392.5.2

所有表达图华大数字表达谱升级版结题报告16/392.5.3

所有表达比较结果human

18-VS-human

19human

18-VS-human

20human

18-VS-human

21human

19-VS-human

212.5.4

差异表达筛选结果(FDR≤0.001

AND

log

2Ratio

≥

1)human

18-VS-human

19human

18-VS-human

20human

18-VS-human

21human

19-VS-human

21华大数字表达谱升级版结题报告17/392.5.5

结果文件示意结果文件的样式均类似下表(各列含义详见GeneDiffExp.readme.txt),这里只取其中张表格的部分作为示意.human

18-VS-human

19的差异表达列表(human

18-VS-human

19.GeneDiffExpFilter.xls)geneDgeneLengthhuman

18-Expr...human

19-Expr...human

18-RPKMhuman

19-RPKMlog2

Ratio(hu...Up-Down-Regul...P-valueFDR68604111034860.00175.6649177455...16.2073369251...Up00713104408230.00170.3418838048...16.1020963514...Up0019962101013490.00157.2928670244...15.

...Up0051412155009750.00156.1290350213...15.7764596360...Up0047613048017870.00152.3147613075...15.6749304591...Up00华大

数字表达谱升级版结题报告18/392.6表达模式聚类分析cluster.html华大数字表达谱升级版结题报告19/392.7

Gene

Ontology功能显著性富集分析iew.html富集结果示例：human

18-VS-human

19：Cellular

Component

Ontology的富集结果Gene

Ontoloty

identityGene

Ontology

termClusterfrequencyGenome

frequency

useCorrected

P-valueDEGsGO

0005886plasmamembrane809

7368inthe

list1359

16090

intome6.76e-247803...GO

0071944cell

periphery815

7368inthe

list1373

16090

intome1.46e-237803...GO

0044459plasma

membrane

part769

7368inthe

list1296

16090

intome5.33e-227803...GO

0016021integral

membrane804

7368inthe

list1403

16090

intome3.63e-177010...GO

0043005neuron

projection289

7368inthe

list432

16090

tome1.00e-16196883...GO

0031012extracellular

matrix205

7368inthe

list312

16090

tome2.56e-1054959...华大数字表达谱升级版结题报告20/392.8

Gene

Ontology功能分类1.

human

18-VS-human

192.

human

18-VS-human

20华大数字表达谱升级版结题报告21/393.

human

18-VS-human

214.

human

19-VS-human

21华大数字表达谱升级版结题报告22/392.9

KEGG

Pathway显著性富集分析human

18-VS-human

19human

18-VS-human

20human

18-VS-human

21human

19-VS-human

21KEGG

pathway富集程度统计散点图：富集结果示例：human

18-VS-human

19：KEGG

pathway显著性富集结果PathwayDEGs

with

pathwayannotationAll

genes

with

pathwayannotationPvalueQ-valuePathwayidentityDEGsCell

adhesion

molecules(CAMs)1372041.523798e-113.916161e-09ko045149362...Retrograde

endocannabinoid

signaling931366.767256e-096.095072e-07ko047232559...Axon

guidance1853087.11487e-096.095072e-07ko04360339398...GABAergic

synapse891312.314103e-081.486811e-06ko047272559...华大数字表达谱升级版结题报告23/39Morphine

addiction821221.686801e-078.670157e-06ko050322559...DNA

replication36442.791271e-071.195594e-05ko03030729956...华大数字表达谱升级版结题报告24/392.10

蛋白互作网络分析未分析华大数字表达谱升级版结题报告25/392.11

相关及数据库分析内容算法(版本号)数据库(版本号)Reads比对统计TMAP(3.4.1)功能注释BLAST(2.2.23)

Blast2GO(2.2.5)KEGG(每月更新)NR(每月更新)GO(每月更新)表达量注释RPKM算法差异表达筛选泊松分布模型表达模式聚类分析Cluster(3.0)

Java

TreeView(1.1.6r2)GO功能显著性富集分析超几何检验算法GO(每月更新)Pathway显著性富集分析超几何检验算法KEGG(每月更新)蛋白互作网路分析Medusa(1.6.5)

nteractions(每月更新)华大数字表达谱升级版结题报告26/393帮助文档1.实验流程图1

RNA-Seq实验流程图样品提取总RNA后,

使用DNaseⅠ酶消化

total

RNA中的DNA,

消化产物用磁珠纯化用带有Oligo(dT)的磁珠富集mRNA,

向得到的mRNA中加入适量打断试剂高温条件下使其片

断化,再以片断后的mRNA为模板,

cDNA,

经过末端修复、磁珠纯化、连接接头后,

对连接产物片段选择进行胶纯化回收,

对连接产物进行PCR扩增并用磁珠纯化,

从而完成整个文库

工作.

构建好的文库用Agilent

2100

Bio

yzer进行大小和浓度检测,

文库质控合格后使用

Proton进

序.华大数字表达谱升级版结题报告27/392.标准信息分析1.标准信息分析流程图图2

RNA-Seq标准信息分析流程图2.原始序列数据仪产生的原始图像数据经Base

Calling转化为序列数据,我们称之为Raw

Data,结果以BAM文件格式由于Raw

Data可能包含低质量序列、Adaptor序列等,不能直接用于信息分析,必需经过数据处理之后,转换为Clean

Data,方可用于后续数据分析.去除杂质数据某些原始序列带有adaptor序列,或含有少量低质量序列.我们首先经过系列数据处理以去除杂质数据,得到cleanreads.数据处理的步骤如下去除长度低于设定阈值(30)的reads修剪reads的adapter，若修剪后长度小于设定阈值则去除从3‘端开始，以15为窗口统计reads平均质量，若平均质量值小于9，则继续向5'端滑动，直到窗口平均质量大于9为止，此时修剪掉该窗口结尾到read结尾的所有碱基；若修剪后长度小于设定阈值则去除Clean

Reads数据原始序列数据经过杂质去除后得到的数据为clean

reads,作为后续分析的基础.Clean

Data结果以BAM文件格式,Clean

Data文件为用户得到的原始文件(可直接用于、公共数据库提交等),文件包含读出的序列(Reads)及其对应的

质量值序列,质量值序列中每个字符Reads序列中每个碱基对应,反映了该碱基的质量.BAM格式具体可参考“http///apps/mediawiki/samtools/index.php?title=SAM

protocol”。与参考序列比对我们使用短reads比对TMAP[将Clean

Reads分别比对到参考组和参考序列(允许两个碱基错配).评估3

长度分布图华大数字表达谱升级版结题报告28/39图3

长度分布图图3为样品8-seeding2的reads长度分布的情况,例如reads长度主要集中于100bp-150bp之间。3

数据比对统计每个样品由Raw

Reads得到的Clean

Reads数应不少于合同的规定,另外,我们统计Clean

Reads比对到参考组、参考上的比例,获得对项目总体情况的认识.3

3饱和度分析饱和度分析可以在

定

程

度

上

判

断数

据

量

是

否

满

足

需

求

随着

数据量(reads数量)的增多,

检测到的

数也随之上升,当

量达到

定

区间

后其检

测到的数增长速度趋于平缓,说明检测到的数趋于饱和.详见图4所示.图4

饱和度图3

随机性分析我们以reads在参考上的分布情况来评价mRNA打断的随机程度.由于参考长度各不相同,我们把reads在参考上的位置标准化到相对位置(reads在上的位置长度的比值),

然后统计

的不同位置比对上的reads数.如果打断随机性好,

reads在

各部位应分布得比较均匀.

图5引

Wang

al.

09年在NatureReview

Genetics

的文章[

,展示了两种不同片段化方法得到的reads在

上的分布情况,

可以看出先将mRN

段化然后反转录成cDNA的方案,

比先将mRNA反转录成cDNA然后片段化的随机性要好.

因此,

我们在实验中采用了前者,

即对mRNA打断再反转录成cDNA后建库,

图6给出的是实验中

个

样

品

reads在

上的分布.华大数字表达谱升级版结题报告29/39图5(Wang,

2009)文库

段化和cDN

段化的方法比较.

oligo-dT为引物扩增的cDNA(蓝线)片段化后的深度分布,

偏向

3’端

而RN

段化后深度的分布相对更均

但在5’和3’端的分布较少.

中,

最大表达量与最小表达量的比值(或理解为动态范围)为44,

而RNA-seq则达到9,560.

图中Tag数目是酵母菌5000个ORFs18的平均

深度.b)

酵母特定

SES1(seryl-tRNA

synthetase)的深度分布.图6

样品Reads在参考

上的分布均匀性统计3

Reads在参考组上的分布分析该部分分析是以图示的方式给出reads在

组上的分布情况,

以及reads所在位置上

的分布情况.

提供clean

reads在每条(或Scaffold)上的分布图.图7给出是人的第7条

上的

和比对上的reads分布统计情况.

其中,

横坐标表示人的第7号

DNA序列,

划分为500个windows,

每个window代表第7条

上317642

nt的长度,

纵坐标分别表示每个window所对应的

数(Gene

Number)、每个窗口中被reads覆盖的区域

窗

口

长

度

之比

(Coverage)、每个窗口的平均

深度(log2ReadsNumber).华大数字表达谱升级版结题报告30/39图7

Reads在参考

组上的分布图3

用

GV查看Reads在参考组上的比对情况我们提供Reads在

组上比对结果的bam格式文件，并提供

(ntegrative

Genomics

Viewer)

工具对其进行不同尺度下的可视化查看。

GV支持导入多个样本进行比较，十分直观、易用，示意例子见图8。

GV的

组数据浏览方法，详见我们结题报告里提供的使用手

，

信息请

官网

http

//图8

用可视化工具IGV，查看Reads在参考

组上比对情况示意图的相关信息(如覆盖度、Symbol、功能3.2.7

表达量统计利用唯

比

对

上的

reads数目和唯

比

对

上

参

考

序

列

的

总

reads数来计算

表达量(具体计算方法见7.2),

并给出该注释信息等).表1

表达量统计相关信息华大数字表达谱升级版结题报告31/39上述列表各列含义如下情况选择

注RPKM

具体的计算方法见,Symbol、Description、blast

nr这列信息将依据参考

性的取舍.3

覆盖度覆盖度指每个

被reads覆盖的百分比,

其值等于

中unique

map

reads覆盖的碱基数跟

所有碱基数的比值.3

2表达量表达量的计算使用RPKM算法(Reads

Per

per

Millionreads)[3

,其计算公式为设RPKM(A)为

A的表达量,

则C为唯

比

对

到

A的reads数,

N为唯

比

对

到

参

考

的

总

reads数,L为

A的碱基数.

RPKM不仅对

深度作了归

化

而且对基因长度也作了归

化

使得不同长度的

在不同

深度下得到的

表达水平估计值具有了可比性,

是目前最可靠的

表达估计方法,

计算得到的

表达量可直接用于比较不同样品间的

表达差异.

如果

个

存

在

多

个

转

录

本

，则用该

的最长转录本计算其

覆盖度和表达量.3

功能注释功能注释信息将给出的Gene

Ontology(GO)、KEGG功能注释,注释方法GO

序列首先跟NCB

的Nr库用BLAST进行比对(参数-p

blastx-e1e-5-m

7),比对结果再用Blast2GO(默认参数)注释到GO的各级term下.KEGG

序列通过BLAST(参数-pblastx-e

1e-5-m

8)比对到KEGG数据库进行注释.关于GO、KEGG的信息请参考3.2.12

和.8

条件特异表达分析条件特异表达分析[4

用于鉴定在某些特定条件下才表达的

，通过对这些进步的功能分析，可以揭示出样品中正在发生的特异性生物过程，并可以辅助RNA层次的biomarker开发.g,如

g更加令ei(g)g在样品i中的reads数，则g在所有样品中的reads数为E(g)=∑iei(g).令si为样品i中所有reads数,则期望的每个在样品i中的reads数p

i=si/∑isi成比例.对于果它在所有组织中均匀地表达,则期望的它在组织i中reads数为fi=E(g)pi.定义富集表达(EE)EEi=ei(g)/fi(g),即g在样品i中的reads数观测值对期望值的比例.更大的EEi(g)代表着偏向于在样品i中表达.同时,为了评估个较大的EEi(g)值是由于偶然因素而不是真实的偏向性表达情况,为富集表达定义个P值,它由如下公式给出我们通常定义满足EEi(g)>5和Pi<10e-3.5的为条件特异表达.3.2.9

PCA主成分分析可以降低数据的复杂性,深入挖掘样品之间关系和变异大小.基本原理是,多样本有不同的观测值,从中找出造成观测值差异的主要因素(即主成分),也就是对所有考虑的因素进行组合并按重要性排序,通常靠后的微小因素被忽略掉,从而起到简化数据的作用,通常以两个或三个主成分为坐标轴画成图,就可以看出各个样本之间的距离关系,包括成簇成组的视觉效果.华大数字表达谱升级版结题报告32/39图9

主成分3D图,每个圆点的位置代表样品在各主成分上的取值.3.2.10

差异表达筛选我们提供了3种可选方法用了差异表达分析,分别为①基于泊松分布的分析方法.②DEGseq

包分析.DESeq

包分析.

(1)基于泊松分布的分析方法通过比较不同样本间的数据从而筛选出差异表达的

后续分析中的差异

表达模式聚类分析,

Gene

Ontology功能显著性富集分析,Pathway显著性富集分析,

蛋白互作网络分析均是基于差异表达

参照Audic

S.等人

在Genome

Research上的基于

的差异

方法[

(该文献已被

超过五百次),

我们开发了严格的算法筛选两样本间的差异表达

.假设观测到A对应的reads数为x,已知在个大文库中,每个的表达量只占所有表达量的小部分,在这种情况下,p(x)的分布服从泊松分布已知,

样本

中

唯

比

对

到组

的

总

reads数为N1,

样本

中

唯

比

对到

比

对

到

A的总reads数为y,

则

A在两样本中表达量相等的概率可由以下公式计算组

的

总

reads数为N2,样本

中

唯

比

对

到

A的总reads数为x,

样本

中

唯然后,我们对差异检验的p-value作多重假设检验校正,通过控制FDR(False

Discovery

Rate)来决定p-value的域值.假设挑选了R个差异表达,其中S个是真正有差异表达的,另外V个是没有差异表达的

为假阳性结果,

希望假阳性比例Q

V/R

过某个给定的值(如1%),

则在统计时预先设定的FDR

过0.01[

获得差异检验FDR值的同时,

我们还将根据

的表达量(RPKM值)计算该

在不同样本间的差异表达倍数.

FDR值越小,

差异倍数越大,

表明表达差异越显著.

我们规定

差异表达

为FDR≤0.001且倍数差异不低于2倍的

详见表3.表2

差异表达

列表信息华大数字表达谱升级版结题报告33/39上述表格各列含义如下注

RPKM

具体的计算方法见,

Symbol、Description、blast

nr这

列

信

息

将

依

据

参

考情

况选

择

性的

取

舍

.DEGseq

包分析：DEGseq[是款R语言的包，主要用于RNA

Seq数据的差异分析.它基于泊松分布模型，可采用多种精确检验模型来进行无重复样品之间的差异分析,最终的结果格式同(1).DESeq

包分析DESeq[8

也是款R语言的包，主要用作多重生物重复样品RNA

数据的差异分析，而生物重复可以有效消除实验，误差带来的影响。基于这种数据，我们使用DEseq

包来进行表达的标准化和进行差异检测。它基于负项分布模型，用种收缩估算的方法来检测差异表达.我们规定：差异表达为FDR<0.001且倍数差异大于2倍的表3

差异表达

列表信息上述表格各列含义如下华大数字表达谱升级版结题报告34/393.2.11

表达模式聚类分析表达模式相似的

通常具有相似的功能.

我们利用cluster

[9],

以欧氏距离为距离距阵计算公式,

对

和实验条件同时进行等级聚类分析,

聚类结果用Java

Treeview显示.图10中每列代表

个

实

验

条

件

(如exp1-VS-exp2或者

个

样

品

每行代表

个

不同表达变化倍数或表达量用不同颜色表示,

对于差异

聚类

红色表示表达上调,

绿色表示表达

下调

对于样品聚类

颜色越深表示表达量越高.

用鼠标点击左边箭头的线,

其分支的线会变成红色,

中间部分所显示的是左边选定部分的

个

放

大

最右边部分是左边选定部分所对应的基因D或者注释.具体各项的意义请参考Java

Treeview

的使用说明(http///)及文献[

.图10

差异表达

等级聚类图3.2.12

Gene

Ontology功能显著性富集分析Gene

Ontology(GO)是

个

国

际

标

准

化

的功

能

分

类

体

系

提供了

套

动

态

更

新

的

标

准

词

汇表

(controlled

vocabulary)来全面描述生物体中和产物的的分子功能(molecular

function)、所处的细胞位置(cellular

component)、参的生物过程(biological

process).比较

后

在差异表达

中显著富集的GO功能条目,并筛选出差异表达哪

些

生

物

学

功

能

显

著

相

关

该分析首先把所有差异)的各个term,计算每个term的数目,然后应用超几何检验,找出整个组背景相比,在差异表达中显著富集的GO条属性.GO总共有三个ontology,分别描述GO功能显著性富集分析提供参考表达向Gene

Ontology数据库(http/目,其计算公式为其中,N为所有中具有GO注释的数目,n为N中差异表达的数目,M为所有中注释为某特定GOterm的数目,m为注释为某特定GO

term的差异表达数目.计算得到的p-value通过Bonferroni校正之后,以corrected

p-value≤0.05为阈值,满足此条件的GO

term定义为在差异表达中显著富集的GO

term.通过GO功能显著性富集分析能确定差异表达行使的主要生物学功能.GO功能分析中同时整合了表达模式聚类分析,

研究

能方便地看到具有某

功

能

的

所

有

差

异的

表

达

模

式

例如,

immune

response为在差异表达

中最显著富集的

个

term(表5).图11显示了参

immune

response的差异

的表达模式.表4

在差异表达

中显著富集的GO-term华大

数字

表达谱升级版结题报告35/39图11

参与immune

response的差异表达模式聚类图3.2.13

Gene

Ontology功能分类我们根据nr注释信息,

使用Blast2GO

得到所有差异

的GO注释信息.

Blast2GO已被其它文献

超过150次,

是

广泛认可的GO注释

得到每个差异

的GO注释后,我们用WEGO

对差异

做GO功能分类统计,从宏观上认识差异

的功能分布特征,结果如图12所示.华大数字表达谱升级版结题报告36/39图12

GO功能分类图3.2.14

Pathway显著性富集分析在生物体内,不同相互协调行使其生物学功能,基于pathway的分析有助于更进步了解性富集分析以KEGG

pathway为单位,应用超几何检验,

找出

整

个组

相

比

较

后

差

异

表

达的生物学功能.KEGG是有关pathway的主要公共数据库[

,pathway显著中显著性富集的pathway.该分析的计算公式同GO功能显著性富集分析,在这里N为所有中具有pathway注释的数目,n为N中差异表达

的数目,M为所有中注释为某特定pathway的数目,m为注释为某特定pathway的差异表达数目.Qvalue≤0.05的pathway定义为在差异表达中显著富集的pathway.通过pathway显著性富集能确定差异表达

参的最主要生化代谢途径和信号转导途径,结果见表5所示.表5

pathway显著性富集分析列表上述表格各列含义如下注Qvalue≤0.05的Pathway在差异表达

中显著富集,见表中红框所示.差异表达的pathway显著性富集分析不仅可以得到最有意义的pathway列表,点击其中的pathway

还将得到KEGG数据库中pathway的详细信息,如点击表6第列第三行的B

cellreceptor

signaling

pathway,可以看到如图13所示的详细信息,上调所在位置用红色标记,下调所在位置用绿色标记.当鼠标指到某具体框时,在左上角会显示该框对应的KO号以及KO号所对应的和该的log2ratio值.如图,当鼠标指向CaN时,在左上角会显示CaN在B

cell

receptorsignaling

pathway中是下调的,并且它对应两个KO号K06268和K04348,其中K06268对应5535,其log2ratio为-6.8和63928,其log2ratio为-9.1,K04348对应5530,其log2ratio为-2.3和5533,其log2ratio为-2.9.华大数字表达谱升级版结题报告37/39图13

KEGG数据库中B

cell

receptor

signaling

pathway的详细信息此外，我们还对KEGG富集分析结果以图形化方式展示，见散点图14。其中RichFactor指差异表达的

中位于该pathway条目的

数目

所

有

注

释

中

位

于

该pathway条

目的

总数的比值，RichFactor越大，表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue，取值范围为0到1，越接近于零，表示富集越显著。图中只展示富集程度

前20的pathway条目。图14

KEGG富集程度散点图3.2.15

蛋白网络互作分析蛋白互作网络分析整合了B

ND、BioGrid、HPRD等相互作用网络数据库的组成.结果文件可用Medusa

[

显示.进入网页版的界面如下(注需要蛋白相互作用数据库中有该物种的注释信息)华大数字表达谱升级版结题报告38/39在文本输入框中输入

D号,

可得到如下所示的图图15

差异表达

编码蛋白参与的蛋白相互作用网络3.2.16

参考文献Li

R.,Yu

C.,

Y.,et

.(2009).

SOAP2

improved

ultrafast

tool

forshort

read

alignment.

Bioinforma

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中

文档简介

温馨提示

最新文档

评论

华大结题报告-1.2.2ion proton rna-seq样品提取总RNA后,使用DNaseⅠ酶消化totalRNA中

文档简介

温馨提示

最新文档

评论

相关文档