蛋白质组学生物信息学分析介绍_第1页
蛋白质组学生物信息学分析介绍_第2页
蛋白质组学生物信息学分析介绍_第3页
蛋白质组学生物信息学分析介绍_第4页
蛋白质组学生物信息学分析介绍_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 生物信息学分析 FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION . 3 什么是 GO? . 3 GO和 KEGG注释之前,为什么要先进行序列比对(BLAST)? . 3 GO注释的意义?. 3 GO和 GOslim的区别 . 4 为什么有些蛋白没有 GO注释信息? . 4 为什么 GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? . 4 什么是差异蛋白的功能富集分析&WHY? . 4 GO注释结果文件解析 . 5 Sheet TopBlastHits. 5 Sheet protein2GO/protein2GOslim . 5 Sheet BP/MF/CC . 6 Sheet Level2_BP/Level2_MF/Level2_CC. 6 CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION . 7 WHY KEGG pathway annotation? . 7 KEGG通路注释的方法&流程? . 7 KEGG通路注释的意义? . 7 为什么有些蛋白没有 KEGG通路注释信息? . 8 什么是差异蛋白的通路富集分析&WHY? . 8 KEGG注释结果文件解析 . 8 Sheet query2map . 8 Sheet map2query . 9 Sheet TopMapStat . 9 CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING . 10 WHY Feature Selection? . 10 2 聚类分析(Clustering) . 10 聚类结果文件解析 . 10 CHAPTER FOUR ABOUT PROTEIN- PROTEIN INTERACTION NETWORK . 12 蛋白质相互作用网络分析的意义 . 12 蛋白质相互作用 VS生物学通路? . 12 蛋白质相互作用网络分析结果文件解析 . 12 3 CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION 什么是 GO? 随着多种生物基因组的相继解码,同时大量 ESTs以及 gene expression profile date的积累,使得 annotation的工 作量和复杂度大大增加。然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获 得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息 就是我们面临的核心困难,这也是 GO所要着力解决的问题。通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。一个 ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处 理技术,可以实现知识管理的专家系统控制。 到目前为止,Gene Ontology (GO) 数据库中有 3大独立的 ontology:biological process生物过程, molecular function分子功能,cellular component细胞组分。而这三个 ontology下面又可以独立出不同的亚层次,层层向下 构成一个 ontologies的树型分支结构。可以说, GO是生物学的统一化工具。 由于 GO是一种整合性的分类系统,其下的 3类主 ontology虽然说是独立的,但是无论是 GOC原初的设计还是我们 的使用中其实都还是存在一定的流程关系。一个基因/ 蛋白质或者一个 ontology在注解的过程中,首先是考虑涉及在 构成细胞内的组分和元件 (cellular component),其次就是此组分/ 元件在分子水平上所行使的功能 (molecular function),最后能够呈现出该分子功能所直接参与的生物过程(biological process)。由于这是一种存在反馈机制 的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。 GO和 KEGG注释之前,为什么要先进行序列比对(BLAST)? 在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。目的一:很多物种目前 研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。根据相似性原理,具有相似序列的蛋白可能也具有相 似的功能,因此,我们可以将 BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白 尤其是研究程度不足的物种的差异蛋白的注释。目的二:我们在查库过程中,为了得到更多的蛋白质鉴定信息,我们大 多使用 UniProt数据库(含 SwissProt和 TrEmbl:SwissProt中的蛋白均经过人工校验,数据可靠性高,注释完整; TrEmbl由基因组序列翻译而来,未经人工校验,注释信息不全)或 NCBI Protein数据库(用户可任意提交序列,有 冗余,信息不完善,质量很难保证),BLAST一方面可以帮我们提高后续的注释效率,另一方面也可以帮助客户大致 了解所鉴定的蛋白可能的名称和功能(尤其对于 uncharacterized protein,predicted protein,putative protein 等)。 GO注释的意义? 对鉴定到的蛋白或者差异蛋白进行 GO注释,其宗旨是为了帮助我们了解这些蛋白。可能的应用包括: 4 一,例如,某客户对某差异蛋白 A非常感兴趣,通过在 GO注释的结果中(protein2GO表单)查询蛋白 A的注释信 息,即可得知蛋白 A可能具有的功能、可能参与的生物学过程,以及该蛋白所在的亚细胞定位。 二,根据课题的设计和先验知识,客户可能对某个生物学过程(例如:离子运输)非常感兴趣,可以通过在结果中 (BP表单)查询 ion transport这个 GO term下包含哪些蛋白,并对这些蛋白进行深入研究。 三,客户拿到质谱数据分析结果后,可能对于后续的分析没有方向,这种情况下可以通过在注释结果中查询哪些功能类 别包含的蛋白数目较多,可以从这些功能类别和蛋白入手进行重点研究。 四,GO注释可以为课题的设计和实验结果的合理性提供证据。 GO和 GOslim的区别 GOslim是简化的 GO子集,是经过科学家人工筛选的一部分 GO term。简单的说,GOslim去除了一些比较细枝末节 的 GO term,更着重研究 level更高、相互关联的 GO term,以及与物种更为相关的 GO term(Plant,Candida albicans,Schizosaccharomyces pombe,Yeast,Aspergillus,Metagenomics)。GOslim对于大规模组学的研 究很有意义(比如全基因组、全蛋白组),不至于相关的功能类别太多反而忽略了重点。通常情况下,我们的分析只针 对几十个到几百个差异蛋白进行重点注释,GO和 GOslim的结果差别不大。 为什么有些蛋白没有 GO注释信息? 目前对于蛋白质的功能研究还有限,尤其是非模式生物。为了提高注释率,根据序列相似的蛋白可能具有相似的功能的 原则,我们已经在注释前对目标蛋白序列进行了 blast,并利用足够相似的比对序列的注释信息对目标序列进行注释。 此外,我们还采用了查找 InterPro数据库中的保守 motif的方法对难以注释的蛋白进行注释。但是仍然有少数蛋白, 对于该蛋白,或者同物种中也之相似的蛋白,或者其他物种中的同源蛋白的研究依然十分不足,所以以目前的研究水平 难以获得注释信息。 为什么 GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? 一个蛋白可能参与多个生物过程(biological process),具有多种分子功能(molecular function),甚至存在于多 个细胞组分(cellular component),因此 GO Level 2的统计饼图里多个类别的蛋白数相加通常是大于差异蛋白数目 的。此外,少数蛋白由于无法获得注释信息,不参与统计,也是造成统计数目和差异蛋白总数不一致的一个原因。 什么是差异蛋白的功能富集分析&WHY? 差异蛋白的功能富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据 GO 功能的注释结果进行对照比较,通过 Fisher精确检验 (Fisher s Exact Test),得出两者差异的显著性,从而找到这个差 异蛋白列表中富集的功能类别条目,找到一个蛋白列表的功能特性。不同于蛋白功能注释以蛋白为单位进行注释,差异 蛋白的功能富集分析以 GO功能条目为单位,结果可以直接揭示整个差异蛋白列表中蛋白的整体功能富集特征。 5 GO注释结果文件解析 GO注释的结果文件包括 GO.xlsx和 GOslim.xlsx两个 EXCEL表格,共计 15个表单。 GO.xlsx:包含 TopBlastHits,protein2GO,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等 8个表单 GOslim.xlsx:包含 protein2GOslim,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等 7个表单 Sheet TopBlastHits Sequence name:目标蛋白 ID S equence desc.:根据 blast结果,目标蛋白可能的名称和描述 S equence length:目标蛋白序列长度 H it desc.:比对序列的蛋白名称和描述 H it ACC:比对序列的蛋白 ID号 E - Value:S值可靠性的评价,表明在随机的情况下,其它序列与目标序列相似度大于 S值的可能性,越低越好 Similarity:Positives/Alignment Score:表示两序列的同源性,分值越高表明它们之间相似的程度越大 Alignment:比对上的蛋白序列部分的长度 Positives:相同或理化性质相似的氨基酸数目 Sheet protein2GO/protein2GOslim S eqName:目标蛋白 ID Hit- Desc:比对序列的蛋白名称和描述 GO- Group:所注释 GO term的类别(P :Biological Process,F :Molecular Function,C :Cellular Component) GO- ID:所注释 GO term的 ID Term:所注释 GO term的名称 6 Sheet BP/MF/CC Level:GO term在 ontologies的树型分支结构中所处的层次,BP、MF、CC最高(Level 1) GO- ID:所注释 GO term的 ID Term:所注释 GO term的名称 T ype:GO term所属类别(BP、MF、CC) #Seqs:属于该 GO term的蛋白数目 Seqs:属于该 GO term的蛋白 ID Sheet Level2_BP/Level2_MF/Level2_CC D ata labels:GO term (Level 2), 属于该 GO term的蛋白数目 metabolic process, 38 cellular process, 37 signaling, 2 multicellular organismal process, 3 developmental process, 3 single- organism process, 16 response to stimulus, 4 localization, 7 biological regulation, 8 cellular component organization or biogenesis, 13 Biological Process protein binding transcripti on factor activity, 1 catalytic activity, 25 structural molecule activity, 8 transporte r activity, 1 binding, 40 enzyme regulator activity, 4 Molecular Function extracellul ar region, 1 cell, 37 membrane , 8 extracellul ar matrix, 1 membrane - enclosed lumen, 4 macromole cular complex, 25 organelle, 28 Cellular Component 7 CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION WHY KEGG pathway annotation? 在生物体中,蛋白质并不独立行使其功能,而是不同蛋白质相互协调完成一系列生化反应以行使其生物学功能。因此, 通路分析有助于更系统、全面地了解细胞的生物学过程、性状或疾病的发生机理、药物作用机制,等等。 KEGG通路注释的方法&流程? In the KEGG database, by adopting a web- based server called KAAS (KEGG Automatic Annotation Server: http:/www.genome.jp/kegg/kaas/) , the studied proteins are annotated with the KEGG orthology (KO) identifiers, or the K numbers, based on the best hit information using Smith Waterman scores as well as by the manual curation. Each K number represents an ortholog group of genes, and it is directly linked to an object in the KEGG pathway map or the BRITE functional hierarchy. The method is based on sequence similarities, bi- directional best hit information and some heuristics, and has achieved a high degree of accuracy when compared with the manually curated KEGG GENES database. KEGG通路注释的意义? 对鉴定到的蛋白或者差异蛋白进行 KEGG通路注释,其宗旨是为了帮助我们了解这些蛋白可能参与的代谢或信号通路, 从而显示蛋白质从细胞表面到细胞核的一系列变化过程, 揭示参与该过程的一系列生物学事件和作用因子, 提示某一过程 的中断或变化可能导致的生物学后果等。对蛋白质进行通路注释可能的应用包括: 8 一,例如,某客户对某差异蛋白 A非常感兴趣,通过在 KEGG注释的结果中(query2map表单)查询蛋白 A的注释 信息,即可得知蛋白 A可能参与的代谢或信号通路。 二,根据课题的设计和先验知识,客户可能对某条通路(例如:EGFR signaling pathway)非常感兴趣,可以通过在 结果中(map2query表单)查询 EGFR signaling pathway这条通路下包含哪些蛋白,并对这些蛋白进行深入研究。 三,客户拿到质谱数据分析结果后,可能对于后续的分析没有方向,这种情况下可以通过在注释结果中查询哪些通路包 含的蛋白数目较多,可以从这些通路和蛋白入手进行重点研究。 四,KEGG通路注释可以为课题的设计和实验结果的合理性提供证据。 为什么有些蛋白没有 KEGG通路注释信息? 目前对于通路的研究还有限,尤其是信号通路。为了提高注释率,我们已经在注释前对目标蛋白序列进行了 blast,并 利用同源蛋白的参与的通路信息对目标序列进行注释。但是仍然有部分蛋白,对于该蛋白,或者同物种中也之相似的蛋 白,或者其他物种中的同源蛋白的研究依然十分不足,所以以目前的研究水平难以获得注释信息。 什么是差异蛋白的通路富集分析&WHY? 差异蛋白的通路富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据 KEGG通路的注释结果进行对照比较,通过 Fisher精确检验 (Fisher s Exact Test),得出两者差异的显著性,从而找到 这个差异蛋白列表中富集的通路。不同于蛋白通路注释以蛋白为单位进行注释,差异蛋白的通路富集分析以 KEGG通 路为单位,结果可以直接揭示整个差异蛋白列表中蛋白的整体通路富集特征。 KEGG注释结果文件解析 KEGG注释的结果文件包括 KEGG.xlsx表格和 map文件夹。 KEGG.xlsx:包含 query2map,map2query,TopMapStat等 3张表单 M ap文件夹:包含所有和目标蛋白相关的 KEGG通路图,目标蛋白以绿色标识 Sheet query2map P rotein ID:目标蛋白 ID KO:KEGG orthology identifier/K number, Map ID:目标蛋白可能参与的通路 ID Map Name:目标蛋白可能参与的通路名称 9 URL:可直接链接到 KEGG数据库中目标蛋白可能参与的通路图,目标蛋白以红色标识 Sheet map2query Map ID:目标蛋白可能参与的通路 ID Map Name:目标蛋白可能参与的通路名称 Seqs:参与该通路的目标蛋白 ID #Seqs:参与该通路的目标蛋白数目 URL:可直接链接到 KEGG数据库中目标蛋白可能参与的通路图,参与该通路的所有目标蛋白以红色标识 Sheet TopMapStat X Axis:目标蛋白可能参与的通路名称 Y Axis:参与该通路的目标蛋白数目 0 1 2 3 4 5 6 10 CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING WHY Feature Selection? 检验某种生物处理是否有效果的常规试验,通常的做法就是做两组数据,一组处理样本,一组阴性对照,然后用 t 检验, 看看 p - value是否小于 0.05。但是由于蛋白组学实验的样本量通常都比较小(一般不多于 3组生物学重复),那么您 的“显著”究竟是确实反映了处理效果,还是本来处理没什么效果,您只是这次“运气好”而侥幸碰到一组产生显著的 数据?如果生物处理确实有很强的效用,即便在每组只有三个样本的情况下,达到显著的可能性当然很大,如 8 0 , 那么这种通过是意料之中的。反之,如果其实处理几乎没有效果,同样每组三个样本,但是这种情况下依然有可能达到 p - value小于 0.05,只是可能性相当小,如 5 ,那么这个显著一般认为“只是运气好”而已。具体可参考 338817- 272318.html 。 所以,在样本量有限这一事实无法改变的情况下,为了避免“运气好”的质疑,我们需要其他的统计学算法或模型帮助 我们筛选有意义的关键 marker。在统计学中,特征选取 (Feature Selection) 是从所有特征中选取可有效区分样本的 一小部分特征的过程,即利用统计学模型从所有鉴定到的蛋白质中选取可区分生物学样本的蛋白质集合的过程。我们利 用 WEKA软件包中的 information gain attribute evaluator和 correlation- based feature selection (CFS) 算法, 并结合蛋白质的表达倍数比来筛选特征差异表达蛋白质。 聚类分析(Clustering) 用来检验所选取的差异蛋白或经 Feature Selection筛选的特征差异蛋白的合理性和准确性,即所挑选的蛋白是否可以 代表不同样本之间的差异,或者说利用这些蛋白是否可以准确将不同组样本进行分类。一般不建议用 Fold Change/P value筛选的差异蛋白直接做聚类,分类的准确率不高。 聚类结果文件解析 层次聚类结果以树型热图表示,红色代表上调,绿色代表下调 横坐标:样本,纵坐标:差异蛋白 以 M为参考线,样本被分为两类:C1- C3为一类 m1,T1- T3为一类 m2,分类准确率 100%,表示挑选的 差异蛋白可以有效区分样本,即挑选的差异蛋白合理、准确 以 N为参考线,蛋白被分为两类:Q4G0N4- Q99584为一类 n1,A8K2W3- B4DMR3为一类 n2。通过查询 原始数据可知,n1组蛋白在 m1(C )组样本中下调,在 m2(T )组样本中上调;n2组蛋白在 m1(C )组 样本中上调,在 m2(T )组样本中下调-挑选的差异蛋白在两组样本中的表达模式,也可说明挑选的差异蛋 白具有合理性。 树叉的长度表示样本或蛋白之间的亲缘关系,即差异,长度越长两者差异越大。例如,距离 a表示样本 T1和 T3之间的差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论