生物信息学在肿瘤研究中的应用.ppt_第1页
生物信息学在肿瘤研究中的应用.ppt_第2页
生物信息学在肿瘤研究中的应用.ppt_第3页
生物信息学在肿瘤研究中的应用.ppt_第4页
生物信息学在肿瘤研究中的应用.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学在肿瘤研究中的应用,张新宇,中国医科院肿瘤医院/肿瘤研究所中心实验室生物信息学,肿瘤生物信息学平台功能简介及应用实例,生物信息学的概念:,A.生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。,B.简言之,生物信息学就是运用计算机技术,处理、分析生物学数据,以揭示生物学数据背后蕴藏的意义。,生物信息学研究的要素,计算机(服务器/工作站)及操作系统专业人员专业软件Internet网络及生物学数据库,生物信息学研究分类,算法开发,生物学研究应用,Blast,Blast,生物信息学和肿瘤研究的关系,Howistumorgenerated?,1996,97国际象棋人机大战,被誉为“人类智力极限”的特级大师,卡斯帕罗夫VSIBM深蓝,WhatCanBioinformaticsDoinCancerResearch?HowtoDo?,肿瘤生物信息学平台简介,数据库平台自主开发的综合分析体系自主开发的其他独立功能软件其他引进并安装调试好的软件包平台的产生及发展,数据库平台:(基于Linux系统的MySQL数据库系统),1)Reference,LocusLink,Unigene,Mapview及相关GenBank数据库。2)GeneOntology数据库,从细胞定位,基因功能,信号通路三个角度提供对各种基因的功能及所在信号通路的注释。,数据库平台(续),3)UCSCHumanGenome数据库(GoldenPath)。4)格式化的Blast数据库(nt,nr,human_est,htg,swissprot,yeast,mouse_est)。5)实验室原始数据及分析结果数据库。(加密保护),ComputationalVelocity:Doubledafter18months;DNADataQuantity:Doubledafter14months;,肿瘤生物信息学平台简介,数据库平台自主开发的综合分析体系自主开发的其他独立功能软件其他引进并安装调试好的软件包平台的产生及发展,自主开发的综合分析体系,cDNA,mRNA及EST序列的高通量综合分析平台基因芯片数据分析平台信号通路(Gene-geneinteraction)分析平台,注:每个平台都包含几个部分,每部分又是一个可独立运行的功能体系,cDNA,mRNA及EST序列的高通量综合分析平台,a)序列格式化,包括去除载体,屏蔽简单重复序列,计算核酸组成及长度,以Fasta格式输出。b)比对ReferencemRNA序列及Unigene序列,找出已知基因,并进行聚类分析。c)对新基因序列进一步与人类染色体比对,筛选出可靠的新基因序列,排除错误序列。,cDNA,mRNA及EST序列的高通量综合分析平台(续),d)新EST序列延伸,全长cDNA序列电子克隆及功能结构域分析。e)点突变或者SNP分析f)制作基因表达图谱(PDF格式),PrimaryAnalysisofLungCancerSSHcDNALibrary,分析实例,DefinitionofEST,ESTsofferarapidandinexpensiveroutetogenediscovery,revealexpressionandregulationdata(Vasmatis,etal,1998),highlightgenesequencediversityandsplicing(WolfbergandLandsman,1997),andmayidentifymorethanhalfofknownhumangenes(Hillier,etal,1996).,背景知识:,EST(ExpressedSequenceTag):从cDNA库随机挑选出一个克隆来自动测序,长度一般为500bp。,MaskVectorandFormat,BlasttoReferencemRNADB,BlasttoHumanESTDB,ScreenedKnownGenes,HumanESTDBNone-hitEST,ClusterESTsbyGene,MaptoHumanGenome,BlasttoHumanGenome,NewGenes,GarbageESTs,InsilicoESTElongation,ReferenceDBNone-hitEST,SequencingResult,Procedures,GeneExpressionMap,PointMutation/SNPAnalysis,OriginalsequenceDatabase,原始输入序列,ClusterResultDatabase,已知基因聚类分析结果,NewGene(EST)Database,新基因EST,ElongatedEST,IDNo2_rlcrt0-000159.fas;Length=2540.AGCGGGTCCCGCCTCCCAGCGACTCTCGGCAGTGCCGGAGTCGGGTGGGTTGGCGGCTATAAAGCTGGTAGCGAAGGGGAGGCGCCGCGGACTGTCCTAGGTACACTTTTCTCATAAAGTTTAGCCTACAGAAACTATCGCCACCCAAATTAAACATCACCCAAGCTAATATTCTTTCCTCCTTCTAAAGATGAGCTAGCGAAACTTTTTATAGGTTGTCCCTTTAATGCAGCTTTTTAGAATAAACATTTTTACATTTTTTCTTAAAAGAATTATTTTTTGAAGTCTGAGGAAAAATCCGCTTGCCTAGTGAATTTGGCACACACAGAGTAACAACAAATCAAACTTTAAGCTAGCAACCAACACACAAAATAAGCATGCAAGGAATAGAATAAGTTTTATATGGATAAGGTATTTTAGCCAACTCCACTTATAAGGTATTACAAAATCTCTATATNGTTTTGAAGCTATGTGTCGCAGTTTAAAGTTACTTTTAACAATAATACGTATATTTACAATTGACTTAAAAAACTATTTTCAAGGAAGTTAGAAACCTATGGCACACCAACGCATCTTCTGGAAAATGAAGACGATACAATGTCATGTGGCAAGTTTCAATATATGAAGGACTAGACCAGTG.,新基因EST电子延伸结果,UsingReferencemRNADatabaseBlastOutputtoSearchMutation/SNP,MutationsFoundfromBlastOutputAnalysis,点突变/SNP分析结果,Deletion(ClustalX1.82),点突变/SNP分析结果(续),Insertion(ClustalW1.82),点突变/SNP分析结果,Here“-”meansinsertion,点突变/SNP分析结果(续),FurtherAnalysis,FromSNPtoHaplotype,6SSHLibrariesGeneExpresstionMaptoHumanGenomes(122+X),基因表达图谱,ExpressionlevelofgenesinSSHlibraries,DifferentColorscorrespondtodifferentlibraries,IsthereaLOH?,Expressedintwodown-regulatedlibraries,LOHmapvs.SSHmap,LungCancerRelatedLOH,LungCancerRelatedSSH,基因芯片数据分析平台,a)对rawdata进行标准化处理,并确定thredshold值(低于该值表示基因不表达,没有杂交信号)b)结合R/S+,SAS通过生物统计学手段筛选具有显著性差异表达的基因c)进一步的芯片分析手段不一而足,可结合具体分析目标进行具体分析。已经做过的分析有:建立从array到全基因组转录图谱,基因表达图谱;聚类分析(hierarchical,SOMandK-meansclustering);结合GeneOntology,Biocarta,KEGG数据库进行相关pathway分析等,Normalization,背景知识:,PathWayAnalysis,背景知识:,分析实例,Genome-wideGeneExpressionMapandAnalysisofNon-SmallCellLungCancerBasedonMicroarray,PNASNovember20,2001vol.98no.24,OriginalArrayData,Chip:HumanU95Aoligonucleotideprobearrays(Affymetrix,SantaClara,CA)12,600cDNAcloneSample:Squamouscelllungcarcinomas21Adenocarcinomas127NormalLung17Arraydata(normalized),AnalysisProcedures,Findinggenesfrom12,600cDNAcloneGet7932genesFlaggingthevalueslowerthanthresholdvalueAbouthalfvalueskeepedDoingT-testwithSAS/RforeachgeneHierarchicalClusteringDivideintotwoparts:up-regulatedanddown-regulatedConstructionofGeneExpressionMapandTranscriptomeMap,ClusteringResult,肺鳞癌基因表达图谱(3号染色体),肺鳞癌转录图谱(3号染色体),High-resolutiondetectionofdifferentiallyexpressedchromosomalregionsinNSCLCwasobtainedbyusingmoving-medianmethodScreeningofimportantNSCLC-relatedgene,AnalysisProcedures(Cont.),Results,75%(24of32)ofourresultswereconsistentwiththepreviousstudies.Andthecounterpartsinotherreports,normallywithlargersizes,werenarroweddownandmanyspecificgenesinvolvedintheseregionswereidentified.4newaberrantregionsinsquamouscarcinoma,2q31-32,12q23-24,14q22-q24andXp11.4-p11.23,werediscovered.,肺鳞癌基因异常表达区域分析结果,信号通路(Gene-geneInteraction)分析平台,a)选择关键词,从GO数据库中寻找相关基因,比如extracellular表示为分泌蛋白b)通过GO,BioCarta和Kegg信号通路数据分析给定基因所属的信号通路,功能分类等c)比较多组基因按功能,通路分组在统计学上的差异,从而得到各组基因的功能差异d)新信号通路的分析(正在开发,GeneOntologyPathwayNetwork,特点:DAG(非循环),可用数据库表达,背景知识:,BioCartaCellCyclePathway,特点:以调控通路为主,背景知识:,KEGG酮体代谢Pathway,特点:以代谢通路为主,背景知识:,分析给定基因所属的信号通路,GO:0003673-biological_process-physiologicalprocesses-cellgrowthand/ormaintenance(D10S170)-cellproliferation(FTH1,AKR1C3,C20orf1)-cellcycle(AHR,BUB1,STAG2)-DNAreplicationandchromosomecycle-chromosomesegregation(STAG2)-mitoticchromosomesegregation,分析实例,比较多组基因按功能分组在统计学上的差异,从而得到各组基因的功能差异,26N:15219T:78429nucleotidebinding32N:28396T:120728nucleicacidbinding2N:131T:2191structuralconstituentofribosome47N:00T:17apoptosisinhibitoractivity38N:00T:1050transcriptionfactoractivity37N:113T:113enzymeinhibitoractivity46N:646T:646metalionbinding,分析实例,小结,相对于手工操作,生物信息学高通量综合分析体系具有以下基本特点:1)使计算机快速、忠实地执行一些冗长、琐碎的工作,既节约时间,又避免操作失误。2)可以完成一些手工操作无法胜任的分析任务。3)对实验室进一步工作具有预见性和指示性。4)最终分析结果需要经过实验室验证。,肿瘤生物信息学平台简介,数据库平台自主开发的综合分析体系自主开发的其他独立功能软件其他引进并安装调试好的软件包平台的产生及发展,自主开发的其他独立功能软件,1)基于mRNA/cDNA序列的siRNA设计:查找符合siRNA条件的核酸片断,并自动比对HumanGenome进行特异性筛选,最后给出最佳序列及阴性对照序列。2)从给定的一组基因名称,得到适合制作cDNA基因芯片的cDNA克隆(imageclone)序列。3)DNA芯片数据分析及cDNA文库序列分析并制作全基因组基因表达图谱和转录图谱,自主开发的其他独立功能软件(续),4)从一组给定的基因中筛选具有特定功能(或者性质)的基因,比如分泌蛋白的筛选,以GeneOntology数据库和高通量信号肽及跨膜区domain分析双重符合为标准。5)给定一组accessionnumber,通过网络或者本地数据库自动快速获得序列及注释,以及各种序列格式转化。,自主开发的其他独立功能软件(续),6)全自动SAGEmap分析,可分析序列或者基因在NCBISAGEmap中各种组织库的表达丰度。7)DNA/RNA最长ORF分析并翻译,在大多数情况下,cDNA和EST的最长ORF为其实际阅读框架。8)电子EST序列延伸及全长cDNA获得。,自主开发的其他独立功能软件(续),9)核酸序列自身冗余度检测,建立一个逐步扩大的数据库,检测提交的一条或多条序列是否在数据库中有overlap或者相同基因,对新序列则加入到数据库中。10)自动Blast及结果解析。11)从染色体的巨大contig序列的任意位置截取任意长度的片断,以进行后续分析。,应用GeneOntology数据库及EMBOSS软件包预测SSH文库基因中分泌蛋白(图示:2号染色体),分析实例,ScreenedsiRNAtargetsitesforX1blue:,IDX1_blue;Nonsense=0;Length=21;GC=38%;A=8;G=5;C=3;T=5AAAGATGTGGAAAGTTACCTCsiRNASense:AGAUGUGGAAAGUUACCUCUUAntisense:GAGGUAACUUUCCACAUCUUUNegativeControlSense:GGAUGUACGGCAAAUUCUAUUNegativeControlAntisense:UAGAAUUUGCCGUACAUCCUU,分析实例,全自动SAGEmap分析,分析实例,从accessionnumber通过网络或者本地数据库自动快速获得序列及注释,NM_002737NM_002738X07109NM_002739NM_002740NM_006255NM_005400NM_002742NM_005813L07032NM_002744NM_006254,分析实例,NM_005400HomosapiensproteinkinaseC,epsilon(PRKCE),mRNA.CTCCCCGCCCCGACCATGGTAGTGTTCAATGGCCTTCTTAAGATCAAAATCTGCGAGGCCGTGAGCTTGAAGCCCACAGCCTGGTCGCTGCGCCATGCGGTGGGACCCCGGCCGCAGACTTTCCTTCTCGACCCCTACATTGCCCTCAATGTGGACGACTCGCGCATCGGCCAAACGGCC.NM_005813HomosapiensproteinkinaseC,nu(PRKCN),mRNA.AAAGTTCATCCCCCCAGAATGAAAATGAGGACATTTGAGAAGGTGATTTAAGGTGTGGACATTTGAGAAGGTGTCCTATCAAATTAGTAAACCAAAGGAAAAGTACTGAATAGATTAATCHSPKCB2AHumanmRNAforproteinkinaseC(PKC)typebetaII.CAGAGCCGGCGCAGGGGAAGCGCCCGGGGCCCCGGGTGCAGCAGCGCCCGCCGCCTCCCG,小结,功能软件大都来源于具体的需求,其特点为实用性。大型的综合分析体系是建立在若干个小的功能软件的基础上。随着独立功能软件的丰富,建立特定功能的综合分析体系的速度将越来越快。,肿瘤生物信息学平台简介,数据库平台自主开发的综合分析体系自主开发的其他独立功能软件其他引进并安装调试好的软件包平台的产生及发展,其他引进并安装调试好的软件包,EMBOSS(包含几十种不同功能的软件,相当于基于Linux系统的免费GCG软件包,且适合高通量分析)JaMBW(JavabasedMolecularBiologistsWorkbench):分子生物综合工作台软件,全名为。是由EuropeanMolecularBiologyLaboratoryofHeidelberg以J

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论