目标基因的分析及应用方法_第1页
目标基因的分析及应用方法_第2页
目标基因的分析及应用方法_第3页
目标基因的分析及应用方法_第4页
目标基因的分析及应用方法_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目标基因的分析及应用数据公布,形成文章cDNA文库的构建随机挑取克隆5’或3’端测序序列聚类和拼接功能分类及代谢分析EST数据注释分析平台的构建文献检索与数据收集cDNA序列基因组序列蛋白质序列翻译CodonbiasGCContent酶切位点引物设计编码区预测基因结构分析选择性剪切SNP序列比对功能注释KEGGGO系统发育树蛋白质理化性质二级结构预测结构域分析重要信号位点分析三级结构预测核苷酸序列分析

基因编码区组分分析GC含量/Codonbias引物设计限制性核酸内切酶位点预测基因编码区结构分析基因结构分析选择性剪切分析/SNP分析基因调控区域分析蛋白质序列分析蛋白质一级序列蛋白质理化性质分析蛋白质二级结构蛋白质二级结构预测蛋白质序列信号位点分析蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟序列比对序列比对注释多序列比对系统发育分析系统发育分析核苷酸序列分析实验内容分析软件练习数据基因编码区分析Spideylesson7.seq

选择性剪切分析根据Spidey分析结果lesson7.seq蛋白质序列分析实验内容分析软件练习数据蛋白质理化性质分析ProtParam/ProtScalelesson7.seq蛋白质二级结构分析TMpredlesson7.seq蛋白质三维结构分析SWISS-MODEL/SWISS-PdbViewlesson7.seq系统发育分析实验内容分析软件练习数据系统发育分析PHYLIP/TreeViewlesson7.phy实验课课程安排核苷酸序列分析核苷酸序列分析开放读码框(openreadingframe,ORF)的识别基因结构分析内含子/外显子剪切位点识别选择性剪切分析CpG岛的识别核心启动子/转录因子结合位点/转录启始位点的识别转录终止信号的预测GC含量/密码子偏好性分析核苷酸序列分析开放读码框的识别开放读码框(openreadingframe,ORF)

是一段起始密码子和终止密码子之间的碱基序列ORF是潜在的蛋白质编码区基因组DNA序列cDNA,mRNA,EST核苷酸序列分析ORF基因开放阅读框/基因结构分析识别工具GetorfWeb/LinuxPlotorfWeb/LinuxORFFinder

WebBestORFWebGENSCANWeb/LinuxGeneMark

WebGeneFinder(Dr.MichaelZhang)WebFGENESHall.htmWeb/LinuxGlimmerM

LinuxFgeneSB/FgeneSVWebGenerationWebGeneBuilder

WebFGENESH+/++all.htmWeb/LinuxGenomeScan

WebGeneWise

WebGRAILWeb/Linux/WindowsBCMGeneFinderWeb核苷酸序列分析ORF内含子/外显子剪切位点识别对基因组序列的读码框区域进行预测内含子5’端供体位点(donorsplicesite):GT内含子3’端受体位点(acceptorsplicesite):AG预测工具:GENSCAN,GENEMARKNetGene2,SpliceView核苷酸序列分析GeneStructure内含子/外显子剪切位点识别如何分析mRNA/cDNA的外显子组成?RNASPL与相应的基因组序列比对,分析比对片段的分布位置预测工具:Spidey,SIM4,BLAT,BLAST,FASTA核苷酸序列分析GeneStructure基因开放阅读框/基因结构分析工具对基因组序列的读码框区域进行预测NNSpliceWebSpliceViewWebNetGene2WebSPL/SPLM/RNASPL/FSPLICEWebGeneSplicerWeb/LinuxMZEFSpliceProximalCheckWebSplicePredictorWeb分析mRNA/cDNA的外显子组成GeneSeqer

Web/LinuxSpideyWebPROT_MAPWebSim4Web/LinuxBLATLinuxBLASTWeb/Windows/LinuxFASTAWeb/Windows/Linux核苷酸序列分析GeneStructure选择性剪切(Alternativesplicing)分析选择性剪接是调控基因表达的重要机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制分析方法:查询选择性剪切相关的网站多序列比对核苷酸序列分析GeneStructure查询选择性剪切相关的网站综合综合综合哺乳动物人线虫植物拟南芥核苷酸序列分析GeneStructure

从已知基因的功能推测剪切机制

查询NOX1核苷酸序列分析GeneStructure

基于序列比对分析选择性剪切在序列上高度相似的mRNA/cDNA/EST序列相匹配的基因组序列序列比对对分布位置进行分析cDNA/mRNA/EST序列比对收集序列核苷酸序列分析GeneStructure

评判的标准:来自Unigene的高质量数据Exon至少有3条ESTs覆盖Exon周围有GT-AG信号Blast比对Score值>100相似度>95%S.Guptaetal.,GenomewideidentificationandclassificationofalternativesplicingbasedonESTdata,2004,20(16):2579-2585基因周围调控序列分析CpG岛位于真核生物基因转录起始位点上游,GC含>50%,长度>200bp转录起始位点(Transcriptionstartsite,TSS)PY2CAPY5核心启动子(Corepromoterelement)TATAbox,Pribnowbox

上游启动子元件(Upstreampromoterelement)CAATbox,GCbox,SP1,Otc转录终止信号AAUAAA,UUUUUU操纵子、终止子、增强子、沉默子核苷酸序列分析GeneStructure

启动子数据库TransFac

EPD

TRRD

JasparZhangLab

DBTSSMIRAGE

Bacillussubtilis

Drosophilamelanogaster

E.coli

Human

PlantProm

Plant

Saccharomycescerevisiae

核苷酸序列分析GeneStructure

CpGIsland分析CpGIslandWebCpGfinderWebCpGPlot/CpGReport/IsochoreWeb启动子结合位点分析PromoterScanWebPromoserWebNeuralNetworkPromoterPredictionWebSoftberry:BPROM,TSSP,TSSG,TSSWWebMatInspectorWebTRANSPLORERWebRSATWebSIGSCANWeb/WindowsConsInspectorWindows/LinuxCisterWeb核苷酸序列分析GeneStructure

转录终止信号预测HcpolyaWebPOLYAHWebpolyadqWeb核苷酸序列分析GeneStructure

编码区综合分析核苷酸序列分析GeneStructureCpG岛分析No调控序列所在位置Cister结果:881-896CCAAT908-923CCAAT转录终止信号……GetOrfGenScan735-773964-10201054-11461112-11561341-1625…1054-1490(1054-1145,1268-1490)CCTAGTCCAGACGCCATGGGT比对分析(Blastx,Blastn,Blastp)Blastx结果:gammaglobin:1054-11461266-1493Humangene5HSA004013:-1000~1000GeneBuilder核苷酸序列分析Tools核苷酸序列综合分析软件GeneBuilderDNAToolSEQtoolsDNAssistGeneTool

DNAmanDNAStrider

pDRAW32GCG基因探索者DNASTARVectorNTI※

Sequenceassembly※

Sequencemanipulation※

Homologycomparison※

Multiplealignment※Genestructureanalysis

Primer/Oligoanalysis※

Restrictionanalysis※

Codonsanalysis核苷酸序列分析Tools上机实习一步骤一:基因结构分析使用工具:Spidey步骤二:选择性剪切分析使用Spidey的分析结果数据:序列Seq1来自拼接结果序列Seq2~Seq6来自Seq1与nr数据库BLASTN比对结果(Blosum62,Evalue=0.001)比对得到来自人类的completecds9条,去除冗余的序列后剩下5条AccessionnumberofSeq2~Seq6:AF127763,AF166326,AF166327,AF166328,BC075014核苷酸序列分析

practiceSpideyNCBI开发的在线预测程序基于BLAST和DotView局部联配的算法核苷酸序列分析

practice序列在线提交形式:界面中有两个窗口:上方窗口用于输入基因组序列(直接粘贴序列或用GenbankID/AC号)下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用GenbankID/AC号)可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析主要选项/参数输入基因组序列Z83819输入lesson7.seq文档中的5条序列判断用于分析的序列间的差异,并调整比对参数不受默认内含子长度限制,默认长度:内部内含子为35kb,末端内含子为100kb比对阈值选择物种输出格式核苷酸序列分析

practice输出结果第一条序列为基因组序列浅蓝色为mRNA/cDNA序列橘黄色为外显子外显子对应于基因组上的起始/结束位置外显子对应于mRNA/cDNA上的起始/结束位置外显子长度一致性百分比错配和gap序列联配结果外显子序号核苷酸序列分析

practiceNox基因AF127763,AF166326,AF166327和AF127763核苷酸序列分析

practice蛋白质序列分析蛋白质序列结构信息蛋白质理化性质蛋白质二级结构结构域蛋白质三级结构蛋白质序列分析蛋白质基本理化性质分析

蛋白质理化性质是蛋白质研究的基础蛋白质分子的高级结构蛋白质的基本性质:相对分子质量氨基酸组成等电点(PI)消光系数半衰期不稳定系数总平均亲水性……

实验方法:相对分子质量的测定、等电点实验、沉降实验缺点:费时、耗资基于实验经验值的计算机分析方法蛋白质序列分析蛋白质基本理化性质分析

基于一级序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考Expasy开发的针对蛋白质基本理化性质的分析:Protparam工具ProtScale工具蛋白质序列分析相对分子质量氨基酸组成等电点(PI)消光系数半衰期不稳定系数总平均亲水性……蛋白质二级结构预测

基本的二级结构α螺旋,β折叠,β转角,无规则卷曲(coils)以及模序(motif)等蛋白质局部结构组件分析方法:基于统计和机器学习方法进行预测分析内容α螺旋/β折叠等基本结构PHD,JPRED,PROF,PSIpred,NNSSP信号位点的分析SignalP,PSORT,TargetP蛋白质序列分析蛋白质二级结构预测BCMSearchLauncherWebProteinSequenceAnalysisWebPHDWebANTHEPROTWindowsSOMPAWebJpred

WebPSIpredWebSSPRED

WebNNPREDICT

WebPROFWeb/Linux蛋白质序列分析蛋白质二级结构预测TMpredWebTMHMMWebTopPred2WebCOILSWeb/LinuxPEPCOILWeb/LinuxTargetPWebPSORTWeb蛋白质序列分析PatternandmotifdatabasesandtoolsPROSITE

PRINTSBLOCKSTOPStructureEMOTIFEMATRIXPro蛋白质序列分析PosttranslationalmodificationtoolsNetPhosMeMoNetOglycNetPico结构域分析结构域是蛋白序列的功能、结构和进化单元基本类型:α折叠β折叠α/β折叠其他折叠类型

分析方法序列比对基于蛋白质家族的位置特异性矩阵或概形矩阵蛋白质序列分析结构域分析综合的结构域预测网站:InterProScan(Web/Linux)蛋白质序列分析ProteindomaindatabasesandtoolsPfamSMARTProDomTigrfamInterProCDDHAMAPCOG蛋白质三维结构预测结构与功能、进化密切相关三维结构数据库:PDB:MMDB:NRL-3D:Psdb:分析方法蛋白质序列分析方法特点工具同源建模法(Homologymodelling)基于序列同源比对,对于序列相似度>25%的序列模拟比较有效,最常用的方法SWISS-MODEL,

TOPITS,VAST串线法

(Threading)“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大Prospect,THREADER从头预测法(abinitio)基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测HMMSTR/ROSSETA蛋白质三维结构预测——同源建模法SWISS-MODELWebESyPred3DWeb3DjigsawWebTOPITSWebCPHmodelsWebDaliWeb/Linux3D-PSSMWebMODELLERWindows/LinuxWHATIFWindowsInsightII/QUANTAWindowsDSModelingWindows蛋白质序列分析蛋白质三级结构预测——串线法ProspectLinuxTHREADERLinux123D+WebFRSVRWebSAMt98Web蛋白质三级结构预测-从头预测法HMMSTR/RosettaWeb/Linux蛋白质三级结构预测——三维结构图示和修改工具

Swiss-PdbViewer

WebSeein3D

Windows/LinuxRASMOL2.7.2.1

Windows/Linux蛋白质序列分析同源建模法分析步骤:多序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板序列相似度>25%序列相似度<25%,结合功能,蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验Whatcheck程序Ramachandranplot计算检验手工调整多序列比对,重新拟和,构建新的模型*蛋白质序列分析确定功能和结构上机实习二步骤一:蛋白质理化性质分析使用工具:Protparam步骤二:蛋白质疏水性分析使用工具:ProtScale步骤三:跨膜区分析使用工具:TMpred步骤四:蛋白质三级结构分析使用工具:SWISS-MODEL和SWISS-PdbView数据:蛋白质序列分析步骤一蛋白质理化性质分析Protparam工具计算以下物理化学性质:相对分子质量理论pI值氨基酸组成原子组成消光系数半衰期不稳定系数脂肪系数总平均亲水性蛋白质序列分析主要选项/参数序列在线提交形式:如果分析SWISS-PORT和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)如果分析新序列:直接在搜索框中粘贴氨基酸序列蛋白质序列分析输入Swiss-Prot/TrEMBLAC号打开lesson7.seq将Seq7直接粘贴在搜索框中>Contig17TTTTTTTTTATCTTTCTAGAATTTAATAAACTTAGTTATTCTAAGTTATCCAACTATTTGGATTCCCAGGTTTCATGATTGCAAAAGGCAGGAATGGGATGTGAATGGGCAGACAGTAATTCAGTTCTTGGTTTCTTTTCCTTTGATTTGTTTACAATGGAATATTTGCATGTTTTCTCCAAGGACGTTGTTACTTTCTTGCTGGCCAAGACATCCAGGTCACAGCAGATTCGGGCACGTGTGGAAGAAGGTTGGATGATGTCATCCACAAACCCTCGCACTGCTGCAGGGAAAGGGTTGGCAAACTTCTCGATGTACTCTGCCTGAGCAGCTTCCACATTCTCATGCCCTTTGAAGATGATCTCCACAGCGCCCTTTGCTCCCATGACTGCAATCTCTGCGGTGGGCCAGGCATAGTTGGTATCACCCCAAAGGTGCTTAGAGCTCATGACATCATAGGCACCTCCATAGGCCTTCCTGGTGATGACTGTGACTTTGGG输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段输出结果功能域用户自定义区段蛋白质序列分析点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果蛋白质序列分析氨基酸数目相对分子质量理论pI值氨基酸组成原子组成分子式总原子数消光系数半衰期不稳定系数脂肪系数总平均亲水性蛋白质序列分析ProtScale工具

氨基酸标度表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等收集50多个文献中提供的氨基酸标度默认值为Hphob.Kyte&Doolittle,做疏水性分析步骤二蛋白质疏水性分析蛋白质序列分析主要选项/参数序列在线提交形式:如果分析SWISS-PORT和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)如果分析新序列:直接在搜索框中粘贴氨基酸序列蛋白质序列分析输入Swiss-Prot/TrEMBLAC号氨基酸标度将序列直接粘贴在搜索框中计算窗口(7-11)相对权重值

权重值变化趋势

输出结果输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段蛋白质序列分析功能域用户自定义区段点击不同功能域或直接粘贴氨基酸序列的方式得到以下结果蛋白质序列疏水区域分布预测图蛋白质序列分析图形结果文本结果序列参数

每个位置的得分步骤三跨膜区分析TMpred工具:预测跨膜区和跨膜方向依靠跨膜蛋白数据库Tmbase蛋白质序列分析主要参数/选项序列在线提交形式:直接贴入蛋白序列填写SwissProt/TrEMBL/EMBL/EST的ID或AC蛋白质序列分析输出格式最短和最长的跨膜螺旋疏水区长度输入序列名Seq7选择序列的格式贴入Seq7蛋白序列输出结果包含四个部分可能的跨膜螺旋区相关性列表蛋白质序列分析可能的跨膜螺旋区相关性列表位置分值片段中点位置跨膜拓扑模型及图示蛋白质序列分析建议的跨膜拓扑模型每一位置计算分值最优拓扑结构位置分值取向步骤四蛋白质三维结构预测SWISS-MODEL工具同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测蛋白质序列分析主要参数/选项蛋白质序列分析yangliu输入用户名输入序列名粘贴序列输入用户Email蛋白质序列分析比对参数用户自定义模拟的模板序列输出格式是否用WhatCheck程序检查预测结果在选项前打上钩PHD和3D-PSSM分析>gi|168828|gb|AAA33592.1|laccaseMKFLGIAALVAGLLAPSLVLGAPAPGTEGVNLLTPVDKRQDSQAERYGGGGGGGCNSPTNRQCWSPGFNINTDYELGTPNTGKTRRYKLTLTETDNWLGPDGVIKDKVMMVNDNIIGPTIQADWGDYIEITVINKLKSNGTSIHWHGMHQRNSNIQDGVNGVTECPIPPRGGSKVYRWRATQYGTSWYHSHFSAQYGNGIVGPIVINGPASANYDVDLGPFPLTDYYYDTADRLVLLTQHAGPPPSNNVLFNGFAKHPTTGAGQYATVSLTKGKKHRLRLINTSVENHFQLSLVNHSMTIISADLVPVQPYKVDSLLLGIGQRYDVIIDANQAVGNYWFNVTFGGNDLCGTSDNKYPAAIFRYQGAPKALPTNKGVAPPDHQCLDLNDLKPVLQRSLNTNSIALNTGNTIPITLDGFVWRVNGTAININWNKPVLEYVMTGNTNYSQSDNIVQVEGVNQWKYWLIENDPDGAFSLPHPIHLHGHDFLILGRSPDVTAISQTRYVFDPAVDMARLNGNNPTRRDTAMLPAKGWLLIAFRTDNPGSWLMHCHIAWHVSGGLSNQFLERAQDLRNSISPADKKAFNDNCDAWRAYFPDNAPFPKDDSGLRSGVKAREVKMKW输出结果打开邮箱查看输出结果返回“Welcome”,“TraceLog”,“WhatCheck”和“Model”等多封信蛋白质序列分析结果一TraceLog如数据库中序列比对的结果结果二

WhatCheck蛋白质序列分析检测有问题的原子结果三

Model附件:AAAa0841F.pdb蛋白质序列分析与模板序列比对结果,并显示二级结构区域原子坐标SWISS-PdbView观察三维模型SWISS-PdbView工具观察和修改分子的三维结构蛋白质序列分析菜单栏/工具栏图层窗口主窗口

序列联配窗口控制面板系统发育分析系统发育分析突变导致进化发生核苷酸的替代、插入、缺失通过系统发育方法推断或者评估进化和亲缘关系核苷酸序列/氨基酸序列有统一的性状序列蕴含的信息量大便于构建数学模型可以用于计算进化的速率系统发育分析系统树构建工具ClustalW

Web/Windows/LiunxPhylipWindows/LiunxMEGAWindows/LiunxPAUPWindows/LiunxRRTreeWindows/LiunxPamlWindows/Liunxtree-puzzleWindows/LiunxCOMPONENTWindows显示系统发育树的免费软件NJplotWindowsTreeViewWindowsTreeMapWindowsNDE

Windows多序列比对通过序列与数据库比对收集同源基因通过文献收集与目标基因相关的同源基因确定取代模型计算序列之间的分歧碱基之间相互取代模型,序列中不同位点取代的相对速率p距离模型J-C单参数模型Kimura双参数模型Tajima-Nei模型Tamura三参数模型Tamura-Nei模型gamma分布的J-C单参数模型,Kimura双参数模型和Tamura-Nei模型系统发育分析分析步骤分析步骤构建系统发育树:距离法(UPGMA,Neighbor-joining)最大简约法(MaximumParsimonymethods)最大似然法(MaximumLikelihoodmethods)系统发育分析方法优点缺点工具距离法速度快,稳健,构建唯一系统发育树序列转化为距离时信息量有丢失。对分歧明显的序列,很难对距离进行可靠估计PAUPMEGAPHYLIP简约法如果树枝短,序列相似性高,信息位点多,结果可靠树枝长度变异大时可靠性较低PAUPMEGAPHYLIP似然法以似然率反映数据最支持怎样的系统发育关系搜索所有可能的系统发育树计算量大PAMLPAUPMEGAPHYLIP分析步骤系统树的精确性和统计检验检验法(Bootstrap,Jackknife,permutation)参考Treebase网站:

系统发育分析原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结果生成多个样本PHYLIPPHYLIP是目前广泛使用的系统发育程序Washington大学JoeFelsenstein开发可以在Mac,DOS,Unix,VAX/VMS等平台上运行工具包:核苷酸和蛋白质序列数据的分析序列数据转变成距离数据后,对距离数据分析对基因频率和连续的元素分析把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件绘制和修改进化树系统发育分析PHYLIP对核苷酸和蛋白质序列数据构建系统发育树主要工具列表protparsproteinparsimonydnaparsDNAsequenceparsimonydnapennyDNAparsimonybranchandbounddnamoveinteractiveDNAparsimonydnacompDNAcompatibilitydnamlDNAmaximumlikelihooddnamlkDNAmaximumlikelihoodwithclockpromlProteinsequencemaximumlikelihoodpromlkProteinsequencemaximumlikelihoodwithclockrestmlRestrictionsitesmaximumlikelihooddnainvarDNAinvariantsdnadistDNAdistanceprotdistProteinsequencedistancerestdistRestrictionsitesandfragmentsdistancesneighborNeighbor-JoiningandUPGMAmethodfitchFitch-MargoliashdistancematrixmethodkitschFitch-MargoliashdistancematrixwithclockseqbootBootstrapping/Jackknifing系统发育分析似然法相关工具简约法相关工具距离法相关工具系统树统计学检验工具TreeView:实验三步骤一:用PHYLIP构建系统发育树步骤二:用TreeView观察构建的系统发育树系统发育分析数据来源GlutamatereceptorgenefamilyofmammalandArabidopsisthaliana:22proteinsequencesOutgroup:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论