生物信息学课件培训资料

上传人：豆*** IP属地：浙江上传时间：2023-01-13 格式：PPT 页数：329 大小：18.11MB 积分：20 举报 版权申诉

已阅读5页，还剩324页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

生物信息学课件了解各种生物数据库掌握利用Internet上的各种数据库、软件，查找生物相关信息，分析和解释各种生物数据。学习本课程的目的SequenceanalysisGenomeannotationAnalysisofgeneexpressionAnalysisofregulationPredictionofproteinstructureComparativegenomics/kech/swxxx/华农主页－南湖教苑－精品课程－国家精品课程－2007年国家精品课程－生物信息学教学网站获取课件及自学资源（仅限校园网内）/用户名：nobody密码：lampp参考教材DavidW.Mount.Bioinformatics:SequenceandGenomeAnalysis.(2ndedition)NewYork:ColdSpringHarborLaboratoryPress,2004.钟扬等译，生物信息学（第一版），高等教育出版社，2003。参考教材周艳红、王石平，生物信息学，高等教育出版社，2007。A.D.BoxevanisandB.F.F.Ouellette.Bioinformatics:APracticalGuidetotheAnalysisofGenesandProteins.(3rdedition)NewYork:Wile-Interscience,2004.注意事项和要求应用型课程，自学占很大比重按时上课，位置固定，课间不休，如已掌握内容，可以早退考试方式：开卷，凡修课者必需参加考试，否则0分分10组，每次一组课后留下做清洁第一章生物信息学的发展和研究内容生物信息学1、什么是生物信息学？生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型交叉学科。以计算机为主要工具，以大量生物数据库和分析软件为基础采用数理和信息科学的理论、技术和方法，分析生物学数据，研究生命现象的一门科学为人类揭示生命的奥秘提供了一条新的途径解决生物学问题为导向2、生物信息学发展简史DDBJ核苷酸数据库1986GenBank和EMBL核苷酸数据库1982M.Dayhoff开始收集蛋白质序列1960sProteinInformationResource（PIR）“…themotherandfatherofbioinformatics…”byDavidJ.Lipman(DirectorofNCBI)Proteinsequenceatlas2、生物信息学发展简史生物信息学

(Bioinformatics)ComputationalbiologyBiologywithcomputer1991SWISS-PROT蛋白质数据库1986BLAST程序1990国家生物技术信息中心（NCBI）1988InvivoInvitroInsilico2、生物信息学发展简史Humangenomeproject(HGP)生物信息学学科的迅速发展在1990年代identifyalltheapproximately20,000-25,000genesinhumanDNA,determinethesequencesofthe3billionchemicalbasepairsthatmakeuphumanDNA,storethisinformationindatabases,

improvetoolsfordataanalysis,transferrelatedtechnologiestotheprivatesector,addresstheethical,legal,andsocialissues(ELSI)thatmayarisefromtheproject.Goals主要高通量技术的发展历程DNA自动化测序（1990-）基因芯片（1995-）新一代测序技术（2005-）厂商RocheIlluminaABI技术454SolexaGASOLiD测序仪GS20FLXTiIIIIIx123序列数目（百万）52810025040115320单末端测序（Single-end）读长（bp）1002004003550100253550运行时间（天）335658通量（Gb）0.050.10.515251416配对末端测序（Paired-end）读长（bp）

2004002×352×502×1002×252×352×50库序列长度（kb）

0.20.2332运行时间（天）

0.30.461010121016通量（Gb）

0.10.529502832Solexa和SOLiD配对末端测序所需时间和产出是单末端的两倍，454的配对末端和单末端差异在于建库方法，所需时间和测序量不变。ABISOLiD包含两张芯片，这里的数据是一张芯片的量。

目前使用最广泛的三大第二代测序平台测序能力统计信息（2010年年初数据）3个水稻基因组/天12个水稻基因组/天10个水稻基因组/天人基因组测序费用TowardsaParadigmShiftinBiology

WalterGilbert,Nature349:99(1991)Thenewparadigm,nowemerging,isthatall“genes”willbeknown(inthesenseofbeingresidentindatabasesavailableelectronically),andthatthestartingpointofabiologicalinvestigationwillbetheoretical.Anindividualscientistwillbeginwithatheoreticalconjecture,onlythenturningtoexperimentstofollowortotestthathypothesis.生物信息学是伴随着生命科学的发展而出现的，并且随着技术的发展而不断发展生命科学的现状：Observing&Recording生命科学的未来：Designing&Creating，离不开生物信息学启示3、生物信息学的基本方法和技术建立生物数据库各种公共数据库本地化数据库数据库检索各种数据检索工具的开发和使用Entrez检索体系BLAST检索体系3、生物信息学的基本方法和技术生物大分子序列分析Homologoussequenceanalysis（同源序列分析）Multiplesequencealignment（多序列对位排列）

Phylogeneticanalysis（进化分析）基因结构、功能分析Mapping(ePCR)、Exon/Intron、Promoter、Regulatoryregions……蛋白质结构、功能分析Motif、3-Dstructure、post-translationalmodification、interactions……3、生物信息学的基本方法和技术基因组分析序列拼接序列注释3、生物信息学的基本方法和技术统计概率模型HiddenMarkovmodel（HMM，隐马尔可夫模型）基因识别和药物设计Maximumlikelihoodmodel（最大似然模型）序列进化分析因特网的域名（domainname）规定四级域名.三级域名.二级域名.顶级域名我校一台名为bioinformatics主机：4、生物信息学的研究内容收集、整理、储存、加工、发布和分析生物学数据发展新的数理和信息科学的技术和方法用于管理和分析生物数据（数理和信息科学工作者，IT人士）（生物工作者，BT人士）5、生物信息学的应用基础研究和教学分子生物学研究的重要手段之一生命科学的教学药物开发（PharmaceuticalBioinformatics）

新药筛选药靶设计分子药理学研究5、生物信息学的应用疾病诊断利用疑难病症的病原DNA序列诊断疾病遗传病其他环境监测(Metagenomics)进化分析6、本课程主要内容检索数据库序列数据的检索和分析比较基因组学（comparativegenomics）进化分析文字数据（文献）的检索序列（DNA、蛋白质）数据的检索其他（三维结构、网络图等）数据的检索分析和解释实验数据（核苷酸和蛋白质序列）利用国际上共享的数据库和分析软件7、上机操作初步了解Internet上的数据库和分析工具自学课程

/Education

http://www.ebi.ac.uk/2can/home.html/nar/database/c/Microarray集成化、并行化、微型化（比拟集成电路，符合摩尔定理）！微乳液PCR桥式PCR单分子测序第二章数据库生物信息学什么是数据库（Database）？用于收集、整理、储存、加工、发布和检索数据的系统。生物类的数据库种类很多（序列、结构、生物分子互作、其它）投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中什么是数据库（Database）？数据库记录通常包括两部分原始数据对这些数据进行的生物学意义的注释一个数据库通常链接了多个相关数据库核苷酸数据库－水稻抗病相关基因OsDR8Taxonomy数据库Pubmed数据库NCBI-Protein数据库DQ176424（一）数据库工具建立纯文本数据库GenBank数据库、EMBL核苷酸数据库数据库工具SQL（结构化查询语言）是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像MySQL下载网址/AccessSQLOracleAceDB数据库工具AceDB：A

C.elegans

DataBase

（线虫数据库）被广泛应用的管理和提供基因组数据的工具数据形式丰富遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011新陈代谢途径物理图谱1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac（一）数据库工具（二）各种生物数据库1、核苷酸数据库

DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列

主要是非实验来源数据codingsequence(CDS)EXONINTRONCDS(codingsequence)ORF(openreadingframe)1、核苷酸数据库1、核苷酸数据库三大核苷酸数据库GenBank、EMBL核苷酸数据库、DDBJUnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)专利核苷酸序列信息资源共享：以天为基础进行数据库之间的序列数据交换1、核苷酸数据库（1）GenBank/genbank美国NCBI的核苷酸数据库，包括部分蛋白质序列数据每天更新，每年发行六版release

/genbank/gbrel.txt

Release182（2011.2.15）132,015,054sequences124,277,818,310bases来源于380,000多个物种大约12％的序列来源于人（Homosapiens）NucleicAcidsRes.2011;39(Databaseissue):D32-37（1）GenBank……Locusname（位点名）Accessionnumber（注册号或登陆号）GI（GenInfoidentifier）

每个序列有一个flatfile每条序列有三个专有的编号或标识（identifier）Samplerecord/Sitemap/samplerecord.html（1）GenBank（1）GenBankThedivisionsofGenBankPRI-primatesequencesROD-rodentsequencesMAM-othermammaliansequencesVRT-othervertebratesequencesINV-invertebratesequencesPLN-plant,fungal,andalgalsequencesBCT-bacterialsequencesVRL-viralsequencesPHG-bacteriophagesequencesSYN-syntheticsequencesUNA-unannotatedsequencesEST-ESTsequences(expressedsequencetags)STS-STSsequences(sequencetaggedsites)GSS-GSSsequences(genomesurveysequences)HTG-HTGsequences(high-throughputgenomicsequences)HTC-unfinishedhigh-throughputcDNAsequencingENV-environmentalsamplingsequencesTSA-TranscriptomeShotgunAssemblyPAT-patentsequencesWGS-wholegenomeshotgun（2）EST数据库dbEST(DatabaseofExpressedSequenceTags)

/dbEST/index.html

GenBank的二级数据库5’端或3’端的cDNA序列（EST）200-500bp “Single-passread”sequenceGenBank中60％以上的序列是EST/About/primer/est.html（3）UniGene数据库NCBI的另一个核苷酸数据库来源于同一基因的非重复EST组成基因序列群人、大鼠、小鼠、斑马鱼、牛、猪等拟南芥、水稻、小麦、大麦、玉米等共计120多个物种UniGene主页输入关键词检索UniGene

/unigene//genbank/TSA.htmlTSAisanarchiveofcomputationallyassembledsequencesfromprimarydatasubmittedtodbEST,theShortReadArchive(SRA),ortheTraceArchive.TheoverlappingsequencereadsfromacompletetranscriptomeareassembledintotranscriptsbycomputationalmethodsinsteadofbytraditionalcloningandsequencingofclonedcDNAs.Theprimarysequencedatausedintheassembliesandtheassembliesmustbesubmittedbythesamesubmitter.TSAsequencerecordsdifferfromESTandGenBankrecordsbecausetherearenophysicalcounterpartstotheassembliesinsertedintheTSArecord.Example（4）STS数据库dbSTS(DatabaseofSequenceTaggedSites)

/dbSTS/index.html

GenBank的二级数据库UniSTS短序列（200-500bp），仅在基因组中出现一次已定位于染色体上如何找到一个STS检索：NCBI主页选择UniSTS后输入关键词检索到的条目每一条目详细内容点击“mapviewer”查看染色体定位（4）STS数据库contigScience1989;245:1434-5.（5）GSS数据库dbGSS(DatabaseofGenomeSurveySequences)

/dbGSS/index.html

GenBank的二级数据库基因组短序列cosmid/BAC/YAC外源插入片段的末端序列AluPCR序列cosmid/BAC/YACHTGS(High-ThroughputGenomicSequences)

/HTGS/

GenBank的二级数据库尚未完成测序的重叠群（>2kb）的序列新序列的增加速度很快（6）HTGS数据库基因组测序过程中（Phase0、1、2）产生的过渡数据Nature,409,860-921Phase3Finished,nogaps(withorwithoutannotations)Phase0one-to-fewpassreadsofasingleclone(notcontigs)Phase1Unfinished,maybeunordered,unorientedcontigs,withgapsPhase2Unfinished,ordered,orientedcontigs,withorwithoutgaps鸟枪法（shotgun）测序流程水稻基因组全基因组大小：430Mb；

每个Reads读长450bp；

故覆盖每个水稻基因组所需反应：100万；

覆盖水稻基因组8X，需要800万反应；

每个反应的测序成本为19元，800万反应总共需15200万人民币；

人力费800万人民币。中国水稻基因组计划的经费预算Genomesequencing:QUICKER,SMALLER,CHEAPER/XPRIZEFoundationNature2008,452:788

Genome

/sites/entrez?db=genomeNCBI的另一个数据库测序完成和正在测序物种基因组序列、遗传图、物理图等序列收集在GenBank已经完成测序的基因组（截止2011年2月）

GenomeProject——Statistics（7）基因组数据库dbSNP(DatabaseofSingleNucleotidePolymorphisms)

/sites/entrez?db=snp

NCBI的数据库，创建于1998.9约每300bp有一个SNP数据种类SNP

Insertion/deletion(Indel)

Deletion/insertion/substitution(DIS)发现致病基因、进化分析…（8）单核苷酸多态性数据库/About/primer/snps.htmldbSNP主页输入关键词检索到的条目每一条目详细内容代码碱基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C标准碱基多意代码（8）单核苷酸多态性数据库

（9）EMBL(EuropeanMolecularBiologyLaboratory)

NucleotideSequenceDatabaseEBI(EuropeanBioinformaticsInstitute)管理与GenBank收集的数据相同序列数据文档格式与GenBank不同数据库主页http://www.ebi.ac.uk/embl输入关键词检索到的条目每一条目详细内容（10）DDBJ(DNADataBankofJapan)

与GenBank收集的序列数据相同数据库主页http://www.ddbj.nig.ac.jp/Welcome-e.html输入关键词检索到的条目每一条目详细内容发表文章要提供Accessionnumber（在三大核苷酸数据库中通用）EPD(EukaryoticPromoterDatabase)

http://www.epd.isb-sib.ch/由WeizmannInstituteofScienceinRehovot(Israel)开创4806条真核生物启动子序列（2009.6）人类基因组中的启动子大约19万个同一个基因具有多个启动子（11）启动子数据库miRBase

/收集了>15000条hairpinprecursormiRNA序列（2010.9）来源于>100个物种可以通过miRNA名称、关键词、染色体位置等信息检索数据库分析一条DNA序列中是否可能包含miRNA（12）miRNA数据库2、蛋白质数据库由PIR、EBI和SIB创办分为两个部分：来源于实验的有详细注释的序列（SwissProt）和自动注释序列（TrEMBL）与100多个数据库相互参照（cross-reference）可用关键词（Textsearch）和序列比对（BLASTsimilaritysearch）进行检索（1）UniPROT

/数据库主页，使用关键词检索结果页面，reviewed（Swiss-Prot），unreviewed(TrEMBL)Browsebytaxonomy,keyword,geneontology,enzymeclassorpathway条目详细内容（1）UniPROT蛋白质家族分类

蛋白质整合信息（2）其它类型的蛋白质数据库蛋白质家族结构域Prosite/prositePIR(ProteinInformationResource)3、结构数据库（1）PDB(ProteinDataBank)

由BrookhavenNationalLaboratories创办

蛋白质核酸其它71,415个结构图（2011.2）可通过BLAST系统检索（1）PDB(ProteinDataBank)（2）SWISS-3DIMAGE

http://www.expasy.ch/sw3d/蛋白质的平面和立体图来源于实验结果理论模型X射线衍射图、核磁共振（NMR）光谱图和电镜图（文字和三维结构图）4、酶和代谢数据库KEGG(KyotoEncyclopediaofGenesandGenomes)各种代谢、遗传等路径图可检索参于各种路径的基因KEGG主页http://www.genome.ad.jp/kegg/点击“PATHWAY”“PATHWAY”网页点击任一代谢路径，如糖酵解/糖原异生途径（Glycolysis/Gluconeogenesis)检索GeneticInformationProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任一遗传信息路径，如Proteinexport路径可以查看参加这一路径蛋白质的信息KEGG数据库检索EnvironmentalInformationProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何EnvironmentalInformationProcessing路径，如MAPKsignalingpathway路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息KEGG数据库检索CellularProcessesKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何CellularProcesses路径，如Cellcycle路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息KEGG数据库5、物种分类数据库物种分类界（Kingdom）门（Phylum）纲（Class）目（Order）科（Family）属（Genus）种（Species）每一分类等级下可加设亚级（Sub-），如亚门、亚纲、亚科等。每一分类等级上可加设总级（Super-），如总纲、总目、总科等。动物界（Animal）脊索动物门（Chordata）脊椎动物亚门（Vertebrata）哺乳纲（Mammalia）啮齿目（Rodentia）鼠科（Muridae）小家鼠属（Mus）小家鼠种（musculus）Mouse：Musmusculus/Taxonomy/taxonomyhome.html拟南芥系谱（lineage）查找某一物种的系谱树在NCBITaxonomy主页输入物种名称“pig”Taxonomy数据库lineage6、文献数据库（1）

/PubMed/美国国家医学图书馆的数据库医学、分子生物学、基础生物学5400多种刊物，来源于80多个国家文献年限：1947年至今提供摘要，全文链接免费全文收集在（2）其它类型的文献数据库Agricola

/美国农业部农业图书馆的数据库农业类刊物OMIM(OnlineMendelianInheritanceinMan)/sites/entrez?db=OMIMNCBI的数据库，每天更新数据人类基因、遗传疾病输入疾病、基因名称条目7、更多的数据库/nar/database/c/8、向数据库提交和修改核苷酸和蛋白质序列提交：Submission修改：Update数据库中的数据由大家无偿提供，共同享用Accuracy？？（1）向GenBank提交或修改核苷酸序列

在GenBank主页用BankIt

功能提交序列网上直接提交，简单方便提交后立刻得到临时编号二天内得到Accessionnumber用Update

功能修改GenBank中的序列和相关信息

修改一次，version的编号就进一位Accessionnumber不变

用Sequin方法提交序列

可下载的电子表格自动确定CDS、ORF和查找重复序列New（2）向SWISS-PROT提交或修改蛋白质序列

网上直接操作只接收用蛋白质直接测序的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL/sprot/More…

EMBLhttp://www.ebi.ac.uk/embl/Documentation/information_for_submitters.html大规模数据邮件联系9、常用序列格式FastaGenbankflatfileASN.1格式转换http://www.ebi.ac.uk/cgi-bin/readseq.cgi/molbio/readseq/上机操作熟悉各种数据库了解常用序列格式并学习格式转换重点了解GenBank和SWISS-PROT的各种功能和适用范围Xa26nucleicacidsequence(DQ426646,6000bp):>Xa26,mRNAATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAA…Xa26aminoacidsequence(ABD84047,1103aa):>Xa26,proteinMALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPFCRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS…AdamZemla

FourgeneticsignaturesoftheSARSvirus–showninyellow,blue,lightgreen,anddarkgreen–aremappedontoa3-DproteinmodeloftheSARSRNApolymerase.Surfacefeaturesofthesubstrate-bindingpocketsofTGEVMpro(A)andSARS3CLproteinase(B).Thesurfacecolorwasloadedbytheelectrostaticproperties.Onesmallmolecule,itschemicalstructureisshownin(C),producedbythevirtualscreeningontheMDDRdatabase,representedasCPKmodel,wasdockedintothebindingpockets.

XIONGBin

Microarray2-DPAGETwentymostsequencedorganismsinGenBank(2011.2)建立特定染色体的基因组文库随机选择克隆进行短片段单次测序比对确认不含重复序列在序列上寻找引物合成引物对基因组DNA进行PCR产物为单一片段即是STS标记，确认其在染色体上的位置如何找到一个STSNewBankIt第三章关键词或词组为基础的数据库检索生物信息学检索数据库的方法用关键词或词组进行数据库检索(Text-baseddatabasesearching)用核苷酸或蛋白质序列进行数据库检索(Sequence-baseddatabasesearching)GenenameAuthorAccessionnumber…Database关键词或词组为基础的数据库检索关键词名词、描述性词、词组序列注册号(Accessionnumber)检索体系EntrezSequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)TrendsinBiotechnology1998,16(supplement1):3-5.检索须知（1）连接词AND,OR,NOT（Booleanoperators）riceANDenzyme(AND为缺省值，可略去)riceANDenzymeNOTkinaseretrotransposonORretroelement注意事项：1、AND,OR,NOTmustbeenteredinUPPERCASE2、Booleanoperatorsareprocessedinaleft-to-rightsequencericeAND(microarrayORexpressionprofile)riceANDmicroarrayORexpressionprofile3、Theordercanbechangedbyenclosingindividual

conceptsinparentheses(processedfirst)PubMed>27000records504records用引号将两个单词组成一个词组16SrRNA=16SANDrRNA“16SrRNA”pseudopod*=pseudopod

pseudopodiaOR

pseudopodium

检索须知（2）Nucleotide16SrRNA“16SrRNA”~350000sequences~3000000sequencesexactmatchwildcard,*,放在单词后使检索范围扩大，但专一性降低1.Entrez/gquery/NCBI的检索体系优点：三种检索体系中最容易操作的体系缺点：检索范围有限EntrezHelpEntrez可对8大类40个数据库进行检索NucleicAcidsResearch2011,39:D38–D51ScientificliteraturePubmed自动将检索词翻译为MeSH词汇Entrez可对8大类40个数据库进行检索Sequence,Structure,Expression…Entrez系统中数据库之间的连接NCBI主页选择“AllDatabases”或Entrez主页，输入关键词各个数据库中检索到的信息数量点击相应数据库查看信息目录，每一条信息与其它数据库的相关信息链接检索方法（1）：跨库检索(cross-databasesearch)检索方法（2）：选择数据库检索NCBI主页选择数据库，输入关键词检索到的信息目录，每一条信息与其它数据库的相关信息链接查看信息内容RefiningYourSearch查询insulin基因的序列不是想要的结果！如何精简？RefiningYourSearch查询人insulin基因的序列insulin[proteinname]human[organism]RefiningYourSearch关键词[查询范围]human[ORGN]AND50[SLEN]:60[SLEN]AND1999[MDAT]RefiningYourSearchAim:FindallhumannucleotidesequenceswithD-loopannotations.不同数据库的Searchfields不同，详见Limits选项！jmolevol[JOUR]ANDdrosophila[ORGN]D-loop[FKEY]ANDhuman[ORGN]Aim:Findallhumanproteinsequenceswithlengthsbetween50and60aminoacidsthatwereenteredintothedatabaseduring1999.Aim:FindDrosophilapopulationstudiespublishedintheJournalofMolecularEvolutionSearchFieldDescriptionsforSequenceDatabaseWatsonJ[author]1953[publicationdate]nature[journal]WatsonJ[AU]1953[DP]nature[TA]RefiningYourSearchPubMed数据库的搜索SearchFieldDescriptionsandTagsforPubmed如何自动获得最近更新的结果？检索、管理和引用文献的工具

2.SRS(SequenceReterievalSystem)http://srs.ebi.ac.uk/

HelpEuropeanBioinformaticsInstitute(EBI)的检索体系优点：检索面宽缺点：操作复杂17大类194个数据库与SRS体系相连Literature,BibliographyandReferencedatabasesNucleotidesequencedatabasesUniprotUniversalProteinResourceOtherproteinsequencedatabasesDeprecatedProteinDatabasesNucleotiderelateddatabasesProteinfunctiondatabasesProteinstructuredatabasesEnzymes,reactionsandmetabolicpathwaydatabasesMutationandSNPdatabasesGeneontologyresourcesBiologicalResourcesCataloguesMappingdatabasesOtherdatabasesUserowneddatabasesApplicationresultdatabasesEMBOSSresultdatabases检索方法（1）：快速检索(Quicksearch)操作简单，检索数据库有限适用于目标明确的检索在SRS主页选择检索类别，输入关键词检索到的信息目录，每一条信息与其它数据库的相关信息链接查看信息内容检索方法（2）：高级检索(advancedsearch)操作稍微复杂，可以检索所有数据库适用于范围广泛的检索在SRS主页点击“LibraryPage”在“LibraryPage”网页选择数据库，然后点击“QueryForm”在“QueryForm”网页输入关键词检索检索到的信息目录，每一条信息与其它数据库的相关信息链接3.DBGET(Integrateddatabaseretrievalsystem)http://www.genome.jp/dbget/日本GenomeNet的检索体系优点：与KyotoEncyclopediaofGenesandGenomes(KEGG)database相连操作较SRS简单缺点：检索面较SRS窄DBGET与40多个数据库相连DBGET检索体系中数据库之间的连接检索方法（1）：单库检索（basicsearch）在DBGET主页选择一个数据库输入关键词检索查看检索到的信息目录查看信息详细内容检索方法（2）：跨库检索（LinkDB）在DBGET主页点击“LinkDB”在查询网页选择数据库输入关键词检索（数据库:编号）结果不是总能得到你所需要的信息关键词的使用retrotransposon retro-transposon

数据库所包含数据的多少和范围不同的数据库包含内容有限关键词的拼写错误4、自习资源4、上机操作1、查找与水稻抗病基因Xa21有关的资料:（1）有多少条序列具有全长CDS，分别由多少碱基构成？编码多少个氨基酸？（2）指出该基因exon和intron的位置（3）Xa21蛋白是否有3-Dstructure数据2、查找线虫(Caenorhabditiselegans)基因组的资料：（1）chromosomeI的测序是否已完成？（2）已知的chromosomeI的序列有多少碱基？序列发表在哪份杂志上？期号和页码？3、查看拟南芥(Arabidopsisthaliana)的系谱关系(lineage)。4、在PubMed中检索我校在2011年1月发表的科研论文。5、熟悉SRS和DBGET检索体系第四章核苷酸和蛋白质序列为基础的数据库检索生物信息学检索数据库的方法用关键词或词组进行数据库检索(Text-baseddatabasesearching)用核苷酸或蛋白质序列进行数据库检索(Sequence-baseddatabasesearching)GenenameAuthorAccessionnumber…Database核苷酸和蛋白质序列为基础的数据库检索序列对位排列（sequencealignment）将两条或多条序列对位排列，突出相似的结构区域序列1序列2FunctionStructureSequence表示序列的字符两条蛋白质序列对位排列分析分析功能分析物种进化检测突变、插入或缺失序列延长序列定位基因表达谱分析序列比对的用途序列对位排列分析的种类序列对库对位排列分析多序列对位排列分析从数据库中寻找同源序列主要涉及核苷酸数据库和蛋白质数据库两序列对位排列分析（一）序列对位排列分析的基本原理1、记分矩阵（scoringmatrix）记分矩阵中含有两条序列对位排列时具体使用的分值长度一定时，分数越高，两条序列匹配越好DNA序列对位记分序列1ACGTTA序列2ACTTTG记分22-322-3=2蛋白质序列对位排列分析记分复杂一致氨基酸的记分不同稀有氨基酸（C），分值高普通氨基酸（S），分值低相似氨基酸也记分，如R-K蛋白质序列对位记分序列1VDSCY序列2VNWCY记分41-397=181、记分矩阵（scoringmatrix）蛋白质有多种记分矩阵PAM矩阵（如PAM30、PAM70）BLOSUM矩阵（如BLOSUM62、BLOSUM80）BLOSUM62aminoacidscoringmatrixBLAST默认scoringmatrix1、记分矩阵（scoringmatrix）基因进化过程中产生突变序列对位排列分析时允许插入空位空位罚分涉及两个参数插入缺失空位开放（gapopening）空位延伸（gapextension）序列1ATGCTGA序列2ATGGA序列1ATGCTGA序列2ATG--GA222-5-222=3IndelATGTGA2、空位（间隔）罚分（gappenalty）3、对位排列的方法词或K串方法（BLAST,FASTA）点阵分析（Dot-matrix）动态规划（Dynamicprogramming）（二）序列对库对位排列分析BLASTFASTAOthermethods主要检索体系用待分析序列对数据库进行相似性分析重复许多次的两两序列对位排列分析从数据库中找出所有同源序列1、基本概念（1）Sequenceidentity和sequencesimilarityIdentity:

两条序列在同一位点上的核苷酸或氨基酸残基完全相同Theextenttowhichnucleotideorproteinsequencesarerelated.Theextentofsimilaritybetweentwosequencescanbebasedonpercentsequenceidentityand/orconservation.InBLASTsimilarityreferstoapositivematrixscoreTheextenttowhichtwo(nucleotideoraminoacid)sequencesareinvariant.Similarity(positive):

两条序列在同一位点上的

氨基酸残基的化学性质相似Homology同源Identity相同Similarity相似Ais80%identicaltoBAis80%similartoB×HomologyAis80%homologoustoBIfyoursequencesaremorethan100aminoacidslong(or100nucleotideslong),youcanlabelproteinsas“homologous”if25percentoftheaminoacidsareidentical,forDNAyouwillrequireatleast70percentidentity（2）Globalalignment和localalignmentQuerySubjectQuerySubjectGlobalalignment:两条完整的序列相比较QuerySubjectLocalalignment:两条序列中相似程度最高的部分相比较（3）Gappedalignment和ungappedalignmentQuerySubjectQuerySubjectQuerySubjectGappedalignment:

为达到最佳alignment，序列中加入空位QuerySubjectUngappedalignment：相比较序列的核苷酸或氨基酸序列连续（4）Alignmentscore和E(expect)value衡量两条相比较序列相似程度的标准(bits)Score:分值越大，两个比较序列相似程度越高Evalue:期望得到的、完全由机会造成的、相当于或大于目前分值的alignment次数E值取决于alignment分值、相比较序列的长短和数据库中数据的数量Blast中E的阈值为10。1e-66=110-66

E值越小越好试验组存活率比对照组高20%（p<0.05）（5）Low-complexityregions(LCRs)核苷酸和蛋白质序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列（如Poly-A）数据库中半数以上的序列至少带有一个LCRSequencealignment时应避免LCR相互配对得分BLAST用Filter功能避免比较LCR在比对结果的query序列中用小写字母或x和n（分别代表氨基酸和核苷酸）代表LCRBLAST(BasicLocalAlignmentSearchTool)检索

/HelpBasicBLASTSpecializedBLASTBLAST

programsblastn

用核苷酸序列检索核苷酸数据库blastp

用蛋白质序列检索蛋白质数据库blastx

将核苷酸序列通过6种阅读框翻译成不同的蛋白

质序列检索蛋白质数据库tblastn用蛋白质序列检索核苷酸数据库（数据库中的序

列被翻译出不同的蛋白质序列）tblastx

将核苷酸序列通过6种阅读框翻译成不同的蛋白质序列检索核苷酸数据库（数据库中的序列也被翻译出不同的蛋白质序列）BLASTdatabasesHumangenomicplustranscript人基因组和mRNA序列

Mousegenomicplustranscript小鼠基因组和mRNA序列

nucleotidecollection(nr/nt)GenBank(无EST,STS,GSS,HTGS)

non-redundantproteinsequences(nr)非冗余蛋白质数据库

refseq-rnaReferencemRNAsequences

refseq-genomicReferencegenomicsequences

refseq-proteinReferenceproteinsequencesestEST数据库BLASTdatabasesest-others非人和小鼠的EST数据库gss GSS数据库htgs HTGS数据库pat 专利序列数据库pdb 蛋白质三维结构数据库alu_repeatsAlu重复序列数据库swissprot swissprot蛋白质数据库dbsts STS数据库wgswhole-genomeshotgunreadsenv_ntEnvironmentalsamples(nt)env_nrEnvironmentalsamples(pro)（1）BLASTN将要查询的序列直接粘贴到序列框中或输入登陆号，GI号选择database、organism选择BlastAlgorithm

可进行其它项目的选择用于分析进一步选择检索范围：Limitbyentrezquery(如proteaseNOThivI[organism])Filter(Humanrepeats)：遮盖重复序列可加快检索速度（特别是>100kb的片段）结果页面BLAST结果解读SequenceBLAST结果解读HitlistScore(Bitscore)

Highbitscore=goodmatchE-Value

LowE-value=goodmatchRed:verygoodGreen:acceptableBlack:badE-valueshigherthan1e-4requireextraevidencetosupporthomologyE-valueslowerthan1e-4indicatepossiblehomology1e-03=borderlineE-value1e-04=goodE-value1e-10=verygoodE-value（2）BLASTP基本操作同blastn（3）PSI-BLAST(PositionSpecificIteratedBLAST)氨基酸序列检索重复检索数据库第一步检索数据库

新的alignmentsequences第二步可继续检索循环被查询序列（query）

BLASTP标准检索点击RunPSI-Blastiteration2（4）PHI-BLAST(PatternHitInitiatedBLAST)蛋白质序列，并带有特殊区域（pattern）具有同样的特殊区域其它区域与查询序列相似可与PSI－BLAST相连，重复检索在数据库中检索到的蛋白质可查询检测到的特殊区域检索前需输入PROSITE数据库的结构句法（patternsyntax）如：[IVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]（5）TranslatedBLASTblastx,tblastn,tblastx

基本操作同blastn(6)ConservedDomainSearch检索conserveddomaindatabase只适用于蛋白质序列的检索分析检测被检索的序列中是否含有保守结构域点击“Searchforsimilardomainarchitectures”查看相关结构域点击结构域图标查看多序列对位排列（7）Primer-BLAST/tools/primer-blast/设计PCR引物分析引物特异性

在GenBank检索结果页面中提供了链接结果（8）Constraint-basedMultipleAlignmentTool/tools/cobalt/多重比对进化分析

在blast检索结果页面中提供了链接结果3、FASTA检索

http://www.ebi.ac.uk/Tools/sss/Programs一些特殊设计的序列检索体系在发现基因和蛋白质家族成员方面可能更为可靠BLAST和FASTA检索体系有时不能检测出某些远缘序列的相关性（三）两序列对位排列分析NCBI的分析工具对任意两条序列进行对位排列分析允许空位SpecializedBLASTAligntwo(ormore)sequencesusingBLAST(bl2seq)Needleman-Wunsch

GlobalSequenceAlignmentTool序列来源输入Accessionnumber

直接粘贴序列适用于blastn,blastp,blastx,tblastn,tblastxblastn:两条核苷酸序列相比较blastp:两条蛋白质序列相比较tblastn:比较蛋白质序列（sequence1）和核苷酸序列（翻译成蛋白质序列）（sequence2）blastx:比较核苷酸序列（翻译成蛋白质序列）（sequence1）和蛋白质序列（sequence2）tblastx:两条核苷酸序列（翻译成蛋白质序列）比较BLAST2sequences结果格式两种图形两序列对位排列Seq2Seq1BLAST2sequences结果格式两种图形两序列对位排列Needleman-Wunsch

GlobalSequenceAlignmentToolSeq2Seq1编码区的比对应以密码子为单位勿改变编码框注意：Nucl.AcidsRes.(2003)31:3537-3539eTBLASTDuplicationPlagiarismNature2008451:397-399Atextsimilarity-basedengineforsearchingliteraturecollectionsadatabaseofhighlysimilarcitationsinthescientificliterature

/dejavu/（四）上机操作了解BLASTHelp中的内容。以大麦Mlo基因（Z83834）为查询序列

(1)用Blastn能在nr/nt数据库中检索到多少条与之同源的序列？有多少条是禾本科中的？

(2)换用megablast或discontiguousmegablast，观察检索结果的改变。

(3)尝试修改Blastn的参数，观测对检索结果的影响。

(4)找出Mlo基因的编码蛋白序列，用Blastp检索到的与Mlo蛋白同源的序列与用PSI-Blast检索到的同源序列是否有差别？

(5)使用BlastX预测Mlo基因的编码蛋白。用bl2seq分析大麦和小麦Mlo基因mRNA序列编码区和蛋白质产物的同源性

GFCN*FFT*LN?

WLLQLILNLA*C

MASATNSSLSLM?5’ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC3’3’TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG5’?PLQW*NLV*TLAHSRCSIR*LR*H?AEAVLEESVNIBlastx的6种阅读框架第五章多序列对位排列和进化分析生物信息学chickenPLVSSPLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCNxenopusALVSGPQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCNhumanLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNmonkeyPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNdogLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCNhamsterPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNbovinePQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCNguineapigPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCNBringthegreatestnumberofsimilarcharactersintothesamecolumnofthealignmentMultipleSequenceAlignment(MSA)多序列对位排列HumanHoxgenes为什么要做MSA？用于描述一组序列之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。用于预测新序列的二级和三级结构，进而推测其生物学功能。用于描述同源序列之间的亲缘关系的远近，应用到分子进化分析中。是构建分子进化树的基础。为什么要做MSA？abcGenetreeABCSpeciestreeWeoftenassumethatgenetreesgiveusspeciestrees注意概念：Paralogy（旁系同源/并系同源）&Orthology（直系同源）怎么做MSA？动态规划算法（dynamicprogramming）：MSA改进算法（启发式算法）：

1.渐进法（progressivemethods）：Clustal,T-Coffee,MUSCLE2.迭代法（iterativemethods）：PRRP,DIALIGN3.其它算法：PartialOrderAlgorithm、profileHMM、meta-meth

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物信息学课件培训资料

文档简介

温馨提示

最新文档

评论

生物信息学课件培训资料

文档简介

温馨提示

最新文档

评论

相关文档