中国科技大学系列《生物信息学》01省公开课金奖全国赛课一等奖微课获奖课件_第1页
中国科技大学系列《生物信息学》01省公开课金奖全国赛课一等奖微课获奖课件_第2页
中国科技大学系列《生物信息学》01省公开课金奖全国赛课一等奖微课获奖课件_第3页
中国科技大学系列《生物信息学》01省公开课金奖全国赛课一等奖微课获奖课件_第4页
中国科技大学系列《生物信息学》01省公开课金奖全国赛课一等奖微课获奖课件_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学

(Bioinformatics)第一章:概论1/41背景人类基因组计划(HumanGenomeProject,HGP):1990年正式开启,意在完成人类基因组约30亿个碱基全序列测定。

海量生物数据快速膨胀:DNA、RNA和蛋白质序列,蛋白质二级结构和三维结构数据,蛋白质相互作用数据等。

对大量生物数据管理、分析和信息化需求促进了生物信息学快速发展。2/41人类基因组计划

HGP(HumanGenomeProject)由美国NIH和能源部提出和带头,美、英、德、法、日、中共同参加国际合作项目。重大国际研究项目:测定人类基因组全部DNA序列,构建人类基因组遗传图谱和物理图谱。1990年:正式开启,30亿美元。年:人类基因组草图公开发表。年:美国宣告该项目完成。3/41生物信息学定义历史演变定义一:生物信息学是一门搜集、分析遗传数据以及分发给研究机构新学科(Bioinformaticsisanewsubjectofgeneticdatacollection,analysisanddisseminationtotheresearchcommunity)。(Dr.HwaA.Lim,1987)定义二:生物信息学特指数据库类工作,包含持久稳固在一个稳定地方提供对数据支持(Bioinformaticsreferstodatabase-likeactivities,involvingpersistentsetsofdatathataremaintainedinaconsistentstateoveressentiallyindefiniteperiodsoftime)。(Dr.HwaA.Lim,1994)定义三:生物信息学是在大分子方面概念型生物学,而且使用了信息学技术,这包含了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来了解和组织与生物大分子相关信息。(Luscombe,)4/41什么是生物信息学?Bioinformaticsisthefieldofscienceinwhichbiology,computerscience,andinformationtechnologymergeintoasinglediscipline.Theultimategoalofthefieldistoenablethediscoveryofnewbiologicalinsightsaswellastocreateaglobalperspectivefromwhichunifyingprinciplesinbiologycanbediscerned.Biologyinthe21stcenturyisbeingtransformedfromapurelylab-basedsciencetoaninformationscienceaswell.

fromNCBI’sscienceprimer/About/primer/bioinformatics.html5/41什么是生物信息学?生物信息学是一门交叉学科,它包含了生物信息获取、处理、存放、分发、分析和解释等在内全部方面,它综合利用数学、计算机科学和生物学各种工具,来说明和了解大量数据所包含生物学意义。(美国人类基因组计划第一个五年总结汇报,1995)6/41广义生物信息学观点Biologymaybeviewedasthestudyoftransmissionofinformation:frommothercelltodaughtercell,fromonecellortissuetypetoanother,fromonegenerationtothenext,andfromonespeciestoanother.Thisinformationalviewpointistermedbioinformatics.生物学研究能够被看成是研究信息传递:从DNA经转录翻译到蛋白质,从细胞质中到细胞核内,从母细胞到子细胞,从一个细胞或一个组织到另一个细胞或另一个组织,从一代到下一代,从一个物种到另一个物种进化演变。这种信息论观点即可称为生物信息学。

(Bioinformaticchallengesforthenextdecade(s),DavidEisenbergetal.,)7/418/41生物信息学主要研究内容生物信息存放与查询;序列比对;基因预测及基因组分析;分子进化与系统发育分析;RNA结构预测;蛋白质结构预测;分子设计与药品设计;生物网络;生物芯片;9/41生物信息学发展历程1952年,Sanger依据胰岛素蛋白质测序结果,推断蛋白质是排列完美分子。-最早信息论观点。1955年,Sanger与合作者分别对牛、猪和羊胰岛素蛋白质进行了测序并做了序列上比较。-最早序列比对。1962年,鲍林提出分子进化理论,推测在人中可能存在50,000~100,000个不一样基因/蛋白质。-分子进化理论奠定。1965年,MargaretDayhoff构建蛋白质序列图谱1970年,Needleman-Wunsch算法:全局优化比对。1981年,Smith-Waterman算法开发:局部优化比对。1990年,快速序列相同性搜索工具BLAST开发10/41生物信息学发展过程中里程碑性事件11/41过去20年发展情况12/41最早序列分析:胰岛素蛋白质InsulinChainA:8-10位存在着不一样(牛,ASV;猪,TSI;羊,AGV)(Brownetal.,1955)。MadebyGeneDoc13/41不一样物种系统发育分析14/4180年代:DNA序列数据库1.1974年,GeorgeI.Bell等人搜集DNA序列,构建GenBank数据库。1982~1992开发第一个版本。2.1980年,EMBL数据库成立。3.1984年,日本DDBJ数据库成立。4.核酸序列数据去冗余:Refseq数据库,对于相同序列只列一条目录。15/41核酸数据库数据增加16/41获取序列及检索公共数据库1.NCBI:Entrez开发,D.Lipman等人。2.提供关键字搜索方法。3.“硬搜索”:包含关键字,完全匹配结果。4.“软搜索”:与查询内容相关信息。5.查询内容:基因/蛋白质名称、标识符,文件、蛋白质结构,等等。17/41/sites/gquery18/41序列比对工具开发1.1970年,GibbsAJ和McIntyreGA,点阵法进行氨基酸和核酸序列比较:当相同字母在两条序列中同时出现时,在交叉处置点。2.1970年,Needleman-Wunsch,全局优化序列比对算法:允许匹配、错配和缺失。动态规划算法:任务可分割,分成更小子问题进行处理。3.1981年,Smith-Waterman,局部优化序列比对算法。4.FASTA&BLAST开发,启发式优化算法。5.多序列比对:CLustalW/X,POA,MUSCLE.19/41AGCTAGGAGACTAGGC两条DNA序列点阵法比较20/41Needleman-Wunsch算法GATCTAGATCA21/41全局优化vs.局部优化ACTGTTCCGAA……AGCCTGA……ACTACTG…100kbp……100kbp…ACGCCTGACTGTTCCGAA……AGCCTGA……ACTACTG…100kbp……100kbp…AC---…---GCC---…---TG全局优化ACTGTTCCGAA……A-GCCTGA……ACTACTG…100kbp……100kbp…ACGCCTG局部优化22/41数据库中搜索相同序列经过搜索数据库中相同序列发觉基因功效。比如反转录病毒编码致癌基因v-sis和v-src经过和模式生物已知遗传或生化信息基因序列进行相同性搜索,预测新基因功效。FASTA和BLASTFASTA:以几个残基长度’word’为单元进行检索;W.Pearson和D.Lipman开发。BLAST:应用最广泛序列相同性搜索工具,相比FASTA有更多改进,速度更加快。PSI-BLAST:位点特异性迭代BLAST PHI-BLAST:模式发觉迭代BLAST23/41基于序列信息研究分子进化1.构建进化树,分析蛋白质超家族及亚家族分类。2.寻找Ortholog(直系同源物)或者Paralog(旁系同源物)。3.分子进化树构建方法:邻接法(Neighbor-Joining),最大简约法(MaximumPasimony),最大似然性法(MaximumLikelihood),以及贝叶斯类算法(MCMC)。4.构建进化树第一步:可靠多序列比对。24/41RNA二级结构预测1.RNA分子中,假如存在重复且反向互补,则能够形成发卡结构。2.动态规划法:最多配正确碱基对。3.应用:构建RNA分子数据库。

25/41RNA发卡二级结构26/41蛋白质结构预测

大量序列已知vs

.少许结构解析

试验方法测定:X射线晶体学,核磁共振等三级结构主要由一级序列决定。蛋白质折叠类型相对有限(~1,000)。蛋白质二级结构预测->三级结构预测27/41基因芯片抽提样本RNA,反转录成cDNA,荧光染料标识,标识量与RNA约成正比;DNA样品与芯片上探针杂交;扫描芯片,测定荧光强度,评定检测样与对照样基因表示量改变;28/41生物信息学过去、现在和未来29/41生物信息学:学科交叉30/41生物信息学相关知识贮备1.生物学背景:e.g.,分子生物学、细胞生物学、发育生物学、生物化学,…2.数学知识:概率论与统计学等3.算法及编程能力:JAVA,Perl/Python,PHP+MySQL,…31/41生物信息学惯用算法与方法

动态规划算法(Dynamicprogramming);

贝叶斯统计(bayesianstatistic);人工神经网络(ANNs);

马尔可夫模型和隐马尔科夫模型(HMM);遗传算法(GeneticAlgorithm);

蒙特卡洛方法(MonteCarlo);

模拟退火算法(SimulatedAnnealing);支持向量机(SVM);…32/41科研机构及网络资源中心NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心NCBI。/EMBnet:欧洲分子生物学网络/EMBL-EBI:欧洲分子生物学试验室下属欧洲生物信息学研究所。http://www.ebi.ac.uk/ExPASy:(ExpertProteinAnalysisSystem)瑞士生物信息研究所SIB下属蛋白质分析教授系统;/33/41科研机构及网络资源中心BioinformaticsLinksDirectory:http://bioinformatics.ca/links_directory/

各种数据库等

如PDB(ProteinDataBank)UniProt数据库软件资源:/tools/http://www.ebi.ac.uk/Tools//Tools/34/41国内生物信息中心举例CBIPKU:北京大学生物信息中心

BioSino:中国生物信息

/

中国科学院上海生命科学院生物信息中心上海生物信息技术研究中心

/35/41生物信息学相关杂志36/41硕士物信息学普通步骤1.确立研究生物学体系。比如:生物芯片数据分析;蛋白质三级结构与功效;2.确定研究问题。已经有哪些计算方面工作?是否需要试验支持?3.构建生物学/数学模型,比如:ligand结合位点预测,构建特异性识别位点结构模式模型。4.计算方法选择或开发:HMM,SVM,ANN或新方法。5.计算结果分析,与同类工具做比较。构建对应数据库/软件/在线网站等。6.扩展及应用:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论