版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学
Bioinformatics
第2讲生物信息学研究内容主讲教师:刘吉平liujiping@2004年3月生物信息学主要介绍的内容:什么是生物信息学?国内外生物信息学的研究历史和现状。生物信息学的研究内容和科学目标。分别解读生物分子的三大核心数据库:GenBank核酸序列数据库、SWISS-PORT蛋白质序列数据库、 PDF生物大分子结构数据库。介绍国内外有关生物信息学的网站和网址。生物信息学在上找有关生物信息学的网站或网页BiologyProteinPhenotypeDNA(Genotype)The4basescNNCCCCCCCCCNNNNNHooHHHHHHHHAdenineThyminecNNCCCCCCCCNNNNHoHHoNNHHHHHGuanineCytosineA-TG-CNote:thisisflat!UracilreplacesTinRNAPurineringPyrimidinering三研究内容生物信息学与计算生物学或生物计算有着密切的关系,但又不尽相同.目前归入生物信息学研究领域的大致有以下七个方面:Bioinfomatics七个方面研究内容建立和管理各种生物数据库生物信息数据库使用生物信息学中的数学模式和算法研究数据库接口和检索工具的研制HGP的实施,对信息采集和处理提出的要求生物信息学最重要的任务,是从大量数据中提取新知识DNA芯片和微阵列的发展1建立和管理各种生物数据库各种生物数据库的建立和管理。如核酸序列数据库、蛋白质数据库、各种专业的数据库等。这是一切生物信息学工作的基础,通常要有计算机科学背景的专业人员与生物学家密切合作。2、生物信息数据库使用
近些年来随着快速序列测定、基因重组、多维核磁共振等技术的应用,基因组与蛋白质的实验数据呈爆炸性趋势增长;建立数据库再结合有关的分析软件使大规模数据的贮存、处理和分析成为可能,并已发展成为包括基因组信息与蛋白质结构模拟在内的生物信息学研究的重要基础。核酸序列数据库
Genbank,美国国家生物技术信息中心的数据库()。
EMBL,建立在欧洲分子生物实验室的数据库(http://www.embl-heidelberg.de)。DDBJ,是DNADataBankofJapan的简称,又叫日本的DNA数据库银行(availableathttp://www.nig.ac.jp)。Genbank美国国家生物技术信息中心的数据库原中山医科大学的网页有链接:http:///该数据库提供Entrez检索工具、BLAST序列搜索、生物信息学学习等服务内容其他重要数据库真菌如酿酒酵母基因组数据库(SGD)/Saccharomyces/拟南芥数据库(AtDB)(/Arabidopsis/)线虫综合数据库(ACEDB)ftp://sanger.ac.uk(/pub/acedb)(自由下载,建立二次数据库)在线人类孟德尔遗传数据库(OnlineMendelian
InheritanceinMan,OMIM)
/omim/其他重要生物数据库鱼类的斑马鱼/昆虫类的果蝇(Drosophilamelanogaster,fruitfly)/脊椎动物如小鼠(Musmusculus)/genome/guide/mouse/细菌如大肠杆菌(/pub/sequence/)原生动物如人类一种寄生性的原虫(Plasmodiumfalciparum):http://PlasmoDB.org/三维结构数据库PDB(ProteinDataBank,/npdb)等。与蛋白质结构有关的数据库还有:SCOP(availableat/scop/)等。80-99年ProteinDataBank/pdb/index.html
Helix-turn-helixmotifofproteinbindingtoDNA
结合DNA的蛋白质螺旋结构基序
Motif数据库----PROSITEPROSITE(http://www.expasy.org/prosite/)蛋白质结构数据生物信息数据库的主要服务借助特定的算法模型提供同源性分析是目前各种生物信息数据库的最重要内容之一。分子生物学的中心法则DNAmRNA结构翻译转录复制蛋白质/酶cDNADNA功能反转录相互作用折叠3、生物信息学中的数学模式和重要算法研究
迄今已有相当多的数学方法应用于生物信息学的研究。而且一种算法本身就是一门学问,例如:
机器学习法
人工神经网络
分形理论
密码学
全息论
高维分布的统计方法生物信息学中的重要算法---聚类分析生物信息学问题许多可归为聚类问题。聚类分析:聚类是宏观与微观生物学研究中最常用的一种数学方法,它的基本目的是将n个样本划分为m个类,从而使同类样本较为相似而不同类间样本差异较大。其中支撑矢量机算法可从网上学习:/寻找转录因子的结合位点
生物信息学中的重要算法遗传算法:遗传算法的提出,本身就是借鉴生物界中的适者生存、优胜劣汰的遗传机制所提出来的随机化搜索方法,其最主要的特点就是面向结构对象、不受求导和函数连续性的限定、具有内在的隐并行性和良好的全局寻优能力。生物信息学中的重要算法
-----遗传算法过去20多年的发展,已使得遗传算法成为现代智能计算中的关键技术之一,并已应用于生物信息学的研究:基于蛋白质主链结构的侧链构象计算蛋白质折叠的算法模型与模拟图像匹配中的遗传算法结构图的同态研究目前较流行的数学方法和算法(1)神经网络(NeuralNetworks)1982年,神经网络首次被应用到生物学的研究中来,接着Stormo等人应用类似的算法在预测大肠杆菌体内的一些蛋白质翻译的起始部位取得了成功。1988年,随着QianandSejnowski发表的一篇关于蛋白质二级结构预测的文章,神经网络的算法已成为蛋白质二级结构分析预测的主流算法。另外,神经网络在预测信号肽,研究遗传密码的结构和起源等方面也有较多应用。目前较流行的数学方法和算法(2)Threading方法Threading方法或称折叠类型的识别方法。基本思想是:预测的蛋白的折叠类型与某一已知结构的蛋白的折叠类型相同,这样蛋白质结构预测问题就转变为在已知空间结构的蛋白质中,选取一种最有可能的折叠类型,从而大大减小预测蛋白质结构的难度。4数据库接口和检索工具的研制数据库的内容来自万千生物学者的日积月累,最终又为生物学者们所用。但不能要求一般生物学工作者具有高深的计算机和网络知识,因此,必须发展查询数据库和向库里提供数据的方便接口。这是专业人员才能胜任的工作,通常在生物信息中心里进行。5HGP的实施,对信息采集和处理提出的要求人类基因组计划(HGP)的实施,配合大规模的DNA自动测序,对信息的采集和处理提出了空前的要求。从各种图谱的分析,大量序列片段的拼接组装,寻找基因和预测结构与功能,到数据和研究结果的视像化,无不需要高效率的算法和程序。因此,研究新算法、发展方便适用的程序,是生物信息学的日常任务。与HGP相关研究的几个方面表现:由于当前生物信息学发展的主要推动力来自HGP,所以生物信息学与HGP的关系就显得更为密切,其与HGP相关的研究主要表现在如下几个方面:1)高度自动化的实验数据的获得、加工和整理如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息,是生物学的一个重要课题。体现在各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制,完成高度自动化的实验过程。2)序列片段的拼接目前DNA自动测序仪每个反应只能测序500bp左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自动而高速地拼接序列的算法,不仅避免了亚克隆排序所需的大量繁琐的工作,还能使序列具有一定的冗余性(redundancy,即一定数量的重复)以保证序列中每个碱基的准确性。3)基因区域的预测在完成序列的拼接后,我们得到的是很长的DNA序列,甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因,下一步就是将基因区域从这些长序列中找出来。所谓基因区域的预测,一般是指预测DNA顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATAbox和加尾信号)的认识,预测出可能的完整基因。(4)基因或蛋白质功能预测用实验手段证实一个预测的新基因后,下一步要做的就是寻找这个基因的功能。----即功能基因组学蛋白质功能预测分析,主要是分析目的蛋白质是否与具有功能信息的已知蛋白质相似。策略有二:同源序列分析功能区相关的保守序列特点分析。(5)分子进化的研究通过上述种种方法我们可以预测出一个新基因可能具有的功能。然而预测新基因只是生物信息学研究的一个方面,这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说,一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。这方面的研究已逐步形成一个称为比较基因组学(ComparativeGenomics)的新学科。Humangenomeshares223geneswithbacteria-genesthatdonotexistintheworm,fly,oryeast.
Areticulatedtree,ornet,whichmightmoreappropriatelyrepresentlife'shistory.
6生物信息学最重要的任务,是从大量数据中提取新知识生物信息学最重要的任务,是从海量数据中提取新知识。这首先是从DNA序列中识别编码蛋白质的基因,以及调控基因表达的各种信号。其次,从基因组编码序列翻译出的蛋白质序列的数目急剧增加,根本不可能用实验方法一一确定它们的结构和功能。从已经积累的数据和知识出发,预测蛋白质的结构和功能,成为常规的研究任务。7DNA芯片和微阵列的发展DNA芯片和微阵列的发展,把一定组织或生物体内万千基因时空表达的研究提上日程.研究基因表达过程中的聚群关系,从中提取调控网络和代谢途径的知识,进而从整体上模拟细胞内的全部互相辅合的生化反应,在亚细胞层次理解生命活动。基因芯片检测系统
Bioinfomatics七个方面研究内容建立和管理各种生物数据库生物信息数据库使用生物信息学中的数学模式和方法研究数据库接口和检索工具的研制HGP的实施,对信息采集和处理提出的要求生物信息学最重要的任务,是从大量数据中提取新知识DNA芯片和微阵列的发展此外,专业人材的培养,也是一个重要内容。四、展望作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中必不可少的有力研究手段。为了能够更好地服务于基因组研究,生物信息学在将来的发展中需要做以下几方面的努力:(1)理论研究任何学科的发展都离不开基础理论的研究,生物信息学也不例外。它对许多学科都提出了巨大的挑战。这些学科包括分子进化遗传学、群体遗传学、统计生物学、基因组学以及计算机科学和应用数学的相关学科。如果基础理论研究得不到应有的发展,生物信息学的发展将受到严重的阻碍。(2)生物数据的质量监控监控已有的生物数据究竟具有多大的可信度,对于物理图谱的构建工作将有十分重大的意义。(3)加强生物学家和计算机科学家以及数学家之间的沟通长期以来,这三类科学家都是埋头于各自的研究领域,而不关心其他学科的发展和要求。这种状况在我国尤为突出。生物信息学的发展要求三者之间加强沟通。其意义不仅在于推动生物信息学自身的发展,而且将形成促进整个生物学发展的强大动力。生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将"有用"新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况,将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。我国科学家展望我国科学家认为,在克隆新基因的思路方面,我国不应该照搬国外克隆新基因所用的方法,而应该走生物信息学和定位克隆相结合的道路。具体地说就是一方面进行各种遗传疾病家系的采集,从家系分析入手,寻找致病基因在染色体上的位置,然后对这个区域进行测序,再利用生物信息学的手段预测候选基因和它的功能并用实验加以证实;另一方面直接从现有公共数据库中的EST出发,用生物信息学的方法寻找可能有研究价值的新基因,并用实验方法来研究证实。这种双管齐下克隆新基因的方法可能更适合我国人类基因组研究在财力、物力和研究人才资源等方面的客观条件。在生物信息学学科建设方面在生物信息学学科建设方面,政府应注意加强生物信息学学科建设的延续性,克服青年科技人员流动性大等困难,有重点地把工作长久地开展起来,尽快设立相关的学位,以利于对后继人才的培养;适当地支持拥有我国自主知识产权的算法、软件的后继开发、包装工作,这不仅仅因为其潜在的商业利润,更要逐渐确立中国在世界生物信息学领域的地位。在生物信息系统的构建方面国家应当集中创建一两个具有一定规模的生物信息中心,建立面向全国的生物学数据库检索和数据分析系统。这个系统的建立可以分两步走。第一步我们要将国外公共数据库中的内容和相关软件收集和集中起来,提供检索和下载。第二步是将这些资源有机地组合,建立一个统一的生物信息平台。通过这个平台用户可以将各种格式的数据提交给设在生物信息中心的服务器,在服务器上进行一系列的检索和数据分析。用户不必关心各种数据库和软件的输入输出格式,只需一个简单的客户端软件甚至只需一个WWW浏览器就能完成全部工作。整个生物信息平台不仅是一个集成的数据库,而且是一个集成的软件工具。在生物信息学理论研究方面发挥国人的聪明才智,加强数学算法研究应用系统论、信息论,开展生物信息学理论研究开展生物信息学的伦理道德研究。。。。。。结语相信在HGP和即将开始的中国人类基因组研究计划中,生物信息学将发挥越来越大的作用,并推动生物学进入一个全新的境界。5、相关资源:EuropeanBioinformaticsInstituteEBI)
SBDS(SouthamptonBioinformaticsDataServer)
U.S.DepartmentofEnergy-BioinformaticsInfrastructure
TheNASAAmesCenterforBioinformatics
TheNationalCenterforBiotechnologyInformation
ProteinDataBank(PDB)MirrorSite北京大学生物信息学中心
生物信息学专业网BioSino中国生物信息
6.参考链接:生物信息学——生物技术的核心(2000-04-03)西安成立生物信息研究中心(2000-05-16)海峡两岸理论生命科学交流逐步深入(2000-05
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 集成电路数字化工厂架构搭建方案
- 前厅基础与服务管理 3
- 模拟教学:袋鼠式护理操作演练
- 摇臂钻安全操作规程
- 电子商务沙盘运营与管理(AI实践版) 实训工单汇 第1-8章 电子商务沙盘结构与流程认知 -第一轮、第二轮经营实战
- 残疾评定工具与量表介绍
- 公司督办事项办结单
- 2026年员工修车合同(1篇)
- 2026年眼镜店验光服务协议
- 特殊护理的质量控制
- DB33T 999-2016 公路工程混凝土配合比设计规程
- DZ∕T 0201-2020 矿产地质勘查规范 钨、锡、汞、锑(正式版)
- 《主观音质评价》配套教学课件
- 如何加快发展新质生产力
- 蕲春县隆兴矿业有限公司石人寨脉石英矿产资源开发利用与生态复绿方案
- 《ESD培训资料》课件
- 工业润滑油行业市场分析报告
- 拉 刀-机械制造
- 部编版语文五年级下册 第五单元习作教材解读和教学目标
- 光纤激光毛化技术说明
- GB/T 4140-2003输送用平顶链和链轮
评论
0/150
提交评论