




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学及其软件平台庄君中科院计算所生物信息学实验室2002年2月第一部分:生物信息学研究需要什么?需要什么?a.数据库(DNA、蛋白质序列)b.各种算法(Blast, Genscan)c.这样就行了吗? 用户(生物学研究人员)如何能更好的使用a和bBioinformatics a Definition-Oxford English Dictionaryn(Molecular) bio informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of Physical c
2、hemistry) and applying “informatics techniques” (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular bi
3、ology and has many practical applications.Bioinformatics: 科技界一颗科技界一颗耀眼的新星耀眼的新星 n在BIOINFORMATICS 没有诞生之前, 一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH 公司也看到了BIOINFORMATICS 的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS研究项目。美国电脑执照-高薪阶层n“BIOINFORMATICS CERTIFICATION”,这是目前最新的一门生物化
4、学工程与电脑技术相结合的课程。包括“CBS”证书和“CBM”证书。nVisual Basic - $1195nVisual C + + - $1295nBioInformatics - CBS, CBM $2500nMIT: Course: 20.01s Date: June 24 - 28, 2002 Tuition: $2,500 后基因组时代 后基因组时代的挑战:1. 蛋白组学: 序列-结构-功能 2.研究生物的生长代谢的过程和疾病的机制 3.基因组药物生物信息学离不开高性能计算机。并需要信息学家的参与。急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。pic
5、2pic3Pic4Pic5Pic6Pic7Major Application I:Designing DrugsnUnderstanding How Structures Bind Other Molecules (Function)nDesigning InhibitorsnDocking, Structure ModelingMajor Application II: Finding HomologsMajor Application III:Overall Genome CharacterizationnOverall Occurrence of a Certain Feature in
6、 the Genome ne.g. how many kinases in YeastnCompare Organisms and TissuesnExpression levels in Cancerous vs Normal TissuesnDatabases, Statisticsproteomics dataProteomics tools nIdentification and characterization nDNA - Protein nSimilarity searches nPattern and profile searches nPost-translational m
7、odification prediction nPrimary structure analysis nSecondary structure prediction nTertiary structure nTransmembrane regions detection nAlignment CIF:生物信息学构架生物信息学构架nCorporate Information Factory(CIF)是一个支援企业级的信息系统构架结构。生物信息学是在生物研究中信息系统的应用。CIF正是一个从不同的源头来集成生物信息学数据,数据库中管理这些信息,并将这些信息递交专家系统进行处理的一个完整的体系,数据
8、集成、数据标准化、数据完整准确性是CIF的特点。当这些运作起来之后,CIF提供了一个企业级管理生物信息数据的方法。生物信息学构架生物信息学构架 (2)n数据结构、信息提取过程的不统一、数据集成和标准化工作的不力是目前生物信息学的一个问题,这个问题妨碍了信息的交互,这一点在基因组和蛋白组学研究中很突出。孤立的基因组和蛋白组数据只能揭示很少的在活体细胞内的基因/蛋白的功能信息,而一个集成的,以系统学方法管理的生物信息学数据将为研究者带来更广阔的视野。服务器服务器-客户式结构客户式结构client-servern生物信息网络中的数据库服务广泛采用服务器-客户式结构,这些服务器包括为数众多的数据库搜索
9、和序列对比服务器以及各专业领域的服务器. 生物信息数据库种类生物信息数据库种类n生物信息数据库是种类繁多。n近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个数据库Bioinformatics and XMLnXML因其将数据信息本身的存储与关联与表现形式相分离,强大的可扩展性,本身层次清晰的树形结构特性以及跨平台、跨语言的特性而成为良好网际语言,并在各种数据和存取工作中大显神通。生物信息学的发展同样引入了XML技术。JAVA nJava是一种跨平台的编程语言 n在基于JAVA语言开发的网上序列查询和类比排列系统上,科学家们可通过视图方式对已知DNA、蛋白质结构、基因结构及科学家们
10、提交的序列进行比较,分析出有意义的信息,包括新基因的发现,重复序列的测定,调控基因的确定,完整基因的分析等等。Java (2)nJava迫使你更加系统化,必须进行程序构架规划。而且它还能帮助你避免通常的编码错误。” n 有人说, Java 很慢. 真的吗?第二部分:我国生物信息学现状及问题1.我国已有强大的DNA测序中心: 华大,北方,南方,. 但我们需要运算速度远比现在计算速度快的机器或方法. 2.生物信息学处理系统处于初级规模.有一些Genbank,EMBL,GCG的镜象. (1).没有自己的完善的系统 (2).没有大量新算法的开发3.后基因组: 科研单位及制药工业并未完全吸收利用生物信息
11、学的工具.现有各种生物信息学网站(公共免费的,如NCBI, EMBL)特点:数据多、全,并且具有权威性缺点:1)用户太多(全世界),国内的网慢,比如 有时递交较长的序列做Blast会很长时间得 不到结果 2)数据库太大太多,使用不易 付费的,如:eB, doubletwist,com,虽然使用方便,帮助用户 在网站上保留数据,服务性好,软件也好用 但是需付费,学术力量不强第三部分:建立自主知识产权的生物信息学处理软件平台时期时期 生物信息学的作用生物信息学的作用 我们能做的我们能做的序列基因组 收集、存储、分析和共享信息资源 能功能基因组 识别基因及功能,图谱 能蛋白质组 鉴别和分类能治疗/研
12、究疾病基因预测/基因芯片能?药物设计研制新药/产业化能?我们能做什么Genbank HTGHTG 是GenBank、DDJB及EMBL为使生物学家更好地进行同源性对比搜寻高通量基因组序列而作的特殊分类。占所有DNA序列的70%以上。HTG部分包括那些通过高通量测序中心测序产生的尚未完成的DNA序列,有或没有注释 。 项目目标(生物信息学处理软件平台)n开发一个可以使用Genscan,Blast,Blocks等分析GeneBank的基因组数据并可以通过Web界面进行查询的原型系统n不断完善,添加算法和更新数据,最终可以通过提供数据和服务来获取社会效益和经济效益 各种序列各种序列:DNA,Prot
13、ein生物信息学处理软件平台BlastGenscanBlocks生物学家计算生物学模型/算法软件并行软件并行软件:Blast,Phrap,SW市场化市场化各种算法串行后基因组学数据并行项目功能描述(一)n从从Genbank中提取原始数据,经过机群中提取原始数据,经过机群系统的处理(运行各种目前流行的算法,系统的处理(运行各种目前流行的算法,如如Blast、GenScan、Blast等对提取的数等对提取的数据进行分析),生成据进行分析),生成raw data,最后经过最后经过文本处理程序(文本处理程序(perl)的处理,得到的处理,得到xml格式的数据。格式的数据。项目功能描述(二)n用户通过网
14、页提交检索,检索经过预处用户通过网页提交检索,检索经过预处理的核酸、蛋白质序列数据库,将结果理的核酸、蛋白质序列数据库,将结果以图形、图像的形式,通过网页返回给以图形、图像的形式,通过网页返回给用户查看,检索后的数据应具备较高的用户查看,检索后的数据应具备较高的可用性(以图形化的方式将相应的算法可用性(以图形化的方式将相应的算法处理结果表达出来)处理结果表达出来)竞争优势n强大的计算资源n高性能计算机n高性能算法的支持n并行Blast解决了Blast在单节点上的瓶颈问题n我们对生物信息领域深刻的理解nGenebank HTG Divisionn生物学家与计算机开发人员的紧密配合社会效益和经济效
15、益社会效益社会效益具有我国自主知识产权的生物信息处理软件平台1、提供个人数据和服务2、为客户的特殊要求度身定做数据或处理系统3、新算法的开发生物信息学处理软件平台版本 1。0 1。 目前只注释人类的Genome数据库 a.预测基因结构 b.预测蛋白编码基因2。目前数据库最重要来源是GenBank序列。 未完成注释的HTG序列70%,已部分完成注释的PRI序列30%. 我们的平台包括: a.通过一个庞大的算法流水线(pipeline)来 加工,和注释未完成(或已完成)的基因组的DNA序列. b. 数据库格式化: XML 技术. c.通过搜索引擎在网络上实现可用性。 d. 数据图视化 及 用户服务
16、。 流程图Genbankflatfile用户数据算法流水线集群运算(曙光,PBS, .)数据处理,数据库管理,XML,。搜索引擎网站 WEB ServerHTML图视化图视化xPBS 命令 GUIxPBS MON 节点监控 图视化图视化HTG 没有Genbank注释 图视化图视化PRI (有Genbank注释)未来的图视化第四部分:基因组分析的算法的现状和发展问题Algorithms已有算法(1)我们的分析使用算法:我们的分析使用算法:(已完成的) a. GENSCAN- 预测exons(外显子),introns (内显子)和Promotor(起动子). 预测可用作替换拼接形式的基因 b. B
17、LOCKS- 预测出蛋白质的结构: motifs(模式)和domains(域)。 c. BLASTx- 预测蛋白质的功能和相似性的家族。 blocks-算法(2)BLOCKS PR00678 1/10 blocks: PI3 KINASE P85 REGULATORY SUBUNIT SIGNATURE Block Frame Location (aa) Block E-value PR00678D 0 416-434 1.6 |- 157 amino acids-| PR00678 AAA:BB:CCCC:DDDEEEE:FFFGGGG7UP1_DROME : : :DDD Blastx-算法(3)算法(4) a. REPEAT_MASKER- RepeatMasker是一程序. 它能掩盖散布在哺乳动物的基因组中的重复片段及 低复杂DNA序列。 它把DNA序列中的重复片段用Ns代替. 平均一个人有40%50%以上的DNA可被RepeatMasker程序掩盖. b. Sim4- sim4把从数据库搜索结果与信息的其它来源结合起来获得确定结论. 它是连接ESTs(Unigene)的主要工具。 算法(5)(未来: 平台 2.0 以上) . Genie,GeneWise, fGene, .预测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度考核个人的总结模版
- 新零售背景下便利店智能化门店设计与顾客行为研究报告
- 项目地质灾害隐患检查工作计划总结模版
- 电商售后服务质量提升策略:售后服务创新与业务增长报告
- 幼儿园保教保育工作总结模版
- 数学老师个人2025年终工作总结模版
- 金融科技助力普惠金融:2025年金融科技产品在贫困地区应用效果分析
- 游黄山心得体会模版
- 物业保安主管月度工作总结模版
- AI技术助力健康管理与预防保健
- 海上基本急救全套教学课件
- 安全文明施工承诺书
- 糖尿病酮症酸中毒的应急预案及护理流程
- 2024年内蒙古航开城市投资建设有限责任公司招聘笔试冲刺题(带答案解析)
- 黑龙江省佳木斯市2023-2024学年八年级下学期期中联考数学试题(无答案)
- 仿生蝴蝶飞行原理
- MOOC 唐宋诗词与传统文化-湖南师范大学 中国大学慕课答案
- 四年级数学(四则混合运算)计算题专项练习与答案汇编
- 人力资源年度个人工作总结模板(四篇)
- 餐饮设备安全培训
- 风力发电施工合同范本
评论
0/150
提交评论