第二篇第十二章生物信息学在分子诊断中的应用_第1页
第二篇第十二章生物信息学在分子诊断中的应用_第2页
第二篇第十二章生物信息学在分子诊断中的应用_第3页
第二篇第十二章生物信息学在分子诊断中的应用_第4页
第二篇第十二章生物信息学在分子诊断中的应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二篇技术篇第十二章生物信息学在分子诊断中的应用第一节生物信息学概论一、生物信息学的定义生物信息学是结合了生物学和信息技术,利用计算机和互联网技术,分析海量的并且还在快速积累的生物数据,从中获取生物科学新知识的一门新的交叉科学。人类基因组计划的意义人类基因研究的意义在于它可以支持和推动生命科学中一系列重要的基础性研究。如基因组遗传语言的破译,基因的结构与功能关系,生命的起源和进化,细胞发育、生产、分化的分子机理,疾病发生的机理等。为推动医学长足进步带来前所未有的机遇,基因诊断、基因疗法和基因药物的开发,有可能成为未来医学发展的重要分支。人类基因组计划的进一步成功将促进生命科学与信息科学、材料科

2、学的融合,从而带动一批高技术产业的发展二、生物信息学研究的范畴第一、各种生物数据库的建立和管理;第二、研究高效率的统计工具,分析算法,发展方便、快捷的分析程序;第三、从海量的原始生物数据中发掘新知识。第二节计算机和互联网一、计算机常识:硬件和软件计算机的主要硬件由中央处理器(CPU)、存储器、输入设备和输出设备组成。常用的操作系统:windows、UNIX、Linux二、互联网和常用搜索引擎WWW是WorldWideWeb的缩写,即通常我们所说的国际互联网,它的每个节点在逻辑上都与任何其他节点保持联系,可以相互交换信息。三、文件的压缩和解压传输或保存较大的数据时,常对文件进行压缩,以减少数据量

3、。特别是对于图形文件,压缩尤其重要。在UNIX或Linux系统中,压缩命令是compressmyfile,压缩后的文件自动加上后缀.Z。解压缩命令是uncompressmyfile.Z。PC机上的Windows操作系统没有标准的压缩和解压软件,但网上有许多针对Windows的免费或代免费试用期的压缩软件,如FreeZip、WinZip等四、文件和数据的传送用户需要递交一条或多条核酸或蛋白质序列去做数据库查询或比对。这时常用的方法有:使用视窗系统的剪切、复制和粘贴的功能.对于不太长的序列,这种方法比较方便;网页的输入窗口旁常有一个“浏览目录”按钮,点击该按钮,会弹出一个对话框,找到需要上传的序列

4、文件,再按“提交”钮完成递交。用这种方法可以一次递交较长的序列;有些大型信息中心和研究单位还有远程文件传送服务,即遵从文件传输协议(filetransferprotocol,ftp)的服务器地址,用户可以无记名的方式访问公用的目录,读取文件,下载软件或数据。五、编程和语言在众多的计算机语言中,C语言无疑是最常用的,它具有代码精炼,执行效率高的特点,网上还有大量的现成模块供免费使用。对于非计算机专业人员,还可以选择VisualBASIC(VB)1/5语言。VB语言具备了高级语言的特点,语句结构类似自然语言,对于生物背景的专业人员可能较容易掌握。如果在研究中大量使用网络资源,则需要掌握一定的网络编

5、程语言,例如:Perl语言、PHP语言和JAVA语言等。第三节数据的获得DNA、RNA、蛋白质的测序蛋白质结构的分析基因和蛋白质的表达数据蛋白质相互作用一、DNA、RNA和蛋白质的测序基因组DNA直接来源于细胞核基因组,它的组成包括基因和基因间区域,基因序列中还包括内含子和外显子。cDNA是由mRNA逆转录而来,全长cDNA应该包括5端非编码区,3端的多聚腺苷酸序列和编码序列。重组DNA序列是基因重组到质粒、病毒和cosmid等载体后经测序得到的DNA序列。RNA的序列可以从基因组序列或cDNA序列推导出来;直接的RNA测序涉及修饰核苷酸的识别,可通过质谱分析获得。蛋白质的序列可以通过DNA序

6、列推导而来,但从DNA序列推导的蛋白质序列不能反应真实的蛋白质序列情况,蛋白质测序主要依靠质谱分析(massspectrometry,MS)技术,基本原理是通过准确测定真空中的离子质量或电荷量来测算出分子组成。二、蛋白结构的分析X射线晶体学技术:通过研究X射线对蛋白质晶体的扫描后产生的衍射模式来测定蛋白质的结构;核磁共振谱法(NMR)spectroscopy):该方法常用于较小(<25kDa)的,可溶性蛋白质结构的测定;有些蛋白质很难结晶,不能用X射线晶体学技术测定,又太大而不能用核磁共振谱技术测定,其它技术方法:X射线纤维衍射技术;电子显微镜(electronmicroscopy);环

7、形双色色谱技术(circulardichroism(CD)spectroscopy)三、基因和蛋白质表达数据表达文库的测序基因表达连续分析技术(serialanalysisofgeneexpression,SAGE)DNA芯片双向电泳分析技术(2Dgelelectrophoresis)四、蛋白质相互作用1、遗传学方法:2、亲和性方法:亲和色谱法(Affinitychromatography)免疫共沉淀法(coimmunoprecipitation)免疫共沉淀基本原理:细胞裂解液中加入抗体,与抗原形成特异免疫复合物,经过洗脱,收集免疫复合物,然后进行SDS-PAGE及Westernblottin

8、g分析。3、分子和原子法:X射线晶体法和核磁共振法4、基于文库法:酵母双杂交系统(yeasttwo-hybrid(Y2H)system)2/5第四节生物信息数据库一、重要生物信息中心美国国家信息中心(NationalCenterofBiotechnologyInformation,NCBI)的GenBank(/web/GenBank/index.html);欧洲分子生物学室验室(EuropeanMolecularBiologyLaboratory-EuropeanBioinformaticsInstitute,EMBL-EBI)的EMBL(h

9、ttp:/www.ebi.ac.uk/databases/index.html);日本DNA数据库(DNADataBankofJapan,DDBJ)(http:/www.ddbj.nig.ac.jp/)最重要的蛋白质氨基酸序列数据库是瑞士的SWISS-PROT(/sprot/);蛋白质数据库PIR(ProteinInformationResource),包含所有序列已知的自然界中野生型蛋白质的信息();PDB蛋白质结构数据库:收集由X射线衍射和核磁共振技术测定的蛋白质大分子三维结构(http:/www.rcs

10、/pdb)二、数据库检索工具Entrez检索工具:Entrez是美国国家生物技术信息中心(NCBI)提供的集成检索工具/Entrez/SRS(SequenceRetrievalSystem)检索工具:是欧洲分子生物学网EMBnet的主要数据库检索工具,可以从EMBnet的主页进入。DBGET/LinkDB检索工具:是日本京都工具大学建立的GenomeNet数据库,该数据库主要针对代谢途径。http:/www.genome.ad.jp/dbget/dbget_manual.html。二、数据库检索工具第五节核酸序列分析一、核酸序列的基

11、本分析核酸序列的分子量、碱基组成、碱基分布等基本分析:BioEdit(/BioEdit/bioedit.html)DNAMAN(限制性酶切分析:限制性酶数据库(RestrictionEnzyme(;测序峰图的查看、核实与修改:Chromas,BioEdit,DNAMAN测序结果需要识别与去除测序时使用的载体序列:VecScreen(/VecScreen.html)DataBase,REBASE)EST序列进行电子延伸:将待分析的核酸序列(称为种子序列)采用Blast软件搜索GenBank的EST数

12、据库,获得与种子序列有较高同源性的EST序列,一般要求在重叠40个碱基范围内有95以上的同源性,称匹配序列;将匹配序列与种子序列装配成新序列,即片段重叠群分析(contiganalysis);再以新产生的序列为种子序列,重复上述过程,直至没有新的匹配序列为止。对核酸序列进行电子基因定位:利用序列标签位点(SequenceTaggedSite,STS);利用UniGene数据库进行基因电子定位;直接利用基因组序列进行基因电子定位。二、核酸序列的比对分析和功能预测BLAST(BasicLocalAlignmentSearchTool)是基本局域联配搜索工具;Blast功能有:FASTA:根据用户提

13、交的单个序列进行数据库搜索比对的程序。3/5网上服务器和电子邮件服务:http:/www.ebi.ac.uk/mailto:fastaebi.ac.ukhttp:/www.fasta.genome.ad.jpmailto:fastanig.ac.jp进行多序列联配:ClustalW:http:/www.ebi.ac.uk/clustalw/index.html/soft/molbio/align/clustal/ftp:/ftp.ebi.ac.uk/pub/software/dos/clustalw。ClustalX:CluastalW程序

14、的UNIX版本,它使用X窗口图形界面,ftp:/ftp.ebi.ac.uk/pub/softwareftp:/ftp-igbmc.u-strassbg.fr/pub/clustalX。对联配结果进一步编辑,形成适于发表的形式,可用的软件有:SeaView:ftp:/biom3.univ-lyon1.frBOXSHADE:/software/box_form.html)CINEMA:http:/www.bioinf.man.ac.uk/dbbrowser/cinema2.1/cinema2hdr.html三、开读框的分析GT-AG法则:外显子与内含子

15、之间的连接区序列高度保守,如大部分内含子5端起始的两个碱基是GT,3端最后两个碱基是AG。基因识别软件,常用的有:ORFFinder(/gorf/gorf.html)GRAIL(/grainbin/)GeneFinder(http:/genomic.sanger.ac.uk)Glimmer(/labs/compbio/glimmer.html/)GenScan(/genscan.html)GeneLang(http:/www

16、./genlang/)四、引物设计PrimerPremier软件:Primer3软件:/cgi-bin/primer/primer3Oligo、VectorNT、Omiga等五、向数据库提交核酸序列向EMBL提交数据的网络表格可参见:http:/www.ebi.ac.uk/subs/emblsubs.tml向GenBank数据库提交核酸序列可联网进/GenBank/index.html也可用Sequin软件制作好序列提交文件,向NCBI发送E-mail(gb-s

17、)提交第六节蛋白质序列分析一、蛋白质基本性质分析蛋白质的氨基酸组成、分子量、等电点等方面的分析:OMIGA、DNAMAN、BioEdit、MacVector等,4/5蛋白质疏水性分析:ProtScale,/cgi-bin/protscale.pl预测跨膜区:http:/genome.cbs.dtu.dk/services/TMHMM-2.0//software/TMPRED_form.htmlhttp:/www.emblheidelberg.de/services/sand

18、er/predictproteinftp:/ftp.biochem.ucl.ac.uk。预测信号肽:http:/genome.cbs.dtu.dk/services/SignalP/蛋白质亚细胞定位:http:/predict.sanger.ac.uk/nnpsl/二、蛋白质功能预测磷酸化位点、糖基化位点,特殊的结构区(motif)的分析:PROSITE:/prosite/BLOCKS:/blocks/PFAM:http:/www.sanger.ac.uk/software/pfam/PESCAN:http:/www.isrec.isb-sib.ch/software/pfscanInterProScan:http:/www.ebi.ac.uk/interpro/scan.htmlSMART:http:/smart.embl-heidberg.de/三、蛋白质结构预测蛋白质的立体结构数据库PDB(ProteinDataBank):(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论