2106国科大生物信息学_第1页
2106国科大生物信息学_第2页
2106国科大生物信息学_第3页
2106国科大生物信息学_第4页
2106国科大生物信息学_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.*问题一:生物信息学的含义是什么?举一到两个例子说明你对生物信息学的哪方面感兴趣。它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。例子:怎样从新测得的DNA序列中找到编码区?非编码区与编码区的差别是什么?非编码区有什么具体功能?RNAi现象对于细胞来说有着很重要的意义,包括基因表达的调控等等,那么都有哪些具体机制可以诱导正常细胞产生RNAi现象?SARS病毒的比较基因组研究;治疗SARS的RNAi设计;SARS蛋白的结构预测和模拟。2. “Bioinformatics”一词(林华安定义):生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科(Bioinformatics is a new subject of genetic data collection, analysis and dissemination to the research community)。3. 人类基因组计划(美国三个国家计划曼哈顿计划、阿婆罗计划、人类基因组计划)。The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE(解读30亿字符)第二章:生物信息学的研究内容一几个经典课题1.大规模基因组测序中的信息分析(关键在拼接和注释)。大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。2. 如何在DNA序列中找到编码区域-基于信号或碱基组成*如何发现基因? 基本原理是识别表征该基因的符号和组成特征。1By signals 作为参考信息Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, , promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be called signal sensors.基因组DNA上能被识别的功能位点有剪切位点,起始和终止密码子,branch points,转录的启动子和终止子,多聚腺苷酸位点,核糖体结合位点,拓扑异构酶II结合位点,拓扑异构酶I,和切割位点多种转录因子结合位点。这些位点被称为信号,检测它们的方法被称做信号传感器。第一、序列长度短,重复性大,假的比真的多百千倍,因而单独使用无法真正达到检测的目的。第二、信号模式不是唯一不变的,而是用概率来表示的。2By content 更多依赖于I. Statistical method and Sequence Alignment Method eneven positional base frequence (D value)统计方法。编码区是三联体,将密码子翻译与天然蛋白的氨基酸序列进行比较(天然的蛋白质有固定的氨基酸比例)。这种方法产生三种可能的氨基酸序列,若其中有一个非常像氨基酸序列,则另外两个都非常不像,则非常像的那个便是(与数据库进行比对,这种方法发现不了新蛋白)II. Sequence Analysis Pairwise Alignment 双序列比对经典的双序列比对运用动态规划(DP)的形式,通过缓存亚问题的解决和重利用而不是重计算他们而解决一个最佳问题,运动DP的寻找两个长度为N的序列最佳排列将产生N2的亚问题。准确,但耗费计算机的资源。上述方法在序列很长时计算速度太慢,因此人们将之简化,发展处Heuristic schemes的方法。比较成熟的有FASTA和BLAST。这种方法搜寻短序列不插入间隔。(序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。)III. Neural network-神经网络-预测剪接位点(模拟人脑)硬件和软件构成的神经元系统,并构建标准数据底(标准非编码序列,标准的三联体密码序列)一个个试,调节系统能准确输出序列。任意挑出一个非编码序列能输出0。神经网络包括输入层,中间层和输出层。输入层为非线性惯性,每个位置只能有五个值,四种碱基或空。输出层代表输入序列是否为编码序列,对应中间的碱基像不像。IV. Fractal dimension of exons and introns 分维值转弯越多,值越大。将任一序列投影到碱基坐标,计算分维值,非编码和编码序列的分维值不同,可比较 分维小,像编码序列V. Complexity analysis-复杂度分析How many different patterns are there in the area of the different DNA sequence?我们的结果发现外显子的复杂度比内含子和5以及3侧翼序列要高。什么是复杂度?任意取一个字符,花样出现多少次?若一段序列出现四种碱基就比出现三种碱基要复杂。窗口:将一段序列分成几个一组,18个一个窗口。一段序列,一个碱基出现,四种可能,实际只有ACG的话,记3。两连体有4*4种,实际只有12种的话,记12。N-1连体出现几种,所有值相加得复杂度。窗口(碱基数3)取20个就够了,超过20个也不会更精确。VI. Method and Techniques in Cryptology-密码分析学的方法-Coincident Indexs,重合指数认定,有明码的部分的该参数值高,将密码进行过滤,找出重合指数高的片段,再结合进行变异。Unicity Distance ,单一距离。VII. Sequence Analysis Multiple Alignment-多序列比对双序列比对是序列比对的一种特殊形式,多序列比对能总结得到比对序列家族,估计一个新序列归属于一个已知序列的可能性,序列家族内的比对。双序列比较是不能给出两者的同源关系的,需要两个序列以上进行比较,给出这些序列代表物种间的同源序列,没有精确解,只有相似解。多种方法一起使用,看结果,但也无法知道基因的严格位置,准确报出基因的结构(从算法本质上不同的算法进行比较来确定准确性,准确性较高)。2问题与挑战1)散在重复序列:花样类似但是分散在不同的位置。Alu2) 由于RNA编辑,可变剪接,一个基因产生许多蛋白3四个例子 1)理论研究:腾冲耐热菌的测序和其耐热性的研究1研究代谢途径,测出未知功能的基因方法,将所有FA合成的路径图全画出,将其编码的2800多个蛋白与图上所需酶进行比对,所有酶都对上就是这个途径。2亲缘关系(和枯草杆菌60%的亲缘性,不耐热) 代谢(脂肪酸,核酸)有什么特殊的pathway 重复片段300bp,280次,是转录的起始位点 将耐热与不耐热的细菌基因组进行比较,得出耐热所需的蛋白 一般来说,耐热菌的G-C含量较高(其实不然),耐热菌的G-C大部分小于50%,但是不耐热菌G-C含量变化更大,多以细菌基因组G-C含量与耐热无关,但与mRNA, rRNA的G-C含量有关,G-C含量高,耐热性上升。2)疾病研究:细菌性痢疾 测序发现,引起细菌性痢疾细菌的基因组和EcoliK12 , Ecoli157很近。比较引起痢疾和不引起痢疾细菌,发现了痢疾引起的细菌含有毒力岛和黑洞(痢疾没有,不痢疾的有,保护机制的丧失)。3)工业生产:维生素C生产菌株氧化葡萄酸杆菌基因组测序和组装4)对RNA干涉机制的研究发现:dsRNA一旦进入细胞内,就会被一个称为Dicer的特定的酶切割成为21-23核苷酸长的小分子干扰RNA(small interfering RNAs ,siRNA)片段,Dicer酶属于RNaseIII家族中能特异识别双链RNA的成员,它以ATP依赖的方式切割由外源导入或者由转基因、病毒感染等各种方式引入的双链RNA。切割产生的siRNA片段随后 与一些酶结合成为诱导沉默复合体(RNA-induced silencing complex,RISC)。激活的RISC通过碱基配对定位到与siRNA同源的mRNA转录本上,并在距离siRNA 3端一定的位置上切割该mRNA。这样就使与此mRNA相应的特定基因成为沉默状态。 对RNA干涉机制的研究发现:dsRNA一旦进入细胞内,就会被一个称为Dicer的特定的酶切割成为21-23核苷酸长的小分子干扰RNA(small interfering RNAs ,siRNA)片段,Dicer酶属于RNaseIII家族中能特异识别双链RNA的成员,它以ATP依赖的方式切割由外源导入或者由转基因、病毒感染等各种方式引入的双链RNA。切割产生的siRNA片段随后 与一些酶结合成为诱导沉默复合体(RNA-induced silencing complex,RISC)。激活的RISC通过碱基配对定位到与siRNA同源的mRNA转录本上,并在距离siRNA 3端一定的位置上切割该mRNA。这样就使与此mRNA相应的特定基因成为沉默状态。 5)SARS (二)新基因和新SNPs的发现与鉴定大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因,大约 60 是通过信息分析得到的。问2.用什么数据库可以发现新基因,原理和本质是什么?a)、利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs 国际上现已出现了几个基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index,这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。 超大规模计算 方法:建立实验方法,让一小段真正的编码区标签表达,企图发现整个编码序列,几百个碱基序列一个标签,其数据库集中全世界所有的标签,进行拼接和组装,得到编码序列,同样将相同片段进行比较能发现SNPs,也可以发现非编码序列b)、从基因组 DNA序列中预测新ORF两者区别:前者是利用EST数据库进行片段的拼接与组装,而后者是利用基因组数据库的基因序列进行识别、预测。c基因电脑克隆基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。可行性:到目前为止, 公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。d.不同的实施方案和计算量n将数据库中的所有序列进行两两比较, 将他们分成一组组(一组内的序列都属于同个基因), 最后再拼接成一条条完整的cDNA序列。对于人的EST库(5百万条序列),需要进行的序列比对次数为: l0.5*(5*106)2=1.25*1013。n以一组感兴趣的(如表达于某种组织的)序列作为”种子”序列(N条),将它们和整个库比较,以找到它们所属的完整cDNA序列。这种方案需要进行的序列比对次数为:uN*5*106。四EST 利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs EST数据库质量相对较低,就象许多文献报道,发现了许多内含子,克隆载体,多酶切点,ALU以及3、5非翻译序列(统称污染序列,也称载体序列或非insert序列)被包含在EST数据库中,这使得EST序列分析复杂化。因此在进行Contig电脑组装之前,需要探测并去除EST数据库中的污染序列。为探测并去除EST数据库中的污染序列,必须建立载体库,对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert序列,并去除。全长cDNA标注涉及到mRNA的5端即转录起始位点区、第一个ATG、开读框架、终止密码子和3端的确认。目前国际上各种二次数据库的建立和公布,使得我们有可能利用现有的数据源,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关,但由于EST序列相对较低的测序质量,在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个ATG和终止密码子是不足以确定ORF的。我们结合下述几种方法对Contigs进行标注,先用复合人工神经网络系统预测Contig编码蛋白的可能性,然后采用NCBI的ORF预测软件 ( ORF finder: /gorf/orfig.cgi )初步判断ORF的可能范围。第一个ATG的确定则依据Kozak规则和信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP )的结果。所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,为获得高可信度的结果,我们把预测过程中证实含完整mRNA 5端的Contig翻译为蛋白序列,然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,假如在该测试序列的第一个Met 5端存在终止密码子,该序列为信号肽的可能性更大。3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。 EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA,克隆基因,发现SNP。(三)。完整基因组的比较研究是一个新方向HOX基因是看家基因,脊椎动物的HOX基因是果蝇的四倍,果蝇到人基因组很可能是经过了两次的加倍。(四)。基于序列数据的生物进化研究当前面临的问题自1859年 Darwin 的物种起源 (Origin of Species) 发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。*问题三:1、基于核酸和蛋白质序列如何研究生物进化?2、主要步骤是什么?3、当前的主要困难是什么?参考答案:1、构建系统进化树。2、主要步骤如下:A、序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;B、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;C、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;D、稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。3、当前的主要困难是发现了基因的横向迁移(LGT)现象。生物同一状态下,出于不同进化程度的物种间的基因横向转移不是进化来的,而是在同一时代横向迁移来的,人基因中的223基因是细菌的,而线虫,果蝇和酵母中没有,说明是垂直进化来。即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。克服LGT的方法:一是在所有序列中筛选出有垂直进化关系的序列数据集,如COG数据库;二是用完整的基因组和蛋白质组比较,但要发展新算法。1构建数据库COG归属于genebank去掉LGT2基于实验基因组的方法,利用各种完整的基因组,可以不考虑LGTQ:怎么比不同SIZE的基因组(人与支原体) 用(CISA:Complete Information Set Analysis)抽提每个基因组的特殊,如一个支原体400kb,抽提特殊序列,除以400,人基因组为30亿,提取其特殊,再除以30亿,再进行比较。从CISA(Complete Information Set Analysis完整信息分析)推测出的全基因组种系发生。我们提出一个基于信息理论的新方法来计算生物序列的种系发生距离,包括16s核糖体RNA,它用于方法检测,24个完整基因组序列,及它们的所有预测开放阅读框,利用相邻连接算法创造出基因组和和蛋白组系统发生。科学家早已意识到没有什么生物序列能比基因组带来更多的种系发生的信息 。然而,当前的算法还无法处理如此大量碱基或氨基酸数据蛋白质的组成和不同的功能在整个蛋白质组揭示了生物体的发展史和聚类性能七2000年基因组研究的三个突出方面1. 干细胞 2. SNP 1)SNP成为个性化应答环境,疾病,药物治疗的基础。SNP是最为寻常的序列突变类型。SNP研究是基因组领域理论成果走向应用的关键步骤。是联系基因型和表现型之间关系的桥梁。2)SNP研究是人类基因组计划走向应用的重要步骤。SNP研究有很多优点: SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300bp就出现一次。但在已知SNP中,仅有不到1的SNP造成蛋白的变化。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。这样的标记有助于发现疾病基因;SNP在基础研究中也发挥了巨大的作用,比如,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。 人类源于非洲:Y染色体迁移:找人的Y染色体(演化慢,伴性)找基因与人类繁衍有关,8万个碱基,测不同人的这个基因,八大地区,不同种族,挑了非洲的隔离人群(从未离开),大猩猩,黑猩猩总共100例,在基因上得到1点,可将上面分成两个部分:隔离人群,大猩猩,黑猩猩一组,其余一组。得出的结论是:古老人群出现在非洲,古老人群从未离开过非洲;现在人从非洲走向世界碱基突变需要20-30万年;亚洲人为第六路大军,先迁到南方。*问题四:什么叫SNP?为什么SNP研究如此重要?举2-3个SNP相关的website。1、SNP(Single Nucleotide Polymorphisms单核苷酸多态性)。由于人的不同个体在遗传密码上存在差异。这种差异很大程度上表现为单个碱基的差异。它泛指基因组上一个碱基的取代,现在有所扩展,也包括一些更广泛的变化,例如2-3个碱基的变化也叫SNP。2、SNP代表不同人种(正常人、病人)在基因组水平上的差异。 SNP是联系基因型和表现型之间关系的桥梁,是基因组领域理论成果和基础研究走向应用的关键步骤。3、SNP相关的一些网站:1、SNP Consortiums database(/index.html) 2、NCBI SNP database将这些数据进行整理,去掉冗余,使每个SNP都是唯一的。此时的SNP被称为reference SNP或refSNP。((/SNP/overview.html) 3、The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。(http:/hgbase.cgr.ki.se/)4、The Human Gene Mutation Database(HGMD)(/) 5、The Protein Mutant Database(PMD),它不是核酸突变数据库,而是蛋白突变数据库。库中收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。(http:/pmd.ddbj.nig.ac.jp/) 6、The Allele Frequency Database(ALFRED):它是人类群体等位基因频率数据库,/alfred/index.asp八大规模基因功能表达谱的分析 基因芯片Microarray:An arrayed series of thousands of tiny DNA oligonucleotide samples imprinted on a small chip.mRNAs can be hybridized to microarrays to asseess the amount and level of gene expression.(GENES X)芯片数据分析步骤Scanning(扫描):读取芯片上的光密度。因为芯片上的点都是被荧光染料标记的(一般有红、绿两种颜色),荧光强度就代表了基因的表达量;Gridding(网格化):确定芯片每一个杂交点的位置。具体说来,它要做三件事情,即:发现每一个杂交点;按照信号的强弱等级分割信号和背景的边界;分别读取信号和背景的光强度。Normalization(标准化):(自己做的一步,关键步骤)对所有信号进行标准化,使光密度值能正确代表基因表达量。这是芯片数据分析中非常重要的一步。为什么要对数据进行标准化呢?这是因为很多因素都可影响芯片上的光密度,为了考虑各种其他因素的影响。如:载体(象玻璃)表面不干净、染料不纯、空气中的灰尘污染;背景光的照射方式;光点大小以及对不同的杂交点荧光效率不同等;Clustering(聚类):将具有相同特征(如:相同功能、相同表达趋势)的基因聚集在一起。这只是芯片分析方法的一个代表,不同的方法还有很多。常用的方法有:Clustering 方法,也称聚类方法,它是无监管的学习方法。这是芯片分析中使用最广泛的方法,它比较适合分析具有某种共同表达特征的数据,象,由共同细胞类型产生的芯片数据,例如:对照和样品来自同一组织; Classification方法,也称分类方法,它是有监管的学习方法。它非常适用于基因按其生物学功能分类的情况,例如:肿瘤的分类(把肿瘤作为条件,把响应的信号强行分类);多变量统计也是芯片数据的常用分析方法。其中单组分分析和多维标度可有效地减低系统的维数。这种方法常用于分析信号贫乏的数据集来探测特定基因的表达概率。尽管发展了很多方法,但基因表达模式的研究才刚刚开始,大量的问题尚未解决,例如:目前的分析还只能停留在一类基因或一组基因上,还不能有效地区分它们之间的关联,同时也很难获取非常重要也很有兴趣的若干低表达基因象,转录因子以及受体的信息。为此,将基因表达数据与序列数据、pathway数据以及生物医学实验数据结合起来共同分析可能是未来的发展趋势。用于基因芯片分析的重要软件有:TIGR(The Institute for Genomic Research)芯片数据分析软件包 41 :它由三个软件组成。MultipleExperimentViewer (TMEV)是用Java语言设计的。用于对芯片数据标准化及进行聚类和距离代数的分析。本软件还有图形显示界面。但要运行此软件必须Sun JRE 和 J3D 1.2版本以上的系统; ArrayViewer是一个简化的芯片数据分析软件,用于设备条件不允许使用TMEV时;Spotfinder是用于芯片信号收集和图象处理的。它是用C和C+写成在 PC Windows NT/98环境下运行的。这些软件是可以下载的。 芯片的不足:(1)芯片上光密度数据标准化的理论方法研究。 为了保证芯片上每一个杂交点的光密度值都能正确地代表基因产物的表达量,需要在整个芯片范围内同时对所有点的光密度值进行标准化。这是一个多点非线性的拟合问题,当前虽有很大进展,但仍需发展新的理论方法。(2) 含有大量无定义元的大规模矩阵数据处理的方法研究:当根据信噪比对芯片数据进行筛选时,可能有约60%杂交点的数值不可靠,要舍去,这样就导致大量矩阵元无定义。如何处理这种数据也要发展新方法。(3)大规模基因功能表达谱数据挖掘和知识发现:这是表达谱研究成功与否的关键。只有找到成百上千个表达水平发生变化基因之间在实现生物功能上的关联,才能充分揭示基因功能表达谱数据蕴含的丰富信息。 功能基因组信息分析的进一步工作必然是获取基因调节网络的知识。这在肿瘤研究中尤其重要,因为肿瘤往往是多基因病,只有了解了这些基因的内在关系后,才能对其病理有根本的认识,也才能有好的诊断、治疗方案。在基因调节网络这一领域已有了一些探索。 下一步,随着多层次、多类型的海量信息的增加,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。 蛋白质芯片与蛋白质组技术 二维电泳技术与质谱测序技术?蛋白质芯片是研究蛋白与蛋白以及蛋白与配体(药物)的相互作用(而非蛋白表达),最大困难时得到数以万计纯样品并保持天然构象。蛋白质组学技术能知道功能基因的表达情况,也能知道从基因到蛋白质发生了那些变化。它是在蛋白质水平获取基因功能表达谱。它使用二维凝胶电泳(粗分蛋白)和测序质谱(细分蛋白)(联合使用,知道哪些蛋白表达)按照蛋白质组的研究过程,使用的分析软件和数据库有:1.二维凝胶电泳分析,用于从胶图上鉴定蛋白位点;2.蛋白识别,用于从质谱相关数据,象,电荷数、分子量、氨基酸组分、序列标识和MS指纹图确定蛋白;3.DNA和蛋白质序列相互转换,包括通过EST的序列延长;4.序列相似性比较;5.特定模式的发现,象:预测信号肽、糖基化位点、磷酸化位点、酶切位点等;6.序列物理化学性质分析,象,PI、消光系数、疏水性等;7.二级结构预测;8.空间结构预测;9.膜蛋白过膜区预测;10.蛋白质亚细胞定位;11.蛋白代谢Pathway;12.蛋白相互作用等。相关网站有:http:/www.expasy.ch/melanie/;http:/www.expasy.ch/tools/; /ucsfhtml3.4/msfit.htm; http:/psort.nibb.ac.jp/; ; http:/www.ebi.ac.uk/proteome/; 等。蛋白鉴定: HPLC-MS-MS蛋白样品用已知酶进行酶切,再用HPLC将片段根据质量排好队,再进行质谱:进来的小片段加了电荷排好队,加上电压跑起来,先到的质量少,根据时间可知核质比。再将蛋白质片段打碎进行测序,然后通过恢复碎片来测序。得到谱系后,把database中所有的蛋白用水解酶水解成小片段,理论上选出图谱,组成database,根据已知图谱,将待测图谱与已知database进行比较,相近的那个就是蛋白。不足:1。无用的计算太多(理论谱中大多都是无用的) 2理论谱两个参数中只有一个,算法中两个参数有一个是认为给定的带有偏差 3发现不了新的蛋白(发现新的,denova)用二级质谱打出的离子种类有a1,b1,c1,x2,y2,z2,但我们只需选出一种如b系列就可以测序了,知道b2,用b2-b1就能得到b1的序列。电荷相同的情况下,核质比只与质量有关。困难:需要获得完整的资料;找到第一个b。蛋白质组鸟枪法策略(不常用,蛋白组装困难,原理上可行)用不同的酶水解同一蛋白得到不同的片断用De Novo方法测出蛋白质的片断将这些片断进行拼接给出较长(甚或全长)的蛋白序列。从而做到真正的database-independed蛋白测序。蛋白质鸟枪法策略可行性:我们目前得到最大的正确片断是8个氨基酸肽段。至少也能得到4个氨基酸肽段。氨基酸有20种,在序列拼接中我们可以只利用23个氨基酸的信息。因此序列是可以延长的。*问五:什么是功能基因组学,为什么要发展功能基因组学,如何实现?什么是DNA芯片,蛋白质芯片,蛋白质组学,三者关系与区别。功能基因组学是在功能上研究基因组,是静态基因显示功能,是静态基因组走向生物功能的关键。需要在基因水平上,蛋白质水平上,获得动态表达谱。DNA(基因)芯片:将大量特定的寡核苷酸(cDNA)片段或基因片段作为探针,有规律地排列固定于支持物上(无机或有机支持物),然后与待检测的标记样品分子按碱基配对原理进行杂交,通过检测探针分子的杂交信号强度获取样品分子的表达数量和序列信息。原理是碱基互补配对,是在核酸水平检测。蛋白质芯片:用于检测蛋白质与其他分子(生物大分子或配体)相互作用的工具。蛋白质组技术:蛋白质水平上检测蛋白表达水平,利用二维凝胶电泳和测序质谱。联系与区别:蛋白质组学技术和基因芯片芯片技术一样是功能基因组的研究手段,基因芯片是在DNA水平上获取基因表达谱,蛋白质组学技术是在蛋白质水平上获取基因功能表达谱。由于蛋白质组学技术应用二位凝胶电泳和测序质谱,所以在分析软件和数据据库的使用上与基因芯片有所不同;基因芯片是研究基因表达的工具,而蛋白质芯片是研究的蛋白与蛋白或蛋白与其他分子相互作用的工具,芯片杂交后所用到的分析工具也不相同;DNA芯片和蛋白质组技术在核酸和蛋白质水平上都检测基因表达谱,而蛋白质芯片不是检测这个,而是研究蛋白与其他分子的互作。生物芯片:广义的生物芯片指一切采用生物技术制备或应用于生物技术的微处理器。包括用于研制生物计算机的生物芯片、将健康细胞与电子集成电路结合起来的仿生芯片、缩微化的实验室即芯片实验室以及利用生物分子相互间的特异识别作用进行生物信号处理的基因芯片、蛋白质芯片、细胞芯片和组织芯片等。狭义的生物芯片就是微阵列,包括基因芯片、蛋白质芯片、细胞芯片和组织芯片等。生物芯片的应用领域:最大用途在于疾病检测,基因表达水平的检测,基因诊断,药物筛选,个体化医疗,测序,生物信息学研究第三章 非编码核酸*问题五:1、什么是非编码序列、非编码RNA、非编码基因?2、以人类基因组为例,有多少是非编码序列,有多少序列是有转录产物的?3、举两个例子说明非编码研究是重要的1、非编码序列是基因组中不编码任何蛋白质或多肽的序列;非编码RNA是非编码序列的转录产物;非编码基因是非编码序列产生的有功能的非编码RNA在基因组中的对应位置的DNA序列。2、人类基因组中超过97是非编码序列,至少有大于70的有转录产物,绝大部分的转录产物是非编码RNA,物种间的差别主要是非编码RNA。3、非编码RNA有很重要的功能,例如人与黑猩猩的比较研究发现主要的差别在于非编码区;SLNE(短散在元件)可以作为调控元件,通过插入基因序列中调控邻近基因的转录活性;X-inactivation(X染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转录被抑制从而失活,抑制转录是通过一个2kb的非编码RNA(Xist RNA)实现的,xist RNA装配在失活X染色体的外侧,引起结构改变导致失活;RNAi研究:RNAi是由RNA(siRNA、机体的microRNA)导致的转录后基因沉默现象;一些小核RNA调控基因转录。一、系统生物学1.*问题六:什么叫系统生物学?系统生物学对生物功能实现的本质认识的变化?系统生物学在分子水平上描述功能理解的本质变化?系统生物学是一门学科,是分析整个基因和蛋白质系统所有信息的学科。收集和整合各种层次水平上得来的生物分子活动的信息(包括DNA,RNA,蛋白质,蛋白质互作信息,途径等)。基于整合的信息构建数学模型以描述生物体结构和功能。用建立的数学模型来预测系统内外部存在环境刺激时系统结构如何变化,也可以说预测系统的未来发展及系统受干扰后系统的变化。本质变化:传统:传统生物学是从基因组到基因再到蛋白的过程,直线型的关系,相信结构完成了功能。序列决定结构,结构决定功能,即基因组上得到特征序列,得到功能信息。是单个元件产生单个结构,单个结构产生单个功能,是一维的,只考虑单个分子结构与功能。系统生物学:系统生物学认为任何生命活动过程都并非是一个蛋白或基因能实现的,任何的生命活动同时很多基因表达来实现,每个基因表达出了很多结构相互作用,而每个基因间形成很大的网络,是这个网络表达了功能。一个基因表达一个分子,很多基因表达很多分子,分子间相互作用,因此生命活动是二维的。同时有许多生物元件协同相互作用完成功能,相互作用形成网络,网络构成功能。对生命功能本质的理解是二维的(分子与分子间相互作用),考虑分子结构与功能,分子间相互作用,关联。2功能基因组发展趋势1更好整合生物过程不同阶段的分散数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论