（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：70 大小：3.47MB 积分：0 举报 版权申诉

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf_第2页

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf_第3页

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf_第4页

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf_第5页

已阅读5页，还剩65页未读，继续免费阅读

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名: 日期:沪多东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、位论文的复印件和电子文档，可以采用影印国家图书馆有权保留本人所送交学、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布 ( 包括刊登)论文的全部或部分内容。论文的公布 ( 包括刊登)授权东南大学研究生院办理。研究生签名 : 匕丛一导师签名 : 少日期 :y , 3 . 二是从中发现新的规律，也就是用好这些数据。具体地说，生物信息学是把基因组 d n a( 脱氧核糖核酸) 序列信息分析作为源头，找到基因组序列中代表蛋白质和 r n a( 核糖核酸) 基因的编码区。同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在 d n a序列中的遗传语言规律。在此羞础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋自质功能的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。生物信息学主要包括以下几个主要研究领域b i 、序列比对 ( a l i g n m e n t )。基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的第一章:绪论比对软件包一一b a l s t 和f a s t a ，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似，但某些局部片断相似性很高。 s m i t h - w a t e r m a n 算法是解决局部比对的好算法，缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。 2 、结构比对。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。己有一些算法。 3 ,蛋白质结构预测，包括2 级和3 级结构预测，是最重要的课题之一从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预钡 1 和研究蛋白质的结构和折益过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认 t h r e a d i n g ) 方法属于这一范畴。虽然经过 3 。余年的努力，蛋白结构预测研究现状远远不能满足实际需要. 4 ,计算机辅助基因识别( 仅指蛋白质编码基因 ) 。基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置这是最重要的课题之一，而且越来越重要。经过2 。余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助荃因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。 5 、非编码区分析和d n a 语言研究，是缓重要的课题之一。在人类基因组中，编码部分进展总序列的 3 - 5 % ，其它通常称为 “ 垃圾” d n a ，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区 d n a序列需要大胆的想象和崭新的研究思路和方法。 d n a序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。 6 、分子进化和比较基因组学;是最重要的课题之一。早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用 d n a序列也可以用其编码的氨基酸序列来做，甚至于酉通过相关蛋白质的东南大学硕士学位论文结构比对来研究分子进化。以上研究己经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。可以设想，比较两个或多个完整基因组这一工作需要新的思路和方法，当然也渴望得到更丰硕的成果。这方面可做的工作是很多的。 7 、序列重叠群 ( c o n t i g s ) 装配。一般来说，根据现行的测序技术，每次反应只能测出5 0 0或更多一些碱基对的序列，这就有一个把大量的较短的序列全体构成了重叠群 ( c o n t i g s )。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重处群装配拼接 f s r数据以发现全长新基因也有类似的问题.己经证明，这是一个n p 一完备性算法问题。 8 、遗传密码的起源。遗传密码为什么是现在这样的? 这一直是一个谜。一种最简单的理论认为，密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的，并被固定在现代生物最后的共同祖先里，一直延续至今。不同于这种 “ 冻结” 理论，有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成，为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。 9 、基于结构的药物设计。人类基因组计划的目的之一在于阐明人的约 1 0万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方法，包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性，在已知其 3级结构的基础上，可以利用分子对接算法，在计算机上设计抑制剂分子，作为候选药物。这种发现新药物的方法有强大的生命力，也有着巨大的经济效益. 1 0 、其他。如基因表达谱分析，代谢网络分析;基因芯片设计和蛋白质组学数据分析等，逐渐成为生物信息学中新兴的重要研究领域。 1 . 3 . 2调控元件预测在基因表达调控研究中，识别调控元件是关键的一步。随着人类基因组计划的进行，大量的各种数据被存储在各种生物数据库中。系统分析非编码序列所需要的实验工作量己超过了研究者的能力，因而追切地需要借助生物信息学这个强有力的信息处理工具，研究识别调控元件的方法，再用预测得到的可能调控元件来指导实验研究回。下面，我们从算第一章绪论法和研究数据两个方面出发做个介绍。目前，预测调控元件的方法有很多。从算法上看，有模式驱动算法 ( p a t 七 e r n - d r i v e n a l g o r i t h 口 s )、序列驱动算法 ( s e q u e n c e - d r i v e n a l g o r i t h m s ) 和其他一些方法。一:模式驱动算法: 由于蛋白因子结合 n 人开启了转录，因而最初的识别方法采用了这种简单的模式驱动算法。算法的具体步骤是:先用一批真实的结合位点来构造一个特征定义 ( c h a r a c t e r i s t i c d e f i n i t i o n )、模式( r e p r e s e n t a t i o n ) 或轮廓 ( p r o f i l e )，然后用得到的特征来识别结合位点，找到的结合位点可能不止一个，最后按照某些原则把这些识别的结合位点组装起来。可以看出，在这个算法中，关键是如何从输入的多个序列中提取足够的信息来构造何种形式的特征f m , 川。下面介绍几种方法: i :保守序列 ( c o n s e n s u s s e q u e n c e )是从输入的结合位点序列集合中，选取每个位置上使用频率最高的碱基组成的一条序列。因为输入的结合位点序列之间不是完全相同的，所以使用这种模式经常不能识别输入结合位点序列集合中的每一个结合位点序列。如果允许误差范围内的错配，结果会好些，但同时也会增加输入结合位点序列集中没有的结合位点情况。在极端情况下，即输入序列差别很大，这种方法几乎不可行。 i i ; 位置权重矩阵 ( p o s i t i o n w e i g h t m a t r i c e s ) 0 . 12 1用权系数来描述功能位点各位置上每种核普酸的相对重要性，是根据一系列功能位点的多重对比排列结果而建立的，其大小为4 x 0 , 4 代表碱基的种类数目，n 代表功能位点的长度。矩阵的每一个元素m ( a , j ) 的值代表第 a种核昔酸在功能位点第 j个位置上出现的得分 ( 代表相对重要性)，a 二 a , t , g , c ) 。因为在某些位里上的碱基更具保守性， p 更好地代表了结合位点的特征. 它的一个假设是不同位置碱荃间具有独立性。如果要去掉这个限制，可以用多核甘 p w m , 另外，在 p w m在预测结合位点时需要恰当地选取结合位点域值，决定这样才能更好地滤除错误的预测结果。 i i i :还有其他一些构造特征的方法，如隐马尔可夫模型 ( h m m , h i d d e n m a r k o v m o d e l ) “ ts f 、多层神经网络 “ii i和决策树 n 9 等。这些方法对结合位点序列集合进行非线性分类，找出数据之间的联系。 2 ) 序列驱动算法 ( s e q u e n c e - d r i v e n a l g o r i t h m s ) 这个方法要处理的是一批包含结合位点的序列，但结合位点的位置和序列信息都不知道。功能相似的调控区域中，功能结东南大学硕士学位论文合位点在相对顺序上经常是保守的;相反非功能结合位点是随机出现的。这种算法是基于这个事实来构建的。如果这些序列共享某些功能特性，那通过序列比较分析能提取出他们的共同特征。包含结合位点的序列可以来自试验方法，例如通过d n a阵列 ( d n a - a r r a y s ) 技术得到的一组共表达基因;还可以来自比较基因组，因为不同物种之间的基因调控模式经常是保守的，因而通过各物种之间的序列比对可以识别调控序列. 3 )后来，还有一些其他的算法运用到预测调控元件中，如统计分析、神经网络、聚类预测、字识别。统计分析中，判别分析是一种标准的统计模式识别技术，它根据已知类别 ( 两类以上)的事物的性质 ( 表明观察且特征的变量值)，建立函数式，利用已建立的函数式对未知类别的新事物进行判断并将之归入己知的类别的分析方法。 m i c h a e l qz h a n g 0 0 ) 曾利用这种方法来预测核心启动子。人t神经网络 ( a r t i f i c i a l n e u r a l n e t w o r k ，简称a n n ) 是一个用大量的简单处理单元经广泛并行互连所构成的人工网络，用于模拟人脑神经系统的结构和功能，它具有自学习、自组织、自适应、联想、模糊推理等方面的能力。 s . k n u d s e n 3 利用神经网络来分类一个序列是否属于调控序列集合。因为 a n n适合于非线性识别过程，所以可以用来处理大量的退化结合位点。利用遗传算法对八洲权重进行优化，可以得到最好的识别效果。这种方法只能判断一条序列是否是推定的调控元件，但无法判断调控元件所在的具体位置。通俗得讲，聚类分析就是根据事物彼此不同的属性进行辨认，将具有相似属性的事物聚为一类，使得同一类的事物具有高度的相似性。在生物体中，一个明显正确的信号如果放到前后关系错误的基因组序列中，就不具有任何生物意义上的重要性。相反，如果把一个高度异常的调控元件放到同其他调控元件关联很强的位置上，那或许它就具有了生物功能。功能结合位点通常都是以类的方式出现的，例如启动子和增强子。因而可以利用这个方法搜索聚类的潜在结合位点。 l . p i e k e r t 等人用二维模糊聚类分析方法来分析结合位点聚类。如果从研究的生物数据角度出发，又可分为基于基因组序列、基于结构数据和基于基因表达数据的研究圈。随着基因表达调控研究的进行，产生越来越多的结合位点序列、包含结合位点的调控区域序列和共调控表达序列等各种序列信息，利用一些算法可以从中寻找调控元件的预a 方法。上面介绍的各种算法都可以应用在这种基因序列信息分析中。这些方法比较直接，但也有相当的局限性，其准确性依赖于所给序列信息的质量。而且由于转录因子经常结合第一章:绪论多个目标位点、并以协作的方式调控多条基因，因而结合位点预测是一个相当复杂的问题。 x 射线结晶学等研究物质微观结构技术的发展促使大量蛋白一核酸复合物的三维结构数据的产生。转录因子结合调控元件的过程中形成了蛋白一核酸复合物，通过对这些复合物的三维结构数据进行分析，就可以更好地理解蛋白同核酸结合的立体化学规则，理解因子如何识别特异目标序列。这些研究结果可以用来预测因子的结合位点研究中。 h a r r i s o n 等人最先对d n a 结合蛋白进行结构分类，分成不同家族，类似的分类也可在s c o p tm 1和c a t h p 数据库中得到。这种分类简化了不同结合方法间的比较，也强调了蛋白一核酸复合物几何学图形上的差异，还发现。螺旋同洲a主沟间的作用占了半数以上蛋白家族的主要结合模式。研究发现沿a 螺旋的每个氨基酸位置同d n a 碱基间的作用随家族的不同而不同 fs e , z i t 另外，有些研究者在分子水平上研究了单个氨基酸一碱基间的作用，看是否存在对某些氨基酸一碱蓦作用对的使用偏好 iz e l 。建立在类似这些对结构研究的蓦础上，可以进行转录因子结合位点预测(w -z z l . 但这种方法也存在着局限性，因为存在着很多其他的必需考虑的因素。随着基因芯片技术的快速发展，人们可以用越来越快的速度得到越来越多的基因表达数据。在这个海量数据中盆藏着许多的生物信息等待挖掘。目前基因表达数据分析方法都集中在依据表达特征 ( e s p r e s s t i o n p r o f i l e )的相似性进行聚类分析。常用的方法有层次聚类( h i e r a r c h i c a l c l u s t e r i n g ) t i 、自组织映射( s e l f - o r g a n i s i n g m a p s ) t ，和k 次聚类 ( k - m e a n s c l u s t e r i n g ) 。表达数据经常和其他一些生物特性相关联，例如结构、功能等。这样，利用这些特性间的关联就可以进行一些研究，例如共表达蛋白的特性等。 t o 4课题研究内容上个小节中介绍了基因表达调控的生物信息学研究方法，鉴于目前国内从结构角度出发进行调控研究相对少一些的情况，本课题从蛋白一核酸复合物结构数据角度出发，通过分析氨基酸碱基作用对，探索转录因子结合位点的预测方法. 本文选取 p d b数据库中的所有蛋白一核酸复合物，通过作用力计算软件求出每个复合物中可能存在的氢键。对有计算结果的复合物进行分类，然后统计氨基酸一碱基作用对的使用情况。再计算出反映每种氨基酸一碱基对使用偏向性的打分矩阵，并对打分矩阵的有效性进行验证。转录因子通过一定的结合模式同 d n a发生作用，最后尝试利用结合模式和打分矩阵来预测某种转录因子在基因上游调控区域内的可能结合位点的，以z i f 2 6 b 类锌指蛋白和 c a p蛋白为例.结果可以证明这种方法在一定程度上可以用来进行转录因子结合位点预测。东南大学硕士学位论文本文结构安排如下: 第一章:绪论概要基因研究、基因表达调控原理、生物信息学及其在预测调控元件中的应用和本课题的内容。第二章: 选取蛋白一核酸复合物数据，并计算复合物中可能存在的氢键形式的氨基酸- 碱基作用对。并对有计算结果的复合物进行了分类，最后对氨基酸- 碱基对进行了一些统计分析。第三章:生成反映氨基酸一碱基使用偏向性的打分矩阵，并用打分矩阵和蛋白一核酸结合模式进行转录因子结合位点的预测。第四章: 利用蛋白一核酸契合物中的氨基酸一碱基作用对数据，尝试得到蛋白同核酸作用的结合模式，并对蛋白结合的d n a 序列部分进行初步的序列比对分析。第五章:b s 工 n s p e c t o r 软件的介绍. 第六章;总结和展望。第二章: 氨基酸- w基相互作用的研究第二章:氨基酸碱基相互作用的研究 2 . 1 蛋白一核酸的空间结构 2 . 1 . 1脱氧核糖核酸 ( d n a )的空间结构脱氧核糖核酸 d e o x y r i b o n u c l e i e a c i d ( d n a ) 是一种分子量很大、能自行复制的双链分子，存在于一切活细胞内，是携带遗传信息的重要物质。其基本单位是脱氧核甘酸。 d - 2脱氧核糖和碱基缩合形成脱氧核糖核甘，然后脱氧核糖核甘中的戊糖被磷酸醋化形成脱氧核甘酸s . ” ， ai l图2 . 1 以胞喻呢为例。在所有的d n a分子中，磷酸和脱氧核搪是永远不变的，而含氮碱基却是可变的。主要有 4中，即:腺i吟 a d e n i n e ( a ) 、鸟rm吟 g u a n i n e ( g ) , s pz i p p e r - t y p e g r o u p 中的l e u c i n e z i p p e r f a m i l y和z i n c - c o o r d i n a t i n g g r o u p 中的0s。一 : i n c f i n g e r f a m i l y . 东南大学硕士学位论文夸 2 . 2 蛋白一核酸复合物中作用力的计算 2 . 2 . 1蛋白一核酸复合物的数据来源蛋白一核酸复合物定义为任何一种包含一条或多条蛋白质链和至少一条长度大于4 b p 碱基的双链d n a的结构u 1 ) . 随着人类基因组和结构生物学研究的进展，复合物的数据不断地增加。目前， p r o t e i n d a t a b a n k ( p d b ) ) ，和n u c l e i c a c i d d a t a b a s e ( n d b ) e 数据库存放着大量的生物大分子结构数据。本文从p d b 数据库中提取x射线结晶技术得到的蛋白一核酸复合物的结构数据进行分析。完整、精确地测定生物大分子三维结构的主要研究方法包括x射线衍射分析 ( x - r a y c r y s t a l l o g r a p h y ) 、二维和多维核磁共振 ( n m r ) 技术、电子衍射分析( 电子结晶学) 等 116 . 16 ) 。其中x 射线衍射分析迄今为止仍然是生物大分子空间结构测定的主要方法。 x 射线衍射分析，也称晶体结构分析，是阐述蛋白质、d n a或其它生物分子的原子水平的三维结构的技术。这种方法的运用是基于首先使纯化的生物分子结晶为有序排列然后用 x射线分析结晶体。之所以使用 x射线是因为其波长和原子裂解时的波长一样，所以晶体作为分子衍射光橱衍射 x射线，产生一种可以获取井分析的衍射图形。然后用计算机重建初始结构。在实际操作中这一衍射图形被反复地不断升高的分辨率处理，结晶学家不断在建立一个模型结构并按该模型计算出的衍射图形与实际观察到的比较。每一次重复都使模型结构与实验结果更加吻合。当这两者之间的差异可以忽略时，这一衍射图形便得到求解。最终的模型提供了被研究分子平均时间上的三维原子水平结构. p d b是结构生物信息学研究联合实验室 ( t h e r e s e a r c h c o l l a b o r a t o r y f o x s t r u c t u r a l b l o i n f o r m a t i e s , r c s b ) 于1 9 7 1 年建立的全世界最完整的包括蛋白质、核酸、蛋白一核酸复合物及病毒等生物大分子的三维结构数据库，网址为 h t t p : 刀 w w w . r c s b . o r 的d b / . p d b生物大分子结构数据库向用户提供与每个结构相关的各种信息，不仅包括生物学信息、文献信息，还包括序列详细信息、原子坐标、结晶状况、利用不同方法计算的三维结构相邻元素、派生的几何数据、结构因子、三维图像以及其他资源链接. r c s b与e b i 和n c b i 紧密合作，保持每个结构数据的一致性，并可以实现与蛋白质序列数据库、核酸序列数据库的交叉检索 )17 . 侧。每一个p d b 数据在提交时都会分配一个标识符，由数字和字母组成的4 位标识符，如 l a a y , 4 h h b .图2 . 9的左图显示了一个 p d b 记录。东南大学硕士学位论文对于 4 8 4个蛋白一核酸复合物中的每一个数据，在其 p d b数据库的 s u m a r y i n f o r m a t i o n主页上大部分都有 p d b s 。数据库的链接，链接到 p d b s u m数据库中和该记录相关的网页上，这里会提供该蛋白一核酸复合物中的蛋白部分的 s w 工 s s - p r o t链接. 对于少数没有 p d b s u m 链接的复合物，可以直接在 s w 工 s s - p r o t 数据库中搜索相关蛋白。这样我们对 4 8 4 个蛋白一核酸复合物进行查找，利用s w 工 s s - p r o t数据库中蛋白的功能描述信息，查出每个蛋白一核酸复合物是否和基因调控过程相关。结果，除去2 7 6 个复合物，确定2 0 8 个复合物是与基因调控过程相关。已知蛋白一核酸复合物根据蛋白的空间结构可分为 5 4个家族。我们选出所含成员较多一些的家族，并在这2 0 8 个蛋白一核酸复合物中通过p d b 数据库搜索找出属于这些家族的成员。表 2 . 2我们列出每个蛋白一核酸复合物集合中的复合物 p d b 名称: 表2 . 2 ;蛋白一核酸复合物集合中成员的p d b 名称复合物集合名称集合中的蛋白一核酸复合物的p 加名称 2 0 8 个同荃因调控过程相关的蛋白一核酸复合物集合 1 c m a 2 1 m t p 3 c r o l h d d l h c q l g l u l f j l i f o s l p e r 1 b v o i b y 4 l l a t l o c t l m d y 1 q p 7 1 d s z 1 d l x 1 1 d l x i e 3 o 1 e a 4 1 q q b 1 q q a 1 q p z i m 1 b g w 1 q p i 1 q n c 1 0 p 9 1 q n 8 1 q p 4 1 q n 4 1 0 p 0 i q n e 1 d p 7 i q n 5 1 s v c i qm 1 q n a 1 q n 6 i q n 9 i q n 7 1 q n 3 1 v o l i c y q 1 c z 0 i d 3 u i d b 7 i d b s i d b 9 l k 6 o i z a y i h 9 d i y t f i x b r i s k n 1 v p w i r a n 1 v k x i d b c 1 t s r i t g h 1 76 1 1 0 1 d d n 1 m j q l r u o 1 r l n 1 d g c 1 d h 3 1 w e 7 1 h w 2 i m h d 1 j f i 1 f y l 1 f y m 1 i 0 4 i i m h 1 f z p 1g21) i i g 7 i i f i 1 g 2 f i g a 5 1 j f 7 i h w t 1 j g g 1 g j i 1 g x p i h l z 1 h 6 f i h l o t h j b 1 b f o i h 8 8 1 h b x i h 8 9 1 h s a i h 9 t 1 g d 2 i k b 4 l m j o i m j m 1 m j 2 1 c q t 1 l q 1 i z m e 1 l l i i l e 8 i e x i 1 l i a 1 k u 7 i e x j i rs i k b 6 1 1 p j p 1 k b 2 1f31 i k 7 9 1 1 j c l a c y 1 j w l 1 j t o 1 f 5 t 1 j k 2 1 j k 1 i j j 4 i j h 9 1 f 2 i i a l f 7 i b l o i a i g i a i h i a i i i a i j i a i k t a i l i a 6 y i a i s i a k h 1 a m 9 i a o a i a n 4 i a 0 2 i a w c 1 z a a i b 0 1 1 b 8 i 6 p a x 6m0 i b d h 1 b d i i b d t i b d v 3 0 r c i a n 2 l p n r i a p l 1 j 5 9 2 b o p 1 c d w 1 d 6 6 2 d g c l i g n l l h f l n f k 2 n l l 2 o r 1 i a i f l p d n 1 b 7 2 l p u e l p y i l r p e l s r s l t r o l t r r l t u p l y r e l y s a l y t b l u b d l p a r 2 h a p 2 r a k m d 2 p v c 2 p u b 2 p u a i c o n 2 p u g 2 p l e 2 p i f 3 h y s 2 h o d 2 g l i 2 c g p 1 c k t 1 c f 7 i c g p wi t i b f 5 3 h o d 2 i r f 1 b f h 1 l e r i i m e y l r v a l h c r 2 7 6 个和调控过程无关的蛋白一核酸复合物集合 1 c 掀 2 d r p 3 c r c i q p 7 i d s z 1 d u f i 洲8 i q p 4 1 q n 4 1 v o l i c y q 1 c z 0 1 r a m 1 v k x 1 d b c i h w 2 1 m h d 1 j f i 1 h w t 1 j g g i g j i 1 g d 2 1 k b 4 l m j o i j f s i k b 6 1 m j p 1 川9 1 f 2 i 1 川 j 7 i a o a i a n 4 1 a 0 2 1 a n 2 l p n r i a p l i p 面 1 8 7 2 l p u e 2 h a p 2 r a mz r刃 i c k t 1 c f 7 l h d d l b e q l g l u i f j l l f o s l p e r 1 b v 0 i b y 4 i l a t l o c t l m d y i d u x i e 3 o i e a 4 i q q b i q q a i wz 1 m n m i e g w l q p i 1 q n c i q p 9 i wo 1 q n e i d p 7 i q n 6 1 s v c 1 q n b 1 q n a 1 q n 6 i q n 9 i q n 7 1 q n 3 1 d 3 u i d b 7 i d b 8 i d b 9 i k 6 o i z a y 1 1 1 9 1 ) l y t f i x b r i s k n i v p w 1 t s r 1 t g h 1 t f 6 1 1 j m b 1 d d n 1 m j q i r u o i r u n 1 d g c 1 d h 3 1 v e t i f y l hy m 1 1 0 4 i i 1 h i m i g 2 d i i g 7 i i f i i g 2 f wa s 1 j f 7 i g x p 1 b l z 1 h 6 f l h l o 1 r j b 1 1 f o 1 11 8 8 i h b x 1 11 8 9 i h s a 1 h 9 t 1 m j m i i ( j 2 i o u i l q i 1 2 椒 i l l i 1 l e b i e x i 1 l i a 1 k u 7 i e x j i k b 2 i f 3 i i k 7 9 1 h j c l a c y i j w l i j t o i f s t 1 j k 2 i j k i i j j 4 i b l o i a i g i a l h i a i i 1 a i j i a i k t a i l m y i r i s i a k h j a m 9 i a w c i z a a i b 0 1 i b s i 6 p a x 6 c r o 1 b d h 1 8 d i 1 b d t i b d v 3 0 r c i j 5 9 2 b o p i c d w 1 d 6 6 2 d g c l i g n l i h f i n f k 2 n 1 i 2 o r 1 l a l f i p y i l r p e i s r s l t r o i t r r i t u p l y r n l y s a l y t b l u b d l p a r 2 p u c 2 p u b 2 p u a i c o n 2 p u g 2 p u e 2 p u f 3 h t s 2 h d d 2 g l i 2 0 g p i c g p 1 c i t 1 b f 5 mo d 2 i r f 1 b h m l e r i l u e y i r v a i h c r 9 9 a - z i n c f i n g e r 家族集合 ( 1 8 ) ma y i z a a 2 d r p i l b d i a i g 1 mi ll i a i l i a i j i a i k i a i i i a i p 1g21) 1 g 2 f 1 j k i j k 2 1 m e y 1 t f 6 2 g l i . 2 4 第二章: 氮基酸一碱基相互作用的研究 h o m e o d o m a i n家族集合 ( 1 7 ) f j l 1 h d d i a p l i y r n i a u 7 i o c t 2 b d d 3 h d d 9 a n t 6 p a x 1 a 10 1 1 b 7 2 1 8 8 i 1 m n m i d u o l i g 7 1 j g g l a c l r e p r e s s o r家族集合 ( 2 2 ) b d h 1 b d i 1 j f 5 1 j f t 1 j h 9 1 p n r i q p o 1w4 1 q p 7 i q p z 1 q q a 1 q q b 1 v p w 1 w e t ma y 2 p u a 2 p l b 2 p u c 2 p u d 2 p u e 2 p u f 2 1 4 1 g t a t a b o x - b i n d i n g家族集合 ( 1 9 ) c d w i d 3 u i g 2 d i g 2 f i j f i l q n 3 i q n 4 1 4 y s 1 q n 6 1 q n 7 1 q n 8 i q n 9 i o n a 1 q t1 b 1 q n c i q n e 1 t g h i y t b i y t f l e u c i n e z i p p e r家族集合 ( 1 1 ) a n d r e p r e s s o r 族集合 ( 8 ) 2 d g c l d g c i y s a 1 a 0 2 1 g d 2 i a m 9 1 1 1 l o i a n 4 i a n 2 1 m d y i a o a l m b 1 l l i i p e r l r p e 2 o r l 3 c r o 6 c r o 3 0 r c c a t a b o l i t e g e n e a c t i v a t e p r o t e i n家族集合 ( 9 ) z i p p e r - t y p e g r o u p ( 1 1 ) 1 0 g p 1 d b 7 i d b 8 1 db9 1 d b c i j 5 9 1 r u n 1 r u 0 2 c g p 2 d g c 1 d g g i y s a 1 a 0 2 i g d 2 i a m 9 1 1 亚习 l m4 i a n 2 1 m d y i a o a 有了上面这 4 8 4 个蛋白一核酸复合物中的作用力计算结果，就可以对氨基酸一碱基的使用倾向性进行统计分析。把与调控过程相关的一类、与调控过程不相关的一类和一些家族中的统计结果进行对比分析. 2 . 3氨基酸一碱基作用对使用分析己经知道在蛋白一核酸复合物中，蛋白与核酸间有 4 种作用方式:即蛋白主链同核酸磷酸骨架间的作用、蛋白主链同碱基间的作用、蛋白侧链同核酸磷酸骨架间的作用、蛋白侧链同碱基间的作用。对复合物中的氢键进行统计， m a n d e l - g u t f r e u n d 沙4 1 等人发现蛋白主链同核酸磷酸骨架和碱基间的作用只占了 1 9 % ，我们知道对于蛋白中的每个氮基酸来说，属于蛋白主链的部分都是一样的，因而不能通过主链来区别氨基酸的种类，氨基酸的种类是由侧链基团决定的。另外，同蛋白侧链相比较，蛋白主链同核酸之间的距离更远一些。因而可以解释为什么蛋白主链同核酸磷酸骨架和碱基间的作用只占了很小的比例。软件n u c p l o t 只计算出了蛋白一核酸复合物中可能存在的蛋白侧链 us e )同磷酸骨架 ( d b b )间的作用对( p s c - d b b ) 和蛋白侧链 ( p s c )同碱基 ( d b e ) 间的作用对( p s c - d b e ) .前面提到:在蛋白同核酸碱基之间的相互连接识别中，主要是碱基和氨基酸残基侧链之间形成的氢键介导。因而接下来，我们对复合物中计算出的蛋白侧链同磷酸骨架间、蛋白侧链同碱基间的氢键作用对进行统计。对象是表2 . 2中列出的 1 0 个蛋白一核酸复合物集合。统计结果见表 2 . 3 , p s c - d b b 所占的比例是指p s c - d b b 在所有氢键 ( p s c - d b b + p s c - d b e )中的比例。东南大学硕士学位论文表2 ， 3 ; 复合物中氨基酸侧链同碱基间作用对的统计复合物集合p s c - d b b 数目 ip s c - d b 。数目 i p s c - d b b 所占的比例同调控相关的复合物同调控无关的复合物 h o m e o d o m a i n 家族 2 7 9 4 2 9 2 1 2 41 1 4 5 25 5 0 . 6 4 7 3 5 9 0 . 7 2 8 9 7 4 仪 6 5 8 4 7 0 0 . 6 3 2 2 5 8 0 . 6 6 3 4 1 5 0 . 5 9 8 3 3 8 0 . 3 5 6 0 6 1 住 6 3 0 4 3 5 0 . 6 3 2 2 5 8 0 . 6 4 7 0 5 9 1522一姗一既 57一69 曰一叼一42 98一136一216一141-盯-123-77 l a c l r e p r e s s o r 家族 z i p p e r - t y p e g r o u p t a t a b o x - b i n d i n g 家族 p p a - z i n c f i n g e r 家族 c r o a n d r e p r e s s o r 家族 - 一卫望吧 i e - n u c l e a r r e c e p t o r 家族 c a t a b o l i t e g e n e a c t i v a t e p r o t e i n 家族从统计结果可以看到，在与调控过程相关的 2 0 8 个复合物集合中，蛋白侧链与磷酸骨架间的作用力( p 二一 d b b ) 占到了全部 p s c - d b l 十 p s c - d b e作用力的 6 . % ; 而在同调控过程无关的 2 7 6个复合物集合中，蛋白侧链与磷酸骨架间的作用力占到了全部的 7 2 % 。已知，转录因子识别调控元件的特异性体现在蛋白侧链同碱基的作用上，可见在基因调控过程中，有更多的蛋白侧链参与了识别碱基的特异性作用。另外我们发现: 除了d a a - z i n c f i n g e r家族外，2 / 3 左右的p s c - d b b + p s c - d b e 作用属于蛋白侧链同d n a 磷酸骨架间的相互作用 ( p s c - d b b )。这主要的作用可能是稳固蛋白质同核酸结合，保证起始转录能顺利的进行。对于f n a - z i n c f i n g e r家族中的复合物来说，可能其本身连续的a 螺旋盘绕在 d n a上，同碱基结合，已形成稳定的结构。因而不再需要更多的蛋白侧链同磷酸骨架间的作用。接下来，我们对复合物中的蛋白侧链同碱基间的氢键作用力进行分析。自然界中存在着2 0 种氨基酸和4 种碱基。那氨基酸一碱基作用对就存在2 0 x 4 种情况。会不会存在这种现象，即不同的复合物集合在氨基酸一碱基对使用上有所不同? 下面让我们来统计，在上面列的各种复合物集合中，各种氨基酸一碱基对的使用情况。对于每个蛋白一核酸复合物，通过n u c p l o t 计算得到了所有可能存在的氨基酸一碱基间的氢键作用对。把复合物集合里所有复合物的氨基酸一碱基间的氢键作用对按不同类别相加。看一下，在这种复合物集合中，每种氨基酸一碱基对的使用情况。第二章: 氮基酸一碱基相互作用的研究下面以图形来显示每个复合物集合中，各种氨基酸一碱基对的使用比例。左边的图是该复合物集合中氨基酸一碱基对的个数和所占的百分比例。右边的图是每种氨基酸- 碱基对所占百分比例的图形化表示。 x 轴表示某种氨基酸一碱基对，依次为a l a - a , a l a - t , a l a - c , a l a - g ; a r g - a , a r g - t , a r g - c , a r g - g ; . . 一 ( 氨基酸的次序为左图中的氛基酸从上到下的次序)。纵坐标表示每种氮基酸一碱基对 ( p s c - d b e )在这个复合物集合中所有氢键作用对 p s c - d b b + p s c - d b e ) 中使用的百分比，即使用频率。和调控过程相关的2 0 8 个复合物: p

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf

文档简介

温馨提示

最新文档

评论

（生物医学工程专业论文）基于结构数据的转录因子结合位点分析(1).pdf

文档简介

温馨提示

最新文档

评论

相关文档