




已阅读5页,还剩65页未读, 继续免费阅读
(生物医学工程专业论文)基于结构数据的转录因子结合位点分析(1).pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东 南 大 学 学 位 论 文 独 创 性 声 明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已 经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育 机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究 所做的任何 贡献均己在论文中作了明 确的说明并表示了谢意。 研究生签名: 日 期:沪 多 东 南 大 学 学 位 论 文 使 用 授 权 声 明 东南大学、中国 科学技术信息研究所、 位论文的复印件和电子文档,可以 采用影印 国家图书馆有权保留本人所送交学 、 缩印或其他复制手段保存论文。 本人电子文档的内容和纸质论文的内容相一致。 除在保密期内的 保密论文外, 允许论文被查阅和借阅,可以公布 ( 包括刊登)论文的全部或部分内容。论文 的公布 ( 包括刊登)授权东南大学研究生院办理。 研 究 生 签 名 : 匕 丛一 导 师 签 名 : 少 日期 :y , 3 . 二是从中发现新的规 律,也就是用好这些数据。 具体地说,生物信息学是把基因组 d n a( 脱氧核糖核酸) 序列信息分析作为源头,找 到基因组序列中 代表蛋白 质和 r n a( 核糖核酸) 基因的编码区。同时,阐明基因组中大量 存在的非编码区的信息实质, 破译隐藏在 d n a序列中的遗传语言规律。在此羞础上,归 纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白 质谱的数据,从而认识代 谢、发育、 分化、进 化的 规律。 生物信息学还利用基因组中 编码区的信息进行蛋白 质空间结构的模拟和蛋自 质功能的 预测,并将此类信息与生物体和生命过 程的生理生化信息相结合,阐明其分子机理,最终 进行蛋白 质、 核酸的分子设计、药物设计和个体化的医疗保健设计。 生物信息学 主 要 包括以 下几个主 要研究 领域b i 、序列比 对 ( a l i g n m e n t )。 基本问 题是比 较两个或两个以 上符号序列的 相似性或不相似性。 序列比 对是生物信息 学的基础,非常重要。两个序列的比 对有较成熟的动态规划算法,以 及在此基础上编写的 第一章:绪论 比 对软件包一一b a l s t 和f a s t a ,可以免费下载使用。 这些软 件在数据库查询和搜索中有重 要的应用。 有时两个序列总体并不很相似,但某些局部片断 相似性很高。 s m i t h - w a t e r m a n 算法是解决局部比对的好算法, 缺点是速度较慢。两个以 上序列的多 重序列比 对目 前还缺 乏快速而又十分有效的算法。 2 、结构比对。 基本问题是比较两个或两个以 上蛋白质分子空间结构的相似性或不相似性。己 有一些 算法。 3 ,蛋白 质结 构预测,包括2 级和3 级结构预 测,是最重要的 课题之一 从方法上来看有演绎法和归纳法两 种途径。前者主要是从一些基本原理或假设出 发来 预钡 1 和研究蛋白 质的结构和折益过程。分子力学和分子动力学属这一范畴。 后者主要是从 观察和总结已 知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认 t h r e a d i n g ) 方法属于这一范畴。虽然经过 3 。余年的努力,蛋白 结构预测研究现状远远 不能满足实际需要. 4 ,计算机辅助基因识别( 仅指蛋白 质编码基因 ) 。 基本问 题是给定基因组序列后,正 确识别基因的范围 和在基因组序列中的 精确位置 这 是最重要的 课题之一,而且 越来越重要。经过2 。 余年的努力,提出了 数十种算法,有十种 左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助荃因识别相对容易 些,结果好一些。从具有较多内 含子的真核生物基因组序列中正确识别出 起始密码子、剪 切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意, 仍有大量的工作要 做。 5 、非编码区分析和d n a 语言 研究,是缓重要的课题之一。 在人类基因组中,编码部分进展总序列的 3 - 5 % ,其它通常称为 “ 垃圾” d n a ,其实一 点也不是垃圾,只是我们暂时 还不知道其重要的功能。分析非编码区 d n a序列需要大胆的 想象和崭新的 研究思 路和方法。 d n a序 列作为一 种遗 传语言, 不 仅体 现在编码序列 之中, 而且隐含在非编码序列之中。 6 、分子进化和比较 基因组学;是最重要的课题之一。 早期的工作主要是利用不同物种中同一种基因序列的异同 来研究生物的 进化,构建进 化树。既可以用 d n a序列也可以 用其编码的氨基酸序列来做,甚至于酉 通过相关蛋白 质的 东南大学硕士学位论文 结构比对来研究分子 进化。以上研究己 经积累了 大量的工作。 近年来由于较多模式生物基 因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了 条件。可以设想,比 较两个或多个完整基因组这一工作需要新的思路和方法,当然也渴望得到更丰硕的成果。 这方面可做的工作是很多的。 7 、序列重叠群 ( c o n t i g s ) 装配。 一般来说, 根据现行的测序技术,每次反应只能 测出5 0 0或更多 一些碱基对的序列, 这就有一个把大量的 较短的 序列全体构成了 重叠群 ( c o n t i g s )。 逐步把它们拼接起来形成 序列更长的重叠群, 直至得到完整序 列的过程称为重处群装配拼接 f s r数据以 发现全长 新基因也有类似的问 题.己 经证明,这是一个n p 一 完备性算法问 题。 8 、遗传密码的 起源。 遗传密码为什么是现在这样的? 这一直是一个谜。一种最简单的理论认为,密码子与 氨基酸之间的关系是 生物进化历史上一次偶然的 事件而造成的,并被固定在现代生物最后 的共同祖先里,一直延续至今。 不同于 这种 “ 冻结” 理论,有人曾 分别提出过选择优化、 化学和历史等三种学说来解释遗传密码。 随着各种生物基因组测 序任务的完成,为研究遗 传密码的起源和检验上述理论的真伪提供了 新的素材。 9 、基于结构的药物设计。 人类基因组计划的目 的 之一在于阐明人的约 1 0万种蛋白 质的结构、功能、相互作用 以及与各种人类疾病之间的关系,寻求各种治疗和预防方法, 包括药物治 疗。 基于生物大 分子结构的药物设计是生物信息学中的 极为重要的 研究领域。为了 抑制某些酶或蛋白 质的 活性,在已 知其 3级结构的基础上,可以 利用分子对接算法, 在计算机上设计抑制剂分 子, 作为候选药物。 这种发现新药物的 方法有强大的生命力,也 有着巨大的经济效益. 1 0 、其他。 如基因表达谱分析, 代谢网 络分析;基因芯片设计和蛋白 质组学数据分析等,逐渐成 为生物信息学中新兴的重要研究领域。 1 . 3 . 2调控元件预测 在基因表达调控研究中,识别调控元件是关键的一步。随着人类基因组计划的进行, 大量的各种数据被存储在各种生物数据库中。系统分 析非编码序列所需要的实验工作量己 超过了 研究者的能力,因而追切地需 要借助生物信息学这个强有力的信息处理工具, 研究 识 别调 控 元 件的 方 法 , 再 用 预 测 得 到 的 可 能 调 控 元 件 来 指导 实 验 研 究 回 。 下 面 , 我 们 从 算 第一章 绪论 法和研究数据两个方面出 发做个介绍。 目 前,预 测调控 元件的 方 法有很多。 从算法 上看, 有模式 驱 动算法 ( p a t 七 e r n - d r i v e n a l g o r i t h 口 s )、序列驱动算法 ( s e q u e n c e - d r i v e n a l g o r i t h m s ) 和其他一些方法。 一:模式驱动算法: 由于蛋白 因子结合 n 人开启了转录,因而最初的识别方法采用了 这种简单的 模式驱 动算法。算法的具体步骤是:先用一批真实的结合位点来构造一个特征定义 ( c h a r a c t e r i s t i c d e f i n i t i o n )、模式( r e p r e s e n t a t i o n ) 或轮廓 ( p r o f i l e ),然后用得 到的特征来识别结合位点,找到的结合位点可能不止一个,最后按照某些原则把这些识别 的结合位点组装起来。 可以看出,在这个算法中, 关键是如何从输入的多个序列中提取足够的信息来构造何 种形式的 特征f m , 川 。下面介绍几种方法: i :保守序列 ( c o n s e n s u s s e q u e n c e )是从输入的结合位点序列集合中,选取每个位 置上使用频率最高的碱基组成的一条序列。因为输入的结合位点序列之间不是完全相同 的, 所以 使用这种模式经常不能识别输入结合位点序列集合中的 每一个结合位点序列。如 果允许误差范围内的错配, 结果会好些,但同时也会增加输入结合位点序列集中 没有的结 合位点情况。在极端情况下,即输入序列差别很大, 这种方法几乎不可行。 i i ; 位 置 权 重 矩 阵 ( p o s i t i o n w e i g h t m a t r i c e s ) 0 . 12 1用 权 系 数 来 描 述功 能 位 点 各 位 置上每种核普酸的相对重要性,是根据一系列功能位点的多重对比排列结果而建立的,其 大小为4 x 0 , 4 代表碱基的 种类数目 ,n 代表功能 位点的长度。 矩阵的每一个元素m ( a , j ) 的 值代表第 a种核昔酸在功能位点第 j个位置上出现的得分 ( 代表相对重要性),a 二 a , t , g , c ) 。 因为在某些位里上的碱基更具保守性, p 更好地代表了 结合位点的 特征. 它的一个假设是不同位置碱荃间具有独立性。如果要去掉这个限制,可以 用多 核甘 p w m , 另外,在 p w m在预测结合位点时需要恰当地选取结合位点域值,决定这 样才能更好地滤除 错误的预测结果。 i i i :还有其他一些构造特征的方法,如隐马尔可夫模型 ( h m m , h i d d e n m a r k o v m o d e l ) “ ts f 、 多 层 神 经 网 络 “ii i和 决 策 树 n 9 等。 这 些 方 法 对 结 合位 点 序 列 集 合 进 行 非 线性分类,找出数据之间的联系。 2 ) 序列驱动算法 ( s e q u e n c e - d r i v e n a l g o r i t h m s ) 这个方法要处理的是一批包含结 合位点的序列, 但结合位点的位置和序列信息都不知道。功能相似的调控区域中,功能结 东南大学硕士学位论文 合位点在相对顺序上经常 是保守的;相反非功能结合位点是随机出现的。这种算法是基于 这个事实来构建的。 如果这些序列共享某些功能特性,那通过序列比较分析能提取出 他们 的共同 特征。包含结合位点的 序列可以 来自 试验方法, 例如通过d n a阵列 ( d n a - a r r a y s ) 技术得到的一组共表 达基因;还可以 来自比 较基因组,因为不同 物种之间的基因调控模式 经常是保守的,因而 通过各物种之间的序列比对可以识别调控序列. 3 )后来,还有一些其他的算法运用到预测调控元件中, 如统计分析、 神经网络、聚 类预测、字识别。 统计分析中,判别分析是一种标准的统计模式识别技术,它根据已 知类别 ( 两类以 上)的事物的性质 ( 表明观察且 特征的变量值),建立函数式, 利用已建立的函 数式对未 知 类 别的 新事 物 进行 判断 并 将 之归 入己 知的 类 别 的 分 析 方 法。 m i c h a e l qz h a n g 0 0 ) 曾 利用 这 种方法来预测核心启动子。 人t神经网 络 ( a r t i f i c i a l n e u r a l n e t w o r k , 简 称a n n ) 是一 个用大量的 简单 处理单 元经广泛并行互连所构成的 人工网络, 用于模拟人脑神经系统的结构和功能,它具有自 学 习 、自 组 织、自 适应、 联 想、 模糊推 理 等 方面的 能 力 。 s . k n u d s e n 3 利 用神 经网 络 来 分类 一个序列是否属于调控序列集合。因为 a n n适合于非线性识别过程,所以 可以 用来处理大 量的退化结合位点。 利用遗传算法对八 洲 权重进行优化,可以 得到最好的识别效果。 这种 方法只能判断一条序列是否是推定的调控元件, 但无 法判断调控元件所在的具体位置。 通俗得讲,聚类分析 就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物 聚为一类,使得同一类的事物具有高度的相似性。 在生物体中,一个明显正确的信号如果 放到前后关系错误的 基因组序列中,就不具有任何生物意义上的重要性。 相反,如果把一 个高度异常的调控元件放到同其他调控元件关联很强的位置上, 那或许它就具有了 生物功 能。功能结合位点通常都是以类的方式出现的, 例如启动子和增强子。因而可以 利用这个 方 法 搜 索 聚 类的 潜 在 结 合 位 点 。 l . p i e k e r t 等 人 用 二 维 模 糊 聚 类 分 析 方 法 来 分 析 结 合 位 点 聚类。 如果从研究的生物数据角度出发,又可分为基于基因组序列、基于结构数据和基于基 因表达数据的 研究圈。 随着基因表达调控研究的进行, 产生越来越多的结合位点 序列、 包含结合位点的调控 区域序列和共调控表达序列等各种序列信息,利用一些算法可以 从中寻找调控元 件的预a 方法。上面介绍的各种算法都可以 应用在这种基因 序列信息分析中。这些方法比 较直接, 但也有相当的局限性,其准确性依赖于 所给序列信息的质量。而且由于转录因子经常结合 第一章:绪论 多个目 标位点、并以协作的方式调控多条基因,因而结合位点预测是一个相当复杂的问 题。 x 射线结晶学等研究物质微观结构技术的 发展促使大量蛋白一 核酸复合物的 三维结构数 据的产生。转录因子 结合调控元件的过程中形成了 蛋白 一 核酸复合物, 通过对这些复合物的 三维结构数据进行分析, 就可以 更好地理解蛋白同核酸结合的 立体化学规则, 理解因子如 何识 别特异目 标序列。 这些研究结果可以 用来预 测因 子的 结合位点 研究中。 h a r r i s o n 等 人 最先对d n a 结合蛋白 进行结构分 类,分 成不同 家 族,类 似的分 类也可 在s c o p tm 1和c a t h p 数据库中得到。这种分 类简化了 不同结合方法间的比 较,也强调了 蛋白 一 核酸复合物几何学 图形上的差异,还发现。 螺旋同 洲a主沟间的作用占了 半数以 上蛋白 家族的主要结合模 式。 研 究 发 现 沿a 螺 旋 的 每 个 氨 基 酸 位 置 同d n a 碱 基 间 的 作 用 随 家 族 的 不 同 而 不 同 fs e , z i t 另外,有些研究者在分子水平上研究了单个氨基酸一 碱基间的 作用, 看是否存在对某些氨基 酸 一 碱 蓦 作 用 对 的 使 用 偏 好 iz e l 。 建 立 在 类 似 这 些 对 结 构 研 究 的 蓦 础 上 , 可以 进 行 转 录 因 子 结 合 位点 预 测(w -z z l . 但 这 种 方 法也 存 在 着 局限 性 , 因 为 存 在 着 很多 其 他的 必 需 考 虑的 因 素。 随着基因芯片 技术的快速发展,人们可以用越来越快的 速度得到越来越多的基因 表达 数据。 在这个海量数据中 盆藏着许多的生物信息等待挖掘。目 前基因表达数据分析方法都 集中在依据表达特征 ( e s p r e s s t i o n p r o f i l e )的 相似性进行聚类分析。常用的方法有层次 聚 类( h i e r a r c h i c a l c l u s t e r i n g ) t i 、 自 组 织 映 射( s e l f - o r g a n i s i n g m a p s ) t ,和k 次 聚 类 ( k - m e a n s c l u s t e r i n g ) 。 表 达 数 据 经 常 和 其 他 一 些 生 物 特 性 相 关 联 , 例 如 结 构 、 功能等。 这样,利用这些特性间的关联就可以 进行一 些研究, 例如共表达蛋白的特性等。 t o 4课题研究内容 上个小节中 介绍了 基因表达调控的生物信息学研究方法,鉴于目 前国内 从结构角度出 发进行调控研究相对少一些的情况,本课 题从蛋白一 核酸复 合物结构数据角度出发,通过 分析氨基酸 碱基作用对,探索转录因子结合位点的预测方法. 本文选取 p d b数据库中的所有蛋白 一 核酸复合物, 通过作用力计算软件求出 每个复合 物中可能存在的氢键。 对有计算结果的复合物进行分类,然后统计氨基酸一 碱基作用对的使 用情况。 再计算出 反映每种氨基酸一 碱基对使用偏向 性的 打分 矩阵,并 对打分矩阵的有效性 进行验证。转录因子通过一定的结合模式同 d n a发生作用, 最后尝试利用结合模式和打分 矩阵来预测某种转录因子在基因 上游调控区域内 的可能结合位点的,以z i f 2 6 b 类锌指蛋白 和 c a p蛋白 为例.结果可以 证明 这种方法在一定程度上可以 用来进行转录因子结合位点预 测。 东南大学硕士学位 论文 本文结构安排如下: 第一章:绪论 概要基因研究、基因表达调控原理、生物信息学及其在预测调控元件 中的应用和本课题的内容。 第二章: 选取蛋白 一 核酸复合物数据,并计算复合物中可能 存在的氢键形式的氨基酸- 碱基作用对。并对有计算结果的复合 物进行了分 类, 最后对氨基酸- 碱基对 进行了一 些统计 分析。 第三章:生成反映氨基酸一 碱基使用偏向 性的打分矩阵,并用打分矩阵和蛋白 一 核酸结 合模式进行转录因子结合位点的预测。 第四章: 利用蛋白 一 核酸契合物中的 氨基酸一 碱基作用对数据,尝试得到蛋白同 核酸作 用的结合模式,并对蛋白 结合的d n a 序列部分进行初步的序列比 对分析。 第五章:b s 工 n s p e c t o r 软件的 介绍. 第六章;总结和展望。 第二章: 氨基酸- w基相互作用的研究 第二章:氨基酸 碱基相互作用的研究 2 . 1 蛋白 一 核酸的空间结构 2 . 1 . 1脱氧核糖核酸 ( d n a )的空间结构 脱氧核糖核酸 d e o x y r i b o n u c l e i e a c i d ( d n a ) 是一种分子量很大、能自 行复制的双 链分子,存在于一切活细胞内,是携带遗传信息的重要物质。 其基本单位是脱氧核甘酸。 d - 2脱氧核糖和碱基缩合形成脱氧核糖核甘, 然后脱氧核糖核甘中的戊糖被磷酸醋化形成 脱氧核甘酸s . ” , ai l图2 . 1 以 胞喻呢为 例。 在所 有的d n a分子中 , 磷酸和脱氧 核搪是 永远 不变的,而含氮碱基却是可变的。主要有 4中,即:腺i吟 a d e n i n e ( a ) 、鸟rm吟 g u a n i n e ( g ) , s pz i p p e r - t y p e g r o u p 中的l e u c i n e z i p p e r f a m i l y和z i n c - c o o r d i n a t i n g g r o u p 中的0s。 一 : i n c f i n g e r f a m i l y . 东南大学硕士学位论文 夸 2 . 2 蛋白 一 核酸复合物中作用力的计算 2 . 2 . 1蛋白一 核酸复合物的数据来源 蛋白 一 核酸复合物 定义为任何一种包含一条或多条蛋白 质链和至少一条长度大于4 b p 碱基的 双链d n a的 结构u 1 ) . 随 着人类 基因 组和 结构生 物学 研究的 进展, 复合 物的 数据不断 地 增 加。目 前, p r o t e i n d a t a b a n k ( p d b ) ) ,和n u c l e i c a c i d d a t a b a s e ( n d b ) e 数据 库存放着大量的生物大分子结构数据。 本文从p d b 数据库中 提取x射线结晶 技术得到的蛋 白 一 核酸复合物的结构数据进行分析。 完整、精确地测定生物大分子三维结构的主要研究方法包括x射线衍射分析 ( x - r a y c r y s t a l l o g r a p h y ) 、二 维 和 多 维 核 磁共 振 ( n m r ) 技 术、电 子 衍射 分析( 电 子 结晶 学) 等 116 . 16 ) 。 其中x 射线 衍射 分 析 迄 今 为 止 仍 然是 生 物 大分 子 空间 结 构 测 定的 主 要 方 法。 x 射 线 衍射分析,也称晶体结构分析,是阐述蛋白质、d n a或其它生物分子的原子水平的三维结 构的技术。 这种方法的 运用是基于首先使纯化的生物分子结晶 为有序排列然后用 x射线分 析结晶体。 之所以 使用 x射线是因为其波长和原子裂解时的波长一样, 所以晶体作为分子 衍射光橱衍射 x射线,产生一种可以获取井分析的衍射图形。 然后用计算机重建初始结 构。在实际操作中这一衍射图形被反复地不断升高的分辨率处理,结晶学家不断在建立一 个模型结构并按该模型计算出的衍射图 形与实际观察到的比 较。 每一次重复都使模型结构 与实验结果更加吻合。当这两者之间的 差异可以 忽略时, 这一衍射图形便得到求解。 最终 的 模型提供了 被研究分子平均时间上的 三维原子水平结构. p d b是结构生物信息学研究联合实验室 ( t h e r e s e a r c h c o l l a b o r a t o r y f o x s t r u c t u r a l b l o i n f o r m a t i e s , r c s b ) 于1 9 7 1 年 建 立 的 全 世 界 最 完 整的 包 括 蛋白 质、 核 酸、 蛋 白一核 酸 复 合物 及 病毒等 生 物 大分 子 的三 维结 构数 据库 , 网址 为 h t t p : 刀 w w w . r c s b . o r 的d b / . p d b生 物 大分子 结 构 数据库向 用户 提 供与 每 个结构 相关 的 各 种信息,不仅包括生物学信息、文献信息, 还包括序列详细信息、原子坐标、结晶状况、 利用不同 方法计算的 三维结构相邻元素、派生的几何数据、结构因子、三维图 像以及其他 资源链接. r c s b与e b i 和n c b i 紧密合作, 保持每个结构数据的一致性,并可以实现与蛋 白 质 序 列 数 据 库、 核 酸 序 列 数 据 库的 交 叉 检索 )17 . 侧 。 每 一 个p d b 数 据 在提 交 时 都 会分 配一 个标识 符,由 数字 和字母 组成的4 位标识符, 如 l a a y , 4 h h b .图2 . 9的 左图 显示了 一个 p d b 记录。 东南大学硕士学位论文 对于 4 8 4个蛋白一 核酸复合物中的每一个数据,在其 p d b数据库的 s u m a r y i n f o r m a t i o n主页上大部分都有 p d b s 。 数据库的链接,链接到 p d b s u m数据库中 和该记录 相关的网页上,这里会提供该蛋白 一 核酸复合物中的 蛋白 部分的 s w 工 s s - p r o t链接. 对于少 数没有 p d b s u m 链接的复合物,可以 直接在 s w 工 s s - p r o t 数据库中搜索相关蛋白。 这样我们 对 4 8 4 个蛋白 一 核酸复合物进行查找, 利用s w 工 s s - p r o t数据库中蛋白的功能描述信息,查 出每个蛋白 一 核酸复合物是否和基因调控过程相关。 结果,除去2 7 6 个复合物, 确定2 0 8 个 复合物是与基因调控过程相关。已 知蛋白 一 核酸复合物根据蛋白 的空间结构可分为 5 4个家 族。 我们选出所含成员 较多一些的家族,并在这2 0 8 个蛋白 一 核酸复合物中 通过p d b 数据库 搜索找出 属于这些家族的成员。表 2 . 2我们列出每个蛋白一核酸复合物集合中的复合物 p d b 名称: 表2 . 2 ;蛋白 一 核酸复合物集合中 成员的p d b 名称 复合物集合名称 集合中的蛋白一 核酸复合物的p 加名称 2 0 8 个同荃因调控 过程相关的蛋白 一 核酸复合物集合 1 c m a 2 1 m t p 3 c r o l h d d l h c q l g l u l f j l i f o s l p e r 1 b v o i b y 4 l l a t l o c t l m d y 1 q p 7 1 d s z 1 d l x 1 1 d l x i e 3 o 1 e a 4 1 q q b 1 q q a 1 q p z i m 1 b g w 1 q p i 1 q n c 1 0 p 9 1 q n 8 1 q p 4 1 q n 4 1 0 p 0 i q n e 1 d p 7 i q n 5 1 s v c i qm 1 q n a 1 q n 6 i q n 9 i q n 7 1 q n 3 1 v o l i c y q 1 c z 0 i d 3 u i d b 7 i d b s i d b 9 l k 6 o i z a y i h 9 d i y t f i x b r i s k n 1 v p w i r a n 1 v k x i d b c 1 t s r i t g h 1 76 1 1 0 1 d d n 1 m j q l r u o 1 r l n 1 d g c 1 d h 3 1 w e 7 1 h w 2 i m h d 1 j f i 1 f y l 1 f y m 1 i 0 4 i i m h 1 f z p 1g21) i i g 7 i i f i 1 g 2 f i g a 5 1 j f 7 i h w t 1 j g g 1 g j i 1 g x p i h l z 1 h 6 f i h l o t h j b 1 b f o i h 8 8 1 h b x i h 8 9 1 h s a i h 9 t 1 g d 2 i k b 4 l m j o i m j m 1 m j 2 1 c q t 1 l q 1 i z m e 1 l l i i l e 8 i e x i 1 l i a 1 k u 7 i e x j i rs i k b 6 1 1 p j p 1 k b 2 1f31 i k 7 9 1 1 j c l a c y 1 j w l 1 j t o 1 f 5 t 1 j k 2 1 j k 1 i j j 4 i j h 9 1 f 2 i i a l f 7 i b l o i a i g i a i h i a i i i a i j i a i k t a i l i a 6 y i a i s i a k h 1 a m 9 i a o a i a n 4 i a 0 2 i a w c 1 z a a i b 0 1 1 b 8 i 6 p a x 6m0 i b d h 1 b d i i b d t i b d v 3 0 r c i a n 2 l p n r i a p l 1 j 5 9 2 b o p 1 c d w 1 d 6 6 2 d g c l i g n l l h f l n f k 2 n l l 2 o r 1 i a i f l p d n 1 b 7 2 l p u e l p y i l r p e l s r s l t r o l t r r l t u p l y r e l y s a l y t b l u b d l p a r 2 h a p 2 r a k m d 2 p v c 2 p u b 2 p u a i c o n 2 p u g 2 p l e 2 p i f 3 h y s 2 h o d 2 g l i 2 c g p 1 c k t 1 c f 7 i c g p wi t i b f 5 3 h o d 2 i r f 1 b f h 1 l e r i i m e y l r v a l h c r 2 7 6 个和调控过 程 无关的蛋白一 核酸 复合物集合 1 c 掀 2 d r p 3 c r c i q p 7 i d s z 1 d u f i 洲8 i q p 4 1 q n 4 1 v o l i c y q 1 c z 0 1 r a m 1 v k x 1 d b c i h w 2 1 m h d 1 j f i 1 h w t 1 j g g i g j i 1 g d 2 1 k b 4 l m j o i j f s i k b 6 1 m j p 1 川9 1 f 2 i 1 川 j 7 i a o a i a n 4 1 a 0 2 1 a n 2 l p n r i a p l i p 面 1 8 7 2 l p u e 2 h a p 2 r a mz r刃 i c k t 1 c f 7 l h d d l b e q l g l u i f j l l f o s l p e r 1 b v 0 i b y 4 i l a t l o c t l m d y i d u x i e 3 o i e a 4 i q q b i q q a i wz 1 m n m i e g w l q p i 1 q n c i q p 9 i wo 1 q n e i d p 7 i q n 6 1 s v c 1 q n b 1 q n a 1 q n 6 i q n 9 i q n 7 1 q n 3 1 d 3 u i d b 7 i d b 8 i d b 9 i k 6 o i z a y 1 1 1 9 1 ) l y t f i x b r i s k n i v p w 1 t s r 1 t g h 1 t f 6 1 1 j m b 1 d d n 1 m j q i r u o i r u n 1 d g c 1 d h 3 1 v e t i f y l hy m 1 1 0 4 i i 1 h i m i g 2 d i i g 7 i i f i i g 2 f wa s 1 j f 7 i g x p 1 b l z 1 h 6 f l h l o 1 r j b 1 1 f o 1 11 8 8 i h b x 1 11 8 9 i h s a 1 h 9 t 1 m j m i i ( j 2 i o u i l q i 1 2 椒 i l l i 1 l e b i e x i 1 l i a 1 k u 7 i e x j i k b 2 i f 3 i i k 7 9 1 h j c l a c y i j w l i j t o i f s t 1 j k 2 i j k i i j j 4 i b l o i a i g i a l h i a i i 1 a i j i a i k t a i l m y i r i s i a k h j a m 9 i a w c i z a a i b 0 1 i b s i 6 p a x 6 c r o 1 b d h 1 8 d i 1 b d t i b d v 3 0 r c i j 5 9 2 b o p i c d w 1 d 6 6 2 d g c l i g n l i h f i n f k 2 n 1 i 2 o r 1 l a l f i p y i l r p e i s r s l t r o i t r r i t u p l y r n l y s a l y t b l u b d l p a r 2 p u c 2 p u b 2 p u a i c o n 2 p u g 2 p u e 2 p u f 3 h t s 2 h d d 2 g l i 2 0 g p i c g p 1 c i t 1 b f 5 mo d 2 i r f 1 b h m l e r i l u e y i r v a i h c r 9 9 a - z i n c f i n g e r 家族集合 ( 1 8 ) ma y i z a a 2 d r p i l b d i a i g 1 mi ll i a i l i a i j i a i k i a i i i a i p 1g21) 1 g 2 f 1 j k i j k 2 1 m e y 1 t f 6 2 g l i . 2 4 第二章: 氮基酸一 碱基相互 作用的 研究 h o m e o d o m a i n家族集合 ( 1 7 ) f j l 1 h d d i a p l i y r n i a u 7 i o c t 2 b d d 3 h d d 9 a n t 6 p a x 1 a 10 1 1 b 7 2 1 8 8 i 1 m n m i d u o l i g 7 1 j g g l a c l r e p r e s s o r家族 集合 ( 2 2 ) b d h 1 b d i 1 j f 5 1 j f t 1 j h 9 1 p n r i q p o 1w4 1 q p 7 i q p z 1 q q a 1 q q b 1 v p w 1 w e t ma y 2 p u a 2 p l b 2 p u c 2 p u d 2 p u e 2 p u f 2 1 4 1 g t a t a b o x - b i n d i n g家 族集合 ( 1 9 ) c d w i d 3 u i g 2 d i g 2 f i j f i l q n 3 i q n 4 1 4 y s 1 q n 6 1 q n 7 1 q n 8 i q n 9 i o n a 1 q t1 b 1 q n c i q n e 1 t g h i y t b i y t f l e u c i n e z i p p e r家 族集合 ( 1 1 ) a n d r e p r e s s o r 族集合 ( 8 ) 2 d g c l d g c i y s a 1 a 0 2 1 g d 2 i a m 9 1 1 1 l o i a n 4 i a n 2 1 m d y i a o a l m b 1 l l i i p e r l r p e 2 o r l 3 c r o 6 c r o 3 0 r c c a t a b o l i t e g e n e a c t i v a t e p r o t e i n家 族集合 ( 9 ) z i p p e r - t y p e g r o u p ( 1 1 ) 1 0 g p 1 d b 7 i d b 8 1 db9 1 d b c i j 5 9 1 r u n 1 r u 0 2 c g p 2 d g c 1 d g g i y s a 1 a 0 2 i g d 2 i a m 9 1 1 亚 习 l m4 i a n 2 1 m d y i a o a 有了 上面这 4 8 4 个蛋白一 核酸复合物中 的作用力计算结果,就可以 对氨基酸一碱基的 使用倾向性进行统计分析。把与调控过程相关的一类、与调控过程不相关的一类和一些家 族中的统计结果进行对比分析. 2 . 3氨基酸一 碱基作用对使用分析 己 经知道在蛋白一 核酸复合物中,蛋白 与核酸间有 4 种作用方式:即蛋白 主链同 核酸 磷酸骨架间的作用、蛋白主链同 碱基间的作用、蛋白 侧链同 核酸磷酸骨架间的作用、蛋白 侧链同碱基间的作用。 对复 合 物中 的 氢键 进 行 统 计, m a n d e l - g u t f r e u n d 沙4 1 等 人 发 现 蛋白 主 链同 核 酸 磷 酸 骨 架和碱基间的作用只占了 1 9 % , 我们知道对于蛋白 中的每个氮基酸来说,属于蛋白 主链的 部分都是一样的,因而不能通过主链来区 别氨基酸的种类, 氨基酸的种类是由侧链基团决 定的。另外,同蛋白 侧链相比 较,蛋白 主链同核酸之间的距离更远一些。因而可以 解释为 什么蛋白主链同核酸磷酸骨架和碱基间的作用只占了 很小的比 例。 软件n u c p l o t 只计算出了蛋白 一 核酸复合物中可能存在的蛋白 侧链 us e )同 磷酸骨架 ( d b b )间的作用对( p s c - d b b ) 和蛋白 侧链 ( p s c )同 碱基 ( d b e ) 间的作用对( p s c - d b e ) .前 面提到:在蛋白同 核酸碱基之间的相互连接识别中,主要是碱基和氨基酸残基侧链之间形 成的氢键介导。因而接下来,我们对复合物中计算出的蛋白 侧链同磷酸骨架间、蛋白 侧链 同 碱基间的氢键作用对进行统计。对象是表2 . 2中 列出的 1 0 个蛋白 一 核酸复合物集合。统 计结果见表 2 . 3 , p s c - d b b 所占的比 例是指p s c - d b b 在所有氢键 ( p s c - d b b + p s c - d b e )中的 比例。 东南大学硕士学位论文 表2 , 3 ; 复合物中 氨基酸侧链同 碱基间作用对的 统计 复合物集合p s c - d b b 数目 ip s c - d b 。 数目 i p s c - d b b 所占的比 例 同调控相关的复合 物 同调控无关的复合物 h o m e o d o m a i n 家族 2 7 9 4 2 9 2 1 2 41 1 4 5 25 5 0 . 6 4 7 3 5 9 0 . 7 2 8 9 7 4 仪 6 5 8 4 7 0 0 . 6 3 2 2 5 8 0 . 6 6 3 4 1 5 0 . 5 9 8 3 3 8 0 . 3 5 6 0 6 1 住 6 3 0 4 3 5 0 . 6 3 2 2 5 8 0 . 6 4 7 0 5 9 1522一姗一既 57一69 曰一叼一42 98一136一216一141-盯-123-77 l a c l r e p r e s s o r 家族 z i p p e r - t y p e g r o u p t a t a b o x - b i n d i n g 家族 p p a - z i n c f i n g e r 家族 c r o a n d r e p r e s s o r 家族 - 一 卫 望 吧 i e - n u c l e a r r e c e p t o r 家 族 c a t a b o l i t e g e n e a c t i v a t e p r o t e i n 家族 从统计结果可以 看到, 在与调控过程相关的 2 0 8 个复合物集合中,蛋白 侧链与磷酸骨 架间的作用力( p 二一 d b b ) 占 到了 全部 p s c - d b l 十 p s c - d b e作用力 的 6 . % ; 而在同调控过程无 关的 2 7 6个复合物集合中,蛋白 侧链与磷酸骨架间的 作用力占 到了 全部的 7 2 % 。已 知,转 录因子识 别调控元件的 特异性体现在蛋白 侧链同 碱基的作用上,可见在基因调控过程中, 有更多的蛋白 侧链参与了 识别碱基的 特异性作用。 另外我 们发现: 除了d a a - z i n c f i n g e r家 族外,2 / 3 左右 的p s c - d b b + p s c - d b e 作 用属于蛋白 侧链同d n a 磷酸骨架间的 相互作用 ( p s c - d b b )。 这主 要的作用可能是稳固蛋白 质同 核酸结合,保证起始转录能顺利的进行。 对于f n a - z i n c f i n g e r家族中的复合物来 说,可能其本身连续的a 螺旋盘绕在 d n a上,同 碱基结合,已 形成稳定的结构。因而不再 需要更多的蛋白 侧链同磷酸骨架间的 作用。 接下来,我们对复合物中的蛋白 侧链同 碱基间的 氢键作用力进行分析。自 然界中存在 着2 0 种氨基酸和4 种碱基。那氨基酸一 碱基作用对就存在2 0 x 4 种情况。 会不会存在这种 现象,即 不同的复合物集合在氨基酸一 碱基对使用上有所不同? 下面让我们来统计,在上 面列的各种复合物集合中,各 种氨基酸一碱基对的使用情况。 对于每个蛋白一 核酸复 合物, 通过n u c p l o t 计算得到了 所有可能存在的氨基酸一 碱基 间的氢键作用对。 把复合物集合里所有复合物的氨基酸一 碱基间的氢键作用对按不同 类别 相加。 看一下,在这种复合物集合中, 每种氨基酸一 碱基对的使 用情况。 第二章: 氮基酸一 碱基相互作用的研究 下 面以图形来显示每个复合物集合中,各种氨基酸一 碱基对的使用比例。 左边的图 是 该复合物集合中氨基酸一 碱基对的 个数和所占的百分比例。 右边的图是每种氨基酸- 碱基对 所占 百分比例的图形 化表示。 x 轴表示某种氨基酸一 碱基对, 依次为a l a - a , a l a - t , a l a - c , a l a - g ; a r g - a , a r g - t , a r g - c , a r g - g ; . . 一 ( 氨基酸的次序为左图中的氛基酸从上到下的 次序)。纵坐标表示每种氮基酸一 碱基对 ( p s c - d b e )在这个复合物集合中所有氢键作用对 p s c - d b b + p s c - d b e ) 中使用的百分比,即使用频率。 和调控过程相关的2 0 8 个复合物: p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川攀枝花市第三人民医院招聘护士10人笔试备考题库及答案解析
- 2025年齐齐哈尔第一中学校后勤人员招聘1人备考考试题库附答案解析
- 内盘交易策略优化-洞察及研究
- 1山东八年级第一学期物理第一次月考9月份考试试题以及答案适合沪科版
- 油墨厂仓库主管培训办法
- 河南省周口市扶沟县等2地2026届高三上学期开学考试物理试卷(含答案)
- 广西钦州市第十三中学2025年秋季学期高二年级第五周考试政治试卷(含答案)
- 2024-2025学年山西省长治市人教版三年级上册期中测试数学试卷(无答案)
- 学生走失安全培训课件
- 手套的保暖性介绍
- 反诈知识竞赛试题及答案
- 钢筋加工棚租赁合同范本
- 2025年电梯检验员资格考试历年真题及答案试题试卷(含解析)
- 眼整形课件教学课件
- 公司法务知识培训会课件
- 2025年药企QA人员岗位职责培训考核试题及答案
- 2025成人高等学校招生全国统一考试专升本《英语》试题及答案解析
- 五年级上册英语英语试题 Unit1-Unit2单元测试卷(无答案)译林版
- 纤维素基包装生物力学性能-洞察及研究
- 基底细胞癌护理查房
- 2025保密观知识竞赛题库(试题附答案25个)
评论
0/150
提交评论