(理论物理专业论文)trna序列进化的研究.pdf_第1页
(理论物理专业论文)trna序列进化的研究.pdf_第2页
(理论物理专业论文)trna序列进化的研究.pdf_第3页
(理论物理专业论文)trna序列进化的研究.pdf_第4页
(理论物理专业论文)trna序列进化的研究.pdf_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

耩 广西大学学位论文原创性声明和学位论文使用授权说明 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相 关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的研究 成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮 助的个人和集体,均已在论文中明确说明并致谢。 论文作者签名:暂,伯文 羽胗年6 月8 - e l 学位论文使用授权说明 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容; 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 学校可以公布论文的部分或全部内容。 请选择发布时间: 啦p 时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签名:俪俑文翩虢韦批劲i 。年占月君日 t r n a 分子在蛋白质合成中处于关键地位。利用复杂网络理论研究 t r n a 序列的进化特征、进化机制、进化行为,从而揭示t r n a 序列的进化 历史以及它们的从属关系。利用序列的不同相似度建立t r n a 序列网络,比 较、分析、讨论网络中三个重要参数,揭示t r n a 序列的进化特点,找出它 们隐含的生物意义。根据t r n a 序列的二级结构,基于w a t s o n c r i c k 配对 规则和m o n t ec a r l o 理论,利用计算机随机产生t r n a 序列,根据网络的连 接条件建立t r n a 序列的模拟网络,并与真实t r n a 序列网络比较,分析所 建立的随机t r n a 序列是否能反映真实t r n a 序列。比较、分析、讨论孤立 反密码子与其连接反密码子之间的关系,及分析这些t r n a 的整体行为和共 同特征,并构建不同相似度的进化树研究t r n a 序列的系统发育。基于p r i m 算法,找出网络中的最小生成树,揭示t r n a 序列的最短最优的进化路径。 第一章主要介绍了生物数据库的概况,复杂网络的基本模型:随机网 络模型、w s 网络模型和b a 网络模型,以及简述了生物网络的研究进展。 第二章主要介绍t r n a 序列的来源及网络相关参数,t r n a 序列的分组 和t r n a 序列网络模型建立。通过比较、分析、讨论网络的相关参数:平均 度、平均聚类系数、平均最短路径,进一步说明点突变是t r n a 序列进化的 重要机制,并反映了它们的进化近似符合中性理论以及在同一组氨基酸和 s t o p 内的t r n a 序列在进化历史上的同源关系更密切;同时表明了t r n a 序 密码子之间的关系,揭示t r n a 序列进化关系;另一方面,介绍了距离矩阵 的联配分数的方法,进化树构建步骤和分析不同相似度的进化树,揭示氨 基酸和s t o p 的进化特点。 第五章主要介绍了p r i m 算法,并利用这种算法构建t r n a 序列最小生 成树,分析t r n a 序列最小生成树的拓扑结构,揭示t r n a 序列的进化特点。 最后,对本论文工作进行总结和展望。 搠:t r n a 序列复杂网络相似度反密码子氨基酸进化树最 小生成树 t h ee v o l u t i o n a r yr e s e a r c ho ft r n as e q u e n c e s a b s t r a c t e a c ht r n am o l e c u l ep l a y sa ni m p o r t a n tr o l ei nt h ep r o t e i ns y n t h e s i s t h e e v o l u t i o n a r yc h a r a c t e r i s t i c ,m e c h a n i s ma n db e h a v i o ro ft r n as e q u e n c e sa r e r e s e a r c h e db yt h ec o m p l e xn e t w o r kt h e o r y , w h i c hs h o w st r n a s e v o l u t i o n a r y h i s t o r ya n dt h e i ra f f i l i a t i o n a f t e rc o m p a r i n g ,a n a l y z i n ga n dd i s c u s s i n gt h r e e i m p o r t a n tp a r a m e t e r si nt h ed i f f e r e n tn e t w o r k sb a s e do n d i f f e r e n ts i m i l a rd e g r e e s ,i ti sf u r t h e ri m p l i e de v o l u t i o n a r yc h a r a c t e r i s t i co ft r n as e q u e n c e sa n df o u n d o u tc o n n o t i v eb i o l o g i c a lm e a n i n g a c c o r d i n gt ot h es e c o n d a r ys t r u c t u r eo f t r n a s e q u e n c e ,e a c ht r n as e q u e n c e sc a nb er a n d o m l yg e n e r a t e db yc o m p u t e r t e c h n o l o g y ,t h ew a t s o n c r i c kb a s e p a i r i n gr u l e sa n dt h em o n t ec a r l ot h e o r y a c c o r d i n gt ot h ed i f f e r e n ts i m i l a rd e g r e es ,s i m u l a t i v et r n an e t w o r k sa r e c o n s t r u c t e db yt h ec o n n e c t i v ec o n d i t i o n c o m p a r i n gr e a lt r n an e t w o r k sw i t h s i m u l a t i v en e t w o r k s ,s i m u l a t i v et r n as e q u e n c e sw h e t h e ra c c o r dw i t hr e a l t r n as e q u e n c e so rn o t e a c hi s o l a t e dt r n a s a n t i c o d o n sa n di t sc o n n e c t i v e a n t i c o d o n si no t h e r sg r o u p sw i l lb ed i s c u s s e d , a n dt h ew h o l eb e h a v i o ra n d c o m m o nc h a r a c t e r i s t i cw i l lb ea n a l y z e da m o n gt h e s et r n as e q u e n c e s t h e h i p h y l o g e n e t i cr e l a t i o n s h i p s c a nb er e s e a r c h e d b y t h ed i f f e r e n ts i m i l a r p h y l o g e n e t i ct r e e s t h em i n i m u ms p a n n i n gt r e e so ft r n as e q u e n c e sb a s e do n t h ep r i m sa l g o r i t h ma r ea d v a n t a g et of i n do u tt h ef a s t e s ta n do p t i m i z e dt r n a s e v o l u t i o n a r yp a t h i nt h ef i r s tc h a p t e r , t h ed e v e l o p m e n to ft h eb i o l o g i c a ld a t a b a s e sa n db a s i c m o d e lo fc o m p l e xn e t w o r k ,i n c l u d i n ge rm o d e l ,w sm o d e la n db a m o d e l ,w i l l b ed e s c r i b e d ,a sw e l la st h ep r o g r e s si nb i o l o g i c a ln e t w o r k i nt h es e c o n dc h a p t e r ,t h es o u r c eo ft r n as e q u e n c e s ,s o m ep a r a m e t e r si n c o m p l e xn e t w o r k ,d i v i d e dg r o u p sa n dn e t w o r km o d e lo ft r n as e q u e n c e sw i l l b ed e s c r i b e d i nt h ed i f f e r e n tn e t w o r k s ,a f t e r c o m p a r i n g ,a n a l y z i n g a n d d i s c u s s i n gt h r e ei m p o r t a n tp a r a m e t e r s ,i n c l u d i n gt h ea v e r a g ed e g r e e ,t h ea v e r a g e c l u s t e r i n gc o e f f i c i e n ta n dt h ea v e r a g es h o r t e s tp a t h ,o no n eh a n d , i ti sf u r t h e r i n d i c a t e dt h a tt h e p o i n t m u t a t i o no ft r n a s e q u e n c e s i st h e i m p o r t a n t e v o l u t i o n a r ym e c h a n i s ma n dt h ee v o l u t i o n o ft r n as e q u e n c e sa p p r o x i m a t e l y a c c o r d sw i t ht h en e u t r a lt h e o r y ;o nt h eo t h e rh a n d ,i ti sa l s or e f l e c t e dt h a tt r n a s e q u e n c e sh a v ec l o s e rr e l a t i o n s h i p si nt h ee v o l u t i o n a r yh i s t o r yd u r i n gt h es a m e g r o u p so f t h ea m i n oa c i d sa n ds t o p ,a n dt h e yh a v et h es e l f - s i m i l a r i t yp r o p e r t yi n t h ep r o c e s so fe v o l u t i o n i nt h et h :mc h a p t e r ,t h ec o n s t r u c t e dm e t h o do fr a n d o mt r n as e q u e n c e s a n dt h ec o n s t r u c t i o no fr e :a la n ds i m u l a t i v et r n an e t w o r k sw i l lb ed e s c r i b e d i n t w od i f f e r e n tk i n d so fn e t w o r k sb a s e do nd i f f e r e n ts i m i l a rd e g r e es ,a f t e r c o m p a r i n g ,a n a l y z i n ga n dd i s c u s s i n gd e g r e ed i s t r i b u t i o na n dt h r e ei m p o r t a n t i v f u n c t i o n s ,i n c l u d i n gt h ea v e r a g ed e g r e ek ( s ) ,t h ea v e r a g ec l u s t e r i n gc o e f f i c i e n t c ( s ) a n dt h ea v e r a g es h o r t e s tp a t hl ( s ) ,i ti si m p l i e dt h a tt r n as e q u e n c e sa r e n o tr a n d o m l yg e n e r a t e d i nt h ef o u r t h c h a p t e r ,o n o n eh a n d ,a f t e r c o m p a r i n g ,a n a l y z i n ga n d d i s c u s s i n gt h er e l a t i o n s h i pb e t w e e ne a c hi s o l a t e dt r n a s a n t i c o d o n sa n di t s c o n n e c t i v ea n t i c o d o n s ,e v o l u t i o n a r yr e l a t i o n s h i po ft r n as e q u e n c e sc a nb e r e f l e c t e d ;o nt h eo t h e rh a n d , t h em e t h o do ft h ea l i g n m e n ts c o r e so fad i s t a n c e m a t r i xa n dt h es t e p so fp h y l o g e n e t i ct r e ec o n s t r u c t i o na r ei n t r o d u c e d a f t e r a n a l y z i n gp h y l o g e n e f i ct r e e su n d e rd i f f e r e n ts i m i l a rd e g r e e ,i tw i l li m p l yt h e e v o l u t i o n a r yp r o p e r t i e so f t h e2 0a m i n oa c i d sa n do n es t o p i nt h ef i f t h c h a p t e r ,t h ep r i m sa l g o r i t h mw i l lb ed e s c r i b e d ,a n df o u r m i n i m u ms p a n n i n gt r e e so ft r n as e q u e n c e sc a nb ec o n s t r u c t e db yt h i s a l g o r i t h m a f t e ra n a l y z i n gt h et o p o l o g i c a ls t r u c t u r eo ff o u rm i n i m u ms p a n n i n g t r e e s ,i tw i l li m p l yt h ee v o l u t i o n a r yp r o p e r t i e so ft h et r n as e q u e n c e s f i n a l l y ,t h ec o n c l u s i o n so ft h i sp a p e ra n dt h eo u t l o o ko ff u t u r ew o r ka r e d e s c r i b e d k e yw o r d s :t r n as e q u e n c e ;c o m p l e xn e t w o r k ;s i m i l a rd e g r e e ;a n t i c o d o n ; a m i n oa c i d ;p h y l o g e n e t i ct r e e ;m i n i m u ms p a n n i n gt r e e v 目录 第一章概述1 1 1 生物数据库的概况1 1 2 复杂网络模型概述1 1 2 1 随机网络模型1 1 2 2 小世界网络模型3 1 2 3b a 网络模型5 1 3 生物网络研究进展9 第二章t r n a 序列的进化网络研究一1 0 2 1 引言1 0 2 2t r n a 序列网络模型建立1 1 2 2 1t r n a 序列的来源及网络相关参数1 1 2 2 2t r n a 序列的网络构建方法1 4 2 3t r n a 进化网络相关参数讨论与分析1 4 2 3 1 平均度15 2 3 2 平均聚类系数1 6 2 3 3 平均最短路径1 7 2 4 本章结论与分析1 9 第三章t r n a 序列的真实网络和模拟网络研究2 1 3 1 引言2 1 3 2t r n a 序列的真实网络与模拟网络模型2 l 3 2 1 真实t r n a 序列网络建立2 1 3 2 2 模拟t r n a 序列网络建立2 2 3 3 真实网络和模拟网络的结果比较2 2 3 3 1 真实t r n a 序列网络的度分布2 3 3 3 2 模拟t r n a 序列网络的度分布2 3 3 3 3 真实网络和模拟网络的参数比较2 6 3 4 本章结论与分析2 8 第四章基于复杂网络的t r n a 序列进化关系与进化树研究2 9 v i 4 1 引言2 9 4 2t r n a 序列进化关系分析3 0 4 2 1t r n a 序列网络的建立3 0 4 2 2 孤立反密码子与其连接反密码子分析3 1 4 3 进化树的构建和分析3 5 4 3 1 进化树的构建步骤3 5 4 3 2 不同相似度的进化树分析3 6 4 4 本章结论与分析3 6 第五章基于p r i m 算法的t r n a 序列最小生成树研究3 9 5 1 引言3 9 5 2p r i m 算法4 0 5 2 1p r i m 算法的步骤4 0 5 2 2p r i m 算法的举例4 1 5 3t r n a 序列最小生成树的构建和分析4 3 5 3 1 反相似度4 3 5 3 2t r n a 序列最小生成树的构建4 4 5 3 3t r n a 序列最小生成树的分析4 4 5 4 本章结论与分析4 5 第六章结论与展望4 7 6 1 本文工作总结4 7 6 2 展望。:。4 8 参考文献。4 9 致 射5 5 攻读硕士学位期间完成的论文5 6 v 1 1 生物数据库的概况 第一章概述 1 9 7 7 年,噬菌体o x l 7 4 成为第一个被完整测定基因序列的生物体【,后来,越来 越多的d n a 序列被人类所测定。随着d n a 测序技术不断发展,其数据以极快的速度 增长,许多生物数据库已建立。例如:蛋白质序列数据库( s w i s s - - - p r o t ) 、核酸序列数 据库( g e n b a n k ) 、基因组数据库( o m i m ) 、翻译后修饰数据库( o - - g l y o b a s e ) 、二维凝 胶电泳数据库( s w i s s - - 2 d p a g e ) 、三维结构数据库( p d b ) 、结构域数据库( p r o s i t e ) 、 代谢数据库等【2 1 。生物数据库主要包括:e b i ( 欧洲生物信息研究所) ,e m b n e t ( 欧洲 分子生物学信息网) ,e m b l ( 欧洲分子生物学实验室) ,n c b i ( 美国国家生物技术信 息中心) ,n c g r ( 美国国家基因组资源中心) ,n i g ( 日本国立遗传研究所) ,j i p l d ( 日本国际蛋白质信息数据库) ,m i p s ( 慕尼黑蛋白质序列信息中心) ,h g m p ( 英国 医学研究委员会) 等。 目前,我国已建成比较完整的生物数据网点有:北京大学生物信息中心、华大基因 中心、中国科学院国家基因组中心、中国科学院上海生命科学院生物信息中心、中国科 学院微生物研究所、广州中山大学生物信息中心等。数据检索工具主要包括:e n t r e z 检 索工具、s r s 检索工具、d b g e t 检索工具、f a s t a 和b l a s t 等。 1 2 复杂网络模型概述 1 2 1 随机网络模型 1 9 5 9 年,e r d 6 s - r 6 n y i 提出了随机网络模型( e r 网络模型) 【3 1 ,其定义为:对于给定 n 个节点,以概率p 连接每对节点,共有n = p n ( n - 1 ) 条边连接成随机网络。在连接概率 为p 的随机网络中,节点i 的度龟是以n 一1 和p 为参数的二项式分布: 其中p ( k ;= 七) 表示从一个节点连出k 条边的可能方式,k 条边存在的概率是p ,增加边 不存在的概率是( 1 - p ) - 1 。,且共有嚷。种选择方式。所以度为k 的节点期望值为: e ( 爿1 ) = n p ( k ,= 七) = ,l 瑶- 1 p ( i - p ) 一4 = 以, ( 1 2 ) 而五的分布p ( 鼍= ,) 接近于p o i s s o n 分布: 眠_ ,) 妒鲁 ( 1 3 ) 所以度为k 的节点服从平均值为五的泊松分布。式( 1 3 ) 的平均值是由( 1 2 ) 式给出的函 数e ( x k ) 。当节点不相关时,随机网络的度分布是二项式分布式( 1 1 ) ( 图l 一1 ) ; 图1 - 1 数值模拟的随机图的度分布。网络的节点数为n = 1 0 0 0 0 ,连接概率为p - - 0 0 0 1 5 的随机图。 图中比较了五n 和泊松分布的期望值( 1 3 ) e ( 五) = n p ( k ,= k ) ,发现两者偏差很小【4 】。 f i g 1 - 1 t h ed e g r e ed i s t r i b u t i o nt h a tr e s u l t sf r o mt h en u m e r i c a ls i m u l a t i o no far a n d o mg r a p h a s i n g l er a n d o mg r a p hw i t hn = 1 0 0 0 0 n o d e sa n dc o n n e c t i o np r o b a b i l i t y p = o 0 0 1 5c a nb eg e n e r a t e d t h ep l o t c o m p a r e s 墨nw i t h t h ee x p e c t a t i o n v a l u e o f t h e p o i s s o n d i s t r i b u t i o n ( 1 3 ) ,e ( 以) = n p ( k f = 七) ,a n d w ec a ns t h a tt h ed e v i a t i o ni s 翻n a l l 【4 】 2 t r n a 序列进化的研究 1 2 2 小世界网络模型 k 两i n ( n ) ( 1 4 ) ( 1 5 ) ( 1 6 ) 1 9 9 8 年,w a t t s 和s t r o g t z 提出了重连边的小世界模型【5 】,m o n a s s o n 和n c w m a 等提 出了增加边的小世界模型6 。w s 小世界模型的构造方法如下: ( i ) 从规则环形网络开始:有n 个节点的规则环形网络,每个节点与它左右最近 邻的k 2 个节点相连,其中k 是偶数。 ( i i ) 边随机化重连:以概率p 随机重连网络的每条边,即保持网络的节点数n 不 变,将某些节点边的一端保持不变,而重新随机连接边的另一端到另一节点上。任意两 个不同的节点之间有且仅有一条边连接,而且每一个节点本身都不能与自身有边相连。 在上述模型中,当p = 0 时,对应于完全规则网络;当p 值在o 1 变化时,网络从完 全规则图到完全随机网络;当p = l 时,对应于完全随机网络;如图1 - 2 所示。 下面从三方面讨论w s 小世界网络的统计特性: 1 度分布 在小世界网络模型中,当p = 0 时,网络的每个节点都有相同的度k ;当0 p _ i g 2 时,w s 小世界网络模型的度分布为扪, p(七):删-ykl2舢c枷一p)。p量,,_叫(pk2)k-x-嘣,2, ( 1 7 ) p ( 七) 2 委q ,:( 1 一p ) ”p 引石j 万丽嘣胆, ( 1 7 ) 当k k 2 ,p ( k ) - - - - o 。 在随机加边的n w 小世界模型中,当l 泓时,一个随机选取节点的度为k 的概率忉: 删= ( 争一争r , ( 1 8 ) 当k 喾h 一 7 ( 1 2 1 ) 当t 0 0 时, m ) = 掣= 而2 m v p t 万1 ( 1 2 2 ) p ( 七) 一2 m l 卢七,y = 万1 + 1 ( 1 2 3 ) 可见度分布函数与边数m 无关,所得结果与数值模拟图1 3 ( a ) 相i 司。 主方程法。文献 1 7 】和【1 8 】用主方程法讨论了b a 网络的度分布,其标度指数与数 值模拟的结果相同。主方程方法得到的p ( k ,t ,t ) 为 p ( h 1 ) = 百k - 1 p ( 七一1 ,+ ( 1 一万k ) 鹏, ( 1 2 4 ) 它的度分布为 p ( j | ) = 舰( 地,t ) ) t ( 1 2 5 ) 式( 1 2 4 ) 意味着p 是递归方程的解 p :j 是p ( 肛1 ) 对于脸斛l ( 1 2 6 ) l - 2 ( m + 2 ) 建= p k = m 则p 仪) 为 p ( 七) = 硪2 m 丽( m + 1 ) , ( 1 2 7 ) 由式( 1 2 7 ) 可以看出,它与连续理论的结果十分相似。 率方程方法。k r a p i v s k y 等 1 9 】提出了率方程方法,在t 时刻度为k 的节点数的平均值 为m ,一个新节点加入到网络时,m 变化率为 警= 所螋铲吨 n 2 趵 在渐近极限仉( f ) = 护( 露) 和。砟= 2 m f 的条件下,度分布得到与递归方程( 1 2 6 ) 同样的 解。可见,率方程法的解与主方程法的解等价,并与连续理论法的渐近结果相同。 2 聚类系数 在b a 网络中,文献【4 】讨论了不同节点数n 和平均度 = 4 的聚类系数,并与随 8 广西大掌硕士学位论文t 刚a 序列进化的研究 机网络的聚类系数e 耐k n 相比较,发现b a 网络的聚类系数比随机网络的聚类 系数高,且b a 网络的聚类系数随网络的节点数n 增大而减小,近似服从幂函数 c 枷5 ,比随机网络的聚类系数c _ n - 1 衰减更加缓慢。 3 平均最短路径 b a 网络模型与随机网络的平均最短路径雎亏网络大小n 的关系,在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论