




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
致谢 首先,对沈世镒教授和符方伟教授两位导师表示深深的谢意。几 年来,他们那正直的人鼹和平易近人的工作作风深深地影响蔫我并令 我终身难忘;他们那严谨的治学态度和科学的治学方法引导我走上了 正确的求学之路;他们那渊博的知识和悉心的教诲更是使我在学业上 受益匪浅。所有这整都是我在这几年学习生活中获得的宝贵财鬻。正 是在嬲位导师的关怀培育釉耐心指导下,我学到了较为系统而深刻的 专业知识,顺利遗完成了本文的写作。 在本文的写 乍过稷中,概率和信息教研室的备位老师以及生物信 息小组的陈力和施蓬等同学给予我许多支持、帮韵和鼓励,在此谨表 衷心的感谢。 最后感谢我亲爱的父母和姐姬多年来为我所做的一切。 q 坠壁型的篓生坌堑和图堡塞重 王力 ( 南开大学数学科学学院,天津,3 0 0 0 7 1 i 中文摘要 目前,随着d n a 序列测序技术的日益完善,越来越多的d n a 序列的碱基顺序 被测定出来,基因库( g e n b a n k ) 中的数据量已经十分庞大,对d n a 序列进行信息 分析业已成为我们的一项重要任务。本文的前半部分主要以1 9 9 7 年n c b i 发布的 基因库( g e n b a n k ) 为研究对象,对其中1 到1 5 各种长度的所有可能的d n a 序列 片段进行了搜索和定位。在此基础上,得到了d n a 序列片段的频数分布表并计算 出了其频率分布、熵密度、信息熵、条件熵和交互信息等。最后给出了其信息熵、 条件熵和交互信息的变化曲线并由此发现了d n a 序列的一些信息传递规律。本文 的后半部分是在 1 文的启发下,对d n a 序列片段的频数分布进行了图像表示, 以便清楚地显示出d n a 序列片段之间分布的差异。除了基因库( g e n b a n k ) 之外, 还对几个特殊的d n a 序列进行了研究,作为对比和补充。最后受d n a 序列片段之 间分布差异的启发,对一个生物进化模型进行了初步的设想。 s t a t i s t i c a la n a l y s i sa n d g r a p h d e m o n s t r a t i o n o fd n a s e q u e n c e s w a n g l i s c h o o lo fm a t h e m a t i c a ls c i e n c e s ,n a n k a iu n i v e r s i t y t i a n j i n3 0 0 0 7 1 e r c h i n a a b s t r a c t n o w a d a y s w i t ht h ed e v e l o p m e n to ft h eo r d e r i n gt e c h n o l o g y o ft h ed n a s e q u e n c e s m o r ea n d m o r eb a s e so fd n a s e q u e n c e sh a v e b e e n o r d e r e d 1 1 1 ed a t ao ft h e g e n b a n kh a v eb e e nv e r yl a r g e ,a n dt h ei n f o r m a t i o na n a l y s i so f t h eg e n b a n kh a v eb e e n a ni m p o r t a n tt a s kf o ru s i n 也ef i r s tp a r to ft h ep a p e lw ef o c u s e do nt h es e a r c h i n ga n d l o c a t i n go fd i f i r e r e n td n af r a g m e n t sw i t ht h el e n g t hf r o m 1t o15i nt h eg e n b a n k p u b l i s h e di n1 9 9 7b yn c b i w jg o tt h ef r e q u e n c yd i s t r i b u t i o nf o r i l l o ft h ed n a f r a g m e n t sa n dc a l c u l a t e d t h ee n t r o p y d e n s i t y 、e n t r o p y 、c o n d i t i o n a le n t r o p y a n dm u t u a l i n f o i t u a t i o no nt h eb a s i so fi t a tl a s t w ed e m o n s t r a t e dt h ec h a n g i n gc u r v e so fi t l s e n t r o p y 、c o n 凼t i o n a le n t r o p y a n dm u t u a li n f o r m a t i o n t h e nw ed i s c o v e r e ds o m e i n f o r i l l a t i o n 打a n s m i s s i o nl a w so ft h ed n a s e q u e n c e s i nt h es e c o n dp a r to ft h ep a p e r , w ed e m o n s t r a t e dt h ef r e q u e n c yd i s t r i b u t i o no ft h ed n a f r a g m e n t sb yg r a p ho nt h e b a s i so ff 1 1 ,s ow ec a i ls e ec l e a r l yt h ed i f f e r e n c e so ff r e q u e n c yd i s t r i b u t i o nb e t w e e n d i 虢r e n td n a f r a g m e n t s b e s i d e s 也e w h o l eg e n b a n k w ea l s os t u d i e ds e v e r a ls p e c i a l d n a s e q u e n c e sa sc o m p a r i s o na n dc o m p l e m e n t a tl a s t w eg a v eap r i m a r yp r e d i c t i o n o fa ne v o l u t i o nm o d e lo fo r g a n i s m s i n s p i r e db yt h e d i f f e r e n c e so ff r e q u e n c y d i s t r i b u t i o nb e t w e e nd i f f e r e n td n a f r a g m e n t s 2 第一部分前言 1 概述 本文的第一部分敬1 9 9 7 年n c b i 发布的萋鞠库为总体,对其中的掰有d n a 序列进行了统计分析,得到了从1 到1 5 不同长度的d n a 序列片段的分布数据, 并用信意论方法对其进行了分桥,发瑶了d n a 滓剜蓿惑传递静一些蕊律。第二 部分对第一部分的统计结果进行了图像表示,发现了一魑规律,并由此弓i 发了对 一个生秘迸优穰鍪静愚考。 2 数据库 本文罴用黝数据艨必: ( a ) 1 9 9 7 年1 2 月1 5 母n c b i 发布的基因库: g e n e t i cs e q u e n c ed a t ab a n k 溅基总数:1 , 2 5 8 ,2 9 0 ,5 1 3b p序列惑数:l ,8 9 1 ,9 5 3 ( b ) ( 1 ) 人体中l 号染色体上的一个片段,在基因库中的代号为:9 2 6 4 2 1 7 4 碱基总数:1 9 8 ,4 5 6b p记录母:a c 0 0 3 1 1 5 ( 2 ) 人体中2 2 号染色体上的一个_ l 葶列片段,相关信息为: g i l 7 1 5 8 1 9 7 1 r e t n t _ 0 0 1 0 3 9 1 h s 2 2 _ 4 5 l l h o m os a p i e n s 2 2 q 1 1 2s e q u e n c e 碱基总数:4 5 5 ,9 7 6b p 从w w w n c b i n l m n i h g o v 站点下载。 ( c ) 三謦中细菌的完全蒸困组,从w w w n c b i h i m n i h g o v 站点下藏。 ( 1 ) 名称:a e r o p y r u mp e m i x k 1 c o m p l e t eg e n o m e 碱基总数:1 , 6 6 9 ,6 9 5b p记录号:a e r o _ p ( 2 ) 名称:c h l a m y d o p h i l ap n e u m o n i a e a r 3 9 c o m p l e t eg e n o m e 碱基总数:l ,2 2 9 ,8 5 3b p记录号:a e 0 0 2 1 6 1 ( 3 ) 名称:s y n e c h o c y s t i s p c c 6 8 0 3 c o m p l e t eg e n o m e 碱基总数:3 ,5 7 3 ,4 7 0b p记录号:4 1 3 0 0 1 3 3 9 3 计算规工具与实现 本文的工作均在p c i i 一3 5 0 上完成( 内存为1 2 0 m ,硬盘3 0 g ) 。对d n a 序列 懿绞诗分矮采囊l i n u x 援馋系统,程痔设诗逶言遗c 语言,g c c 编译器;强豫 表示部分采用w i n d o w s 9 8 操作系统,程序设计语言为t u r b oc 。 第二部分d n a 序列的统计分析 1 统计基础与目标 本部分的统计对象为数据库( a ) ,统计方法为字符搜索,搜索目标为1 到 1 5 各种长度的所有可能的d n a 序列片段,也就是d n a 序列片段的全体: c = ( q ,c ,) 爿,z = 1 , 2 ,1 5 ) ,= 4 ,c ,g ,丁 。 基本统计目标为: ( a ) 对全体d n a 序列片段进行统计定位,也就是对每个固定的c “,确定 它在数据库中的位置( 包括它所在的d n a 序列编号及在每个d n a 序列中的位 置) 。 ( b ) 在以上定位的基础上计算出每个d n a 序列片段的发生频数和频率, 以利于以后的进一步研究。 在本部分中,还对数据库( b ) 中的d n a 序列9 2 6 4 2 1 7 4 中1 到1 2 长的d n a 序列片段进行了统计分析,作为对比和补充。 2 数学模型 口”= ( 口。,a :,) 为搜索对象序列,分别取自于数据库( a ) 和( b ) 中的d n a 序列9 2 6 4 2 1 7 4 ,其中n 为序列长度。 c “= ( c l ,c 2 ,c t ) 爿为搜索目标d n a 序列片段,c 。f 4 ,i = l ,其 中,为搜索目标d n a 序列片段的长度。 对固定的c ( “,c ( 的定位子集为:m ( c ) = f ,( 口j ,一,a 一1 ) = c ( o , 其中( a l 一,口h 一1 ) 为口”中的连续子段。 统计频数为:m 。,= i l m ( c “) 序列片段的总数为:m 一= m ,。 一e 爿 ( 注:m 与基因库中的序列长度是有差别的,因为基因库本身具有许多 没有测出的片段以及边界等因素,m 0 。;窖( c ( ) ) 比 我们得到了基因库( a ) 的,= 1 ,1 5 的全部d n a 序列片段的频率分布表。 在下面的表1 和表2 中,分剐列国了基因痒( a ) 静1 帮2 长片段翡统计结采, 在袭中,逐给出了熵密度。在附录中,我们给出了基因库( a ) 的3 长以及基因 瘁( b ) 中静d n a 痔硝9 2 6 4 2 1 7 4 的1 ,2 ,3 长豹统诗结聚。 表1 莲透露( a ) ,l = 1 1 核萤酸片段频数频率熵密度( i )熵密度( i i ) 戈m , p ;监 h x = 一l o g p ( x )h r = 一p ( x ) l o g p ( x ) m 。 a 3 3 笛3 6 2 9 l0 。2 7 8 8 1 2l 。8 4 2 6 3 6e 5 1 3 7 4 9 c 2 6 5 1 4 8 8 4 50 2 2 3 6 5 72 1 6 0 6 4 20 4 8 3 2 4 2 g 2 6 9 7 9 7 4 0 30 2 2 7 5 7 82 1 3 5 5 6 80 4 8 6 0 0 8 l t 3 2 0 0 3 4 2 5 50 。2 6 9 9 5 31 8 8 9 2 1 8o 51 0 0 0 1 表2 基因津( a ) ,l = 2 核萤酸片段频数频率壤寮度( 1 )燧密度( 1 1 ) x m x p ( x ) :监 k = - l o g p ( x )h x = 一p ( x ) l o g p ( x ) m ,。 a al 聪5 0 3 7 8 90 ,0 8 9 8 3 73 4 7 6 5 3 9o 3 1 2 3 2 3 a c6 3 4 5 5 1 9 90 0 5 3 5 2 54 2 2 3 6 3 40 2 2 6 0 7 l a g7 9 5 4 0 7 9 7o 0 6 7 0 9 43 8 9 7 6 7 70 2 6 1 5 l o a ts 1 0 3 6 4 1 6o 0 6 8 3 5 53 8 7 0 8 0 2o 2 6 4 5 9 0 c a8 4 1 6 3 3 4 80 0 7 0 9 9 33 8 1 6 1 8 0 0 2 7 0 9 2 2 c c6 8 2 0 4 9 5 40 。0 5 7 5 3 24 11 9 4 9 60 2 3 7 0 0 2 c g3 5 6 9 2 8 9 00 0 3 0 1 0 75 0 5 3 7 3 6 o 1 5 2 1 5 5 c t7 7 0 8 7 6 5 30 0 6 5 0 2 53 9 4 2 8 7 20 2 5 6 3 8 3 g a7 6 2 7 0 8 5 0o 0 6 4 3 3 63 。9 5 8 2 4 l0 。2 5 4 6 5 6 g c6 2 4 1 9 7 6 50 0 5 2 6 5 24 2 4 7 3 6 90 2 2 3 6 3 2 g g7 0 4 2 4 2 3 00 0 5 9 4 0 44 0 7 3 3 0 00 2 4 1 9 7 0 g t6 沩8 2 5 5 8o 0 5 l1 8 74 。2 8 8 0 9 0o 。2 1 9 4 9 3 搦6 3 6 7 3 9 2 70 0 5 3 7 1 0 4 2 1 8 6 6 90 2 2 6 5 8 4 t c7 10 3 0 8 8 00 0 5 9 9 1 6 4 0 6 0 9 2 60 2 4 3 3 1 3 t g8 4 1 2 9 6 7 20 0 7 0 9 6 5 3 。8 1 6 7 5 70 。2 7 0 8 5 5 t t1 0 1 1 9 9 7 7 60 0 8 5 3 6 3 3 5 5 0 2 3 80 3 0 3 0 6 l 3 关于d n a 序列的信息传递分析 ( 1 ) 分析原理 所谓d n a 序列的信息传递,就是某基因片段的出现,对以后基因片段出现 的概率分布的影响,我们采用熵、条件熵和交互信息的工具进行计算和分析。 熵,条件熵, 1 熵: 2 条件熵: 交互信息的定义如下: h ( c 。) = 一p ( c m ) l o g p ( c 勺,= l ,1 5 c ) e h ( c f + lf ) = h ( c ) 一h ( c ,l = 1 ,一,1 4 3 + 交互信息:,( c 气c ) = h ( c 1 ) + ( c 勺一t t ( c “) ,f = l ,1 4 它们的意义分别为: 1 熵,h ( c 。、: f 长d n a 序列片段发生频率的不确定性。 2 条件熵,h ( c 1c 1 ) : 当f 长d n a 序列片段c 。1 固定时,第f + 1 个 核苷酸c 。发生频率的不确定性。 3 交互信息,( c c ) :,长d n a 序列片段c 。对第l + 1 个核苷酸c f + 传递的信息量。 ( 2 ) 计算结果 下面的表3 和表4 分别为基因库( a ) 和( b ) 中d n a 序列9 2 6 4 2 1 7 4 的计算结果。 表3基因库( a ) 长度熵条件熵交互信息 h ( c )h ( c j + 1 )i ( c c f + 1 ) l1 9 9 3 0 0 11 9 7 1 5 1 70 0 2 1 4 8 4 23 9 6 4 5 1 81 9 6 5 7 7 40 0 2 7 2 2 7 35 9 3 0 2 9 2i 9 6 0 2 1 90 0 3 2 7 8 2 47 8 9 0 5 1 11 9 5 7 1 0 40 0 3 5 8 9 7 59 8 4 7 6 1 51 9 5 4 0 9 80 0 3 8 9 0 3 61 1 8 0 1 7 1 31 9 4 6 5 3 20 0 4 6 4 6 9 71 3 7 4 8 2 4 5 1 9 3 9 6 50 0 5 3 3 5 1 81 5 6 8 7 8 9 5 1 9 2 8 3 1 80 0 6 4 6 8 3 91 7 6 1 6 2 1 3 1 9 0 6 5 10 0 8 6 4 9 1 1 01 9 5 2 2 7 2 3 1 8 7 1 7 8 20 1 2 1 2 1 9 1 l2 1 3 9 4 5 0 51 8 0 8 5 0 30 1 8 4 4 9 8 1 22 3 2 0 3 0 0 81 6 8 9 9 8 20 3 0 3 0 1 9 1 32 4 8 9 2 9 9 01 4 2 0 1 70 5 7 2 8 3 1 1 42 6 3 1 3 1 6 00 9 7 5 5 9 91 0 1 7 4 0 2 1 52 7 2 8 8 7 5 9 表4 d n a 序列9 2 6 4 2 1 7 4 长度熵条件熵交互信息 - ( c ,) )( c ,+ lic ,) )i ( c 气) 11 9 5 7 4 0 91 9 1 3 9 3 60 0 4 3 4 7 3 23 8 7 1 3 4 51 9 0 6 0 0 90 。0 5 1 4 0 0 35 7 7 7 3 5 41 9 0 3 0 1 90 0 5 4 3 9 0 47 6 8 0 3 7 31 8 9 6 8 3 6o 0 6 0 5 7 3 59 5 7 7 2 0 91 8 8 3 6 4 30 0 7 3 7 6 6 61 1 4 6 0 8 5 21 8 3 9 2 5 6o 1 1 8 1 5 3 71 3 3 0 0 1 0 81 7 0 5 8 1 70 2 5 1 5 9 2 81 5 0 0 5 9 2 51 3 2 3 8 7 70 6 3 3 5 3 2 91 6 3 2 9 8 0 20 7 3 2 4 4 71 2 2 4 9 6 2 1 01 7 0 6 2 2 4 90 3 0 2 8 6 91 6 5 4 5 4 0 1 11 7 3 6 5 1 1 80 n 2 4 0 21 8 4 5 0 0 7 1 21 7 4 7 7 5 2 0 ( 3 ) 曲线图 我们将以上的计算结果绘成曲线图,其中曲线图1 、曲线图3 和曲线图5 分 别为基因库( a ) 的熵、条件熵和交互信息变化图,曲线图2 、曲线图4 和曲线 图6 分别为d n a 序列9 2 6 4 2 1 7 4 的熵、条件熵和交互信息变化图,如下面所示: 曲线图1 熵变化图 基因库( a ) 厂= h ( c 曲线图3 条件熵变化图 基因库( a ) 厂_ ( c i c ) ) 曲线图5交互信息变化图 基因库( a ) 厂- i ( c c ) 曲线图2 熵变化图 d n a 序列9 2 6 4 2 1 7 4 厂_ h ( c f ) ) 曲线图4条件熵变化图 d n a 序列9 2 6 4 2 1 7 4 厂= n ( c 。ic ( 0 ) 曲线圈6 交互信息变化图 d n a 序列9 2 6 4 2 1 7 4 厂_ i ( cc f ) ;c ) 飞 ( 4 ) 分析结果 1 由曲线图1 可以看出,在基因库( a ) 中,当d n a 序列片段的长度为l 到1 1 时,熵h ( c f ) ) 的值接近于均匀分布的值2 ,因此分布 p ( c ) ) ) 接近于均匀 分布;当,1 2 时,h ( c l ) 出现明显的非线性增长,分布 p ( c “) ) 出现明显的非 均匀化趋向。 2 由曲线图3 和曲线图5 可以看出,对基因库( a ) 而言,从d n a 序列片 段长度,为1 0 开始,条件熵开始比较明显的减少,而互信息明显的增大,c ( 。对 c 。传递的信息开始明显增多。也即知道c “后,第f + 1 个氨基酸c 。的不确定性 变小。这个现象说明了当, 1 0 时,前z 个序列片段对后一个核苷酸的出现有明 显的影响。 3 由曲线图2 、曲线图4 和曲线图6 可以看出,对比较特殊的序列,其规 律可能更明显一些。例如,只有长度从l 到6 时,其分布才接近于均匀分布,而 从d n a 序列片段长度为6 开始,c ( 7 对c 传递的信息量开始明显增多。当d n a 序列片段长度,为1 0 或更长时,条件熵已经很小,以致于固定c ( 时,第件1 个 氨基酸c 。基本确定。 4 由比较可以看出两个基因库的d n a 序列片段分布的发散程度和d n a 序 列的信息传递效率,如可以看出当d n a 序列片段长度,较小时,基因库( a ) 比d n a 序列9 2 6 4 2 1 7 4 更接近于均匀分布,而当,增大时,d n a 序列醇6 4 2 1 7 4 的信息传递效率要高于基因库( a ) 的信息传递效率。 第三部分图像表示 下面我们对第二部分的统计结果用图像的形式表示出来,以便更直观地发现 d n a 序剜片段分布的一些蕊律。佟图方法爱【l 】文的启发,并做了相应的潋进。 1 作圈方法描述 对d n a 序列片段的分糍频数用作图法农示。佟图环境为v g a1 6 色,6 4 0 * 4 8 0 显示模式,作图大小为2 5 6 * 2 5 6 象索。对于k 长的d n a 序列片段,共有4 。种不 同的k 长模式,因北需簧在屏幕上用4 个不同的部分表示相应的模式,奠中每 部分颜色的漯浅代袭相应模式数量盼多少,颜色涕表示相疲的模式数量比较多, 颜色浅表示相应的模式数麓比较少。具体代表方法如下:先找出d n a 序列片段 分布频数的最大使与最小镶,然后对最大使和最小僮对应的区间进聋亍1 6 簿分, 每个小区间用一种颜色代表,颜色的分配原刚为,若分布频黉务撮颜色深,若分 布频数字则颜色浅,绘定个d n a 序列片段,先看其分布频数落入哪一个小区间, 然焉用其桷应的蕨龟进行蓿色。 作图方法: 当k = i 时,按圈l 所示的位置对一长序列( a ,c ,g ,t ) 进行黄色,当k = 2 , 3 时,按图2 和图3 所示的位置对二长和三长序列进行着儇。 c 圈1 g c 盯 图2 下面我们对作图的方法用数学语言进行描述。 当k = 1 时,我们将图l 用2 2 矩阵表示如下: 圈3 m k 三; ,并且令m 。2 n ,m 。,2 c ,m - 。2 c ,m “2 t 。 当k = 2 时,图2 可用4 x 4 矩阵表示为: m 2 4 4爿c 爿g一7 1 g 爿g c g gg r c 爿c c c gc t 删彤 粥阿 不失一般性,m = m 1x m lx m 1 ,其中相乘的矩阵个数为k 个, m 中共有4 个元素,每个元素可表示为m 1 中元素的乘积,表示如下: m ( i l ,i 2 ,i i ) ( 几2 ,一,i ) 2 m “,m u :m k , 其中:i l i ,i i ,l i ,- ,i 0 ,1 ,m 。,m w :,”,m “ a ,c ,g ,t ) 2 数据库( a ) 的图像表示及分析 下面对基因库( a ) 的d n a 片段分布频数用以上方法进行作图,现以3 长 和6 长片段为例,如下图所示: p i e c e l e n g t h = 3 图4 p i e e e l e n g c h = 6 图5 由图4 和图5 可见,含有a 和t 的序列片段比较多,而以a 的重复序列片段 和t 的重复序列片段为最多:含有c 和g 的序列片段比较少,而以含有c g 的序 列片段为最少,这反映了基因库( a ) 的某种偏好,但这种偏好的背后必有其原 因。下面我们再看几个特殊的例子,以免得出错误的结论。 3 数据库( b ) 中基因9 2 6 4 2 1 7 4 的图像表示及分析 下面的d n a 序列取自于基因库( b ) ,d n a 序列代号为9 2 6 4 2 1 7 4 ,为人体中的 一个d n a 序列片段。对3 长、6 长和8 长序列片段进行统计做图如下: g e n e sn i d = 删- 2 , 1 7 4 g e n e sn i d = g 2 6 4 2 1 7 4 图6 图7 g e n e sn i d = 9 2 8 4 2 1 7 4g e n e sn i d = 2 8 4 2 1 7 4 p i e c e l e n g t h = 8 图8 p i e c e l e n g t h = 3 图9 图6 、图7 和图8 具有极强的分形特征,由以上三图可知此序列中含有a 和 t 的序列片段比较多,而含有c 和g 的序列片段比较少,含有c g 的序列片段最 少。与整个基因库的特征相吻合。图9 为先对d n a 序列9 2 6 4 2 1 7 4 进行随机化处 理,打乱其顺序,然后对打乱顺序后的序列进行统计得到的3 长序列片段分布图 象,可见打乱顺序后的序列比较随机。由对比可知d n a 序列片段的频数分布并不 是完全随机的。由于做图模式为6 4 0 * 4 8 0 ,而在一个屏幕上只能显示完整的 2 5 6 * 2 5 6 象素大小的方形图象,也即8 长序列的统计分布图,若想对图形的某一 部分进行观察,可进行局部放大。图1 0 和图1 1 分别为对从区与c g 区的放大, 其实际序列片段长度为1 0 。图象表示方法可实现对任意长度的d n a 序列片段的 频数分布作图,有利于我们对d n a 序列片段的频数分布进行更深入的观察和研 究。 c , e n d sn i d = 9 2 6 4 2 1 7 4l o c a t i o ni s :a ng e n e gn i d = 9 2 0 4 2 1 7 4l o c a t i o ni s :e g p i e c e l e n g t h = b t h ew h o l el e n g h t h = 1 0 图1 0 p j 】e c e l e n g m = 8 t h ew h o l el e n g h t h - - 1 0 图1 l 在图1 0 和图1 1 中为了加强图像的清晰度与对比度,在着色时,对不存在的 序列片段本应着白色,现改为黑色。 4 对d n a 序列片段频数分布规律的尝试性解释 我们知道d n a 序列中的基因在表达为蛋白质的过程中,先转录为r n ,再由 r n a 翻译为蛋白质,而氨基酸的三联体密码子定义为在翻译过程中其所对应的r n a 中的三个连续的碱基。d n a 中的c g 片段在翻译为r n a 后变为g c 片段,而c , c a ,g c c , g c g ,g c u 四个密码子对应的氨基酸为丙氨酸( a l a ) ,丙氨酸侧链比较短,化学 活性弱,结构图如下所示 a l a 图1 2 因此d n a 序列中c g 片段比较少应该与丙氨酸的活性弱有关。而别的序列片 段比较多是因为它们所对应的氨基酸活性较强。 受以上的启发,可以得到一个生物进化模型,生物的进化应分为两个层次, 分子水平的进化与宏观生物群体的进化。 分子水平的进化也藏是o f f h 序列的进化,它的进化模型为:d n a 序列从随机 序列的一个样本开始,每复制一次,序列中的每个碱基以一定的概率发生突变, 但突变后的序列能否生存下去,受其在表达过程中突变点所对应的氨基酸活性的 影响,也即受其翻译为蛋白质的难易程度的影响( 也就是说若突变后的序列能较 容易的翻译为蛋白质,则它生存下去的概率就大,反之生存下去的概率就小) 。 在以上的d n a 序列进化模型中,将氨基酸活性的影响范围限制在外显子上也 许更合理一些,因为内含子在翻译中并不被表达。氨基酸活性的决定作用只是一 方面的原因,还有d n a 序列所处的环境等原因,因为其他因素会影响到d n a 序列 的突变机率、d n a 序列的复制周期和d n a 序列突变后能否顺利复制和表达等,但 氨基酸的活性应占主导地位。当固定搜索目标d n a 序列片段的长度时,对于一个 进化后的d n a 序列用上文方法计算得到的频数分布信息熵应当小于进化前的d n a 序列的频数分布信息熵。对于终止密码子u a a 、u a g 和u g a ,它们并不对应氨基 酸,但它们在翻译成蛋白质时是必不可少的,因此与它们相对应的d n a 序列片段 a t t 、a t c 和a c t 在d n a 序列中存在的数量应不能太少。d n a 序列与其所处的外部 环境之间是相互影响的,例如,d n a 序列发生突变后可能会产生新的蛋白质,而 外部环境中增加了新的蛋白质后,会对d n a 序列产生新的影响。 宏观生物群体的进化则是在分子水平进化的基础上发生的。它通过同一种群 的不同个体之间,不同种群之间以及种群与自然环境之间的作用与影响来进行选 择,从而达到进化的目的。它是对分子水平进化的一次检验,是对分子水平上所 进行筛选的再次筛选。对于一个生物体而言,与外部环境相适应的,则生存下去 的概率大,反之则生存下去的概率小。 分子水平的进化相对来说比较稳定,而在宏观生物群体进化中偶然性因素起 的作用则大些。 对于生物体中具有多条o n a 序列( 基因序列) 的情况,生物体中的所有d n a 序列相互影响,相互制约,在分子水平上共同决定生物体的进化。但最终生物体 能否生存下去,要接受宏观生物群体进化的最后检验。 下面对基因库( b ) 中的第二个d n a 序列,即人体第2 2 号染色的一个片段进 行了统计作图,d n a 序列片段长度为3 ,以印证以上的观点。结果如图1 3 所示。 图1 3 由图1 3 可知,这个d n a 序列的c g 片段数量也比较少,具有与d n a 序列9 2 6 4 2 1 7 4 片段相似的分布规律。如果上述的d n a 序列进化模型是正确的话,可看出不同的 d n a 序列如果处于相似的外部环境中,也即处于相似的突变机率和选择机制下, 它们将具有相同的发展趋势。 5 映射图 由于频数分布图在着色时存在量化时的粗糙性,不易反映确定的数量,因此, 我们改用以下的方法作图,从另一个角度观察d n a 序列分布的一些规律, 作图方法如下: 假设已知k 长序列片段q c 。,现统计以q 为前k 个字母的k + i 长序列c ,c 。,若不存在,则在k 长图的相应位置q 靠处着白色;若 存在,g c 。只取碱基中的一种,则着浅灰色;若取碱基中的两种,则着红色; 若取碱基中的三种,则着紫色;若取碱基中的四种,则着黑色。图1 3 和图1 4 分 别为d n a 序列9 2 6 4 2 1 7 4 的7 到8 长和8 到9 长的映射图。 由图1 3 和图1 4 的比较可见,图1 4 中的黑区变小,而红区和白区增大,而 由表4 可知,条件熵h ( c 8c 1 c 7 ) h ( c 9c l c 8 ) ,可见二者是吻合的。 c , e n e sn i d = g 2 6 4 2 1 7 4 c , l :, t i e sn i d = 9 2 6 4 2 1 7 4 图1 3 p i e c e l e n g t h = 8 一 9 图1 4 也可对上述映射图着1 6 色,因为所有的映射共有1 6 种,可让每种颜色代 表一种确定的映射,如图1 5 所示。我们亦可对映射图进行局部放大,图1 6 和图 1 7 分别为5 色和1 6 色的放大映射图,如下所示: 1 6 g e n e sn i d = g 2 6 4 2 1 7 4 p i e c e l e n g t h = 8 一 9 图1 5 c ,e n e sn i d = 9 8 8 4 2 1 7 4i x x 她o nj 式蛆g e n e sn i d = 9 2 8 4 2 1 7 4 i x x 班t l o nj s 眦 图1 6 6 图像对称性的讨论 p i e c e l e n g t h = l o _ “ 图1 7 由以上所作的图像可以看出,图像以c 和g 方向为对称轴具有一定的对称 性。下面对对称性进行简单的计算,讨论。首先我们定义两种方差: 哳- = 砉毫c x # - - x j i ,2 v a r 2 = 缸 ) 2 砖三窆” ,= l 以上两个式子中,x 。,i ,j l ,n ) 代表一个k 长序列在整个d n a 序 列中出现的频率,其中r l = 2 。 其中地r 1 为原图与它的以c g 方向为对称轴的对称图之间的方差,y a r 2 为 原图自身的方差。我们定义卜;芝作为图形沿c ,g 方向的对称度。 y a r z 下面计算了基因9 2 6 4 2 1 7 4 的l 到8 长的序列片段频数分布的两种方差和对称度, 结果如表5 所示。 图像的对称性反映了碱基a 和t ,c 和g 分别在d n a 序列中频数分布的相似 性,a 和t ,c 和g 在d n a 序列的遗传和变异的选择中分别具有相似的地位,如 果上述的d n a 序列进化模型是正确的话,这反映了a 和t ,c 和g 分别作为密码 子的一部分所对应的氨基酸具有相似的化学活性。 表5 长度方差 方差 对称度l 一器n 肠r 1 v a r 2 l4 3 3 0 6 2 4 5 0 0 01 4 4 1 7 3 8 8 8 0 0 0 0 0 9 7 0 0 2 2 2 5 3 9 7 1 7 5 0 0 2 3 5 2 6 4 2 2 0 0 0 00 9 0 4 2 3 3 9 8 6 8 9 8 7 5 0 2 6 2 9 7 2 5 2 5 0 00 8 4 8 4 44 7 4 3 4 8 6 7 22 4 7 7 9 1 2 8 1 30 8 0 8 6 55 1 1 0 6 9 1 42 1 9 1 7 4 2 9 70 7 6 6 8 65 6 2 3 9 9 91 8 8 7 8 6 0 1 0 7 0 2 i 77 2 5 6 5 71 6 8 8 3 5 50 5 7 0 2 ,8 l i 6 4 8 21 6 7 8 1 90 3 0 5 9 7 基因库( c ) 的图像表示及分析 并不是所有的d n a 序列都具有非常特殊的频数分布规律,下面对基因库( c ) 中的三个细菌的完全基因组进行了统计作图,如图1 8 ,图1 9 和图2 0 所示 由下图可见,有的d n a 序列的频数分布具有特殊的规律性,而有的d n a 序列 没有明显的规律性,这反映了d n a 序列的进化程度,有的d n a 序列进化时间比较 长,有的d n a 序列进化时间比较短,这与生物的种类有关d n a 序列片段频数分布 规律的不同或许反映了不同的外部环境对d n a 序列进化的影响,外部环境起到了 控制d n a 序列进化方向的作用。 g e n e gn i d = a e r o _ p p i e c e l e n g t h 28 p l e e e l e n g t h = 8 图1 8图1 9 g e n e sn i d = a b 0 0 1 3 3 9 8 图像表示方法的应用 p i e c e l e n g l h = 8 图2 0 用图像表示的方法可以很直观的看到d n a 序列片段的频数分布,因此对基因 序列的预处理有一定的意义,使我们容易发现d n a 序列片段分布的一些规律,我 认为图像表示方法将会在以下方面有用处: 1 9 1 分析d n a 序列的成分。 2 。浅察d n a 净裂片段频数分毒熬菜魏绥节。 3 根据d n a 序列片段频数分布的规律进行d n a 的分类。 4 。d n a 序列鹣弱源牧癸辑,壤握频数分蠢熬藏跌裁黼戆不疑,可以麓出亵 种d n a 序列的相似程度的大小,从而可预测d n a 序列是否同源。 5 。嚣出重复序列片段豹分蠢状况,根据频数分布图的颜色深浅,可囊出不 间d n a 序列片段的重复稷度 6 农分子克隆中,通过不同识别位点,限制性内切憋可实现其功能。用图 像表示法可看出谈别位点的多少,从而可控制其剪切酶的用量和预测处 理后的结果。 7 受图像的启发,我们可构建一个d n a 序列的动态遴化模型,此模黧由一 随机序列开始,序列中的每个碱藻的突变是以某种机率发生的,但突变 矮的窿粥能否生存下去蔫受一定释部祭俸黻翻的,模鼙在貌种限涮条俸 f 向前进化,而且进化后的d n a 对外部条件又会产生影响。在d n a 序列 避纯煞基稿上,我们孬遴步分氍生耱静透纯过程,盘藏霹预溅燕物静 进化方向和追溯生物进化的历史。 第四部分总结 本文主要对d n a 序耐进行了统计分析并将统计所得剃的频数分布用豳形的形 式表示出来,发现了d n a 序列信息传递和d n a 序列片段频数分布的一些规律。在 魏褒律静癌发下,薅一个生锈避纯模型进行了大糙的设想d n a 序瓢的突变就象 生物进化的发动机,而d n a 序列所处的外酃环境就象控制生物进化的方向盘,生物 髂在发动梳静攘动下,瀣方态鑫掇示静方穗,在与周围邵麓静不断碰撞巾潘菜一 条道路向前进化。或许慕天人们能够构建一个足够精确的模烈,来模拟生物的 遴诧过程,瓢瑟能够预测生耪( 链摇久炎垂身) 翡逶纯方海,慕歪能够羧翻生耱 进化的方向,使其向更好的方向发展,盼凝这一天的早些到来。 2 参考文献: 1 b a i li nh a o ,f r a c t a l sf r o mg e n o m e s :e x a c ts o l u t i o n so fab i o l o g y i n s p i r e dp r o b l e m ,i c t pp r e p r i n ti c 9 9 1 5 4 a n dl o sa l a m o se - p r i n t c o n d - m a t 9 9 1 0 4 2 2 2 沈世镒,“信息的度量及其应用”,湖南教育出版社,1 9 9 3 。 3 郝柏林,刘寄星,“理论物理与生命科学”,上海科学技术出版社,1 9 9 7 1 2 。 4 中国科学院,“1 9 9 9 科学发展报告”,科学出版社,1 9 9 9 。 5 刘次全,白春礼,张静,“结构分子生物学”,高等教育出版社,1 9 9 7 。 6 里查德道金斯,著,卢允中,张岱云,王兵,译,“自私的基因”,吉林人 民出版社,1 9 9 8 。 7 j d 沃森,“基因的分子生物学”,科学出版社。1 9 8 2 。 8 齐义鹏,“基因及其操作原理”,武汉大学出版社,1 9 9 8 。 9 瞿礼嘉,顾红雅,胡苹,陈章良等,“现代生物技术导论”,高等教育出版社, 施普林格出版社,1 9 9 8 。 1 0 张新生,王梓坤,“生命信息遗传中的若干数学问题”,科学通报,中国科学 院主办,2 0 0 0 年1 月,4 5 卷,第二期。 1 1 寿天得,徐耀忠,“现代生物学导论”,中国科学技术大学出版社,1 9 9 8 。 1 2 王亚馥,戴灼华,“遗传学”,高等教育出版社,1 9 9 9 。 附录1 1 有关的背景 自1 9 5 3 年i w a r s o n 和f c r i c k 发现d n a 的双螺旋结构以来,人们对生命 信息遗传的研究进入了一个崭新的时代。此后相继发现了“遗传密码字典”,“遗 传的中心法则”等,使人们对生命是如何一代一代繁衍的有了初步的了解,但是 离真正揭开生命信息之谜还差之甚远。1 9 8 7 年美国开始了人类基因组研究计划 ( h g p ) ,任务有二:第一,读出人类基因组全部核苷酸的顺序。第二,是“读懂”, 即找出全部基因在染色体上的位置,了解它们的功能。其中第一步工作已经完成, 人类基因组计划研究已经开始从“结构基因组阶段”进入了“功能基因组阶段”。 整个人类基因组共为3 0 亿个碱基对,其数据可以构成一本1 0 0 万页的书。其上 只有四个字母的反复出现。如何处理存储和分析这些数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 曲阳文综考试题库及答案
- 城市绿化环境美化承诺书6篇
- 2025年国电电网安规考试配电部分考试题库(附答案)
- 材料力学证考试题及答案
- 化纤厂应聘考试题及答案
- 运维管理岗考试题及答案
- 工会知识考试题库及答案
- 湖南烟草局考试题型及答案
- 轮机操作技能考试题库及答案
- 入职编程笔试题及答案
- 2.3河流与湖泊第1课时课件-八年级地理上学期人教版
- 专题04 利用基本不等式求最值(压轴题8大类型专项训练)数学人教A版2019必修一(解析版)
- 2025上海浦东新区浦东公安分局文员招聘300人考试参考题库及答案解析
- 2025年三方股权合作合同协议书
- 工程结算审核工作方案(3篇)
- 地方病竞赛试题及答案
- 弘扬伟大抗战精神为实现中华民族伟大复兴而奋斗2025-2026学年高二上学期爱国主义教育主题班会
- 秋季企业施工安全培训内容课件
- 社工抗压与情绪处理课件
- 起重机作业人员Q2证理论考试练习题含答案
- 四川遂宁2021-2024年中考满分作文64篇
评论
0/150
提交评论