已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)dna指纹自动分析系统关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:毖壬 本人承担一切相关责任。 日期:竺! 望:么:么翌 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 2 日期:! 兰么鱼:么;么里 日期:剑芝: :丝 北京邮电大学硕士论文 d n a 指纹自动分析系统关键技术研究 摘要 随着分子生物学的发展,d n a 指纹图谱技术出现。d n a 指纹图谱是指能够鉴别 生物个体之间差异的d n a 电泳图谱,由于它直接反映d n a 分子水平上的差异,具有 高度的专一性和特异性,成为当今最先进的种质鉴定技术。并广泛运用于众多领 域,如确定亲缘关系、遗传病诊断、物种鉴别等。但是人工对d n a 指纹图谱进行 分析存在速度慢、准确率低的问题,很难满足大数据量的科研工作的需要,因此 迫切需要借助计算机建立自动分析系统,以达到快速、准确的分析效果。 目前有多种d n a 指纹技术,如r f l p 、r a p d 、a f l p 、s s r ,其中r f l p ( 限制性内 切酶片段长度多态性) 是应用最早并且应用最广泛的d n a 指纹技术。本文提出并设 计了一种d n a 指纹自动分析系统,可以对两种形式的d n a 指纹进行r f l p 分析,分别 是碱基序列形式的d n a 指纹和图片形式的d n a 指纹。文章对系统中以下关键技术进 行了阐述,包括酶切序列,指纹特征值比对,指纹图片比对,相似矩阵生成,d n a 聚类,进化树生成。 基于以上关键技术,我们成功研发d n a 指纹图谱聚类分析软件。通过测试, 得到了很好的运行结果,该软件各功能模块的运行结果将在论文各个章节中有所 展示。 关键词:d n a 指纹图谱,碱基序列,r f l p ,酶切,相似矩阵,进化树 北京邮电大学硕士论文 n 卜 _ l 一1iff_ , c l 北京邮电大学硕士论文 k e yt e c h n i q u e so fd n af i n g e r p r i n ta u t o m a t i ca n a l y s i s s y s t e m a b s t r a c t w i t ht h ed e v e l o p m e n to fm o l e c u l a rb i o l o g y , d n af i n g e r p r i n t t e c h n o l o g yc a m eo u t d n af i n g e r p r i n ti s a 虹n do fe l e c t r o p h o r e s i s p a r e mw h i c hc a l lr e f l e c td i f f e r e n c e sb e t w e e nt w od n ai nm o l e c u l a r l e v e l ,j u s tl i k e t h ef i n g e r p r i n to fh u m a nb e i n g sw h i c hc a nm a k e d i s t i n g u i s h i n gb e t w e e nt w op e o p l e ,s od n af i n g e r p r i n t i n gi st h em o s t a d v a n c e ds p e c i e si d e n t i f i c a t i o nt e c h n o l o g y , a n di ti s w i d e l yu s e di n m a n yf i e l d s ,s u c h a sc o n f i r m i n go fk i n s h i p ,d i a g n o s e so fh e r e d i t a r y d i s e a s e ,i d e n t i f i c a t i o no fs p e c i e s ,e t c b u ta n a l y z i n gd n a f i n g e r p r i n tm a n u a l l yc a nn o tm e e tt h en e e do f l a r g ed a t aa n a l y s i si ns c i e n t i f i cr e s e a r c hw o r kn o w a d a y s ,b e c a u s et h e r e e x i s tt w ob i gp r o b l e m s :l o wr a t ea n dl o wa c c u r a c y s oc o m p u t e ra i d e d a u t o m a t i ca n a l y s i ss y s t e mi sd e s i r e d ,i no r d e rt oa c h i e v eah i g ha c c u r a t e r e s u l tq u i c k l y t h e r ea r em a n yd n a f i n g e r p r i n ta n a l y s i st e c h n o l o g ys u c ha sr f l p , r a p d ,a f l 只s s r a m o n gt h e s e ,r f l p ( r e s t r i c t i o nf r a g m e n tl e n g t h p o l y m o r p h i s m ) i st h ee a r l i e s te m e r g e da n dm o s tw i d e l yu s e do n e t h i s a r t i c l ep u t sf o r w a r dad n a f i n g e r p r i n ta u t o m a t i ca n a l y s i ss y s t e mb y w h i c hw ec a l la n a l y z et w ot y p e so fd n a f i n g e r p r i n td a t a _ _ d n a b a s e s e q u e n c e sa n dd n af i n g e r p r i n tp a r e r mp i c t u r e s k e yt e c h n i q u e si nt h e s y s t e mw i l lb ei l l u s t r a t e di nt h i sa r t i c l e ,i n c l u d i n ge n z y m ed i g e s t i o no f d n ab a s e s e q u e n c e s ,c o m p a r a t i o n o ff i n g e r p r i n tf e a t u r ev a l u e s , c o m p a r a t i o no ff i n g e r p r i n tp a t t e r n s ,b u i l d i n g o fs i m i l a r i t ym a t r i x , c l u s t i n go fd n a a n db u i d i n go f p h y l o g e n e t i ct r e e b a s e do nt h ek e yt e c h n i q u e sa b o v e ,w ed e s i g n e da n dr e a l i z e da d n a f i n g e r p r i n ta n a l y s i ss o f t w a r e t r o u g ht e s t s ,i tp r o v e sg o o dr e s u l t s t h er u n n i n gr e s u l t so fe a c hm o d u l ei nt h es o f t w a r ew i l lb es h o w ni n i i i 北京邮电大学硕士论文 e a c hc h a p t e r s k e yw o r d s :d n a f i n g e r p r i n t ;b a s es e q u e n c e ;r f l p ;e n z y m e d i g e s t i o n ;s i m i l a r i t ym a t r i x ;p h y l o g e n e t i ct r e e i v 北京邮电大学硕士研究生论文 摘要。 a b s t r a c t 第一章绪论 目录 i l 1 1研究背景。l 1 2 国内外研究现状l 1 3 d n a 指纹自动分析系统研究重点3 1 4 论文主要内容与结构。4 第二章d n a 指纹自动分析系统概述 5 2 1 d n a 指纹分析系统架构5 2 2 d n a 指纹分析系统功能介绍7 2 2 - 1 基于碱基序列的d n a 指纹分析模块。7 2 2 - 2 基于指纹图谱的d n a 指纹分析模块7 2 3 系统开发工具7 2 4 本章小结8 第三章基于碱基序列的d 1 n a 指纹比对分析 9 3 1 酶切概念9 3 1 1 酶切与酶切位点9 3 1 2 酶切泳道与泳道特征值9 3 2酶切模型1 0 3 - 2 - 1 内切酶建模1 0 3 2 2 模糊识别位点1 l 3 2 3d n a 建模1 2 3 3 酶切位点查找算法1 4 3 。3 1 模糊识别位点展开法1 4 3 3 2直接查找匹配法。1 5 3 3 3 两种方法的比较与选择1 6 3 3 4 对d n a 类的扩展。1 8 3 4酶切算法1 8 3 4 1 最初的酶切算法。1 8 3 4 2 两类特殊的酶1 9 3 4 3 改进的酶切算法2 0 3 4 4 对d n a 类的扩展2 l 3 4 5实验演示2 1 3 5 指纹特征比对2 2 3 5 1 相似度概念2 2 3 5 2 比对算法2 3 v 北京邮电大学硕士研究生论文 3 5 3 对d n a 类的扩展以及实验结果。2 5 3 6 指纹识别2 5 3 7 内切酶编辑2 7 3 8 本章小结2 8 第四章基于图片的d n a 指纹比对分析 4 1 d n a 指纹图谱3 0 4 2 图片特征提取3l 4 2 1图片标准化3l 4 2 2 特征建模3 2 4 2 3 特征提取3 2 4 3 特征比对3 3 4 4 比对精度调节3 4 卜 4 5 指纹识别3 5 4 6 本章小结3 7 一 第五章相似矩阵与进化树 5 1 相似矩阵3 9 5 2 进化树概念4 0 5 3进化树建模4 2 5 4 进化树生成4 3 5 4 1 子树之间的相似度4 3 5 4 2 最大树法的原理4 3 5 4 3 最大树法的改进算法4 5 5 5 进化树绘制4 7 5 5 1 后序遍历法4 7 5 5 2 物种分类5 0 5 6 本章小结5 2 第六章总结与展望 6 1 总结5 3 6 2展望5 3 参考文献。 致谢 作者攻读学位期间发表的学术论文目录 5 6 5 7 北京邮电大学硕士研究生论文 1 1 研究背景 第一章绪论 随着分子生物学的发展,d n a 指纹图谱技术出现。d n a 指纹图谱是指能够鉴别 生物个体之间差异的d n a 电泳图谱,由于它直接反映d n a 分子水平上的差异,具有 高度的专一性和特异性,成为当今最先进的种质鉴定技术,并广泛应用于众多领 域在医学中可用于个体鉴别、确定亲缘关系、遗传病诊断;在动物进化学中 可用于探明动物种群的起源及进化过程;在物种分类中,可用于区分不同物种, 也有区分同一物种不同品系的潜力【i 】。 d n a 指纹是建立在d n a 分子标记技术的基础之上的。近年来,随着生物技术的 不断发展,诞生了一系列d n a 分子标记技术,如r f l p 、r a p d 、a f l p 、s s r 2 】其 中r f l p ( 限制性内切酶片段长度多态性) 是应用最早并且应用最广泛的d n a 指纹图 谱技术,它是根据基因之间限制性片段长度的差异,实现基因之间的比对、识别。 目前生物遗传学使用最多的d n a 指纹图谱就是r f l p 图谱。 手工对d n a 指纹图谱的进行分析,存在速度慢、准确度低两个突出问题,难 以满足大数据量分析( 如人类基因组计划) 的需要,因此迫切需要借助计算机建 立自动分析系统。本人将针对r f l p 标记的d n a 指纹图谱的自动化分析技术展开研 究,以期通过生命科学与信息技术的结合,达到快速准确的分析效果。 1 2 国内外研究现状 1 9 8 4 年英国莱斯特大学的遗传学家j e f f e r y s 及其合作者首次将分离的人源 小卫星d n a 用作基因探针,同人体核d n a 的酶切片段杂交,获得了由多个位点上的 等位基因组成的长度不等的杂交带图纹,这种图纹极少有两个人完全相同,故称 为”d n a 指纹”,意思是它同人的指纹一样是每个人所特有的。d n a 指纹的图像在x 光胶片中呈一系列条纹,很像商品上的条形码。 早在1 9 7 5 年,g r o d z i c k e r 等就创立了r f l p 技术( r e s t r i c t i o nf r a g m e n t l e n g t hp o l y m o r p h i s m a ,限制性内切酶片段长度多态性) ,是指基因型之间限制 性片段长度的差异,这种差异是由限制性酶切位点上碱基的插入、缺失、重排或 点突变所引起的【2 1 。r f l p 作为第一代分子生物学标记迅速运用于d n a 指纹图谱技 术中。基于r f l p 技术的d n a 指纹图谱,即利用特定的限制性内切酶对生物基因组 d n a 进行酶切,获得大小不等的d n a 片段,并将这些片段的长度作为d n a 指纹特征 值。根据两条d n a 指纹特征值之间的异同,来对d n a 进行比对识别。 北京邮电大学硕士研究生论文 1 9 9 0 年由美国杜邦公司科学家w i l l i a m s 等和加利福尼亚生物研究所的w e l s h 和m o c l e l l a n d 发明了r a p d 分子标记技术【2 1 。它是以基因组d n a 为模板,以一个随 机的寡核苷酸序列作引物,通过p c r 扩增,产生不连续的d n a 产物,用以检i 煲| d n a 序列的多态性。 1 9 9 3 年荷兰k e y g e n e 公司z e b e a u 和v o s 发明t a f l p 分子标记技术 2 1 。其基本原 理是选择性扩增基因组d n a 的酶切片段,由于不同材料的d n a 酶切片段存在差异, 因而便产生了扩增产物的多态性。 1 9 9 0 年,a l t s c h u l 等人推出了b l a s t ( b a s i cl o c a la l i g n m e n ts e a r c ht 0 0 1 ) 软件,用来对d n a 进行相似性比较分析。b l a s t 程序能迅速与公开数据库进行相似 性序列比较。b l a s t 结果中的得分是对一种对相似性的统计说明。b l a s t 对一条或 多条序列( 可以是任何形式的序列) 在一个或多个核酸或蛋白质序列库中进行比 对。 1 9 9 5 年,美国华盛顿大学生物系j o ef e l s e n s t e i n 的团队发明了进化树分析 软件p h y l i p ( f e l s e n s t e i n1 9 9 5 ) ,目前已经出到了版本三。该软件实现了多种方 式生成进化树【3 】:简约法( p a m i m o n ym e t h o d s ) ,距离法( d is t a n c em e t h o d s ) ,似 然法( 1 i k e l i - h o o dm e t h o d s ) 。但其本身不具备d n a 序列分析的能力,其数据源 是来自b l a s t 或c l u s t a l 的分析结果。_ w 图1 - 1d n 埘旨纹图谱图片示例 近年,美国l y n n o n b i o s o f t 公司开发的分子生物学应用软件d n a m a n 和哈佛大 学医学院开发的d n a s t a r 涵盖t d n a 分析领域大多数内科4 1 ,功能包含:序列的格 式转换,序列拼接和基因寻找,限制性酶切分析、比对、进化树生成。这类软件 功能强大,基本上可以满足实验室绝大多数应用需求。但它们都是从d n a 序列分 2 北京邮电大学硕士研究生论文 析出发来进行d n a 指纹比对的,而无法对如图1 - 1 中所示的图片形式d n a 指纹进行 分析。 国内各高校、科研院所在d n a 指纹图谱自动分析系统方面也做了不少研究。 早在1 9 9 6 年,四川师范大学分析测试中心就对针对图片形式的d n a 指纹图谱 的分析方面展开了研究,并研制出基于指纹图像的自化识别系统【5 】,结构如下图。 但该系统仅依据指纹图片进行图像识别,而不能在碱基序列的层面上进行分析, 识别效果受图片质量的影响很大。 i c o di-_m+ml小i 槠o i , i h zh 黧寰剐 l 斟叫吖:赫器h 视频3 x 2 5 杳找6 x 8 b 表i t 图卜2 四川师大研制的d n a 孑旨纹识别系统结构图 2 0 0 1 年,吉林大学基础医学院免疫学教研室研制了针对碱基序列形式的d n a 指纹图谱分析软件【6 】。该软件实现了碱基计数、翻译核苷酸序列、查找切位点等 初步分析功能,但不具备序列比对,相似度计算,进化树生成等高级功能。 基于上述研究成果,并针对它们中存在的不足之处,本人研制出一套具有自 主知识产权的d n a 指纹图谱聚类分析系统。该系统可以对碱基序列和指纹图片两 种形式的原始d n a 指纹数据进行r f l p 指纹分析,实现了酶切、比对、生成相似矩 阵、聚类并生成进化树等功能。 1 3d n a 指纹自动分析系统研究重点 本人围绕d n a 指纹自动分析系统的几大关键技术展开研究,包括酶切碱 基序列、指纹特征值比对、指纹图片比对、生成相似矩阵、生成进化树。 1 酶切碱基序列:使用各种限制性核酸酶,将d n a 碱基序列依据酶切规 则切成许多片段,以得到d n a 指纹特征值。这里要重点讨论酶识别位点的建 模、模糊识别位点的处理、酶切算法。寻求最佳计算机软件实现方法,使得计 算机进行酶切达到很高的效率。 2 指纹特征值比对:每个限制性核酸酶在d n a 指纹图谱上都对应一条电 泳泳道,碱基序列经酶切后得到的各个片段的长度就是该电泳泳道上的特征值。 指纹特征值比对,即比较两个d n a 在各条泳道上指纹特征值的异同,计算出 二者之间的相似度。这里的研究重点是设计出高效的比对算法,快速得到两个 北京邮电大学硕士研究生论文 d n a 之间的相似度。 3 指纹图片比对:针对图片形式的d n a 指纹,研究出最佳的图像处理和 识别方法,以根据两幅图片之间的异同,得到两个d n a 指纹之间的相似度。 这里的研究重点为,指纹图片标准化,图片特征模型设计,扫描图片特征提取, 特征比对。 4 生成相似矩阵:库中每两个d n a 之间都进行一对一的比对,将其相似 度以矩阵的形式展示出来。 5 生成进化树:依据相似矩阵( 距离矩阵) ,采用合适的算法对库中的d n a 进行聚类,将d n a 之间的相似关系以进化树的形式展现出来。他们在进化树 上的距离远近能够很好的反映其遗传学上的亲缘远近。这里要重点研究进化树 建模方法,进化树聚类生成算法,进化树绘制方法。 1 4 论文主要内容与结构 本论文共分为六章,其他各章的主要内容如下: 第一章为绪论,主要介绍了课题研究的背景和意义,主要研究内容和论文的 组织结构。 第二章为d n a 指纹自动分析系统概述,将向读者介绍d n a 指纹自动分析系统的 结构框架,功能,软件模块构成。 第三章为基于碱基序列的d n a 指纹比对分析技术,围绕着内切酶建模,酶切 算法,指纹特征值比对等技术展开讨论。 第四章为基于图片的d n a 指纹比对分析技术,围绕着图片特征扫描,图片特 征提取,图片特征比对等技术展开讨论。 第五章为相似矩阵与进化树技术,围绕着相似矩阵生成,进化树建模,进化 树聚类生成,进化树绘制等技术展开讨论。 第六章为总结d n a 指纹自动分析系统的特色,存在的问题,提出进一步优化 的设想与展望。 。 4 北京邮电大学硕士研究生论文 第二章d n a 指纹自动分析系统概述 2 1d n a 指纹分析系统架构 本论文介绍的d n a 指纹自动分析系统可以对两类原始d n a 数据进行分析,即 d n a 碱基序列和d n a 指纹图谱。 d n a 碱基序列( d n ab a s es e q u e n c e ) ,即由a ( a d e n i n e 腺嘌呤) 、t ( t h y m i n e 胸 腺嘧啶) 、c ( c y t o s i n e 胞嘧啶) 、g ( g u a n i n e 鸟嘌呤) 四种碱基构成的d n a 链式序列, 其形式如“g a a a t g a c t g c t a a g a c t g g a t a g g a g a t ,在本系统中以文本形式保存。 d n a 指纹图谱,o p d n a 经凝胶电泳后得到的形如图2 - 1 所示的电泳图片,图中 的每一纵列都代表一个条电泳泳道,每条泳道都对应一个限制性核酸酶,各泳道 上的横条的位置就表征了此d n a 在该泳道上的指纹特征值。 图2 1d n a 4 旨纹图谱示例 本系统结构如图2 - 2 所示,对于碱基序列和指纹图谱两种不同的原始数据采 取两种不同的分析方法。对于碱基序列,首先要由限制性核酸酶对其进行酶切, 得到各泳道上的指纹特征,而后进行特征值比对,得到两个d n a 指纹之间的相似 度。对于指纹图谱,则首先进行图片扫与描特征提取,而后进行特征比对,同样 得到两个d n a 之间的相似度。 在已经得至u d n a 之间指纹相似度的基础之上,可以进行相似矩阵的构建,相 似矩阵形如图2 3 所示。图中的“a c o d 、b c o d 、f c o d ”等都代表d n a 的编号( 名 称) ,矩阵中的数值代表d n a 指纹之间的相似度,如图2 - 3 左上角的0 9 3 5 就代表a 与f 之间的相似度。可见相似矩阵可以很直观得反映两个d n a 指纹之间相似度。 北京邮电大学硕士研究生论文 图2 - 2d n a 指纹自动分析系统结构图 比对矩隆 a c o db c o dc c o d d c o de c o d f c o d f c o db 9 3 50 1 1 10 1 2 90 1 1 70 1 2 3气0 0 0 e c o db 1 3 70 2 1 30 2 2 00 9 8 11 0 0 0 d c o db 1 2 40 2 0 1。0 2 0 71 0 0 0 c c o d 0 1 4 l白8 9 6 1 0 0 0 b c o d0 1 2 41 - 0 0 0 九c o dj 0 0 0 图2 - 3 相似矩阵示例 在相似矩阵的基础之上,对各个物种进行聚类,得到形如图2 4 所示的表征 物种之间亲缘远近关系的进化树。 酬l e g 饼 l l 量 l e m u r c t 瞳i m m z e e 靠旧蝴 h h m 赫 g o a t 精t 墓旌i l 蜮 r a b b i t a l 瑚绷i m 图2 - 4 进化树示倒 6 北京邮电大学硕士研究生论文 2 2d n a 指纹分析系统功能介绍 2 2 1基于碱基序列的d n a 指纹分析模块 该模块包含以下基本功能: 1 酶切碱基序列:酶切序列得到指纹特征值。 2 指纹比对:得到相似度。 3 d n a 库的建立:将众多d n a 序列组成库,以便于以后的识别工作。 4 指纹识别:当前d n a 与库中所有d n a 进行比对,按相似度由大到小排序。 5 生成相似矩阵 6 生成进化树 7 绘制进化树:展示进化树的整体结构、不同种类个体之间的区分、同种 类下不同亚种个体之间的区分。 8 比对精度调节:设定比对精度,便于模糊识别。 9 内切酶的编辑:内切酶的添加、删除、修改。内切酶的种类繁多,不下 上百种,做指纹比对时,不可能对所有酶都进行分析。实际上,生物学 家在进行一次实验时,往往只选取自己感兴趣的那些内切酶来进行分析。 因此,我们的自动分析系统应当包含内切酶编辑功能,以方便使用者自 己添加、删除、选择感兴趣的内切酶。 2 2 2 基于指纹图谱的d n a 指纹分析模块 该模块包含以下基本功能: 1 图片标准化:将不同尺寸电泳图片标准化为统一尺寸,以便于统一分析。 2 图片扫描特征提取 3 图片特征比对:得到相似度。 4 特征库的建立:将众多指纹图片特征组成库,以便于以后的识别工作。 5 指纹识别:当前指纹与库中所有指纹进行比对,按相似度由大n d , 排序。 6 生成相似矩阵 7 生成进化树 8 绘制进化树:展示进化树的整体结构、不同种类个体之间的区分、同种 类下不同亚种个体之间的区分。 9 比对精度调节:设定比对精度,便于图片模糊识别。 2 3 系统开发工具 7 北京邮电大学硕士研究生论文 d n a 指纹自动分析系统最终是以软件的形式实现,可以在任何装有w i n d o w s 系统的计算机中运行。其分析对象是本文形式的d n a 碱基序列( 仅t 文件) 和图片 形式的d n a 指纹图谱( j p 曲。 软件开发环境为w i n d o w s 操作系统,开发工具为v i s u a lc + + 2 0 0 5 ,开发语言 为c + + ,软件开发中用到微软基础类库m f c 和计算机视觉库o p e n c v 。 m f c 耳p 微软基础类( m i c r o s o f tf o u n d a t i o nc l a s s e s ) ,是一种应用框架和开发 包,随微软v i s u a lc + + 开发工具发布。本软件使用m f c 生成系统框架,以及图 形用户界面,如图2 5 所示。 o p e n c v 是i n t e l 公司支持的开源计算机视觉库,它轻量级而且高效由一 系列c 函数和少量c 阡类构成,实现了图像处理和计算机视觉方面的很多通 用算法。本软件使用o p e n c v q j 的库函数来实现d n a 指纹图片进行图像处理、特 征提取和特征比对识别的工作。 2 4 本章小结 图2 - 5d n a 分析软件启动画面 本章主要描述了d n a 指纹自动分析系统的框架结构,对各个功能模块进行 了简要的概述。介绍了系统开发的软硬件环境,开发工具,为后叙章节的关键技 术讨论给出了整体思路并做出了必要的技术铺垫。 8 北京邮电大学硕士研究生论文 第三章基于碱基序列的d n a 指纹比对分析 本章对基于碱基序列的d n a 指纹酶切分析中的关键技术进行详细阐述,包括 酶切的概念、泳道的概念、酶的建模、模糊识别位点、识别位点的查找、酶切算 法、特征比对等。 3 1 酶切概念 3 1 1 酶切与酶切位点 酶切:限制性内切酶( 核酸酶) 能够特异地结合于一段被称为限制性酶识别序 列的d n a 特异位点,将d n a 序列切割,生成各种长度不同的片段,这个过程就是酶 切。 酶切位点( r e s t r i c t i o ne n z y m ec u t t i n gs i t e ) :d n a 上一段碱基的特定序列,限制 性内切酶能够识别出这个序列并在此将d n a 酶切成两段。每一种酶都对应一个特 定的酶切位点识别字段。 下图3 - 1 为d n a 酶切过程示例,“a a t l i ”是一种内切酶的名称,“g a c g t i c 为该酶切位点的识别字段。每一个切位点识别字段都由前后两段够成,对于示例 内切酶“a a t l i ,识别字段的前段为“g a c g t ,后段为c ”,前段后段之间的 “l 刀不是碱基字符,它只代表切割处,即在该位置将d n a 序列切断。 酶切的过程如下:在d n a 碱基序列中查找酶切位点识别字段,找到了就在此 处将d n a 序列切断。如图3 - 1 所示,在原始d n a 碱基序列中查找酶a a t l i 的切位点识 别字段“g a c g tc ,共找到两处,于是在这两个位置将d n a 碱基序列切断。这样 切割之后共得到三个片段。 n a t l i :g c g t i c 序列:c a g l 坠鲤唧c r a g ( ;坠曼盟c , g u i a 啪踏l 粼龋 切割 i 切割 , i、 c a g t g a c g tc 1 1 a c u i a c - c g a c g tc g g c t a 长度9 长度1 5长度5 图3 - 1 酶切示例 3 1 2 酶切泳道与泳道特征值 酶切泳道:最p d n a 酶切凝胶电泳泳道,每一个限制性内切酶都对应一条酶切 泳道。这个叫法出自传统的d n a 酶切实验【7 】,当d n a 序列酶切完毕之后,用琼脂糖 9 北京邮电大学硕士研究生论文 或聚丙烯酰胺对d n a 溶液进行凝胶电泳以分离d n a 片段,最终能得到和图3 2 类似 的电泳图谱。从图中可以看到,该电泳图谱共有1 ,2 ,3 ,4 ,5 五个纵列,每个纵列 就是一条电泳泳道,每条泳道都对应一个限制性内切酶。各泳道上都有若干白色 横条,这些白色横条就代表d n a 指纹在该泳道上的特征值。横条的条数代表该泳 道上指纹特征值的个数,如图3 - 2 中第3 泳道上共有4 个横条,就代表该泳道有4 个指纹特征值。横条在泳道上的上下位置反映了该特征值的大小,特征值越大, 该特征值所对应横条的位置越靠上,特征值越小,该特征值所对应的横条越靠下。 而特征值实际上就是酶切之后各个d n a 片段的长度。如图3 一l 中的碱基序列,经内 切酶a a t l i 酶切之后,得到长度分别为5 ,9 ,1 5 的三个片段,则称该碱基序列在泳 i t i a a t l i 上有三个d n a 指纹特征值,值分别为5 ,9 ,1 5 。 3 2 酶切模型 图3 - 2d n a 旨纹图谱 3 2 1内切酶建模 根据前面章节3 1 1 中的概念可知,一个内切酶的定义包括以下两个方面 酶的名称、酶切位点识别字段。其中酶切位点识别字段有包括两部分 前段和后段。因此,我们将一个内切酶建模如下图3 3 ,它包含三个字符串型 的属性名称( n a m e ) ,识别字段前段( f r o n t ) ,识别字段后段( b a c k ) 。此外, 还应该有一个i n t 型数组,用来保存酶切之后得到的指纹特征值。 名称( n a m e 、ls t r i n g 型 识别字段前段( f r o n t ) s t r i n g 型 识别字段后段( b a c k ) s t r i n g 型 特征值( v a l u e s ) i n t 数组 图3 - 3 内切酶模型 l o 北京邮电大学硕士研究生论文 在开发工具v i s u a ls t u d i o 中,采用c + + 面向对象技术对作如下定义: c l a s se 】吼n m c s t r i n gn a m e ; c s t r i n gf r o n t ; c s t r i n gb a c k ; v c g t o r v a l u c s ; 其中变量类型v e c t o r 是c + + 标准模板库s t l 中的数据类型【羽,其含意 为数组,数组元素为i n t 型。在c + + 程序中引入数组v e c t o r ,可以大大方便数组 的维护操作,例如数组元素添加、删除、排序。 以图3 - 1 中a a t i i 泳道为例,其酶切位点识别字段为“g a c g tic ,泳道 上有三个特征值5 、9 、1 5 ,则n a m e = a a t i i ”,f r o n t = 1 3 a c g t ”,b a c k = 口, v a l u e s 是维度为3 的数组,v a l u e s 1 e n g t h = 3 ,v a l u e s o - - 5 ,v a l u e s 1 3 = 9 , v a l u e s 2 = 1 5 。 3 2 2 模糊识别位点 对于某些内切酶,其酶切位点识别字段并不是唯一的,字段中的某几个碱基 可以有多种选择。例如酶b c n i 的识别字段就有两种,既可以是c cc g g ”,也可以 是“c cg g g ”,第三个碱基既可以为“c 一又可以为“g ;酶b m g t l 2 0 i 的识别字 段有四种“g l g a c c 、“g i g t c c 砂、“g i g c c c 、“g l g g c c ,第三个碱基可以 是“a “c “g “t 中的任何一个。这类内切酶识别位点称为模糊识别位点, 由于模糊识别位点的识别字段不是唯一的,因此它们出现让酶切问题变得复杂。 拿酶b c n i 为例,其对序列“a t t c c g g g t a g c c c c g g t a c ”的酶切过程示例如图3 4 所 示,可见在出现“c c c g g 和“c c g c ”的位置都要将序列切段。 b c n l :c c ic g g o rc c lg g g 序歹0 :a t t g 鱼鱼鱼t a g g a t 从g c 堡堡垒鱼t a c c cig g g c cic g g 切yi 切誓 a t t c cg g g t a g g a t a a g c c cc g g t a c 长度5 长度1 5 长度6 图3 - 4 模糊识别位点酶切示例 还有更为复杂的模糊识别位点,如酶d r a l l ,其识别字段形如“? g l g ? c c ? 其第一个碱基可以是“a ”或“g ”,第四个碱基可以是“a “c ”“g ”“t 中的 北京邮电大学硕士研究生论文 任何一种,最后一个碱基是“t ”或“c 。容易算出,其所有的识别字段的可能 性将会达到2 4 2 = 1 6 种,分别为“a g i g a c c t 刀、“c a ;f g a c c t 、“a g i g c c c t ”、 “c o g l g c c c t 、“a g i g e 4 :c t 、“g gj g g c c t 、“a g i g t c c t 、“g g l g t c c t 、 “a g i g a c c c 、“g g i g a c c c 、“a g i g c c c c 、“g g l c c c c c 、“a g l g g c c c 、 “g gg g c c c 、“a gg t c c c 、“g gg t c c c 。如此多的识别字段既不易记忆, 又不易维护和使用,即么如何以一种更方便快捷的方式来表述这类模糊识别位点 呢? 我们采用一些特殊字符来描述这些模糊识别位点中不确定碱基的组合关系, 例如酶b c n i 的识别字段有 c c i c g g ”、“c c i g g g 两种,第三个碱基既可以为“c 又可以为“g ,那么用特殊字符“s ”来代表既可以为“c ”又可以为“g 的这 种关系,于是b c n i 的识别字段就由“c c is g g 来表示。同理,上一段中所举例的 酶d r a i i 的识别字段就可以简单的描述为“r g i g n c c y 。我们定义的模糊识别位 点特殊字符与四种碱基的对应规则如表3 - 1 所示。引用的特殊字符,这样一来, 大大简化的模糊识别位点的描述方法,也有助于后续章节有关酶切算法和内切酶 编辑维护等方面的设计与开发。 表3 - 1 模糊酶切识别位点特殊字符表 特殊字符对应碱基组合 rao rg yco rt wao rt sgo rc kgo rt mao rc bco rgo rt dao rgo rt hao rco rt v ao rco rg nao rco rgo rt 3 2 - 3d n a 建模 一个d n a 包含两方面的内容,碱基序列和酶切泳道信息,其模型如图3 - 5 所示。碱基序列s e q u e n c e 是一个字符串型的变量;酶切泳道信息l a n e s 是一个 e n z y m e 类型的数组( 有关e n z y m e 类型的定义见章节3 2 1 ) ,用来记录当前用户 1 2 北京邮电大学硕士研究生论文 感兴趣的各个内切酶的名称、酶切位点识别字段、酶切泳道特征值。 图3 - 5d n a 模型 采用c + + 面向对象技术对一个d n a 类型做如下定义: c l a s sd n a c s t r i n gs e q u e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑幕墙工程防火封堵施工记录填写规范制定方法选择原则
- 潮流计算课程设计结束语
- 13.1 磁场 磁感线 导学案-2022-2023学年高二物理上学期(人教版2019必修第三册)(含答案)
- 农网线路工程设计方法
- 铝单板设计课件
- 癫痫持续状态急救指南
- 结婚祝福设计指南
- 零至六岁儿童眼保健标准
- 如厕活动设计规范
- 鲁迅《药》教学设计
- 2025年江苏省苏豪控股集团有限公司人员招聘笔试备考试题及一套答案详解
- 大学国家安全教育考试试题及答案
- 浙江省台州市2024-2025学年高一下学期期末英语试卷
- 《MWORKS API与工业应用开发》全套教学课件
- 艺人助理合同协议
- 陈皮厂家仓库管理制度
- 通信线路专业维护作业安全技术规范
- 酒店动火作业安全制度模版(2篇)
- 商务合作意向函
- 精读《未来简史》学习通超星期末考试答案章节答案2024年
- JGJ120-2012建筑基坑支护技术规程-20220807013156
评论
0/150
提交评论